Предварительная обработка текстов учебников: различия между версиями

Версия от 16:11, 14 марта 2023

Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader.
Сохраняем текст в файл name.odt и просматриваем его в программе LibreOffice Writer на предмет ошибок с помощью спелл-чекера komi.oxt.
Копируем текст учебника в name.txt файл. > копия уходит в корпус коми языка.
В оставшейся копии, назовем ее name_kv.txt, проводим автоматическую разбивку на предложения скриптом pt.py (в Linux'е!).
Удаляем все строчки, содержащие поурочные словарики (поиск в xed или gedit по "—" хорошо их выделяет).
Включаем в xed / gedit коми спеллер и удаляем подчеркиваемый контент на русском языке.
Ищем по поиску все строчки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строчки, не содержащие предложения / словочочетания.
Сортируем все строки по алфавиту с автоматическим удалением повторов.
Удаляем нумерацию и повторяющиеся начальные элементы строк.
Повторно сортируем и просматриваем весь текст.
Заполняем пропуски и восстанавливаем сознательно нарушенный порядок предложений и т.п. (для справки смотрим исходный файл name.txt или name.odt).
Проводим контрольную вычитку всех строк в name.kv.txt.
Делаем копию name.ru.txt, в которой все строки поочередно переводим, заменяя коми предложение / словосочетание русским.
В программе WinMerge проводим name_kv.txt и name.ru.txt и контрольную сверку оригинала и перевода, попутно выравнивание строк двух файлов (если случайно была нарушена последовательность).
Файлы с параллельными текстами name_kv.txt и name.ru.txt готовы для дальнейших манипуляций программистами.

@@ Строка 1: / Строка 1: @@
 #Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader.
-#Сохраняем текст в файл name.odt  и просматриваем его в программе LibreOffice Writer на предмет ошибок с помощью спелл-чекера komi.oxt .
+#Сохраняем текст в файл name.odt  и просматриваем его в программе LibreOffice Writer на предмет ошибок с помощью спелл-чекера komi.oxt.
-#Копируем текст учебника в name.txt  файл. > копия уходит в корпус коми языка
+#Копируем текст учебника в name.txt  файл. > копия уходит в корпус коми языка.
-#В оставшейся копии, назовем ее name_kv.txt, проводим автоматическую разбивку на предложения скриптом pt.py (в Linux'е!)
+#В оставшейся копии, назовем ее name_kv.txt, проводим автоматическую разбивку на предложения скриптом pt.py (в Linux'е!).
 #Удаляем все строчки, содержащие поурочные словарики (поиск в xed или gedit по "—" хорошо их выделяет).
 #Включаем в xed / gedit коми спеллер и удаляем подчеркиваемый контент  на русском языке.
@@ Строка 13: / Строка 13: @@
 #Проводим контрольную вычитку всех строк в name.kv.txt.
 #Делаем копию name.ru.txt, в которой все строки поочередно переводим, заменяя коми предложение / словосочетание русским.
-#В программе WinMerge проводим name_kv.txt и name.ru.txt  и контрольную сверку оригинала и перевода, попутно выравнивание строк двух файлов (если случайно  была нарушена последовательность)
+#В программе WinMerge проводим name_kv.txt и name.ru.txt  и контрольную сверку оригинала и перевода, попутно выравнивание строк двух файлов (если случайно  была нарушена последовательность).
 #Файлы с параллельными текстами name_kv.txt и name.ru.txt готовы для дальнейших манипуляций программистами.

Предварительная обработка текстов учебников: различия между версиями

Версия от 16:11, 14 марта 2023

Навигация

Поиск