Предварительная обработка текстов учебников: различия между версиями

Текущая версия от 17:17, 14 марта 2023

Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader.
Сохраняем текст в файл name.odt и просматриваем его в программе LibreOffice Writer на предмет ошибок с помощью спелл-чекера komi.oxt.
Копируем текст учебника в name.txt файл. > копия уходит в корпус коми языка.
В оставшейся копии, назовем ее name_kv.txt, проводим автоматическую разбивку на предложения скриптом pt.py (в Linux'е!).
Включаем в xed / gedit коми спеллер и удаляем подчеркиваемый контент на русском языке и поурочные словарики.
Ищем по поиску все строки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строки, не содержащие предложения / словосочетания.
Сортируем все строки по алфавиту с автоматическим удалением повторов.
Удаляем нумерацию и повторяющиеся начальные элементы строк.
Повторно сортируем и просматриваем весь текст, заполняя пропуски, восстанавливая сознательно нарушенный порядок предложений и т.п. (для справки смотрим исходный файл name.txt или name.odt).
Проводим контрольную вычитку всех строк в name_kv.txt.
Делаем копию файла, назвав его name_ru.txt, в которой все строки поочередно переводим, заменяя коми предложение / словосочетание русским.
В программе WinMerge, открыв name_kv.txt и name_ru.txt, проводим контрольную сверку оригинала и перевода, попутно выравнивая строки двух файлов (если случайно была нарушена последовательность строк).
Сохраненные файлы с параллельными текстами name_kv.txt и name_ru.txt готовы для дальнейшей обработки программистами.

@@ Строка 8: / Строка 8: @@
 #Сортируем все строки по алфавиту с автоматическим удалением повторов.
 #Удаляем нумерацию и повторяющиеся начальные элементы строк.
-#Повторно сортируем и просматриваем весь текст.
+#Повторно сортируем и просматриваем весь текст, заполняя пропуски, восстанавливая сознательно нарушенный порядок предложений и т.п. (для справки смотрим исходный файл name.txt или name.odt).
-#Заполняем пропуски и восстанавливаем сознательно нарушенный порядок предложений и т.п. (для справки смотрим исходный файл name.txt или name.odt).
 #Проводим контрольную вычитку всех строк в name_kv.txt.
 #Делаем копию файла, назвав его name_ru.txt, в которой все строки поочередно переводим, заменяя коми предложение / словосочетание русским.
-#В программе WinMerge, открыв name_kv.txt и name_ru.txt, проводим контрольную сверку оригинала и перевода, попутно выравнивания строки двух файлов (если случайно  была нарушена последовательность строк).
+#В программе WinMerge, открыв name_kv.txt и name_ru.txt, проводим контрольную сверку оригинала и перевода, попутно выравнивая строки двух файлов (если случайно  была нарушена последовательность строк).
-#Файлы с параллельными текстами name_kv.txt и name_ru.txt готовы для дальнейшей обработки программистами.
+#Сохраненные файлы с параллельными текстами name_kv.txt и name_ru.txt готовы для дальнейшей обработки программистами.

Предварительная обработка текстов учебников: различия между версиями

Текущая версия от 17:17, 14 марта 2023

Навигация

Поиск