Предварительная обработка текстов учебников: различия между версиями

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску
Нет описания правки
Нет описания правки
Строка 4: Строка 4:
#Копируем текст учебника в name.txt  файл. > копия уходит в корпус коми языка.
#Копируем текст учебника в name.txt  файл. > копия уходит в корпус коми языка.
#В оставшейся копии, назовем ее name_kv.txt, проводим автоматическую разбивку на предложения скриптом pt.py (в Linux'е!).
#В оставшейся копии, назовем ее name_kv.txt, проводим автоматическую разбивку на предложения скриптом pt.py (в Linux'е!).
#Удаляем все строчки, содержащие поурочные словарики (в xed или gedit  поиск по "—" хорошо их выделяет).
#Включаем в xed / gedit коми спеллер и удаляем подчеркиваемый контент  на русском языке и поурочные словарики..
#Включаем в xed / gedit коми спеллер и удаляем подчеркиваемый контент  на русском языке.
#Ищем по поиску все строки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строки, не содержащие предложения / словосочетания.
#Ищем по поиску все строки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строки, не содержащие предложения / словосочетания.
#Сортируем все строки по алфавиту с автоматическим удалением повторов.
#Сортируем все строки по алфавиту с автоматическим удалением повторов.

Версия от 16:33, 14 марта 2023

  1. Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader.
  2. Сохраняем текст в файл name.odt и просматриваем его в программе LibreOffice Writer на предмет ошибок с помощью спелл-чекера komi.oxt.
  3. Копируем текст учебника в name.txt файл. > копия уходит в корпус коми языка.
  4. В оставшейся копии, назовем ее name_kv.txt, проводим автоматическую разбивку на предложения скриптом pt.py (в Linux'е!).
  5. Включаем в xed / gedit коми спеллер и удаляем подчеркиваемый контент на русском языке и поурочные словарики..
  6. Ищем по поиску все строки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строки, не содержащие предложения / словосочетания.
  7. Сортируем все строки по алфавиту с автоматическим удалением повторов.
  8. Удаляем нумерацию и повторяющиеся начальные элементы строк.
  9. Повторно сортируем и просматриваем весь текст.
  10. Заполняем пропуски и восстанавливаем сознательно нарушенный порядок предложений и т.п. (для справки смотрим исходный файл name.txt или name.odt).
  11. Проводим контрольную вычитку всех строк в name_kv.txt.
  12. Делаем копию файла, назвав его name_ru.txt, в которой все строки поочередно переводим, заменяя коми предложение / словосочетание русским.
  13. В программе WinMerge, открыв name_kv.txt и name_ru.txt, проводим контрольную сверку оригинала и перевода, попутно выравнивания строки двух файлов (если случайно была нарушена последовательность строк).
  14. Файлы с параллельными текстами name_kv.txt и name_ru.txt готовы для дальнейшей обработки программистами.