Предварительная обработка текстов учебников

Материал из Wiki FU-Lab
Версия от 15:55, 14 марта 2023; Ӧньӧ Лав (обсуждение | вклад) (Новая страница: « #Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader. #Прогоняем текст через спелл-чекер komi.oxt и исправляем ошибки в программе LibreOffice Writer. #Копируем текст учебника в .txt файл. > копия уходит в корпус коми языка #В оставшейся копии проводим автом...»)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигации Перейти к поиску
  1. Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader.
  2. Прогоняем текст через спелл-чекер komi.oxt и исправляем ошибки в программе LibreOffice Writer.
  3. Копируем текст учебника в .txt файл. > копия уходит в корпус коми языка
  4. В оставшейся копии проводим автоматическую разбивку на предложения скриптом pt.py
  5. Удаляем все строчки, содержащие поурочные словарики (поиск в xed по — хорошо их выделяет).
  6. Включаем коми спеллер и удаляем подчеркиваемый контент на русском языке.
  7. Ищем по поиску все строчки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строчки, не включающие фразы.
  8. Сортируем все строки по алфавиту с автоматическим удалением повторов.
  9. Удаляем нумерацию и повторяющиеся начальные элементы строк.
  10. Повторно сортируем и просматриваем весь текст.
  11. Переводим строки, заполняя пропуски и восстанавливая нарушенный порядок.
  12. Контрольная вычитка всех строк.