Предварительная обработка текстов учебников

Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader.
Прогоняем текст через спелл-чекер komi.oxt и исправляем ошибки в программе LibreOffice Writer.
Копируем текст учебника в .txt файл. > копия уходит в корпус коми языка
В оставшейся копии проводим автоматическую разбивку на предложения скриптом pt.py
Удаляем все строчки, содержащие поурочные словарики (поиск в xed по — хорошо их выделяет).
Включаем коми спеллер и удаляем подчеркиваемый контент на русском языке.
Ищем по поиску все строчки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строчки, не включающие фразы.
Сортируем все строки по алфавиту с автоматическим удалением повторов.
Удаляем нумерацию и повторяющиеся начальные элементы строк.
Повторно сортируем и просматриваем весь текст.
Переводим строки, заполняя пропуски и восстанавливая нарушенный порядок.
Контрольная вычитка всех строк.

Предварительная обработка текстов учебников

Навигация

Поиск