Предварительная обработка текстов учебников
Версия от 15:55, 14 марта 2023; Ӧньӧ Лав (обсуждение | вклад) (Новая страница: « #Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader. #Прогоняем текст через спелл-чекер komi.oxt и исправляем ошибки в программе LibreOffice Writer. #Копируем текст учебника в .txt файл. > копия уходит в корпус коми языка #В оставшейся копии проводим автом...»)
- Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader.
- Прогоняем текст через спелл-чекер komi.oxt и исправляем ошибки в программе LibreOffice Writer.
- Копируем текст учебника в .txt файл. > копия уходит в корпус коми языка
- В оставшейся копии проводим автоматическую разбивку на предложения скриптом pt.py
- Удаляем все строчки, содержащие поурочные словарики (поиск в xed по — хорошо их выделяет).
- Включаем коми спеллер и удаляем подчеркиваемый контент на русском языке.
- Ищем по поиску все строчки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строчки, не включающие фразы.
- Сортируем все строки по алфавиту с автоматическим удалением повторов.
- Удаляем нумерацию и повторяющиеся начальные элементы строк.
- Повторно сортируем и просматриваем весь текст.
- Переводим строки, заполняя пропуски и восстанавливая нарушенный порядок.
- Контрольная вычитка всех строк.