Предварительная обработка текстов учебников: различия между версиями
Перейти к навигации
Перейти к поиску
Ӧньӧ Лав (обсуждение | вклад) (Новая страница: « #Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader. #Прогоняем текст через спелл-чекер komi.oxt и исправляем ошибки в программе LibreOffice Writer. #Копируем текст учебника в .txt файл. > копия уходит в корпус коми языка #В оставшейся копии проводим автом...») |
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
||
Строка 1: | Строка 1: | ||
#Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader. | #Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader. | ||
# | #Сохраняем текст в файл name.odt и просматриваем его в программе LibreOffice Writer на предмет ошибок с помощью спелл-чекера komi.oxt . | ||
#Копируем текст учебника в .txt файл. > копия уходит в корпус коми языка | #Копируем текст учебника в name.txt файл. > копия уходит в корпус коми языка | ||
#В оставшейся копии проводим автоматическую разбивку на предложения скриптом pt.py | #В оставшейся копии, назовем ее name_kv.txt, проводим автоматическую разбивку на предложения скриптом pt.py (в Linux'е!) | ||
#Удаляем все строчки, содержащие поурочные словарики (поиск в xed по — хорошо их выделяет). | #Удаляем все строчки, содержащие поурочные словарики (поиск в xed или gedit по "—" хорошо их выделяет). | ||
#Включаем коми спеллер и удаляем подчеркиваемый контент на русском языке. | #Включаем в xed / gedit коми спеллер и удаляем подчеркиваемый контент на русском языке. | ||
#Ищем по поиску все строчки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строчки, не | #Ищем по поиску все строчки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строчки, не содержащие предложения / словочочетания. | ||
#Сортируем все строки по алфавиту с автоматическим удалением повторов. | #Сортируем все строки по алфавиту с автоматическим удалением повторов. | ||
#Удаляем нумерацию и повторяющиеся начальные элементы строк. | #Удаляем нумерацию и повторяющиеся начальные элементы строк. | ||
#Повторно сортируем и просматриваем весь текст. | #Повторно сортируем и просматриваем весь текст. | ||
# | #Заполняем пропуски и восстанавливаем сознательно нарушенный порядок предложений и т.п. (для справки смотрим исходный файл name.txt или name.odt). | ||
# | #Проводим контрольную вычитку всех строк в name.kv.txt. | ||
#Делаем копию name.ru.txt, в которой все строки поочередно переводим, заменяя коми предложение / словосочетание русским. | |||
#В программе WinMerge проводим name_kv.txt и name.ru.txt и контрольную сверку оригинала и перевода, попутно выравнивание строк двух файлов (если случайно была нарушена последовательность) | |||
#Файлы с параллельными текстами name_kv.txt и name.ru.txt готовы для дальнейших манипуляций программистами. |
Версия от 16:10, 14 марта 2023
- Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader.
- Сохраняем текст в файл name.odt и просматриваем его в программе LibreOffice Writer на предмет ошибок с помощью спелл-чекера komi.oxt .
- Копируем текст учебника в name.txt файл. > копия уходит в корпус коми языка
- В оставшейся копии, назовем ее name_kv.txt, проводим автоматическую разбивку на предложения скриптом pt.py (в Linux'е!)
- Удаляем все строчки, содержащие поурочные словарики (поиск в xed или gedit по "—" хорошо их выделяет).
- Включаем в xed / gedit коми спеллер и удаляем подчеркиваемый контент на русском языке.
- Ищем по поиску все строчки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строчки, не содержащие предложения / словочочетания.
- Сортируем все строки по алфавиту с автоматическим удалением повторов.
- Удаляем нумерацию и повторяющиеся начальные элементы строк.
- Повторно сортируем и просматриваем весь текст.
- Заполняем пропуски и восстанавливаем сознательно нарушенный порядок предложений и т.п. (для справки смотрим исходный файл name.txt или name.odt).
- Проводим контрольную вычитку всех строк в name.kv.txt.
- Делаем копию name.ru.txt, в которой все строки поочередно переводим, заменяя коми предложение / словосочетание русским.
- В программе WinMerge проводим name_kv.txt и name.ru.txt и контрольную сверку оригинала и перевода, попутно выравнивание строк двух файлов (если случайно была нарушена последовательность)
- Файлы с параллельными текстами name_kv.txt и name.ru.txt готовы для дальнейших манипуляций программистами.