Предварительная обработка текстов учебников: различия между версиями
Перейти к навигации
Перейти к поиску
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
||
(не показано 11 промежуточных версий этого же участника) | |||
Строка 1: | Строка 1: | ||
#Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader. | #Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader. | ||
#Сохраняем текст в файл name.odt и просматриваем его в программе LibreOffice Writer на предмет ошибок с помощью спелл-чекера komi.oxt . | #Сохраняем текст в файл name.odt и просматриваем его в программе LibreOffice Writer на предмет ошибок с помощью спелл-чекера komi.oxt. | ||
#Копируем текст учебника в name.txt файл. > копия уходит в корпус коми языка | #Копируем текст учебника в name.txt файл. > копия уходит в корпус коми языка. | ||
#В оставшейся копии, назовем ее name_kv.txt, проводим автоматическую разбивку на предложения скриптом pt.py (в Linux'е! | #В оставшейся копии, назовем ее name_kv.txt, проводим автоматическую разбивку на предложения скриптом pt.py (в Linux'е!). | ||
#Включаем в xed / gedit коми спеллер и удаляем подчеркиваемый контент на русском языке и поурочные словарики. | |||
#Включаем в xed / gedit коми спеллер и удаляем подчеркиваемый контент на русском языке. | #Ищем по поиску все строки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строки, не содержащие предложения / словосочетания. | ||
#Ищем по поиску все | |||
#Сортируем все строки по алфавиту с автоматическим удалением повторов. | #Сортируем все строки по алфавиту с автоматическим удалением повторов. | ||
#Удаляем нумерацию и повторяющиеся начальные элементы строк. | #Удаляем нумерацию и повторяющиеся начальные элементы строк. | ||
#Повторно сортируем и просматриваем весь текст | #Повторно сортируем и просматриваем весь текст, заполняя пропуски, восстанавливая сознательно нарушенный порядок предложений и т.п. (для справки смотрим исходный файл name.txt или name.odt). | ||
#Проводим контрольную вычитку всех строк в name_kv.txt. | |||
#Проводим контрольную вычитку всех строк в | #Делаем копию файла, назвав его name_ru.txt, в которой все строки поочередно переводим, заменяя коми предложение / словосочетание русским. | ||
#Делаем копию | #В программе WinMerge, открыв name_kv.txt и name_ru.txt, проводим контрольную сверку оригинала и перевода, попутно выравнивая строки двух файлов (если случайно была нарушена последовательность строк). | ||
#В программе WinMerge | #Сохраненные файлы с параллельными текстами name_kv.txt и name_ru.txt готовы для дальнейшей обработки программистами. | ||
# |
Текущая версия от 17:17, 14 марта 2023
- Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader.
- Сохраняем текст в файл name.odt и просматриваем его в программе LibreOffice Writer на предмет ошибок с помощью спелл-чекера komi.oxt.
- Копируем текст учебника в name.txt файл. > копия уходит в корпус коми языка.
- В оставшейся копии, назовем ее name_kv.txt, проводим автоматическую разбивку на предложения скриптом pt.py (в Linux'е!).
- Включаем в xed / gedit коми спеллер и удаляем подчеркиваемый контент на русском языке и поурочные словарики.
- Ищем по поиску все строки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строки, не содержащие предложения / словосочетания.
- Сортируем все строки по алфавиту с автоматическим удалением повторов.
- Удаляем нумерацию и повторяющиеся начальные элементы строк.
- Повторно сортируем и просматриваем весь текст, заполняя пропуски, восстанавливая сознательно нарушенный порядок предложений и т.п. (для справки смотрим исходный файл name.txt или name.odt).
- Проводим контрольную вычитку всех строк в name_kv.txt.
- Делаем копию файла, назвав его name_ru.txt, в которой все строки поочередно переводим, заменяя коми предложение / словосочетание русским.
- В программе WinMerge, открыв name_kv.txt и name_ru.txt, проводим контрольную сверку оригинала и перевода, попутно выравнивая строки двух файлов (если случайно была нарушена последовательность строк).
- Сохраненные файлы с параллельными текстами name_kv.txt и name_ru.txt готовы для дальнейшей обработки программистами.