Предварительная обработка текстов учебников: различия между версиями

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску
(Новая страница: « #Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader. #Прогоняем текст через спелл-чекер komi.oxt и исправляем ошибки в программе LibreOffice Writer. #Копируем текст учебника в .txt файл. > копия уходит в корпус коми языка #В оставшейся копии проводим автом...»)
 
Нет описания правки
Строка 1: Строка 1:


#Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader.
#Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader.
#Прогоняем текст через спелл-чекер komi.oxt и исправляем ошибки в программе LibreOffice Writer.  
#Сохраняем текст в файл name.odt  и просматриваем его в программе LibreOffice Writer на предмет ошибок с помощью спелл-чекера komi.oxt .  
#Копируем текст учебника в .txt  файл. > копия уходит в корпус коми языка
#Копируем текст учебника в name.txt  файл. > копия уходит в корпус коми языка
#В оставшейся копии проводим автоматическую разбивку на предложения скриптом pt.py
#В оставшейся копии, назовем ее name_kv.txt, проводим автоматическую разбивку на предложения скриптом pt.py (в Linux'е!)
#Удаляем все строчки, содержащие поурочные словарики (поиск в xed по — хорошо их выделяет).
#Удаляем все строчки, содержащие поурочные словарики (поиск в xed или gedit по "" хорошо их выделяет).
#Включаем коми спеллер и удаляем подчеркиваемый контент  на русском языке.
#Включаем в xed / gedit коми спеллер и удаляем подчеркиваемый контент  на русском языке.
#Ищем по поиску все строчки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строчки, не включающие фразы.
#Ищем по поиску все строчки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строчки, не содержащие предложения / словочочетания.
#Сортируем все строки по алфавиту с автоматическим удалением повторов.
#Сортируем все строки по алфавиту с автоматическим удалением повторов.
#Удаляем нумерацию и повторяющиеся начальные элементы строк.
#Удаляем нумерацию и повторяющиеся начальные элементы строк.
#Повторно сортируем и просматриваем весь текст.
#Повторно сортируем и просматриваем весь текст.
#Переводим строки, заполняя пропуски и восстанавливая нарушенный порядок.
#Заполняем пропуски и восстанавливаем сознательно нарушенный порядок предложений и т.п. (для справки смотрим исходный файл name.txt или name.odt).
#Контрольная вычитка всех строк.
#Проводим контрольную вычитку всех строк в name.kv.txt.
#Делаем копию name.ru.txt, в которой все строки поочередно переводим, заменяя коми предложение / словосочетание русским.
#В программе WinMerge проводим name_kv.txt и name.ru.txt  и контрольную сверку оригинала и перевода, попутно выравнивание строк двух файлов (если случайно  была нарушена последовательность)
#Файлы с параллельными текстами name_kv.txt и name.ru.txt готовы для дальнейших манипуляций программистами.

Версия от 16:10, 14 марта 2023

  1. Сканируем, распознаем и вычитываем текст в программе ABBYY FineReader.
  2. Сохраняем текст в файл name.odt и просматриваем его в программе LibreOffice Writer на предмет ошибок с помощью спелл-чекера komi.oxt .
  3. Копируем текст учебника в name.txt файл. > копия уходит в корпус коми языка
  4. В оставшейся копии, назовем ее name_kv.txt, проводим автоматическую разбивку на предложения скриптом pt.py (в Linux'е!)
  5. Удаляем все строчки, содержащие поурочные словарики (поиск в xed или gedit по "—" хорошо их выделяет).
  6. Включаем в xed / gedit коми спеллер и удаляем подчеркиваемый контент на русском языке.
  7. Ищем по поиску все строчки, не заканчивающиеся точкой, восстанавливаем единство предложений в стихотворных отрывках и удаляем все строчки, не содержащие предложения / словочочетания.
  8. Сортируем все строки по алфавиту с автоматическим удалением повторов.
  9. Удаляем нумерацию и повторяющиеся начальные элементы строк.
  10. Повторно сортируем и просматриваем весь текст.
  11. Заполняем пропуски и восстанавливаем сознательно нарушенный порядок предложений и т.п. (для справки смотрим исходный файл name.txt или name.odt).
  12. Проводим контрольную вычитку всех строк в name.kv.txt.
  13. Делаем копию name.ru.txt, в которой все строки поочередно переводим, заменяя коми предложение / словосочетание русским.
  14. В программе WinMerge проводим name_kv.txt и name.ru.txt и контрольную сверку оригинала и перевода, попутно выравнивание строк двух файлов (если случайно была нарушена последовательность)
  15. Файлы с параллельными текстами name_kv.txt и name.ru.txt готовы для дальнейших манипуляций программистами.