Выравнивание текстов на коми и русском языках

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску

Выравнивание по строчкам (предложениям) текстов на двух языках имеет своей целью создание параллельного корпуса текстов, который затем будет использован как (в частности) база данных для онлайн переводчика.

Источники

Источниками параллельных текстов являются тексты учебной, художественной, публицистической и официальной литературы.
Как правило это оригиналы на русском и их переводы на коми язык.
Большинство текстов художественной, публицистической и учебной прозы на коми языке получены в результате распознавания отсканированного материала сотрудниками лаборатории.
Художественные, публицистические и учебные тексты на русском языке, как правило, скачаны с просторов интернета.
Источником официальных текстов является база бюро официального перевода и публикации в издании "Ведомости нормативно-правовых актов органов государственной власти Республики Коми".
Частично учебные тексты, а также тексты официальных сайтов переводятся с русского на коми сотрудниками лаборатории.
Переводы интерфейсов сайтов, приложений и т.п., а также материал словарей также планируется включить в параллельный корпус.

Порядок выравнивания

Тексты очищаются в текстовом редакторе (xed, gedit и т.п.) от лишних элементов.
Файлы с расширением .txt загружаются  в папки ru и kv папки input. 
В терминале запускается программа деления по точке с учетом исключений pt.py.
Результат, два файла с расширением .txt, забираем из папки output.
Автоматически разбитые на предложения русский и коми файлы сравниваются в программе WinMerge. Выправление идет, как правило, по тексту оригинала. Но если два и более предложения переведены одним, то исходные предложения объединяются в  одну строчку.
Крупные части русского текста, которые не имеют соответствия в коми переводе, удаляются.
Если в оригинале или переводе нет соответствия отдельному русскому или коми предложению, во втором варианте проставляется тег abu ("нет" по-коми). 
В дальнейшем, коми предложения, соответствия которым по каким-то причинам нет в русском тексте, должны быть переведены на русский язык и добавлены в русский текст.

Особенности обработки художественных текстов

Тексты художественной прозы в свое время переводились с русского на коми весьма вольно. 
Когда сбор параллельных текстов у нас только начинался (в 2021 г.), мы решили при выравнивании сразу подвергать коми переводы частичному исправлению в целях приближения к смыслу оригинала.  Орфография коми текстов приводилась в соответствие с ныне действующими правилами, частично модернизировалась и лексика, т.к. в эпоху советской русификации исконная коми лексика активно вытеснялась из литературного языка, поэтому в переводах наблюдается явный перебор с заимствованиями. В русле этого подхода было выравнено ок. 90 тыс. предложений.
В 2022 году мы пришли к убеждению, что аутентичный перевод также представляет ценность как историческое явление, которое может быть представлено обществу в виде онлайн сервиса "Параллельный русско-коми корпус". Возобладавший принцип сохранения аутентичности, выразился в том, что на этапе сбора параллельного корпуса исправлению подлежали только явные опечатки в коми и русских текстах. В рамках реализации данного принципа выравнены ок. 450 тысяч предложений.
Дальнейшая предобработка текстов - орфографическая унификация и модернизация лексики, остается на этап подготовки параллельного корпуса к загрузке в нейросеть. 
Остается спорным вопрос модернизации лексики. Здесь необходимо выработать четкие критерии, внесение каких изменений является функционально необходимым, а что является избыточным.

Проверка результатов онлайн

Тексты загружаются в специальный раздел на сервере в папки ru и kv.
Запускается скрипт обновления базы.
Поиск предложений осуществляется по русской лексеме с учетом дополнительных опций в русско-коми корпусе параллельных текстов, онлайн-сервис которого  открыт всем пользователям сети интернет.
Результат выдается парами предложений (ru-kv) с выделенным искомым русским словом.
В целях проверки результатов в ходе дальнейшей обработки текстов, создан аналогичный сервис для служебного использования.