Выравнивание текстов на коми и русском языках: различия между версиями

Версия от 13:34, 25 февраля 2023

Выравнивание по строчкам (предложениям) текстов на двух языках имеет своей целью создание параллельного корпуса текстов, который затем будет использован как (в частности) база данных для онлайн переводчика.

Источники

Источниками параллельных текстов являются тексты учебной, художественной, публицистической и официальной литературы.
Как правило это оригиналы на русском и их переводы на коми язык.
Большинство текстов художественной, публицистической и учебной прозы на коми языке получены в результате распознавания отсканированного материала сотрудниками лаборатории.
Художественные, публицистические и учебные тексты на русском языка, как правило, скачаны с просторов интернета.
Источником официальных текстов является база бюро официального перевода и публикации в издании "Ведомости нормативно-правовых актов органов государственной власти Республики Коми".
Частично учебные тексты, а также тексты официальных сайтов переводятся с русского на коми сотрудниками лаборатории.

Порядок выравнивания

Тексты очищаются от лишних элементов в текстовом редакторе (xed, gedit и т.п.).
Файлы с расширением .txt загружаются  в папки ru и kv папки input. 
В терминале запускается программа деления по точке с учетом исключений pt.py.
Результат, два файла с расширением .txt, забираем из папки output.

Русский и коми файлы сравниваются в программе WinMerge. Выправление идет, как правило, по тексту оригинала. Но если два и более предложения переведены одним, то исходные предложения объединяются в  одну строчку.
Крупные части русского текста, которые не имеют соответствия в коми переводе, удаляются.
Если коми соответствий нет отдельным русском или коми предложениям, во втором варианте проставляется тег abu ("нет" по-коми). 
В дальнейшем, коми предложения, соответствия которым по каким-то причинам нет в русском тексте, должны быть переведены на русский язык и добавлены в русский текст.

Особенности обработки художественных текстов

Тексты художественной прозы в свое время переводились с русского на коми весьма вольно.
Когда сбор параллельных текстов у нас только начинался (в 2021 г.), мы решили при выравнивании сразу подвергать коми переводы частичному исправлению в целях приближения к смыслу оригинала. Орфография коми текстов приводилась в соответствие с ныне действующими правилами, частично модернизировалась и лексика, т.к. в эпоху советской русификации исконная коми лексика активно вытеснялась из литературного языка, поэтому в переводах наблюдается явный перебор с заимствованиями. В русле этого подхода было выравнено ок. 90 тыс. предложений.
В 2022 году мы пришли к убеждению, что аутентичный перевод также представляет ценность как историческое явление, которое может быть представлено обществу в виде онлайн сервиса "Параллельный русско-коми корпус". Возобладавший принцип сохранения аутентичности, выразился в том, что на этапе сбора параллельного корпуса исправлению подлежали только явные опечатки в коми и русских текстах. В рамках реализации данного принципа выравнены ок. 450 тысяч предложений.
Дальнейшая предобработка текстов - орфографическая унификация и модернизация лексики, остается на этап подготовки параллельного корпуса к загрузке в нейросеть.
Остается спорным вопрос модернизации лексики. Здесь необходимо выработать четкие критерии, внесение каких изменений является функционально необходимым, а что является избыточным.

Проверка результатов онлайн

Тексты загружаются в соответствующий раздел видзаніна в папки ru и kv.
Запускается скрипт обновления базы.
Поиск предложений осуществляется по русской лексеме с учетом дополнительных опций в параллельном корпусе rus.komicorpora.ru
Результат выдается парами предложений (ru-kv) с выделенным искомым русским словом.