Выравнивание текстов на коми и русском языках

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску

Выравнивание по строчкам (предложениям) текстов на двух языках имеет своей целью создание параллельного корпуса текстов, который затем будет использован как (в частности) база данных для онлайн переводчика.

Источники

Источниками параллельных текстов являются тексты учебной, художественной и публицистической литературы. Как правило это русскоязычные оригиналы / переводы *Почти все тексты на коми языке получены в результате распознавания отсканированного материала сотрудниками лаборатории.
Тексты на русском языка подбираются с просторов интернета.

Порядок выравнивания

Тексты очищаются от лишних элементов и загружаются  в папки ru и kv папки input.  
В терминале запускается программа деления по точке с учетом исключений. 
Результат забираем из папки output.
Файлы сравниваются в программе WinMerge. Выправление идет, как правило по тексту оригинала. Но если два и более предложения переведены одним, то исходные предложения объединяются в  одну строчку.

Особенности обработки текстов.

Тексты художественной прозы переводились весьма вольно. Поэтому они подвергались частичному исправлению в целях приближения к смыслу оригинала.
Орфография коми текстов приводилась в соотвествие с ныне действующими правилами, орфографические ошибки русских текстов также исправлялись.
Остается спорным вопрос модернизации лексики. В эпоху советской русификации исконная лексика вытеснялась, поэтому в переводах наблюдается явный перебор с заимствованиями.