Выравнивание текстов на коми и русском языках: различия между версиями

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску
Строка 2: Строка 2:


==Источники==
==Источники==
  Источниками параллельных текстов являются тексты учебной, художественной и публицистической литературы.
  Источниками параллельных текстов являются тексты учебной, художественной, публицистической и официальной литературы.
  Как правило это оригиналы на русском и их переводы на коми язык.
  Как правило это оригиналы на русском и их переводы на коми язык.
  Почти все тексты на коми языке получены в результате распознавания отсканированного материала сотрудниками лаборатории.
  Большинство текстов художественной, публицистической и учебной прозы на коми языке получены в результате распознавания отсканированного материала сотрудниками лаборатории.
  Тексты на русском языка подбираются с просторов интернета.
  Художественные, публицистические и учебные тексты на русском языка, как правило скачаны с просторов интернета.
Источником официальных текстов является база бюро официального перевода и публикации в издании "Ведомости нормативно-правовых актов органов государственной власти Республики Коми".
Частично учебные тексты переводятся и с русского на коми сотрудниками лаборатории.


==Порядок выравнивания==
==Порядок выравнивания==

Версия от 20:22, 10 сентября 2022

Выравнивание по строчкам (предложениям) текстов на двух языках имеет своей целью создание параллельного корпуса текстов, который затем будет использован как (в частности) база данных для онлайн переводчика.

Источники

Источниками параллельных текстов являются тексты учебной, художественной, публицистической и официальной литературы.
Как правило это оригиналы на русском и их переводы на коми язык.
Большинство текстов художественной, публицистической и учебной прозы на коми языке получены в результате распознавания отсканированного материала сотрудниками лаборатории.
Художественные, публицистические и учебные тексты на русском языка, как правило скачаны с просторов интернета.
Источником официальных текстов является база бюро официального перевода и публикации в издании "Ведомости нормативно-правовых актов органов государственной власти Республики Коми".
Частично учебные тексты переводятся и с русского на коми сотрудниками лаборатории.

Порядок выравнивания

Тексты очищаются от лишних элементов и загружаются  в папки ru и kv папки input.  
В терминале запускается программа деления по точке с учетом исключений. 
Результат забираем из папки output.
Файлы сравниваются в программе WinMerge. Выправление идет, как правило, по тексту оригинала. Но если два и более предложения переведены одним, то исходные предложения объединяются в  одну строчку.

Особенности обработки текстов

Тексты художественной прозы переводились весьма вольно. Поэтому они подвергались частичному исправлению в целях приближения к смыслу оригинала.
Орфография коми текстов приводилась в соотвествие с ныне действующими правилами, орфографические ошибки русских текстов также исправлялись.
Остается спорным вопрос модернизации лексики. В эпоху советской русификации исконная лексика вытеснялась, поэтому в переводах наблюдается явный перебор с заимствованиями.

Проверка результатов онлайн

Тексты загружаются в соответствующий раздел видзаніна в папки ru и kv.
Запускается скрипт обновления базы
Поиск предложений осуществляется по русской лексеме с учетом дополнительных опций в параллельном корпусе rus.komicorpora.ru
Результат выдается парами предложений (ru-kv) с выделенным искомым русским словом.