Выравнивание текстов на коми и русском языках: различия между версиями

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску
Нет описания правки
Строка 11: Строка 11:
  Файлы сравниваются в программе WinMerge. Выправление идет, как правило, по тексту оригинала. Но если два и более предложения переведены одним, то исходные предложения объединяются в  одну строчку.
  Файлы сравниваются в программе WinMerge. Выправление идет, как правило, по тексту оригинала. Но если два и более предложения переведены одним, то исходные предложения объединяются в  одну строчку.


==Особенности обработки текстов.==
==Особенности обработки текстов==
  Тексты художественной прозы переводились весьма вольно. Поэтому они подвергались частичному исправлению в целях приближения к смыслу оригинала.
  Тексты художественной прозы переводились весьма вольно. Поэтому они подвергались частичному исправлению в целях приближения к смыслу оригинала.
  Орфография коми текстов приводилась в соотвествие с ныне действующими правилами, орфографические ошибки русских текстов также исправлялись.
  Орфография коми текстов приводилась в соотвествие с ныне действующими правилами, орфографические ошибки русских текстов также исправлялись.
  Остается спорным вопрос модернизации лексики. В эпоху советской русификации исконная лексика вытеснялась, поэтому в переводах наблюдается явный перебор с заимствованиями.
  Остается спорным вопрос модернизации лексики. В эпоху советской русификации исконная лексика вытеснялась, поэтому в переводах наблюдается явный перебор с заимствованиями.
==Проверка результатов онлайн==
Тексты загружаются в соответствующий раздел видзаніна в папки ru и kv.
Запускается скрипт обновления базы
Поиск предложений осуществляется по русской лексеме с учетом дополнительных опций в параллельном корпусе rus.komicorpora.ru
Результат выдается парами предложений (ru-kv) с выделенным искомым русским словом.

Версия от 20:15, 10 сентября 2022

Выравнивание по строчкам (предложениям) текстов на двух языках имеет своей целью создание параллельного корпуса текстов, который затем будет использован как (в частности) база данных для онлайн переводчика.

Источники

Источниками параллельных текстов являются тексты учебной, художественной и публицистической литературы. Как правило это русскоязычные оригиналы / переводы *Почти все тексты на коми языке получены в результате распознавания отсканированного материала сотрудниками лаборатории.
Тексты на русском языка подбираются с просторов интернета.

Порядок выравнивания

Тексты очищаются от лишних элементов и загружаются  в папки ru и kv папки input.  
В терминале запускается программа деления по точке с учетом исключений. 
Результат забираем из папки output.
Файлы сравниваются в программе WinMerge. Выправление идет, как правило, по тексту оригинала. Но если два и более предложения переведены одним, то исходные предложения объединяются в  одну строчку.

Особенности обработки текстов

Тексты художественной прозы переводились весьма вольно. Поэтому они подвергались частичному исправлению в целях приближения к смыслу оригинала.
Орфография коми текстов приводилась в соотвествие с ныне действующими правилами, орфографические ошибки русских текстов также исправлялись.
Остается спорным вопрос модернизации лексики. В эпоху советской русификации исконная лексика вытеснялась, поэтому в переводах наблюдается явный перебор с заимствованиями.

Проверка результатов онлайн

Тексты загружаются в соответствующий раздел видзаніна в папки ru и kv.
Запускается скрипт обновления базы
Поиск предложений осуществляется по русской лексеме с учетом дополнительных опций в параллельном корпусе rus.komicorpora.ru
Результат выдается парами предложений (ru-kv) с выделенным искомым русским словом.