Выравнивание текстов на коми и русском языках

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску

Выравнивание по строчкам (предложениям) текстов на двух языках имеет своей целью создание параллельного корпуса текстов, который затем будет использован как (в частности) база данных для онлайн переводчика.

Источники

Источниками параллельных текстов являются тексты учебной, художественной, публицистической и официальной литературы.
Как правило это оригиналы на русском и их переводы на коми язык.
Большинство текстов художественной, публицистической и учебной прозы на коми языке получены в результате распознавания отсканированного материала сотрудниками лаборатории.
Художественные, публицистические и учебные тексты на русском языке, как правило, скачаны с просторов интернета.
Источником официальных текстов является база бюро официального перевода и публикации в издании "Ведомости нормативно-правовых актов органов государственной власти Республики Коми".
Частично учебные тексты, а также тексты официальных сайтов переводятся с русского на коми сотрудниками лаборатории.
Переводы интерфейсов сайтов, приложений и т.п., а также материал словарей также планируется включить в параллельный корпус.

Порядок выравнивания

Тексты очищаются в текстовом редакторе (xed, gedit и т.п.) от лишних элементов.
Файлы с расширением .txt загружаются  в папки ru и kv папки input. 
В терминале запускается программа деления по точке с учетом исключений pt.py.
Результат, два файла с расширением .txt, забираем из папки output.
Автоматически разбитые на предложения русский и коми файлы сравниваются в программе WinMerge. Выправление идет, как правило, по тексту оригинала. Но если два и более предложения переведены одним, то исходные предложения объединяются в  одну строчку.
Крупные части русского текста, которые не имеют соответствия в коми переводе, удаляются.
Если в оригинале или переводе нет соответствия отдельному русскому или коми предложению, во втором варианте проставляется тег abu ("нет" по-коми). 
В дальнейшем, коми предложения, соответствия которым по каким-то причинам нет в русском тексте, должны быть переведены на русский язык и добавлены в русский текст.

Особенности обработки художественных текстов

Тексты художественной прозы в свое время переводились с русского на коми весьма вольно. 
Когда сбор параллельных текстов у нас только начинался (в 2021 г.), мы решили при выравнивании сразу подвергать коми переводы частичному исправлению в целях приближения к смыслу оригинала.  Орфография коми текстов приводилась в соответствие с ныне действующими правилами, частично модернизировалась и лексика, т.к. в эпоху советской русификации исконная коми лексика активно вытеснялась из литературного языка, поэтому в переводах наблюдается явный перебор с заимствованиями. В русле этого подхода было выравнено ок. 90 тыс. предложений.
В 2022 году мы пришли к убеждению, что аутентичный перевод также представляет ценность как историческое явление, которое может быть представлено обществу в виде онлайн сервиса "Параллельный русско-коми корпус". Возобладавший принцип сохранения аутентичности, выразился в том, что на этапе сбора параллельного корпуса исправлению подлежали только явные опечатки в коми и русских текстах. В рамках реализации данного принципа выравнены ок. 450 тысяч предложений.
Дальнейшая предобработка текстов - орфографическая унификация и модернизация лексики, остается на этап подготовки параллельного корпуса к загрузке в нейросеть. 
Остается спорным вопрос модернизации лексики. Здесь необходимо выработать четкие критерии, внесение каких изменений является функционально необходимым, а что является избыточным.

Проверка результатов онлайн

Тексты загружаются в специальный раздел на сервере в папки ru и kv.
Запускается скрипт обновления базы.
Поиск предложений осуществляется по русской лексеме с учетом дополнительных опций в русско-коми корпусе параллельных текстов, онлайн-сервис которого  открыт всем пользователям сети интернет.
Результат выдается парами предложений (ru-kv) с выделенным искомым русским словом.
Для проверки результатов дальнейшей обработки текстов создан аналогичный сервис для служебного использования.

Состав параллельного корпуса

Художественная литература

Ранний этап сбора - тексты на коми языке подвергались редактированию в целях приближения к русскому варианту:

№1
Вӧвлӧмтор? Али вӧвлытӧмтор? @ 2010
Г. Х. Андерсен. Мойдъяс @ 1952
Семён Бабаевскӧй. Зӧлӧтӧй Звездаа кавалер @ 1948
Байдуков Г. Полюс вомӧн Америкаӧ @ 1950
П. Бажов. Турунвиж чирк @1952
П. Бажов. Сказъяс @ 1953
Виталий Бианки. Великӧй морскӧй туйӧ @ 1950
Чарльз Дикенс. Тӧргӧвӧй агент дядьлӧн история @ 1939
Альфонс Додэ. Менам мельничасянь письмӧяс @ 1939
kv Павел Доронин. Мойд небӧг @ 2004
Анатоль Франс. Кренкбиль @ 1939
Д. Фурманов. Краснӧй десант @ 1940
А. Гайдар. Чук да Гек @ 1948
Аркадий Гайдар. Вӧрын тшын  @ 1950
А. Гайдар. Гӧлубӧй чашка @ 1957
В. Гаршин. Путешествуйтысь лягушка @ 1951
О. Генри. Гӧрдкучикаяслӧн вождь @ 1939
С. Георгиевская. Ичӧтик салдатскӧй пурт @ 1951
Э. Т. А. Гофман. Бӧчкаяс вӧчалысь мастер Мартин да сылӧн подмастерьеяс @ 1939
М. Горький. Январь 9-ӧд лун @ 1939
Говард Фаст. Тони да волшебнӧй ӧдзӧс @ 1957
В. К. Гримм, Я. Гримм. Рок гырнич. Кӧч да ёж @ 1939
Л. Кассиль. Дядя Коля, гуткыйысь @ 1939
Евгений Коковин. Соломбалаын челядьдыр @ 1952
В. Г. Короленко. Макарлӧн вӧт @ 1953
В. Г. Короленко. Рассказъяс @ 1954
В. Кожевников. Война йылысь висьтъяс @ 1942
Д. Н. Мамин-Сибиряк. Алёнушкалӧн мойдъяс @ 1952
С. Маршак. Дас кык тӧлысь @ 1953
Мадьяръяслӧн Матяш король йылысь мойдъяс @ 2000
Носов Н. Н. Толя Клюквинлӧн приключениеяс @ 1963
К. Паустовскӧй. Гожся лунъяс @ 1949
П. Павленко. Шуд @ 1950
Евгений Пермяк. Пичугин пос @ 1962
Перро Шарль. Гӧрд Шапочка @ 1949
А. Первенцев. Володька — партизанскӧй пи @ 1940
А. Погорельскӧй. Сьӧд курӧг либӧ Мупытшса олысьяс @ 1950
М. Прилежаева. Маша Строговалӧн том кад @ 1952
Пушкин А. С. Капитанлӧн ныв @ 1953
Михаил Садовяну. Митря Кокор @ 1952
Тихонов Н. С. Повтӧм партизан @ 1952
Алексей Толстой. Нянь @ 1939
Алексей Толстой. Зарни ключ либӧ Буратинолӧн приключениеяс @ 1939
И. С. Тургенев. Охотниклӧн гижӧдъясысь @ 1948
Оскар Уайльд. Преданнӧй друг @ 1939
Г. Уэллс. Океан пыдӧсын @ 1939
kv П. А. Уляшева. Войтӧлӧн чиршӧдлӧмъяс @ 2015
И. С. Тургенев. Охотниклӧн гижӧдъяс @ 1953
kv Беляев Г. В. Анбур — коми мойд @ 2000

Этап выравнивания текстов при максимальном сохранение текста исходника

№2
Аркадий Гайдар. Барабанщиклӧн судьба @ 1958
Борис Горбатов. Пӧкӧритчытӧмъяс (Тараслӧн семья) @ 1945
Валентин Катаев. Дӧлалӧ ӧтка еджыд парус @ 1940
К. Маркс, Ф. Энгельс. Коммунистическӧй партиялӧн манифест @ 1948
А. Кононов. Вернӧй сьӧлӧм @ 1955
Михаил Коршунов.  Черёмушкиын керка @ 1959
Всеволод Кочетов. Журбинъяс @ 1956
Л. Космодемьянская. Зоя да Шура йылысь повесть @ 1952
Л. Савельев. Зимний штурмуйтӧм @ 1940
М. Горький. Йӧзын @ 1940
М. Горькӧй. Менам университетъяс @ 1948
М. Горький. Челядьдыр @ 1939
М. Прилежаева. Ёртъясыд тэкӧд! @ 1952
Николай Шундик. Ылі войвылын @ 1956
Н. Кальма. Горчичнӧй Райысь челядь @ 1955
А. Авдеенко. Гӧраясын тулыс @ 1959
Борис Полевой. Настоящӧй морт йылысь повесть @ 1951
А. П. Чехов. Канитель да мукӧд рассказъяс @ 1956
Н. В. Гоголь. Старосветскӧй помещикъяс @ 1939

№3
М. Лермонтов. Миян кадся герой @ 1953 +
Л. Н. Толстой. Кавказскӧй пленник @ 1953
Н. В. Гоголь. Повесть сы йылысь, кыдзи Иван Иванович пиньӧ воис Иван Никифоровичкӧд @ 1952
Вадим Собко. Мирлӧн залог @ 1955
Сергей Розанов. Травкалӧн приключениеяс @ 1953
Вера Панова. Яснӧй берег @ 1952
Елена Ильина. Нёльӧд высота @ 1951
Ф. Вигдорова. Менам класс @ 1951
В. Осеева. Васёк Трубачёв да сылӧн ёртъясыс @ 1953
Э. Войнич. Овод @ 1957 +
Ванда Василевская. Радуга @ 1944
А. Фадеев. Том гвардия @ 1953
Е. Кошевая. Пи йылысь повесть @ 1951
Л. Н. Толстой. Хаджи Мурат @ 1939 +
И. Ликстанов. Малышок @ 1950 +
Аладдин да волшебнӧй лампа @ мойдкыв @ Книга бӧрся книга I @ 1940
Али-Баба да нелямын разбойник @ мойдкыв @ Книга бӧрся книга I @ 1940
Карлик ныр @ мойд @ Книга бӧрся книга I @ 1940
Халиф-аист йылысь мойдкыв @ мойд @ Книга бӧрся книга I @ 1940
Ашик-Кериб @ мойдкыв @ Книга бӧрся книга I @ 1940
Д. Н. Мамин-Сибиряк. Рассказъяс @ 1953
К. Д. Ушинскӧй. Висьтъяс да мойдъяс @ 1952
С. Степняк-Кравчинскӧй. Андрей Кожухов @ 1940
А. С. Серафимович. Рассказъяс @ 1954
Ю. Сотник. Аддзывлытӧм лэбач @ 1954
И. Карнаухова. Дружнӧйяс йылысь повесть @ 1952

№4

Джек Лондон. Мексиканец @ 1938
Николай Островский. Кыдзи калитчис сталь @ 1955
Н. Бирюков. Чайка @ 1953
М. Шолохов. Мортлӧн судьба @ 1958
Михаил Шолохов. Лэптӧм эжа @ 1958
А. Чумаченко. Тӧлысьвывса морт @ 1958
Н. Носов. Ичӧтик гажа семья @ 1958
Анатолий Мошковскӧй. Веж гыяс @ 1961
Джек Лондон. Рассказъяс @ 1958
Л. Н. Толстой. Бӧрйӧм гижӧдъяс @ 1957
Короленко В. Г. Кыв тӧдтӧг @ 1956
А. Кононов. Сокольникиын ёлка @ 1954
Г. Карпенко. Куим звӧнок @ 1964
Иван Франко. Рассказъяс @ 1954
Б. Житков. Кыдзи бать менӧ спасайтіс @ 1952
С. Диковскӧй. «Смелӧй» катерлӧн приключениеяс @ 1956
Л. Воронкова. Звёздочкаса командир @ 1963
С. Виноградская. Юбиляр @ 1969
В. Бонч-Бруевич. Миян Ильич @ 1959
Сергей Баруздин. Выль сикт @ 1963
Виктор Баныкин. Чапаев йылысь висьтъяс @ 1962
Виктор Баныкин. Вильыш детинка @ 1964
С. Антонов. «Веж луг» @ 1955
Даниэл Дэфо. Мореход Робинзон Крузо, сылӧн олӧм да шензьӧдана приключениеяс @ 1958
Иосиф Дик. Би шор @ 1954
Г. И. Успенскӧй. Растеряевӧй улича вылын оланног @ 1954
Е. Рязанова. Том кад заводитчигӧн @ 1959
А. С. Новиков-Прибой. Цусима @ 1940
Николай Никитин. Войвывса Аврора @ 1953

№5

А. Батров. Миян друг Хосе @ 1954
Максим Горький. Висьтъяс @ 1952
В. Дуров. Менам зверьяс @ 1958
Вашингтон Ирвинг. Рип Ван Винкль @ 1939
Н. С. Лесков. Рассказъяс @ 1954
Марк Твен. Чеччалысь лягуша @ 1939
М. Е. Салтыков-Щедрин. Бӧрйӧм гижӧдъяс @ 1939
К. Станюкович. Морскӧй висьтъяс @ 1947
В. Тендряков. Повесть да рассказъяс @ 1958
Юлиус Фучик. Казнь водзвылын кыв @ 1953
А. П. Чехов. Рассказъяс @ 1954
М. А. Шолохов. Лэптӧм эжа @ 1961
А. Мусатов. Стожары @ 1950
Л. Воронкова. Алтайскӧй повесть @ 1954
Лев Кассиль. Менам дона детинкаяс @ 1948
А. Пушкин. Покойнӧй Иван Петрович Белкинлӧн повестьяс @ 1955
Н. Дубов. Му помасянінын @ 1954
Н. Дубов. Ю вылын бияс @ 1954
Николай Богданов. Повтӧмъяс да кужысьяс йылысь @ 1954
С. Георгиевская. Бабушкалӧн море @ 1953
Николай Дубов. Сирӧта @ 1957
М. Горький. Рассказъяс @ 1954
Эм. Казакевич. Одер вылын тулыс @ 1952
Антуан де Сент-Экзюпери. Ичӧтик принц @ 202
Антуан де Сент-Экзюпери. Дзоля принс @ 2022
Л. Н. Толстой. Казакъяс @ 1956
Р. Торбан. Лым морт @ 1959
Борис Изюмский. Алӧй погонъяс. 1 часть @ 1955
Борис Изюмский. Алӧй погонъяс. 2 часть @ 1956
А. Авдеенко. Тисса дорын @ 1957
Максим Горькӧй. Мам @ 1957
Галина Николаева. Вундандыр @ 1952
Р. Фраерман. Дикӧй пон динго либӧ медводдза любовь йылысь повесть @ 1957
Гримм вокъяс. Бременса музыкантъяс @ 1951
А. С. Пушкин. Дубровский @ 1954
Л. Н. Толстой. Рассказъяс @ 1954
К. Чуковский. Доктор Айболит @ 1952
Аркадий Гайдар. Ылысса странаяс @ 1952
Борис Изюмский. Алӧй погонъяс. 3 часть @ 1957

№6

С. Воронин. Ковтӧм слава @ 1958
В. Г. Короленко. Синтӧм музыкант @ 1953
Э. Гофман. Щелкунчик да шыръяслӧн король @ 1940
Л. Воронкова. Беспокойнӧй морт @ 1956
А. П. Чехов. Каштанка @ 1951
И. Василенко. Звёздочка @ 1950
И. Василенко. Рассказъяс @ 1959
Н. Носов. Витя Малеев школаын да гортас @ 1953
Д. Мамин-Сибиряк. Кыйсьысь Емеля @ 1950
М. Горький. Архип дед да Лёнька @ 1953
Р. Фраерман. Майскӧй войӧ подвиг @ 1948
М. Жестев. Ичӧтик трактористлӧн приключениеяс @ 1960
С. Т. Григорьев. Суворов @ 1953
Евгений Пермяк. Вӧсни струна @ 1959
Предпутие. Туйводз 2 @ 2021 -
Виктор Баныкин. Тулысын ытва дырйи @ 1955-
Л. Воронкова. Ичӧтик зарни ключьяс @ 1959 -
Л. Воронцова. Карса нывка @ 1947 -

Переводы с коми на русский

Шӧвк тупыль. Сыктывкар @ 2012
Торопов И. Г. Тіянлы водзӧ овны @ 1980
Василий Юхнин. Биа нюр @ 1952

Новости

Новостные тексты Официального портала Республики Коми rkomi.ru  за период  с 2021-04-28 по 2023-01-26

Официальные документы

Тексты, опубликованные в издании "Коми Республикаса государственнӧй власть органъяслӧн индӧд-тшӧктӧмъяс" с 1996 по 2000 гг.
Законы РК, Указы Главы РК, Постановления Правительства РК, Решения Конституционного Суда РК, Бюллетени избирательных комиссий РК, соглашения и договоры РК с другими регионами, реестр официальных наименований организаций и учреждений РК из архива Бюро официального перевода с 2011 по 2020 гг.

Учебная литература

Л. Г. Терехова да В. Г. Эрдели. География. Первойя часть @ 1940
Г. И. Иванов. География свет юкӧнъяслӧн да медтӧдчана странаяслӧн (СССР-тӧг) @ 1936
П. Н. Счастнев, П. Г. Терехов. Свет юкӧнъяслӧн физическӧй география @ 1959
М. Н. Скаткин. Природоведение. 4-ӧд класслы учебник @ 1962
В. А. Тетюрев. Естествознание. Первойя часть @ 1939
В. А. Тетюрев. Естествознание. Мӧдӧд часть @ 1939
Тексты по географии с сайта http://geography.komikyv.org

Религиозные тексты

Выль кӧсйысьӧм @ 2008