Русско-коми электронный словарь
Данная статья описывает процесс создания и оптимизации Большого русско-коми электронного словаря.
Сканирование
За основу Русско-коми электронного словаря взято издание: «Л.М.Безносикова, Н.К.Забоева, Р.И.Коснырева «Русско-коми словарь», Институт языка, литературы и истории Коми научного центра Уральского отделения Российской академии наук; под редакцией Л.М.Безносиковой. — Сыктывкар: Коми книжное издательство, 2003. — 1104 с.»
В связи с отсутствием электронной версии данного издания было решено отсканировать его. Сканирование словаря осуществлено силами ЦИЯТ, и его PDF-версия (нераспознанная) предоставлена авторам и размещена в свободном доступе на сайте komikyv.com.
Распознавание
В июле 2013 года начата работа по переводу PDF-версии словаря в текст. Для распознавания была использована программа ABBYY FineReader 11 Professional Edition с созданным пользовательским языком "Коми (зырянский)" и подключенным пользовательским словарём поддержки.
Вычитка и корректура
В связи с отсутствием полноценной поддержки коми языка в ABBYY FineReader распознанный текст содержал много ошибок в результате некорректного распознавания, опечатки в самом оригинале, необходимо было провести вычитку текста словаря и править ошибки. Также в Русско-коми словаре 2003 года содержались смысловые ошибки и неточный перевод иллюстративных примеров.
Вычитка и корректура текста данного словаря заняла около 3 месяцев: с июля по сентябрь 2013 года.
Перевод в DSL-формат
В качестве офлайн электронных словарей ЦИЯТ выбрал оболочку для электронных словарей с открытым исходным кодом GoldenDict, поддерживающую многие форматы словарей ABBYY Lingvo, StarDict, Babylon, Dictd. Для разметки словарных статей решили использовать формат DSL (Dictionary Specification Language), разработанный компанией ABBYY.
Перевод словаря в DSL-формат был сделан в октябре-ноябре 2013 года. Словарь в данном формате состоит из 2-х файлов: собственно самого словаря и файла условных сокращений.
Доработка словаря
В связи с замеченными недостатками в исходном русско-коми словаре 2003 года, было решено произвести его существенную доработку за счет интеграции материала из электронной версии издания «Безносикова Л.М., Айбабина Е.А., Коснырева Р.И. Коми-роч кывчукӧр (Коми-русский словарь) / Отв. ред. Л.М.Безносикова; ИЯЛИ Коми НЦ УрО РАН. - Сыктывкар: Коми кн. изд-во, 2000. - 816 с.»
Оптимизация РКС оказалась возможной также путем использования иллюстративных примеров самого словаря 2003 года, расположенных в разных статьях.
Так, в Русско-коми словаре 2003 года словарная статья "авиация" выглядела следующим образом:
авиация ж. авиация (лэбалан машинаяс, сынӧдса флот; сынӧдті лэбалӧм да сы йылысь теория) военная авиация военнӧй авиация
В том же словаре в статье "полковник" есть иллюстративный пример:
полковник ... полковник авиации авиацияса полковник
Данный пример добавляем в статью "авиация", после которой она будет выглядеть так:
авиация ж. авиация (лэбалан машинаяс, сынӧдса флот; сынӧдті лэбалӧм да сы йылысь теория) военная авиация военнӧй авиация полковник авиации авиацияса полковник
При доработке Русско-коми словаря 2003 года для использования примеров, переводов из Коми-русского словаря 2000 года ЦИЯТ разработана собственная программа "Перевёртыш". Файл словаря после объединения двух словарей выглядел так: фрагмент файла rus-kom2003.dsl.
Для удобства редактирования словарей в DSL-формате создали собственную подсветку в популярном текстовом редакторе Gedit.
Теги в русско-коми словаре
Система тегов подвергалась постоянной оптимизации. При филологической обработке сохранялись следующие теги:
- [end] [/end] окончания, напр.:
- [end]–ая, -ое[/end]
- [m1] [/m] – строка пояснений
- [i] [/i] – грамматические и структурные пояснения, напр.:
- [i]или [/i]
- [i]в функции[/i]
- [i]примета[/i]
- [i]загадка[/i]
- [i]отгадка[/i]
- [i]предлог[/i]
- [i]союз[/i]
- [i]в 1 знач.[/i] [i]в 1, 2 знач.[/i][
- [i]что[/i] [i]кому[/i] [i]кому-чему[/i] [i]чего[/i] [i]чем[/i] [i]кого-что, на что[/i] [i]кому-чему[/i] [i]перед кем-чем[/i] [i]кого, за что[/i] [i]кому, к кому[/i]
- [i]употребляется лишь в составе выражений:[/i]
- [p]мн.ч.[/p] ([p]ед.ч.[/p] [i]блёстка[/i] [p]ж.[/p])
- ([p]мн.ч.[/p] [i]блага[/i])
- ([i]в функции[/i] [p]сказ.[/p]) ([i]в функции[/i] [p]сущ.[/p])
- ([i]в функции[/i] [p]сущ.[/p] [i]близкие[/i] [p]мн.ч.[/p]) ([i]в функции[/i] [p]сущ.[/p] [i]блинная[/i] [p]ж.[/p])
- [p] [/p] – пояснения с сокращениями (см. список сокращений)
- [com] [/com] – лексические пояснения, напр.:
- [com](пожелание)[/com]
- [trn] [/trn] – перевод на коми из словаря 2003 года
- [item] [/item] – коми лемма из словаря 2000 года
- [rus] [/rus] – русский текст в примерах
- [kpv] [/kpv] – коми текст в примерах
- [ex] [/ex] – референция
- [ex]смотри:[/ex]
- [ex]то же, что:[/ex]
- [ex]сійӧ жӧ, мый:[/ex]
- [ex]от [/ex]
- [ref] [/ref] – ссылка на другую статью
Работа над упорядочением словарных статей
Исходная структура
После автоматического расширения статей «Большого русско-коми словаря» за счет лексики и примеров из коми-русского словаря, мы получили следующую временную структуру словарной статьи:
ОСНОВНАЯ ЧАСТЬ (собственно статья Русско-коми словаря 2003)
&&&
ДОБАВОЧНАЯ ЧАСТЬ (материал из Коми-русского словаря 2000 и других статей РКС 2003)
Структура основной части
- Русская вокабула
- Грамматические пояснения к ней: [m1] [/m] или [end] [/end]
- Перевод вокабулы на коми язык: [trn]комиӧн [/trn]
- Примеры сочетаемости и их переводы на коми язык: [rus]русский оригинал[/rus] [kpv]коми перевод[/kpv]
- Русские фразеологизмы: ◊ [rus]русский оригинал[/rus] [kpv]коми перевод[/kpv]
Структура добавочной части
- Леммы коми-русского словаря, переводимая русской вокабулой, но не совпадающие с переводом русской вокабулы в основной части: [item][/item]
- Леммы из коми-русского словаря, переводимые на русский язык словосочетанием: русское словосочетание + коми лемма [rus][/rus] [kpv][/kpv]
- Примеры сочетаемости и их переводы из коми-русского словаря: русский перевод + коми оригинал [rus][/rus] [kpv][/kpv]
- Коми фразеологизмы и их русские переводы, отсутствующие в основной части: ◊ русский перевод + коми оригинал [rus][/rus] [kpv][/kpv]
В тексте присутствуют также различного рода пояснения, выделяемые специальными тегами (см.)
Пример статьи с временной структурой:
Слияние основной и добавочной части
Основные принципы
- Следует соблюдать отступ (\t, tab) в начале строки. Без таба идут только русские вокабулы.
- При интеграции словаря следует учитывать семантику многозначных слов, дополнения вносятся в соответствующие цифровые разделы.
- Строки, в которых русская часть идентична, сливаются, варианты коми соответствий даются через запятую
Первый этап: объединение частей
- При наличии в дополнительной части коми леммы [item][/item], она добавляется в строку перевода основной части [trn][/trn], если это слово там отсутствует.
- Строки "русский перевод-словосочетание + коми оригинал-лемма" [rus][/rus][kpv][/kpv] добавляются как примеры сочетаемости к соответствующим семантическим разделам в основной части.
- Строки "русский перевод-словосочетание + коми оригинал-словосочетание" [rus][/rus] [kpv][/kpv] добавляются как примеры сочетаемости к соответствующим семантическим разделам в основной части.
- Фразеологизмы добавочной части добавляются в группу фразеологизмов основной части
Второй этап: переструктурирование словарной статьи
В большинстве случаев элементарное добавление пары-тройки примеров не вызывает вопросов. Однако, для высокочастотных слов, проблемой становится порядок расположения добавленного материала.
В многозначных словах примеры и переводы добавляются в нумерованные разделы с соответствующим значением. Если выявляется новое значение слова, не подходящее под существующие разделы, для него следует создать отдельный нумерованный раздел.
В начале каждого нумерованного раздела желательно характеризовать в скобках по-русски его специфику. Это можно сделать, либо приведя (в теге [com][/com]) синоним русской вокабуле в данном значении, либо в соответствующих тегах указав сферу применения данного слова: [p]бот.[/p], [com](о человеке)[/com] и т.п.
Группу примеров следует рассортировать таким образом, чтобы была ясно видна сочетаемость вокабулы с другими словами.
Разработка крупных статей о существительных
Предварительная обработка объединенного материала проходит несколько этапов.
В качестве первого шага можно разделить примеры на две группы: основную массу и помеченные ромбом "фразеологизмы" (среди последних также приметы, пословицы и поговорки), после чего провести автоматическую сортировку каждой из указанных групп по алфавиту. В результате русские сочетания с одинаковым началом окажутся рядом, после чего идентичные сочетания можно объединять.
Вторым этапом является грубая сортировка основной массы примеров по типу сочетания: атрибутивное, глагольное, предложное, именное.
В группе атрибутивных сочетаний следует разделить сочетания с прилагательными и определительные сочетания иных структур. В каждом из данных разделов проводится автоматическая сортировка по алфавиту и интеграция аналогичных словосочетаний. Разные коми эквиваленты русского сочетания даются в общей строке через запятую. Как правило, на этом этапе появляется возможность добавления коми переводов, поскольку в пределах видимости оказываются сочетания, близкие по значению.
Сочетания с глаголами делим на две группы – вокабула как субъект и вокабула как объект. Проводим автоматическую алфавитную сортировку каждой группы. После этого следует вручную отсортировать сочетания по семантическому признаку, в результате чего близкие по значению сочетания должны оказаться рядом. Это дает возможность перекрестного добавления коми переводов и восстановление упущенных русских сочетаний с аналогичным значением. По возможности следует привести глагольные сочетания к элементарной форме – существительное + глагол в 3 лице единственного числа настоящего или прошедшего времени. Проводим окончательную алфавитную сортировку каждой из групп.
Рекомендуемый окончательный порядок расположения иллюстративных примеров для существительных:
- сочетания с прилагательными
- определительные сочетания иных структур
- сочетания с глаголами (вокабула как субъект)
- сочетания с глаголами (вокабула как объект)
- высокочастотные предложные конструкции
- именные сочетания (вокабула как объект, атрибут или обстоятельство)
- фразеологизмы
- приметы, пословицы, поговорки
Внутри данных разделов предпочтителен алфавитный порядок расположения примеров.
Пример упорядоченной статья после снятия тегов: Ветер (БРКС)
Уджалысьяс
- BoAn - текн
- CeAn - текн
- EnLa - аиу
- GaNa - б-весь
- NeOl - весьма-деньги
- JaTa - деньденьской-иже
- KoLu - л
- PuNa - малец-нейлон
- MoLu - неймёт-пасха
- GuNa - фхцч
- SaSv - шщ
- UlOl - эюя
- 0000 - кпрст