Русско-коми электронный словарь

Материал из Wiki FU-Lab
Перейти к: навигация, поиск

Данная статья описывает процесс создания и оптимизации Большого русско-коми электронного словаря.

Сканирование

Л.М.Безносикова, Н.К.Забоева, Р.И.Коснырева «Русско-коми словарь» (2003)

За основу Русско-коми электронного словаря взято издание: «Л.М.Безносикова, Н.К.Забоева, Р.И.Коснырева «Русско-коми словарь», Институт языка, литературы и истории Коми научного центра Уральского отделения Российской академии наук; под редакцией Л.М.Безносиковой. — Сыктывкар: Коми книжное издательство, 2003. — 1104 с.»

В связи с отсутствием электронной версии данного издания было решено отсканировать его. Сканирование словаря осуществлено силами ЦИЯТ, и его PDF-версия (нераспознанная) предоставлена авторам и размещена в свободном доступе на сайте komikyv.com.

Распознавание

В июле 2013 года начата работа по переводу PDF-версии словаря в текст. Для распознавания была использована программа ABBYY FineReader 11 Professional Edition с созданным пользовательским языком "Коми (зырянский)" и подключенным пользовательским словарём поддержки.

Вычитка и корректура

В связи с отсутствием полноценной поддержки коми языка в ABBYY FineReader распознанный текст содержал много ошибок в результате некорректного распознавания, опечатки в самом оригинале, необходимо было провести вычитку текста словаря и править ошибки. Также в Русско-коми словаре 2003 года содержались смысловые ошибки и неточный перевод иллюстративных примеров.

Вычитка и корректура текста данного словаря заняла около 3 месяцев: с июля по сентябрь 2013 года.

Перевод в DSL-формат

В качестве офлайн электронных словарей ЦИЯТ выбрал оболочку для электронных словарей с открытым исходным кодом GoldenDict, поддерживающую многие форматы словарей ABBYY Lingvo, StarDict, Babylon, Dictd. Для разметки словарных статей решили использовать формат DSL (Dictionary Specification Language), разработанный компанией ABBYY.

Перевод словаря в DSL-формат был сделан в октябре-ноябре 2013 года. Словарь в данном формате состоит из 2-х файлов: собственно самого словаря и файла условных сокращений.

Доработка словаря

Безносикова Л.М., Айбабина Е.А., Коснырева Р.И. Коми-роч кывчукӧр (Коми-русский словарь) (2000)

В связи с замеченными недостатками в исходном русско-коми словаре 2003 года, было решено произвести его существенную доработку за счет интеграции материала из электронной версии издания «Безносикова Л.М., Айбабина Е.А., Коснырева Р.И. Коми-роч кывчукӧр (Коми-русский словарь) / Отв. ред. Л.М.Безносикова; ИЯЛИ Коми НЦ УрО РАН. - Сыктывкар: Коми кн. изд-во, 2000. - 816 с.»

Оптимизация РКС оказалась возможной также путем использования иллюстративных примеров самого словаря 2003 года, расположенных в разных статьях.

Так, в Русско-коми словаре 2003 года словарная статья "авиация" выглядела следующим образом:

авиация 
ж. 
авиация (лэбалан машинаяс, сынӧдса флот; сынӧдті лэбалӧм да сы йылысь теория) 
военная авиация военнӧй авиация

В том же словаре в статье "полковник" есть иллюстративный пример:

полковник 
... 
полковник авиации авиацияса полковник

Данный пример добавляем в статью "авиация", после которой она будет выглядеть так:

авиация 
ж. 
авиация (лэбалан машинаяс, сынӧдса флот; сынӧдті лэбалӧм да сы йылысь теория)
военная авиация военнӧй авиация
полковник авиации авиацияса полковник

При доработке Русско-коми словаря 2003 года для использования примеров, переводов из Коми-русского словаря 2000 года ЦИЯТ разработана собственная программа "Перевёртыш". Файл словаря после объединения двух словарей выглядел так: фрагмент файла rus-kom2003.dsl.

Для удобства редактирования словарей в DSL-формате создали собственную подсветку в популярном текстовом редакторе Gedit.

Теги в русско-коми словаре

Система тегов подвергалась постоянной оптимизации. При филологической обработке сохранялись следующие теги:

  • [end] [/end] окончания, напр.:
    • [end]–ая, -ое[/end]
  • [m1] [/m] – строка пояснений
  • [i] [/i] – грамматические и структурные пояснения, напр.:
    • [i]или [/i]
    • [i]в функции[/i]
    • [i]примета[/i]
    • [i]загадка[/i]
    • [i]отгадка[/i]
    • [i]предлог[/i]
    • [i]союз[/i]
    • [i]в 1 знач.[/i] [i]в 1, 2 знач.[/i][
    • [i]что[/i] [i]кому[/i] [i]кому-чему[/i] [i]чего[/i] [i]чем[/i] [i]кого-что, на что[/i] [i]кому-чему[/i] [i]перед кем-чем[/i] [i]кого, за что[/i] [i]кому, к кому[/i]
    • [i]употребляется лишь в составе выражений:[/i]
    • [p]мн.ч.[/p] ([p]ед.ч.[/p] [i]блёстка[/i] [p]ж.[/p])
    • ([p]мн.ч.[/p] [i]блага[/i])
    • ([i]в функции[/i] [p]сказ.[/p]) ([i]в функции[/i] [p]сущ.[/p])
    • ([i]в функции[/i] [p]сущ.[/p] [i]близкие[/i] [p]мн.ч.[/p]) ([i]в функции[/i] [p]сущ.[/p] [i]блинная[/i] [p]ж.[/p])
  • [p] [/p] – пояснения с сокращениями (см. список сокращений)
  • [com] [/com] – лексические пояснения, напр.:
    • [com](пожелание)[/com]
  • [trn] [/trn] – перевод на коми из словаря 2003 года
  • [item] [/item] – коми лемма из словаря 2000 года
  • [rus] [/rus] – русский текст в примерах
  • [kpv] [/kpv] – коми текст в примерах
  • [ex] [/ex] – референция
    • [ex]смотри:[/ex]
    • [ex]то же, что:[/ex]
    • [ex]сійӧ жӧ, мый:[/ex]
    • [ex]от [/ex]
  • [ref] [/ref] – ссылка на другую статью

Работа над упорядочением словарных статей

Исходная структура

После автоматического расширения статей «Большого русско-коми словаря» за счет лексики и примеров из коми-русского словаря, мы получили следующую временную структуру словарной статьи:

ОСНОВНАЯ ЧАСТЬ (собственно статья Русско-коми словаря 2003)

&&&

ДОБАВОЧНАЯ ЧАСТЬ (материал из Коми-русского словаря 2000 и других статей РКС 2003)

Структура основной части

  • Русская вокабула
  • Грамматические пояснения к ней: [m1] [/m] или [end] [/end]
  • Перевод вокабулы на коми язык: [trn]комиӧн [/trn]
  • Примеры сочетаемости и их переводы на коми язык: [rus]русский оригинал[/rus] [kpv]коми перевод[/kpv]
  • Русские фразеологизмы: ◊ [rus]русский оригинал[/rus] [kpv]коми перевод[/kpv]

Структура добавочной части

  • Леммы коми-русского словаря, переводимая русской вокабулой, но не совпадающие с переводом русской вокабулы в основной части: [item][/item]
  • Леммы из коми-русского словаря, переводимые на русский язык словосочетанием: русское словосочетание + коми лемма [rus][/rus] [kpv][/kpv]
  • Примеры сочетаемости и их переводы из коми-русского словаря: русский перевод + коми оригинал [rus][/rus] [kpv][/kpv]
  • Коми фразеологизмы и их русские переводы, отсутствующие в основной части: ◊ русский перевод + коми оригинал [rus][/rus] [kpv][/kpv]

В тексте присутствуют также различного рода пояснения, выделяемые специальными тегами (см.)

Пример статьи с временной структурой:

Nekogda.png

Слияние основной и добавочной части

Основные принципы

  • Следует соблюдать отступ (\t, tab) в начале строки. Без таба идут только русские вокабулы.
  • При интеграции словаря следует учитывать семантику многозначных слов, дополнения вносятся в соответствующие цифровые разделы.
  • Строки, в которых русская часть идентична, сливаются, варианты коми соответствий даются через запятую

Первый этап: объединение частей

  • При наличии в дополнительной части коми леммы [item][/item], она добавляется в строку перевода основной части [trn][/trn], если это слово там отсутствует.
  • Строки "русский перевод-словосочетание + коми оригинал-лемма" [rus][/rus][kpv][/kpv] добавляются как примеры сочетаемости к соответствующим семантическим разделам в основной части.
  • Строки "русский перевод-словосочетание + коми оригинал-словосочетание" [rus][/rus] [kpv][/kpv] добавляются как примеры сочетаемости к соответствующим семантическим разделам в основной части.
  • Фразеологизмы добавочной части добавляются в группу фразеологизмов основной части

Второй этап: переструктурирование словарной статьи

В большинстве случаев элементарное добавление пары-тройки примеров не вызывает вопросов. Однако, для высокочастотных слов, проблемой становится порядок расположения добавленного материала.

В многозначных словах примеры и переводы добавляются в нумерованные разделы с соответствующим значением. Если выявляется новое значение слова, не подходящее под существующие разделы, для него следует создать отдельный нумерованный раздел.

В начале каждого нумерованного раздела желательно характеризовать в скобках по-русски его специфику. Это можно сделать, либо приведя (в теге [com][/com]) синоним русской вокабуле в данном значении, либо в соответствующих тегах указав сферу применения данного слова: [p]бот.[/p], [com](о человеке)[/com] и т.п.

Группу примеров следует рассортировать таким образом, чтобы была ясно видна сочетаемость вокабулы с другими словами.

Разработка крупных статей о существительных

Предварительная обработка объединенного материала проходит несколько этапов.

В качестве первого шага можно разделить примеры на две группы: основную массу и помеченные ромбом "фразеологизмы" (среди последних также приметы, пословицы и поговорки), после чего провести автоматическую сортировку каждой из указанных групп по алфавиту. В результате русские сочетания с одинаковым началом окажутся рядом, после чего идентичные сочетания можно объединять.

Вторым этапом является грубая сортировка основной массы примеров по типу сочетания: атрибутивное, глагольное, предложное, именное.

В группе атрибутивных сочетаний следует разделить сочетания с прилагательными и определительные сочетания иных структур. В каждом из данных разделов проводится автоматическая сортировка по алфавиту и интеграция аналогичных словосочетаний. Разные коми эквиваленты русского сочетания даются в общей строке через запятую. Как правило, на этом этапе появляется возможность добавления коми переводов, поскольку в пределах видимости оказываются сочетания, близкие по значению.

Сочетания с глаголами делим на две группы – вокабула как субъект и вокабула как объект. Проводим автоматическую алфавитную сортировку каждой группы. После этого следует вручную отсортировать сочетания по семантическому признаку, в результате чего близкие по значению сочетания должны оказаться рядом. Это дает возможность перекрестного добавления коми переводов и восстановление упущенных русских сочетаний с аналогичным значением. По возможности следует привести глагольные сочетания к элементарной форме – существительное + глагол в 3 лице единственного числа настоящего или прошедшего времени. Проводим окончательную алфавитную сортировку каждой из групп.

Рекомендуемый окончательный порядок расположения иллюстративных примеров для существительных:

  • сочетания с прилагательными
  • определительные сочетания иных структур
  • сочетания с глаголами (вокабула как субъект)
  • сочетания с глаголами (вокабула как объект)
  • высокочастотные предложные конструкции
  • именные сочетания (вокабула как объект, атрибут или обстоятельство)
  • фразеологизмы
  • приметы, пословицы, поговорки

Внутри данных разделов предпочтителен алфавитный порядок расположения примеров.

Пример упорядоченной статья после снятия тегов: Ветер (БРКС)

Уджалысьяс

  • BoAn - текн
  • CeAn - текн
  • EnLa - аиу
  • GaNa - б-весь
  • NeOl - весьма-деньги
  • JaTa - деньденьской-иже
  • KoLu - л
  • PuNa - малец-нейлон
  • MoLu - неймёт-пасха
  • GuNa - фхцч
  • SaSv - шщ
  • UlOl - эюя
  • 0000 - кпрст

Ссылки