Русско-коми электронный словарь

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску

Сканирование

Л.М.Безносикова, Н.К.Забоева, Р.И.Коснырева «Русско-коми словарь» (2003)

За основу Русско-коми электронного словаря взято издание: «Л.М.Безносикова, Н.К.Забоева, Р.И.Коснырева «Русско-коми словарь», Институт языка, литературы и истории Коми научного центра Уральского отделения Российской академии наук; под редакцией Л.М.Безносиковой. — Сыктывкар: Коми книжное издательство, 2003. — 1104 с.»

В связи с отсутствием электронной версии данного издания было решено отсканировать его. Сканирование словаря осуществлено силами ЦИЯТ, и его PDF-версия (нераспознанная) предоставлена авторам, которая размещена в свободном доступе на сайте komikyv.com.

Распознавание

В июле 2013 года начата работа по распознаванию PDF-версии словаря в текст. Для этого была использована программа ABBYY FineReader 11 Professional Edition с созданным пользовательским языком "Коми (зырянский)" и подключенным пользовательским словарём поддержки.

Вычитка и корректура

В связи с отсутствием полноценной поддержки коми языка в ABBYY FineReader распознанный текст содержал много ошибок в результате некорректного распознавания, опечатки в самом оригинале, необходимо было провести вычитку текста словаря и править ошибки. Также в Русско-коми словаре 2003 года содержались смысловые ошибки и неточный перевод иллюстративных примеров.

Вычитка и корректура текста данного словаря заняла около 3 месяцев: с июля по сентябрь 2013 года.

Перевод в DSL-формат

В качестве офлайн электронных словарей ЦИЯТ выбрал оболочку для электронных словарей с открытым исходным кодом GoldenDict, поддерживающую многие форматы словарей ABBYY Lingvo, StarDict, Babylon, Dictd. Для разметки словарных статей решили использовать формат DSL (Dictionary Specification Language), разработанный компанией ABBYY.

Перевод словаря в DSL-формат был сделан в октябре-ноябре 2013 года. Словарь в данном формате состоит из 2-х файлов: собственно самого словаря и файла условных сокращений.

Доработка словаря

Безносикова Л.М., Айбабина Е.А., Коснырева Р.И. Коми-роч кывчукӧр (Коми-русский словарь) (2000)

В Русско-коми словаре 2003 года словарная статья "авиация" выглядела следующим образом:

авиация

     ж.

     авиация (лэбалан машинаяс, сынӧдса флот; сынӧдті лэбалӧм да сы йылысь теория)

          военная авиация военнӧй авиация

В том же словаре в статье "полковник" есть иллюстративный пример:

полковник

     ...

          полковник авиации авиацияса полковник

Данный пример добавляем в статью "авиация", после которой она будет выглядеть так:

авиация

     ж.

     авиация (лэбалан машинаяс, сынӧдса флот; сынӧдті лэбалӧм да сы йылысь теория)

          военная авиация военнӧй авиация
          полковник авиации авиацияса полковник

Также добавляем все примеры и переводы из электронной версии издания «Безносикова Л.М., Айбабина Е.А., Коснырева Р.И. Коми-роч кывчукӧр (Коми-русский словарь) / Отв. ред. Л.М.Безносикова; ИЯЛИ Коми НЦ УрО РАН. - Сыктывкар: Коми кн. изд-во, 2000. - 816 с.»

При доработке Русско-коми словаря 2003 года для использования примеров, переводов из Коми-русского словаря 2000 года ЦИЯТ разработана собственная программа "Перевёртыш". Файл словаря после объединения двух словарей выглядит так: фрагмент файла rus-kom2003.dsl.

Для удобства редактирования словарей в DSL-формате создали собственную подсветку в популярном текстовом редакторе Gedit.

Теги в русско-коми словаре

  • [end] [/end] окончания, напр.:
    • [end]–ая, -ое[/end]
  • [m1] [/m] – строка пояснений
  • [i] [/i] – грамматические и структурные пояснения, напр.:
    • [i]или [/i]
    • [i]в функции[/i]
    • [i]примета[/i]
    • [i]загадка[/i]
    • [i]отгадка[/i]
    • [i]предлог[/i]
    • [i]союз[/i]
    • [i]в 1 знач.[/i] [i]в 1, 2 знач.[/i][
    • [i]что[/i] [i]кому[/i] [i]кому-чему[/i] [i]чего[/i] [i]чем[/i] [i]кого-что, на что[/i] [i]кому-чему[/i] [i]перед кем-чем[/i] [i]кого, за что[/i] [i]кому, к кому[/i]
    • [i]употребляется лишь в составе выражений:[/i]
    • [p]мн.ч.[/p] ([p]ед.ч.[/p] [i]блёстка[/i] [p]ж.[/p])
    • ([p]мн.ч.[/p] [i]блага[/i])
    • ([i]в функции[/i] [p]сказ.[/p]) ([i]в функции[/i] [p]сущ.[/p])
    • ([i]в функции[/i] [p]сущ.[/p] [i]близкие[/i] [p]мн.ч.[/p]) ([i]в функции[/i] [p]сущ.[/p] [i]блинная[/i] [p]ж.[/p])
  • [p] [/p] – пояснения с сокращениями (см. список сокращений)
  • [com] [/com] – лексические пояснения, напр.:
    • [com](пожелание)[/com]
  • [trn] [/trn] – перевод на коми из словаря 2003 года
  • [item] [/item] – коми лемма из словаря 2000 года
  • [rus] [/rus] – русский текст в примерах
  • [kpv] [/kpv] – коми текст в примерах
  • [ex] [/ex] – референция
    • [ex]смотри:[/ex]
    • [ex]то же, что:[/ex]
    • [ex]сійӧ жӧ, мый:[/ex]
    • [ex]от [/ex]
  • [ref] [/ref] – ссылка на другую статью

Работа над упорядочением словарных статей

Исходная структура

После автоматического расширения статей «Большого русско-коми словаря» за счет лексики и примеров из коми-русского словаря, мы получили следующую временную структуру словарной статьи

ОСНОВНАЯ ЧАСТЬ

&&&

ДОБАВОЧНАЯ ЧАСТЬ

Структура основной части

  • Русская вокабула
  • Грамматические пояснения к ней: [m1] [/m] или [end] [/end]
  • Перевод вокабулы на коми язык: [trn]комиӧн [/trn]
  • Примеры сочетаемости и их переводы на коми язык: [rus]русский оригинал[/rus] [kpv]коми перевод[/kpv]
  • Русские фразеологизмы: ◊ [rus]русский оригинал[/rus] [kpv]коми перевод[/kpv]

Структура добавочной части (материал русско-коми словаря)

  • Леммы коми-русского словаря, переводимая русской вокабулой, но не совпадающие с переводом русской вокабулы в основной части: [item] коми лемма[/item]
  • Леммы из коми-русского словаря, переводимые на русский язык словосочетанием: [rus]русское словосочетание[/rus] [kpv]коми лемма[/kpv]
  • Примеры сочетаемости и их переводы из коми-русского словаря: [rus]русский перевод[/rus] [kpv]коми оригинал[/kpv]
  • Коми фразеологизмы и их русские переводы, отсутствующие в основной части: ◊ [rus]русский перевод[/rus] [kpv]коми оригинал[/kpv]

В тексте присутствуют также различного рода пояснения, выделяемые специальными тегами (см.)

Пример статьи с временной структурой (см.)

Слияние основной и добавочной части

Основные принципы

  • Следует соблюдать отступ (\t, tab) в начале строки. Без таба идут только русские вокабулы.
  • При интеграции словаря следует учитывать семантику многозначных слов, дополнения вносятся в соответствующие цифровые разделы.
  • Строки, в которых русская часть идентична, сливаются, варианты коми соотвествий даются через запятую

Первый этап: слияние

  • При наличии в дополнительной части коми леммы [item][/item], она добавляется в строку перевода основной части [trn][/trn], если это слово там отсутствует.
  • Строки "русский перевод-словосочетание + коми оригинал-лемма" [rus][/rus][kpv][/kpv] добавляются как примеры сочетаемости к соответствующим семантическим разделам в основной части.
  • Строки "русский перевод-словосочетание + коми оригинал-словосочетание" [rus][/rus] [kpv][/kpv] добавляются как примеры сочетаемости к соответствующим семантическим разделам в основной части.
  • Фразеологизмы добавочной части добавляются в группу фразеологизмов основной части

Второй этап: переструктурирование словарной статьи

Ссылки