Русско-коми электронный словарь: различия между версиями
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
||
Строка 139: | Строка 139: | ||
* [[Перевёртыш]] | * [[Перевёртыш]] | ||
[[ | [[Category:Оптимизация электронных словарей]] |
Версия от 20:21, 1 марта 2014
Сканирование
За основу Русско-коми электронного словаря взято издание: «Л.М.Безносикова, Н.К.Забоева, Р.И.Коснырева «Русско-коми словарь», Институт языка, литературы и истории Коми научного центра Уральского отделения Российской академии наук; под редакцией Л.М.Безносиковой. — Сыктывкар: Коми книжное издательство, 2003. — 1104 с.»
В связи с отсутствием электронной версии данного издания было решено отсканировать его. Сканирование словаря осуществлено силами ЦИЯТ, и его PDF-версия (нераспознанная) предоставлена авторам, которая размещена в свободном доступе на сайте komikyv.com.
Распознавание
В июле 2013 года начата работа по распознаванию PDF-версии словаря в текст. Для этого была использована программа ABBYY FineReader 11 Professional Edition с созданным пользовательским языком "Коми (зырянский)" и подключенным пользовательским словарём поддержки.
Вычитка и корректура
В связи с отсутствием полноценной поддержки коми языка в ABBYY FineReader распознанный текст содержал много ошибок в результате некорректного распознавания, опечатки в самом оригинале, необходимо было провести вычитку текста словаря и править ошибки. Также в Русско-коми словаре 2003 года содержались смысловые ошибки и неточный перевод иллюстративных примеров.
Вычитка и корректура текста данного словаря заняла около 3 месяцев: с июля по сентябрь 2013 года.
Перевод в DSL-формат
В качестве офлайн электронных словарей ЦИЯТ выбрал оболочку для электронных словарей с открытым исходным кодом GoldenDict, поддерживающую многие форматы словарей ABBYY Lingvo, StarDict, Babylon, Dictd. Для разметки словарных статей решили использовать формат DSL (Dictionary Specification Language), разработанный компанией ABBYY.
Перевод словаря в DSL-формат был сделан в октябре-ноябре 2013 года. Словарь в данном формате состоит из 2-х файлов: собственно самого словаря и файла условных сокращений.
Доработка словаря
В Русско-коми словаре 2003 года словарная статья "авиация" выглядела следующим образом:
авиация ж. авиация (лэбалан машинаяс, сынӧдса флот; сынӧдті лэбалӧм да сы йылысь теория) военная авиация военнӧй авиация
В том же словаре в статье "полковник" есть иллюстративный пример:
полковник ... полковник авиации авиацияса полковник
Данный пример добавляем в статью "авиация", после которой она будет выглядеть так:
авиация ж. авиация (лэбалан машинаяс, сынӧдса флот; сынӧдті лэбалӧм да сы йылысь теория) военная авиация военнӧй авиация полковник авиации авиацияса полковник
Также добавляем все примеры и переводы из электронной версии издания «Безносикова Л.М., Айбабина Е.А., Коснырева Р.И. Коми-роч кывчукӧр (Коми-русский словарь) / Отв. ред. Л.М.Безносикова; ИЯЛИ Коми НЦ УрО РАН. - Сыктывкар: Коми кн. изд-во, 2000. - 816 с.»
При доработке Русско-коми словаря 2003 года для использования примеров, переводов из Коми-русского словаря 2000 года ЦИЯТ разработана собственная программа "Перевёртыш". Файл словаря после объединения двух словарей выглядит так: фрагмент файла rus-kom2003.dsl.
Для удобства редактирования словарей в DSL-формате создали собственную подсветку в популярном текстовом редакторе Gedit.
Теги в русско-коми словаре
- [end] [/end] окончания
- –ая –ое
- [m1] [/m] – строка пояснений
- [i] [/i] – грамматические и структурные пояснения
- [i]или [/i]
- [i]в функции[/i]
- [i]примета[/i]
- [i]загадка[/i]
- [i]отгадка[/i]
- [i]предлог[/i]
- [i]союз[/i]
- [i]в 1 знач.[/i] [i]в 1, 2 знач.[/i][
- [i]что[/i] [i]кому[/i] [i]кому-чему[/i] [i]чего[/i] [i]чем[/i] [i]кого-что, на что[/i] [i]кому-чему[/i] [i]перед кем-чем[/i] [i]кого, за что[/i] [i]кому, к кому[/i]
- [i]употребляется лишь в составе выражений:[/i]
- [p]мн.ч.[/p] ([p]ед.ч.[/p] [i]блёстка[/i] [p]ж.[/p])
- ([p]мн.ч.[/p] [i]блага[/i])
- ([i]в функции[/i] [p]сказ.[/p]) ([i]в функции[/i] [p]сущ.[/p])
- ([i]в функции[/i] [p]сущ.[/p] [i]близкие[/i] [p]мн.ч.[/p]) ([i]в функции[/i] [p]сущ.[/p] [i]блинная[/i] [p]ж.[/p])
- [p] [/p] – пояснения с сокращениями
- [com] [/com] – лексические пояснения
- [com](пожелание)[/com]
- [trn] [/trn] – перевод на коми из словаря 2003 года
- [item] [/item] – перевод на коми из словаря 2000 года
- [rus] [/rus] – русский текст в примерах
- [kpv] [/kpv] – коми текст в примерах
- [ex] [/ex] – референция
- [ex]смотри:[/ex]
- [ex]то же, что:[/ex]
- [ex]сійӧ жӧ, мый:[/ex]
- [ex]от [/ex]
- [ref] [/ref] – ссылка на другую статью
Работа над упорядочением словарных статей
Исходная структура
После автоматического расширения статей «Большого русско-коми словаря» за счет лексики и примеров из коми-русского словаря, мы получили следующую временную структуру словарной статьи
ОСНОВНАЯ ЧАСТЬ
&&&
ДОБАВОЧНАЯ ЧАСТЬ
Структура основной части
- Русская вокабула
- Грамматические пояснения к ней: [m1] [/m] или [end] [/end]
- Перевод вокабулы на коми язык: [trn]комиӧн [/trn]
- Примеры сочетаемости и их переводы на коми язык: [rus]русский оригинал[/rus] [kpv]коми перевод[/kpv]
- Русские фразеологизмы: ◊ [rus]русский оригинал[/rus] [kpv]коми перевод[/kpv]
Структура добавочной части (материал русско-коми словаря)
- Леммы коми-русского словаря, переводимая русской вокабулой, но не совпадающие с переводом русской вокабулы в основной части: [item] коми лемма[/item]
- Леммы из коми-русского словаря, переводимые на русский язык словосочетанием: [rus]русское словосочетание[/rus] [kpv]коми лемма[/kpv]
- Примеры сочетаемости и их переводы из коми-русского словаря: [rus]русский перевод[/rus] [kpv]коми оригинал[/kpv]
- Коми фразеологизмы и их русские переводы, отсутствующие в основной части: ◊ [rus]русский перевод[/rus] [kpv]коми оригинал[/kpv]
В тексте присутствуют также различного рода пояснения, выделяемые специальными тегами (см.)
Пример статьи с временной структурой (см.)
Слияние основной и добавочной части
Основные принципы
- Следует соблюдать отступ (\t, tab) в начале строки. Без таба идут только русские вокабулы.
- При интеграции словаря следует учитывать семантику многозначных слов, дополнения вносятся в соответствующие цифровые разделы.
- Строки, в которых русская часть идентична, сливаются, варианты коми соотвествий даются через запятую
Первый этап: слияние
- При наличии в дополнительной части коми леммы [item][/item], она добавляется в строку перевода основной части [trn][/trn], если это слово там отсутствует.
- Строки "русский перевод-словосочетание + коми оригинал-лемма" [rus][/rus][kpv][/kpv] добавляются как примеры сочетаемости к соответствующим семантическим разделам в основной части.
- Строки "русский перевод-словосочетание + коми оригинал-словосочетание" [rus][/rus] [kpv][/kpv] добавляются как примеры сочетаемости к соответствующим семантическим разделам в основной части.
- Фразеологизмы добавочной части добавляются в группу фразеологизмов основной части