Русско-коми электронный словарь: различия между версиями
Admin (обсуждение | вклад) |
Admin (обсуждение | вклад) |
||
Строка 54: | Строка 54: | ||
Для удобства редактирования словарей в DSL-формате создали собственную подсветку в популярном текстовом редакторе [[Gedit]]. | Для удобства редактирования словарей в DSL-формате создали собственную подсветку в популярном текстовом редакторе [[Gedit]]. | ||
==Ссылки== | |||
* [[GoldenDict]] | |||
* [[DSL]] | |||
* [[Коми электронные словари]] | |||
* [[Перевёртыш]] |
Версия от 13:07, 23 февраля 2014
Сканирование
За основу Русско-коми электронного словаря взято издание: «Л.М.Безносикова, Н.К.Забоева, Р.И.Коснырева «Русско-коми словарь», Институт языка, литературы и истории Коми научного центра Уральского отделения Российской академии наук; под редакцией Л.М.Безносиковой. — Сыктывкар: Коми книжное издательство, 2003. — 1104 с.»
В связи с отсутствием электронной версии данного издания было решено отсканировать его. Сканирование словаря осуществлено силами ЦИЯТ, и его PDF-версия (нераспознанная) предоставлена авторам, которая размещена в свободном доступе на сайте komikyv.com.
Распознавание
В июле 2013 года начата работа по распознаванию PDF-версии словаря в текст. Для этого была использована программа ABBYY FineReader 11 Professional Edition с созданным пользовательским языком "Коми (зырянский)" и подключенным пользовательским словарём поддержки.
Вычитка и корректура
В связи с отсутствием полноценной поддержки коми языка в ABBYY FineReader распознанный текст содержал много ошибок в результате некорректного распознавания, опечатки в самом оригинале, необходимо было провести вычитку текста словаря и править ошибки. Также в Русско-коми словаре 2003 года содержались смысловые ошибки и неточный перевод иллюстративных примеров.
Вычитка и корректура текста данного словаря заняла около 3 месяцев: с июля по сентябрь 2013 года.
Перевод в DSL-формат
В качестве офлайн электронных словарей ЦИЯТ выбрал оболочку для электронных словарей с открытым исходным кодом GoldenDict, поддерживающую многие форматы словарей ABBYY Lingvo, StarDict, Babylon, Dictd. Для разметки словарных статей решили использовать формат DSL (Dictionary Specification Language), разработанный компанией ABBYY.
Перевод словаря в DSL-формат был сделан в октябре-ноябре 2013 года. Словарь в данном формате состоит из 2-х файлов: собственно самого словаря и файла условных сокращений.
Доработка словаря
В Русско-коми словаре 2003 года словарная статья "авиация" выглядела следующим образом:
авиация ж. авиация (лэбалан машинаяс, сынӧдса флот; сынӧдті лэбалӧм да сы йылысь теория) военная авиация военнӧй авиация
В том же словаре в статье "полковник" есть иллюстративный пример:
полковник ... полковник авиации авиацияса полковник
Данный пример добавляем в статью "авиация", после которой она будет выглядеть так:
авиация ж. авиация (лэбалан машинаяс, сынӧдса флот; сынӧдті лэбалӧм да сы йылысь теория) военная авиация военнӧй авиация полковник авиации авиацияса полковник
Также добавляем все примеры и переводы из электронной версии издания «Безносикова Л.М., Айбабина Е.А., Коснырева Р.И. Коми-роч кывчукӧр (Коми-русский словарь) / Отв. ред. Л.М.Безносикова; ИЯЛИ Коми НЦ УрО РАН. - Сыктывкар: Коми кн. изд-во, 2000. - 816 с.»
Файл словаря после объединения двух словарей выглядит так: фрагмент файла rus-kom2003.dsl.
Для удобства редактирования словарей в DSL-формате создали собственную подсветку в популярном текстовом редакторе Gedit.