Русско-марийский электронный словарь

Материал из Wiki FU-Lab
Версия от 21:39, 11 сентября 2017; Ӧньӧ Лав (обсуждение | вклад)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигации Перейти к поиску

Создание Русско-марийского электронного словаря

Сканирование

Учаев 3.В., Захарова В.С. Русско-марийский словарь. (1999)

"Учаев 3.В., Захарова В.С. Русско-марийский словарь. Йошкар-Ола: Марийское книжное издательство, 1999. — 480 с.".

Русско-марийский словарь содержит около 20000 слов. В него включена в основном вся лексика марийского литературного языка. В словарь не вошли многочисленные заимствованные из русского языка, лишь незначительно отличающиеся от исходного слова или полностью совпадающие с ним.

Словарь предназначен для учителей и учащихся школ Республики Марий Эл, а также для изучающих марийский язык.

Словарь отсканировала Митюкова Елизавета Валерьевна (E-mail: elizaveta_sem@mail.ru) - за что ей огромное спасибо!

Распознавание

Для распознавания была использована программа ABBYY FineReader с подключенным пользовательским словарём поддержки.

Структура словарных статей

На примере словарной статьи безграмотно:

безгрáмот||но нареч. 1. (неграмотно) моштыде; ~о писать моштыде возаш; 2. (невежественно) палыде, шинчыде; ~ость ж. 1. (неграмотность) лудын-возен моштыдымаш; 2. (невежественность) палыдымаш, шинчыдымаш; ~ый прил. 1. (неграмотный) грамотдымо, тунемдыме. 2. (невежественный) палыдыме, шинчыдыме; 3. (малограмотный) шуко йоҥлышан.

Как видим, данная словарная статья содержит ещё 2 подстатьи: безграмотность и безграмотный. Тильды (которые нужны для уменьшения объёма словарей в книжных вариантах) в электронной версии решено убрать с помощью скрипта, написанного на Python; каждый перевод и иллюстративный пример - начать с новой строки; разными цветами выделить объяснения (толкования) в скобках на русском языке в строке переводов; также разными цветами отобразить иллюстративные переводы на русском и марийском языках. Ударения в названиях словарных статей (безгрáмотно) на данном этапе пока решено опустить: см. на dict.fu-lab.ru

Изменение структуры словаря

Наличие в словарных статьях ещё несколько подстатей, как в примере с "безграмотно", делает поиск неудобным для пользователей:

Rushla marla muter.png

По-этому было решено разбить подобные статьи не сколько словарных статей, например, из "безграмотно" делаем 3: "безграмотность", "безграмотный" и собственно "'безграмотно".

А словарные статьи, подобные: "балка Ⅰ", "балка Ⅱ" - наоборот, объединяем:

Rushla marla muter 2.png

Ударения в данный момент показываем только при объединении статей типа вóльно, вольнó; дорóгой, дорогóй; му́ка, мукá; пóра, порá; у́же, ужé ( хотя в дальнейшем можно и для всех словарных статей):

Rushla marla muter 3.png