Русско-коми электронный словарь: различия между версиями
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
Ӧньӧ Лав (обсуждение | вклад) |
||
(не показаны 32 промежуточные версии этого же участника) | |||
Строка 1: | Строка 1: | ||
Данная статья описывает процесс создания и оптимизации '''Большого русско-коми электронного словаря'''. | |||
==Сканирование== | ==Сканирование== | ||
[[Файл:Rus-kom2003.jpg|thumb|250px|Л.М.Безносикова, Н.К.Забоева, Р.И.Коснырева «Русско-коми словарь» (2003)]] | [[Файл:Rus-kom2003.jpg|thumb|250px|Л.М.Безносикова, Н.К.Забоева, Р.И.Коснырева «Русско-коми словарь» (2003)]] | ||
За основу '''Русско-коми электронного словаря''' взято издание: «Л.М.Безносикова, Н.К.Забоева, Р.И.Коснырева «Русско-коми словарь», Институт языка, литературы и истории Коми научного центра Уральского отделения Российской академии наук; под редакцией Л.М.Безносиковой. — Сыктывкар: Коми книжное издательство, 2003. — 1104 с.» | За основу '''Русско-коми электронного словаря''' взято издание: «Л.М.Безносикова, Н.К.Забоева, Р.И.Коснырева «Русско-коми словарь», Институт языка, литературы и истории Коми научного центра Уральского отделения Российской академии наук; под редакцией Л.М.Безносиковой. — Сыктывкар: Коми книжное издательство, 2003. — 1104 с.» | ||
В связи с отсутствием электронной версии данного издания было решено отсканировать его. Сканирование словаря осуществлено силами '''ЦИЯТ''', и его PDF-версия (нераспознанная) предоставлена авторам | В связи с отсутствием электронной версии данного издания было решено отсканировать его. Сканирование словаря осуществлено силами '''ЦИЯТ''', и его PDF-версия (нераспознанная) предоставлена авторам и размещена в свободном доступе на сайте '''komikyv.com'''. | ||
==Распознавание== | ==Распознавание== | ||
В июле 2013 года начата работа по | В июле 2013 года начата работа по переводу PDF-версии словаря в текст. Для распознавания была использована программа '''ABBYY FineReader 11 Professional Edition''' с созданным пользовательским языком "Коми (зырянский)" и подключенным [[Распознавание_коми_текстов|пользовательским словарём поддержки]]. | ||
==Вычитка и корректура== | ==Вычитка и корректура== | ||
Строка 20: | Строка 22: | ||
==Доработка словаря== | ==Доработка словаря== | ||
[[Файл:Kom-rus2000.jpg|thumb|250px|Безносикова Л.М., Айбабина Е.А., Коснырева Р.И. Коми-роч кывчукӧр (Коми-русский словарь) (2000)]] | [[Файл:Kom-rus2000.jpg|thumb|250px|Безносикова Л.М., Айбабина Е.А., Коснырева Р.И. Коми-роч кывчукӧр (Коми-русский словарь) (2000)]] | ||
В Русско-коми словаре 2003 года словарная статья "'''авиация'''" выглядела следующим образом: | В связи с замеченными недостатками в исходном русско-коми словаре 2003 года, было решено произвести его существенную доработку за счет интеграции материала из электронной версии издания «Безносикова Л.М., Айбабина Е.А., Коснырева Р.И. Коми-роч кывчукӧр (Коми-русский словарь) / Отв. ред. Л.М.Безносикова; ИЯЛИ Коми НЦ УрО РАН. - Сыктывкар: Коми кн. изд-во, 2000. - 816 с.» | ||
Оптимизация РКС оказалась возможной также путем использования иллюстративных примеров самого словаря 2003 года, расположенных в разных статьях. | |||
Так, в Русско-коми словаре 2003 года словарная статья "'''авиация'''" выглядела следующим образом: | |||
'''авиация''' | '''авиация''' | ||
''ж.'' | |||
авиация ''(лэбалан машинаяс, сынӧдса флот; сынӧдті лэбалӧм да сы йылысь теория)'' | |||
'''военная авиация''' военнӧй авиация | |||
В том же словаре в статье "'''полковник'''" есть иллюстративный пример: | В том же словаре в статье "'''полковник'''" есть иллюстративный пример: | ||
'''полковник''' | '''полковник''' | ||
... | |||
'''полковник авиации''' авиацияса полковник | |||
Данный пример добавляем в статью "'''авиация'''", после которой она будет выглядеть так: | Данный пример добавляем в статью "'''авиация'''", после которой она будет выглядеть так: | ||
'''авиация''' | '''авиация''' | ||
''ж.'' | |||
авиация ''(лэбалан машинаяс, сынӧдса флот; сынӧдті лэбалӧм да сы йылысь теория)'' | |||
'''военная авиация''' военнӧй авиация | |||
'''полковник авиации''' авиацияса полковник | |||
При доработке Русско-коми словаря 2003 года для использования примеров, переводов из Коми-русского словаря 2000 года ЦИЯТ разработана собственная программа [[Перевёртыш|"Перевёртыш"]]. Файл словаря после объединения двух словарей | При доработке Русско-коми словаря 2003 года для использования примеров, переводов из Коми-русского словаря 2000 года ЦИЯТ разработана собственная программа [[Перевёртыш|"Перевёртыш"]]. Файл словаря после объединения двух словарей выглядел так: [http://komikyv.ru/downloads/rus-kom2003_frag.dsl фрагмент файла rus-kom2003.dsl]. | ||
Для удобства редактирования словарей в DSL-формате создали собственную подсветку в популярном текстовом редакторе [[Gedit]]. | Для удобства редактирования словарей в DSL-формате создали собственную подсветку в популярном текстовом редакторе [[Gedit]]. | ||
Строка 57: | Строка 53: | ||
==Теги в русско-коми словаре== | ==Теги в русско-коми словаре== | ||
*'''[end] [/end]''' окончания | Система тегов подвергалась постоянной оптимизации. При филологической обработке сохранялись следующие теги: | ||
**–ая | |||
*'''[end] [/end]''' окончания, напр.: | |||
**[end]–ая, -ое[/end] | |||
*'''[m1] [/m]''' – строка пояснений | *'''[m1] [/m]''' – строка пояснений | ||
*'''[i] [/i]''' – грамматические и структурные пояснения | *'''[i] [/i]''' – грамматические и структурные пояснения, напр.: | ||
**[i]или [/i] | **[i]или [/i] | ||
**[i]в функции[/i] | **[i]в функции[/i] | ||
Строка 75: | Строка 73: | ||
**([i]в функции[/i] [p]сказ.[/p]) ([i]в функции[/i] [p]сущ.[/p]) | **([i]в функции[/i] [p]сказ.[/p]) ([i]в функции[/i] [p]сущ.[/p]) | ||
**([i]в функции[/i] [p]сущ.[/p] [i]близкие[/i] [p]мн.ч.[/p]) ([i]в функции[/i] [p]сущ.[/p] [i]блинная[/i] [p]ж.[/p]) | **([i]в функции[/i] [p]сущ.[/p] [i]близкие[/i] [p]мн.ч.[/p]) ([i]в функции[/i] [p]сущ.[/p] [i]блинная[/i] [p]ж.[/p]) | ||
*'''[p] [/p]''' – пояснения с сокращениями | *'''[p] [/p]''' – пояснения с сокращениями (см. [http://komikyv.ru/downloads/rus-kom2003_abrv.dsl список сокращений]) | ||
*'''[com] [/com]''' – лексические пояснения | *'''[com] [/com]''' – лексические пояснения, напр.: | ||
**[com](пожелание)[/com] | **[com](пожелание)[/com] | ||
*'''[trn] [/trn]''' – перевод на коми из словаря 2003 года | *'''[trn] [/trn]''' – перевод на коми из словаря 2003 года | ||
*'''[item] [/item'''] – | *'''[item] [/item'''] – коми лемма из словаря 2000 года | ||
*'''[rus] [/rus]''' – русский текст в примерах | *'''[rus] [/rus]''' – русский текст в примерах | ||
*'''[kpv] [/kpv]''' – коми текст в примерах | *'''[kpv] [/kpv]''' – коми текст в примерах | ||
Строка 91: | Строка 89: | ||
==Работа над упорядочением словарных статей == | ==Работа над упорядочением словарных статей == | ||
===Исходная структура=== | ===Исходная структура=== | ||
После автоматического расширения статей «Большого русско-коми словаря» за счет лексики и примеров из коми-русского словаря, мы получили следующую временную структуру словарной статьи | После автоматического расширения статей «Большого русско-коми словаря» за счет лексики и примеров из коми-русского словаря, мы получили следующую временную структуру словарной статьи: | ||
ОСНОВНАЯ ЧАСТЬ | '''ОСНОВНАЯ ЧАСТЬ''' (собственно статья Русско-коми словаря 2003) | ||
&&& | '''&&&''' | ||
ДОБАВОЧНАЯ ЧАСТЬ | '''ДОБАВОЧНАЯ ЧАСТЬ''' (материал из Коми-русского словаря 2000 и других статей РКС 2003) | ||
====Структура основной части==== | ====Структура основной части==== | ||
Строка 107: | Строка 105: | ||
*Русские фразеологизмы: ◊ [rus]русский оригинал[/rus] [kpv]коми перевод[/kpv] | *Русские фразеологизмы: ◊ [rus]русский оригинал[/rus] [kpv]коми перевод[/kpv] | ||
====Структура добавочной части | ====Структура добавочной части==== | ||
*Леммы коми-русского словаря, переводимая русской вокабулой, но не совпадающие с переводом русской вокабулы в основной части: '''[item][/item]''' | |||
*Леммы из коми-русского словаря, переводимые на русский язык словосочетанием: русское словосочетание + коми лемма '''[rus][/rus] [kpv][/kpv]''' | |||
*Примеры сочетаемости и их переводы из коми-русского словаря: русский перевод + коми оригинал '''[rus][/rus] [kpv][/kpv]''' | |||
*Коми фразеологизмы и их русские переводы, отсутствующие в основной части: ◊ русский перевод + коми оригинал '''[rus][/rus] [kpv][/kpv]''' | |||
В тексте присутствуют также различного рода пояснения, выделяемые специальными тегами ([[Русско-коми электронный словарь#Теги в русско-коми словаре|см.]]) | |||
Пример статьи с временной структурой: | |||
[[Файл:Nekogda.png|600px|]] | |||
===Слияние основной и добавочной части=== | ===Слияние основной и добавочной части=== | ||
Строка 122: | Строка 122: | ||
*Следует соблюдать отступ (\t, tab) в начале строки. Без таба идут только русские вокабулы. | *Следует соблюдать отступ (\t, tab) в начале строки. Без таба идут только русские вокабулы. | ||
*При интеграции словаря следует учитывать семантику многозначных слов, дополнения вносятся в соответствующие цифровые разделы. | *При интеграции словаря следует учитывать семантику многозначных слов, дополнения вносятся в соответствующие цифровые разделы. | ||
*Строки, в которых русская часть идентична, сливаются, варианты коми | *Строки, в которых русская часть идентична, сливаются, варианты коми соответствий даются через запятую | ||
====Первый этап: | ====Первый этап: объединение частей==== | ||
*При наличии в дополнительной части коми леммы '''[item][/item]''', она добавляется в строку перевода основной части '''[trn][/trn]''', если это слово там отсутствует. | *При наличии в дополнительной части коми леммы '''[item][/item]''', она добавляется в строку перевода основной части '''[trn][/trn]''', если это слово там отсутствует. | ||
*Строки "русский перевод-словосочетание + коми оригинал-лемма" '''[rus][/rus][kpv][/kpv]''' добавляются как примеры сочетаемости к соответствующим семантическим разделам в основной части. | *Строки "русский перевод-словосочетание + коми оригинал-лемма" '''[rus][/rus][kpv][/kpv]''' добавляются как примеры сочетаемости к соответствующим семантическим разделам в основной части. | ||
Строка 130: | Строка 130: | ||
====Второй этап: переструктурирование словарной статьи==== | ====Второй этап: переструктурирование словарной статьи==== | ||
В большинстве случаев элементарное добавление пары-тройки примеров не вызывает вопросов. Однако, для высокочастотных слов, проблемой становится порядок расположения добавленного материала. | |||
В многозначных словах примеры и переводы добавляются в нумерованные разделы с соответствующим значением. Если выявляется новое значение слова, не подходящее под существующие разделы, для него следует создать отдельный нумерованный раздел. | |||
В начале каждого нумерованного раздела желательно характеризовать в скобках по-русски его специфику. Это можно сделать, либо приведя (в теге [com][/com]) синоним русской вокабуле в данном значении, либо в соответствующих тегах указав сферу применения данного слова: [p]бот.[/p], [com](о человеке)[/com] и т.п. | |||
Группу примеров следует рассортировать таким образом, чтобы была ясно видна сочетаемость вокабулы с другими словами. | |||
=====Разработка крупных статей о существительных===== | |||
'''Предварительная обработка''' объединенного материала проходит несколько этапов. | |||
В качестве первого шага можно разделить примеры на две группы: ''основную массу'' и помеченные ромбом "''фразеологизмы''" (среди последних также приметы, пословицы и поговорки), после чего провести автоматическую сортировку каждой из указанных групп по алфавиту. В результате русские сочетания с одинаковым началом окажутся рядом, после чего идентичные сочетания можно объединять. | |||
Вторым этапом является '''грубая сортировка''' основной массы примеров по типу сочетания: ''атрибутивное, глагольное, предложное, именное''. | |||
В группе '''атрибутивных сочетаний''' следует разделить сочетания с прилагательными и определительные сочетания иных структур. В каждом из данных разделов проводится автоматическая сортировка по алфавиту и интеграция аналогичных словосочетаний. Разные коми эквиваленты русского сочетания даются в общей строке через запятую. Как правило, на этом этапе появляется возможность добавления коми переводов, поскольку в пределах видимости оказываются сочетания, близкие по значению. | |||
'''Сочетания с глаголами''' делим на две группы – ''вокабула как субъект'' и ''вокабула как объект''. Проводим автоматическую алфавитную сортировку каждой группы. После этого следует вручную отсортировать сочетания по семантическому признаку, в результате чего близкие по значению сочетания должны оказаться рядом. Это дает возможность перекрестного добавления коми переводов и восстановление упущенных русских сочетаний с аналогичным значением. По возможности следует привести глагольные сочетания к элементарной форме – ''существительное + глагол в 3 лице единственного числа настоящего или прошедшего времени''. Проводим окончательную алфавитную сортировку каждой из групп. | |||
Рекомендуемый '''окончательный порядок''' расположения иллюстративных примеров для существительных: | |||
*сочетания с прилагательными | |||
*определительные сочетания иных структур | |||
*сочетания с глаголами (вокабула как субъект) | |||
*сочетания с глаголами (вокабула как объект) | |||
*высокочастотные предложные конструкции | |||
*именные сочетания (вокабула как объект, атрибут или обстоятельство) | |||
*фразеологизмы | |||
*приметы, пословицы, поговорки | |||
Внутри данных разделов предпочтителен алфавитный порядок расположения примеров. | |||
Пример упорядоченной статья после снятия тегов: [[Ветер (БРКС)]] | |||
==Уджалысьяс== | |||
*BoAn - текн | |||
*CeAn - текн | |||
*EnLa - аиу | |||
*GaNa - б-весь | |||
*NeOl - весьма-деньги | |||
*JaTa - деньденьской-иже | |||
*KoLu - л | |||
*PuNa - малец-нейлон | |||
*MoLu - неймёт-пасха | |||
*GuNa - фхцч | |||
*SaSv - шщ | |||
*UlOl - эюя | |||
*0000 - кпрст | |||
==Ссылки== | ==Ссылки== | ||
Строка 139: | Строка 188: | ||
* [[Перевёртыш]] | * [[Перевёртыш]] | ||
[[Category: | [[Category:Инструментарий (коми кыв)]] |
Текущая версия от 11:01, 17 марта 2014
Данная статья описывает процесс создания и оптимизации Большого русско-коми электронного словаря.
Сканирование
За основу Русско-коми электронного словаря взято издание: «Л.М.Безносикова, Н.К.Забоева, Р.И.Коснырева «Русско-коми словарь», Институт языка, литературы и истории Коми научного центра Уральского отделения Российской академии наук; под редакцией Л.М.Безносиковой. — Сыктывкар: Коми книжное издательство, 2003. — 1104 с.»
В связи с отсутствием электронной версии данного издания было решено отсканировать его. Сканирование словаря осуществлено силами ЦИЯТ, и его PDF-версия (нераспознанная) предоставлена авторам и размещена в свободном доступе на сайте komikyv.com.
Распознавание
В июле 2013 года начата работа по переводу PDF-версии словаря в текст. Для распознавания была использована программа ABBYY FineReader 11 Professional Edition с созданным пользовательским языком "Коми (зырянский)" и подключенным пользовательским словарём поддержки.
Вычитка и корректура
В связи с отсутствием полноценной поддержки коми языка в ABBYY FineReader распознанный текст содержал много ошибок в результате некорректного распознавания, опечатки в самом оригинале, необходимо было провести вычитку текста словаря и править ошибки. Также в Русско-коми словаре 2003 года содержались смысловые ошибки и неточный перевод иллюстративных примеров.
Вычитка и корректура текста данного словаря заняла около 3 месяцев: с июля по сентябрь 2013 года.
Перевод в DSL-формат
В качестве офлайн электронных словарей ЦИЯТ выбрал оболочку для электронных словарей с открытым исходным кодом GoldenDict, поддерживающую многие форматы словарей ABBYY Lingvo, StarDict, Babylon, Dictd. Для разметки словарных статей решили использовать формат DSL (Dictionary Specification Language), разработанный компанией ABBYY.
Перевод словаря в DSL-формат был сделан в октябре-ноябре 2013 года. Словарь в данном формате состоит из 2-х файлов: собственно самого словаря и файла условных сокращений.
Доработка словаря
В связи с замеченными недостатками в исходном русско-коми словаре 2003 года, было решено произвести его существенную доработку за счет интеграции материала из электронной версии издания «Безносикова Л.М., Айбабина Е.А., Коснырева Р.И. Коми-роч кывчукӧр (Коми-русский словарь) / Отв. ред. Л.М.Безносикова; ИЯЛИ Коми НЦ УрО РАН. - Сыктывкар: Коми кн. изд-во, 2000. - 816 с.»
Оптимизация РКС оказалась возможной также путем использования иллюстративных примеров самого словаря 2003 года, расположенных в разных статьях.
Так, в Русско-коми словаре 2003 года словарная статья "авиация" выглядела следующим образом:
авиация ж. авиация (лэбалан машинаяс, сынӧдса флот; сынӧдті лэбалӧм да сы йылысь теория) военная авиация военнӧй авиация
В том же словаре в статье "полковник" есть иллюстративный пример:
полковник ... полковник авиации авиацияса полковник
Данный пример добавляем в статью "авиация", после которой она будет выглядеть так:
авиация ж. авиация (лэбалан машинаяс, сынӧдса флот; сынӧдті лэбалӧм да сы йылысь теория) военная авиация военнӧй авиация полковник авиации авиацияса полковник
При доработке Русско-коми словаря 2003 года для использования примеров, переводов из Коми-русского словаря 2000 года ЦИЯТ разработана собственная программа "Перевёртыш". Файл словаря после объединения двух словарей выглядел так: фрагмент файла rus-kom2003.dsl.
Для удобства редактирования словарей в DSL-формате создали собственную подсветку в популярном текстовом редакторе Gedit.
Теги в русско-коми словаре
Система тегов подвергалась постоянной оптимизации. При филологической обработке сохранялись следующие теги:
- [end] [/end] окончания, напр.:
- [end]–ая, -ое[/end]
- [m1] [/m] – строка пояснений
- [i] [/i] – грамматические и структурные пояснения, напр.:
- [i]или [/i]
- [i]в функции[/i]
- [i]примета[/i]
- [i]загадка[/i]
- [i]отгадка[/i]
- [i]предлог[/i]
- [i]союз[/i]
- [i]в 1 знач.[/i] [i]в 1, 2 знач.[/i][
- [i]что[/i] [i]кому[/i] [i]кому-чему[/i] [i]чего[/i] [i]чем[/i] [i]кого-что, на что[/i] [i]кому-чему[/i] [i]перед кем-чем[/i] [i]кого, за что[/i] [i]кому, к кому[/i]
- [i]употребляется лишь в составе выражений:[/i]
- [p]мн.ч.[/p] ([p]ед.ч.[/p] [i]блёстка[/i] [p]ж.[/p])
- ([p]мн.ч.[/p] [i]блага[/i])
- ([i]в функции[/i] [p]сказ.[/p]) ([i]в функции[/i] [p]сущ.[/p])
- ([i]в функции[/i] [p]сущ.[/p] [i]близкие[/i] [p]мн.ч.[/p]) ([i]в функции[/i] [p]сущ.[/p] [i]блинная[/i] [p]ж.[/p])
- [p] [/p] – пояснения с сокращениями (см. список сокращений)
- [com] [/com] – лексические пояснения, напр.:
- [com](пожелание)[/com]
- [trn] [/trn] – перевод на коми из словаря 2003 года
- [item] [/item] – коми лемма из словаря 2000 года
- [rus] [/rus] – русский текст в примерах
- [kpv] [/kpv] – коми текст в примерах
- [ex] [/ex] – референция
- [ex]смотри:[/ex]
- [ex]то же, что:[/ex]
- [ex]сійӧ жӧ, мый:[/ex]
- [ex]от [/ex]
- [ref] [/ref] – ссылка на другую статью
Работа над упорядочением словарных статей
Исходная структура
После автоматического расширения статей «Большого русско-коми словаря» за счет лексики и примеров из коми-русского словаря, мы получили следующую временную структуру словарной статьи:
ОСНОВНАЯ ЧАСТЬ (собственно статья Русско-коми словаря 2003)
&&&
ДОБАВОЧНАЯ ЧАСТЬ (материал из Коми-русского словаря 2000 и других статей РКС 2003)
Структура основной части
- Русская вокабула
- Грамматические пояснения к ней: [m1] [/m] или [end] [/end]
- Перевод вокабулы на коми язык: [trn]комиӧн [/trn]
- Примеры сочетаемости и их переводы на коми язык: [rus]русский оригинал[/rus] [kpv]коми перевод[/kpv]
- Русские фразеологизмы: ◊ [rus]русский оригинал[/rus] [kpv]коми перевод[/kpv]
Структура добавочной части
- Леммы коми-русского словаря, переводимая русской вокабулой, но не совпадающие с переводом русской вокабулы в основной части: [item][/item]
- Леммы из коми-русского словаря, переводимые на русский язык словосочетанием: русское словосочетание + коми лемма [rus][/rus] [kpv][/kpv]
- Примеры сочетаемости и их переводы из коми-русского словаря: русский перевод + коми оригинал [rus][/rus] [kpv][/kpv]
- Коми фразеологизмы и их русские переводы, отсутствующие в основной части: ◊ русский перевод + коми оригинал [rus][/rus] [kpv][/kpv]
В тексте присутствуют также различного рода пояснения, выделяемые специальными тегами (см.)
Пример статьи с временной структурой:
Слияние основной и добавочной части
Основные принципы
- Следует соблюдать отступ (\t, tab) в начале строки. Без таба идут только русские вокабулы.
- При интеграции словаря следует учитывать семантику многозначных слов, дополнения вносятся в соответствующие цифровые разделы.
- Строки, в которых русская часть идентична, сливаются, варианты коми соответствий даются через запятую
Первый этап: объединение частей
- При наличии в дополнительной части коми леммы [item][/item], она добавляется в строку перевода основной части [trn][/trn], если это слово там отсутствует.
- Строки "русский перевод-словосочетание + коми оригинал-лемма" [rus][/rus][kpv][/kpv] добавляются как примеры сочетаемости к соответствующим семантическим разделам в основной части.
- Строки "русский перевод-словосочетание + коми оригинал-словосочетание" [rus][/rus] [kpv][/kpv] добавляются как примеры сочетаемости к соответствующим семантическим разделам в основной части.
- Фразеологизмы добавочной части добавляются в группу фразеологизмов основной части
Второй этап: переструктурирование словарной статьи
В большинстве случаев элементарное добавление пары-тройки примеров не вызывает вопросов. Однако, для высокочастотных слов, проблемой становится порядок расположения добавленного материала.
В многозначных словах примеры и переводы добавляются в нумерованные разделы с соответствующим значением. Если выявляется новое значение слова, не подходящее под существующие разделы, для него следует создать отдельный нумерованный раздел.
В начале каждого нумерованного раздела желательно характеризовать в скобках по-русски его специфику. Это можно сделать, либо приведя (в теге [com][/com]) синоним русской вокабуле в данном значении, либо в соответствующих тегах указав сферу применения данного слова: [p]бот.[/p], [com](о человеке)[/com] и т.п.
Группу примеров следует рассортировать таким образом, чтобы была ясно видна сочетаемость вокабулы с другими словами.
Разработка крупных статей о существительных
Предварительная обработка объединенного материала проходит несколько этапов.
В качестве первого шага можно разделить примеры на две группы: основную массу и помеченные ромбом "фразеологизмы" (среди последних также приметы, пословицы и поговорки), после чего провести автоматическую сортировку каждой из указанных групп по алфавиту. В результате русские сочетания с одинаковым началом окажутся рядом, после чего идентичные сочетания можно объединять.
Вторым этапом является грубая сортировка основной массы примеров по типу сочетания: атрибутивное, глагольное, предложное, именное.
В группе атрибутивных сочетаний следует разделить сочетания с прилагательными и определительные сочетания иных структур. В каждом из данных разделов проводится автоматическая сортировка по алфавиту и интеграция аналогичных словосочетаний. Разные коми эквиваленты русского сочетания даются в общей строке через запятую. Как правило, на этом этапе появляется возможность добавления коми переводов, поскольку в пределах видимости оказываются сочетания, близкие по значению.
Сочетания с глаголами делим на две группы – вокабула как субъект и вокабула как объект. Проводим автоматическую алфавитную сортировку каждой группы. После этого следует вручную отсортировать сочетания по семантическому признаку, в результате чего близкие по значению сочетания должны оказаться рядом. Это дает возможность перекрестного добавления коми переводов и восстановление упущенных русских сочетаний с аналогичным значением. По возможности следует привести глагольные сочетания к элементарной форме – существительное + глагол в 3 лице единственного числа настоящего или прошедшего времени. Проводим окончательную алфавитную сортировку каждой из групп.
Рекомендуемый окончательный порядок расположения иллюстративных примеров для существительных:
- сочетания с прилагательными
- определительные сочетания иных структур
- сочетания с глаголами (вокабула как субъект)
- сочетания с глаголами (вокабула как объект)
- высокочастотные предложные конструкции
- именные сочетания (вокабула как объект, атрибут или обстоятельство)
- фразеологизмы
- приметы, пословицы, поговорки
Внутри данных разделов предпочтителен алфавитный порядок расположения примеров.
Пример упорядоченной статья после снятия тегов: Ветер (БРКС)
Уджалысьяс
- BoAn - текн
- CeAn - текн
- EnLa - аиу
- GaNa - б-весь
- NeOl - весьма-деньги
- JaTa - деньденьской-иже
- KoLu - л
- PuNa - малец-нейлон
- MoLu - неймёт-пасха
- GuNa - фхцч
- SaSv - шщ
- UlOl - эюя
- 0000 - кпрст