Создание коми (пермяцкого) спеллера

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску
Онлайн-версия коми (пермяцкого) спелл-чекера здесь: Коми_(Пермский край).
Плагин проверки коми (пермяцкого) правописания в браузере FireFox здесь: Koi spellchecking dictionary
Соответствующее расширение для LibreOffce здесь: Орфографический словарь коми (пермяцкого) языка

Процесс

• На первом этапе в общем словнике, составленном путем объединения всех существующих коми-пермяцких словарей, были проиндексированы части речи.
• Этот процесс был частично автоматизирован: глаголам и словам с типичной концовкой индексы присваивались автоматически на формальных основаниях.
• Около 12 тысяч слов пришлось индексировать в ручном режиме. Все эти слова были изначально помечены как существительные, а затем в ходе просмотра из списка были выделены лексемы, относящиеся к другим частям речи (прилагательное, числительное, наречие, местоимение, частица, союз, послелог).
• В словник были механически добавлены коми (пермяцкие) имена, фамилии и топонимы из прежних списков.
• Из словника коми-зырянского спелл-чекера были добавлены русские нарицательные заимствования (существительные и прилагательные), а также общий массив имен, топонимов, названий организаций и уникальных объектов. В случаях, когда форма этих слов в зырянском варианте коми языка отличается от пермяцкой, вносятся исправления.
• С учетом опыта по созданию зырянского спеллера и работы над удмуртским спелл-чекером, были выделены индексы для различных словоизменительных категорий: созданы аффиксальные парадигмы с вариантами спряжения и склонения. 
• Можно также реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общеизвестное, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), точность заимствования (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов).
• В настоящее время индексация представлена в таком виде.
• Затем все проиндексированные слова последовательно просматриваются на предмет исправления ошибок индексации.
• Параллельно начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса. Обращаем внимание на всё, что подчеркивается. Исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально.
• После завершения работы про просмотру всех текстов корпуса, можно будет автоматически удалить из словника лексику, которой в текстах не обнаружится (но это не обязательно).

Проблемы

  • диалектные фонетические варианты;
  • варьирование грамматических форм: поннэзыс - добавлено, каннезсӧ, киэсис;
  • ненормированное чередование в основах: - добавлено
гробй-, быгй-, тувй-, ньывй-, гидй-, жырй-, позй-, гырй-, зорй-, чомй-,
коск-,  раск-;
  • по несколько названий одного и того же географического объекта (коми, русское и их фонетич. вариации);
  • вообще выбор приоритетов при наличии комизированных вариантов заимствований.

Видлавны

аскодя = аскоддя
асьнас = аснас
асьыскӧт = ачыскӧт
асяс = асас
ботинок = ботинки
бракнитчыны = брякнитчыны
бумазея = бумазей
бызйыны = пызйыны
быттьӧ = бытьтӧ
валенка = валенки
весьолісь = весь олісь
винӧват = виноват
вӧжжи = вожжи
всёравно = сёравно
вувтышны = увтыштны
высин = лысин
гажтӧмчыны = гажтӧмтчыны
гвадь = гладь
гӧд = год
гӧрб = горб
гречиха = гречуга
грӧб = гроб
гыжжасьны = гыжьясьны
гыжжӧвтны = гыжйӧвтны
Дальньӧй = Дальнӧй
дёрнитны = дернитны
джоджувт = джоджув
дрӧжжитны = дрӧжитны
жолоб = желоб
жыла = жила
здоровьё = здоровье
зэрттисьны = зэркйисьны
зэрттьыны = зэркйыны
изгаляйтчыны = изгиляйтчыны
икӧта = икота
карчӧр = карчйӧр
километра = километр
кимӧсь = кимость
ковш = кӧш
кӧдылӧ = кӧдалӧ
кӧдылӧн = кӧдалӧн
кӧичка = кӧзичка
коктуй = кок туй
колёсо = колесо
конфет = конфета
кӧрӧбыс пасьтӧн = пасьта
корӧсь = корось
кӧртӧвӧй = кӧртовӧй
кӧстер = костёр
кӧтковну = кӧдковну
котойчик = коточик
Кочёв = Кӧч
ладӧр = ладор
леснич = лиснич
леттявны = летъявны
мамкыв = мам кыв
минприроды = минприрода
мӧднёдж = мӧднёж
мӧймася = мӧймуся
молебельнӧй = молельнӧй
морос сувдӧн = сувда
нар = нары
нёжли = нюжли
огореч, огоредз (+ Огоредзпон) = огореч
одзынӧ = одзуну
остатки = ӧстатки
ӧтлаӧн = ӧтлаын
пажын = павжун
пастушитны = пастучитны
пезьны = педзны
перттьыны = перкйыны
печёнка = печонка
пинди = пыдди
питируйтны = питиривайтны
платтё = платье
полатёк = пӧлатёк
посника = поснитика
постеля = постелля
поттшуйтны = потшуйт
проглас = проглаз
продитны = прӧйдитны
продукта = продукт
прокляттё = проклятие
пувъягӧд = пуягӧд
пуӧвӧй = пуовӧй
пусьны = пусьыны
пырскыны = ырскыны
рыттявнас = рытъявнас
сватья = сваття
сорӧвтны = соровтны
сосиски = сосискаэз
сӧчӧн = сочон
спичка = спича
стрӧитны = строитны
стрӧча = стреча
струб = сруб
суда = сувда
суседку = соседка
суседку = суседко
сырттявны = сыркьявны
сьывьяныс = сивианыс
сясӧт = часӧт
тенак = кенак
тетка = тётка
тӧвар = товар
тоже = тожӧ
тожнӧ = тожно
тожо, тоже = тожӧ
тӧкӧ = токӧ
тӧкӧ, толькӧ, тӧлькӧ = токӧ
увысь =  увтісь
унжык = унажык
флокса = флокс
Чазьӧв = Чадзӧв
чодзыл = дзодзыв
чучола = чучела
шырттьыны = шыркйыны
этшӧм, этшшӧм = эттшӧм
эшшӧ = эшӧ

Содтана кывъяс

бӧбассьыны бордасьӧтны бурсьӧтыштны бытшкасьыштлыны вакйыштны вартчӧв-керны везйыны взрывайтчыны визгыштны воӧтчыны воюйтлыны гежгылясьны гогныштны гӧжгыны горттӧмсявны гыззьыны дзарйӧвтны дзоридзсьӧтны дзугьясьны извередитны йывдсьыны керассьыны кыдзсьӧтны мутшкӧтыштлыны мыжьявны образуйтны ӧвсьӧтыштны орддьӧвтны ӧткаавны отказывайтны отоваривайтчыны паздіссьыны перестраивайтчыны пешлыштлыны питьыртны подстраивайтчыны помсьӧтны помсявны преобладайтны раздражайтны разработайтны сальны сетассьыны сёрзыны созидайтны тӧдсьыны трактуйтны туйдӧтлыны тюрли-тюрликтыны ульзьыны умӧльсьӧтны уяруйтны чарньӧвтны шатласьлыны шлёчкыны шовкӧтыштлыны шудсьӧтны шушкӧтны ыпайтны югйыны югмывны юралісявны