Создание коми (пермяцкого) спеллера

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску

Бета-версия коми (пермяцкого) спелл-чекера здесь: Коми_(Пермский край).

Процесс

• На первом этапе в общем словнике, составленном путем объединения всех существующих коми-пермяцких словарей, были проиндексированы части речи.
• Этот процесс был частично автоматизирован: глаголам и словам с типичной концовкой индексы присваивались автоматически на формальных основаниях.
• Около 15 тысяч слов пришлось индексировать в ручном режиме. Все эти слова были изначально помечены как существительные, а затем в ходе просмотра из списка были выделены лексемы, относящиеся к другим частям речи (прилагательное, числительное, наречие, местоимение, частица, союз, послелог).
• В словник были механически добавлены коми (пермяцкие) имена, фамилии и топонимы из прежних списков.
• Из словника коми-зырянского спелл-чекера были добавлены русские нарицательные заимствования (существительные и прилагательные), а также общий массив имен, топонимов, названий организаций и уникальных объектов. В случаях, когда форма этих слов в зырянском варианте коми языка отличается от пермяцкой, вносятся исправления.
• С учетом опыта по созданию зырянского спеллера и работы над удмуртским спелл-чекером, были выделены индексы для различных словоизменительных категорий: созданы аффиксальные парадигмы с вариантами спряжения и склонения. 
• Можно также реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общеизвестное, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), точность заимствования (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов).
• Затем все проиндексированные слова последовательно просматриваются на предмет исправления ошибок индексации.
• Параллельно начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса. Обращаем внимание на всё, что подчеркивается. Исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально.
• После завершения работы про просмотру всех текстов корпуса, можно будет автоматически удалить из словника лексику, которой в текстах не обнаружится (но это не обязательно).

Проблемы

  • диалектные фонетические варианты;
  • по несколько названий одного и того же топонима;
  • выбор приоритетов при наличии комизированных вариантов заимствований.

Видлавны

аскодя = аскоддя
увысь =  увтісь
Чазьӧв = Чадзӧв
мӧймася = мӧймуся
суда = сувда
кимӧсь = кимость
бумазея = бумазей
постеля = постелля
корӧсь = корось
аскодя = аскоддя
асьнас = аснас
асьыскӧт = ачыскӧт
асяс = асас
ботинок = ботинки
бракнитчыны = брякнитчыны
бызйыны = пызйыны
быттьӧ = бытьтӧ
валенка = валенки
весьолісь = весь олісь
винӧват = виноват
вӧжжи = вожжи
всёравно = сёравно
вувтышны = увтыштны
высин = лысин
гажтӧмчыны = гажтӧмтчыны
гвадь = гладь
гӧд = год
гӧрб = горб
гречиха = гречуга
грӧб = гроб
гыжжасьны = гыжьясьны
гыжжӧвтны = гыжйӧвтны
Дальньӧй = Дальнӧй
дёрнитны = дернитны
джоджувт = джоджув
дрӧжжитны = дрӧжитны
жолоб = желоб
жыла = жила
здоровьё = здоровье
зэрттисьны = зэркйисьны
зэрттьыны = зэркйыны
изгаляйтчыны = изгиляйтчыны
икӧта = икота
карчӧр = карчйӧр
километра = километр
ковш = кӧш
кӧдылӧ = кӧдалӧ
кӧдылӧн = кӧдалӧн
кӧичка = кӧзичка
коктуй = кок туй
колёсо = колесо
конфет = конфета
кӧрӧбыс пасьтӧн = пасьта
кӧртӧвӧй = кӧртовӧй
кӧстер = костёр
кӧтковну = кӧдковну
котойчик = коточик
Кочёв = Кӧч
ладӧр = ладор
леснич = лиснич
леттявны = летъявны
мамкыв = мам кыв
минприроды = минприрода
мӧднёдж = мӧднёж
молебельнӧй = молельнӧй
морос сувдӧн = сувда
нар = нары
нёжли = нюжли
огореч, огоредз (+ Огоредзпон) = огореч
одзынӧ = одзуну
остатки = ӧстатки
ӧтлаӧн = ӧтлаын
пажын = павжун
пастушитны = пастучитны
пезьны = педзны
перттьыны = перкйыны
печёнка = печонка
пинди = пыдди
питируйтны = питиривайтны
платтё = платье
полатёк = пӧлатёк
посника = поснитика
поттшуйтны = потшуйт
проглас = проглаз
продитны = прӧйдитны
продукта = продукт
прокляттё = проклятие
пувъягӧд = пуягӧд
пуӧвӧй = пуовӧй
пусьны = пусьыны
пырскыны = ырскыны
рыттявнас = рытъявнас
сватья = сваття
сорӧвтны = соровтны
сосиски = сосискаэз
сӧчӧн = сочон
спичка = спича
стрӧитны = строитны
стрӧча = стреча
струб = сруб
суседку = соседка
суседку = суседко
сырттявны = сыркьявны
сьывьяныс = сивианыс
сясӧт = часӧт
тенак = кенак
тетка = тётка
тӧвар = товар
тоже = тожӧ
тожнӧ = тожно
тожо, тоже = тожӧ
тӧкӧ = токӧ
тӧкӧ, толькӧ, тӧлькӧ = токӧ
унжык = унажык
флокса = флокс
Чазьӧв = Чадзӧв
чодзыл = дзодзыв
чучола = чучела
шырттьыны = шыркйыны
этшӧм, этшшӧм = эттшӧм
эшшӧ = эшӧ