Создание коми (пермяцкого) спеллера: различия между версиями
Перейти к навигации
Перейти к поиску
Ӧньӧ Лав (обсуждение | вклад) |
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
||
Строка 19: | Строка 19: | ||
* по несколько названий одного и того же топонима; | * по несколько названий одного и того же топонима; | ||
* выбор приоритетов при наличии комизированных вариантов заимствований. | * выбор приоритетов при наличии комизированных вариантов заимствований. | ||
== Видлавны== | |||
аскодя = аскоддя | |||
увысь = увтісь | |||
Чазьӧв = Чадзӧв | |||
мӧймася = мӧймуся | |||
суда = сувда | |||
кимӧсь = кимость | |||
бумазея = бумазей | |||
постеля = постелля | |||
корӧсь = корось | |||
аскодя = аскоддя | |||
асьнас = аснас | |||
асьыскӧт = ачыскӧт | |||
асяс = асас | |||
ботинок = ботинки | |||
бракнитчыны = брякнитчыны | |||
бызйыны = пызйыны | |||
быттьӧ = бытьтӧ | |||
валенка = валенки | |||
весьолісь = весь олісь | |||
винӧват = виноват | |||
вӧжжи = вожжи | |||
всёравно = сёравно | |||
вувтышны = увтыштны | |||
высин = лысин | |||
гажтӧмчыны = гажтӧмтчыны | |||
гвадь = гладь | |||
гӧд = год | |||
гӧрб = горб | |||
гречиха = гречуга | |||
грӧб = гроб | |||
гыжжасьны = гыжьясьны | |||
гыжжӧвтны = гыжйӧвтны | |||
Дальньӧй = Дальнӧй | |||
дёрнитны = дернитны | |||
джоджувт = джоджув | |||
дрӧжжитны = дрӧжитны | |||
жолоб = желоб | |||
жыла = жила | |||
здоровьё = здоровье | |||
зэрттисьны = зэркйисьны | |||
зэрттьыны = зэркйыны | |||
изгаляйтчыны = изгиляйтчыны | |||
икӧта = икота | |||
карчӧр = карчйӧр | |||
километра = километр | |||
ковш = кӧш | |||
кӧдылӧ = кӧдалӧ | |||
кӧдылӧн = кӧдалӧн | |||
кӧичка = кӧзичка | |||
коктуй = кок туй | |||
колёсо = колесо | |||
конфет = конфета | |||
кӧрӧбыс пасьтӧн = пасьта | |||
кӧртӧвӧй = кӧртовӧй | |||
кӧстер = костёр | |||
кӧтковну = кӧдковну | |||
котойчик = коточик | |||
Кочёв = Кӧч | |||
ладӧр = ладор | |||
леснич = лиснич | |||
леттявны = летъявны | |||
мамкыв = мам кыв | |||
минприроды = минприрода | |||
мӧднёдж = мӧднёж | |||
молебельнӧй = молельнӧй | |||
морос сувдӧн = сувда | |||
нар = нары | |||
нёжли = нюжли | |||
огореч, огоредз (+ Огоредзпон) = огореч | |||
одзынӧ = одзуну | |||
остатки = ӧстатки | |||
ӧтлаӧн = ӧтлаын | |||
пажын = павжун | |||
пастушитны = пастучитны | |||
пезьны = педзны | |||
перттьыны = перкйыны | |||
печёнка = печонка | |||
пинди = пыдди | |||
питируйтны = питиривайтны | |||
платтё = платье | |||
полатёк = пӧлатёк | |||
посника = поснитика | |||
поттшуйтны = потшуйт | |||
проглас = проглаз | |||
продитны = прӧйдитны | |||
продукта = продукт | |||
прокляттё = проклятие | |||
пувъягӧд = пуягӧд | |||
пуӧвӧй = пуовӧй | |||
пусьны = пусьыны | |||
пырскыны = ырскыны | |||
рыттявнас = рытъявнас | |||
сватья = сваття | |||
сорӧвтны = соровтны | |||
сосиски = сосискаэз | |||
сӧчӧн = сочон | |||
спичка = спича | |||
стрӧитны = строитны | |||
стрӧча = стреча | |||
струб = сруб | |||
суседку = соседка | |||
суседку = суседко | |||
сырттявны = сыркьявны | |||
сьывьяныс = сивианыс | |||
сясӧт = часӧт | |||
тенак = кенак | |||
тетка = тётка | |||
тӧвар = товар | |||
тоже = тожӧ | |||
тожнӧ = тожно | |||
тожо, тоже = тожӧ | |||
тӧкӧ = токӧ | |||
тӧкӧ, толькӧ, тӧлькӧ = токӧ | |||
унжык = унажык | |||
флокса = флокс | |||
Чазьӧв = Чадзӧв | |||
чодзыл = дзодзыв | |||
чучола = чучела | |||
шырттьыны = шыркйыны | |||
этшӧм, этшшӧм = эттшӧм | |||
эшшӧ = эшӧ |
Версия от 19:54, 8 октября 2023
Бета-версия коми (пермяцкого) спелл-чекера здесь: Коми_(Пермский край).
Процесс
• На первом этапе в общем словнике, составленном путем объединения всех существующих коми-пермяцких словарей, были проиндексированы части речи. • Этот процесс был частично автоматизирован: глаголам и словам с типичной концовкой индексы присваивались автоматически на формальных основаниях. • Около 15 тысяч слов пришлось индексировать в ручном режиме. Все эти слова были изначально помечены как существительные, а затем в ходе просмотра из списка были выделены лексемы, относящиеся к другим частям речи (прилагательное, числительное, наречие, местоимение, частица, союз, послелог). • В словник были механически добавлены коми (пермяцкие) имена, фамилии и топонимы из прежних списков. • Из словника коми-зырянского спелл-чекера были добавлены русские нарицательные заимствования (существительные и прилагательные), а также общий массив имен, топонимов, названий организаций и уникальных объектов. В случаях, когда форма этих слов в зырянском варианте коми языка отличается от пермяцкой, вносятся исправления. • С учетом опыта по созданию зырянского спеллера и работы над удмуртским спелл-чекером, были выделены индексы для различных словоизменительных категорий: созданы аффиксальные парадигмы с вариантами спряжения и склонения. • Можно также реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общеизвестное, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), точность заимствования (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов). • Затем все проиндексированные слова последовательно просматриваются на предмет исправления ошибок индексации. • Параллельно начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса. Обращаем внимание на всё, что подчеркивается. Исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально. • После завершения работы про просмотру всех текстов корпуса, можно будет автоматически удалить из словника лексику, которой в текстах не обнаружится (но это не обязательно).
Проблемы
- диалектные фонетические варианты;
- по несколько названий одного и того же топонима;
- выбор приоритетов при наличии комизированных вариантов заимствований.
Видлавны
аскодя = аскоддя увысь = увтісь Чазьӧв = Чадзӧв мӧймася = мӧймуся суда = сувда кимӧсь = кимость бумазея = бумазей постеля = постелля корӧсь = корось аскодя = аскоддя асьнас = аснас асьыскӧт = ачыскӧт асяс = асас ботинок = ботинки бракнитчыны = брякнитчыны бызйыны = пызйыны быттьӧ = бытьтӧ валенка = валенки весьолісь = весь олісь винӧват = виноват вӧжжи = вожжи всёравно = сёравно вувтышны = увтыштны высин = лысин гажтӧмчыны = гажтӧмтчыны гвадь = гладь гӧд = год гӧрб = горб гречиха = гречуга грӧб = гроб гыжжасьны = гыжьясьны гыжжӧвтны = гыжйӧвтны Дальньӧй = Дальнӧй дёрнитны = дернитны джоджувт = джоджув дрӧжжитны = дрӧжитны жолоб = желоб жыла = жила здоровьё = здоровье зэрттисьны = зэркйисьны зэрттьыны = зэркйыны изгаляйтчыны = изгиляйтчыны икӧта = икота карчӧр = карчйӧр километра = километр ковш = кӧш кӧдылӧ = кӧдалӧ кӧдылӧн = кӧдалӧн кӧичка = кӧзичка коктуй = кок туй колёсо = колесо конфет = конфета кӧрӧбыс пасьтӧн = пасьта кӧртӧвӧй = кӧртовӧй кӧстер = костёр кӧтковну = кӧдковну котойчик = коточик Кочёв = Кӧч ладӧр = ладор леснич = лиснич леттявны = летъявны мамкыв = мам кыв минприроды = минприрода мӧднёдж = мӧднёж молебельнӧй = молельнӧй морос сувдӧн = сувда нар = нары нёжли = нюжли огореч, огоредз (+ Огоредзпон) = огореч одзынӧ = одзуну остатки = ӧстатки ӧтлаӧн = ӧтлаын пажын = павжун пастушитны = пастучитны пезьны = педзны перттьыны = перкйыны печёнка = печонка пинди = пыдди питируйтны = питиривайтны платтё = платье полатёк = пӧлатёк посника = поснитика поттшуйтны = потшуйт проглас = проглаз продитны = прӧйдитны продукта = продукт прокляттё = проклятие пувъягӧд = пуягӧд пуӧвӧй = пуовӧй пусьны = пусьыны пырскыны = ырскыны рыттявнас = рытъявнас сватья = сваття сорӧвтны = соровтны сосиски = сосискаэз сӧчӧн = сочон спичка = спича стрӧитны = строитны стрӧча = стреча струб = сруб суседку = соседка суседку = суседко сырттявны = сыркьявны сьывьяныс = сивианыс сясӧт = часӧт тенак = кенак тетка = тётка тӧвар = товар тоже = тожӧ тожнӧ = тожно тожо, тоже = тожӧ тӧкӧ = токӧ тӧкӧ, толькӧ, тӧлькӧ = токӧ унжык = унажык флокса = флокс Чазьӧв = Чадзӧв чодзыл = дзодзыв чучола = чучела шырттьыны = шыркйыны этшӧм, этшшӧм = эттшӧм эшшӧ = эшӧ