Создание коми (пермяцкого) спеллера: различия между версиями
Перейти к навигации
Перейти к поиску
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
Ӧньӧ Лав (обсуждение | вклад) |
||
(не показано 16 промежуточных версий этого же участника) | |||
Строка 1: | Строка 1: | ||
Онлайн-версия коми (пермяцкого) спелл-чекера здесь: [http://webspell.fu-lab.ru/ Коми_(Пермский край)]. | |||
Плагин проверки коми (пермяцкого) правописания в браузере FireFox здесь: [https://addons.mozilla.org/ru/firefox/addon/koi-spellchecking-dictionary/ Koi spellchecking dictionary] | |||
Соответствующее расширение для LibreOffce здесь: [http://vidzanin.komikyv.com/programms/Spell/spell_koi.oxt Орфографический словарь коми (пермяцкого) языка] | |||
==Процесс== | ==Процесс== | ||
Строка 5: | Строка 7: | ||
• На первом этапе в общем словнике, составленном путем объединения всех существующих коми-пермяцких словарей, были проиндексированы части речи. | • На первом этапе в общем словнике, составленном путем объединения всех существующих коми-пермяцких словарей, были проиндексированы части речи. | ||
• Этот процесс был частично автоматизирован: глаголам и словам с типичной концовкой индексы присваивались автоматически на формальных основаниях. | • Этот процесс был частично автоматизирован: глаголам и словам с типичной концовкой индексы присваивались автоматически на формальных основаниях. | ||
• Около | • Около 12 тысяч слов пришлось индексировать в ручном режиме. Все эти слова были изначально помечены как существительные, а затем в ходе просмотра из списка были выделены лексемы, относящиеся к другим частям речи (прилагательное, числительное, наречие, местоимение, частица, союз, послелог). | ||
• В словник были механически добавлены коми (пермяцкие) имена, фамилии и топонимы из прежних списков. | • В словник были механически добавлены коми (пермяцкие) имена, фамилии и топонимы из прежних списков. | ||
• Из словника коми-зырянского спелл-чекера были добавлены русские нарицательные заимствования (существительные и прилагательные), а также общий массив имен, топонимов, названий организаций и уникальных объектов. В случаях, когда форма этих слов в зырянском варианте коми языка отличается от пермяцкой, вносятся исправления. | • Из словника коми-зырянского спелл-чекера были добавлены русские нарицательные заимствования (существительные и прилагательные), а также общий массив имен, топонимов, названий организаций и уникальных объектов. В случаях, когда форма этих слов в зырянском варианте коми языка отличается от пермяцкой, вносятся исправления. | ||
• С учетом опыта по созданию зырянского спеллера и работы над удмуртским спелл-чекером, были выделены индексы для различных словоизменительных категорий: созданы аффиксальные парадигмы с вариантами спряжения и склонения. | • С учетом опыта по созданию зырянского спеллера и работы над удмуртским спелл-чекером, были выделены индексы для различных словоизменительных категорий: созданы аффиксальные парадигмы с вариантами спряжения и склонения. | ||
• Можно также реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общеизвестное, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), точность заимствования (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов). | • Можно также реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общеизвестное, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), точность заимствования (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов). | ||
• В настоящее время индексация представлена [[Индексация перем коми hunspell-ын|в таком виде]]. | |||
• Затем все проиндексированные слова последовательно просматриваются на предмет исправления ошибок индексации. | • Затем все проиндексированные слова последовательно просматриваются на предмет исправления ошибок индексации. | ||
• Параллельно начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса. Обращаем внимание на всё, что подчеркивается. Исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально. | • Параллельно начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса. Обращаем внимание на всё, что подчеркивается. Исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально. | ||
Строка 17: | Строка 20: | ||
* диалектные фонетические варианты; | * диалектные фонетические варианты; | ||
* по несколько названий одного и того же | * варьирование грамматических форм: поннэзыс - '''добавлено''', каннезсӧ, киэсис; | ||
* выбор приоритетов при наличии комизированных вариантов заимствований. | * ненормированное чередование в основах: - '''добавлено''' | ||
гробй-, быгй-, тувй-, ньывй-, гидй-, жырй-, позй-, гырй-, зорй-, чомй-, | |||
коск-, раск-; | |||
* по несколько названий одного и того же географического объекта (коми, русское и их фонетич. вариации); | |||
* вообще выбор приоритетов при наличии комизированных вариантов заимствований. | |||
== Видлавны== | == Видлавны== | ||
аскодя = аскоддя | аскодя = аскоддя | ||
асьнас = аснас | асьнас = аснас | ||
Строка 37: | Строка 35: | ||
ботинок = ботинки | ботинок = ботинки | ||
бракнитчыны = брякнитчыны | бракнитчыны = брякнитчыны | ||
бумазея = бумазей | |||
бызйыны = пызйыны | бызйыны = пызйыны | ||
быттьӧ = бытьтӧ | быттьӧ = бытьтӧ | ||
Строка 67: | Строка 66: | ||
карчӧр = карчйӧр | карчӧр = карчйӧр | ||
километра = километр | километра = километр | ||
кимӧсь = кимость | |||
ковш = кӧш | ковш = кӧш | ||
кӧдылӧ = кӧдалӧ | кӧдылӧ = кӧдалӧ | ||
Строка 75: | Строка 75: | ||
конфет = конфета | конфет = конфета | ||
кӧрӧбыс пасьтӧн = пасьта | кӧрӧбыс пасьтӧн = пасьта | ||
корӧсь = корось | |||
кӧртӧвӧй = кӧртовӧй | кӧртӧвӧй = кӧртовӧй | ||
кӧстер = костёр | кӧстер = костёр | ||
Строка 86: | Строка 87: | ||
минприроды = минприрода | минприроды = минприрода | ||
мӧднёдж = мӧднёж | мӧднёдж = мӧднёж | ||
мӧймася = мӧймуся | |||
молебельнӧй = молельнӧй | молебельнӧй = молельнӧй | ||
морос сувдӧн = сувда | морос сувдӧн = сувда | ||
Строка 104: | Строка 106: | ||
полатёк = пӧлатёк | полатёк = пӧлатёк | ||
посника = поснитика | посника = поснитика | ||
постеля = постелля | |||
поттшуйтны = потшуйт | поттшуйтны = потшуйт | ||
проглас = проглаз | проглас = проглаз | ||
Строка 122: | Строка 125: | ||
стрӧча = стреча | стрӧча = стреча | ||
струб = сруб | струб = сруб | ||
суда = сувда | |||
суседку = соседка | суседку = соседка | ||
суседку = суседко | суседку = суседко | ||
Строка 135: | Строка 139: | ||
тӧкӧ = токӧ | тӧкӧ = токӧ | ||
тӧкӧ, толькӧ, тӧлькӧ = токӧ | тӧкӧ, толькӧ, тӧлькӧ = токӧ | ||
увысь = увтісь | |||
унжык = унажык | унжык = унажык | ||
флокса = флокс | флокса = флокс | ||
Строка 143: | Строка 148: | ||
этшӧм, этшшӧм = эттшӧм | этшӧм, этшшӧм = эттшӧм | ||
эшшӧ = эшӧ | эшшӧ = эшӧ | ||
==Содтана кывъяс== | |||
бӧбассьыны | |||
бордасьӧтны | |||
бурсьӧтыштны | |||
бытшкасьыштлыны | |||
вакйыштны | |||
вартчӧв-керны | |||
везйыны | |||
взрывайтчыны | |||
визгыштны | |||
воӧтчыны | |||
воюйтлыны | |||
гежгылясьны | |||
гогныштны | |||
гӧжгыны | |||
горттӧмсявны | |||
гыззьыны | |||
дзарйӧвтны | |||
дзоридзсьӧтны | |||
дзугьясьны | |||
извередитны | |||
йывдсьыны | |||
керассьыны | |||
кыдзсьӧтны | |||
мутшкӧтыштлыны | |||
мыжьявны | |||
образуйтны | |||
ӧвсьӧтыштны | |||
орддьӧвтны | |||
ӧткаавны | |||
отказывайтны | |||
отоваривайтчыны | |||
паздіссьыны | |||
перестраивайтчыны | |||
пешлыштлыны | |||
питьыртны | |||
подстраивайтчыны | |||
помсьӧтны | |||
помсявны | |||
преобладайтны | |||
раздражайтны | |||
разработайтны | |||
сальны | |||
сетассьыны | |||
сёрзыны | |||
созидайтны | |||
тӧдсьыны | |||
трактуйтны | |||
туйдӧтлыны | |||
тюрли-тюрликтыны | |||
ульзьыны | |||
умӧльсьӧтны | |||
уяруйтны | |||
чарньӧвтны | |||
шатласьлыны | |||
шлёчкыны | |||
шовкӧтыштлыны | |||
шудсьӧтны | |||
шушкӧтны | |||
ыпайтны | |||
югйыны | |||
югмывны | |||
юралісявны |
Текущая версия от 21:22, 1 декабря 2023
Онлайн-версия коми (пермяцкого) спелл-чекера здесь: Коми_(Пермский край). Плагин проверки коми (пермяцкого) правописания в браузере FireFox здесь: Koi spellchecking dictionary Соответствующее расширение для LibreOffce здесь: Орфографический словарь коми (пермяцкого) языка
Процесс
• На первом этапе в общем словнике, составленном путем объединения всех существующих коми-пермяцких словарей, были проиндексированы части речи. • Этот процесс был частично автоматизирован: глаголам и словам с типичной концовкой индексы присваивались автоматически на формальных основаниях. • Около 12 тысяч слов пришлось индексировать в ручном режиме. Все эти слова были изначально помечены как существительные, а затем в ходе просмотра из списка были выделены лексемы, относящиеся к другим частям речи (прилагательное, числительное, наречие, местоимение, частица, союз, послелог). • В словник были механически добавлены коми (пермяцкие) имена, фамилии и топонимы из прежних списков. • Из словника коми-зырянского спелл-чекера были добавлены русские нарицательные заимствования (существительные и прилагательные), а также общий массив имен, топонимов, названий организаций и уникальных объектов. В случаях, когда форма этих слов в зырянском варианте коми языка отличается от пермяцкой, вносятся исправления. • С учетом опыта по созданию зырянского спеллера и работы над удмуртским спелл-чекером, были выделены индексы для различных словоизменительных категорий: созданы аффиксальные парадигмы с вариантами спряжения и склонения. • Можно также реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общеизвестное, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), точность заимствования (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов). • В настоящее время индексация представлена в таком виде. • Затем все проиндексированные слова последовательно просматриваются на предмет исправления ошибок индексации. • Параллельно начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса. Обращаем внимание на всё, что подчеркивается. Исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально. • После завершения работы про просмотру всех текстов корпуса, можно будет автоматически удалить из словника лексику, которой в текстах не обнаружится (но это не обязательно).
Проблемы
- диалектные фонетические варианты;
- варьирование грамматических форм: поннэзыс - добавлено, каннезсӧ, киэсис;
- ненормированное чередование в основах: - добавлено
гробй-, быгй-, тувй-, ньывй-, гидй-, жырй-, позй-, гырй-, зорй-, чомй-, коск-, раск-;
- по несколько названий одного и того же географического объекта (коми, русское и их фонетич. вариации);
- вообще выбор приоритетов при наличии комизированных вариантов заимствований.
Видлавны
аскодя = аскоддя асьнас = аснас асьыскӧт = ачыскӧт асяс = асас ботинок = ботинки бракнитчыны = брякнитчыны бумазея = бумазей бызйыны = пызйыны быттьӧ = бытьтӧ валенка = валенки весьолісь = весь олісь винӧват = виноват вӧжжи = вожжи всёравно = сёравно вувтышны = увтыштны высин = лысин гажтӧмчыны = гажтӧмтчыны гвадь = гладь гӧд = год гӧрб = горб гречиха = гречуга грӧб = гроб гыжжасьны = гыжьясьны гыжжӧвтны = гыжйӧвтны Дальньӧй = Дальнӧй дёрнитны = дернитны джоджувт = джоджув дрӧжжитны = дрӧжитны жолоб = желоб жыла = жила здоровьё = здоровье зэрттисьны = зэркйисьны зэрттьыны = зэркйыны изгаляйтчыны = изгиляйтчыны икӧта = икота карчӧр = карчйӧр километра = километр кимӧсь = кимость ковш = кӧш кӧдылӧ = кӧдалӧ кӧдылӧн = кӧдалӧн кӧичка = кӧзичка коктуй = кок туй колёсо = колесо конфет = конфета кӧрӧбыс пасьтӧн = пасьта корӧсь = корось кӧртӧвӧй = кӧртовӧй кӧстер = костёр кӧтковну = кӧдковну котойчик = коточик Кочёв = Кӧч ладӧр = ладор леснич = лиснич леттявны = летъявны мамкыв = мам кыв минприроды = минприрода мӧднёдж = мӧднёж мӧймася = мӧймуся молебельнӧй = молельнӧй морос сувдӧн = сувда нар = нары нёжли = нюжли огореч, огоредз (+ Огоредзпон) = огореч одзынӧ = одзуну остатки = ӧстатки ӧтлаӧн = ӧтлаын пажын = павжун пастушитны = пастучитны пезьны = педзны перттьыны = перкйыны печёнка = печонка пинди = пыдди питируйтны = питиривайтны платтё = платье полатёк = пӧлатёк посника = поснитика постеля = постелля поттшуйтны = потшуйт проглас = проглаз продитны = прӧйдитны продукта = продукт прокляттё = проклятие пувъягӧд = пуягӧд пуӧвӧй = пуовӧй пусьны = пусьыны пырскыны = ырскыны рыттявнас = рытъявнас сватья = сваття сорӧвтны = соровтны сосиски = сосискаэз сӧчӧн = сочон спичка = спича стрӧитны = строитны стрӧча = стреча струб = сруб суда = сувда суседку = соседка суседку = суседко сырттявны = сыркьявны сьывьяныс = сивианыс сясӧт = часӧт тенак = кенак тетка = тётка тӧвар = товар тоже = тожӧ тожнӧ = тожно тожо, тоже = тожӧ тӧкӧ = токӧ тӧкӧ, толькӧ, тӧлькӧ = токӧ увысь = увтісь унжык = унажык флокса = флокс Чазьӧв = Чадзӧв чодзыл = дзодзыв чучола = чучела шырттьыны = шыркйыны этшӧм, этшшӧм = эттшӧм эшшӧ = эшӧ
Содтана кывъяс
бӧбассьыны бордасьӧтны бурсьӧтыштны бытшкасьыштлыны вакйыштны вартчӧв-керны везйыны взрывайтчыны визгыштны воӧтчыны воюйтлыны гежгылясьны гогныштны гӧжгыны горттӧмсявны гыззьыны дзарйӧвтны дзоридзсьӧтны дзугьясьны извередитны йывдсьыны керассьыны кыдзсьӧтны мутшкӧтыштлыны мыжьявны образуйтны ӧвсьӧтыштны орддьӧвтны ӧткаавны отказывайтны отоваривайтчыны паздіссьыны перестраивайтчыны пешлыштлыны питьыртны подстраивайтчыны помсьӧтны помсявны преобладайтны раздражайтны разработайтны сальны сетассьыны сёрзыны созидайтны тӧдсьыны трактуйтны туйдӧтлыны тюрли-тюрликтыны ульзьыны умӧльсьӧтны уяруйтны чарньӧвтны шатласьлыны шлёчкыны шовкӧтыштлыны шудсьӧтны шушкӧтны ыпайтны югйыны югмывны юралісявны