Создание коми (пермяцкого) спеллера: различия между версиями
Перейти к навигации
Перейти к поиску
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
||
Строка 1: | Строка 1: | ||
==Процесс== | |||
• На первом этапе в общем словнике, составленном путем объединения всех существующих коми-пермяцких словарей, были проиндексированы части речи. | • На первом этапе в общем словнике, составленном путем объединения всех существующих коми-пермяцких словарей, были проиндексированы части речи. | ||
Строка 10: | Строка 12: | ||
• Параллельно начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса. Обращаем внимание на всё, что подчеркивается. Исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально. | • Параллельно начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса. Обращаем внимание на всё, что подчеркивается. Исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально. | ||
• После завершения работы про просмотру всех текстов корпуса, можно будет автоматически удалить из словника лексику, которой в текстах не обнаружится (но это не обязательно). | • После завершения работы про просмотру всех текстов корпуса, можно будет автоматически удалить из словника лексику, которой в текстах не обнаружится (но это не обязательно). | ||
==Проблемы== | |||
* диалектные фонетические варианты | |||
* по несколько названий одного и того же топонима |
Версия от 19:11, 8 октября 2023
Процесс
• На первом этапе в общем словнике, составленном путем объединения всех существующих коми-пермяцких словарей, были проиндексированы части речи. • Этот процесс был частично автоматизирован: глаголам и словам с типичной концовкой индексы присваивались автоматически на формальных основаниях. • Около 15 тысяч слов пришлось индексировать в ручном режиме. Все эти слова были изначально помечены как существительные, а затем в ходе просмотра из списка были выделены лексемы, относящиеся к другим частям речи (прилагательное, числительное, наречие, местоимение, частица, союз, послелог). • В словник были механически добавлены коми (пермяцкие) имена, фамилии и топонимы из прежних списков. • Из словника коми-зырянского спелл-чекера были добавлены русские нарицательные заимствования (существительные и прилагательные), а также общий массив имен, топонимов, названий организаций и уникальных объектов. В случаях, когда форма этих слов в зырянском варианте коми языка отличается от пермяцкой, вносятся исправления. • С учетом опыта по созданию зырянского спеллера, были выделены индексы для различных словоизменительных категорий: созданы аффиксальные парадигмы с вариантами спряжения и склонения. • Можно также реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общее, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), исконность (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов). • Затем все проиндексированные слова последовательно просматриваются на предмет исправления ошибок индексации. • Параллельно начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса. Обращаем внимание на всё, что подчеркивается. Исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально. • После завершения работы про просмотру всех текстов корпуса, можно будет автоматически удалить из словника лексику, которой в текстах не обнаружится (но это не обязательно).
Проблемы
- диалектные фонетические варианты
- по несколько названий одного и того же топонима