Создание коми (пермяцкого) спеллера: различия между версиями
Перейти к навигации
Перейти к поиску
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
||
Строка 4: | Строка 4: | ||
Около 15 тысяч слов пришлось индексировать в ручном режиме. Все эти слова были изначально помечены как существительные, а затем в ходе просмотра из списка были выделены лексемы, относящиеся к другим частям речи (прилагательное, числительное, наречие, местоимение, частица, союз, послелог). | Около 15 тысяч слов пришлось индексировать в ручном режиме. Все эти слова были изначально помечены как существительные, а затем в ходе просмотра из списка были выделены лексемы, относящиеся к другим частям речи (прилагательное, числительное, наречие, местоимение, частица, союз, послелог). | ||
В словник были механически добавлены коми имена, фамилии и топонимы из прежних списков. | В словник были механически добавлены коми имена, фамилии и топонимы из прежних списков. | ||
Из коми-зырянского были добавлены русские нарицательные заимствования (существительные и прилагательные), а также общий массив имен, топонимов, названий организаций и уникальных объектов. В случаях, когда форма этих слов в зырянском варианте коми языка отличается от пермяцкой, были внесены исправления. | Из словника коми-зырянского спелл-чекера были добавлены русские нарицательные заимствования (существительные и прилагательные), а также общий массив имен, топонимов, названий организаций и уникальных объектов. В случаях, когда форма этих слов в зырянском варианте коми языка отличается от пермяцкой, были внесены исправления. | ||
С учетом опыта по созданию зырянского спеллера, были выделены индексы для различных словоизменительных категорий: созданы аффиксальные парадигмы с вариантами спряжения и склонения. | С учетом опыта по созданию зырянского спеллера, были выделены индексы для различных словоизменительных категорий: созданы аффиксальные парадигмы с вариантами спряжения и склонения. | ||
Было также решено реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общее, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), исконность (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов). | Было также решено реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общее, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), исконность (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов). | ||
Затем все пронидексированные слова должны быть последовательно просмотрены на предмет исправления ошибок индексации. | Затем все пронидексированные слова должны быть последовательно просмотрены на предмет исправления ошибок индексации. | ||
Далее начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса, исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально. | Далее начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса, исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально. |
Версия от 14:59, 4 октября 2023
На первом этапе были проиндексированы части речи. Этот процесс был частично автоматизирован: глаголам и словам с типичными окончаниями индексы присваивались автоматически на формальных основаниях. Около 15 тысяч слов пришлось индексировать в ручном режиме. Все эти слова были изначально помечены как существительные, а затем в ходе просмотра из списка были выделены лексемы, относящиеся к другим частям речи (прилагательное, числительное, наречие, местоимение, частица, союз, послелог). В словник были механически добавлены коми имена, фамилии и топонимы из прежних списков. Из словника коми-зырянского спелл-чекера были добавлены русские нарицательные заимствования (существительные и прилагательные), а также общий массив имен, топонимов, названий организаций и уникальных объектов. В случаях, когда форма этих слов в зырянском варианте коми языка отличается от пермяцкой, были внесены исправления. С учетом опыта по созданию зырянского спеллера, были выделены индексы для различных словоизменительных категорий: созданы аффиксальные парадигмы с вариантами спряжения и склонения. Было также решено реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общее, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), исконность (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов). Затем все пронидексированные слова должны быть последовательно просмотрены на предмет исправления ошибок индексации. Далее начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса, исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально.