Создание коми (пермяцкого) спеллера: различия между версиями

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску
(Новая страница: « На первом этапе были проиндексированы части речи. Этот процесс был частично автоматизирован: глаголам и словам с типичными окончаниями индексы присваивались автоматически на формальных основаниях. Около 15 тысяч слов пришлось индексировать в ручно...»)
 
Нет описания правки
Строка 5: Строка 5:
  В словник были механически добавлены коми имена, фамилии и топонимы из прежних списков.
  В словник были механически добавлены коми имена, фамилии и топонимы из прежних списков.
  Из коми-зырянского были добавлены русские нарицательные заимствования, а также общий массив имен, топонимов, названий организаций и уникальных объектов. В случаях, когда форма этих слов в зырянском варианте коми языка отличается от пермяцкой, были внесены исправления.
  Из коми-зырянского были добавлены русские нарицательные заимствования, а также общий массив имен, топонимов, названий организаций и уникальных объектов. В случаях, когда форма этих слов в зырянском варианте коми языка отличается от пермяцкой, были внесены исправления.
  С учетом опыта по созданию зырянского спеллера, были выделены индексы для различных словоизменительных категорий: варианты спряжения и склонения.  
  С учетом опыта по созданию зырянского спеллера, были выделены индексы для различных словоизменительных категорий: созданы аффиксальные парадигмы с вариантами спряжения и склонения.  
  Было также решено реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общее, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), исконность (русское слово adhoc, комизированная форма заимствования). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов).
  Было также решено реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общее, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), исконность (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов).
Затем все пронидексированные слова должны быть просмотрены на предмет исправления ошибок индексации.
Запустив спеллер, просматриваем все тексты коми корпуса, исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально.

Версия от 14:54, 4 октября 2023

На первом этапе были проиндексированы части речи.
Этот процесс был частично автоматизирован: глаголам и словам с типичными окончаниями индексы присваивались автоматически на формальных основаниях.
Около 15 тысяч слов пришлось индексировать в ручном режиме. Все эти слова были изначально помечены как существительные, а затем в ходе просмотра из списка были выделены лексемы, относящиеся к другим частям речи (прилагательное, числительное, наречие, местоимение, частица, союз, послелог).
В словник были механически добавлены коми имена, фамилии и топонимы из прежних списков.
Из коми-зырянского были добавлены русские нарицательные заимствования, а также общий массив имен, топонимов, названий организаций и уникальных объектов. В случаях, когда форма этих слов в зырянском варианте коми языка отличается от пермяцкой, были внесены исправления.
С учетом опыта по созданию зырянского спеллера, были выделены индексы для различных словоизменительных категорий: созданы аффиксальные парадигмы с вариантами спряжения и склонения. 
Было также решено реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общее, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), исконность (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов).
Затем все пронидексированные слова должны быть просмотрены на предмет исправления ошибок индексации.
Запустив спеллер, просматриваем все тексты коми корпуса, исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально.