Создание коми (пермяцкого) спеллера: различия между версиями

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску
Нет описания правки
Нет описания правки
Строка 8: Строка 8:
  Было также решено реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общее, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), исконность (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов).
  Было также решено реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общее, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), исконность (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов).
  Затем все проиндексированные слова должны быть последовательно просмотрены на предмет исправления ошибок индексации.
  Затем все проиндексированные слова должны быть последовательно просмотрены на предмет исправления ошибок индексации.
  Далее начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса, исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально.
  Далее начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса. Обращаем внимание на всё, что подчеркивается. Исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально.
  После завершения просмотра текстов, можно будет автоматически удалить из словника лексику, которой в текстах не обнаружено (но это не обязательно).
  После завершения просмотра текстов, можно будет автоматически удалить из словника лексику, которой в текстах не обнаружено (но это не обязательно).

Версия от 15:08, 4 октября 2023

На первом этапе были проиндексированы части речи.
Этот процесс был частично автоматизирован: глаголам и словам с типичными окончаниями индексы присваивались автоматически на формальных основаниях.
Около 15 тысяч слов пришлось индексировать в ручном режиме. Все эти слова были изначально помечены как существительные, а затем в ходе просмотра из списка были выделены лексемы, относящиеся к другим частям речи (прилагательное, числительное, наречие, местоимение, частица, союз, послелог).
В словник были механически добавлены коми имена, фамилии и топонимы из прежних списков.
Из словника коми-зырянского спелл-чекера были добавлены русские нарицательные заимствования (существительные и прилагательные), а также общий массив имен, топонимов, названий организаций и уникальных объектов. В случаях, когда форма этих слов в зырянском варианте коми языка отличается от пермяцкой, были внесены исправления.
С учетом опыта по созданию зырянского спеллера, были выделены индексы для различных словоизменительных категорий: созданы аффиксальные парадигмы с вариантами спряжения и склонения. 
Было также решено реализовать идею с добавлением несловоизменительных индексов, обозначающих функциональный охват (общее, диалектное, книжное), орфографическую точность (стандарт, допустимый вариант, недопустимый вариант), исконность (заимствование в комизированной форме; русское слово, заимствованное без изменений). Топонимы подразделены на несколько групп (коми топонимы, русские формы коми топонимов, некоми топонимы без коми эквивалентов, некоми топонимы с коми эквивалентами, коми варианты некоми топонимов).
Затем все проиндексированные слова должны быть последовательно просмотрены на предмет исправления ошибок индексации.
Далее начинается работа с текстами. Запустив спеллер, просматриваем все тексты коми корпуса. Обращаем внимание на всё, что подчеркивается. Исправляем опечатки, добавляем в базу спеллера те слова из текстов, которые отсутствуют в словнике, и на основе вновь выявляемых форм дорабатываем аффиксальные парадигмы, которые не были учтены изначально.
После завершения просмотра текстов, можно будет автоматически удалить из словника лексику, которой в текстах не обнаружено (но это не обязательно).