Перем коми ресурс: различия между версиями

Версия от 11:38, 27 февраля 2020

Спеллер

Разработка списка коми-пермяцких лемм с добавлением к каждой лемме индекса словоизменительной парадигмы.
Создание списка коми-пермяцких словоизменительных парадигм согласно индексам в списке коми-пермяцких лемм.
Интеграция двух списков в виде файлов koi.dic и koi.aff в программе проверки орфографии Hunspell.
Подключение коми-пермяцкого hunspell словаря в LibreOffice, его загрузка в онлайн сервис проверки правописания и браузер Mozilla Firefox.

Сканирование и создание базы pdf файлов

Концентрация и систематизация pdf файлов ранее сканированных изданий.
Сканирование коми-пермяцких книжных изданий и создание pdf файлов по каждому изданию.
Сканирование газетных текстов на коми-пермяцком языке и создание соответствующих pdf файлов.
Концентрация имеющихся в редакциях pdf файлов книжных и газетных изданий c текстовым слоем и без такового.

Создание текстовой базы

Систематизация ранее распознанных коми-пермяцких текстов.
Добавление в программу FineReader пользовательского языка коми-пермяцкий и словаря поддержки к нему.
Распознавание в программе FineReader вновь сканированных и полученных от редакций pdf файлов без текстового слоя. Сохранение в форматe .txt и .odt с восстановлением структуры текста по строкам и абзацам.
Извлечение текста из pdf-файлов с текстовым слоем и преобразование его в стандартную кодировку с восстановлением структуры текста по строкам и абзацам в форматe .txt и .odt. (Тексты, кодировка которых в pdf файле оказалась дефектной, набираются на клавиатуре либо получаются путем распознавания в программе “FineReader”).

Обработка текстовой базы

Оформление метаразметки к каждому тексту.
Корректура текстов в программе LibreOffice Wtiter при которой устраняются опечатки и ошибки распознавания, отмечаются слова, отсутствующие в списке лемм и специфические формы слов, не укладывающиеся в ранее разработанные парадигмы, специальными тегами (<rus>, <kpv>, <eng> и т.п.) выделяются иноязычных вкрапления.

Справочный ресурс по изданиям, авторам и текстам

Создание библиографического онлайн ресурса по книжным изданиям и периодике с коми-пермяцким контентом на сайте wiki.komikyv.org. На данном ресурсе необходимо в режиме реального времени фиксировать ход работы по каждому изданию.

Коми онлайн библиотека

Загрузка коми-пермяцких текстов в коми-пермяцкий раздел онлайн библиотеки "Коми гижӧд" и их оформление.
Создание на сайте онлайн библиотеки гиперссылок между информацией от тексте, авторе и издании.
Предварительно необходимо получить согласие от владельцев авторских прав в форме лицензионного соглашения, если таковое предусмотрено действующим законодательством.

Работа над базой спеллера

В список лемм добавляются слова, вновь обнаруженные в текстах.
В список словоизменительных парадигм добавляются вновь обнаруженные случаи словоизменения.
Таким образом, спеллер постоянно обновляется и накапливаются материал для создания большого словаря и морфоанализатора.

Морфоанализатор

Создание коми-пермяцкого морфоанализатора по аналогии с коми-зырянским морфоанализатором.

Коми-пермяцкий электронный словарь

Интеграция существующих словарей в единую базу "Электронный словарь коми-пермяцкого языка".
Создание словарных статей для лемм, вновь обнаруженных при анализе текстов с помощью программы hunspell.
Уточнение и дополнение словарных статей с опорой на данные корпуса коми-пермяцкого языка.
Сохранение словаря в форме hml-файлов и его презентация в виде онлайн словаря, расширения для браузера, приложения для мобильных телефонов.

Корпус коми-пермяцкого языка

Все тексты включаются в поисковую систему "Корпус коми-пермяцкого языка", функционирующую аналогично системе "Письменный корпус коми языка".
Подключение электронногого словаря и морфоанализатора к корпусу коми-пермяцкого языка.

@@ Строка 43: / Строка 43: @@
 ==Морфоанализатор==
-*Создание коми-пермяцкого морфоанализатора по аналогии с коми-зырянским морфоанализатором
+*Создание коми-пермяцкого морфоанализатора по аналогии с коми-зырянским морфоанализатором.
 ==Коми-пермяцкий электронный словарь==

Перем коми ресурс: различия между версиями

Версия от 11:38, 27 февраля 2020

Содержание

Спеллер

Сканирование и создание базы pdf файлов

Создание текстовой базы

Обработка текстовой базы

Справочный ресурс по изданиям, авторам и текстам

Коми онлайн библиотека

Работа над базой спеллера

Морфоанализатор

Коми-пермяцкий электронный словарь

Корпус коми-пермяцкого языка

Навигация

Перем коми ресурс: различия между версиями

Версия от 11:38, 27 февраля 2020

Спеллер

Сканирование и создание базы pdf файлов

Создание текстовой базы

Обработка текстовой базы

Справочный ресурс по изданиям, авторам и текстам

Коми онлайн библиотека

Работа над базой спеллера

Морфоанализатор

Коми-пермяцкий электронный словарь

Корпус коми-пермяцкого языка

Навигация

Поиск