Перем коми ресурс: различия между версиями

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску
 
(не показано 13 промежуточных версий этого же участника)
Строка 2: Строка 2:
==Спеллер==
==Спеллер==


*Разработка списка коми-пермяцких лемм с добавлением к каждой лемме индекса словоизменительной парадигмы.
*Разработка списка коми-пермяцких лемм с добавлением к каждой лемме [[Индексация перем коми hunspell-ын|индекса]] словоизменительной парадигмы.
*Создание списка коми-пермяцких словоизменительных парадигм согласно индексам в списке коми-пермяцких лемм.
*Создание списка коми-пермяцких словоизменительных парадигм согласно индексам в списке коми-пермяцких лемм.
*Интеграция двух списков в виде файлов koi.dic и koi.aff в программе проверки орфографии Hunspell.
*Интеграция двух списков в виде файлов koi.dic и koi.aff в программе проверки орфографии Hunspell.
*Подключение коми-пермяцкого hunspell словаря в LibreOffice, его загрузка в онлайн сервис проверки правописания и браузер Mozilla Firefox.
*Подключение коми-пермяцкого hunspell словаря в LibreOffice, его загрузка в [http://webspell.fu-lab.ru/ онлайн сервис проверки правописанияи браузер Mozilla Firefox.
   
 
==Справочный ресурс по изданиям, авторам и текстам==
 
*Создание библиографического онлайн ресурса по книжным изданиям и периодике с коми-пермяцким контентом на сайте [http://wiki.komikyv.org Коми тӧданін]. На данном ресурсе необходимо в режиме реального времени фиксировать ход работы по каждому изданию.
 
==Сканирование и создание базы pdf файлов==
==Сканирование и создание базы pdf файлов==


Строка 25: Строка 29:
*Оформление метаразметки к каждому тексту.  
*Оформление метаразметки к каждому тексту.  
*Корректура текстов в программе LibreOffice Wtiter при которой устраняются опечатки и ошибки распознавания, отмечаются слова, отсутствующие в списке лемм и специфические формы слов, не укладывающиеся в ранее разработанные парадигмы, специальными тегами  (<rus>, <kpv>, <eng> и т.п.) выделяются иноязычных вкрапления.  
*Корректура текстов в программе LibreOffice Wtiter при которой устраняются опечатки и ошибки распознавания, отмечаются слова, отсутствующие в списке лемм и специфические формы слов, не укладывающиеся в ранее разработанные парадигмы, специальными тегами  (<rus>, <kpv>, <eng> и т.п.) выделяются иноязычных вкрапления.  
==Справочный ресурс по изданиям, авторам и текстам==
*Создание библиографического онлайн ресурса по книжным изданиям и периодике с коми-пермяцким контентом на сайте wiki.komikyv.org.  На данном ресурсе необходимо в режиме реального времени фиксировать ход работы по каждому изданию.


==Коми онлайн библиотека==
==Коми онлайн библиотека==


*Загрузка коми-пермяцких текстов в коми-пермяцкий раздел онлайн библиотеки "Коми гижӧд" и их оформление.
*Загрузка коми-пермяцких текстов в коми-пермяцкий раздел онлайн библиотеки [http://komikyv.org "Коми гижӧд"] и их оформление.
*Создание на сайте онлайн библиотеки гиперссылок между информацией от тексте, авторе и издании.
Предварительно необходимо получить согласие от владельцев авторских прав в форме лицензионного соглашения, если таковое предусмотрено действующим законодательством.
*Предварительно необходимо получить согласие от владельцев авторских прав в форме лицензионного соглашения, если таковое предусмотрено действующим законодательством.
*Создание на сайте онлайн библиотеки гиперссылок между информацией о тексте, авторе и издании.


==Работа над базой спеллера==
==Работа над базой спеллера==
Строка 42: Строка 42:
*Таким образом, спеллер постоянно обновляется и накапливаются материал для создания большого словаря и морфоанализатора.
*Таким образом, спеллер постоянно обновляется и накапливаются материал для создания большого словаря и морфоанализатора.


==Корпус коми-пермяцкого языка и морфоанализатор==
==Морфоанализатор==
 
*Создание коми-пермяцкого морфоанализатора по аналогии с коми-зырянским морфоанализатором.
*Все тексты включаются в поисковую систему "Корпус коми-пермяцкого языка", функционирующую аналогично системе "Письменный корпус коми языка".
*Создание морфоанализатора и его подключение к корпусу коми-пермяцкого языка.


==Коми-пермяцкий электронный словарь==
==Коми-пермяцкий электронный словарь==
Строка 52: Строка 50:
*Создание словарных статей для лемм, вновь обнаруженных при анализе текстов с помощью программы hunspell.
*Создание словарных статей для лемм, вновь обнаруженных при анализе текстов с помощью программы hunspell.
*Уточнение и дополнение словарных статей с опорой на данные корпуса коми-пермяцкого языка.
*Уточнение и дополнение словарных статей с опорой на данные корпуса коми-пермяцкого языка.
*Сохранение словаря в форме hml-файлов и его презентация в виде онлайн словаря, расширения для браузера, приложения для мобильных телефонов.
*Сохранение словаря в форме xml-файлов и его презентация в виде онлайн словаря, расширения для браузера, приложения для мобильных телефонов.
 
==Корпус коми-пермяцкого языка==
 
*Все тексты включаются в поисковую систему "Корпус коми-пермяцкого языка", функционирующую аналогично системе "Письменный корпус коми языка".
*Подключение электронного словаря и морфоанализатора к корпусу коми-пермяцкого языка.


[[Category:Перем коми кыв]]
[[Category:Перем коми кыв]]

Текущая версия от 12:52, 5 сентября 2023

Спеллер

  • Разработка списка коми-пермяцких лемм с добавлением к каждой лемме индекса словоизменительной парадигмы.
  • Создание списка коми-пермяцких словоизменительных парадигм согласно индексам в списке коми-пермяцких лемм.
  • Интеграция двух списков в виде файлов koi.dic и koi.aff в программе проверки орфографии Hunspell.
  • Подключение коми-пермяцкого hunspell словаря в LibreOffice, его загрузка в онлайн сервис проверки правописания и браузер Mozilla Firefox.

Справочный ресурс по изданиям, авторам и текстам

  • Создание библиографического онлайн ресурса по книжным изданиям и периодике с коми-пермяцким контентом на сайте Коми тӧданін. На данном ресурсе необходимо в режиме реального времени фиксировать ход работы по каждому изданию.

Сканирование и создание базы pdf файлов

  • Концентрация и систематизация pdf файлов ранее сканированных изданий.
  • Сканирование коми-пермяцких книжных изданий и создание pdf файлов по каждому изданию.
  • Сканирование газетных текстов на коми-пермяцком языке и создание соответствующих pdf файлов.
  • Концентрация имеющихся в редакциях pdf файлов книжных и газетных изданий c текстовым слоем и без такового.

Создание текстовой базы

  • Систематизация ранее распознанных коми-пермяцких текстов.
  • Добавление в программу FineReader пользовательского языка коми-пермяцкий и словаря поддержки к нему.
  • Распознавание в программе FineReader вновь сканированных и полученных от редакций pdf файлов без текстового слоя. Сохранение в форматe .txt и .odt с восстановлением структуры текста по строкам и абзацам.
  • Извлечение текста из pdf-файлов с текстовым слоем и преобразование его в стандартную кодировку с восстановлением структуры текста по строкам и абзацам в форматe .txt и .odt. (Тексты, кодировка которых в pdf файле оказалась дефектной, набираются на клавиатуре либо получаются путем распознавания в программе “FineReader”).

Обработка текстовой базы

  • Оформление метаразметки к каждому тексту.
  • Корректура текстов в программе LibreOffice Wtiter при которой устраняются опечатки и ошибки распознавания, отмечаются слова, отсутствующие в списке лемм и специфические формы слов, не укладывающиеся в ранее разработанные парадигмы, специальными тегами (<rus>, <kpv>, <eng> и т.п.) выделяются иноязычных вкрапления.

Коми онлайн библиотека

  • Загрузка коми-пермяцких текстов в коми-пермяцкий раздел онлайн библиотеки "Коми гижӧд" и их оформление.
Предварительно необходимо получить согласие от владельцев авторских прав в форме лицензионного соглашения, если таковое предусмотрено действующим законодательством.
  • Создание на сайте онлайн библиотеки гиперссылок между информацией о тексте, авторе и издании.

Работа над базой спеллера

  • В список лемм добавляются слова, вновь обнаруженные в текстах.
  • В список словоизменительных парадигм добавляются вновь обнаруженные случаи словоизменения.
  • Таким образом, спеллер постоянно обновляется и накапливаются материал для создания большого словаря и морфоанализатора.

Морфоанализатор

  • Создание коми-пермяцкого морфоанализатора по аналогии с коми-зырянским морфоанализатором.

Коми-пермяцкий электронный словарь

  • Интеграция существующих словарей в единую базу "Электронный словарь коми-пермяцкого языка".
  • Создание словарных статей для лемм, вновь обнаруженных при анализе текстов с помощью программы hunspell.
  • Уточнение и дополнение словарных статей с опорой на данные корпуса коми-пермяцкого языка.
  • Сохранение словаря в форме xml-файлов и его презентация в виде онлайн словаря, расширения для браузера, приложения для мобильных телефонов.

Корпус коми-пермяцкого языка

  • Все тексты включаются в поисковую систему "Корпус коми-пермяцкого языка", функционирующую аналогично системе "Письменный корпус коми языка".
  • Подключение электронного словаря и морфоанализатора к корпусу коми-пермяцкого языка.