Перем коми ресурс: различия между версиями
Перейти к навигации
Перейти к поиску
Ӧньӧ Лав (обсуждение | вклад) |
Ӧньӧ Лав (обсуждение | вклад) |
||
(не показано 13 промежуточных версий этого же участника) | |||
Строка 2: | Строка 2: | ||
==Спеллер== | ==Спеллер== | ||
*Разработка списка коми-пермяцких лемм с добавлением к каждой лемме индекса словоизменительной парадигмы. | *Разработка списка коми-пермяцких лемм с добавлением к каждой лемме [[Индексация перем коми hunspell-ын|индекса]] словоизменительной парадигмы. | ||
*Создание списка коми-пермяцких словоизменительных парадигм согласно индексам в списке коми-пермяцких лемм. | *Создание списка коми-пермяцких словоизменительных парадигм согласно индексам в списке коми-пермяцких лемм. | ||
*Интеграция двух списков в виде файлов koi.dic и koi.aff в программе проверки орфографии Hunspell. | *Интеграция двух списков в виде файлов koi.dic и koi.aff в программе проверки орфографии Hunspell. | ||
*Подключение коми-пермяцкого hunspell словаря в LibreOffice, его загрузка в онлайн сервис проверки правописания и браузер Mozilla Firefox. | *Подключение коми-пермяцкого hunspell словаря в LibreOffice, его загрузка в [http://webspell.fu-lab.ru/ онлайн сервис проверки правописания] и браузер Mozilla Firefox. | ||
==Справочный ресурс по изданиям, авторам и текстам== | |||
*Создание библиографического онлайн ресурса по книжным изданиям и периодике с коми-пермяцким контентом на сайте [http://wiki.komikyv.org Коми тӧданін]. На данном ресурсе необходимо в режиме реального времени фиксировать ход работы по каждому изданию. | |||
==Сканирование и создание базы pdf файлов== | ==Сканирование и создание базы pdf файлов== | ||
Строка 25: | Строка 29: | ||
*Оформление метаразметки к каждому тексту. | *Оформление метаразметки к каждому тексту. | ||
*Корректура текстов в программе LibreOffice Wtiter при которой устраняются опечатки и ошибки распознавания, отмечаются слова, отсутствующие в списке лемм и специфические формы слов, не укладывающиеся в ранее разработанные парадигмы, специальными тегами (<rus>, <kpv>, <eng> и т.п.) выделяются иноязычных вкрапления. | *Корректура текстов в программе LibreOffice Wtiter при которой устраняются опечатки и ошибки распознавания, отмечаются слова, отсутствующие в списке лемм и специфические формы слов, не укладывающиеся в ранее разработанные парадигмы, специальными тегами (<rus>, <kpv>, <eng> и т.п.) выделяются иноязычных вкрапления. | ||
==Коми онлайн библиотека== | ==Коми онлайн библиотека== | ||
*Загрузка коми-пермяцких текстов в коми-пермяцкий раздел онлайн библиотеки "Коми гижӧд" и их оформление. | *Загрузка коми-пермяцких текстов в коми-пермяцкий раздел онлайн библиотеки [http://komikyv.org "Коми гижӧд"] и их оформление. | ||
Предварительно необходимо получить согласие от владельцев авторских прав в форме лицензионного соглашения, если таковое предусмотрено действующим законодательством. | |||
*Создание на сайте онлайн библиотеки гиперссылок между информацией о тексте, авторе и издании. | |||
==Работа над базой спеллера== | ==Работа над базой спеллера== | ||
Строка 42: | Строка 42: | ||
*Таким образом, спеллер постоянно обновляется и накапливаются материал для создания большого словаря и морфоанализатора. | *Таким образом, спеллер постоянно обновляется и накапливаются материал для создания большого словаря и морфоанализатора. | ||
== | ==Морфоанализатор== | ||
*Создание коми-пермяцкого морфоанализатора по аналогии с коми-зырянским морфоанализатором. | |||
* | |||
==Коми-пермяцкий электронный словарь== | ==Коми-пермяцкий электронный словарь== | ||
Строка 52: | Строка 50: | ||
*Создание словарных статей для лемм, вновь обнаруженных при анализе текстов с помощью программы hunspell. | *Создание словарных статей для лемм, вновь обнаруженных при анализе текстов с помощью программы hunspell. | ||
*Уточнение и дополнение словарных статей с опорой на данные корпуса коми-пермяцкого языка. | *Уточнение и дополнение словарных статей с опорой на данные корпуса коми-пермяцкого языка. | ||
*Сохранение словаря в форме | *Сохранение словаря в форме xml-файлов и его презентация в виде онлайн словаря, расширения для браузера, приложения для мобильных телефонов. | ||
==Корпус коми-пермяцкого языка== | |||
*Все тексты включаются в поисковую систему "Корпус коми-пермяцкого языка", функционирующую аналогично системе "Письменный корпус коми языка". | |||
*Подключение электронного словаря и морфоанализатора к корпусу коми-пермяцкого языка. | |||
[[Category:Перем коми кыв]] | [[Category:Перем коми кыв]] |
Текущая версия от 12:52, 5 сентября 2023
Спеллер
- Разработка списка коми-пермяцких лемм с добавлением к каждой лемме индекса словоизменительной парадигмы.
- Создание списка коми-пермяцких словоизменительных парадигм согласно индексам в списке коми-пермяцких лемм.
- Интеграция двух списков в виде файлов koi.dic и koi.aff в программе проверки орфографии Hunspell.
- Подключение коми-пермяцкого hunspell словаря в LibreOffice, его загрузка в онлайн сервис проверки правописания и браузер Mozilla Firefox.
Справочный ресурс по изданиям, авторам и текстам
- Создание библиографического онлайн ресурса по книжным изданиям и периодике с коми-пермяцким контентом на сайте Коми тӧданін. На данном ресурсе необходимо в режиме реального времени фиксировать ход работы по каждому изданию.
Сканирование и создание базы pdf файлов
- Концентрация и систематизация pdf файлов ранее сканированных изданий.
- Сканирование коми-пермяцких книжных изданий и создание pdf файлов по каждому изданию.
- Сканирование газетных текстов на коми-пермяцком языке и создание соответствующих pdf файлов.
- Концентрация имеющихся в редакциях pdf файлов книжных и газетных изданий c текстовым слоем и без такового.
Создание текстовой базы
- Систематизация ранее распознанных коми-пермяцких текстов.
- Добавление в программу FineReader пользовательского языка коми-пермяцкий и словаря поддержки к нему.
- Распознавание в программе FineReader вновь сканированных и полученных от редакций pdf файлов без текстового слоя. Сохранение в форматe .txt и .odt с восстановлением структуры текста по строкам и абзацам.
- Извлечение текста из pdf-файлов с текстовым слоем и преобразование его в стандартную кодировку с восстановлением структуры текста по строкам и абзацам в форматe .txt и .odt. (Тексты, кодировка которых в pdf файле оказалась дефектной, набираются на клавиатуре либо получаются путем распознавания в программе “FineReader”).
Обработка текстовой базы
- Оформление метаразметки к каждому тексту.
- Корректура текстов в программе LibreOffice Wtiter при которой устраняются опечатки и ошибки распознавания, отмечаются слова, отсутствующие в списке лемм и специфические формы слов, не укладывающиеся в ранее разработанные парадигмы, специальными тегами (<rus>, <kpv>, <eng> и т.п.) выделяются иноязычных вкрапления.
Коми онлайн библиотека
- Загрузка коми-пермяцких текстов в коми-пермяцкий раздел онлайн библиотеки "Коми гижӧд" и их оформление.
Предварительно необходимо получить согласие от владельцев авторских прав в форме лицензионного соглашения, если таковое предусмотрено действующим законодательством.
- Создание на сайте онлайн библиотеки гиперссылок между информацией о тексте, авторе и издании.
Работа над базой спеллера
- В список лемм добавляются слова, вновь обнаруженные в текстах.
- В список словоизменительных парадигм добавляются вновь обнаруженные случаи словоизменения.
- Таким образом, спеллер постоянно обновляется и накапливаются материал для создания большого словаря и морфоанализатора.
Морфоанализатор
- Создание коми-пермяцкого морфоанализатора по аналогии с коми-зырянским морфоанализатором.
Коми-пермяцкий электронный словарь
- Интеграция существующих словарей в единую базу "Электронный словарь коми-пермяцкого языка".
- Создание словарных статей для лемм, вновь обнаруженных при анализе текстов с помощью программы hunspell.
- Уточнение и дополнение словарных статей с опорой на данные корпуса коми-пермяцкого языка.
- Сохранение словаря в форме xml-файлов и его презентация в виде онлайн словаря, расширения для браузера, приложения для мобильных телефонов.
Корпус коми-пермяцкого языка
- Все тексты включаются в поисковую систему "Корпус коми-пермяцкого языка", функционирующую аналогично системе "Письменный корпус коми языка".
- Подключение электронного словаря и морфоанализатора к корпусу коми-пермяцкого языка.