Распознавание коми текстов: различия между версиями

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску
Нет описания правки
Нет описания правки
 
(не показано 15 промежуточных версий 2 участников)
Строка 1: Строка 1:
[[Файл:OCR.jpg|300px|thumb]]
[[Файл:OCR.jpg|300px|thumb]]


'''ABBYY FineReader 11 Professional Edition''' распознает документы на 188 языках на основе кириллицы, латиницы, греческого и армянского алфавитов, а также языки на основе иероглифического письма, искусственные языки и языки программирования, причём для 44 языков предусмотрена словарная поддержка и проверка орфографии…
'''ABBYY FineReader 12 Professional Edition''' распознает документы на 190 языках на основе кириллицы, латиницы, греческого и армянского алфавитов, а также языки на основе иероглифического письма, искусственные языки и языки программирования, причём для 44 языков предусмотрена словарная поддержка и проверка орфографии.


Но в этом внушительном списке почему-то не оказалось места для '''коми языка'''. Поэтому для  распознавания текстов на коми (пермяцком и зырянском) языке можно воспользоваться только опцией создания нового пользовательского языка в этой программе.
Однако в этом внушительном списке почему-то не оказалось места для '''коми языка'''.  
 
В настоящее время для  распознавания текстов на коми (пермяцком и зырянском) языке можно воспользоваться только опцией создания нового пользовательского языка в этой программе.


==Распознавание коми (зырянских) текстов==
==Распознавание коми (зырянских) текстов==
Строка 13: Строка 15:
Откроется окно '''Свойство языка'''
Откроется окно '''Свойство языка'''


По умолчанию базовый язык — русский. В имени нового языка вместо '''Копия (русский)''' следует указать '''Коми (зырянский)'''.
По умолчанию базовый язык — Русский. В имени нового языка вместо '''Копия (Русский)''' следует указать '''Коми (зырянский)'''.


[[Файл:Abbyy2.png]]
[[Файл:Abbyy2.png]]


Затем в '''Алфавит языка''' кликнем на квадрате с тремя точками справа от списка букв. Откроется окно '''Алфавит'''.  
Затем займемся '''Алфавитом языка'''. Кликнем на квадрате с тремя точками справа от списка букв. Откроется окно '''Алфавит'''.  
 
На кириллической кодовой странице выделим в таблице специфические коми символы :
*'''Ӧ''' — 04E6
*'''ӧ''' — 04E7
*'''І''' — 0406
*'''і''' — 0456


[[Файл:Abbyy3.png]]
[[Файл:Abbyy3.png]]
Выбераем из таблицы специфические коми символы : '''Ӧӧ''' (Ӧ — U04E6, ӧ — U04E7), '''Іі''' (І — U0406, і — U0456). ''Буквы '''ӧ''' и '''і''' следует выбрать на кириллической кодовой странице''.


Нажав ОК, возвращаемся в '''Свойство языка'''.
Нажав ОК, возвращаемся в '''Свойство языка'''.
Строка 27: Строка 33:
[[Файл:Abbyy2.png]]
[[Файл:Abbyy2.png]]


Далее выделим '''Пользовательский словарь''' и кликнем его '''Cвойства'''. В открывшемся окне  '''Словарь для языка "Коми (зырянский)"''' нажимаем '''Импорт''' и загружаем предварительно скачанный [[http://komikyv.ru/uploads/komi-kpv-utf16.txt.zip отсюда]] и распакованный файл словаря поддержки коми (зырянского) языка.
Далее выделим '''Пользовательский словарь''' и кликнем его '''Cвойства'''. В открывшемся окне  '''Словарь для языка "Коми (зырянский)"''' нажимаем '''Импорт''' и загружаем предварительно скачанный [[http://vidzanin.komikyv.com/programms/OCR/komi-kv-utf16.txt отсюда]] и распакованный файл словаря поддержки коми (зырянского) языка. Загрузка словаря занимает не менее 5 минут.


[[Файл:Abbyy5.png]]
[[Файл:Abbyy5.png]]
Строка 36: Строка 42:


При распознании коми текста выбираем '''Коми (зырянский)''' из списка.
При распознании коми текста выбираем '''Коми (зырянский)''' из списка.
Дабы не пришлось создавать пользовательский язык каждый раз, сохраните пакет, в котором Вы создали польз. язык "Коми (зырянский)". Теперь данный язык останется в этом пакете и автоматически появится в тех, которые будут создаваться позже.


==Распознавание коми (пермяцких) текстов==
==Распознавание коми (пермяцких) текстов==


Чтобы распознавать коми (пермяцкие) тексты необходимо создать пользовательский язык: «Сервис → Редактор языков → Пользовательские языки → Новый» — '''Коми (пермяцкий)'''. Далее в свойствах взять базовый язык — русский (это просто используются буквы русского алфавита, не путать со словарём поддержки русского языка!) и добавить необходимые символы: Ӧӧ (Ӧ — U04E6, ӧ — U04E7), Іі (І — U0406, і — U0456) и нужные вам ещё символы, если есть таковые. При добавлении коми букв особое внимание обратите на коды букв, иначе у вас будут проблемы с распознаванием.
Чтобы распознавать коми (пермяцкие) тексты необходимо создать пользовательский язык:  
 
''«Сервис → Редактор языков → Пользовательские языки → Новый» — '''Коми (пермяцкий)'''.''


Далее в свойствах пользовательского словаря импортируйте скачанный файл словаря поддержки коми (пермяцкого) языка:
Схема создания описана в предыдущем разделе. Разница лишь в том, что в свойствах пользовательского словаря следует импортировать предварительно скачанный и распакованный [http://komikyv.org/downloads/komi_koi_utf-16.zip файл словаря поддержки '''коми (пермяцкого) языка'''].
http://komikyv.ru/uploads/komi-koi-utf16.txt.zip


==Ссылки==
==Ссылки==
Строка 49: Строка 58:
* [[Проверка правописания коми языка]]
* [[Проверка правописания коми языка]]
* [[AntConc|Корпус-менеждер AntConc]]
* [[AntConc|Корпус-менеждер AntConc]]
* [http://www.abbyy.ru/finereader-professional/recognition-languages/ ABBYY FineReader 11 Professional Edition]
* [http://www.abbyy.ru/finereader-professional/recognition-languages/ ABBYY FineReader 12 Professional Edition]


[[Category:Инструментарий (коми кыв)]]
[[Category:Инструментарий (коми кыв)]]

Текущая версия от 19:21, 2 августа 2023

OCR.jpg

ABBYY FineReader 12 Professional Edition распознает документы на 190 языках на основе кириллицы, латиницы, греческого и армянского алфавитов, а также языки на основе иероглифического письма, искусственные языки и языки программирования, причём для 44 языков предусмотрена словарная поддержка и проверка орфографии.

Однако в этом внушительном списке почему-то не оказалось места для коми языка.

В настоящее время для распознавания текстов на коми (пермяцком и зырянском) языке можно воспользоваться только опцией создания нового пользовательского языка в этой программе.

Распознавание коми (зырянских) текстов

Чтобы распознавать коми (зырянские) тексты необходимо создать новый пользовательский язык:

«Сервис → Редактор языков → Пользовательские языки → Новый».

Откроется окно Свойство языка

По умолчанию базовый язык — Русский. В имени нового языка вместо Копия (Русский) следует указать Коми (зырянский).

Abbyy2.png

Затем займемся Алфавитом языка. Кликнем на квадрате с тремя точками справа от списка букв. Откроется окно Алфавит.

На кириллической кодовой странице выделим в таблице специфические коми символы :

  • Ӧ — 04E6
  • ӧ — 04E7
  • І — 0406
  • і — 0456

Abbyy3.png

Нажав ОК, возвращаемся в Свойство языка.

Abbyy2.png

Далее выделим Пользовательский словарь и кликнем его Cвойства. В открывшемся окне Словарь для языка "Коми (зырянский)" нажимаем Импорт и загружаем предварительно скачанный [отсюда] и распакованный файл словаря поддержки коми (зырянского) языка. Загрузка словаря занимает не менее 5 минут.

Abbyy5.png

Закроем окно словаря и нажимаем ОК в свойствах языка. Теперь Коми (зырянский) язык появится в списке пользовательских языков.

Abbyy1.png

При распознании коми текста выбираем Коми (зырянский) из списка.

Дабы не пришлось создавать пользовательский язык каждый раз, сохраните пакет, в котором Вы создали польз. язык "Коми (зырянский)". Теперь данный язык останется в этом пакете и автоматически появится в тех, которые будут создаваться позже.

Распознавание коми (пермяцких) текстов

Чтобы распознавать коми (пермяцкие) тексты необходимо создать пользовательский язык:

«Сервис → Редактор языков → Пользовательские языки → Новый» — Коми (пермяцкий).

Схема создания описана в предыдущем разделе. Разница лишь в том, что в свойствах пользовательского словаря следует импортировать предварительно скачанный и распакованный файл словаря поддержки коми (пермяцкого) языка.

Ссылки