Распознавание удмуртских текстов

ABBYY FineReader 12 Professional Edition распознает документы на 190 языках на основе кириллицы, латиницы, греческого и армянского алфавитов, а также языки на основе иероглифического письма, искусственные языки и языки программирования, причём для 44 языков предусмотрена словарная поддержка и проверка орфографии.

Удмуртский язык есть в списке ABBYY, но словарная поддержка для него по умолчанию не предусмотрена. В настоящее время выходом может стать добавление нового пользовательского языка на основе языка "Удмуртский".

Добавление пользовательского языка "Удмурт кыл"

Чтобы качественно распознавать удмуртские тексты необходимо создать новый пользовательский язык:

В меню "Сервис" кликнем "Редактор языков". В окне Редактора языков нажимаем "Новый".

В появившемся меню "Новый язык или группа языков" выбираем базовым языком "Удмуртский" и нажимаем ОК.

Откроется окно Свойство языка

В имени нового языка вместо Копия (Удмуртский) пишем, например, Удмурт кыл.

Нажимаем ОК.

Теперь Удмурт кыл появится в списке пользовательских языков.

Добавление словаря поддержки

В Сервис → Редактор языков → Пользовательские языки отмечаем Удмурт кыл (см. выше) и выбираем меню Свойства (на нижней панели окна).

В Свойствах языка в разделе Словарь вместо Нет точкуем Пользовательский словарь

Кликнем его Cвойства. Появится окно Словарь для языка "Удмурт кыл":

Нажимаем Импорт и загружаем предварительно скачанный [отсюда] и распакованный файл словаря поддержки удмуртского языка. Загрузка словаря занимает не менее 5 минут.

В окне словаря нажимаем кнопку "Закрыть" и в свойствах языка нажимаем ОК. Теперь удмуртские тексты будут распознаваться с учетом словоформ, заложенных в словарь поддержки.

Сохранение пользовательского языка

Дабы не пришлось создавать пользовательский язык каждый раз, сохраните пакет, в котором Вы создали польз. язык "Удмурт кыл". Теперь данный язык останется в этом пакете и автоматически появится в тех, которые будут создаваться позже.

Распознавание удмуртского текста

Для распознания удмуртского текста устанавливаем Удмурт кыл как язык документа:

Язык документа -> Выбор языков... (внизу) -> Редактор языков -> Пользовательские языки (внизу) -> Удмурт кыл -> ОК).

Качество распознавания достаточно высокое. Пример см. на изображении:

Как видим при распознании программа допустила четыре ошибки:

Проигнорирован абзац после заголовка Куэт.
Слово сузэръёсыз-лэн не распознано как цельная единица, поскольку пока отсутствует в словаре поддержки.
Вместо Отын программа прочитала Ӧрын.
Вместо тырон стоит гырон.

Последние две ошибки произошли вероятно в связи с качеством печати в данном сегменте текста.

С пополнением тестовой базы будет расти и словарь поддержки, а соответственно распознавание будет идти все более качественно.

Ссылки

ABBYY FineReader 12 Professional Edition

Распознавание удмуртских текстов

Содержание

Добавление пользовательского языка "Удмурт кыл"

Добавление словаря поддержки

Сохранение пользовательского языка

Распознавание удмуртского текста

Ссылки

Навигация

Распознавание удмуртских текстов

Добавление пользовательского языка "Удмурт кыл"

Добавление словаря поддержки

Сохранение пользовательского языка

Распознавание удмуртского текста

Ссылки

Навигация

Поиск