Распознавание удмуртских текстов: различия между версиями

Версия от 17:26, 18 октября 2014

ABBYY FineReader 12 Professional Edition распознает документы на 190 языках на основе кириллицы, латиницы, греческого и армянского алфавитов, а также языки на основе иероглифического письма, искусственные языки и языки программирования, причём для 44 языков предусмотрена словарная поддержка и проверка орфографии.

Удмуртский язык есть в списке ABBYY, но словарная поддержка для него по умолчанию не предусмотрена. В настоящее время выходом может стать добавление нового пользовательского языка на основе языка "Удмуртский".

Добавление пользовательского языка "Удмурт кыл"

Чтобы качественно распознавать удмуртские тексты необходимо создать новый пользовательский язык:

В меню Сервис кликнем Редактор языков. В окне Редактора языков нажимаем Новый.

В появившемся меню Новый язык или группа языков выбираем базовым языком Удмуртский и нажимаем ОК.

Откроется окно Свойство языка

В имени нового языка вместо Копия (Удмуртский) пишем, например, Удмурт кыл.

Нажимаем ОК.

Теперь Удмурт кыл появится в списке пользовательских языков.

Добавление словаря поддержки

В Сервис → Редактор языков → Пользовательские языки отмечаем Удмурт кыл (см. выше) и выбираем меню Свойства (на нижней панели окна).

В Свойствах языка в разделе Словарь вместо Нет точкуем Пользовательский словарь

Кликнем его Cвойства. Появится окно Словарь для языка "Удмурт кыл":

Нажимаем Импорт и загружаем предварительно скачанный [отсюда] и распакованный файл словаря поддержки удмуртского языка. Загрузка словаря занимает не менее 5 минут.

В окне словаря нажимаем кнопку Закрыть и в свойствах языка нажимаем ОК. Теперь удмуртские тексты будут распознаваться с учетом словоформ, заложенных в словарь поддержки.

Сохранение пользовательского языка

Дабы не пришлось создавать пользовательский язык каждый раз, сохраните пакет, в котором Вы создали польз. язык "Удмурт кыл". Теперь данный язык останется в этом пакете и автоматически появится в тех, которые будут создаваться позже.

Распознавание удмуртского текста

Для распознания удмуртского текста устанавливаем Удмурт кыл как язык документа:

Язык документа -> Выбор языков... (внизу) -> Редактор языков -> Пользовательские языки (внизу) -> Удмурт кыл -> ОК).

Качество распознавания достаточно высокое. Пример см. на изображении:

Как и в случае с другими языками вычитка текста после распознавания остается кране желательной.

Как видим при распознавании программа допустила четыре ошибки:

Проигнорирован абзац после заголовка Куэт.
Слово сузэръёсыз-лэн не распознано как цельная единица, поскольку пока отсутствует в словаре поддержки.
Вместо Отын программа прочитала Ӧрын.
Вместо тырон стоит гырон.

Случаев, подобных №2 будет все меньше с пополнением тестовой базы словаря поддержки.

Последние две ошибки произошли вероятно в связи с качеством печати в данном сегменте текста. Более тщательное распознавание в подобных случаях, а также в случае №1, возможно в русле общего улучшение качества программы FineReader.

Ссылки

ABBYY FineReader 12 Professional Edition

@@ Строка 60: / Строка 60: @@
 [[Файл:Abbyy udm6.png|800 px|]]
+Как и в случае с другими языками вычитка текста после распознавания остается кране желательной.
 Как видим при распознавании программа допустила четыре ошибки:
@@ Строка 66: / Строка 68: @@
 #Вместо '''Отын''' программа прочитала '''Ӧрын'''.
 #Вместо '''тырон''' стоит '''гырон'''.
+Случаев, подобных №2 будет все меньше с пополнением тестовой базы словаря поддержки.
 Последние две ошибки произошли вероятно в связи с качеством печати в данном сегменте текста.
+Более тщательное распознавание в подобных случаях, а также в случае №1, возможно в русле общего улучшение качества программы FineReader.
-С пополнением тестовой базы будет расти и словарь поддержки, а соответственно распознавание будет идти все более качественно.
 ==Ссылки==

Распознавание удмуртских текстов: различия между версиями

Версия от 17:26, 18 октября 2014

Содержание

Добавление пользовательского языка "Удмурт кыл"

Добавление словаря поддержки

Сохранение пользовательского языка

Распознавание удмуртского текста

Ссылки

Навигация

Распознавание удмуртских текстов: различия между версиями

Версия от 17:26, 18 октября 2014

Добавление пользовательского языка "Удмурт кыл"

Добавление словаря поддержки

Сохранение пользовательского языка

Распознавание удмуртского текста

Ссылки

Навигация

Поиск