Распознавание удмуртских текстов: различия между версиями
Ӧньӧ Лав (обсуждение | вклад) |
Юлия (обсуждение | вклад) |
||
Строка 41: | Строка 41: | ||
[[Файл:Abbyy udm3.png]] | [[Файл:Abbyy udm3.png]] | ||
Нажимаем '''Импорт''' и загружаем предварительно скачанный [[http://komikyv. | Нажимаем '''Импорт''' и загружаем предварительно скачанный [[http://komikyv.org/downloads/udm-utf-16.zip отсюда]] и распакованный файл словаря поддержки удмуртского языка. Загрузка словаря занимает не менее 5 минут. | ||
[[Файл:Abbyy udm5.png]] | [[Файл:Abbyy udm5.png]] |
Версия от 17:03, 18 октября 2014
ABBYY FineReader 11 Professional Edition распознает документы на 188 языках на основе кириллицы, латиницы, греческого и армянского алфавитов, а также языки на основе иероглифического письма, искусственные языки и языки программирования, причём для 44 языков предусмотрена словарная поддержка и проверка орфографии.
Удмуртский язык есть в списке ABBYY, но словарная поддержка для него по умолчанию не предусмотрена. В настоящее время выходом может стать добавление нового пользовательского языка на основе языка "Удмуртский".
Добавление пользовательского языка "Удмурт кыл"
Чтобы качественно распознавать удмуртские тексты необходимо создать новый пользовательский язык:
В меню "Сервис" кликнем "Редактор языков". В окне Редактора языков нажимаем "Новый".
В появившемся меню "Новый язык или группа языков" выбираем базовым языком "Удмуртский" и нажимаем ОК.
Откроется окно Свойство языка
В имени нового языка вместо Копия (Удмуртский) пишем, например, Удмурт кыл.
Нажимаем ОК.
Теперь Удмурт кыл появится в списке пользовательских языков.
Добавление словаря поддержки
В Сервис → Редактор языков → Пользовательские языки отмечаем Удмурт кыл (см. выше) и выбираем меню Свойства (на нижней панели окна).
В Свойствах языка в разделе Словарь вместо Нет точкуем Пользовательский словарь
Кликнем его Cвойства. Появится окно Словарь для языка "Удмурт кыл":
Нажимаем Импорт и загружаем предварительно скачанный [отсюда] и распакованный файл словаря поддержки удмуртского языка. Загрузка словаря занимает не менее 5 минут.
В окне словаря нажимаем кнопку "Закрыть" и в свойствах языка нажимаем ОК. Теперь удмуртские тексты будут распознаваться с учетом словоформ, заложенных в словарь поддержки.
Сохранение пользовательского языка
Дабы не пришлось создавать пользовательский язык каждый раз, сохраните пакет, в котором Вы создали польз. язык "Удмурт кыл". Теперь данный язык останется в этом пакете и автоматически появится в тех, которые будут создаваться позже.
Распознавание удмуртского текста
Для распознания удмуртского текста устанавливаем Удмурт кыл как язык документа:
Язык документа -> Выбор языков... (внизу) -> Редактор языков -> Пользовательские языки (внизу) -> Удмурт кыл -> ОК).
Качество распознавания достаточно высокое. Пример см. на изображении:
Как видим при распознании программа допустила две ошибки:
- Слово сузэръёсыз-лэн не распознано как цельная единица, поскольку пока отсутствует в словаре поддержки.
- Вместо Отын программа прочитала Ӧрын, вероятно в связи с качеством печати в данном сегменте текста.
С пополнением тестовой базы будет расти и словарь поддержки, а соответственно распознавание будет идти все более качественно.