Распознавание удмуртских текстов: различия между версиями
Ӧньӧ Лав (обсуждение | вклад) |
Ӧньӧ Лав (обсуждение | вклад) |
||
(не показана 21 промежуточная версия 2 участников) | |||
Строка 1: | Строка 1: | ||
[[Файл:OCR.jpg|300px|thumb]] | [[Файл:OCR.jpg|300px|thumb]] | ||
'''ABBYY FineReader | '''ABBYY FineReader 12 Professional Edition''' распознает документы на 190 языках на основе кириллицы, латиницы, греческого и армянского алфавитов, а также языки на основе иероглифического письма, искусственные языки и языки программирования, причём для 44 языков предусмотрена словарная поддержка и проверка орфографии. | ||
Удмуртский язык есть в списке ABBYY, но словарная поддержка для него по умолчанию не предусмотрена. В настоящее время выходом может стать добавление нового пользовательского языка на основе языка "Удмуртский". | Удмуртский язык есть в списке ABBYY, но словарная поддержка для него по умолчанию не предусмотрена. В настоящее время выходом может стать добавление нового пользовательского языка на основе языка "Удмуртский". | ||
Строка 9: | Строка 9: | ||
Чтобы качественно распознавать удмуртские тексты необходимо создать новый пользовательский язык: | Чтобы качественно распознавать удмуртские тексты необходимо создать новый пользовательский язык: | ||
В меню | В меню '''Сервис''' кликнем '''Редактор языков'''. В окне Редактора языков нажимаем '''Новый'''. | ||
[[Файл:Abbyy udm0.png]] | [[Файл:Abbyy udm0.png]] | ||
В появившемся меню | В появившемся меню '''Новый язык или группа языков''' выбираем базовым языком '''Удмуртский''' и нажимаем '''ОК'''. | ||
[[Файл:Abbyy udm.png]] | [[Файл:Abbyy udm.png]] | ||
Строка 31: | Строка 31: | ||
==Добавление словаря поддержки== | ==Добавление словаря поддержки== | ||
В '' | В '''Сервис → Редактор языков → Пользовательские языки''' отмечаем '''Удмурт кыл''' (см. выше) и выбираем меню '''Свойства''' (на нижней панели окна). | ||
В '''Свойствах языка''' в разделе '''Словарь''' вместо '''Нет''' | В '''Свойствах языка''' в разделе '''Словарь''' вместо '''Нет''' точкуем '''Пользовательский словарь''' | ||
[[Файл:Abbyy udm2.png]] | [[Файл:Abbyy udm2.png]] | ||
Строка 41: | Строка 41: | ||
[[Файл:Abbyy udm3.png]] | [[Файл:Abbyy udm3.png]] | ||
Нажимаем '''Импорт''' и загружаем предварительно скачанный [[http://komikyv. | Нажимаем '''Импорт''' и загружаем предварительно скачанный [[http://komikyv.org/downloads/udm-utf-16.zip отсюда]] и распакованный файл словаря поддержки удмуртского языка. Загрузка словаря занимает не менее 5 минут. | ||
[[Файл:Abbyy udm5.png]] | [[Файл:Abbyy udm5.png]] | ||
В окне словаря нажимаем кнопку '''Закрыть''' и в свойствах языка нажимаем '''ОК'''. Теперь удмуртские тексты будут распознаваться с учетом словоформ, заложенных в словарь поддержки. | |||
На осень 2014 года словарь поддержки включает в себя '''284 тысячи''' словоформ, извлеченных их двух изданий: | |||
*корпус "Турку-Ижевск", созданный Йормой Луутоненом (Турку), Леонидом Ившиным (Ижевск) и Кари Аро (Турку) на основе газетных и журнальных публикаций 1997-2001 гг. | |||
*словарь [http://dict.komikyv.ru/index.php/index/6.xhtml "Удмурт-ӟуч кыллюкам"] (2008 г.) | |||
==Сохранение пользовательского языка== | ==Сохранение пользовательского языка== | ||
Строка 53: | Строка 57: | ||
==Распознавание удмуртского текста== | ==Распознавание удмуртского текста== | ||
Для | Для распознавания удмуртского текста устанавливаем '''Удмурт кыл''' как язык документа: | ||
'''Язык документа''' -> '''Выбор языков...''' (внизу) -> '''Редактор языков''' -> '''Пользовательские языки''' (внизу) -> '''Удмурт кыл''' -> '''ОК'''). | '''Язык документа''' -> '''Выбор языков...''' (внизу) -> '''Редактор языков''' -> '''Пользовательские языки''' (внизу) -> '''Удмурт кыл''' -> '''ОК'''). | ||
Строка 60: | Строка 64: | ||
[[Файл:Abbyy udm6.png|800 px|]] | [[Файл:Abbyy udm6.png|800 px|]] | ||
Как и в случае с другими языками вычитка текста после распознавания остаётся крайне желательной. | |||
Как видим, при распознавании программа допустила четыре ошибки: | |||
#Проигнорирован абзац после заголовка '''Куэт'''. | |||
#Слово '''сузэръёсыз-лэн''' не распознано как цельная единица, поскольку пока отсутствует в словаре поддержки (знак переноса воспринят как дефис). | |||
#Вместо '''Отын''' программа прочитала '''Ӧрын'''. | |||
#Вместо '''тырон''' стоит '''гырон'''. | |||
Ошибок, подобных №2, с пополнением базы словаря поддержки будет все меньше. | |||
Последние две ошибки произошли вероятно в связи с качеством печати в данном сегменте текста. | |||
Более тщательное распознавание в подобных случаях возможно в русле общего улучшение качества программы FineReader. | |||
==Ссылки== | ==Ссылки== | ||
* [http://www.abbyy.ru/finereader-professional/recognition-languages/ ABBYY FineReader | * [http://www.abbyy.ru/finereader-professional/recognition-languages/ ABBYY FineReader 12 Professional Edition] | ||
[[Category:Инструментарий (удмурт кыв)]] | [[Category:Инструментарий (удмурт кыв)]] |
Текущая версия от 17:45, 18 октября 2014
ABBYY FineReader 12 Professional Edition распознает документы на 190 языках на основе кириллицы, латиницы, греческого и армянского алфавитов, а также языки на основе иероглифического письма, искусственные языки и языки программирования, причём для 44 языков предусмотрена словарная поддержка и проверка орфографии.
Удмуртский язык есть в списке ABBYY, но словарная поддержка для него по умолчанию не предусмотрена. В настоящее время выходом может стать добавление нового пользовательского языка на основе языка "Удмуртский".
Добавление пользовательского языка "Удмурт кыл"
Чтобы качественно распознавать удмуртские тексты необходимо создать новый пользовательский язык:
В меню Сервис кликнем Редактор языков. В окне Редактора языков нажимаем Новый.
В появившемся меню Новый язык или группа языков выбираем базовым языком Удмуртский и нажимаем ОК.
Откроется окно Свойство языка
В имени нового языка вместо Копия (Удмуртский) пишем, например, Удмурт кыл.
Нажимаем ОК.
Теперь Удмурт кыл появится в списке пользовательских языков.
Добавление словаря поддержки
В Сервис → Редактор языков → Пользовательские языки отмечаем Удмурт кыл (см. выше) и выбираем меню Свойства (на нижней панели окна).
В Свойствах языка в разделе Словарь вместо Нет точкуем Пользовательский словарь
Кликнем его Cвойства. Появится окно Словарь для языка "Удмурт кыл":
Нажимаем Импорт и загружаем предварительно скачанный [отсюда] и распакованный файл словаря поддержки удмуртского языка. Загрузка словаря занимает не менее 5 минут.
В окне словаря нажимаем кнопку Закрыть и в свойствах языка нажимаем ОК. Теперь удмуртские тексты будут распознаваться с учетом словоформ, заложенных в словарь поддержки.
На осень 2014 года словарь поддержки включает в себя 284 тысячи словоформ, извлеченных их двух изданий:
- корпус "Турку-Ижевск", созданный Йормой Луутоненом (Турку), Леонидом Ившиным (Ижевск) и Кари Аро (Турку) на основе газетных и журнальных публикаций 1997-2001 гг.
- словарь "Удмурт-ӟуч кыллюкам" (2008 г.)
Сохранение пользовательского языка
Дабы не пришлось создавать пользовательский язык каждый раз, сохраните пакет, в котором Вы создали польз. язык "Удмурт кыл". Теперь данный язык останется в этом пакете и автоматически появится в тех, которые будут создаваться позже.
Распознавание удмуртского текста
Для распознавания удмуртского текста устанавливаем Удмурт кыл как язык документа:
Язык документа -> Выбор языков... (внизу) -> Редактор языков -> Пользовательские языки (внизу) -> Удмурт кыл -> ОК).
Качество распознавания достаточно высокое. Пример см. на изображении:
Как и в случае с другими языками вычитка текста после распознавания остаётся крайне желательной.
Как видим, при распознавании программа допустила четыре ошибки:
- Проигнорирован абзац после заголовка Куэт.
- Слово сузэръёсыз-лэн не распознано как цельная единица, поскольку пока отсутствует в словаре поддержки (знак переноса воспринят как дефис).
- Вместо Отын программа прочитала Ӧрын.
- Вместо тырон стоит гырон.
Ошибок, подобных №2, с пополнением базы словаря поддержки будет все меньше.
Последние две ошибки произошли вероятно в связи с качеством печати в данном сегменте текста. Более тщательное распознавание в подобных случаях возможно в русле общего улучшение качества программы FineReader.