Распознавание удмуртских текстов: различия между версиями

Текущая версия от 17:45, 18 октября 2014

ABBYY FineReader 12 Professional Edition распознает документы на 190 языках на основе кириллицы, латиницы, греческого и армянского алфавитов, а также языки на основе иероглифического письма, искусственные языки и языки программирования, причём для 44 языков предусмотрена словарная поддержка и проверка орфографии.

Удмуртский язык есть в списке ABBYY, но словарная поддержка для него по умолчанию не предусмотрена. В настоящее время выходом может стать добавление нового пользовательского языка на основе языка "Удмуртский".

Добавление пользовательского языка "Удмурт кыл"

Чтобы качественно распознавать удмуртские тексты необходимо создать новый пользовательский язык:

В меню Сервис кликнем Редактор языков. В окне Редактора языков нажимаем Новый.

В появившемся меню Новый язык или группа языков выбираем базовым языком Удмуртский и нажимаем ОК.

Откроется окно Свойство языка

В имени нового языка вместо Копия (Удмуртский) пишем, например, Удмурт кыл.

Нажимаем ОК.

Теперь Удмурт кыл появится в списке пользовательских языков.

Добавление словаря поддержки

В Сервис → Редактор языков → Пользовательские языки отмечаем Удмурт кыл (см. выше) и выбираем меню Свойства (на нижней панели окна).

В Свойствах языка в разделе Словарь вместо Нет точкуем Пользовательский словарь

Кликнем его Cвойства. Появится окно Словарь для языка "Удмурт кыл":

Нажимаем Импорт и загружаем предварительно скачанный [отсюда] и распакованный файл словаря поддержки удмуртского языка. Загрузка словаря занимает не менее 5 минут.

В окне словаря нажимаем кнопку Закрыть и в свойствах языка нажимаем ОК. Теперь удмуртские тексты будут распознаваться с учетом словоформ, заложенных в словарь поддержки.

На осень 2014 года словарь поддержки включает в себя 284 тысячи словоформ, извлеченных их двух изданий:

корпус "Турку-Ижевск", созданный Йормой Луутоненом (Турку), Леонидом Ившиным (Ижевск) и Кари Аро (Турку) на основе газетных и журнальных публикаций 1997-2001 гг.
словарь "Удмурт-ӟуч кыллюкам" (2008 г.)

Сохранение пользовательского языка

Дабы не пришлось создавать пользовательский язык каждый раз, сохраните пакет, в котором Вы создали польз. язык "Удмурт кыл". Теперь данный язык останется в этом пакете и автоматически появится в тех, которые будут создаваться позже.

Распознавание удмуртского текста

Для распознавания удмуртского текста устанавливаем Удмурт кыл как язык документа:

Язык документа -> Выбор языков... (внизу) -> Редактор языков -> Пользовательские языки (внизу) -> Удмурт кыл -> ОК).

Качество распознавания достаточно высокое. Пример см. на изображении:

Как и в случае с другими языками вычитка текста после распознавания остаётся крайне желательной.

Как видим, при распознавании программа допустила четыре ошибки:

Проигнорирован абзац после заголовка Куэт.
Слово сузэръёсыз-лэн не распознано как цельная единица, поскольку пока отсутствует в словаре поддержки (знак переноса воспринят как дефис).
Вместо Отын программа прочитала Ӧрын.
Вместо тырон стоит гырон.

Ошибок, подобных №2, с пополнением базы словаря поддержки будет все меньше.

Последние две ошибки произошли вероятно в связи с качеством печати в данном сегменте текста. Более тщательное распознавание в подобных случаях возможно в русле общего улучшение качества программы FineReader.

Ссылки

ABBYY FineReader 12 Professional Edition

@@ Строка 1: / Строка 1: @@
 [[Файл:OCR.jpg|300px|thumb]]
-'''ABBYY FineReader 11 Professional Edition''' распознает документы на 188 языках на основе кириллицы, латиницы, греческого и армянского алфавитов, а также языки на основе иероглифического письма, искусственные языки и языки программирования, причём для 44 языков предусмотрена словарная поддержка и проверка орфографии.
+'''ABBYY FineReader 12 Professional Edition''' распознает документы на 190 языках на основе кириллицы, латиницы, греческого и армянского алфавитов, а также языки на основе иероглифического письма, искусственные языки и языки программирования, причём для 44 языков предусмотрена словарная поддержка и проверка орфографии.
 Удмуртский язык есть в списке ABBYY, но словарная поддержка для него по умолчанию не предусмотрена. В настоящее время выходом может стать добавление нового пользовательского языка на основе языка "Удмуртский".
@@ Строка 9: / Строка 9: @@
 Чтобы качественно распознавать удмуртские тексты необходимо создать новый пользовательский язык:
-В меню "Сервис" кликнем "Редактор языков". В окне Редактора языков нажимаем "Новый".
+В меню '''Сервис''' кликнем '''Редактор языков'''. В окне Редактора языков нажимаем '''Новый'''.
 [[Файл:Abbyy udm0.png]]
-В появившемся меню "''Новый язык или группа языков''" выбираем базовым языком "Удмуртский" и нажимаем ОК.
+В появившемся меню '''Новый язык или группа языков''' выбираем базовым языком '''Удмуртский''' и нажимаем '''ОК'''.
 [[Файл:Abbyy udm.png]]
@@ Строка 31: / Строка 31: @@
 ==Добавление словаря поддержки==
-В ''"Сервис → Редактор языков → Пользовательские языки"'' отмечаем ''"Удмурт кыл"'' (см. выше) и выбираем меню "''Свойства''".
+В '''Сервис → Редактор языков → Пользовательские языки''' отмечаем '''Удмурт кыл''' (см. выше) и выбираем меню '''Свойства''' (на нижней панели окна).
-В '''Свойствах языка''' в разделе '''Словарь''' вместо '''Нет''' маркируем '''Пользовательский словарь'''
+В '''Свойствах языка''' в разделе '''Словарь''' вместо '''Нет''' точкуем '''Пользовательский словарь'''
 [[Файл:Abbyy udm2.png]]
@@ Строка 41: / Строка 41: @@
 [[Файл:Abbyy udm3.png]]
-Нажимаем '''Импорт''' и загружаем предварительно скачанный [[http://komikyv.ru/uploads/komi-kpv-utf16.txt.zip отсюда]] и распакованный файл словаря поддержки удмуртского языка. Загрузка словаря занимает не менее 5 минут.
+Нажимаем '''Импорт''' и загружаем предварительно скачанный [[http://komikyv.org/downloads/udm-utf-16.zip отсюда]] и распакованный файл словаря поддержки удмуртского языка. Загрузка словаря занимает не менее 5 минут.
-Закроем окно словаря и нажимаем '''ОК''' в свойствах языка. Теперь удмуртские тексты будут распознаваться с учетом словоформ, заложенных в словарь поддержки.
+[[Файл:Abbyy udm5.png]]
+В окне словаря нажимаем кнопку '''Закрыть''' и в свойствах языка нажимаем '''ОК'''. Теперь удмуртские тексты будут распознаваться с учетом словоформ, заложенных в словарь поддержки.
+На осень 2014 года словарь поддержки включает в себя '''284 тысячи''' словоформ, извлеченных их  двух изданий:
+*корпус  "Турку-Ижевск", созданный Йормой Луутоненом (Турку), Леонидом Ившиным (Ижевск) и Кари Аро (Турку) на основе газетных и журнальных публикаций 1997-2001 гг.
+*словарь [http://dict.komikyv.ru/index.php/index/6.xhtml "Удмурт-ӟуч кыллюкам"] (2008 г.)
 ==Сохранение пользовательского языка==
@@ Строка 51: / Строка 57: @@
 ==Распознавание удмуртского текста==
-При распознании коми текста выбираем '''Удмурт кыл''' из списка пользовательских языков.
+Для распознавания удмуртского текста устанавливаем '''Удмурт кыл''' как язык документа:
+'''Язык документа''' -> '''Выбор языков...''' (внизу) -> '''Редактор языков''' -> '''Пользовательские языки''' (внизу) -> '''Удмурт кыл''' -> '''ОК''').
 Качество распознавания достаточно высокое. Пример см. на изображении:
 [[Файл:Abbyy udm6.png|800 px|]]
+Как и в случае с другими языками вычитка текста после распознавания остаётся крайне желательной.
+Как видим, при распознавании программа допустила четыре ошибки:
+#Проигнорирован абзац после заголовка '''Куэт'''.
+#Слово '''сузэръёсыз-лэн''' не распознано как цельная единица, поскольку пока отсутствует в словаре поддержки (знак переноса воспринят как дефис).
+#Вместо '''Отын''' программа прочитала '''Ӧрын'''.
+#Вместо '''тырон''' стоит '''гырон'''.
+Ошибок, подобных №2, с пополнением базы словаря поддержки будет все меньше.
+Последние две ошибки произошли вероятно в связи с качеством печати в данном сегменте текста.
+Более тщательное распознавание в подобных случаях возможно в русле общего улучшение качества программы FineReader.
 ==Ссылки==
-* [http://www.abbyy.ru/finereader-professional/recognition-languages/ ABBYY FineReader 11 Professional Edition]
+* [http://www.abbyy.ru/finereader-professional/recognition-languages/ ABBYY FineReader 12 Professional Edition]
 [[Category:Инструментарий (удмурт кыв)]]

Распознавание удмуртских текстов: различия между версиями

Текущая версия от 17:45, 18 октября 2014

Содержание

Добавление пользовательского языка "Удмурт кыл"

Добавление словаря поддержки

Сохранение пользовательского языка

Распознавание удмуртского текста

Ссылки

Навигация

Распознавание удмуртских текстов: различия между версиями

Текущая версия от 17:45, 18 октября 2014

Добавление пользовательского языка "Удмурт кыл"

Добавление словаря поддержки

Сохранение пользовательского языка

Распознавание удмуртского текста

Ссылки

Навигация

Поиск