Создание Hunspell-словаря: различия между версиями
Vorgoron (обсуждение | вклад) Нет описания правки |
Vorgoron (обсуждение | вклад) Нет описания правки |
||
Строка 48: | Строка 48: | ||
Остановимся поподробнее на условиях. В '''квадратных скобках''' перечисляется буквы, одна из которых обязательно должна быть на том месте, где стоят эти скобки. В данном примере условию удовлетворяют следующие слова с окончаниями: -дыны, -зыны, -лыны ... -тыны. То есть если в файле с расширением .dic есть слова помеченные флагом "а" и заканчивающиеся на -дыны, -зыны, -лыны ... -тыны, например ''бергатыны/a'', то будет образовываться новые слова с определенным суффиксом: ''бергатӥд''. Далее, если в условии после открывающей квадратной скобки добавлен символ "^", то это означает, что те буквы, которые заключены в эти скобки, не должны находиться на данной позиции (происходит обратное, отрицание). Например, суффиксу с условием '''SFX a ыны ид [^дзлнстьй]ыны''' подходит слово "кытк'''ыны'''/a" -> "кытк'''ид'''". | Остановимся поподробнее на условиях. В '''квадратных скобках''' перечисляется буквы, одна из которых обязательно должна быть на том месте, где стоят эти скобки. В данном примере условию удовлетворяют следующие слова с окончаниями: -дыны, -зыны, -лыны ... -тыны. То есть если в файле с расширением .dic есть слова помеченные флагом "а" и заканчивающиеся на -дыны, -зыны, -лыны ... -тыны, например ''бергатыны/a'', то будет образовываться новые слова с определенным суффиксом: ''бергатӥд''. Далее, если в условии после открывающей квадратной скобки добавлен символ "^", то это означает, что те буквы, которые заключены в эти скобки, не должны находиться на данной позиции (происходит обратное, отрицание). Например, суффиксу с условием '''SFX a ыны ид [^дзлнстьй]ыны''' подходит слово "кытк'''ыны'''/a" -> "кытк'''ид'''". | ||
Hunspell может определять одновременно в одном слове максимум два суффикса. Т.е. если определить в файле аффиксов все суффиксы по отдельности, то Hunspell не поймет этого. Например слово '''гыр-ись-ёс-мы-лы''' имеет 4 аффикса, в словаре аффиксов нельзя определить все эти аффиксы по отдельности, поэтому надо будет определить это как один длинный суффикс, либо как 2 суффикса:<br/> | Hunspell может определять одновременно в одном слове максимум два суффикса. Т.е. если определить в файле аффиксов все суффиксы по отдельности, то Hunspell не поймет этого. Например слово '''гыр-ись-ёс-мы-лы''' имеет 4 аффикса, в словаре аффиксов нельзя определить все эти аффиксы по отдельности, поэтому надо будет определить это как один длинный "суффикс", либо как 2 "суффикса":<br/> | ||
... | ... | ||
SFX a ыны ись'''/d''' [^дзлнстьй]ыны | SFX a ыны ись'''/d''' [^дзлнстьй]ыны | ||
Строка 63: | Строка 63: | ||
2.2. Инструменты. | 2.2. Инструменты. | ||
При создании удмуртского словаря hunspell в основном я пользовался редактором текста Notepad++. Но пользовался некоторыми утилитами из пакета hunspell-tools, о которых я расскажу позже. | При создании удмуртского словаря hunspell в основном я пользовался редактором текста Notepad++. Но также пользовался некоторыми утилитами из пакета hunspell-tools, о которых я расскажу позже. | ||
Для каждой части речи в файле аффиксов существует своя группа. '''Глаголы''' я разделил на 3 группы: 1го спряжения (-ыны), 2го спряжения (-аны, -яны) и отдельно выделил суффиксы для глаголов оканчивающихся на -йыны. Так я сделал, что бы не загромождать группу глаголов 1го спряжения и в связи с специфичностью образования слов на -йыны. Далее после создания групп аффиксов для глаголов я в dic-файле начал обозначать глаголы соответствующими флагами в Notepad++ простой "заменой": например, сначала заменял "йыны" на "йыны/b", потом "ыны" на "ыны/а" и так далее. Исходной формой образования всех глагольных форм в удмуртском языке является инфинитив, имеющий форму '''-ны''', поэтому при определении глаголов не возникло проблем. | |||
Далее я начал писать правила образования для существительных. Существительные в удмуртском языке имеют категории числа, притяжательности, падежа и выделительно указательности. Для имен существительных я создал 2 группы аффиксов: одна для сущ., обозначающих неодушевленные предметы, другая для сущ., обозначающих одушевленные предметы. Отличие лишь в том, что в первой группе описаны правила для всех 15 падежей, а во второй только для 8ми. Из-за того, что Hunspell может выделять только максимум 2 суффикса, формы образования не разделены на группы, как было бы логичнее сделать, т.е. для категории числа сделать свою группу, для падежей свою и связать их. Для описания всех форм образования существительных потребовалось: 2 категории числа * 12(?) категорий притяжательности * 15 падежей + правила для [дзлнст], ь, й, [пфктсшхцчщ] = 564 правил, и это еще не все правила, так как я не филолог :). Но это не значит, что от одного существительного может образоваться столько форм. После описания всех правил надо было как то отметить существительные в dic-файле. Для этого в hunspell-tools существует утилита '''munch''' - эта утилита позволяет из wordlist'а с помощью файла аффиксов создать правильный dic-файл с флагами. Вот пример работы munch: | |||
wordlist: | udm.aff: | udm.dic: | |||
| | | |||
яратод | SFX a Y 4 | munch 1 | |||
яратӥсько | SFX a 0 0 . | -------> яратыны/a | |||
яратэмзэ | SFX a ыны ӥсько [дзлнст]ыны | | |||
яратыны | SFX a ыны од [^ьй]ыны | | |||
| SFX a ыны эмзэ [дзлнстуеыаоэяиюӧӥё]ыны | | |||
Из 4 слов из wordlist'а он оставил только одно с нужным флагом. Но есть одно ограничение в работе этой утилиты: число словоформ одного слова должно совпадать с количеством суффиксов для нужного флага. Т.е. если количество правил группы больше чем в словоформ в wordlist', то утилита не будет работать и выдаст тот же список. Но, так как munch имеет открытый код, я легко снял это ограничение. Теперь если в wordlist'е есть хотя бы 2 словоформы удовлетворяющие правилам нужного флага, то munch преобразует их в одно слово с флагом. Но пользоваться данной утилитой надо осторожно, иначе для некоторых слов могут быть выбраны неправильные флаги. Что бы это не случилось, надо использовать munch к последовательно получающемуся dic-файлу с '''разными''' aff-файлами, где лежат правила, относящиеся только для одной группы/флага. Ссылка на munch: https://dl.dropbox.com/u/24592250/munch.rar |
Версия от 14:17, 18 июля 2012
В данной инструкции будет рассмотрено создание hunspell словаря на примере удмуртского словаря hunspell. Сначала необходимо установить Hunspell:
sudo apt-get install hunspell hunspell-tools
1. Создание списка слов. Для создания словаря нужно иметь большой список слов, wordlist. Список удмуртских слов получен из Удмуртско-русского словаря.
2. Создание словаря hunspell.
2.1. Формат словаря. Словарь hunspell состоит из двух файлов:
- первый файл с расширением .dic - здесь содержится список "корней" слов (стемов) со специальными метками, флагами.
Фрагмент файла:
бергатъяны/c бергатылыны/a бергатыны/a бергес бергозы/d берда кыткыны/a
т.е. сначала идет стем, "корень" слова, далее слэш "/", после слэша ставится флаг, обозначающий к какой группе аффиксов (второй файл) относится данное слово. После слэша может быть несколько флагов.
- во втором файле (.aff) находятся группы аффиксов, обозначенные флагами.
Фрагмент файла:
SFX a Y 197 #заголовок группы, кол-во аффиксов - 197 SFX a ыны он/d [^ьй]ыны ... SFX a ыны эмпотонтэм [дзлнстуеыаоэяиюӧӥё]ыны SFX a ыны эмпотостэм [дзлнстуеыаоэяиюӧӥё]ыны SFX a ыны эмъёстэ [дзлнстуеыаоэяиюӧӥё]ыны SFX a ыны ӥ [дзлнст]ыны SFX a ыны ӥд [дзлнст]ыны SFX a ыны ӥды [дзлнст]ыны SFX a ыны ӥз [дзлнст]ыны ... SFX a ыны ид [^дзлнстьй]ыны
обозначения:
SFX - означает, что это группа суффиксов. Для создания группы префиксов надо использовать PFX
а - наименование флага
ыны - что будет убираться с конца корня слова
ӥд - сам суффикс
[дзлнст]ыны - условие, при котором будет выбираться данный суффикс. В условиях используются регулярные выражения.
Остановимся поподробнее на условиях. В квадратных скобках перечисляется буквы, одна из которых обязательно должна быть на том месте, где стоят эти скобки. В данном примере условию удовлетворяют следующие слова с окончаниями: -дыны, -зыны, -лыны ... -тыны. То есть если в файле с расширением .dic есть слова помеченные флагом "а" и заканчивающиеся на -дыны, -зыны, -лыны ... -тыны, например бергатыны/a, то будет образовываться новые слова с определенным суффиксом: бергатӥд. Далее, если в условии после открывающей квадратной скобки добавлен символ "^", то это означает, что те буквы, которые заключены в эти скобки, не должны находиться на данной позиции (происходит обратное, отрицание). Например, суффиксу с условием SFX a ыны ид [^дзлнстьй]ыны подходит слово "кыткыны/a" -> "кыткид".
Hunspell может определять одновременно в одном слове максимум два суффикса. Т.е. если определить в файле аффиксов все суффиксы по отдельности, то Hunspell не поймет этого. Например слово гыр-ись-ёс-мы-лы имеет 4 аффикса, в словаре аффиксов нельзя определить все эти аффиксы по отдельности, поэтому надо будет определить это как один длинный "суффикс", либо как 2 "суффикса":
... SFX a ыны ись/d [^дзлнстьй]ыны ... ... SFX d 0 ёсмылы [ьъй] ...
Для определения второго суффикса в конец вперед идущего суффикса добавляется слэш с нужным флагом. В моём примере суффиксы группы "а" определяют глаголы первого спряжения, суффиксы группы "d" - существительные.
Более подробную информацию о формате словаря вы можете узнать по этой ссылке: http://www.marlamuter.ru/downloads/hunspell2.pdf
2.2. Инструменты.
При создании удмуртского словаря hunspell в основном я пользовался редактором текста Notepad++. Но также пользовался некоторыми утилитами из пакета hunspell-tools, о которых я расскажу позже.
Для каждой части речи в файле аффиксов существует своя группа. Глаголы я разделил на 3 группы: 1го спряжения (-ыны), 2го спряжения (-аны, -яны) и отдельно выделил суффиксы для глаголов оканчивающихся на -йыны. Так я сделал, что бы не загромождать группу глаголов 1го спряжения и в связи с специфичностью образования слов на -йыны. Далее после создания групп аффиксов для глаголов я в dic-файле начал обозначать глаголы соответствующими флагами в Notepad++ простой "заменой": например, сначала заменял "йыны" на "йыны/b", потом "ыны" на "ыны/а" и так далее. Исходной формой образования всех глагольных форм в удмуртском языке является инфинитив, имеющий форму -ны, поэтому при определении глаголов не возникло проблем.
Далее я начал писать правила образования для существительных. Существительные в удмуртском языке имеют категории числа, притяжательности, падежа и выделительно указательности. Для имен существительных я создал 2 группы аффиксов: одна для сущ., обозначающих неодушевленные предметы, другая для сущ., обозначающих одушевленные предметы. Отличие лишь в том, что в первой группе описаны правила для всех 15 падежей, а во второй только для 8ми. Из-за того, что Hunspell может выделять только максимум 2 суффикса, формы образования не разделены на группы, как было бы логичнее сделать, т.е. для категории числа сделать свою группу, для падежей свою и связать их. Для описания всех форм образования существительных потребовалось: 2 категории числа * 12(?) категорий притяжательности * 15 падежей + правила для [дзлнст], ь, й, [пфктсшхцчщ] = 564 правил, и это еще не все правила, так как я не филолог :). Но это не значит, что от одного существительного может образоваться столько форм. После описания всех правил надо было как то отметить существительные в dic-файле. Для этого в hunspell-tools существует утилита munch - эта утилита позволяет из wordlist'а с помощью файла аффиксов создать правильный dic-файл с флагами. Вот пример работы munch:
wordlist: | udm.aff: | udm.dic: | | яратод | SFX a Y 4 | munch 1 яратӥсько | SFX a 0 0 . | -------> яратыны/a яратэмзэ | SFX a ыны ӥсько [дзлнст]ыны | яратыны | SFX a ыны од [^ьй]ыны | | SFX a ыны эмзэ [дзлнстуеыаоэяиюӧӥё]ыны |
Из 4 слов из wordlist'а он оставил только одно с нужным флагом. Но есть одно ограничение в работе этой утилиты: число словоформ одного слова должно совпадать с количеством суффиксов для нужного флага. Т.е. если количество правил группы больше чем в словоформ в wordlist', то утилита не будет работать и выдаст тот же список. Но, так как munch имеет открытый код, я легко снял это ограничение. Теперь если в wordlist'е есть хотя бы 2 словоформы удовлетворяющие правилам нужного флага, то munch преобразует их в одно слово с флагом. Но пользоваться данной утилитой надо осторожно, иначе для некоторых слов могут быть выбраны неправильные флаги. Что бы это не случилось, надо использовать munch к последовательно получающемуся dic-файлу с разными aff-файлами, где лежат правила, относящиеся только для одной группы/флага. Ссылка на munch: https://dl.dropbox.com/u/24592250/munch.rar