Langs: различия между версиями

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску
Строка 146: Строка 146:
Исходники находятся в папке '''src'''.
Исходники находятся в папке '''src'''.


В папке '''phonology''' находятся следующие файлы:<br/>
В папке '''src/phonology''' находятся следующие файлы:<br/>
Makefile<br/>
Makefile<br/>
Makefile.am<br/>
Makefile.am<br/>
Строка 156: Строка 156:
kpv-phon.xfscript<br/>
kpv-phon.xfscript<br/>


А в папке '''morphology''' следующие папки и файлы:<br/>
А в папке '''src/morphology''' следующие папки и файлы:<br/>
Makefile<br/>
Makefile<br/>
Makefile.am<br/>
Makefile.am<br/>
Строка 170: Строка 170:
root.lexc<br/>
root.lexc<br/>
'''stems''' <font color="green">- стемы (основы)</font><br/>
'''stems''' <font color="green">- стемы (основы)</font><br/>
В папке '''src/morphology/affixes''' видим следующие файлы:<br/>
adjectives.lexc<br/>
adpositions.lexc<br/>
adverbs.lexc<br/>
conjunctors.lexc<br/>
interjections.lexc<br/>
nouns.lexc<br/>
particles.lexc<br/>
pronouns.lexc<br/>
propernouns.lexc<br/>
quantifiers.lexc<br/>
verbs.lexc<br/>
А в папке '''src/morphology/stems''' следующие файлы:<br/>
Not-V_kvru-lex.xml<br/>
abbreviations.lexc<br/>
acronyms.lexc<br/>
adjectives-russian-like.lexc<br/>
adjectives-russian-like.xml<br/>
adjectives-russian-like_newwords.lexc<br/>
adjectives.lexc<br/>
adjectives.xml<br/>
adjectives_newwords.lexc<br/>
adpositions.lexc<br/>
adpositions.xml<br/>
adverbs.lexc<br/>
adverbs.xml<br/>
adverbs_newwords.lexc<br/>
conjunctors.lexc<br/>
conjunctors.xml<br/>
descriptives.lexc<br/>
descriptives.xml<br/>
exceptions.lexc<br/>
gerunds.lexc<br/>
gerunds.xml<br/>
interjections.lexc<br/>
interjections.xml<br/>
mwe-adjectives.xml<br/>
mwe-nouns.xml<br/>
mwe-verbs.xml<br/>
nouns-acronyms.xml<br/>
nouns-deverbal.lexc<br/>
nouns-deverbal.xml<br/>
nouns-russian-homographs.lexc<br/>
nouns-russian-homographs.xml<br/>
nouns.lexc<br/>
nouns.xml<br/>
nouns_newwords.lexc<br/>
participles.xml<br/>
particles.lexc<br/>
particles.xml<br/>
pronouns.lexc<br/>
pronouns.xml<br/>
propernouns-malenames-cyrillic.lexc<br/>
propernouns-malenames-cyrillic.xml<br/>
propernouns-malesurnames-cyrillic.lexc<br/>
propernouns-malesurnames-cyrillic.xml<br/>
propernouns-toponyms-Russian.lexc<br/>
propernouns-toponyms-Russian.xml<br/>
propernouns.lexc<br/>
propernouns.xml<br/>
propernouns_newwords.lexc<br/>
punctuation.lexc<br/>
quantifiers.lexc<br/>
quantifiers.xml<br/>
verbs-A2M.lexc<br/>
verbs-A2M.xml<br/>
verbs-N2END.lexc<br/>
verbs-N2END.xml<br/>
verbs_newwords.lexc<br/>


==Ссылки==
==Ссылки==

Версия от 08:48, 27 сентября 2015

Перед началом работы

Работа осуществляется в терминале (не забывайте ваши основные команды: pwd -- где я? ls -- что здесь? некоторым, возможно, понадобится команда whoami -- а кто я вообще такой?).

Перед началом работы предполагается, что вы в свою UNIX-систему (Mac OS или Linux) установили все необходимые программы и библиотеки.

И в своей рабочей папке, например, /home/user (в дальнейшем ~/) создали папку main, выполнив следующую команду:

svn co https://victorio.uit.no/langtech/trunk main

Также, перед началом работы с любым проектом (возьмите себе за правило!) не забывайте обновлять каталог main на своём компьютере:

cd ~/main/
svn up

Начало работы

При работе с инфраструктурой центра "Гиеллатекно" в папке ~/main/langs/ вы видите папки, в основном, состоящие из 3-х трёх букв: bak, bxr, chp, chr, ... - эти трёхбуквенные обозначения: коды ISO 639-3 языков, соответственно в папке mhr - проект для марийского (лугового), kpv - коми (зырянского), rus - русского языков.

Например, в папке rus (cd ~/main/langs/rus/) изначально находятся следующие файлы и папки:
AUTHORS
INSTALL
LICENCE
Makefile.am
README
am-shared
autogen.sh
configure.ac
devtools
doc
giella-rus.pc.in
m4
misc
src
test
tools
und.timestamp

После компиляции:

./autogen.sh
./configure --with-hfst --enable-spellers
make
sudo make install

Мы видим следующие папки (выделены жирным) и файлы:
AUTHORS
INSTALL
LICENCE
Makefile
Makefile.am
Makefile.in
README
aclocal.m4
am-shared
autogen.sh
autom4te.cache
build-aux
config.log
config.status
configure
configure.ac
devtools
doc
giella-rus.pc
giella-rus.pc.in
m4
misc
src - исходные коды
test
tools
und.timestamp

В папке src (после компиляции) мы видим следующие папки и файлы:
FSTflavors_STRESS.txt
Makefile
Makefile.am
Makefile.in
analyser-disamb-gt-desc.hfstol
analyser-disamb-gt-desc.xfst
analyser-gt-desc.hfst
analyser-gt-desc.hfstol
analyser-gt-desc.xfst
analyser-gt-norm.hfstol
analyser-gt-norm.xfst
analyser-raw-gt-desc.hfst
analyser-raw-gt-desc.tmp1.xfst
analyser-raw-gt-desc.xfst
filters - фильтры
generator-gt-desc.hfstol
generator-gt-desc.xfst
generator-gt-norm.hfstol
generator-gt-norm.xfst
generator-raw-gt-desc.hfst
generator-raw-gt-desc.tmp1.hfst
hyphenation - расстановка переносов
morphology - морфология
orthography - орфография
phonetics - фонетика
phonology - фонология
syntax - синтаксис
tagsets - установки тегов
transcriptions - транскрипции

И командой:

lookup analyser-gt-desc.xfst

Можете, например, проверить как работает морфологический анализатор:

Hfst.png

Морфологический анализатор

Рассмотрим на примере коми языка. Перейдите в папку ~/main/langs/kpv/:

cd ~/main/langs/kpv/

Обновитесь:

svn up

Компиляция осуществляется стандартным набором команд:

./autogen.sh
./configure --with-hfst --enable-spellers
make
sudo make install

Обратите внимание, если после команды ./autogen.sh у вас появится предупреждение о необходимости выполнить команду ./autogen.sh -l, значит в вашем файле ~/.profile (или ~/.bash_profile) не прописана подобная строка:

export GTLANG_kpv=$GTHOME/langs/kpv

И она будет прописана в вышеуказанном файле после выполнения команды:

./autogen.sh -l

Проверить работу морфоанализатора можно программой lookup:

lookup src/analyser-gt-desc.xfst

Hfst2.png

Где V, Ind, Fut, Sg1... - грамматические теги

Выход из программы: комбинация клавиш CTRL + C.

Исходные коды

Исходники находятся в папке src.

В папке src/phonology находятся следующие файлы:
Makefile
Makefile.am
Makefile.in
kpv-phon.compose.hfst
kpv-phon.compose.xfst
kpv-phon.lookup.hfst
kpv-phon.lookup.xfst
kpv-phon.xfscript

А в папке src/morphology следующие папки и файлы:
Makefile
Makefile.am
Makefile.in
affixes - аффиксы
generated_files
incoming
lexicon.hfst
lexicon.lexc
lexicon.xfst
missing6freq.txt
missingfreq.txt
root.lexc
stems - стемы (основы)

В папке src/morphology/affixes видим следующие файлы:
adjectives.lexc
adpositions.lexc
adverbs.lexc
conjunctors.lexc
interjections.lexc
nouns.lexc
particles.lexc
pronouns.lexc
propernouns.lexc
quantifiers.lexc
verbs.lexc

А в папке src/morphology/stems следующие файлы:
Not-V_kvru-lex.xml
abbreviations.lexc
acronyms.lexc
adjectives-russian-like.lexc
adjectives-russian-like.xml
adjectives-russian-like_newwords.lexc
adjectives.lexc
adjectives.xml
adjectives_newwords.lexc
adpositions.lexc
adpositions.xml
adverbs.lexc
adverbs.xml
adverbs_newwords.lexc
conjunctors.lexc
conjunctors.xml
descriptives.lexc
descriptives.xml
exceptions.lexc
gerunds.lexc
gerunds.xml
interjections.lexc
interjections.xml
mwe-adjectives.xml
mwe-nouns.xml
mwe-verbs.xml
nouns-acronyms.xml
nouns-deverbal.lexc
nouns-deverbal.xml
nouns-russian-homographs.lexc
nouns-russian-homographs.xml
nouns.lexc
nouns.xml
nouns_newwords.lexc
participles.xml
particles.lexc
particles.xml
pronouns.lexc
pronouns.xml
propernouns-malenames-cyrillic.lexc
propernouns-malenames-cyrillic.xml
propernouns-malesurnames-cyrillic.lexc
propernouns-malesurnames-cyrillic.xml
propernouns-toponyms-Russian.lexc
propernouns-toponyms-Russian.xml
propernouns.lexc
propernouns.xml
propernouns_newwords.lexc
punctuation.lexc
quantifiers.lexc
quantifiers.xml
verbs-A2M.lexc
verbs-A2M.xml
verbs-N2END.lexc
verbs-N2END.xml
verbs_newwords.lexc

Ссылки