Langs: различия между версиями
Admin (обсуждение | вклад) |
Admin (обсуждение | вклад) (→Ссылки) |
||
Строка 142: | Строка 142: | ||
Выход из программы: комбинация клавиш CTRL + C. | Выход из программы: комбинация клавиш CTRL + C. | ||
==Исходные коды== | |||
Исходники находятся в папке '''src'''. | |||
В папке '''phonology''' находятся следующие файлы:<br/> | |||
Makefile<br/> | |||
Makefile.am<br/> | |||
Makefile.in<br/> | |||
kpv-phon.compose.hfst<br/> | |||
kpv-phon.compose.xfst<br/> | |||
kpv-phon.lookup.hfst<br/> | |||
kpv-phon.lookup.xfst<br/> | |||
kpv-phon.xfscript<br/> | |||
А в папке '''morphology''' следующие папки и файлы:<br/> | |||
Makefile<br/> | |||
Makefile.am<br/> | |||
Makefile.in<br/> | |||
'''affixes''' <font color="green">- аффиксы</font><br/> | |||
'''generated_files'''<br/> | |||
'''incoming'''<br/> | |||
lexicon.hfst<br/> | |||
lexicon.lexc<br/> | |||
lexicon.xfst<br/> | |||
missing6freq.txt<br/> | |||
missingfreq.txt<br/> | |||
root.lexc<br/> | |||
'''stems''' <font color="green">- стемы (основы)</font><br/> | |||
==Ссылки== | ==Ссылки== |
Версия от 08:37, 27 сентября 2015
Перед началом работы
Работа осуществляется в терминале (не забывайте ваши основные команды: pwd -- где я? ls -- что здесь? некоторым, возможно, понадобится команда whoami -- а кто я вообще такой?).
Перед началом работы предполагается, что вы в свою UNIX-систему (Mac OS или Linux) установили все необходимые программы и библиотеки.
И в своей рабочей папке, например, /home/user (в дальнейшем ~/) создали папку main, выполнив следующую команду:
svn co https://victorio.uit.no/langtech/trunk main
Также, перед началом работы с любым проектом (возьмите себе за правило!) не забывайте обновлять каталог main на своём компьютере:
cd ~/main/ svn up
Начало работы
При работе с инфраструктурой центра "Гиеллатекно" в папке ~/main/langs/ вы видите папки, в основном, состоящие из 3-х трёх букв: bak, bxr, chp, chr, ... - эти трёхбуквенные обозначения: коды ISO 639-3 языков, соответственно в папке mhr - проект для марийского (лугового), kpv - коми (зырянского), rus - русского языков.
Например, в папке rus (cd ~/main/langs/rus/) изначально находятся следующие файлы и папки:
AUTHORS
INSTALL
LICENCE
Makefile.am
README
am-shared
autogen.sh
configure.ac
devtools
doc
giella-rus.pc.in
m4
misc
src
test
tools
und.timestamp
После компиляции:
./autogen.sh ./configure --with-hfst --enable-spellers make sudo make install
Мы видим следующие папки (выделены жирным) и файлы:
AUTHORS
INSTALL
LICENCE
Makefile
Makefile.am
Makefile.in
README
aclocal.m4
am-shared
autogen.sh
autom4te.cache
build-aux
config.log
config.status
configure
configure.ac
devtools
doc
giella-rus.pc
giella-rus.pc.in
m4
misc
src - исходные коды
test
tools
und.timestamp
В папке src (после компиляции) мы видим следующие папки и файлы:
FSTflavors_STRESS.txt
Makefile
Makefile.am
Makefile.in
analyser-disamb-gt-desc.hfstol
analyser-disamb-gt-desc.xfst
analyser-gt-desc.hfst
analyser-gt-desc.hfstol
analyser-gt-desc.xfst
analyser-gt-norm.hfstol
analyser-gt-norm.xfst
analyser-raw-gt-desc.hfst
analyser-raw-gt-desc.tmp1.xfst
analyser-raw-gt-desc.xfst
filters - фильтры
generator-gt-desc.hfstol
generator-gt-desc.xfst
generator-gt-norm.hfstol
generator-gt-norm.xfst
generator-raw-gt-desc.hfst
generator-raw-gt-desc.tmp1.hfst
hyphenation - расстановка переносов
morphology - морфология
orthography - орфография
phonetics - фонетика
phonology - фонология
syntax - синтаксис
tagsets - установки тегов
transcriptions - транскрипции
И командой:
lookup analyser-gt-desc.xfst
Можете, например, проверить как работает морфологический анализатор:
Морфологический анализатор
Рассмотрим на примере коми языка. Перейдите в папку ~/main/langs/kpv/:
cd ~/main/langs/kpv/
Обновитесь:
svn up
Компиляция осуществляется стандартным набором команд:
./autogen.sh ./configure --with-hfst --enable-spellers make sudo make install
Обратите внимание, если после команды ./autogen.sh у вас появится предупреждение о необходимости выполнить команду ./autogen.sh -l, значит в вашем файле ~/.profile (или ~/.bash_profile) не прописана подобная строка:
export GTLANG_kpv=$GTHOME/langs/kpv
И она будет прописана в вышеуказанном файле после выполнения команды:
./autogen.sh -l
Проверить работу морфоанализатора можно программой lookup:
lookup src/analyser-gt-desc.xfst
Где V, Ind, Fut, Sg1... - грамматические теги
Выход из программы: комбинация клавиш CTRL + C.
Исходные коды
Исходники находятся в папке src.
В папке phonology находятся следующие файлы:
Makefile
Makefile.am
Makefile.in
kpv-phon.compose.hfst
kpv-phon.compose.xfst
kpv-phon.lookup.hfst
kpv-phon.lookup.xfst
kpv-phon.xfscript
А в папке morphology следующие папки и файлы:
Makefile
Makefile.am
Makefile.in
affixes - аффиксы
generated_files
incoming
lexicon.hfst
lexicon.lexc
lexicon.xfst
missing6freq.txt
missingfreq.txt
root.lexc
stems - стемы (основы)