Langs: различия между версиями
Admin (обсуждение | вклад) Нет описания правки |
Admin (обсуждение | вклад) |
||
(не показаны 33 промежуточные версии этого же участника) | |||
Строка 1: | Строка 1: | ||
==Перед началом работы== | |||
Работа осуществляется в терминале (не забывайте ваши основные команды: '''pwd''' -- где я? '''ls''' -- что здесь? некоторым, возможно, понадобится команда '''whoami''' -- а кто я вообще такой?). | |||
Например, в папке '''rus''' (cd ~/main/langs/rus/) изначально находятся следующие файлы и папки: | Перед началом работы предполагается, что вы в свою UNIX-систему (Mac OS или Linux) установили все необходимые [[HFST3|программы и библиотеки]]. | ||
И в своей рабочей папке, например, /home/user (в дальнейшем '''~/''') создали папку '''main''', выполнив следующую команду: | |||
svn co https://victorio.uit.no/langtech/trunk main | |||
Также, перед началом работы с любым проектом (возьмите себе за правило!) не забывайте обновлять каталог '''main''' на своём компьютере: | |||
cd ~/main/ | |||
svn up | |||
==Начало работы== | |||
При работе с инфраструктурой [[SVN|центра "Гиеллатекно"]] в папке [https://victorio.uit.no/langtech/trunk/langs/ ~/main/langs/] вы видите папки, в основном, состоящие из 3-х трёх букв: '''bak''', '''bxr''', '''chp''', '''chr''', ... - эти трёхбуквенные обозначения: коды [http://www-01.sil.org/iso639-3/ ISO 639-3] языков, соответственно в папке '''mhr''' - проект для марийского (лугового), '''kpv''' - коми (зырянского), '''rus''' - русского языков. | |||
Например, в папке '''rus''' (cd ~/main/langs/rus/) изначально находятся следующие файлы и папки:<br/> | |||
AUTHORS<br/> | |||
INSTALL<br/> | |||
LICENCE<br/> | |||
Makefile.am<br/> | |||
README<br/> | |||
'''am-shared'''<br/> | |||
autogen.sh<br/> | |||
configure.ac<br/> | |||
'''devtools'''<br/> | |||
'''doc'''<br/> | |||
giella-rus.pc.in<br/> | |||
'''m4'''<br/> | |||
'''misc'''<br/> | |||
'''src'''<br/> | |||
'''test'''<br/> | |||
'''tools'''<br/> | |||
und.timestamp<br/> | |||
После компиляции: | |||
./autogen.sh | |||
./configure --with-hfst --enable-spellers | |||
make | |||
sudo make install | |||
Мы видим следующие папки (выделены жирным) и файлы:<br/> | |||
AUTHORS<br/> | AUTHORS<br/> | ||
INSTALL<br/> | INSTALL<br/> | ||
LICENCE<br/> | LICENCE<br/> | ||
Makefile<br/> | |||
Makefile.am<br/> | Makefile.am<br/> | ||
Makefile.in<br/> | |||
README<br/> | README<br/> | ||
am-shared<br/> | aclocal.m4<br/> | ||
'''am-shared'''<br/> | |||
autogen.sh<br/> | autogen.sh<br/> | ||
autom4te.cache<br/> | |||
build-aux<br/> | |||
config.log<br/> | |||
config.status<br/> | |||
configure<br/> | |||
configure.ac<br/> | configure.ac<br/> | ||
devtools<br/> | '''devtools'''<br/> | ||
doc<br/> | '''doc'''<br/> | ||
giella-rus.pc<br/> | |||
giella-rus.pc.in<br/> | giella-rus.pc.in<br/> | ||
m4<br/> | '''m4'''<br/> | ||
misc<br/> | '''misc'''<br/> | ||
src<br/> | '''src''' <font color="green">- исходные коды</font><br/> | ||
test<br/> | '''test'''<br/> | ||
tools<br/> | '''tools'''<br/> | ||
und.timestamp<br/> | und.timestamp<br/> | ||
Если после команды "./configure --with-hfst --enable-spellers" выходит сообщение, что у вас устаревшая версия '''gtd-core''', обновите его: | |||
cd ~/main/gtcore | |||
svn up | |||
./autogen.sh | |||
./configure | |||
make | |||
sudo make install | |||
Далее снова перейдите в папку '''~/main/langs/kpv''': | |||
cd ~/main/langs/kpv | |||
И повторите: | |||
./configure --with-hfst --enable-spellers | |||
make | |||
sudo make install | |||
В папке '''src''' (после компиляции) мы видим следующие папки и файлы:<br/> | |||
FSTflavors_STRESS.txt<br/> | |||
Makefile<br/> | |||
Makefile.am<br/> | |||
Makefile.in<br/> | |||
analyser-disamb-gt-desc.hfstol<br/> | |||
analyser-disamb-gt-desc.xfst<br/> | |||
analyser-gt-desc.hfst<br/> | |||
analyser-gt-desc.hfstol<br/> | |||
analyser-gt-desc.xfst<br/> | |||
analyser-gt-norm.hfstol<br/> | |||
analyser-gt-norm.xfst<br/> | |||
analyser-raw-gt-desc.hfst<br/> | |||
analyser-raw-gt-desc.tmp1.xfst<br/> | |||
analyser-raw-gt-desc.xfst<br/> | |||
'''filters''' <font color="green">- фильтры</font><br/> | |||
generator-gt-desc.hfstol<br/> | |||
generator-gt-desc.xfst<br/> | |||
generator-gt-norm.hfstol<br/> | |||
generator-gt-norm.xfst<br/> | |||
generator-raw-gt-desc.hfst<br/> | |||
generator-raw-gt-desc.tmp1.hfst<br/> | |||
'''hyphenation''' <font color="green">- расстановка переносов</font><br/> | |||
'''morphology''' <font color="green">- морфология</font><br/> | |||
'''orthography''' <font color="green">- орфография</font><br/> | |||
'''phonetics''' <font color="green">- фонетика</font><br/> | |||
'''phonology''' <font color="green">- фонология</font><br/> | |||
'''syntax''' <font color="green">- синтаксис</font><br/> | |||
'''tagsets''' <font color="green">- установки тегов</font><br/> | |||
'''transcriptions''' <font color="green">- транскрипции</font><br/> | |||
И командой: | |||
lookup analyser-gt-desc.xfst | |||
Можете, например, проверить как работает морфологический анализатор: | |||
[[Файл:Hfst.png]] | |||
==Морфологический анализатор== | |||
Рассмотрим на примере коми языка. Перейдите в папку '''~/main/langs/kpv/''': | |||
cd ~/main/langs/kpv/ | |||
Обновитесь: | |||
svn up | |||
Компиляция осуществляется стандартным набором команд: | |||
./autogen.sh | |||
./configure --with-hfst --enable-spellers | |||
make | |||
sudo make install | |||
Обратите внимание, если после команды '''./autogen.sh''' у вас появится предупреждение о необходимости выполнить команду '''./autogen.sh -l''', значит в вашем файле '''~/.profile''' (или '''~/.bash_profile''') не прописана подобная строка: | |||
export GTLANG_kpv=$GTHOME/langs/kpv | |||
И она будет прописана в вышеуказанном файле после выполнения команды: | |||
./autogen.sh -l | |||
Проверить работу морфоанализатора можно программой '''lookup''': | |||
lookup src/analyser-gt-desc.xfst | |||
[[Файл:Hfst2.png]] | |||
Где '''V''', '''Ind''', '''Fut''', '''Sg1'''... - [[Грамматические теги|грамматические теги]] | |||
Выход из программы: комбинация клавиш CTRL + C. | |||
==Исходные коды== | |||
Исходники находятся в папке '''src'''. | |||
В папке '''src/phonology''' находятся следующие файлы:<br/> | |||
Makefile<br/> | |||
Makefile.am<br/> | |||
Makefile.in<br/> | |||
kpv-phon.compose.hfst<br/> | |||
kpv-phon.compose.xfst<br/> | |||
kpv-phon.lookup.hfst<br/> | |||
kpv-phon.lookup.xfst<br/> | |||
kpv-phon.xfscript <font color="green">- ранее он назывался kpv-phon.twolc</font><br/> | |||
А в папке '''src/morphology''' следующие папки и файлы:<br/> | |||
Makefile<br/> | |||
Makefile.am<br/> | |||
Makefile.in<br/> | |||
'''affixes''' <font color="green">- аффиксы</font><br/> | |||
'''generated_files'''<br/> | |||
'''incoming'''<br/> | |||
lexicon.hfst<br/> | |||
lexicon.lexc<br/> | |||
lexicon.xfst<br/> | |||
missing6freq.txt<br/> | |||
missingfreq.txt<br/> | |||
root.lexc<br/> | |||
'''stems''' <font color="green">- стемы (основы)</font><br/> | |||
В папке '''src/morphology/affixes''' видим следующие файлы:<br/> | |||
adjectives.lexc<br/> | |||
adpositions.lexc<br/> | |||
adverbs.lexc<br/> | |||
conjunctors.lexc<br/> | |||
interjections.lexc<br/> | |||
nouns.lexc<br/> | |||
particles.lexc<br/> | |||
pronouns.lexc<br/> | |||
propernouns.lexc<br/> | |||
quantifiers.lexc<br/> | |||
verbs.lexc<br/> | |||
А в папке '''src/morphology/stems''' следующие файлы:<br/> | |||
Not-V_kvru-lex.xml<br/> | |||
abbreviations.lexc<br/> | |||
acronyms.lexc<br/> | |||
adjectives-russian-like.lexc<br/> | |||
adjectives-russian-like.xml<br/> | |||
adjectives-russian-like_newwords.lexc<br/> | |||
adjectives.lexc<br/> | |||
adjectives.xml<br/> | |||
adjectives_newwords.lexc<br/> | |||
adpositions.lexc<br/> | |||
adpositions.xml<br/> | |||
adverbs.lexc<br/> | |||
adverbs.xml<br/> | |||
adverbs_newwords.lexc<br/> | |||
conjunctors.lexc<br/> | |||
conjunctors.xml<br/> | |||
descriptives.lexc<br/> | |||
descriptives.xml<br/> | |||
exceptions.lexc<br/> | |||
gerunds.lexc<br/> | |||
gerunds.xml<br/> | |||
interjections.lexc<br/> | |||
interjections.xml<br/> | |||
mwe-adjectives.xml<br/> | |||
mwe-nouns.xml<br/> | |||
mwe-verbs.xml<br/> | |||
nouns-acronyms.xml<br/> | |||
nouns-deverbal.lexc<br/> | |||
nouns-deverbal.xml<br/> | |||
nouns-russian-homographs.lexc<br/> | |||
nouns-russian-homographs.xml<br/> | |||
nouns.lexc<br/> | |||
nouns.xml<br/> | |||
nouns_newwords.lexc<br/> | |||
participles.xml<br/> | |||
particles.lexc<br/> | |||
particles.xml<br/> | |||
pronouns.lexc<br/> | |||
pronouns.xml<br/> | |||
propernouns-malenames-cyrillic.lexc<br/> | |||
propernouns-malenames-cyrillic.xml<br/> | |||
propernouns-malesurnames-cyrillic.lexc<br/> | |||
propernouns-malesurnames-cyrillic.xml<br/> | |||
propernouns-toponyms-Russian.lexc<br/> | |||
propernouns-toponyms-Russian.xml<br/> | |||
propernouns.lexc<br/> | |||
propernouns.xml<br/> | |||
propernouns_newwords.lexc<br/> | |||
punctuation.lexc<br/> | |||
quantifiers.lexc<br/> | |||
quantifiers.xml<br/> | |||
verbs-A2M.lexc<br/> | |||
verbs-A2M.xml<br/> | |||
verbs-N2END.lexc<br/> | |||
verbs-N2END.xml<br/> | |||
verbs_newwords.lexc<br/> | |||
==Некоторые команды== | |||
Перейти в папку ~/main/langs/kpv: | |||
cd ~/main/langs/kpv | |||
Перейти в домашнюю папку: | |||
cd ~/ | |||
Перейти на 1 уровень вверх: | |||
cd ../ | |||
Перейти на 2 уровня вверх: | |||
cd ../../ | |||
Редактирование файла text.txt текстовым редактором gedit: | |||
gedit text.txt | |||
А для Mac OS: | |||
see text.txt | |||
Для отправки на SVN ваших изменений, например, изменили файлы test1.xml, test2.xml, используйте команду: | |||
svn ci -m "внесение исправления в файлы test1.xml, test2.xml." | |||
==Ссылки== | |||
*[[HFST3|Установка HFST3]] | |||
*[[Команды Linux]] | |||
[[Category:Mac OS]] | |||
[[Category:Linux]] |
Текущая версия от 13:50, 29 сентября 2015
Перед началом работы
Работа осуществляется в терминале (не забывайте ваши основные команды: pwd -- где я? ls -- что здесь? некоторым, возможно, понадобится команда whoami -- а кто я вообще такой?).
Перед началом работы предполагается, что вы в свою UNIX-систему (Mac OS или Linux) установили все необходимые программы и библиотеки.
И в своей рабочей папке, например, /home/user (в дальнейшем ~/) создали папку main, выполнив следующую команду:
svn co https://victorio.uit.no/langtech/trunk main
Также, перед началом работы с любым проектом (возьмите себе за правило!) не забывайте обновлять каталог main на своём компьютере:
cd ~/main/ svn up
Начало работы
При работе с инфраструктурой центра "Гиеллатекно" в папке ~/main/langs/ вы видите папки, в основном, состоящие из 3-х трёх букв: bak, bxr, chp, chr, ... - эти трёхбуквенные обозначения: коды ISO 639-3 языков, соответственно в папке mhr - проект для марийского (лугового), kpv - коми (зырянского), rus - русского языков.
Например, в папке rus (cd ~/main/langs/rus/) изначально находятся следующие файлы и папки:
AUTHORS
INSTALL
LICENCE
Makefile.am
README
am-shared
autogen.sh
configure.ac
devtools
doc
giella-rus.pc.in
m4
misc
src
test
tools
und.timestamp
После компиляции:
./autogen.sh ./configure --with-hfst --enable-spellers make sudo make install
Мы видим следующие папки (выделены жирным) и файлы:
AUTHORS
INSTALL
LICENCE
Makefile
Makefile.am
Makefile.in
README
aclocal.m4
am-shared
autogen.sh
autom4te.cache
build-aux
config.log
config.status
configure
configure.ac
devtools
doc
giella-rus.pc
giella-rus.pc.in
m4
misc
src - исходные коды
test
tools
und.timestamp
Если после команды "./configure --with-hfst --enable-spellers" выходит сообщение, что у вас устаревшая версия gtd-core, обновите его:
cd ~/main/gtcore svn up ./autogen.sh ./configure make sudo make install
Далее снова перейдите в папку ~/main/langs/kpv:
cd ~/main/langs/kpv
И повторите:
./configure --with-hfst --enable-spellers make sudo make install
В папке src (после компиляции) мы видим следующие папки и файлы:
FSTflavors_STRESS.txt
Makefile
Makefile.am
Makefile.in
analyser-disamb-gt-desc.hfstol
analyser-disamb-gt-desc.xfst
analyser-gt-desc.hfst
analyser-gt-desc.hfstol
analyser-gt-desc.xfst
analyser-gt-norm.hfstol
analyser-gt-norm.xfst
analyser-raw-gt-desc.hfst
analyser-raw-gt-desc.tmp1.xfst
analyser-raw-gt-desc.xfst
filters - фильтры
generator-gt-desc.hfstol
generator-gt-desc.xfst
generator-gt-norm.hfstol
generator-gt-norm.xfst
generator-raw-gt-desc.hfst
generator-raw-gt-desc.tmp1.hfst
hyphenation - расстановка переносов
morphology - морфология
orthography - орфография
phonetics - фонетика
phonology - фонология
syntax - синтаксис
tagsets - установки тегов
transcriptions - транскрипции
И командой:
lookup analyser-gt-desc.xfst
Можете, например, проверить как работает морфологический анализатор:
Морфологический анализатор
Рассмотрим на примере коми языка. Перейдите в папку ~/main/langs/kpv/:
cd ~/main/langs/kpv/
Обновитесь:
svn up
Компиляция осуществляется стандартным набором команд:
./autogen.sh ./configure --with-hfst --enable-spellers make sudo make install
Обратите внимание, если после команды ./autogen.sh у вас появится предупреждение о необходимости выполнить команду ./autogen.sh -l, значит в вашем файле ~/.profile (или ~/.bash_profile) не прописана подобная строка:
export GTLANG_kpv=$GTHOME/langs/kpv
И она будет прописана в вышеуказанном файле после выполнения команды:
./autogen.sh -l
Проверить работу морфоанализатора можно программой lookup:
lookup src/analyser-gt-desc.xfst
Где V, Ind, Fut, Sg1... - грамматические теги
Выход из программы: комбинация клавиш CTRL + C.
Исходные коды
Исходники находятся в папке src.
В папке src/phonology находятся следующие файлы:
Makefile
Makefile.am
Makefile.in
kpv-phon.compose.hfst
kpv-phon.compose.xfst
kpv-phon.lookup.hfst
kpv-phon.lookup.xfst
kpv-phon.xfscript - ранее он назывался kpv-phon.twolc
А в папке src/morphology следующие папки и файлы:
Makefile
Makefile.am
Makefile.in
affixes - аффиксы
generated_files
incoming
lexicon.hfst
lexicon.lexc
lexicon.xfst
missing6freq.txt
missingfreq.txt
root.lexc
stems - стемы (основы)
В папке src/morphology/affixes видим следующие файлы:
adjectives.lexc
adpositions.lexc
adverbs.lexc
conjunctors.lexc
interjections.lexc
nouns.lexc
particles.lexc
pronouns.lexc
propernouns.lexc
quantifiers.lexc
verbs.lexc
А в папке src/morphology/stems следующие файлы:
Not-V_kvru-lex.xml
abbreviations.lexc
acronyms.lexc
adjectives-russian-like.lexc
adjectives-russian-like.xml
adjectives-russian-like_newwords.lexc
adjectives.lexc
adjectives.xml
adjectives_newwords.lexc
adpositions.lexc
adpositions.xml
adverbs.lexc
adverbs.xml
adverbs_newwords.lexc
conjunctors.lexc
conjunctors.xml
descriptives.lexc
descriptives.xml
exceptions.lexc
gerunds.lexc
gerunds.xml
interjections.lexc
interjections.xml
mwe-adjectives.xml
mwe-nouns.xml
mwe-verbs.xml
nouns-acronyms.xml
nouns-deverbal.lexc
nouns-deverbal.xml
nouns-russian-homographs.lexc
nouns-russian-homographs.xml
nouns.lexc
nouns.xml
nouns_newwords.lexc
participles.xml
particles.lexc
particles.xml
pronouns.lexc
pronouns.xml
propernouns-malenames-cyrillic.lexc
propernouns-malenames-cyrillic.xml
propernouns-malesurnames-cyrillic.lexc
propernouns-malesurnames-cyrillic.xml
propernouns-toponyms-Russian.lexc
propernouns-toponyms-Russian.xml
propernouns.lexc
propernouns.xml
propernouns_newwords.lexc
punctuation.lexc
quantifiers.lexc
quantifiers.xml
verbs-A2M.lexc
verbs-A2M.xml
verbs-N2END.lexc
verbs-N2END.xml
verbs_newwords.lexc
Некоторые команды
Перейти в папку ~/main/langs/kpv:
cd ~/main/langs/kpv
Перейти в домашнюю папку:
cd ~/
Перейти на 1 уровень вверх:
cd ../
Перейти на 2 уровня вверх:
cd ../../
Редактирование файла text.txt текстовым редактором gedit:
gedit text.txt
А для Mac OS:
see text.txt
Для отправки на SVN ваших изменений, например, изменили файлы test1.xml, test2.xml, используйте команду:
svn ci -m "внесение исправления в файлы test1.xml, test2.xml."