Языковые корпуса: различия между версиями

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску
Нет описания правки
Нет описания правки
 
(не показано 80 промежуточных версий этого же участника)
Строка 1: Строка 1:
*[http://komicorpora.ru Коми кыв корпус]
 
*[http://mfbl2.ru/ Машинный фонд башкирского языка]
*[https://www.corpus.tatar/ Письменный корпус татарского языка] (Группа Мансура Сайхунова) 537 млн.
*[http://lingconlab.ru/spoken_bashkir/ Устный корпус башкирского языка]
*[https://tugantel.tatar/ Татарский национальный корпус «Туган тел»] (НИИ «Прикладная семиотика» АН РТ) 194 млн.
*[http://komicorpora.ru Коми кыв корпус] (FU-Lab) 88 млн.
*[https://corp.marnii.ru/ Корпус марийского языка] (МарНИИЯЛИ) 21 млн.
*[https://ru.corpus.chv.su/ Корпус чувашского языка] (Лаборатория чувашского языка) 17 млн.
*[https://sakha-corpus.ysn.ru/index.php?lang=ru Национальный корпус якутского языка] (ИГИиПМНС СО РАН) 15 млн.
*[http://udmcorpus.udman.ru/ Национальный корпус удмуртского языка] (УИИЯЛ УдмФИЦ УрО РАН) 10,2 млн.
*[http://kalmcorpora.ru Национальный корпус калмыцкого языка] (КалмНЦ РАН) 8 млн.
*[https://p.komicorpora.ru/ Корпус коми-пермяцкого языка] (КПИПКРО & FU-Lab) 7 млн.
*[https://buryat.web-corpora.net/ Бурятский корпус] (ИМБТ СО РАН & Тимофей Архангельский) 3 млн.
*[http://dictorpus.krc.karelia.ru/ru Открытый корпус карельского и вепского языков] (ИЯЛИ КарНЦ РАН) 2,3 млн.
*[https://ethnoportal.admhmao.ru/language-center/corpus Мансийский корпус на портале мансийского языка] (ЮНИИ ИТ)
*[https://chuvkorpus.ru/ Национальный корпус чувашского языка] (ЧГИГН)
*[http://adictsakha.nsu.ru/corpora/corp Корпус якутского языка] (СВФУ, НГУ)
*[http://mfbl2.ru/ Машинный фонд башкирского языка] ---
*[http://bashcorpus.ru/ Национальный корпус башкирского языка] ---
*[http://bashcorpus.ru/ Национальный корпус башкирского языка] ---
*[http://kalmcorpora.ru Национальный корпус калмыцкого языка]
 
*[https://corp.marnii.ru/ Корпус марийского языка от МарНИИ]
☼ ☼ ☼
 
*[https://gtweb.uit.no/u_korp/?mode=mhr#?stats_reduce=word&cqp=%5B%5D Korp - Meadow Mari texts]  (Giellatekno) 57,38 млн. ?
*[http://web-corpora.net/KazakhCorpus/search/?interface_language=ru Алматинский корпус казахского языка] (НИУ ВШЭ) 40 млн.
*[https://gtweb.uit.no/u_korp/?mode=myv#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Erzya texts] (Giellatekno) 14,05 млн.
*[https://gtweb.uit.no/u_korp/?mode=mdf#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Moksha texts] (Giellatekno) 12,79 млн.
*[http://corpus.ossetic-studies.org/search/index.php?interface_language=ru Осетинский национальный корпус] (НИУ ВШЭ) 12 млн.
*[https://adyghe.web-corpora.net/ Адыгейский корпус] (НИУ ВШЭ) 10 млн.
*[http://lingconlab.ru/standard_dargwa/ Корпус даргинского литературного языка] (проект DARGWA) 10 млн.
*[https://udmurt.web-corpora.net/ Корпуса удмуртского языка] (Тимофей Архангельский) 9,57 млн.
*[https://gtweb.uit.no/u_korp/?mode=mrj#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Hill Mari texts] (Giellatekno) 6,25 млн.
*[https://meadow-mari.web-corpora.net/ Корпуса лугового марийского языка] (Тимофей Архангельский) 5,53 млн.
*[https://www.kielipankki.fi/korp/?mode=other_languages#?corpus=erme_v2_mdf,erme_v2_myv&cqp=%5B%5D ERME: Erzya and Moksha Extended Corpora version 2] 2 896 631: 2 041 196 + 855 435 (морф. стӧчм.)
*[https://erzya.web-corpora.net/ Корпуса эрзянского языка] (Тимофей Архангельский) 2,3 млн.
*[https://komi-zyrian.web-corpora.net/ Корпуса коми-зырянского языка] (Тимофей Архангельский) 1,76 млн.
*[https://moksha.web-corpora.net/ Корпуса мокшанского языка] (Тимофей Архангельский) 1,74 млн.
*[https://gtweb.uit.no/u_korp/#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Komi-Zyrian texts] (Giellatekno) 963 тыс.
*[http://web-corpora.net/KalmykCorpus/search/?interface_language=ru Калмыцкий корпус] (НИУ ВШЭ) 800 тыс.
*[https://khakas.altaica.ru/corpus/ Электронный корпус хакасского языка] (ИЯз РАН) 700 тыс.
*[https://gtweb.uit.no/u_korp/?mode=udm#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Udmurt texts] (Giellatekno) 271 тыс.
*[https://gtweb.uit.no/u_korp/?mode=koi#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Komi-Permyak texts] (Giellatekno) 241 тыс.
*[https://inel.corpora.uni-hamburg.de/NganasanCorpus/search Нганасанский корпус INEL 1.0] (AdW & Uni Hamburg) 221 747
*[https://inel.corpora.uni-hamburg.de/EnetsCorpus/search Энецкий корпус INEL 1.0] (AdW & Uni Hamburg) 218 710
*[https://inel.corpora.uni-hamburg.de/DolganCorpus/search Долганский корпус INEL 2.0] (AdW & Uni Hamburg) 97 625
*[https://inel.corpora.uni-hamburg.de/EvenkiCorpus/search Эвенкийский корпус INEL 2.0] (AdW & Uni Hamburg) 93 264
*[https://inel.corpora.uni-hamburg.de/SelkupCorpus/search Селькупский корпус INEL 2.0] (AdW & Uni Hamburg) 81 498
*[https://beserman.web-corpora.net/ Мультимедийный бесермянский корпус] (НИУ ВШЭ, МГУ) 65 тыс.
*[https://inel.corpora.uni-hamburg.de/KamasCorpus/search Камасинский корпус INEL 2.0] (AdW & Uni Hamburg) 63,8 тыс.
*[https://corpora.iling-ran.ru/mari Корпус горномарийского языка] (ИЯз РАН) 63,5 тыс.
*[https://inel.corpora.uni-hamburg.de/NenetsCorpus/search Ненецкий корпус INEL 1.0] (AdW & Uni Hamburg) 61 278
*[https://corpora.iling-ran.ru/selkup Корпус северноселькупских письменных текстов (юридические тексты)] (ИЯз РАН) 52 тыс.
*[https://inel.corpora.uni-hamburg.de/KamasCorpus/search Камасинский корпус INEL 2.0] (AdW & Uni Hamburg) 49 тыс.
*[https://corpora.iling-ran.ru/evenk Корпус эвенкийского языка] (ИЯз РАН) 47,8 тыс.
*[https://corpora.iling-ran.ru/ketsk/ Мультимедийный корпус кетского языка] (ИЯз РАН) 15,9 тыс.
*[https://inel.corpora.uni-hamburg.de/TavdaMansiCorpus/search Мансийский (тавдинский диалект) корпус INEL 1.0] (AdW & Uni Hamburg) 11 879
*[https://itelmen.corpora.iling-ran.ru/ Корпус ительменского языка] (ИЯз РАН)
 
☼ ☼ ☼
 
*[http://www.ruscorpora.ru/index.html Национальный корпус русского языка]
*[http://www.ruscorpora.ru/index.html Национальный корпус русского языка]
*[http://udmcorpus.udman.ru/ Национальный корпус удмуртского языка]
*[https://chuvkorpus.ru/ Национальный корпус чувашского языка]
*[https://www.corpus.tatar/ Письменный корпус татарского языка]
*[http://web-corpora.net/TatarCorpus/search/index.php?interface_language=ru Татарский национальный корпус «Туган тел»] (НИУ ВШЭ)
*[http://web-corpora.net/UdmurtCorpus/search/?interface_language=ru Удмурт кылъя корпус] (НИУ ВШЭ)
*[http://corpus.ossetic-studies.org/search/index.php?interface_language=ru Осетинский национальный корпус] (НИУ ВШЭ)
*[http://korpus.juls.savba.sk/QIRIM/ Къырымтатар тилининъ лингвистик корпусы]
*[http://www.corplingran.ru/ Корпусная лингвистика : Программа фундаментальных исследований Президиума РАН] ---
*[http://www.ling.helsinki.fi/uhlcs/readme-all/README-uralic-lgs.html#C346 COMPUTER CORPORA OF THE URALIC LANGUAGES]
*[http://beserman.ru/ Исследования бесермянского диалекта]
*[http://vepsian.krc.karelia.ru/about/ Корпус вепского языка]
*[http://dictorpus.krc.karelia.ru/ru Открытый корпус карельского и вепского языков]
*[http://unesco.uniba.sk/ Ссылки на корпуса с сайта кафедры ЮНЕСКО в Братиславе]
*[http://adictsakha.nsu.ru/corpora/corp Корпус якутского языка (СВФУ, НГУ)]
*[https://corpus.byu.edu/coca/ Corpus of Contemporary American English]
*[https://corpus.byu.edu/coca/ Corpus of Contemporary American English]
*[http://www.natcorp.ox.ac.uk/ British National Corpus (BNC)]
*[http://www.natcorp.ox.ac.uk/ British National Corpus (BNC)]
*[http://ucnk.ff.cuni.cz/ Ústav Českého národního korpusu]
*[http://ucnk.ff.cuni.cz/ Ústav Českého národního korpusu]
*[http://www.eanc.net/ Eastern Armenian National Corpus]
*[http://www.eanc.net/ Eastern Armenian National Corpus]
*[http://unesco.uniba.sk/ Ссылки на корпуса с сайта кафедры ЮНЕСКО в Братиславе]
*[http://korpus.juls.savba.sk/QIRIM/ Къырымтатар тилининъ лингвистик корпусы]
'''Аудиокорпуса'''
*[http://lingconlab.ru/spoken_bashkir/ Устный корпус башкирского языка]
*[http://videocorpora.ru/ Коми медиатека (ижемский диалект коми языка)]
'''Проекты и группы'''
*[https://inel.corpora.uni-hamburg.de/portal/ INEL Projekt] von der Akademie der Wissenschaften in Hamburg in Kooperation mit der Universität Hamburg
*[https://corpora.iling-ran.ru/ Корпуса. Малые языки России] Лаборатории исследования и сохранения малых языков Института языкознания РАН
*[https://lingvodoc.ispras.ru/corpora_all?language=678%2C9 Лингводок]
*[https://www.dargwa.ru/corpora Проект DARGWA]
*[https://ilcl.hse.ru/ Международная лаборатория языковой конвергенции] (НИУ ВШЭ)
'''Статьи'''
*[http://www.corplingran.ru/ Корпусная лингвистика : Программа фундаментальных исследований Президиума РАН] ---
*[http://www.ling.helsinki.fi/uhlcs/readme-all/README-uralic-lgs.html#C346 COMPUTER CORPORA OF THE URALIC LANGUAGES] ---
*[https://cyberleninka.ru/article/n/internet-korpusa-finno-ugorskih-yazykov-rossii/pdf Т. А. Архангельский. Интернет-корпуса финно-угорских языков России].
*[https://new.ras.ru/upload/iblock/4a1/q8p9ipy9h225mptvkithdlmpy4vew0jj.pdf  И. Давидюк, А.А. Кибрик, Д.Д. Мордашова. Корпусные исследования языков Российской Федерации].
*[https://www.corpus.tatar/files/2019_Ijevsk.pdf  М. Р. Сайхунов, Р. Р. Хусаинов, Т. И. Ибрагимов. Сложности при создании текстового корпуса объёмом более 400 млн токенов].
*[https://tatar-inform.tatar/news/mansur-sayhunov-tatar-telene-yazma-korpusy-bush-vakytybyzda-z-akchabyzga-eshl-nde-5579713 Мансур Сайхунов: Татар теленең язма корпусы буш вакытыбызда үз акчабызга эшләнде].
*[https://lidivoka.univie.ac.at/fileadmin/user_upload/p_lidivoka/Arkhangelskiy_corpora_FULL_proof_final.pdf Timofey Arkhangelskiy. Web Corpora of Volga-Kama Uralic Languages]
'''Списки'''
*[https://fid.finnug.de/en/language-corpora/ Uralic Language Corpora (Göttingen State and University Library)]

Текущая версия от 12:52, 24 мая 2025

☼ ☼ ☼

☼ ☼ ☼

Аудиокорпуса

Проекты и группы

Статьи

Списки