Языковые корпуса: различия между версиями

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску
Нет описания правки
Нет описания правки
 
(не показано 10 промежуточных версий этого же участника)
Строка 2: Строка 2:
*[https://www.corpus.tatar/ Письменный корпус татарского языка] (Группа Мансура Сайхунова) 537 млн.
*[https://www.corpus.tatar/ Письменный корпус татарского языка] (Группа Мансура Сайхунова) 537 млн.
*[https://tugantel.tatar/ Татарский национальный корпус «Туган тел»] (НИИ «Прикладная семиотика» АН РТ) 194 млн.
*[https://tugantel.tatar/ Татарский национальный корпус «Туган тел»] (НИИ «Прикладная семиотика» АН РТ) 194 млн.
*[http://komicorpora.ru Коми кыв корпус] (FU-Lab) 88 млн.
*[http://komicorpora.ru Коми кыв корпус] (FU-Lab) 90 млн.
*[https://corp.marnii.ru/ Корпус марийского языка] (МарНИИЯЛИ) 21 млн.
*[https://corp.marnii.ru/ Корпус марийского языка] (МарНИИЯЛИ) 21 млн.
*[https://ru.corpus.chv.su/ Корпус чувашского языка] (Лаборатория чувашского языка) 17 млн.
*[https://ru.corpus.chv.su/ Корпус чувашского языка] (Лаборатория чувашского языка) 17 млн.
*[https://sakha-corpus.ysn.ru/index.php?lang=ru Национальный корпус якутского языка] (ИГИиПМНС СО РАН) 15 млн.
*[https://sakha-corpus.ysn.ru/index.php?lang=ru Национальный корпус якутского языка] (ИГИиПМНС СО РАН) 15 млн.
*[http://udmcorpus.udman.ru/ Национальный корпус удмуртского языка] (УИИЯЛ УФИЦ УрО РАН) 8,5 млн.
*[http://udmcorpus.udman.ru/ Национальный корпус удмуртского языка] (УИИЯЛ УдмФИЦ УрО РАН) 10,2 млн.
*[http://kalmcorpora.ru Национальный корпус калмыцкого языка] (КалмНЦ РАН) 8 млн.
*[http://kalmcorpora.ru Национальный корпус калмыцкого языка] (КалмНЦ РАН) 8 млн.
*[https://p.komicorpora.ru/ Корпус коми-пермяцкого языка] (КПИПКРО & FU-Lab) 7 млн.
*[https://p.komicorpora.ru/ Корпус коми-пермяцкого языка] (КПИПКРО & FU-Lab) 7 млн.
Строка 21: Строка 21:
*[https://gtweb.uit.no/u_korp/?mode=mhr#?stats_reduce=word&cqp=%5B%5D Korp - Meadow Mari texts]  (Giellatekno) 57,38 млн. ?
*[https://gtweb.uit.no/u_korp/?mode=mhr#?stats_reduce=word&cqp=%5B%5D Korp - Meadow Mari texts]  (Giellatekno) 57,38 млн. ?
*[http://web-corpora.net/KazakhCorpus/search/?interface_language=ru Алматинский корпус казахского языка] (НИУ ВШЭ) 40 млн.
*[http://web-corpora.net/KazakhCorpus/search/?interface_language=ru Алматинский корпус казахского языка] (НИУ ВШЭ) 40 млн.
*[https://gtweb.uit.no/u_korp/?mode=myv#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Erzya texts] (Giellatekno) 14,05 млн.
*[https://gtweb.uit.no/u_korp/?mode=myv#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Erzya texts] (Giellatekno) 14,05 млн.  
*[https://gtweb.uit.no/u_korp/?mode=mdf#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Moksha texts] (Giellatekno) 12,79 млн.
*[https://gtweb.uit.no/u_korp/?mode=mdf#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Moksha texts] (Giellatekno) 12,79 млн.  
*[http://corpus.ossetic-studies.org/search/index.php?interface_language=ru Осетинский национальный корпус] (НИУ ВШЭ) 12 млн.
*[http://corpus.ossetic-studies.org/search/index.php?interface_language=ru Осетинский национальный корпус] (НИУ ВШЭ) 12 млн.
*[https://adyghe.web-corpora.net/ Адыгейский корпус] (НИУ ВШЭ) 10 млн.
*[https://adyghe.web-corpora.net/ Адыгейский корпус] (НИУ ВШЭ) 10 млн.
*[http://lingconlab.ru/standard_dargwa/ Корпус даргинского литературного языка] (проект DARGWA) 10 млн.
*[https://udmurt.web-corpora.net/ Корпуса удмуртского языка] (Тимофей Архангельский) 9,57 млн.
*[https://udmurt.web-corpora.net/ Корпуса удмуртского языка] (Тимофей Архангельский) 9,57 млн.
*[http://lingconlab.ru/standard_dargwa/ Корпус даргинского литературного языка] 6,4 млн
*[https://gtweb.uit.no/u_korp/?mode=mrj#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Hill Mari texts] (Giellatekno) 6,25 млн.
*[https://gtweb.uit.no/u_korp/?mode=mrj#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Hill Mari texts] (Giellatekno) 6,25 млн.
*[https://meadow-mari.web-corpora.net/ Корпуса лугового марийского языка] (Тимофей Архангельский) 5,53 млн.
*[https://meadow-mari.web-corpora.net/ Корпуса лугового марийского языка] (Тимофей Архангельский) 5,53 млн.
*[https://www.kielipankki.fi/korp/?mode=other_languages#?corpus=erme_v2_mdf,erme_v2_myv&cqp=%5B%5D ERME: Erzya and Moksha Extended Corpora version 2] 2 896 631: 2 041 196 + 855 435 (морф. стӧчм.)
*[https://erzya.web-corpora.net/ Корпуса эрзянского языка] (Тимофей Архангельский) 2,3 млн.
*[https://erzya.web-corpora.net/ Корпуса эрзянского языка] (Тимофей Архангельский) 2,3 млн.
*[https://komi-zyrian.web-corpora.net/ Корпуса коми-зырянского языка] (Тимофей Архангельский) 1,76 млн.
*[https://komi-zyrian.web-corpora.net/ Корпуса коми-зырянского языка] (Тимофей Архангельский) 1,76 млн.
Строка 68: Строка 69:
*[http://videocorpora.ru/ Коми медиатека (ижемский диалект коми языка)]
*[http://videocorpora.ru/ Коми медиатека (ижемский диалект коми языка)]


'''Проекты'''
'''Проекты и группы'''


*[https://inel.corpora.uni-hamburg.de/portal/ INEL Projekt] von der Akademie der Wissenschaften in Hamburg in Kooperation mit der Universität Hamburg
*[https://inel.corpora.uni-hamburg.de/portal/ INEL Projekt] von der Akademie der Wissenschaften in Hamburg in Kooperation mit der Universität Hamburg
Строка 74: Строка 75:
*[https://lingvodoc.ispras.ru/corpora_all?language=678%2C9 Лингводок]
*[https://lingvodoc.ispras.ru/corpora_all?language=678%2C9 Лингводок]
*[https://www.dargwa.ru/corpora Проект DARGWA]
*[https://www.dargwa.ru/corpora Проект DARGWA]
*[https://ilcl.hse.ru/ Международная лаборатория языковой конвергенции] (НИУ ВШЭ)


'''Статьи'''
'''Статьи'''

Текущая версия от 17:57, 10 ноября 2025

☼ ☼ ☼

☼ ☼ ☼

Аудиокорпуса

Проекты и группы

Статьи

Списки