Языковые корпуса: различия между версиями

Текущая версия от 17:57, 10 ноября 2025

Письменный корпус татарского языка (Группа Мансура Сайхунова) 537 млн.
Татарский национальный корпус «Туган тел» (НИИ «Прикладная семиотика» АН РТ) 194 млн.
Коми кыв корпус (FU-Lab) 90 млн.
Корпус марийского языка (МарНИИЯЛИ) 21 млн.
Корпус чувашского языка (Лаборатория чувашского языка) 17 млн.
Национальный корпус якутского языка (ИГИиПМНС СО РАН) 15 млн.
Национальный корпус удмуртского языка (УИИЯЛ УдмФИЦ УрО РАН) 10,2 млн.
Национальный корпус калмыцкого языка (КалмНЦ РАН) 8 млн.
Корпус коми-пермяцкого языка (КПИПКРО & FU-Lab) 7 млн.
Бурятский корпус (ИМБТ СО РАН & Тимофей Архангельский) 3 млн.
Открытый корпус карельского и вепского языков (ИЯЛИ КарНЦ РАН) 2,3 млн.
Мансийский корпус на портале мансийского языка (ЮНИИ ИТ)
Национальный корпус чувашского языка (ЧГИГН)
Корпус якутского языка (СВФУ, НГУ)
Машинный фонд башкирского языка ---
Национальный корпус башкирского языка ---

☼ ☼ ☼

Korp - Meadow Mari texts (Giellatekno) 57,38 млн. ?
Алматинский корпус казахского языка (НИУ ВШЭ) 40 млн.
Korp - Erzya texts (Giellatekno) 14,05 млн.
Korp - Moksha texts (Giellatekno) 12,79 млн.
Осетинский национальный корпус (НИУ ВШЭ) 12 млн.
Адыгейский корпус (НИУ ВШЭ) 10 млн.
Корпус даргинского литературного языка (проект DARGWA) 10 млн.
Корпуса удмуртского языка (Тимофей Архангельский) 9,57 млн.
Korp - Hill Mari texts (Giellatekno) 6,25 млн.
Корпуса лугового марийского языка (Тимофей Архангельский) 5,53 млн.
ERME: Erzya and Moksha Extended Corpora version 2 2 896 631: 2 041 196 + 855 435 (морф. стӧчм.)
Корпуса эрзянского языка (Тимофей Архангельский) 2,3 млн.
Корпуса коми-зырянского языка (Тимофей Архангельский) 1,76 млн.
Корпуса мокшанского языка (Тимофей Архангельский) 1,74 млн.
Korp - Komi-Zyrian texts (Giellatekno) 963 тыс.
Калмыцкий корпус (НИУ ВШЭ) 800 тыс.
Электронный корпус хакасского языка (ИЯз РАН) 700 тыс.
Korp - Udmurt texts (Giellatekno) 271 тыс.
Korp - Komi-Permyak texts (Giellatekno) 241 тыс.
Нганасанский корпус INEL 1.0 (AdW & Uni Hamburg) 221 747
Энецкий корпус INEL 1.0 (AdW & Uni Hamburg) 218 710
Долганский корпус INEL 2.0 (AdW & Uni Hamburg) 97 625
Эвенкийский корпус INEL 2.0 (AdW & Uni Hamburg) 93 264
Селькупский корпус INEL 2.0 (AdW & Uni Hamburg) 81 498
Мультимедийный бесермянский корпус (НИУ ВШЭ, МГУ) 65 тыс.
Камасинский корпус INEL 2.0 (AdW & Uni Hamburg) 63,8 тыс.
Корпус горномарийского языка (ИЯз РАН) 63,5 тыс.
Ненецкий корпус INEL 1.0 (AdW & Uni Hamburg) 61 278
Корпус северноселькупских письменных текстов (юридические тексты) (ИЯз РАН) 52 тыс.
Камасинский корпус INEL 2.0 (AdW & Uni Hamburg) 49 тыс.
Корпус эвенкийского языка (ИЯз РАН) 47,8 тыс.
Мультимедийный корпус кетского языка (ИЯз РАН) 15,9 тыс.
Мансийский (тавдинский диалект) корпус INEL 1.0 (AdW & Uni Hamburg) 11 879
Корпус ительменского языка (ИЯз РАН)

☼ ☼ ☼

Аудиокорпуса

Проекты и группы

INEL Projekt von der Akademie der Wissenschaften in Hamburg in Kooperation mit der Universität Hamburg
Корпуса. Малые языки России Лаборатории исследования и сохранения малых языков Института языкознания РАН
Лингводок
Проект DARGWA
Международная лаборатория языковой конвергенции (НИУ ВШЭ)

Статьи

Списки

Uralic Language Corpora (Göttingen State and University Library)

@@ Строка 2: / Строка 2: @@
 *[https://www.corpus.tatar/ Письменный корпус татарского языка] (Группа Мансура Сайхунова) 537 млн.
 *[https://tugantel.tatar/ Татарский национальный корпус «Туган тел»] (НИИ «Прикладная семиотика» АН РТ) 194 млн.
-*[http://komicorpora.ru Коми кыв корпус] (FU-Lab) 88 млн.
+*[http://komicorpora.ru Коми кыв корпус] (FU-Lab) 90 млн.
 *[https://corp.marnii.ru/ Корпус марийского языка] (МарНИИЯЛИ) 21 млн.
 *[https://ru.corpus.chv.su/ Корпус чувашского языка] (Лаборатория чувашского языка) 17 млн.
 *[https://sakha-corpus.ysn.ru/index.php?lang=ru Национальный корпус якутского языка] (ИГИиПМНС СО РАН) 15 млн.
-*[http://udmcorpus.udman.ru/ Национальный корпус удмуртского языка] (УИИЯЛ УФИЦ УрО РАН) 8,5 млн.
+*[http://udmcorpus.udman.ru/ Национальный корпус удмуртского языка] (УИИЯЛ УдмФИЦ УрО РАН) 10,2 млн.
 *[http://kalmcorpora.ru Национальный корпус калмыцкого языка] (КалмНЦ РАН) 8 млн.
 *[https://p.komicorpora.ru/ Корпус коми-пермяцкого языка] (КПИПКРО & FU-Lab) 7 млн.
@@ Строка 21: / Строка 21: @@
 *[https://gtweb.uit.no/u_korp/?mode=mhr#?stats_reduce=word&cqp=%5B%5D Korp - Meadow Mari texts]  (Giellatekno) 57,38 млн. ?
 *[http://web-corpora.net/KazakhCorpus/search/?interface_language=ru Алматинский корпус казахского языка] (НИУ ВШЭ) 40 млн.
 *[https://gtweb.uit.no/u_korp/?mode=myv#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Erzya texts] (Giellatekno) 14,05 млн.
 *[https://gtweb.uit.no/u_korp/?mode=mdf#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Moksha texts] (Giellatekno) 12,79 млн.
 *[http://corpus.ossetic-studies.org/search/index.php?interface_language=ru Осетинский национальный корпус] (НИУ ВШЭ) 12 млн.
 *[https://adyghe.web-corpora.net/ Адыгейский корпус] (НИУ ВШЭ) 10 млн.
@@ Строка 29: / Строка 29: @@
 *[https://gtweb.uit.no/u_korp/?mode=mrj#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Hill Mari texts] (Giellatekno) 6,25 млн.
 *[https://meadow-mari.web-corpora.net/ Корпуса лугового марийского языка] (Тимофей Архангельский) 5,53 млн.
+*[https://www.kielipankki.fi/korp/?mode=other_languages#?corpus=erme_v2_mdf,erme_v2_myv&cqp=%5B%5D ERME: Erzya and Moksha Extended Corpora version 2] 2 896 631: 2 041 196 + 855 435 (морф. стӧчм.)
 *[https://erzya.web-corpora.net/ Корпуса эрзянского языка] (Тимофей Архангельский) 2,3 млн.
 *[https://komi-zyrian.web-corpora.net/ Корпуса коми-зырянского языка] (Тимофей Архангельский) 1,76 млн.

Языковые корпуса: различия между версиями

Текущая версия от 17:57, 10 ноября 2025

Навигация

Поиск