Языковые корпуса: различия между версиями
Перейти к навигации
Перейти к поиску
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
||
| (не показано 6 промежуточных версий этого же участника) | |||
| Строка 2: | Строка 2: | ||
*[https://www.corpus.tatar/ Письменный корпус татарского языка] (Группа Мансура Сайхунова) 537 млн. | *[https://www.corpus.tatar/ Письменный корпус татарского языка] (Группа Мансура Сайхунова) 537 млн. | ||
*[https://tugantel.tatar/ Татарский национальный корпус «Туган тел»] (НИИ «Прикладная семиотика» АН РТ) 194 млн. | *[https://tugantel.tatar/ Татарский национальный корпус «Туган тел»] (НИИ «Прикладная семиотика» АН РТ) 194 млн. | ||
*[http://komicorpora.ru Коми кыв корпус] (FU-Lab) | *[http://komicorpora.ru Коми кыв корпус] (FU-Lab) 90 млн. | ||
*[https://corp.marnii.ru/ Корпус марийского языка] (МарНИИЯЛИ) 21 млн. | *[https://corp.marnii.ru/ Корпус марийского языка] (МарНИИЯЛИ) 21 млн. | ||
*[https://ru.corpus.chv.su/ Корпус чувашского языка] (Лаборатория чувашского языка) 17 млн. | *[https://ru.corpus.chv.su/ Корпус чувашского языка] (Лаборатория чувашского языка) 17 млн. | ||
*[https://sakha-corpus.ysn.ru/index.php?lang=ru Национальный корпус якутского языка] (ИГИиПМНС СО РАН) 15 млн. | *[https://sakha-corpus.ysn.ru/index.php?lang=ru Национальный корпус якутского языка] (ИГИиПМНС СО РАН) 15 млн. | ||
*[http://udmcorpus.udman.ru/ Национальный корпус удмуртского языка] (УИИЯЛ | *[http://udmcorpus.udman.ru/ Национальный корпус удмуртского языка] (УИИЯЛ УдмФИЦ УрО РАН) 10,2 млн. | ||
*[http://kalmcorpora.ru Национальный корпус калмыцкого языка] (КалмНЦ РАН) 8 млн. | *[http://kalmcorpora.ru Национальный корпус калмыцкого языка] (КалмНЦ РАН) 8 млн. | ||
*[https://p.komicorpora.ru/ Корпус коми-пермяцкого языка] (КПИПКРО & FU-Lab) 7 млн. | *[https://p.komicorpora.ru/ Корпус коми-пермяцкого языка] (КПИПКРО & FU-Lab) 7 млн. | ||
| Строка 21: | Строка 21: | ||
*[https://gtweb.uit.no/u_korp/?mode=mhr#?stats_reduce=word&cqp=%5B%5D Korp - Meadow Mari texts] (Giellatekno) 57,38 млн. ? | *[https://gtweb.uit.no/u_korp/?mode=mhr#?stats_reduce=word&cqp=%5B%5D Korp - Meadow Mari texts] (Giellatekno) 57,38 млн. ? | ||
*[http://web-corpora.net/KazakhCorpus/search/?interface_language=ru Алматинский корпус казахского языка] (НИУ ВШЭ) 40 млн. | *[http://web-corpora.net/KazakhCorpus/search/?interface_language=ru Алматинский корпус казахского языка] (НИУ ВШЭ) 40 млн. | ||
*[https://gtweb.uit.no/u_korp/?mode=myv#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Erzya texts] (Giellatekno) 14,05 млн. | *[https://gtweb.uit.no/u_korp/?mode=myv#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Erzya texts] (Giellatekno) 14,05 млн. | ||
*[https://gtweb.uit.no/u_korp/?mode=mdf#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Moksha texts] (Giellatekno) 12,79 млн. | *[https://gtweb.uit.no/u_korp/?mode=mdf#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Moksha texts] (Giellatekno) 12,79 млн. | ||
*[http://corpus.ossetic-studies.org/search/index.php?interface_language=ru Осетинский национальный корпус] (НИУ ВШЭ) 12 млн. | *[http://corpus.ossetic-studies.org/search/index.php?interface_language=ru Осетинский национальный корпус] (НИУ ВШЭ) 12 млн. | ||
*[https://adyghe.web-corpora.net/ Адыгейский корпус] (НИУ ВШЭ) 10 млн. | *[https://adyghe.web-corpora.net/ Адыгейский корпус] (НИУ ВШЭ) 10 млн. | ||
| Строка 29: | Строка 29: | ||
*[https://gtweb.uit.no/u_korp/?mode=mrj#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Hill Mari texts] (Giellatekno) 6,25 млн. | *[https://gtweb.uit.no/u_korp/?mode=mrj#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Hill Mari texts] (Giellatekno) 6,25 млн. | ||
*[https://meadow-mari.web-corpora.net/ Корпуса лугового марийского языка] (Тимофей Архангельский) 5,53 млн. | *[https://meadow-mari.web-corpora.net/ Корпуса лугового марийского языка] (Тимофей Архангельский) 5,53 млн. | ||
*[https://www.kielipankki.fi/korp/?mode=other_languages#?corpus=erme_v2_mdf,erme_v2_myv&cqp=%5B%5D ERME: Erzya and Moksha Extended Corpora version 2] 2 896 631: 2 041 196 + 855 435 (морф. стӧчм.) | |||
*[https://erzya.web-corpora.net/ Корпуса эрзянского языка] (Тимофей Архангельский) 2,3 млн. | *[https://erzya.web-corpora.net/ Корпуса эрзянского языка] (Тимофей Архангельский) 2,3 млн. | ||
*[https://komi-zyrian.web-corpora.net/ Корпуса коми-зырянского языка] (Тимофей Архангельский) 1,76 млн. | *[https://komi-zyrian.web-corpora.net/ Корпуса коми-зырянского языка] (Тимофей Архангельский) 1,76 млн. | ||
Текущая версия от 17:57, 10 ноября 2025
- Письменный корпус татарского языка (Группа Мансура Сайхунова) 537 млн.
- Татарский национальный корпус «Туган тел» (НИИ «Прикладная семиотика» АН РТ) 194 млн.
- Коми кыв корпус (FU-Lab) 90 млн.
- Корпус марийского языка (МарНИИЯЛИ) 21 млн.
- Корпус чувашского языка (Лаборатория чувашского языка) 17 млн.
- Национальный корпус якутского языка (ИГИиПМНС СО РАН) 15 млн.
- Национальный корпус удмуртского языка (УИИЯЛ УдмФИЦ УрО РАН) 10,2 млн.
- Национальный корпус калмыцкого языка (КалмНЦ РАН) 8 млн.
- Корпус коми-пермяцкого языка (КПИПКРО & FU-Lab) 7 млн.
- Бурятский корпус (ИМБТ СО РАН & Тимофей Архангельский) 3 млн.
- Открытый корпус карельского и вепского языков (ИЯЛИ КарНЦ РАН) 2,3 млн.
- Мансийский корпус на портале мансийского языка (ЮНИИ ИТ)
- Национальный корпус чувашского языка (ЧГИГН)
- Корпус якутского языка (СВФУ, НГУ)
- Машинный фонд башкирского языка ---
- Национальный корпус башкирского языка ---
☼ ☼ ☼
- Korp - Meadow Mari texts (Giellatekno) 57,38 млн. ?
- Алматинский корпус казахского языка (НИУ ВШЭ) 40 млн.
- Korp - Erzya texts (Giellatekno) 14,05 млн.
- Korp - Moksha texts (Giellatekno) 12,79 млн.
- Осетинский национальный корпус (НИУ ВШЭ) 12 млн.
- Адыгейский корпус (НИУ ВШЭ) 10 млн.
- Корпус даргинского литературного языка (проект DARGWA) 10 млн.
- Корпуса удмуртского языка (Тимофей Архангельский) 9,57 млн.
- Korp - Hill Mari texts (Giellatekno) 6,25 млн.
- Корпуса лугового марийского языка (Тимофей Архангельский) 5,53 млн.
- ERME: Erzya and Moksha Extended Corpora version 2 2 896 631: 2 041 196 + 855 435 (морф. стӧчм.)
- Корпуса эрзянского языка (Тимофей Архангельский) 2,3 млн.
- Корпуса коми-зырянского языка (Тимофей Архангельский) 1,76 млн.
- Корпуса мокшанского языка (Тимофей Архангельский) 1,74 млн.
- Korp - Komi-Zyrian texts (Giellatekno) 963 тыс.
- Калмыцкий корпус (НИУ ВШЭ) 800 тыс.
- Электронный корпус хакасского языка (ИЯз РАН) 700 тыс.
- Korp - Udmurt texts (Giellatekno) 271 тыс.
- Korp - Komi-Permyak texts (Giellatekno) 241 тыс.
- Нганасанский корпус INEL 1.0 (AdW & Uni Hamburg) 221 747
- Энецкий корпус INEL 1.0 (AdW & Uni Hamburg) 218 710
- Долганский корпус INEL 2.0 (AdW & Uni Hamburg) 97 625
- Эвенкийский корпус INEL 2.0 (AdW & Uni Hamburg) 93 264
- Селькупский корпус INEL 2.0 (AdW & Uni Hamburg) 81 498
- Мультимедийный бесермянский корпус (НИУ ВШЭ, МГУ) 65 тыс.
- Камасинский корпус INEL 2.0 (AdW & Uni Hamburg) 63,8 тыс.
- Корпус горномарийского языка (ИЯз РАН) 63,5 тыс.
- Ненецкий корпус INEL 1.0 (AdW & Uni Hamburg) 61 278
- Корпус северноселькупских письменных текстов (юридические тексты) (ИЯз РАН) 52 тыс.
- Камасинский корпус INEL 2.0 (AdW & Uni Hamburg) 49 тыс.
- Корпус эвенкийского языка (ИЯз РАН) 47,8 тыс.
- Мультимедийный корпус кетского языка (ИЯз РАН) 15,9 тыс.
- Мансийский (тавдинский диалект) корпус INEL 1.0 (AdW & Uni Hamburg) 11 879
- Корпус ительменского языка (ИЯз РАН)
☼ ☼ ☼
- Национальный корпус русского языка
- Corpus of Contemporary American English
- British National Corpus (BNC)
- Ústav Českého národního korpusu
- Eastern Armenian National Corpus
- Ссылки на корпуса с сайта кафедры ЮНЕСКО в Братиславе
- Къырымтатар тилининъ лингвистик корпусы
Аудиокорпуса
Проекты и группы
- INEL Projekt von der Akademie der Wissenschaften in Hamburg in Kooperation mit der Universität Hamburg
- Корпуса. Малые языки России Лаборатории исследования и сохранения малых языков Института языкознания РАН
- Лингводок
- Проект DARGWA
- Международная лаборатория языковой конвергенции (НИУ ВШЭ)
Статьи
- Корпусная лингвистика : Программа фундаментальных исследований Президиума РАН ---
- COMPUTER CORPORA OF THE URALIC LANGUAGES ---
- Т. А. Архангельский. Интернет-корпуса финно-угорских языков России.
- И. Давидюк, А.А. Кибрик, Д.Д. Мордашова. Корпусные исследования языков Российской Федерации.
- М. Р. Сайхунов, Р. Р. Хусаинов, Т. И. Ибрагимов. Сложности при создании текстового корпуса объёмом более 400 млн токенов.
- Мансур Сайхунов: Татар теленең язма корпусы буш вакытыбызда үз акчабызга эшләнде.
- Timofey Arkhangelskiy. Web Corpora of Volga-Kama Uralic Languages
Списки