Языковые корпуса: различия между версиями
Перейти к навигации
Перейти к поиску
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
Ӧньӧ Лав (обсуждение | вклад) Нет описания правки |
||
| Строка 37: | Строка 37: | ||
*[https://gtweb.uit.no/u_korp/?mode=udm#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Udmurt texts] (Giellatekno) 271 тыс. | *[https://gtweb.uit.no/u_korp/?mode=udm#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Udmurt texts] (Giellatekno) 271 тыс. | ||
*[https://gtweb.uit.no/u_korp/?mode=koi#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Komi-Permyak texts] (Giellatekno) 241 тыс. | *[https://gtweb.uit.no/u_korp/?mode=koi#?lang=en&stats_reduce=word&cqp=%5B%5D Korp - Komi-Permyak texts] (Giellatekno) 241 тыс. | ||
*[https://inel.corpora.uni-hamburg.de/NganasanCorpus/search Нганасанский корпус INEL 1.0] (Uni Hamburg) 221 747 | *[https://inel.corpora.uni-hamburg.de/NganasanCorpus/search Нганасанский корпус INEL 1.0] (AdW & Uni Hamburg) 221 747 | ||
*[https://inel.corpora.uni-hamburg.de/EnetsCorpus/search Энецкий корпус INEL 1.0] (Uni Hamburg) 218 710 | *[https://inel.corpora.uni-hamburg.de/EnetsCorpus/search Энецкий корпус INEL 1.0] (AdW & Uni Hamburg) 218 710 | ||
*[https://inel.corpora.uni-hamburg.de/DolganCorpus/search Долганский корпус INEL 2.0] (Uni Hamburg) 97 625 | *[https://inel.corpora.uni-hamburg.de/DolganCorpus/search Долганский корпус INEL 2.0] (AdW & Uni Hamburg) 97 625 | ||
*[https://inel.corpora.uni-hamburg.de/EvenkiCorpus/search Эвенкийский корпус INEL 2.0] (Uni Hamburg) 93 264 | *[https://inel.corpora.uni-hamburg.de/EvenkiCorpus/search Эвенкийский корпус INEL 2.0] (AdW & Uni Hamburg) 93 264 | ||
*[https://inel.corpora.uni-hamburg.de/SelkupCorpus/search Селькупский корпус INEL 2.0] (Uni Hamburg) 81 498 | *[https://inel.corpora.uni-hamburg.de/SelkupCorpus/search Селькупский корпус INEL 2.0] (AdW & Uni Hamburg) 81 498 | ||
*[http://beserman.ru/corpus/search/?interface_language=ru Бесермянский корпус] (НИУ ВШЭ, МГУ) 65 тыс. | *[http://beserman.ru/corpus/search/?interface_language=ru Бесермянский корпус] (НИУ ВШЭ, МГУ) 65 тыс. | ||
*[https://inel.corpora.uni-hamburg.de/KamasCorpus/search Камасинский корпус INEL 2.0] (Uni Hamburg) 63,8 тыс. | *[https://inel.corpora.uni-hamburg.de/KamasCorpus/search Камасинский корпус INEL 2.0] (AdW & Uni Hamburg) 63,8 тыс. | ||
*[https://corpora.iling-ran.ru/mari Корпус горномарийского языка] (ИЯз РАН) 63,5 тыс. | *[https://corpora.iling-ran.ru/mari Корпус горномарийского языка] (ИЯз РАН) 63,5 тыс. | ||
*[https://inel.corpora.uni-hamburg.de/NenetsCorpus/search Ненецкий корпус INEL 1.0] (Uni Hamburg) 61 278 | *[https://inel.corpora.uni-hamburg.de/NenetsCorpus/search Ненецкий корпус INEL 1.0] (AdW & Uni Hamburg) 61 278 | ||
*[https://corpora.iling-ran.ru/selkup Корпус северноселькупских письменных текстов (юридические тексты)] (ИЯз РАН) 52 тыс. | *[https://corpora.iling-ran.ru/selkup Корпус северноселькупских письменных текстов (юридические тексты)] (ИЯз РАН) 52 тыс. | ||
*[https://inel.corpora.uni-hamburg.de/KamasCorpus/search Камасинский корпус INEL 2.0] (Uni Hamburg) 49 тыс. | *[https://inel.corpora.uni-hamburg.de/KamasCorpus/search Камасинский корпус INEL 2.0] (AdW & Uni Hamburg) 49 тыс. | ||
*[https://corpora.iling-ran.ru/evenk Корпус эвенкийского языка] (ИЯз РАН) 47,8 тыс. | *[https://corpora.iling-ran.ru/evenk Корпус эвенкийского языка] (ИЯз РАН) 47,8 тыс. | ||
*[https://corpora.iling-ran.ru/ketsk/ Мультимедийный корпус кетского языка] (ИЯз РАН) 15,9 тыс. | *[https://corpora.iling-ran.ru/ketsk/ Мультимедийный корпус кетского языка] (ИЯз РАН) 15,9 тыс. | ||
*[https://inel.corpora.uni-hamburg.de/TavdaMansiCorpus/search Мансийский (тавдинский диалект) корпус INEL 1.0] (Uni Hamburg) 11 879 | *[https://inel.corpora.uni-hamburg.de/TavdaMansiCorpus/search Мансийский (тавдинский диалект) корпус INEL 1.0] (AdW & Uni Hamburg) 11 879 | ||
*[https://itelmen.corpora.iling-ran.ru/ Корпус ительменского языка] (ИЯз РАН) | *[https://itelmen.corpora.iling-ran.ru/ Корпус ительменского языка] (ИЯз РАН) | ||
Версия от 12:58, 21 мая 2025
- Письменный корпус татарского языка 537 млн.
- Коми кыв корпус 88 млн.
- Корпус марийского языка от МарНИИ 21 млн.
- Корпус чувашского языка от Н. Плотникова 17 млн.
- Национальный корпус якутского языка 15 млн.
- Национальный корпус удмуртского языка 8,5 млн.
- Национальный корпус калмыцкого языка 8 млн.
- Корпус коми-пермяцкого языка 7 млн.
- Открытый корпус карельского и вепского языков 2,3 млн. (Ранняя версия: Корпус вепского языка)
- Мансийский корпус на портале мансийского языка
- Национальный корпус чувашского языка (ЧГИГН)
- Корпус якутского языка (СВФУ, НГУ)
- Машинный фонд башкирского языка ---
- Национальный корпус башкирского языка ---
☼ ☼ ☼
- Korp - Meadow Mari texts (Giellatekno) 57,38 млн. ?
- Алматинский корпус казахского языка (НИУ ВШЭ) 40 млн.
- Татарский национальный корпус «Туган тел» (НИУ ВШЭ) 26 млн.
- Korp - Erzya texts (Giellatekno) 14,05 млн.
- Korp - Moksha texts (Giellatekno) 12,79 млн.
- Осетинский национальный корпус (НИУ ВШЭ) 12 млн.
- Адыгейский корпус (НИУ ВШЭ) 10 млн.
- Корпуса удмуртского языка (Тимофей Архангельский) 9,57 млн.
- Корпус даргинского литературного языка 6,4 млн
- Korp - Hill Mari texts (Giellatekno) 6,25 млн.
- Корпуса лугового марийского языка (Тимофей Архангельский) 5,53 млн.
- Бурятский корпус (НИУ ВШЭ) 3 млн.
- Корпуса эрзянского языка (Тимофей Архангельский) 2,3 млн.
- Корпуса коми-зырянского языка (Тимофей Архангельский) 1,76 млн.
- Корпуса мокшанского языка (Тимофей Архангельский) 1,74 млн.
- Korp - Komi-Zyrian texts (Giellatekno) 963 тыс.
- Калмыцкий корпус (НИУ ВШЭ) 800 тыс.
- Электронный корпус хакасского языка (ИЯз РАН) 700 тыс.
- Korp - Udmurt texts (Giellatekno) 271 тыс.
- Korp - Komi-Permyak texts (Giellatekno) 241 тыс.
- Нганасанский корпус INEL 1.0 (AdW & Uni Hamburg) 221 747
- Энецкий корпус INEL 1.0 (AdW & Uni Hamburg) 218 710
- Долганский корпус INEL 2.0 (AdW & Uni Hamburg) 97 625
- Эвенкийский корпус INEL 2.0 (AdW & Uni Hamburg) 93 264
- Селькупский корпус INEL 2.0 (AdW & Uni Hamburg) 81 498
- Бесермянский корпус (НИУ ВШЭ, МГУ) 65 тыс.
- Камасинский корпус INEL 2.0 (AdW & Uni Hamburg) 63,8 тыс.
- Корпус горномарийского языка (ИЯз РАН) 63,5 тыс.
- Ненецкий корпус INEL 1.0 (AdW & Uni Hamburg) 61 278
- Корпус северноселькупских письменных текстов (юридические тексты) (ИЯз РАН) 52 тыс.
- Камасинский корпус INEL 2.0 (AdW & Uni Hamburg) 49 тыс.
- Корпус эвенкийского языка (ИЯз РАН) 47,8 тыс.
- Мультимедийный корпус кетского языка (ИЯз РАН) 15,9 тыс.
- Мансийский (тавдинский диалект) корпус INEL 1.0 (AdW & Uni Hamburg) 11 879
- Корпус ительменского языка (ИЯз РАН)
☼ ☼ ☼
- Национальный корпус русского языка
- Corpus of Contemporary American English
- British National Corpus (BNC)
- Ústav Českého národního korpusu
- Eastern Armenian National Corpus
- Ссылки на корпуса с сайта кафедры ЮНЕСКО в Братиславе
- Къырымтатар тилининъ лингвистик корпусы
Аудиокорпуса
- Устный корпус башкирского языка
- Коми медиатека (ижемский диалект коми языка)
- Мультимедийный бесермянский корпус
Проекты
- INEL Projekt von der Akademie der Wissenschaften in Hamburg in Kooperation mit der Universität Hamburg
- Корпуса. Малые языки России Лаборатории исследования и сохранения малых языков Института языкознания РАН
- Лингводок