Использование цифровых корпусов и компьютерных программ в диалектологических исследованиях: теория и практика

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску

(План доклада)

Наш проект:

• Корпус ижемского диалекта коми языка

• Цель: Материалы из каждый регион где изьватас живут

• Когда возможно с авторский правдами, тоже работаем с старым материалом

Можно тоже подумать цельом что систематизируем и каталогизируем старый материалы, тоже когда у нас доступ для это нет сейчас. На пример, какой тексты где публизировано исв. Это сделаем в кооперация с архивоми и исследователи.

Ми хотели бы что корпус будет баланзированный, хотя ми понимаем что фактический определение для "баланзированный корпус". А можно понимать, что если там материал толко с некоторый вожрозти или один пол, например, тогда он нет баланзированный.

Работа FU-lab

• дигитальный материалы из литературный коми (и другой делов конечно)

Эти работы очень вязенно, ситуация оптимальный для изучения языка когда у нас есть многи типы текстов. Тоже эти все материалы из длинный период, практический из последние сто лет.

• Такый материалов из финно-угорских языков мало.

Очень важный что у нас есть много метаданные об все материалов. Где, кто, куда, и далшее - тоже жанр и контекст важный. Пользываем для это тоже IMDI и CMDI мета данные стандардов.

Корпус уже не готов, тоже нет так большой, а можем уже видит что после три года он будет очень интересный.

Корпус надо быть так лёгки пользывает что люди который не знают все технический нюансов могут его пользывает.

• Тоже можно готовит более материалов в других языков об пользевание

• И мы можем сделать материалов так свободный что есть лёгки пробывает с ними

Сейчас ми пользоваем программа ELAN для готовить материалов. А практический это только XML файлов который вязенно с аудио файлов. Для изучение и анализирование ми можем переводить материалов а других форматых. Для работа он дают практический GUI для сегментация и расшифровка. Есть многи другий программов, а можем быть сейчас ELAN самый быстрый для работа (рабочный режимы для сегментации, транскипчии и переводы).

• Тоже с его можно уже анализировать нет так плохо

• Есть более комплексный анализирование который не можем сделать в ELAN, а из XML файлов лёгки переводит в других форматов

(Посмотрите что писал здесь, можем быть даем какой-нибыд примеров из поисков)

http://wiki.komikyv.ru/index.php/ELAN#.D0.9F.D0.BE.D0.B8.D1.81.D0.BA_.D0.B8.D0.B7_ELAN_.D0.BA.D0.BE.D1.80.D0.BF.D1.83.D1.81

Архивный структуры для такие материалы есть уже в Лондоне и Ниймегене, а мы думаем пользовать это инфраструктура с нашим сервером в Сыктывкаре.

• Материалы из коми языка тогда более "рядом"

• У нас более автономный ситуация работать

Конечно когда материалы можно пользывается через интернет это нет так важный где они физический сидят.

Сейчас материалы из коми языка в многих местах:

• Сыктывкар

• Хельсинки

• Будапешт

• Виенна

• И многие другие городы и архивы...

Очень частый из один запись многи копии в многих архивах. Тогда там тоже есть опасность что один материаль дигитализировано многа раз без информация из других работых.

Ссылки