Использование цифровых корпусов и компьютерных программ в диалектологических исследованиях: теория и практика
- Dr. Rogier Blokland, Professor, University of Uppsala (Sweden)
- Dr. Michael Rießler, University of Freiburg (Germany)
- Niko Partanen, MA, University of Freiburg (Germany)
- Марина Федина, к.ф.н, ЦИЯТ КРАГСиУ (Сыктывкар)
- Андрей Чемышев, ЦИЯТ КРАГСиУ (Сыктывкар)
(План доклада)
Наш проект:
• Корпус ижемского диалекта коми языка
• Цель: Материалы из каждый регион где изьватас живут
• Когда возможно с авторский правдами, тоже работаем с старым материалом
Можно тоже подумать цельом что систематизируем и каталогизируем старый материалы, тоже когда у нас доступ для это нет сейчас. На пример, какой тексты где публизировано исв. Это сделаем в кооперация с архивоми и исследователи.
Ми хотели бы что корпус будет баланзированный, хотя ми понимаем что фактический определение для "баланзированный корпус". А можно понимать, что если там материал толко с некоторый вожрозти или один пол, например, тогда он нет баланзированный.
Работа FU-lab
• дигитальный материалы из литературный коми (и другой делов конечно)
Эти работы очень вязенно, ситуация оптимальный для изучения языка когда у нас есть многи типы текстов. Тоже эти все материалы из длинный период, практический из последние сто лет.
• Такый материалов из финно-угорских языков мало.
Очень важный что у нас есть много метаданные об все материалов. Где, кто, куда, и далшее - тоже жанр и контекст важный. Пользываем для это тоже IMDI и CMDI мета данные стандардов.
Корпус уже не готов, тоже нет так большой, а можем уже видит что после три года он будет очень интересный.
Корпус надо быть так лёгки пользывает что люди который не знают все технический нюансов могут его пользывает.
• Тоже можно готовит более материалов в других языков об пользевание
• И мы можем сделать материалов так свободный что есть лёгки пробывает с ними
Сейчас ми пользоваем программа ELAN для готовить материалов. А практический это только XML файлов который вязенно с аудио файлов. Для изучение и анализирование ми можем переводить материалов а других форматых. Для работа он дают практический GUI для сегментация и расшифровка. Есть многи другий программов, а можем быть сейчас ELAN самый быстрый для работа (рабочный режимы для сегментации, транскипчии и переводы).
• Тоже с его можно уже анализировать нет так плохо
• Есть более комплексный анализирование который не можем сделать в ELAN, а из XML файлов лёгки переводит в других форматов
(Посмотрите что писал здесь, можем быть даем какой-нибыд примеров из поисков)
Архивный структуры для такие материалы есть уже в Лондоне и Ниймегене, а мы думаем пользовать это инфраструктура с нашим сервером в Сыктывкаре.
• Материалы из коми языка тогда более "рядом"
• У нас более автономный ситуация работать
Конечно когда материалы можно пользывается через интернет это нет так важный где они физический сидят.
Сейчас материалы из коми языка в многих местах:
• Сыктывкар
• Хельсинки
• Будапешт
• Виенна
• И многие другие городы и архивы...
Очень частый из один запись многи копии в многих архивах. Тогда там тоже есть опасность что один материаль дигитализировано многа раз без информация из других работых.