Использование цифровых корпусов и компьютерных программ в диалектологических исследованиях: теория и практика: различия между версиями
Admin (обсуждение | вклад) Нет описания правки |
Niko (обсуждение | вклад) Нет описания правки |
||
(не показана 1 промежуточная версия этого же участника) | |||
Строка 7: | Строка 7: | ||
<font color="green">(План доклада)</font> | <font color="green">(План доклада)</font> | ||
... | Наш проект: | ||
• Корпус ижемского диалекта коми языка | |||
• Цель: Материалы из каждый регион где изьватас живут | |||
• Когда возможно с авторский правдами, тоже работаем с старым материалом | |||
Можно тоже подумать цельом что систематизируем и каталогизируем старый материалы, тоже когда у нас доступ для это нет сейчас. На пример, какой тексты где публизировано исв. Это сделаем в кооперация с архивоми и исследователи. | |||
Ми хотели бы что корпус будет баланзированный, хотя ми понимаем что фактический определение для "баланзированный корпус". А можно понимать, что если там материал толко с некоторый вожрозти или один пол, например, тогда он нет баланзированный. | |||
Работа FU-lab | |||
• дигитальный материалы из литературный коми (и другой делов конечно) | |||
Эти работы очень вязенно, ситуация оптимальный для изучения языка когда у нас есть многи типы текстов. Тоже эти все материалы из длинный период, практический из последние сто лет. | |||
• Такый материалов из финно-угорских языков мало. | |||
Очень важный что у нас есть много метаданные об все материалов. Где, кто, куда, и далшее - тоже жанр и контекст важный. Пользываем для это тоже IMDI и CMDI мета данные стандардов. | |||
Корпус уже не готов, тоже нет так большой, а можем уже видит что после три года он будет очень интересный. | |||
Корпус надо быть так лёгки пользывает что люди который не знают все технический нюансов могут его пользывает. | |||
• Тоже можно готовит более материалов в других языков об пользевание | |||
• И мы можем сделать материалов так свободный что есть лёгки пробывает с ними | |||
Сейчас ми пользоваем программа ELAN для готовить материалов. А практический это только XML файлов который вязенно с аудио файлов. Для изучение и анализирование ми можем переводить материалов а других форматых. Для работа он дают практический GUI для сегментация и расшифровка. Есть многи другий программов, а можем быть сейчас ELAN самый быстрый для работа (рабочный режимы для сегментации, транскипчии и переводы). | |||
• Тоже с его можно уже анализировать нет так плохо | |||
• Есть более комплексный анализирование который не можем сделать в ELAN, а из XML файлов лёгки переводит в других форматов | |||
(Посмотрите что писал здесь, можем быть даем какой-нибыд примеров из поисков) | |||
http://wiki.komikyv.ru/index.php/ELAN#.D0.9F.D0.BE.D0.B8.D1.81.D0.BA_.D0.B8.D0.B7_ELAN_.D0.BA.D0.BE.D1.80.D0.BF.D1.83.D1.81 | |||
Архивный структуры для такие материалы есть уже в Лондоне и Ниймегене, а мы думаем пользовать это инфраструктура с нашим сервером в Сыктывкаре. | |||
• Материалы из коми языка тогда более "рядом" | |||
• У нас более автономный ситуация работать | |||
Конечно когда материалы можно пользывается через интернет это нет так важный где они физический сидят. | |||
Сейчас материалы из коми языка в многих местах: | |||
• Сыктывкар | |||
• Хельсинки | |||
• Будапешт | |||
• Виенна | |||
• И многие другие городы и архивы... | |||
Очень частый из один запись многи копии в многих архивах. Тогда там тоже есть опасность что один материаль дигитализировано многа раз без информация из других работых. | |||
== Ссылки == | == Ссылки == |
Текущая версия от 18:19, 25 октября 2014
- Dr. Rogier Blokland, Professor, University of Uppsala (Sweden)
- Dr. Michael Rießler, University of Freiburg (Germany)
- Niko Partanen, MA, University of Freiburg (Germany)
- Марина Федина, к.ф.н, ЦИЯТ КРАГСиУ (Сыктывкар)
- Андрей Чемышев, ЦИЯТ КРАГСиУ (Сыктывкар)
(План доклада)
Наш проект:
• Корпус ижемского диалекта коми языка
• Цель: Материалы из каждый регион где изьватас живут
• Когда возможно с авторский правдами, тоже работаем с старым материалом
Можно тоже подумать цельом что систематизируем и каталогизируем старый материалы, тоже когда у нас доступ для это нет сейчас. На пример, какой тексты где публизировано исв. Это сделаем в кооперация с архивоми и исследователи.
Ми хотели бы что корпус будет баланзированный, хотя ми понимаем что фактический определение для "баланзированный корпус". А можно понимать, что если там материал толко с некоторый вожрозти или один пол, например, тогда он нет баланзированный.
Работа FU-lab
• дигитальный материалы из литературный коми (и другой делов конечно)
Эти работы очень вязенно, ситуация оптимальный для изучения языка когда у нас есть многи типы текстов. Тоже эти все материалы из длинный период, практический из последние сто лет.
• Такый материалов из финно-угорских языков мало.
Очень важный что у нас есть много метаданные об все материалов. Где, кто, куда, и далшее - тоже жанр и контекст важный. Пользываем для это тоже IMDI и CMDI мета данные стандардов.
Корпус уже не готов, тоже нет так большой, а можем уже видит что после три года он будет очень интересный.
Корпус надо быть так лёгки пользывает что люди который не знают все технический нюансов могут его пользывает.
• Тоже можно готовит более материалов в других языков об пользевание
• И мы можем сделать материалов так свободный что есть лёгки пробывает с ними
Сейчас ми пользоваем программа ELAN для готовить материалов. А практический это только XML файлов который вязенно с аудио файлов. Для изучение и анализирование ми можем переводить материалов а других форматых. Для работа он дают практический GUI для сегментация и расшифровка. Есть многи другий программов, а можем быть сейчас ELAN самый быстрый для работа (рабочный режимы для сегментации, транскипчии и переводы).
• Тоже с его можно уже анализировать нет так плохо
• Есть более комплексный анализирование который не можем сделать в ELAN, а из XML файлов лёгки переводит в других форматов
(Посмотрите что писал здесь, можем быть даем какой-нибыд примеров из поисков)
Архивный структуры для такие материалы есть уже в Лондоне и Ниймегене, а мы думаем пользовать это инфраструктура с нашим сервером в Сыктывкаре.
• Материалы из коми языка тогда более "рядом"
• У нас более автономный ситуация работать
Конечно когда материалы можно пользывается через интернет это нет так важный где они физический сидят.
Сейчас материалы из коми языка в многих местах:
• Сыктывкар
• Хельсинки
• Будапешт
• Виенна
• И многие другие городы и архивы...
Очень частый из один запись многи копии в многих архивах. Тогда там тоже есть опасность что один материаль дигитализировано многа раз без информация из других работых.