Использование цифровых корпусов и компьютерных программ в диалектологических исследованиях: теория и практика: различия между версиями

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску
Нет описания правки
Нет описания правки
 
(не показана 1 промежуточная версия этого же участника)
Строка 7: Строка 7:
<font color="green">(План доклада)</font>
<font color="green">(План доклада)</font>


...
Наш проект:
 
• Корпус ижемского диалекта коми языка
 
• Цель: Материалы из каждый регион где изьватас живут
 
• Когда возможно с авторский правдами, тоже работаем с старым материалом
 
Можно тоже подумать цельом что систематизируем и каталогизируем старый материалы, тоже когда у нас доступ для это нет сейчас. На пример, какой тексты где публизировано исв. Это сделаем в кооперация с архивоми и исследователи.
 
Ми хотели бы что корпус будет баланзированный, хотя ми понимаем что фактический определение для "баланзированный корпус". А можно понимать, что если там материал толко с некоторый вожрозти или один пол, например, тогда он нет баланзированный.
 
Работа FU-lab
 
• дигитальный материалы из литературный коми (и другой делов конечно)
 
Эти работы очень вязенно, ситуация оптимальный для изучения языка когда у нас есть многи типы текстов. Тоже эти все материалы из длинный период, практический из последние сто лет.
 
• Такый материалов из финно-угорских языков мало.
 
Очень важный что у нас есть много метаданные об все материалов. Где, кто, куда, и далшее - тоже жанр и контекст важный. Пользываем для это тоже IMDI и CMDI мета данные стандардов.
 
Корпус уже не готов, тоже нет так большой, а можем уже видит что после три года он будет очень интересный.
 
Корпус надо быть так лёгки пользывает что люди который не знают все технический нюансов могут его пользывает.
 
• Тоже можно готовит более материалов в других языков об пользевание
 
• И мы можем сделать материалов так свободный что есть лёгки пробывает с ними
 
Сейчас ми пользоваем программа ELAN для готовить материалов. А практический это только XML файлов который вязенно с аудио файлов. Для изучение и анализирование ми можем переводить материалов а других форматых. Для работа он дают практический GUI для сегментация и расшифровка. Есть многи другий программов, а можем быть сейчас ELAN самый быстрый для работа (рабочный режимы для сегментации, транскипчии и переводы).
 
• Тоже с его можно уже анализировать нет так плохо
 
• Есть более комплексный анализирование который не можем сделать в ELAN, а из XML файлов лёгки переводит в других форматов
 
(Посмотрите что писал здесь, можем быть даем какой-нибыд примеров из поисков)
 
http://wiki.komikyv.ru/index.php/ELAN#.D0.9F.D0.BE.D0.B8.D1.81.D0.BA_.D0.B8.D0.B7_ELAN_.D0.BA.D0.BE.D1.80.D0.BF.D1.83.D1.81
 
Архивный структуры для такие материалы есть уже в Лондоне и Ниймегене, а мы думаем пользовать это инфраструктура с нашим сервером в Сыктывкаре.
 
• Материалы из коми языка тогда более "рядом"
 
• У нас более автономный ситуация работать
 
Конечно когда материалы можно пользывается через интернет это нет так важный где они физический сидят.
 
Сейчас материалы из коми языка в многих местах:
 
• Сыктывкар
 
• Хельсинки
 
• Будапешт
 
• Виенна
 
• И многие другие городы и архивы...
 
Очень частый из один запись многи копии в многих архивах. Тогда там тоже есть опасность что один материаль дигитализировано многа раз без информация из других работых.


== Ссылки ==
== Ссылки ==

Текущая версия от 18:19, 25 октября 2014

(План доклада)

Наш проект:

• Корпус ижемского диалекта коми языка

• Цель: Материалы из каждый регион где изьватас живут

• Когда возможно с авторский правдами, тоже работаем с старым материалом

Можно тоже подумать цельом что систематизируем и каталогизируем старый материалы, тоже когда у нас доступ для это нет сейчас. На пример, какой тексты где публизировано исв. Это сделаем в кооперация с архивоми и исследователи.

Ми хотели бы что корпус будет баланзированный, хотя ми понимаем что фактический определение для "баланзированный корпус". А можно понимать, что если там материал толко с некоторый вожрозти или один пол, например, тогда он нет баланзированный.

Работа FU-lab

• дигитальный материалы из литературный коми (и другой делов конечно)

Эти работы очень вязенно, ситуация оптимальный для изучения языка когда у нас есть многи типы текстов. Тоже эти все материалы из длинный период, практический из последние сто лет.

• Такый материалов из финно-угорских языков мало.

Очень важный что у нас есть много метаданные об все материалов. Где, кто, куда, и далшее - тоже жанр и контекст важный. Пользываем для это тоже IMDI и CMDI мета данные стандардов.

Корпус уже не готов, тоже нет так большой, а можем уже видит что после три года он будет очень интересный.

Корпус надо быть так лёгки пользывает что люди который не знают все технический нюансов могут его пользывает.

• Тоже можно готовит более материалов в других языков об пользевание

• И мы можем сделать материалов так свободный что есть лёгки пробывает с ними

Сейчас ми пользоваем программа ELAN для готовить материалов. А практический это только XML файлов который вязенно с аудио файлов. Для изучение и анализирование ми можем переводить материалов а других форматых. Для работа он дают практический GUI для сегментация и расшифровка. Есть многи другий программов, а можем быть сейчас ELAN самый быстрый для работа (рабочный режимы для сегментации, транскипчии и переводы).

• Тоже с его можно уже анализировать нет так плохо

• Есть более комплексный анализирование который не можем сделать в ELAN, а из XML файлов лёгки переводит в других форматов

(Посмотрите что писал здесь, можем быть даем какой-нибыд примеров из поисков)

http://wiki.komikyv.ru/index.php/ELAN#.D0.9F.D0.BE.D0.B8.D1.81.D0.BA_.D0.B8.D0.B7_ELAN_.D0.BA.D0.BE.D1.80.D0.BF.D1.83.D1.81

Архивный структуры для такие материалы есть уже в Лондоне и Ниймегене, а мы думаем пользовать это инфраструктура с нашим сервером в Сыктывкаре.

• Материалы из коми языка тогда более "рядом"

• У нас более автономный ситуация работать

Конечно когда материалы можно пользывается через интернет это нет так важный где они физический сидят.

Сейчас материалы из коми языка в многих местах:

• Сыктывкар

• Хельсинки

• Будапешт

• Виенна

• И многие другие городы и архивы...

Очень частый из один запись многи копии в многих архивах. Тогда там тоже есть опасность что один материаль дигитализировано многа раз без информация из других работых.

Ссылки