ELAN: различия между версиями

Материал из Wiki FU-Lab
Перейти к навигации Перейти к поиску
Строка 131: Строка 131:
Чтобы сохранить файлы во время работы: Ctrl +S (или --> File --> Save).
Чтобы сохранить файлы во время работы: Ctrl +S (или --> File --> Save).


== Поиск из ELAN корпус ==
== Поиск из ELAN-корпуса ==


ELAN дают многы возможности для поисков из корпуса. Самой комплексный из вариантов поеска "Структурированный поиск в нескольких EAF". А это тоже вариант который самой удобный для сериозного работа с корпусом.
ELAN даёт многие возможности для поиска из корпуса. Самой комплексный из вариантов поиска "Структурированный поиск в нескольких EAF". А это тоже вариант, который самой удобный для серьёзной работы с корпусом.


"Структурированный поиск в нескольких EAF" можно выберить сюда. Для это не надо открыть ELAN файлы.
"Структурированный поиск в нескольких EAF" можно выбрать сюда. Для это не надо открыть ELAN файлы.


[[Файл:ELAN_поиск_1.png|600px]]
[[Файл:ELAN_поиск_1.png|600px]]


Первый вид какой видём '''Substring Search'''.
Первый вид какой введём '''Substring Search'''.


[[Файл:ELAN_поиск_2.png|600px]]
[[Файл:ELAN_поиск_2.png|600px]]


А сейчас берём '''Multiple Layer Search'''. Есть тоже такие '''Single Layer Search'''. Разница между эти есть в сколких слоих они посмотрить в поисках. Вид в '''Multiple Layer Search''' где сейчас работаем, он такой:
А сейчас берём '''Multiple Layer Search'''. Есть тоже такие '''Single Layer Search'''. Разница между ними есть в скольких слоих они посмотрить в поисках. Вид в '''Multiple Layer Search''' где сейчас работаем, он такой:


[[Файл:ELAN_поиск_3.png|600px]]
[[Файл:ELAN_поиск_3.png|600px]]


Для работа нам надо изменить несколки параметров. А первый нам надо работат с Domain. Это домаин - файлы из который ми сейчас поискаем. В поиске можно берить файлы или папкы. Частый есть более практический работаеть с папками. Например в наши проект ми организируем материалы из один диалект в один папку, так это лёгке выберит. Это можно сделать через '''Define Domain'''. Через '''Новая подборка...''' и '''Добавить''' можем берить который файлы или папкы для нас сейчас более интересный. Для домайнов можно дать имени, с котором быстрее сравнинать резултатов, на пример. Здесь у меня есть три домайнов, один для все материалов, один для Удорского диалекта коми языка и один для Ижемского диалект.
Для работы нам нужно изменить несколько параметров. А первый нам надо работат с Domain. Это домаин - файлы из который мы сейчас осуществляем поиск. В поиске можно брать файлы или папкы. Частый есть более практический работает с папками. Например, в наш проект мы организируем материалы из одного диалекта в одну папку, так это легче выбрать. Это можно сделать через '''Define Domain'''. Через '''Новая подборка...''' и '''Добавить''' можем брать файлы или папки, которые для нас сейчас более интересны. Для домайнов можно дать имя, с которым можно быстрее сравнивать результаты. Например, здесь у меня есть три домайна, один для всех материалов, один для Удорского диалекта коми языка и один для Ижемского диалект.


[[Файл:ELAN_поиск_4.png|300px]]
[[Файл:ELAN_поиск_4.png|300px]]


После берение домайнов надо изправить параметров. На пример, в '''Mode''' есть как стандард '''substring match'''. Она искаеться из текстов, а она нет так интересный. Давай именяем сюда '''regular expression'''.  
После взятия домайнов надо исправить параметры. Например, в '''Mode''' есть как стандарт '''substring match'''. Он ищется из текстов, а она не так интересна. Давай меняем сюда '''regular expression'''.  


После это надо подумать из какий слой ми хотям искать. Сейчас писано там '''All Tiers'''. Это частый нет очень практический вариант, когда он посмотритъ из все слой который там есть. Тогда берём на первый '''Tier Type: orthT'''.
После этого надо подумать из какого слоя мы хотим искать. Сейчас написано там '''All Tiers'''. Это частый не очень практический вариант, когда он смотрит из всех слоёв, который там есть. Тогда берём первый '''Tier Type: orthT'''.


[[Файл:ELAN_поиск_5.png|600px]]
[[Файл:ELAN_поиск_5.png|600px]]


Для другий слой можем берить например типы ft-rusT и ft-engT. Межды слоёв как стандард '''Must be in same file''' - надо что слой в один файл. Сейчас это хватается. Для это пример нам не надо так многов колумнов, и можем берить '''Fewer Columns'''.
Для другий слоёв можем брать, например, типы ft-rusT и ft-engT. Между слоями как стандард '''Must be in same file''' - надо чтобы слой в один файл. Сейчас это хватается. Для этого примера нам не надо так многов колумнов, и можем брать '''Fewer Columns'''.


[[Файл:ELAN_поиск_6.png|600px]]
[[Файл:ELAN_поиск_6.png|600px]]


На зелёный все параметры и на белый месты куда можно писать. Так же берём ещо что всё должен быть '''Fully aligned'''. Тогда поиск искает толко слой который параллельный в файлы.
На зелёный все параметры и на белый места, куда можно записать. Так же берём ещё что всё должно быть '''Fully aligned'''. Тогда поиск ищет только слой, который параллельный в файлы.


[[Файл:ELAN_поиск_7.png|600px]]
[[Файл:ELAN_поиск_7.png|600px]]


Вот. Сейчас можем работать. А что писать на эти белый месты? В все ELAN поисков можно пользоваться регулярные выражении, что ми тоже хотям сделать. Сейчас нам интересуеться что там на коми тексте, и так наши более комплексный регулярные выражении будет в слой типа orthT.
Вот. Сейчас можем работать. А что писать на эти белые места? В все ELAN поисков можно пользоваться регулярными выражениями, что мы тоже хотим сделать. Сейчас нам интересно, что там в коми тексте, и так наши более комплексные регулярные выражения будут в слой типа orthT.


На другий слой можем писать: .?
На другий слой можем записать: .?


Это точко рассказывает что смотри всё. И вопросный знак рассказывает что это необязательный. Так ми искаем все слой который там есть хотья они пустый или неть. Потому что нам интересуется видить переводы, а ми не искаем ничто из переводах самый.
Эта точка показывает, что смотри всё. И вопросительный знак показывает, что это необязательно. Так мы ищем все слои, которые там есть, хотья они пустые или нет. Потому что нам интересно видеть переводы, а мы не ищем ничего в самих переводах.


Скажаем, что нам интересуеться как пользываются послеслога дор-. У его можно быть многи формы: дорын, дорӧ, дорас... Ми хотям искать они все. Это можно сделать с регулярном выражение '''\bдор.+'''.
Скажаем, что нам интересно как используется послеслог дор-. У его могут быть несколько форм: дорын, дорӧ, дорас... Ми хотим искать все. Это можно сделать с регулярным выражением '''\bдор.+'''.


Давай анализируем первый немного элементы там. \b, это начальные или закончение слово. Как ранше, точко может быть все знакы. А сымвол плус - он скажает что последние сымвол можно быть там много раз. Так ми искаем словы который имеет как первый знаками "дор", и послее это что нибыд другие знаки. '''Find''' искаеть.
Давай анализируем сперва несколько элементов там. \b, это начальные или закончение слово. Как раньше, точко может быть все знаки. А символ плюс - он скажет, что последний символ может быть там много раз. Так мы ищем слова, которые имеют как первый знаками "дор", и после этого какие-нибудь другие знаки. '''Find''' ищет.


[[Файл:ELAN_поиск_8.png|600px]]
[[Файл:ELAN_поиск_8.png|600px]]


Это первый вид более практические когда искаем формы словы, например, а сейчас можем изменяет вид в '''Show Aligment View'''.
Это первый вид более практический, когда ищем формы слова, например, а сейчас можем изменять вид в '''Show Aligment View'''.


[[Файл:ELAN_поиск_9.png|600px]]
[[Файл:ELAN_поиск_9.png|600px]]


Он такое:
Он такой:


[[Файл:ELAN_поиск_10.png|600px]]
[[Файл:ELAN_поиск_10.png|600px]]


Из кнопка '''Hide query''' можем видить более резултаты. '''Show query''' параметров новый раз показывает.
Из кнопки '''Hide query''' можем видеть более резултаты. '''Show query''' параметров новый раз показывает.


[[Файл:ELAN_поиск_11.png|600px]]
[[Файл:ELAN_поиск_11.png|600px]]


А как знаем в ижемского диалекта там есть тоже формы '''-лаздорӧ'''. Что этом сделать? Сейчас элемент '''дор''' нет свои слов, нет как послелог. Мы не можем писать \b как первый в поиске. Но можем писать: '''.лаздор.+'''
А как знаем в ижемском диалекте там есть тоже формы '''-лаздорӧ'''. Что этом сделать? Сейчас элемент '''дор''' нет свои слов, нет как послелог. Мы не можем писать \b как первый в поиске. Но можем писать: '''.лаздор.+'''


Если ми хотели бы видить все резултатов с послелога дор- и конструкция -лаздор-, можем писать: (\bдор.+|.лаздор.+). Это символ "|" скажает что "искаеть первый или другой вариант".
Если ми хотели бы видить все резултатов с послелога дор- и конструкция -лаздор-, можем писать: (\bдор.+|.лаздор.+). Это символ "|" скажает что "искаеть первый или другой вариант".

Версия от 08:45, 2 ноября 2014

ELAN (EUDICO Linguistic Annotator) - программа, разработанная Институтом психолингвистики Макса Планка, с целью обеспечения надёжной технологической основой для аннотации и эксплуатации мультимедийных записей. ELAN может применяться специалистами, работающими с языками жестов и диалектологами для создания, редактирования, визуализации и поиска аннотации для видео и аудио данных.

Программа ELAN является на сегодняшний день одной из лучших программ многоуровнего аннотирования мультимедийных данных.

ELAN поддерживает:

• визуализацию аудио и/или видео сигналов одновременно с полученными аннотациями;

• временнýю привязку аннотаций к медийному потоку;

• сложные связи аннотаций друг с другом;

• неограниченное количество задаваемых пользователем уровней аннотации (Tiers);

• различные шрифты и кодировки;

• экспорт данных в виде текстовых файлов табличного вида (tab-delimited text);

• импорт и экспорт между ELAN, Praat, ToolBox, Shoebox и другими популярными лингвистическими программами;

• развитые поисковые опции.

ELAN в мультимодальных корпусах

Также ELAN может использоваться для анализа поведения людей (жестов, мимики, речи, действий в коммуникации) создаются так называемые мультимодальные корпуса, то есть корпуса, включающие запись звука и видео, собираются видеозаписи поведения людей в реальных эмоциональных ситуациях. Для исследования поведения корпус сопровождается разметкой: записывается текст, произнесённый людьми в кадре, мимика, движения рук и тела.

Принципы разметки корпуса состоят в том, чтобы выделить те особенности, которые отличают эмоциональное поведение людей от некоторого «воображаемого» нейтрального поведения (поведения, в котором не выражаются никакие эмоции). Разметка позволяет (а) описывать поведения людей в коммуникации, средства проявления эмоций, связь между эмоциями и речью, а также (б) описывать шаблоны эмоционального поведения для имитации эмоций компьютерными агентами.

Разметка корпуса – это информация о содержании видеофайла: слова, которые говорят люди в кадре, данные о жестах, мимике и движении людей. По разметке можно искать в корпусе определённые элементы (например, найти все случаи «почёсывания носа»). Исследования, построенные на основе разметки, позволяют узнать, для чего или почему человек выполняет тот или иной жест или движение в диалоге. Такие исследования позволяют судить о паттернах (стандартных последовательностях) выражения эмоций у человека. Паттерны выражения эмоций могут далее переноситься на компьютерных агентов, чтобы сделать их поведение и выражение эмоций похожим на поведение человека.

Разметка отдельных файлов корпуса хранится в файлах [eaf], отдельно от видеофайлов. Чтобы посмотреть сущствующую разметку, нужно разместить в одной директории видеофайл и файл разметки [eaf] - и открыть [eaf] с помощью программы ELAN. Чтобы создать новый файл разметки, нужно взять шаблон размтки [etf] и на основе этого шаблона создать для видеофайла файл разметки [eaf].

Установка ELAN

Для установки ELAN на свой компьютер, загрузите последнюю версию программы с официального сайта и следуйте инструкции. На этой веб-странице, вы также найдёте информацию о программных и аппаратных требованиях.

После запуска ELAN можете изменить язык интерфейса. Для этого перейдите Options > Language и выберите один из доступных языков. В настоящее время доступны каталанский, голландский, английский, французский, немецкий, японский, португальский, испанский, шведский и русский языковые модули.

ELAN.png

Работа с ELAN

В ELAN можно работать либо с аудиофайлом, либо с аудио- и видеофайлом вместе:

1) Создать новый файл:

--> открыть ELAN
--> File --> New

Открывается окно, где нужно выбрать аудио- и/или видеофайл, который должен быть обработан.

Работа с ELAN1.png

Нужно найти нужный файл (или нужные файлы) и выбрать его с помощью стрелок [>>] в середине окна, потом нажать ОК.

Если Вы хотите работать с аудио- и видеофайлом вместе, нужно сначала выбрать аудиофайл (.wav), потом выбрать видеофайл (.mpg).

Открывается главное окно ELAN, где видны либо только звуковые волны (если выбрали только аудиофайл), либо звуковые волны и видео (если выбрали аудио- и видеофайл).

Работа с ELAN2.png

Работа с ELAN3.png

Под звуковыми волнами есть место для аннотаций.

Чтобы создать уровни для аннотации, нужно сначала определить их структуру – в ELAN это называется их «тип».

Есть 2 основных типа аннотаций: независимые (которые связаны прямо со звуковым файлом во времени) и зависимые (которые связаны не со звуком, а с другой аннотацией);

например: орфографическая транскрипция = независимый тип аннотаций, потому что она связана прямо со звуком

перевод = зависимый тип аннотаций, потому что он связан с транскрибированным предложением.

В ELAN надо сначала определить типы:

--> Type --> Add new linguistic type

Нужно назвать типы, и потом дать им «стереотип»  главные стереотипы = None (независимый тип, аннотация связана прямо со звуком, например для транскрипции), и

Symbolic Association (зависимый тип, аннотация связана с другой аннотацией, например для перевода).

Работа с ELAN4.png

После того, как назвали и выбрали стереотип, нужно нажать Add, чтобы этот тип добавился:

Работа с ELAN5.png

Когда типы определены, можно определить уровни аннотации = tiers.

--> Tiers --> Add new tier

Каждый уровень получает определенный тип, например аннотация с эвенской орфографией = тип transcription, и аннотация с русским переводом = perevod.

Теперь нужно таким же образом дать название уровням; при этом необходимо определить выше- стоящий уровень (parent tier) и тип.

Работа с ELAN6.png

Нужно сохранить файл: --> File --> Save as...

2) Ввод аннотаций

Чтобы начать вводить аннотации, нужно сначала активировать тот уровень аннотации, в который Вы хотите вводить аннотации;

активированный уровень = красный (на следующем фото – уровень ev для транскрибирования – активный)

Работа с ELAN7.png

Потом нужно выделить тот кусок речи, который Вы хотите аннотировать – одно предложение, например. В этом помогает звуковая волна, где можно видеть снижающуюся интонацию, или речевые паузы.

Работа с ELAN8.png

После этого в активированном уровне при двойном клике мышкой по выделенному фрагменту открывается окно для аннотации, куда можно вписать транскрипции (перевод, комментарии и т.д.).

Работа с ELAN9.png

Сохранить написанное: Ctrl+enter (ввод)

Работа с ELAN10.png

Чтобы воспроизвести звук только выделенного отрывка, можно нажать на кнопку >S

ОЧЕНЬ ВАЖНО: аннотации должны быть неотрывными, поэтому нужно маркировать следующий кусочек, начиная чуть-чуть перед концом первого:

Работа с ELAN11.png

Скорость речи можно снижать через Rate – если передвинуть стрелку налево, то речь замедляется.

Чтобы сохранить файлы во время работы: Ctrl +S (или --> File --> Save).

Поиск из ELAN-корпуса

ELAN даёт многие возможности для поиска из корпуса. Самой комплексный из вариантов поиска "Структурированный поиск в нескольких EAF". А это тоже вариант, который самой удобный для серьёзной работы с корпусом.

"Структурированный поиск в нескольких EAF" можно выбрать сюда. Для это не надо открыть ELAN файлы.

ELAN поиск 1.png

Первый вид какой введём Substring Search.

ELAN поиск 2.png

А сейчас берём Multiple Layer Search. Есть тоже такие Single Layer Search. Разница между ними есть в скольких слоих они посмотрить в поисках. Вид в Multiple Layer Search где сейчас работаем, он такой:

ELAN поиск 3.png

Для работы нам нужно изменить несколько параметров. А первый нам надо работат с Domain. Это домаин - файлы из который мы сейчас осуществляем поиск. В поиске можно брать файлы или папкы. Частый есть более практический работает с папками. Например, в наш проект мы организируем материалы из одного диалекта в одну папку, так это легче выбрать. Это можно сделать через Define Domain. Через Новая подборка... и Добавить можем брать файлы или папки, которые для нас сейчас более интересны. Для домайнов можно дать имя, с которым можно быстрее сравнивать результаты. Например, здесь у меня есть три домайна, один для всех материалов, один для Удорского диалекта коми языка и один для Ижемского диалект.

ELAN поиск 4.png

После взятия домайнов надо исправить параметры. Например, в Mode есть как стандарт substring match. Он ищется из текстов, а она не так интересна. Давай меняем сюда regular expression.

После этого надо подумать из какого слоя мы хотим искать. Сейчас написано там All Tiers. Это частый не очень практический вариант, когда он смотрит из всех слоёв, который там есть. Тогда берём первый Tier Type: orthT.

ELAN поиск 5.png

Для другий слоёв можем брать, например, типы ft-rusT и ft-engT. Между слоями как стандард Must be in same file - надо чтобы слой в один файл. Сейчас это хватается. Для этого примера нам не надо так многов колумнов, и можем брать Fewer Columns.

ELAN поиск 6.png

На зелёный все параметры и на белый места, куда можно записать. Так же берём ещё что всё должно быть Fully aligned. Тогда поиск ищет только слой, который параллельный в файлы.

ELAN поиск 7.png

Вот. Сейчас можем работать. А что писать на эти белые места? В все ELAN поисков можно пользоваться регулярными выражениями, что мы тоже хотим сделать. Сейчас нам интересно, что там в коми тексте, и так наши более комплексные регулярные выражения будут в слой типа orthT.

На другий слой можем записать: .?

Эта точка показывает, что смотри всё. И вопросительный знак показывает, что это необязательно. Так мы ищем все слои, которые там есть, хотья они пустые или нет. Потому что нам интересно видеть переводы, а мы не ищем ничего в самих переводах.

Скажаем, что нам интересно как используется послеслог дор-. У его могут быть несколько форм: дорын, дорӧ, дорас... Ми хотим искать все. Это можно сделать с регулярным выражением \bдор.+.

Давай анализируем сперва несколько элементов там. \b, это начальные или закончение слово. Как раньше, точко может быть все знаки. А символ плюс - он скажет, что последний символ может быть там много раз. Так мы ищем слова, которые имеют как первый знаками "дор", и после этого какие-нибудь другие знаки. Find ищет.

ELAN поиск 8.png

Это первый вид более практический, когда ищем формы слова, например, а сейчас можем изменять вид в Show Aligment View.

ELAN поиск 9.png

Он такой:

ELAN поиск 10.png

Из кнопки Hide query можем видеть более резултаты. Show query параметров новый раз показывает.

ELAN поиск 11.png

А как знаем в ижемском диалекте там есть тоже формы -лаздорӧ. Что этом сделать? Сейчас элемент дор нет свои слов, нет как послелог. Мы не можем писать \b как первый в поиске. Но можем писать: .лаздор.+

Если ми хотели бы видить все резултатов с послелога дор- и конструкция -лаздор-, можем писать: (\bдор.+|.лаздор.+). Это символ "|" скажает что "искаеть первый или другой вариант".

Здесь результаты для формы -лаздор-. Здесь тоже хорошоо видить почему у нас есть .? в переводах. Если у нас только ., тогда результатов менше был бы.

ELAN поиск 12.png

И здесь все в один поиске:

Файл:ELAN писк 13.png

Как видимся, у все резултаты переводы нет. С этом наш корпус живой - там каждый день что нибыд новый, кто-нибыд переводит дальше или новый файлы будет готов. А практика поиска одинокогое если корпус болшой или маленкие.

Из Save query можно сохранит поиска и из Load query можно старый поиски берить.

Конечно, для самой комплексный поиски, например, для работа с социолингвистический параметров, ELAN нам не хватается. Тогда много раз нам надо сделать анализирование в других более статистический программов, на пример, в R.

Ссылки