AntConc

Материал из Wiki FU-Lab
Перейти к: навигация, поиск

Введение

Корпус-менеджер AntConc разработчика Dr. Laurence Anthony предназначен для обработки корпусов первого порядка. С помощью данной программы можно производить поиск и подсчет различных элементов текста, анализировать частотность и контекст употребления словоформ, словосочетаний и морфем, сравнивать употребительность словоформ в разных текстах.

Отсутствие морфологического анализатора частично компенсируется возможностью подключения пользовательского списка лемм. Программа может быть использована для получения привязанных к заданной предметной области словарных минимумов, списков устойчивых сочетаний (в том числе терминологических), выборок к тематическим группам слов.

Использование AntConc

Программа AntConc не требует инсталляции, достаточно загрузить программу с официального сайта в зависимости от операционной системы: Windows, Linux или Mac OS и запустить её:

КОРПУС1.png

Рассмотрим работу корпус-менеджера AntConc на примере опубликованных текстов произведений Ивана Белых. Для этого файл сохраним в тексте: belykh.txt.

Открывем файл belykh.txt из верхнего левого меню File / Open file(s). Название файла появится в левом окне (под фразой «Corpus Files»).

Открываем во второй сверху строке меню кнопку «Word List» (вторяя слева) и нажимаем кнопку «Start» (внизу ближе к левому краю). Программа выстроит все словоформы текста в порядке частотности. Можно сортировать и по другим критериям. Если вместо «Sort by Freq» (в самом низу) выбрать «Sort by Word», произойдёт сортировка по алфавиту, если выбрать «Sort by Word End», сортировка пойдёт по концу слов. Ели к тому же поставим галочку между фразами «Sort by» и «Invert Order», то сортировка пойдёт в обратном порядке — от редких слов к частым или от я до а.

Можно кликнуть из списка любое слово, начнётся его автоматический поиск в окне Concordance. Если открыто окно Concordance, искомое слово можно ввести в окошко, находящееся между кнопкой «Start» и фразой «Search Term» и нажать «Start». Будет происходить поиск данного слова в контекстах. Если убрать галочку над тем же окошком между словами «Search Term» и «Words», можно будет искать не только конкретную форму слова, но и похожие формы напр. пишем пукт — выйдет пукта, пуктіс, пукты и т. п..

С помощю данной программы, в частности, нами была собрана большая часть примеров для демонстранционной словарной статьи ПОН из массива комиязычных электронных текстов (более 2 млн. словоупотреблений):

КОРПУС2.png

Для того, что слова с дефисом воспринимались в поиске как за одно слово, поставьте галочки:

AntConc.png


В свободном доступе также один коми текст и 10 удмуртских текстов, предназначенных для начального этапа освоения работы с программой AntConc.

ПАПКИ3.png

Использование регулярных выражений

Пример использования регулярного выражения "\w+де":

AntConc2.png

Пример использования регулярного выражения "\w+де\s" (все слова, которые заканчиваются на -де, далее пробел):

AntConc3.png

Пример использования регулярного выражения "\w+де[\s,.]" (все слова, которые заканчиваются на -де, далее пробел, запятая или точка):

AntConc4.png

Видеоурок от разработчика

Ссылки