AntConc
Введение
Корпус-менеджер AntConc разработчика Dr. Laurence Anthony предназначен для обработки корпусов первого порядка. С помощью данной программы можно производить поиск и подсчет различных элементов текста, анализировать частотность и контекст употребления словоформ, словосочетаний и морфем, сравнивать употребительность словоформ в разных текстах.
Отсутствие морфологического анализатора частично компенсируется возможностью подключения пользовательского списка лемм. Программа может быть использована для получения привязанных к заданной предметной области словарных минимумов, списков устойчивых сочетаний (в том числе терминологических), выборок к тематическим группам слов.
Использование AntConc
Программа AntConc не требует инсталляции, достаточно загрузить программу с официального сайта в зависимости от операционной системы: Windows, Linux или Mac OS и запустить её:
Рассмотрим работу корпус-менеджера AntConc на примере опубликованных текстов произведений Ивана Белых. Для этого файл сохраним в тексте: belykh.txt.
Открывем файл belykh.txt из верхнего левого меню File / Open file(s). Название файла появится в левом окне (под фразой «Corpus Files»).
Открываем во второй сверху строке меню кнопку «Word List» (вторяя слева) и нажимаем кнопку «Start» (внизу ближе к левому краю). Программа выстроит все словоформы текста в порядке частотности. Можно сортировать и по другим критериям. Если вместо «Sort by Freq» (в самом низу) выбрать «Sort by Word», произойдёт сортировка по алфавиту, если выбрать «Sort by Word End», сортировка пойдёт по концу слов. Ели к тому же поставим галочку между фразами «Sort by» и «Invert Order», то сортировка пойдёт в обратном порядке — от редких слов к частым или от я до а.
Можно кликнуть из списка любое слово, начнётся его автоматический поиск в окне Concordance. Если открыто окно Concordance, искомое слово можно ввести в окошко, находящееся между кнопкой «Start» и фразой «Search Term» и нажать «Start». Будет происходить поиск данного слова в контекстах. Если убрать галочку над тем же окошком между словами «Search Term» и «Words», можно будет искать не только конкретную форму слова, но и похожие формы напр. пишем пукт — выйдет пукта, пуктіс, пукты и т. п..
С помощю данной программы, в частности, нами была собрана большая часть примеров для демонстранционной словарной статьи ПОН из массива комиязычных электронных текстов (более 2 млн. словоупотреблений):
Для того, что слова с дефисом воспринимались в поиске как за одно слово, поставьте галочки:
В свободном доступе также один коми текст и 10 удмуртских текстов, предназначенных для начального этапа освоения работы с программой AntConc.
Использование регулярных выражений
Пример использования регулярного выражения "\w+де":
Пример использования регулярного выражения "\w+де\s" (все слова, которые заканчиваются на -де):
Видеоурок от разработчика