Приемы обработки языковых данных: Создание списков словоформ и лексем (с грамматической и частотной атрибуцией)

Создание списков словоформ и лексем

Ожидания от списка словоупотреблений

Предваряющее анализ текста создание списка словоупотреблений удобно при выполнении различных типов учебных и академических задач. Оно позволяет отказаться от так называемого приема ручной сплошной выборки независимо от того, составляем ли мы полный лексический портрет текста при его лингвистическом анализе или сосредотачиваемся на лексико-грамматических разрядах, лексико-семантических классах или лексико-семантических группах.
В общем виде предпочтительно, чтобы список словоупотреблений содержал следующие сведения:

начальная форма словоформы
лексико-грамматический разряд словоформы и другая грамматическая информация
информация о частоте употребления в тексте словоформы, а также лексемы как совокупности всех ее словоформ

Все эти сведения можно получить, проанализировав текст с помощью программы mystem, загрузив полученные данные в MS Excel и немного их преобразовав.

Порядок работы

Выполним анализ текста с помощью программы mystem согласно указаниям, приведенным здесь.
- В файл INPUT.TXT помещаем текст песни Виктора Цоя «Звезда по имени Солнце».
- Строка для вставки в пакетный файл:
  mystem -gind --eng-gr --format xml input.txt output.xml
Загрузим файл с результатами в MS Excel и выполним преобразования в соответствии с указаниями в видео (при просмотре лучше включить субтитры).
Сокращения в видео: СФ (словоформа), ГИ (грамматическая информация), НФ (начальная форма), ЧР (часть речи).
Меняя параметры сводной таблицы и набор добавляемых в нее полей, можно формировать и другие таблицы с широкими возможностями по сортировке, фильтрации, дополнительной группировке, сопоставления с контекстом употребления (см, например, здесь) в зависимости от целей анализа.

Страницы

Создание списков словоформ и лексем (с грамматической и частотной атрибуцией)