Создание списков словоформ и лексем (с грамматической и частотной атрибуцией)

Создание списков словоформ и лексем
Ожидания от списка словоупотребленийПредваряющее анализ текста создание списка словоупотреблений удобно при выполнении различных типов учебных и академических задач. Оно позволяет отказаться от так называемого приема ручной сплошной выборки независимо от того, составляем ли мы полный лексический портрет текста при его лингвистическом анализе или сосредотачиваемся на лексико-грамматических разрядах, лексико-семантических классах или лексико-семантических группах.
В общем виде предпочтительно, чтобы список словоупотреблений содержал следующие сведения:
  • начальная форма словоформы
  • лексико-грамматический разряд словоформы и другая грамматическая информация
  • информация о частоте употребления в тексте словоформы, а также лексемы как совокупности всех ее словоформ
Все эти сведения можно получить, проанализировав текст с помощью программы mystem, загрузив полученные данные в MS Excel и немного их преобразовав.

Порядок работы
  1. Выполним анализ текста с помощью программы mystem согласно указаниям, приведенным здесь.
    • В файл INPUT.TXT помещаем текст песни Виктора Цоя «Звезда по имени Солнце».
    • Строка для вставки в пакетный файл:
      mystem -gind --eng-gr --format xml input.txt output.xml
  2. Загрузим файл с результатами в MS Excel и выполним преобразования в соответствии с указаниями в видео (при просмотре лучше включить субтитры).
    Сокращения в видео: СФ (словоформа), ГИ (грамматическая информация), НФ (начальная форма), ЧР (часть речи).
  3. Меняя параметры сводной таблицы и набор добавляемых в нее полей, можно формировать и другие таблицы с широкими возможностями по сортировке, фильтрации, дополнительной группировке, сопоставления с контекстом употребления (см, например, здесь) в зависимости от целей анализа.