Ожидания от списка словоупотреблений
Предваряющее анализ текста создание списка словоупотреблений удобно при выполнении различных типов учебных и академических задач. Оно позволяет отказаться от так называемого приема ручной сплошной выборки независимо от того, составляем ли мы полный лексический портрет текста при его лингвистическом анализе или сосредотачиваемся на лексико-грамматических разрядах, лексико-семантических классах или лексико-семантических группах.В общем виде предпочтительно, чтобы список словоупотреблений содержал следующие сведения:
- начальная форма словоформы
- лексико-грамматический разряд словоформы и другая грамматическая информация
- информация о частоте употребления в тексте словоформы, а также лексемы как совокупности всех ее словоформ
Порядок работы
- Выполним анализ текста с помощью программы mystem согласно указаниям, приведенным здесь.
- В файл INPUT.TXT помещаем текст песни Виктора Цоя «Звезда по имени Солнце».
- Строка для вставки в пакетный файл:
mystem -gind --eng-gr --format xml input.txt output.xml
- Загрузим файл с результатами в MS Excel и выполним преобразования в соответствии с указаниями в видео (при просмотре лучше включить субтитры).
Сокращения в видео: СФ (словоформа), ГИ (грамматическая информация), НФ (начальная форма), ЧР (часть речи).
- Меняя параметры сводной таблицы и набор добавляемых в нее полей, можно формировать и другие таблицы с широкими возможностями по сортировке, фильтрации, дополнительной группировке, сопоставления с контекстом употребления (см, например, здесь) в зависимости от целей анализа.