В этом параграфе мы расскажем, как работать с Корпусом, чтобы собрать данные для исследования. С их помощью мы подтвердим или опровергнем нашу гипотезу.
Но для начала разберёмся с терминами корпусной лингвистики.
- Лемма — начальная форма слова. Например, у слов «бегу», «бежал», «бежим», «бежишь» — одна лемма: «бежать». У слов «дома», «домами», «домом» — лемма «дом». У слов «красивое», «красивые», «красивая» — лемма «красивый». Поиск по леммам нужен для того, чтобы находить все формы слова, а не только конкретную форму.
- Семантика — раздел лингвистики, который изучает значение слова. Под семантикой конкретного слова, фразы или предложения понимается его значение в определенном контексте. Например, в одних контекстах коса — это причёска, а в других — садовый инструмент.
- Коллокация — устойчивое сочетание слов, которые часто употребляются вместе. Например, «сильный» и «ветер» часто встречаются вместе. А «принимать» и «решение» используются чаще, чем «выносить» и «решение».
С терминами разобрались, гипотезу сформулировали, подкорпус текстов определили — можно приступать к поиску. Вот полезное видео о том, как задавать условия поиска в НКРЯ:
После того как вы нажмёте кнопку «Искать», система предложит вам несколько видов выдачи результатов поиска. Разберём их подробнее.
Вид выдачи №1. Конкорданс
Конкорданс — это список всех употреблений заданного слова или нескольких слов в определённом тексте или наборе текстов с указанием контекста, в котором это слово используется.
Конкорданс помогает увидеть, как слово функционирует в тексте, какие слова его сопровождают и как это влияет на его значение.
Пример
В основном корпусе НКРЯ можно найти только один пример, когда слова «нанести» и «польза» встречаются вместе.
И 899 примеров употребления «принести» и «польза»:
На что обратить внимание?
- Вы можете сортировать примеры по разным критериям.
- Вы можете нажать на слово, чтобы посмотреть его характеристики, перейти в «Портрет слова» или узнать его словарное значение.
Как это можно использовать?
- Исследовать контекст, в котором встречается слово или словосочетание.
- Изучить значение (семантику) одного и того же слова в разных контекстах.
- Сравнить употребление одного и того же слова в разных жанрах, временных периодах, контекстах.
- Отследить эволюцию употребления слова или выражения.
Вид выдачи №2. KWIC — Key Word in Context, или ключевое слово в контексте
Это особенный способ отображения конкорданса. Слово или сочетание слов, которые вы ищете, помещаются в центре строки, остальные слова — слева или справа. Это позволяет быстрее понять, как искомое слово употребляется в разных ситуациях.
Пример:
Исследуем контексты использования слова «пороть».
Вид выдачи №3. Частотность
Используя этот вид выдачи, мы можем посмотреть, как часто используются заданные слова или сочетания слов в текстах.
Примеры:
Посмотрим, какие глаголы чаще всего используются со словом «польза» в текстах основного корпуса.
Посмотрим, какие транспортные средства чаще всего встречаются в текстах основного корпуса, созданных с 1850 по 1890 годы.
На что обратить внимание?
- Если вам незнакомы какие-то слова, нажмите на кнопку «Примеры», чтобы посмотреть примеры их использования в текстах.
- Вы можете искать не только по одному слову, но и по сочетаниям слов, задавая поиск нужным образом.
- Важно задавать нужный подкорпус, чтобы сравнивать частоту использования слов в разных текстах (разных авторов, в разные периоды времени)
Как это можно использовать?
- Сравнить частоту использования слова или сочетания слов в разные исторические периоды.
- Сравнить предпочтения в лексике в разных жанрах (например, слово «инновация» употребляется чаще в газетах или в научных статьях).
- Исследовать новые слова (например, как часто стали употребляться слова «блогер», «селфи»).
- Исследовать, какие формы слова чаще употребляются в текстах.
- Оценить популярность какой-то темы (как часто употребляются «экология», «климат», «пандемия» в разное время).
Вид выдачи №4. График
Этот способ представления данных позволяет нам визуально проанализировать изменение частотности употребления слов или словосочетаний во времени.
Примеры:
Посмотрите на графике, как менялась частота употребления слова «товарищ» в текстах основного корпуса с 1920 по 2020 годы.
Посмотрите на графике, как менялась частота употребления слова «менеджер» в текстах основного корпуса с 1974 по 2024 годы.
На что обратить внимание:
- График строится на основе точек. Каждая точка показывает количество употреблений слова за период (например, за год), делённое на объём корпуса за этот период и умноженное на 1 миллион. Это принятый в корпусной лингвистике способ измерения относительной частоты слова независимо от объёма корпуса — число вхождений на миллион слов (instances per million, ipm). Так удобнее интерпретировать результаты и исследовать, например, действительно ли Л. Н. Толстой слово «мир» употреблял чаще, чем М. Ю. Лермонтов.
- Можно выбрать степень сглаживания графика, чтобы увидеть тренды.
- Сглаживание 0 построит линии от точки к точке; сглаживание 1, 2, 3 и т. д. сделает линию более плавной, строя её на основе усреднённых значений.
- Слева и снизу от графика вы увидите полосы, с помощью которых можно увеличить или уменьшить масштаб.
Как использовать:
Подойдут те же советы, которые были даны для вида выдачи «частотность». График позволяет вам визуально представить данные, чтобы сделать вывод, а также сравнить до 5 запросов на графике одновременно.
Вид выдачи №5. Статистика
Вид выдачи «Статистика» позволяет изучить информацию о текстах, в которых встречаются искомые слова.
Примеры:
В таблице представлено, в текстах какой тематики встречается новое слово «дедлайн»:
Проанализировав таблицу со статистическими данными, можно узнать, в художественных произведениях каких авторов XIX века чаще встречаются слова, обозначающие эмоции и чувства:
На что обратить внимание:
- Cледите за тем, сколько текстов получается в вашем подкорпусе и сколько текстов и примеров использования выдаётся на ваш запрос.
- Чем больше текстов — тем более надёжные можно сделать выводы:
- минимум 30–50 примеров достаточно для первых наблюдений, если вы хотите изучить контекст.
- более 200 примеров позволят делать более надёжные обобщения.
Как использовать?
- Сравните употребления слов или словосочетаний в текстах разных жанров, авторов или в текстах различной тематики.
- Проанализируйте авторский стиль, сравнивая частотность использования разных слов и словосочетаний у разных авторов.
- Изучите жанровые отличия — например, как часто используются более формальные слова «прошу», «сообщаю» в официальных документах в сравнении с художественной литературой.
- Сделайте анализ использования лексики в разных сферах применения — например, насколько распространено слово «экосистема» в контекстах, связанных с информационными технологиями, политикой, управлением.
С видами выдачи разобрались. Теперь можем продолжить наши исследования.
Исследование №1: изучаем бытовую историю с помощью Корпуса
Итак, чтобы собрать данные, выберите основной корпус и задайте подкорпус, указав даты с 1751 по 1800 год.
В форме лексико-грамматического поиска найдите поле «Семантика». Нажмите «Выбрать», в открывшемся окне поставьте галочку около пункта «транспортные средства».
Выберите вид выдачи «Частотность» и получите таблицу, в которой перечислены все слова, обозначающие транспортные средства, и количество раз, которое они встречались в текстах, — вхождения.
Вы можете скачать эти данные в формате Excel. У вас получится таблица, как в примере ниже.
Чтобы было удобнее работать:
- Удалите ненужные для этого исследования столбцы, оставив только word (там перечислены искомые слова) и hits (там содержатся данные о том, сколько раз слово встречается в текстах).
- Добавьте в получившуюся таблицу новые столбцы, описывающие тип энергии, на которых работает транспортное средство.
- Возьмите не все транспортные средства — у нас получилось 129 разных видов — а лишь те, которые упоминаются более 100 раз.
В новых столбцах отметьте цифрой 1, на каком типе энергии работает каждый вид транспорта, упомянутого в текстах. В случаях когда вы не уверены, обратитесь к словарю или к конкордансу, чтобы посмотреть контекст.
У вас должна получиться такая таблица:
В строке «Итого упоминаний» сложены значения в столбце hits, которые соответствуют каждой категории энергии для разных видов транспорта.
В параграфе 2.4 мы подготовили три таблицы. Заполните их:
Таблица 1. Количество упоминаний разных видов транспорта
Таблица 2. Разнообразие видов транспорта
Таблица 3. Словарь видов транспорта
Теперь проделайте то же самое, задав другой временной период: с 1801 по 1851 и так далее и внесите данные в таблицы.
Таблица 4. Количество упоминаний разных видов транспорта
Таблица 5. Разнообразие видов транспорта
Таблица 6. Словарь видов транспорта
Вспомним гипотезу, которую сформулировали в начале исследования:
Если сравнить описания способов передвижения людей в текстах разных эпох, то можно выявить закономерности, связанные с развитием технологий.
- Изучив примеры транспортных средств, встречающихся в текстах основного корпуса НКРЯ в период с 1751 по 2000 год, мы смогли выявить следующие закономерности:
- Наблюдается постепенное расширение терминологии, связанной с появлением и развитием новых видов транспорта, таких как паровые машины, автомобили и самолеты.
- Вместе с тем из текстов исчезают или употребляются в них значительно реже термины, обозначающие транспортные средства, работающие на конной тяге, парусах, усилиях мышц.
- Изменения в текстах демонстрируют постепенный переход от описания транспортных средств как диковинных новинок к их закреплению в повседневной жизни, культуре, в том числе художественной литературе и публицистике, что подтверждается ростом количества упоминаний разных типов транспорта.
Идеи
В этом исследовании мы сгруппировали виды транспортных средств по способам, которыми они приводятся в движение.
Вы можете провести своё собственное исследование, классифицировав слова по любому другому признаку. Например, можно было бы посмотреть:
- Какие виды повозок в какие годы были распространены.
- Какие лекарственные препараты и медицинские практики были распространены в разные периоды времени.
- Какие значения имело слово «машина» и в какой момент этим словом стали называть то же, что называем мы сейчас. Это можно сделать с помощью конкорданса, то есть изучая контекст, в котором используется слово.
Попробуйте сами!
Исследование №2: сравниваем явление в текстах разных авторов, жанров и эпох
На предыдущем шаге мы определили, что будем отбирать тексты двух авторов — А. С. Пушкина и М. Ю. Лермонтова — в корпусе «Русская классика». Начнём с исследования текстов М. Ю. Лермонтова.
В этом исследовании будем изучать не одно слово, а словосочетание.
В форме лексико-грамматического поиска в поле «Лемма» введите слово «дерево». Нажав на иконку «+», добавьте Слово 2. Для него задайте грамматический признак «прилагательное», расстояние от -1 до 1 (это значит, что прилагательное может стоять как до слова «дерево», так и после него).
Также для второго слова задайте синтаксическую связь с первым словом: нажмите «Добавить условие», затем в меню вариантов выберите опцию «Атрибутивный модификатор» (так лингвисты обозначают имя прилагательное, прилагательное-числительное или причастие), а также не забудьте указать, что второе слово зависит от первого.
Затем нажмите кнопку «Искать», выберите выдачу «Частотность». Вот что у нас должно получиться:
Посчитаем количество прилагательных с негативной, позитивной и нейтральной коннотацией. Если сомневаетесь, нажмите на слово «Примеры» и посмотрите, как используется в тексте или текстах автора это сочетание слов.
В конце таблицы добавьте строчку «Доля от общего числа примеров». В результате запроса получено 14 примеров. Количество прилагательных с позитивной коннотацией было 4. Поэтому поделите 4 примера с прилагательными с позитивной коннотацией на 14 примеров. Получится ≈28,57%
Таблица 1.1. Прилагательные, используемые со словом «дерево» в текстах М. Ю. Лермонтова
Проделайте то же самое с подкорпусом текстов, автором которых является А. С. Пушкин. Получившиеся данные соберите в таблицу.
Важно: ниже вы можете увидеть слова с опечатками вроде «проч.ий» и «чесный». Они действительно иногда встречаются в корпусе — либо потому что так написал автор, либо потому что так их разметила нейросеть. Для чистоты эксперимента мы оставили их в неизменном виде.
Таблица 1.2. Прилагательные, используемые со словом «дерево» в текстах А. С. Пушкина
Повторим эти действия для слова «гора» в текстах М. Ю. Лермонтова.
Мы видим, что со словом гора встретилось слово «дикий». Чтобы проверить, в каком контексте употребляется это определение (позитивном или негативном), нажмём на кнопку «Примеры». Видим, что в примерах текстов это, скорее, положительная коннотация.
Таблица 2.1. Прилагательные, используемые со словом «гора» в текстах М. Ю. Лермонтова
Сделаем то же самое для подкорпуса с текстами А. С. Пушкина
Проверим коннотацию прилагательного «дикий» по ссылке «Примеры». Судя по примерам, у Пушкина это слово носит скорее негативный оттенок.
Таблица 2.2. Прилагательные, используемые со словом «горы» в текстах А. С. Пушкина
Сделаем то же самое для прилагательных со словом «лес».
Таблица 3.1. Прилагательные, используемые со словом «лес» в текстах М. Ю. Лермонтова
Таблица 3.2. Прилагательные, используемые со словом «лес» в текстах А. С. Пушкина
На основе собранных данных составим сравнительную таблицу:
Вывод (не открывайте сразу, сначала подумайте сами!)
Напомним нашу гипотезу:
«Если проанализировать тексты А. С. Пушкина и М. Ю. Лермонтова, то увидим, что А. С. Пушкин описывает природу более позитивно и гармонично, а М. Ю. Лермонтов — в более мрачных и драматических оттенках».
Вы проверили всего 3 слова, и те данные, которые вы получили, не подтверждают нашу гипотезу. Конечно, три слова — это очень маленькая выборка, чтобы надёжно сделать какой-то вывод.
Но, если таким образом проанализировать 10, 20 или 50 слов, обозначающих природу, можно получить более надёжные данные. В одиночку это сделать трудно, но можно распределить слова в классе и провести это исследование всем вместе.