2.5. Проведение эксперимента и сбор данных

В этом параграфе мы расскажем, как работать с Корпусом, чтобы собрать данные для исследования. С их помощью мы подтвердим или опровергнем нашу гипотезу.

Но для начала разберёмся с терминами корпусной лингвистики.

  • Лемма — начальная форма слова. Например, у слов «бегу», «бежал», «бежим», «бежишь» — одна лемма: «бежать». У слов «дома», «домами», «домом» — лемма «дом». У слов «красивое», «красивые», «красивая» — лемма «красивый». Поиск по леммам нужен для того, чтобы находить все формы слова, а не только конкретную форму.
  • Семантика — раздел лингвистики, который изучает значение слова. Под семантикой конкретного слова, фразы или предложения понимается его значение в определенном контексте. Например, в одних контекстах коса — это причёска, а в других — садовый инструмент.
  • Коллокация — устойчивое сочетание слов, которые часто употребляются вместе. Например, «сильный» и «ветер» часто встречаются вместе. А «принимать» и «решение» используются чаще, чем «выносить» и «решение».

С терминами разобрались, гипотезу сформулировали, подкорпус текстов определили — можно приступать к поиску. Вот полезное видео о том, как задавать условия поиска в НКРЯ:

После того как вы нажмёте кнопку «Искать», система предложит вам несколько видов выдачи результатов поиска. Разберём их подробнее.

Вид выдачи №1. Конкорданс

Конкорданс — это список всех употреблений заданного слова или нескольких слов в определённом тексте или наборе текстов с указанием контекста, в котором это слово используется.

Конкорданс помогает увидеть, как слово функционирует в тексте, какие слова его сопровождают и как это влияет на его значение.

Пример

В основном корпусе НКРЯ можно найти только один пример, когда слова «нанести» и «польза» встречаются вместе.

Рис 1. Глава 1.webp

И 899 примеров употребления «принести» и «польза»:

Рис 2. Глава 1.webp

На что обратить внимание?

  • Вы можете сортировать примеры по разным критериям.
  • Вы можете нажать на слово, чтобы посмотреть его характеристики, перейти в «Портрет слова» или узнать его словарное значение.

Как это можно использовать?

  • Исследовать контекст, в котором встречается слово или словосочетание.
  • Изучить значение (семантику) одного и того же слова в разных контекстах.
  • Сравнить употребление одного и того же слова в разных жанрах, временных периодах, контекстах.
  • Отследить эволюцию употребления слова или выражения.

Вид выдачи №2. KWIC — Key Word in Context, или ключевое слово в контексте

Это особенный способ отображения конкорданса. Слово или сочетание слов, которые вы ищете, помещаются в центре строки, остальные слова — слева или справа. Это позволяет быстрее понять, как искомое слово употребляется в разных ситуациях.

Пример:

Исследуем контексты использования слова «пороть».

Рис 3. Глава 1.webp

Вид выдачи №3. Частотность

Используя этот вид выдачи, мы можем посмотреть, как часто используются заданные слова или сочетания слов в текстах.

Примеры:

Посмотрим, какие глаголы чаще всего используются со словом «польза» в текстах основного корпуса.

Рис 4. Глава 1.webp

Посмотрим, какие транспортные средства чаще всего встречаются в текстах основного корпуса, созданных с 1850 по 1890 годы.

Рис 5. Глава 1.webp

На что обратить внимание?

  • Если вам незнакомы какие-то слова, нажмите на кнопку «Примеры», чтобы посмотреть примеры их использования в текстах.
  • Вы можете искать не только по одному слову, но и по сочетаниям слов, задавая поиск нужным образом.
  • Важно задавать нужный подкорпус, чтобы сравнивать частоту использования слов в разных текстах (разных авторов, в разные периоды времени)

Как это можно использовать?

  • Сравнить частоту использования слова или сочетания слов в разные исторические периоды.
  • Сравнить предпочтения в лексике в разных жанрах (например, слово «инновация» употребляется чаще в газетах или в научных статьях).
  • Исследовать новые слова (например, как часто стали употребляться слова «блогер», «селфи»).
  • Исследовать, какие формы слова чаще употребляются в текстах.
  • Оценить популярность какой-то темы (как часто употребляются «экология», «климат», «пандемия» в разное время).

Вид выдачи №4. График

Этот способ представления данных позволяет нам визуально проанализировать изменение частотности употребления слов или словосочетаний во времени.

Примеры:

Посмотрите на графике, как менялась частота употребления слова «товарищ» в текстах основного корпуса с 1920 по 2020 годы.

Рис 6. Глава 1.webp

Посмотрите на графике, как менялась частота употребления слова «менеджер» в текстах основного корпуса с 1974 по 2024 годы.

Рис 7. Глава 1.webp

На что обратить внимание:

  • График строится на основе точек. Каждая точка показывает количество употреблений слова за период (например, за год), делённое на объём корпуса за этот период и умноженное на 1 миллион. Это принятый в корпусной лингвистике способ измерения относительной частоты слова независимо от объёма корпуса — число вхождений на миллион слов (instances per million, ipm). Так удобнее интерпретировать результаты и исследовать, например, действительно ли Л. Н. Толстой слово «мир» употреблял чаще, чем М. Ю. Лермонтов.
  • Можно выбрать степень сглаживания графика, чтобы увидеть тренды.
  • Сглаживание 0 построит линии от точки к точке; сглаживание 1, 2, 3 и т. д. сделает линию более плавной, строя её на основе усреднённых значений.
  • Слева и снизу от графика вы увидите полосы, с помощью которых можно увеличить или уменьшить масштаб.

Как использовать:
Подойдут те же советы, которые были даны для вида выдачи «частотность». График позволяет вам визуально представить данные, чтобы сделать вывод, а также сравнить до 5 запросов на графике одновременно.

Вид выдачи №5. Статистика

Вид выдачи «Статистика» позволяет изучить информацию о текстах, в которых встречаются искомые слова.

Примеры:
В таблице представлено, в текстах какой тематики встречается новое слово «дедлайн»:

Рис 8. Глава 1 new.webp

Проанализировав таблицу со статистическими данными, можно узнать, в художественных произведениях каких авторов XIX века чаще встречаются слова, обозначающие эмоции и чувства:

Рис 9. Глава 1.webp

На что обратить внимание:

  • Cледите за тем, сколько текстов получается в вашем подкорпусе и сколько текстов и примеров использования выдаётся на ваш запрос.
  • Чем больше текстов — тем более надёжные можно сделать выводы:
    • минимум 30–50 примеров достаточно для первых наблюдений, если вы хотите изучить контекст.
    • более 200 примеров позволят делать более надёжные обобщения.

Как использовать?

  • Сравните употребления слов или словосочетаний в текстах разных жанров, авторов или в текстах различной тематики.
  • Проанализируйте авторский стиль, сравнивая частотность использования разных слов и словосочетаний у разных авторов.
  • Изучите жанровые отличия — например, как часто используются более формальные слова «прошу», «сообщаю» в официальных документах в сравнении с художественной литературой.
  • Сделайте анализ использования лексики в разных сферах применения — например, насколько распространено слово «экосистема» в контекстах, связанных с информационными технологиями, политикой, управлением.

С видами выдачи разобрались. Теперь можем продолжить наши исследования.

Исследование №1: изучаем бытовую историю с помощью Корпуса

Итак, чтобы собрать данные, выберите основной корпус и задайте подкорпус, указав даты с 1751 по 1800 год.

Рис 10. Глава 1 new.webp

В форме лексико-грамматического поиска найдите поле «Семантика». Нажмите «Выбрать», в открывшемся окне поставьте галочку около пункта «транспортные средства».

Рис 11. Глава 1.webp

Рис 12. Глава 1.webp

Выберите вид выдачи «Частотность» и получите таблицу, в которой перечислены все слова, обозначающие транспортные средства, и количество раз, которое они встречались в текстах, — вхождения.

Рис 13. Глава 1.webp

Вы можете скачать эти данные в формате Excel. У вас получится таблица, как в примере ниже.

Рис 14. Глава 1.webp

Чтобы было удобнее работать:

  • Удалите ненужные для этого исследования столбцы, оставив только word (там перечислены искомые слова) и hits (там содержатся данные о том, сколько раз слово встречается в текстах).
  • Добавьте в получившуюся таблицу новые столбцы, описывающие тип энергии, на которых работает транспортное средство.
  • Возьмите не все транспортные средства — у нас получилось 129 разных видов — а лишь те, которые упоминаются более 100 раз.

В новых столбцах отметьте цифрой 1, на каком типе энергии работает каждый вид транспорта, упомянутого в текстах. В случаях когда вы не уверены, обратитесь к словарю или к конкордансу, чтобы посмотреть контекст.

У вас должна получиться такая таблица:

Рис 15. Глава 1.webp

В строке «Итого упоминаний» сложены значения в столбце hits, которые соответствуют каждой категории энергии для разных видов транспорта.

В параграфе 2.4 мы подготовили три таблицы. Заполните их:

Таблица 1. Количество упоминаний разных видов транспорта

05. Таблица 1. Количество упоминаний разных видов транспорта-1.webp

Таблица 2. Разнообразие видов транспорта

06. Таблица 2. Разнообразие видов транспорта-1.webp

Таблица 3. Словарь видов транспорта

07. Таблица 3. Словарь видов транспорта-1.webp

Теперь проделайте то же самое, задав другой временной период: с 1801 по 1851 и так далее и внесите данные в таблицы.

Таблица 4. Количество упоминаний разных видов транспорта

08. Таблица 1. Количество упоминаний разных видов транспорта-2.webp

Таблица 5. Разнообразие видов транспорта

09. Таблица 2. Разнообразие видов транспорта-2.webp

Таблица 6. Словарь видов транспорта

10. Таблица 3. Словарь видов транспорта-2.webp

Вспомним гипотезу, которую сформулировали в начале исследования:

Если сравнить описания способов передвижения людей в текстах разных эпох, то можно выявить закономерности, связанные с развитием технологий.

  • Изучив примеры транспортных средств, встречающихся в текстах основного корпуса НКРЯ в период с 1751 по 2000 год, мы смогли выявить следующие закономерности:
  • Наблюдается постепенное расширение терминологии, связанной с появлением и развитием новых видов транспорта, таких как паровые машины, автомобили и самолеты.
  • Вместе с тем из текстов исчезают или употребляются в них значительно реже термины, обозначающие транспортные средства, работающие на конной тяге, парусах, усилиях мышц.
  • Изменения в текстах демонстрируют постепенный переход от описания транспортных средств как диковинных новинок к их закреплению в повседневной жизни, культуре, в том числе художественной литературе и публицистике, что подтверждается ростом количества упоминаний разных типов транспорта.

Идеи
В этом исследовании мы сгруппировали виды транспортных средств по способам, которыми они приводятся в движение.

Вы можете провести своё собственное исследование, классифицировав слова по любому другому признаку. Например, можно было бы посмотреть:

  • Какие виды повозок в какие годы были распространены.
  • Какие лекарственные препараты и медицинские практики были распространены в разные периоды времени.
  • Какие значения имело слово «машина» и в какой момент этим словом стали называть то же, что называем мы сейчас. Это можно сделать с помощью конкорданса, то есть изучая контекст, в котором используется слово.

Попробуйте сами!

Исследование №2: сравниваем явление в текстах разных авторов, жанров и эпох

На предыдущем шаге мы определили, что будем отбирать тексты двух авторов — А. С. Пушкина и М. Ю. Лермонтова — в корпусе «Русская классика». Начнём с исследования текстов М. Ю. Лермонтова.

Рис 16. Глава 1.webp

В этом исследовании будем изучать не одно слово, а словосочетание.

В форме лексико-грамматического поиска в поле «Лемма» введите слово «дерево». Нажав на иконку «+», добавьте Слово 2. Для него задайте грамматический признак «прилагательное», расстояние от -1 до 1 (это значит, что прилагательное может стоять как до слова «дерево», так и после него).

Также для второго слова задайте синтаксическую связь с первым словом: нажмите «Добавить условие», затем в меню вариантов выберите опцию «Атрибутивный модификатор» (так лингвисты обозначают имя прилагательное, прилагательное-числительное или причастие), а также не забудьте указать, что второе слово зависит от первого.

Рис 17. Глава 1.webp

Затем нажмите кнопку «Искать», выберите выдачу «Частотность». Вот что у нас должно получиться:

Рис 18. Глава 1.webp

Посчитаем количество прилагательных с негативной, позитивной и нейтральной коннотацией. Если сомневаетесь, нажмите на слово «Примеры» и посмотрите, как используется в тексте или текстах автора это сочетание слов.

В конце таблицы добавьте строчку «Доля от общего числа примеров». В результате запроса получено 14 примеров. Количество прилагательных с позитивной коннотацией было 4. Поэтому поделите 4 примера с прилагательными с позитивной коннотацией на 14 примеров. Получится ≈28,57%

Таблица 1.1. Прилагательные, используемые со словом «дерево» в текстах М. Ю. Лермонтова

11. Таблица 1.1. Прилагательные, используемые со словом «дерево» в текстах М. Ю. Лермонтова.webp

Проделайте то же самое с подкорпусом текстов, автором которых является А. С. Пушкин. Получившиеся данные соберите в таблицу.

Важно: ниже вы можете увидеть слова с опечатками вроде «проч.ий» и «чесный». Они действительно иногда встречаются в корпусе — либо потому что так написал автор, либо потому что так их разметила нейросеть. Для чистоты эксперимента мы оставили их в неизменном виде.

Таблица 1.2. Прилагательные, используемые со словом «дерево» в текстах А. С. Пушкина

12. Таблица 1.2. Прилагательные, используемые со словом «дерево» в текстах А. С. Пушкина.webp

Повторим эти действия для слова «гора» в текстах М. Ю. Лермонтова.

Рис 19. Глава 1.webp

Мы видим, что со словом гора встретилось слово «дикий». Чтобы проверить, в каком контексте употребляется это определение (позитивном или негативном), нажмём на кнопку «Примеры». Видим, что в примерах текстов это, скорее, положительная коннотация.

Рис 20. Глава 1.webp

Таблица 2.1. Прилагательные, используемые со словом «гора» в текстах М. Ю. Лермонтова

13. Таблица 2.1. Прилагательные, используемые со словом «гора» в текстах М. Ю. Лермонтова.webp

Сделаем то же самое для подкорпуса с текстами А. С. Пушкина

Рис 21. Глава 1.webp

Проверим коннотацию прилагательного «дикий» по ссылке «Примеры». Судя по примерам, у Пушкина это слово носит скорее негативный оттенок.

Рис 22. Глава 1.webp

Таблица 2.2. Прилагательные, используемые со словом «горы» в текстах А. С. Пушкина

14. Таблица 2.2. Прилагательные, используемые со словом «горы» в текстах А. С. Пушкина.webp

Сделаем то же самое для прилагательных со словом «лес».

Таблица 3.1. Прилагательные, используемые со словом «лес» в текстах М. Ю. Лермонтова

15. Таблица 3.1. Прилагательные, используемые со словом «лес» в текстах М. Ю. Лермонтова.webp

Таблица 3.2. Прилагательные, используемые со словом «лес» в текстах А. С. Пушкина

16. Таблица 3.2. Прилагательные, используемые со словом «лес» в текстах А. С. Пушкина.webp

На основе собранных данных составим сравнительную таблицу:

17. Таблица 1. Количество упоминаний разных видов транспорта-3.webp

Вывод (не открывайте сразу, сначала подумайте сами!)

Напомним нашу гипотезу:

«Если проанализировать тексты А. С. Пушкина и М. Ю. Лермонтова, то увидим, что А. С. Пушкин описывает природу более позитивно и гармонично, а М. Ю. Лермонтов — в более мрачных и драматических оттенках».

Вы проверили всего 3 слова, и те данные, которые вы получили, не подтверждают нашу гипотезу. Конечно, три слова — это очень маленькая выборка, чтобы надёжно сделать какой-то вывод.

Но, если таким образом проанализировать 10, 20 или 50 слов, обозначающих природу, можно получить более надёжные данные. В одиночку это сделать трудно, но можно распределить слова в классе и провести это исследование всем вместе.

Отмечайте параграфы как прочитанные чтобы видеть свой прогресс обучения

Подписывайтесь на канал Корпуса

Здесь вы узнаете об обновлениях и получите полезные советы по работе с Корпусом.
Вступить
Предыдущий параграф2.4. Формулирование гипотезы
Следующий параграф2.6. Публикация результатов