В этом параграфе расскажем, из каких шагов состоит планирование эксперимента и выбор респондентов.
В качестве примера понаблюдаем за двумя группами людей с диагностированной депрессией, которые посещают и не посещают психотерапевта.
Подготовка
Самый первый шаг в любом эксперименте — оценка базовых ресурсов:
- время;
- деньги;
- доступ к респондентам;
- опыт исследователя.
От них будет зависеть дизайн эксперимента. Прозвучит банально, но сказать об этом стоит: ресурсы должны соответствовать размаху идеи. Например, не стоит делать медицинское исследование в масштабах всей страны, если у вас бюджет всего 100 тысяч рублей. А вот маркетинговое исследование с таким бюджетом сделать можно.
После оценки ресурсов нам нужно точно определить цель эксперимента, а именно — сформулировать его главный вопрос. В нашем эксперименте с посещающими и не посещающими психотерапию людьми главный вопрос будет звучать так: «Каким образом посещение психотерапевта влияет на самочувствие людей с депрессией?». Мы ожидаем ответ с направлением («улучшает», «ухудшает», «не влияет») и количественным показателем (если изменение происходит, то в каком объёме?).
Затем нам нужно выбрать целевые переменные и операционализировать их. Целевыми переменными в данном случае будут «посещение психотерапевта» и «самочувствие людей с депрессией». Здесь «самочувствие людей с депрессией» — это зависимая переменная. «Посещение психотерапевта» — независимая, так как она оказывает влияние на зависимую.
Теперь нам нужно определить, как именно мы их трактуем. Грубо говоря, это как в начале договора на аренду жилья даются определения терминов — кто именно считается нанимателем, кто именно арендодателем и так далее. Для эксперимента это важно, поскольку даёт нам уверенность, что мы говорим об одном и том же и можем измерить эти явления.
Например:
- посещение психотерапевта — не менее года регулярных визитов к специалисту как минимум раз в две недели;
- самочувствие людей с депрессией — результат заполнения опросника Бека.
Далее нам необходимо составить список факторов, которые могут потенциально влиять на наши целевые переменные — чтобы учесть их при разделении респондентов на контрольную и экспериментальную группы.
Например:
- место жительства;
- возраст;
- уровень образования;
- пол;
- и так далее.
Здесь важна умеренность. Понятное дело, что мы можем включить почти любой фактор, вроде «любит танцевать бачату» и «не любит сельдерей». Но так делать не нужно: чем больше факторов, тем больше разнообразных респондентов нам придётся включить в эксперимент. И тогда попробуй найти 50-летнего любителя бачаты из Таганрога с высшим образованием.
Мы не утверждаем, что их нет — просто это будет трудно.
Как подобрать респондентов
Как только список факторов готов, мы можем собрать по нему список респондентов. Тут может возникнуть вопрос — а сколько людей набирать? Однозначного ответа нет. Мы можем посоветовать три вещи:
- Соблюдайте разумный баланс между достаточностью информации и финансовыми/трудовыми затратами.
- Посмотрите, как организовывали эксперименты в вашей области другие люди.
- Проведите пилотный эксперимент.
Также добавим, что есть два надёжных способа сформировать репрезентативную выборку респондентов:
- случайное распределение;
- квотирование.
Случайное распределение
Если мы будем отбирать участников случайным образом, то их индивидуальные особенности, согласно статистическим законам, будут равномерно распределены и не исказят результаты. То есть в экспериментальную и контрольную группы попадут люди разного гендера, возраста, уровня образования и дохода, региона происхождения и так далее, что в теории позволит минимизировать смещения.
Почему в теории? Дело в том, что полностью случайный отбор может быть невозможен из-за существующих ограничений. Если мы изучаем посетителей психотерапевта в городе N и знаем стоимость этой услуги, мы сразу можем понять, что в экспериментальную группу не попадут люди с доходом ниже определённого уровня. Доход связан с образованием, происхождением, сферой занятости, образом жизни — словом, наша выборка будет смещена в любом случае, несмотря на рандомизацию. Это называется систематической ошибкой отбора.
🔍 Систематическая ошибка отбора — наличие неучтённых факторов из-за которых распределение наблюдений между экспериментальной и контрольной группами оказалось неслучайным.
Систематическая ошибка отбора приводит к тому, что одна из групп недопредставлена в эксперименте. Чтобы сократить отрыв, можно разделить участников контрольной и экспериментальной групп на дополнительные подгруппы (блоки). Для разных блоков (например, мужского и женского гендеров) будут проводиться отдельные вычисления, что снизит ошибку эксперимента.
Квотирование
В этом случае мы подбираем участников по квотам, ориентируясь на генеральную совокупность. Ключевая идея — подобрать равное количество участников по факторам, которые мы определили выше. Например:
- 50% мужчин, 50% женщин;
- 33% — жители городов с населением > 1 млн человек, 33% из городов с населением от 100 тысяч до 1 млн человек, 33% из городов с населением от 50 тысяч до 100 тысяч человек;
- 50% — с высшим образованием, 50% — без него;
- 25% — в возрасте 18-25 лет, 25% — в возрасте 25-30 лет, 25% — в возрасте 30-35 лет, 25% — в возрасте старше 30 лет.
С таким распределением вы сможете подобрать респондентов так, чтобы получить достоверные ответы. Тут также есть два способа:
- Составить таблицу сопряжённости — то есть подобрать квоту из расчёта взаимовлияния этих факторов друг на друга. О таблицах сопряжённости мы говорили в параграфе 4.2.
Пример таблицы сопряжённости для двух факторов (высшее образование и размер города) и выборки в 996 человек:
Сопутствующий фактор |
C высшим образованием |
Без высшего образования |
Жители больших городов |
166 |
166 |
Жители средних городов |
166 |
166 |
Жители малых городов |
166 |
166 |
- Не учитывать взаимовлияние факторов — то есть, условно, опросить 500 женщин и 500 мужчин, из которых — 330 жителей из городов с населением >1 млн человек, 330 жителей городов с населением от 100 тысяч до 1 млн человек и так далее. Такой способ чуть менее точен, но он проще — главное выдерживать общее распределение в отдельных группах.
От чего зависит — какой способ подбора респондентов выбрать
Всегда выбирайте случайное распределение.
Но если только вы проводите эксперимент, в котором вам важно понаблюдать за узкой целевой аудиторией, выбирайте квотирование.
Примеры такой аудитории:
- Зрители телеканала «Матч-ТВ» (относительно всех телезрителей).
- Фронтенд-разработчики с опытом работы >2 лет (относительно всех программистов).
- Жители Хабаровска (относительно жителей всей страны).
В противном случае голос этих респондентов потеряется среди «более широкой» аудитории.
Ещё одна причина выбирать квотирование — чтобы застраховаться от самоотбора. Это ситуация, когда одна группа людей участвует в исследовании охотнее других, что влияет на результаты. Пример — замеры предпочтений телезрителей. Для этого по-прежнему используют специальное устройство, а участникам платят вознаграждение. Соответственно, в замерах охотнее принимают участие люди с достатком ниже среднего — и замеры отражают больше их вкусы, чем людей с очень высокими доходами.
Мы также применим квотирование — чтобы случайно не набрать в эксперимент только жителей Москвы и Петербурга.
Что дальше
Далее мы делим наших участников на контрольную и экспериментальную группы. Важно сделать так, чтобы они не знали, в какой они группе — иначе есть шанс, что они будут вести себя иначе, чем «в естественной среде». Поэтому ничего им не говорите и не давайте самим выбирать группу. Это будет ваша маленькая тайна.
Далее можно переходить непосредственно к самому эксперименту. Как его провести — зависит от цели вашего исследования. Но для вдохновения вот описания нескольких хороших экспериментов:
- «Правда ли, что Эмили и Грегу проще найти работу, чем Лакише и Джамалю?», — полевой эксперимент о дискриминации на рынке труда.
- «Re-revisiting the marshmallow test: A direct comparison of studies by Shoda, Mischel, and Peake (1990) and Watts, Duncan, and Quan (2018)» — подробный разбор зефирного эксперимента
- «Political Corruption and Social Trust: An Experimental Approach» — и ещё один пример
Наш эксперимент будет заключаться в том, что мы проведём серию интервью с респондентами из экспериментальной и контрольной группы, задавая им одинаковые вопросы из опросника в течение года. Нюанс в том, что люди из экспериментальной группы ходят к психотерапевту, а из контрольной — нет.
Для эксперимента потребуется опросник. Мы используем готовый — тот самый опросник Бека. Если для вашего эксперимента готовых опросников нет, то его придётся составить самостоятельно, взяв за основу шкалу зависимой переменной.
В нашем эксперименте мы ежемесячно будем связываться с респондентами из обеих групп и просить их заполнить опросник Бека, фиксируя результат. А в конце года обработаем данные и подведём итоги по двум группам. Забегая вперёд скажем, что тут потребуется T-тест из параграфа 3.2.
Важные нюансы напоследок
Тут мы собрали неочевидные вещи, о которых стоит помнить при проведении экспериментов.
- Важно правильно оценить то, насколько исследуемые объекты поддаются управлению и контролю. Легко исследовать, например, комнатные растения: у них нет выбора. А люди (особенно в продолжительных экспериментах), склонны терять интерес и выбывать. В этом случае мы можем:
- набрать респондентов с запасом;
- не обращать на проблему внимания;
- при подведении итогов использовать промежуточные точки, где было больше людей (например, взять измерения за полгода вместо года, если до конца никто не дошёл).
- Не стоит набирать респондентов только через интернет-опросы. Потому что в этом случае вы не охватите людей, которые не пользуются интернетом или не проходят опросы в интернете.
- Не стоит просить респондентов пригласить для участия в эксперименте своих друзей. Обычно люди дружат с людьми, похожими на себя, — и это также может исказить результаты эксперимента.
- Если вы составляете опросник самостоятельно, то применяйте принцип «Один вопрос — одна переменная». Иначе вам будет тяжело обрабатывать результаты, плюс респондент может растеряться и ответить невпопад.
Вот и всё. Теперь вы знаете, как правильно планировать эксперимент, и какие трудности могут тут возникнуть.
В следующем параграфе мы познакомимся с новыми инструментами в Python — они позволят наглядно представить результаты экспериментов.