В этой главе мы узнаем, чем данные отличаются от информации и в чём они похожи на котиков. А ещё по-новому взглянем на привычные таблицы и научимся выбирать правильные единицы измерения.
Данные
Представьте ситуацию: вы с друзьями играете в квиз, и вашей команде попадается вопрос: «Верно ли, что насилия в мире стало сильно меньше?» Вы не знаете правильный ответ, но отвечаете утвердительно — и побеждаете.
Дома вы решаете проверить эту информацию — и обнаруживаете, что сделать это не так-то просто, ведь исходный вопрос сформулирован очень абстрактно.
Во-первых, не понятно, что такое насилие в контексте вопроса. Считается ли психологическое насилие? Или речь только о преступности? А если уровень преступности, то как он фиксируется?
Во-вторых, не понятно, как посчитать уровень насилия в рамках всего мира. Это нереальная задача: многие эпизоды насилия выпадают из государственной статистики (особенно если государства как такового нет) или государство не передаёт их международным организациям.
В третьих, в утверждении нет временных рамок. Какой период имеется в виду? Современность? Начало 20-го века? Середина?
В четвёртых, что вообще значит «сильно»? Как оценить «сильность»? Это оценочное суждение, мы можем использовать его в быту, но его сложно перевести в числа.
Такие термины надо заменять чем-то более конкретным.
По-хорошему, вопрос должен был звучать так:
«Верно ли, что количество судебных решений об уголовных преступлениях в Западной Европе снизилось более чем на 10% с 1985 года?»
Почувствовали разницу? Да, от такого вопроса хочется спать, но он предельно конкретный, и на него можно найти ответ. То, что мы только что проделали, называется операционализация предположения.
🔍 Операционализация — это установление связи между выдвинутым предположением и признаками, которые мы можем измерить.
Когда мы операционализировали предположение, его гораздо легче доказать. Для этого нужно собрать данные и проверить его истинность. Данные отличаются от информации. Например, бумажная книга обычно содержит массу полезной информации, но её нельзя назвать данными. Дело в том, что она не формализована, то есть не собрана в виде, в котором мы смогли бы обработать и интерпретировать её.
🔍 Данные — это информация, зафиксированная и представленная в формализованном виде, подходящем для обработки и/или интерпретации.
Если наша информация состоит из одного факта, то её очень легко зафиксировать и проинтерпретировать. Например: «Лондон — столица Великобритании». Отлично, значит, теперь мы знаем, что другие города Великобритании не столица, так как столица может быть только одна. Мы зафиксировали информацию и проинтерпретировали её.
Признаки и наблюдения
Пока мы не двинулись дальше, коротко остановимся на паре нюансов. В социальных науках факты называют признаками, а то, к чему эти факты относятся, — наблюдениями. Да, это сложная формулировка, но примеры ниже расставят всё по своим местам:
Наблюдение |
Признак |
Человек |
Возраст |
Кошка |
Привита или нет |
6Б класс лицея №3 |
Средний балл по истории |
Книга «Война и мир» |
Количество символов |
Пассажир «Титаника» |
Класс каюты |
Наблюдением может быть:
- индивид;
- группа индивидов (например, жители какого-то района);
- единичные природные явления;
- организмы;
- тексты;
- изображения, аудио или видео.
В предположении из предыдущей главки наблюдением будет судебная статистика за год по конкретной стране (первые 2 столбца в таблице ниже), а признаком — количество решений по уголовным преступлениям (3-й столбец).
А вообще, какие признаки о наблюдении нужно зафиксировать? И какие наблюдения нужно выбрать? Исследователь определяет это сам — как раз после операционализации предположения. Главное, чтобы для каждого наблюдения собирался идентичный набор признаков. Мы можем сравнивать между собой зелёное и тёплое, но будет лучше, если мы сравним зелёное с красным, а тёплое с холодным.
Всё, с нюансами разобрались, можно двигаться дальше.
Формализация данных
Итак, мы собрали интересующие нас данные. Что дальше? Дальше наблюдения и их признаки нужно записать в структурированной форме, чтобы их можно было анализировать. Это называется формализация.
🔍 Формализация — представление данных в структурированной форме, подходящей для анализа.
Например, если мы захотим зафиксировать судебную статистику, то нужно будет сделать таблицу, в которой будет несколько колонок:
Страна |
Год |
Количество судебных решений по уголовным преступлениям |
Германия |
1985 |
--- |
Германия |
1986 |
--- |
--- |
--- |
--- |
Франция |
1985 |
--- |
Франция |
1986 |
--- |
Практически всегда формализация подразумевает сохранение данных в каком-нибудь текстовом формате. Например:
- простой неструктурированный текстовый файл (например, txt, doc);
- таблица (csv);
- структурированный текстовый файл (xml, json).
Подробнее о каждом из форматов мы поговорим позднее. Сейчас важно другое: каждый из этих форматов предполагает, что данные записаны в форме текста и содержат информацию о том, как разделены между собой отдельные элементы.
Переменная и её шкала
Напоследок мы добавим ещё одно определение, без которого картина не была бы полной. Но сначала зафиксируем, что уже усвоили.
Если рассмотреть таблицу выше, то:
- сама таблица соответствует всем доступным данным по теме;
- каждая отдельная строка — это одно наблюдение;
- каждая отдельная ячейка в строке — признак наблюдения;
- а чему соответствует колонка?
Правильно, переменной.
Если объяснять на пальцах, то переменная — это «коробка», в которую мы кладём признаки отдельных наблюдений. В этом плане данные похожи на котиков — они тоже любят коробки.
А вот более формальное определение переменной:
🔍 Переменная — общая характеристика наблюдений, которая может быть измерена или посчитана.
Важно запомнить: в таблице переменные всегда в колонках, а наблюдения — в строках. И ещё кое-что: в программировании тоже есть переменные, о них мы поговорим в параграфе 2.3. Пожалуйста, не путайте их с переменными в статистике.
У переменной есть диапазон значений, который она может принимать. Он называется шкала.
🔍 Шкала — это система отношений между реальными объектами, ситуациями и значениями и условными значениями, которые им присвоены.
Мы делим переменные по типу шкалы на группы. Вот несколько примеров:
Шкала (Тип переменной) |
Пример |
Возможные значения |
Описание |
Номинальная |
Регион проживания |
г. Санкт-Петербург, Тюменская область |
Неупорядоченные текстовые или числовые значения |
Ранговая |
Уровень счастья человека |
Высокий, средний, низкий |
Упорядоченные текстовые или числовые значения |
Интервальная |
Возраст человека, округлённый до 10 лет |
11–20, 21–30 |
Упорядоченные числовые значения, которые разделены на равные интервалы |
Непрерывная или абсолютная |
Рост человека |
167, 178, 203 |
Упорядоченные числовые значения |
Обычно мы просто говорим, что возраст в данных — это интервальная переменная. Этого вполне достаточно, чтобы объяснить, что есть в данных.
Это важно запомнить, потому что тип переменной определяет, что можно и что нельзя с ней делать. Иногда нам даже приходится преобразовывать переменную в другой тип, чтобы проверить своё предположение. Подробнее об этом мы будем говорить дальше, а сейчас даём такое вот простое пояснение, чтобы сильно вас не путать, — за него нам наверняка прилетит от коллег-статистиков.
Хотя шкала ассоциируется с линейкой и последовательным расположением элементов на ней, некоторые шкалы нельзя упорядочить — например, номинальную. Так, в Санкт-Петербурге есть восемнадцать районов, которые мы можем использовать для кодирования адреса наблюдений, но их нельзя расставить по порядку от большего к меньшему.
Ещё, чтобы сделать свою жизнь проще, мы часто называем первые три типа категориальными (т. е. дискретными) шкалами.
🔍 Дискретность — свойство, противопоставляемое непрерывности, прерывистость.
Например, расстояния между городами или рост человека могут быть выражены любым произвольным значением в метрах. А дискретность — это любое нарушение непрерывности. Вот несколько примеров дискретных переменных: цвет глаз, жанр книги, школьная оценка и номер подъезда.
🔍 Непрерывная переменная — переменная, которая может принимать любые значения в некотором интервале.
🔍 Дискретная (категориальная) переменная — переменная, которая может принимать ограниченный диапазон значений.
Важно не только то, что именно мы фиксируем (признак), но и то, каким образом мы это делаем (переменная и шкала, в которой она выражена). Одни и те же признаки могут быть выражены разными способами, которые определяют наши дальнейшие действия. Позднее мы поговорим о том, что мы можем сделать с собранными данными.
Мы разобрались с тем, что такое данные, из чего они состоят и какими бывают их шкалы. В следующем параграфе мы научимся описывать данные и сравнивать их между собой. Да, звучит не так ярко, но это основа для десятка профессий, включая digital-маркетинг, продакт-менеджмент, проджект-менеджмент, машинное обучение и многие другие. Так что советуем быть внимательнее!