В этой главе мы узнаем, чем данные отличаются от информации и в чём они похожи на котиков. А ещё по-новому взглянем на привычные таблицы и научимся выбирать правильные единицы измерения.

Данные

Представьте ситуацию: вы с друзьями играете в квиз, и вашей команде попадается вопрос: «Верно ли, что насилия в мире стало сильно меньше?» Вы не знаете правильный ответ, но отвечаете утвердительно — и побеждаете.

Дома вы решаете проверить эту информацию — и обнаруживаете, что сделать это не так-то просто, ведь исходный вопрос сформулирован очень абстрактно.

Во-первых, не понятно, что такое насилие в контексте вопроса. Считается ли психологическое насилие? Или речь только о преступности? А если уровень преступности, то как он фиксируется?

Во-вторых, не понятно, как посчитать уровень насилия в рамках всего мира. Это нереальная задача: многие эпизоды насилия выпадают из государственной статистики (особенно если государства как такового нет) или государство не передаёт их международным организациям.

В третьих, в утверждении нет временных рамок. Какой период имеется в виду? Современность? Начало 20-го века? Середина?

В четвёртых, что вообще значит «сильно»? Как оценить «сильность»? Это оценочное суждение, мы можем использовать его в быту, но его сложно перевести в числа.
Такие термины надо заменять чем-то более конкретным.

По-хорошему, вопрос должен был звучать так:

«Верно ли, что количество судебных решений об уголовных преступлениях в Западной Европе снизилось более чем на 10% с 1985 года?»

Почувствовали разницу? Да, от такого вопроса хочется спать, но он предельно конкретный, и на него можно найти ответ. То, что мы только что проделали, называется операционализация предположения.

🔍 Операционализация — это установление связи между выдвинутым предположением и признаками, которые мы можем измерить.

Когда мы операционализировали предположение, его гораздо легче доказать. Для этого нужно собрать данные и проверить его истинность. Данные отличаются от информации. Например, бумажная книга обычно содержит массу полезной информации, но её нельзя назвать данными. Дело в том, что она не формализована, то есть не собрана в виде, в котором мы смогли бы обработать и интерпретировать её.

🔍 Данные — это информация, зафиксированная и представленная в формализованном виде, подходящем для обработки и/или интерпретации.

Если наша информация состоит из одного факта, то её очень легко зафиксировать и проинтерпретировать. Например: «Лондон — столица Великобритании». Отлично, значит, теперь мы знаем, что другие города Великобритании не столица, так как столица может быть только одна. Мы зафиксировали информацию и проинтерпретировали её.

Признаки и наблюдения

Пока мы не двинулись дальше, коротко остановимся на паре нюансов. В социальных науках факты называют признаками, а то, к чему эти факты относятся, — наблюдениями. Да, это сложная формулировка, но примеры ниже расставят всё по своим местам:

Наблюдение

Признак

Человек

Возраст

Кошка

Привита или нет

6Б класс лицея №3

Средний балл по истории

Книга «Война и мир»

Количество символов

Пассажир «Титаника»

Класс каюты

Наблюдением может быть:

  • индивид;
  • группа индивидов (например, жители какого-то района);
  • единичные природные явления;
  • организмы;
  • тексты;
  • изображения, аудио или видео.

В предположении из предыдущей главки наблюдением будет судебная статистика за год по конкретной стране (первые 2 столбца в таблице ниже), а признаком — количество решений по уголовным преступлениям (3-й столбец).

А вообще, какие признаки о наблюдении нужно зафиксировать? И какие наблюдения нужно выбрать? Исследователь определяет это сам — как раз после операционализации предположения. Главное, чтобы для каждого наблюдения собирался идентичный набор признаков. Мы можем сравнивать между собой зелёное и тёплое, но будет лучше, если мы сравним зелёное с красным, а тёплое с холодным.

Всё, с нюансами разобрались, можно двигаться дальше.

Формализация данных

Итак, мы собрали интересующие нас данные. Что дальше? Дальше наблюдения и их признаки нужно записать в структурированной форме, чтобы их можно было анализировать. Это называется формализация.

🔍 Формализация — представление данных в структурированной форме, подходящей для анализа.

Например, если мы захотим зафиксировать судебную статистику, то нужно будет сделать таблицу, в которой будет несколько колонок:

Страна

Год

Количество судебных решений по уголовным преступлениям

Германия

1985

---

Германия

1986

---

---

---

---

Франция

1985

---

Франция

1986

---

Практически всегда формализация подразумевает сохранение данных в каком-нибудь текстовом формате. Например:

  • простой неструктурированный текстовый файл (например, txt, doc);
  • таблица (csv);
  • структурированный текстовый файл (xml, json).

Подробнее о каждом из форматов мы поговорим позднее. Сейчас важно другое: каждый из этих форматов предполагает, что данные записаны в форме текста и содержат информацию о том, как разделены между собой отдельные элементы.

Переменная и её шкала

Напоследок мы добавим ещё одно определение, без которого картина не была бы полной. Но сначала зафиксируем, что уже усвоили.

Если рассмотреть таблицу выше, то:

  • сама таблица соответствует всем доступным данным по теме;
  • каждая отдельная строка — это одно наблюдение;
  • каждая отдельная ячейка в строке — признак наблюдения;
  • а чему соответствует колонка?

Правильно, переменной.

Если объяснять на пальцах, то переменная — это «коробка», в которую мы кладём признаки отдельных наблюдений. В этом плане данные похожи на котиков — они тоже любят коробки.

А вот более формальное определение переменной:

🔍 Переменная — общая характеристика наблюдений, которая может быть измерена или посчитана.

Важно запомнить: в таблице переменные всегда в колонках, а наблюдения — в строках. И ещё кое-что: в программировании тоже есть переменные, о них мы поговорим в параграфе 2.3. Пожалуйста, не путайте их с переменными в статистике.

У переменной есть диапазон значений, который она может принимать. Он называется шкала.

🔍 Шкала — это система отношений между реальными объектами, ситуациями и значениями и условными значениями, которые им присвоены.

Мы делим переменные по типу шкалы на группы. Вот несколько примеров:

Шкала (Тип переменной)

Пример

Возможные значения

Описание

Номинальная

Регион проживания

г. Санкт-Петербург, Тюменская область

Неупорядоченные текстовые или числовые значения

Ранговая

Уровень счастья человека

Высокий, средний, низкий

Упорядоченные текстовые или числовые значения

Интервальная

Возраст человека, округлённый до 10 лет

11–20, 21–30

Упорядоченные числовые значения, которые разделены на равные интервалы

Непрерывная или абсолютная

Рост человека

167, 178, 203

Упорядоченные числовые значения

Обычно мы просто говорим, что возраст в данных — это интервальная переменная. Этого вполне достаточно, чтобы объяснить, что есть в данных.

Это важно запомнить, потому что тип переменной определяет, что можно и что нельзя с ней делать. Иногда нам даже приходится преобразовывать переменную в другой тип, чтобы проверить своё предположение. Подробнее об этом мы будем говорить дальше, а сейчас даём такое вот простое пояснение, чтобы сильно вас не путать, — за него нам наверняка прилетит от коллег-статистиков.

Хотя шкала ассоциируется с линейкой и последовательным расположением элементов на ней, некоторые шкалы нельзя упорядочить — например, номинальную. Так, в Санкт-Петербурге есть восемнадцать районов, которые мы можем использовать для кодирования адреса наблюдений, но их нельзя расставить по порядку от большего к меньшему.

Ещё, чтобы сделать свою жизнь проще, мы часто называем первые три типа категориальными (т. е. дискретными) шкалами.

🔍 Дискретность — свойство, противопоставляемое непрерывности, прерывистость.

Например, расстояния между городами или рост человека могут быть выражены любым произвольным значением в метрах. А дискретность — это любое нарушение непрерывности. Вот несколько примеров дискретных переменных: цвет глаз, жанр книги, школьная оценка и номер подъезда.

🔍 Непрерывная переменная — переменная, которая может принимать любые значения в некотором интервале.

🔍 Дискретная (категориальная) переменная — переменная, которая может принимать ограниченный диапазон значений.

Важно не только то, что именно мы фиксируем (признак), но и то, каким образом мы это делаем (переменная и шкала, в которой она выражена). Одни и те же признаки могут быть выражены разными способами, которые определяют наши дальнейшие действия. Позднее мы поговорим о том, что мы можем сделать с собранными данными.

Мы разобрались с тем, что такое данные, из чего они состоят и какими бывают их шкалы. В следующем параграфе мы научимся описывать данные и сравнивать их между собой. Да, звучит не так ярко, но это основа для десятка профессий, включая digital-маркетинг, продакт-менеджмент, проджект-менеджмент, машинное обучение и многие другие. Так что советуем быть внимательнее!

Отмечайте параграфы как прочитанные чтобы видеть свой прогресс обучения

Вступайте в сообщество хендбука

Здесь можно найти единомышленников, экспертов и просто интересных собеседников. А ещё — получить помощь или поделиться знаниями.
Вступить
Сообщить об ошибке
Предыдущий параграф1.4. Установка и использование Python
Следующий параграф2.2. Прямые распределения