В прошлых параграфах мы представляли данные в форме таблиц. Но есть и другие способы представления — например, графики.
Вот их достоинства:
- лучше воспринимаются человеком, чем таблицы или тексты;
- помогают сравнивать данные между собой;
- на график смотреть приятнее, чем на таблицу, — особенно если выбрать подходящий тип графика и подходящее форматирование;
- позволяют увидеть структуру распределения данных.
В этом параграфе мы рассмотрим способы оформления, типы графиков и способы их визуализации с помощью Python.
Тип графика
Мы уже говорили, о том, что одна из исследовательских задач — получить подробное и наглядное описание данных. Для этого мы можем менять структуру таблиц, использовать описательные статистики и визуализировать распределения. Однако этого может быть недостаточно, если мы хотим отразить сложную характеристику, которая не сводится к одному числу.
Например, нам может быть нужно сравнить среднее значение переменной между десятью разными группами. Сделать это в уме может быть непросто. Здесь нам может помочь визуализация.
🔍 Визуализация — это общее название изобразительных (графических) способов представления числовой или текстовой информации, которые могут использоваться для описания и анализа.
Закономерности в данных могут быть сложными для восприятия в табличной форме, и использование графиков делает их восприятие проще. Основная сложность в том, чтобы не запутать никого из-за использования неподходящего графика.
Может быть несколько способов визуализации одних и тех же данных, поэтому нужно выбрать наиболее подходящий из них. Выбор зависит того, какие типы переменных нужно отобразить.
Графически можно отобразить любой вид переменных. Но вид графика зависит от типа шкалы, о которых мы говорили в одном из прошлых параграфов. Мы можем привести следующую таблицу соответствий, оговорившись, что она неполная и примерная.
Шкала |
Тип графика |
Номинальная |
Бар-чарт, точечная диаграмма |
Интервальная |
Гистограмма, линейный график, бокс плоты |
Абсолютная |
Гистограмма, линейный график, точечная диаграмма, бокс плоты |
Ранговая |
Бар-чарт |
Как табличные данные состоят из отдельных элементов, так и график состоит из отдельных частей, которые могут кодировать различную информацию. Данные сами по себе не имеют ценности без должного оформления. Правильное оформление графика объясняет данные, неправильное — запутывает и обманывает потенциального читателя. В этом параграфе мы поговорим об отдельных элементах любого графика, а в следующей — о том, как использовать разные типы графиков.
Есть несколько основных элементов графика:
- цвет;
- размер фигур;
- легенда;
- заголовок и подзаголовок;
- подписи к осям.
Первые два используются для кодирования дополнительных переменных (двух или трёх на одном графике), оставшиеся — для уточнения того, что именно закодировано в графике.
Цвет и размер фигур
Первый элемент, который есть на любом графике, — это цвет. Обычно элементы на графике покрашены в какой-то один цвет, но если вы хотите показать разницу между категориями, то можно использовать несколько цветов.
С осторожностью используйте разные цвета для отдельных категорий, когда они не добавляют дополнительной информации. Например, если высота столбцов кодирует количество просмотров кинофильмов для каждой кинокомпании, то цвет в этом случае не несёт дополнительной информации. Он мог бы помочь различить кинокомпании, но мы уже подписали их снизу.
Если мы хотим обратить внимание читателя на показатели рейтинга просмотров компании Netflix, то вспомогательные и второстепенные линии и фигуры лучше делать пастельными и не отвлекающими внимание.
Следующий элемент — это размер. Размер может использоваться для выражения величины переменной. Например, размер окружностей — это один из вариантов добавления на точечную диаграмму информации о значении второй переменной.
Но не стоит применять цвет и размер одновременно, если они не добавляют информацию. Например, цвет на первом графике влияет лишь на эстетическое восприятие. На втором графике цвет однотонный, поэтому внимание читателя фокусируется на размерах окружностей.
И наоборот — можно использовать и цвет, и размер, если мы хотим отобразить на одном графике несколько переменных. Например, возраст, рост, вес и доход человека.
В этом случае:
- ось
X
обозначает рост; - ось
Y
— возраст; - диаметр кружочка — вес;
- насыщенность цвета — доход.
Легенда
Часто размер или цвет нуждаются в пояснении: какой цвет или размер какому значению соответствует. У предыдущих графиков мы не использовали пояснения, поэтому там сложно понять, где и какие значения. Чтобы сделать значения понятными, можно использовать легенду – дополнительную врезку на графике. Она показывает соответствие цветов или размеров для каждой из категорий.
Если шкала переменной относится к абсолютной, легенда будет показывать палитру цвета разных оттенков.
При использовании многих цветов или размеров может быть сложно сделать легенду компактной и читаемой, поэтому стоит ограничить их число.
Заголовки и подписи
Обычно график без подписей непонятен читателю. Важно зафиксировать, что именно мы хотим показать с помощью визуализации. Для этого мы используем заголовок (название графика) и подписи к осям.
В заголовке содержится основной вопрос, на который отвечает график. В подзаголовке можно прописать дополнительную информацию о данных. Например, заголовок может сообщать о количестве вышедших фильмов, а подзаголовок — описывать временные рамки (с 1990 по 2021 год).
Обычно нужно подписывать оси и значения на них, чтобы читатель мог понять, где и какой параметр находится, а также по какой шкале он изменяется.
Помимо названий, ось должна содержать информацию о том, в каких единицах кодируется информация и как соотносятся значения переменной и отметки на шкале. Эти подписи могут быть у шкал, а могут быть добавлены к элементам графика.
Иногда это не нужно. Например, если на бар-чарте по оси Y отображается количество значений оси X и вы используете подписи над каждым столбцом на графике, то ось Y перестаёт быть нужной при визуализации, поэтому её стоит удалить. Например, на графике выше «Количество вышедших фильмов в период с 1990 по 2021 год» была удалена ось Y. Данные о количестве фильмов за каждый год теперь располагаются над вершинами прямоугольников.
Советы по оформлению графиков
Есть несколько общих принципов, про которые нужно помнить.
При работе с гистограммами и бар-чартами необходимо начинать шкалу по каждой из осей с нуля. В противном случае, как показано на примерах, разрыв между разными столбцами визуально будет восприниматься более значительным, чем на самом деле. Не стоит визуально обманывать собственных читателей.
Например, шкала графика с левой стороны начинается не с нуля. Из-за этого кажется, что количество просмотров для каждой киностудии визуально меньше, чем в диаграмме справа.
При работе с категориальными переменными столбцы упорядочивают по высоте от большего к меньшему, если у нас нет изначально заданного ранжирования элементов по порядку. Это могут быть названия месяцев или дней недели.
Но, если мы визуализируем неупорядоченную переменную, например жанры кино, мы можем не упорядочивать их по буквам алфавита. Вместо этого стоит упорядочить их от большего количества значений к меньшему. Так визуально проще заметить, что фильмы — самая популярная категория, а анимация менее популярна.
Аналогичная рекомендация есть и у значений с нулевым количеством наблюдений. Как показано на графике справа, при удалении значений «Март» и «Май» сбивается порядок месяцев.
На графике справа «Март» и «Май» не были удалены, поэтому на графике появились значения по оси X, в которых отсутствовали наблюдения. Однако в данном случае это правильное решение.
Читатель ждёт, что на графике будет информация обо всех месяцах, поэтому для него важно отсутствие значений для каких-то из них. Это верно для любых упорядоченных переменных.
Простая визуализация лучше, чем сложная. Помните о том, что дополнительные элементы распыляют внимание, а стремление к минималистичности помогает сфокусировать его на нужных деталях. Когда мы работаем с бар-чартами (и с любыми другими типами графиков), не нужно добавлять картинки для «красоты» или делать подписи разными шрифтами, потому что это мешает считыванию графика. Лучше оставить минимум посторонних картинок. Только графики.
3D-визуализация — плохой тон! Не нужно её использовать, плоские двумерные графики практически всегда намного понятнее.
Например, графическое отображение бар-чартов в простом виде несёт больше информации, позволяет фокусировать внимание на результатах.
Для фильмов, мультфильмов и прочих категорий лучше сделать два варианта графика, а не оставлять всё на одном 3D-графике — иначе столбцы будут перекрывать друг друга. В таком случае первый будет отображать данные за разные годы, второй — количество вышедших произведений за определённый год.
Не нужно визуализировать переменные с большим количеством значений на одном графике, потому что они могут стать нечитаемыми. Если превратить линейный график в «лапшу», то её будет сложно читать. Стоит разделить собственные значения по разным группам и визуализировать их в нескольких графиках.
Например, визуализацию количества вышедших фильмов в разных странах стоило бы разделить на группы, так как многие страны выпускают фильмы. Некоторые страны, которые снимали фильмы совместно, показаны в отдельной категории. Из-за этого слева получился нечитаемый график.
Также рекомендуется не удалять значения, например «Другие», из переменных, потому что это может исказить восприятие результатов. На графике ниже мы визуализировали данные о кассовых сборах фильмов. Если обратить внимание на левую версию графика, то складывается впечатление, что наибольшие кассовые сборы были у фильма «Звёздные войны». Однако на самом деле суммарно больше в кассовых сборах было в значении «Другие», как видно на графике справа.
Временные тренды лучше всего показывать с помощью линейного графика. Через линию отображают тренд. Несколько линий на линейном графике позволяют одновременно сравнить несколько значений. Например, при визуализации количества вышедших фильмов проще заметить тренд через линию, а не через столбцы.
Теперь вы знаете основные принципы визуализации данных. Это ещё один мощный инструмент в вашей коллекции — с его помощью вы сможете нагляднее показать другим результаты вашей работы и акцентировать внимание на нужных вещах.
В следующем параграфе мы углубимся в эту тему и поговорим о том, какие бывают графики и почему некоторые из них лучше никогда не использовать.