В прошлом параграфе мы научились визуализировать данные. В этом расскажем, какие бывают виды графиков, в чём их сильные и слабые стороны, а также когда их стоит и не стоит использовать.
Гистограмма/бар-чарт
Гистограммы и столбчатая диаграмма отображают значения прямоугольниками (столбцами). Их используют для сравнения и визуализации различий в значениях по категориям.
Отличие гистограмм и столбчатых диаграмм состоит в использовании разных видов шкал в переменных. Гистограммы используются для переменных с непрерывными шкалами (например, год рождения), а столбчатые диаграммы — для дискретных (например, «Франция», «Россия», Великобритания).
Для гистограмм по оси Х располагаются значения данных, а по оси Y отображается плотность распределения. Для столбчатых диаграмм по оси X располагаются категории, а по оси Y — количество значений, соответствующее другой переменной для этого значения категории. Высота столбцов пропорциональна значению по оси Y.
Ранее мы уже встречались с гистограммой — с её помощью мы определяли нормальность распределения переменной. Освежим в памяти, как это делается: построим распределение оценок пользователей фильма N. Можно заметить, что оно напоминает нормальное, а средняя оценка для фильма N около 6–6,5.
Визуальная разница между гистограммами и столбчатыми диаграммами заключается в наличии или отсутствии пространства между столбцами значений. В бар-чартах есть небольшое расстояние между столбцами, а в гистограммах его нет. Дело в том, что гистограмма делит непрерывное значение переменной на условные группы, которые обычно называют корзинами. А столбчатая диаграмма используется для переменных, которые уже разбиты на группы (категориальные переменные).
Круговая диаграмма
Никогда не используйте круговые диаграммы.
Это могла бы быть самая короткая главка во всём учебнике, но мы попробуем объяснить, почему не стоит их использовать.
Круговая диаграмма делит круг на пропорции, чтобы показать отношение между значениями. Суммарное количество процентов всех долей должно быть 100%. Цель круговой диаграммы — показать процентное соотношение долей, однако именно это она делает плохо: легко ошибиться с долями и сделать нечитаемый график.
Проще использовать бар-чарты и гистограммы: на них лучше видна разница между значениями. Но если от вас требуют, то ниже пара советов.
Покажем сначала пример относительно удачной круговой диаграммы. Тут несколько категорий, между которыми можно увидеть разницу. Однако тут можно заметить проблему: сложно сказать, насколько больше одна категория, чем другая. Мы видим, что они отличаются, но не понимаем, насколько сильно.
В диаграмме не должно быть разделения на слишком большое количество долей. Если количество значений превышает шесть, то нужно объединить значения с меньшим количеством наблюдений вместе. Например, в примере ниже стоило объединить значения переменных «Аладдин», «Русалочка» и «Вверх» в сектор «Другое», поскольку мы всё равно не можем различить без подписей, какой из них больше.
Значения лучше начинать с верхней точки окружности (соответствует двенадцати часам на условном циферблате) и упорядочивать по часовой стрелке от большего к меньшему. Если не соблюдать это правило, график становится сложнее для считывания.
Точечная диаграмма
В точечной диаграмме (её ещё называют диаграммой рассеивания) каждая точка показывает отдельное наблюдение.
Точечная диаграмма — это более сложный способ визуализации, чем столбчатая диаграмма. Это простой способ визуализации корреляции двух или нескольких переменных одновременно.
Каждое наблюдение в ней характеризуется с помощью двух непрерывных переменных: одна по оси X, другая — по оси Y. Так мы можем увидеть, как значения двух переменных для одного наблюдения связаны между собой. Для этого мы размещаем одну переменную по оси X, а другую — по оси Y. Дополнительно можно использовать цвет (третья переменная), размер и форму (четвёртая и пятая).
Например, так мы можем визуализировать взаимосвязь между числом актёров и временем съёмок сцены.
Линейная диаграмма
Линейные диаграммы используются для визуализации непрерывных переменных. Они могут показать тренды, сезонность и изменения во времени. Например, по оси Y можно расположить количество вышедших фильмов, а по оси X годы, за которые эти фильмы выходили. Таким образом можно увидеть, как изменилось количество созданных фильмов с 1990 года.
В прошлом параграфе мы говорили о том, что нужно быть осторожным. Линейный график легко превратить в «лапшу», которую будет сложно читать. Линий не должно быть слишком много, каждая из них должна быть полезна для читателя и хорошо различима относительно других.
Бокс-плот
Бокс-плот позволяет одновременно увидеть несколько разных характеристик переменной: медиану, квантили (мы не говорили о них раньше, скажем несколько слов ниже) и выбросы.
Посмотрим на бокс-плот. Он выглядит как прямоугольник с двумя горизонтальными линиями за пределами прямоугольника и вертикальной линией внутри. Линия внутри прямоугольника, который часто называют ящиком, является медианой (середина упорядоченных значений переменной).
Верхняя граница ящика обозначает границу, ниже которой находится 75% значений, а нижняя граница ящика – 25% значений. Эти границы вместе с медианой называют квантилями.
Медиана — это специальный случай квантиля. Ниже медианы находится 50% значений. Бокс-плот позволяет увидеть не только медиану, но и 25% и 75% квантиль.
Концы усов обычно соответствуют минимальному и максимальному значению. Иногда на бокс-плот добавляют отдельные точки, которые выходят за пределы линий, — выбросы.
Бокс-плот очень информативен и содержит много дополнительной информации. Его можно использовать для визуализации переменной по группам другой переменной. Например, мы можем одновременно рассмотреть распределение средних оценок пользователей на фильмы, реалити-шоу, сериалы и мультфильмы.
Если нарисовать столбчатую диаграмму и бокс-плот для одной и той же переменной, то можно заметить, что бар-чарты показывают только количество наблюдений. Бокс-плоты дополняют информацию о данных медианой, квантилями и наличием выбросов.
Например, визуализируем количество вышедших мультфильмов разных кинокомпаний с помощью столбчатой диаграммы и бокс-плота. На столбчатой диаграмме видно, что Pixar выпустила больше развлекательного контента по сравнению с другими компаниями.
Дополнительные параметры на бокс-плоте делают его интерпретацию сложной для непрофессиональной аудитории. Для неё лучше использовать столбчатую диаграмму. Но если вы показываете график специалистам — бокс-плот информативнее.
Шпаргалка: как выбрать подходящий график
Если вам трудно определиться, какой тип графика выбрать, попробуйте несколько вариантов визуализации данных. Или можно задать себе эти вопросы:
- Изменяются ли данные со временем, или они являются статичными?
- Сколько переменных я хочу использовать на одном графике?
- Что я хочу показать через визуализацию?
Теперь вы умеете пользоваться графиками. Надеемся, что ваши презентации станут точнее и аккуратнее и в них не будет ни одной круговой диаграммы.
В заключительном параграфе главы мы расскажем, как создавать графики с помощью Python.