Языков программирования много — равно как и программ для анализа данных. Аналитик данных обычно знаком не только с Python, но и с другими программами и языками. Всё вместе это можно назвать стеком
(набором) навыков.
В этом параграфе мы расскажем, как его можно расширить.
Изучить документацию
Первое и самое главное: мы охватили далеко не все возможности, которые есть у Python. Даже в рамках стандартной библиотеки.
Вот документация к некоторым из использованных пакетов:
Все они содержат полезную информацию не только о синтаксисе реализованных в них методов, но и о том, что с их помощью можно сделать.
Пропущенные методы
Мы пропустили некоторые методы стандартной библиотеки. Прежде всего мы не говорили о более сложных структурах: классах, модулях и собственных библиотеках Python. Разобраться в этом можно с помощью любого учебника по Python. Неплохим подспорьем будет другой хэндбук Яндекс Академии, который рассказывает только о языке Python.
В нем можно дополнительно почитать о:
- классах и наследовании;
- модулях, пакетах и их создании;
- исключениях и их обработке.
Все эти темы не имеют прямого отношения к анализу данных, но позволяют сделать написание скриптов более приятным и удобным.
Кроме того, вы можете почитать классический учебник Марка Лутца «Изучаем Python» — это наиболее полное руководство по базовым возможностям языка. Если книга Лутца пугает своей толщиной, то хорошей альтернативой может оказаться книга Билла Любановича «Простой Python. Современный стиль программирования». По состоянию на весну 2023 года, обе свободно доступны на русском языке в любом маркетплейсе, который продает книги.
Стиль Python
Существует подробная документация, которая описывает, как именно должен выглядеть написанный на Python код. Мы говорим не о правильности кода, а о таких кажущихся незначимыми вещах вроде правил:
- именования переменных;
- отступов;
- использования знаков препинания;
- и т.д.
Все это кажется неважным, но на самом деле играет большое значение, когда мы передаем код другому человеку. Читаемость очень важна. Корректное стилистическое оформление кода позволяет другому человеку быстрее в нём разобраться.
Второе достоинство: мы знаем, что код часто является продуктом коллективной работы. В таком случае использование общих договоренностей о стиле позволяет избежать ситуаций, когда чей-то код отличается от всех остальных. Это делает проект сложным для чтения и понимания.
Ниже две ссылки на стилистические гайды:
Первый — наиболее официальный и полный гайд, на который ориентируется все сообщество разработчиков на Python, второй используется внутри компании Google и чуть более компактен.
Если вдруг вам кажется, что какие-то требования противоречат друг другу, то вы сами можете выбрать, как для вас удобнее. Важно при этом быть консистентным: следовать принятым стилистическим договоренностям хотя бы в пределах одного проекта.
Разобраться в связанных технологиях
Скажем сразу, что мы не будем рассказывать о других языков программирования, которые можно использовать для анализа данных. R
, Julia
и MATLAB
полезны, но большую часть доступных в них возможностей вы можете получить и с Python
. Вместо этого мы расскажем о вещах, которые нельзя заменить.
SQL
SQL — это очень специальный язык. Он используется для манипуляций с данными, которые находятся в специальной базе данных. Доступ к ней предоставляет специальная программа, которая управляет данными.
🔍 SQL — язык программирования, который используется для манипуляции базами данных.
Попробуем привести простую аналогию: представьте библиотеку, в которую вы приходите и говорите библиотекарю какая именно информация вам нужна. Библиотекарь уходит и находит вам то, что нужно: книжка или информация из книжки. Иногда он ищет очень долго, а иногда очень быстро, бывает, что ему нужно сначала пойти в каталог, а потом уже в хранилище.
Здесь библиотека — это база данных, а библиотекарь — программа, которая им управляет. Для нас интереснее всего запрос — это и есть то, что мы пишем на языке SQL. Если таблица хранится в базе данных, то хитрость в работе с ней в том, что мы не говорим напрямую какие именно строки данных нам нужны. Вместо этого мы описываем как должны выглядеть подходящие нам строки.
Знать SQL нужно, потому что это открывает для вас возможность работать с очень большими данными, которые нельзя сохранить в форме обычных таблиц. Сами данные могут лежать в базе данных, к которой вы обращаетесь при необходимости.
Другое достоинство SQL в том, что мы можем использовать его часто вместо Python в том, что касается фильтрации и отбора данных. Программа, которая исполняет наш запрос, очень оптимизирована, поэтому при работе с большими данными использование SQL вместо Python может быть крайне полезно.
Наконец, SQL позволяет обращаться к данным напрямую, нет необходимости подгружать их в оперативную память, как при работе в Python и pandas. Это позволяет проверять вопросы без приготовлений, сразу.
HTML
Мы немножко говорили про HTML в параграфе, посвященном сбору данных. Повторимся, что важно хорошо знать HTML и CSS, если вы активно занимаетесь сбором данных.
Ещё одна причина разобраться в HTML: подготовка публично доступных визуализаций к данными. Такие пакеты как Plotly могут сохранять визуализацию как HTML-файл. Разница между HTML-файлом и обычной картинкой в том, что первый — интерактивный и может изменяться динамически. Как и простая картинка он может быть встроен в структуру сайта для публикации.
Если вы разбираетесь в веб-технологиях, то вы сможете опубликовать свои результаты более эстетично, хотя это может быть необязательно.
git
Это система контроля версий, которая позволяет отслеживать изменения в рабочих файлах и совместно работать над проектом несколькими людьми. Git часто путают с GitHub, хотя второй — только одна из реализаций git.
🔍 git — система контроля версий, которая отслеживает изменения файлов в проекте.
Использование git позволяет:
- избежать ситуаций, когда вы лишились какого-то важного изменения в коде, потому что у вас записаны все последовательные версии;
- нескольким людям работать над одним проектом, потому что изменения вносятся последовательно;
- взаимодействовать с удаленными серверами, на которых можно хранить копию кода в качестве резервной копии или для передачи кому-то.
В общем, git крайне полезен, советуем вам его освоить.
На этом мы попрощаемся с вами. Если вы дошли до этих строк — вы невероятно трудолюбивый, усидчивый, и настойчивый человек (и имеете все основания собой гордиться). Вы очень хорошо потрудились, хоть это было нелегко и местами, наверное, стоило много сил и нервов. Но именно трудности и препятствия помогают нам развиваться и становиться настоящими профессионалами.
Надеемся, что учебник было интересно читать — так же, как нам было интересно его писать. А ещё — что вы продолжите изучать анализ данных: в конце концов, мы рассказали только о малой части вещей, и впереди вас ждёт множество невероятных открытий. Хочется верить, что мы помогли вам — и в будущем вы сможете внести значительный вклад и сделать жизнь других людей лучше и проще.