Супергерои в мире хранения данных: как дата-центры работают 24/7

Поговорили с Димой Ситниченко о работе дата-центров и их влиянии на нашу повседневную жизнь. Дима, руководитель службы IT-инфраструктуры дата-центров в Яндексе с 13-летним опытом, рассказал, как устроены эти цифровые «дома», как люди помогают им работать и почему там всегда нужно что-то чинить

Что такое дата-центр простыми словами?

Если провести аналогию, можно вспомнить телефонную связь конца XIX — начала XX века. Человек набирал номер, и происходило соединение. Но за этим стоял телефонный центр, где телефонистки вручную переключали линии с помощью коммутатора с гнёздами и шнуровой пары. Их задача была простой: быстро и точно подключить правильное гнездо. Если они ошибались, абонент связывался не с тем, кого вызывал. Позже телефонисток заменили автоматические телефонные станции.

Дата-центры работают по похожему принципу, но гораздо сложнее. Это системы, которые объединяют данные и обеспечивают их обработку. Дата-центр — это телефонный центр, умноженный на тысячу по сложности, технологиям, оборудованию, людям и затратам. Если вкратце, дата-центры — это связующая система интернета, где хранятся и обрабатываются данные.

Artboard 1 copy 20.webp

То есть, когда у меня картинка в интернете не загружается, проблемы в дата-центре?

Проблема может быть где угодно — в зависимости от звена цепочки: у тебя, у провайдера, в магистральных узлах связи или в дата-центре.

Если неисправность есть только у тебя, то, скорее всего, причина «на низком уровне» — ближе к твоему устройству. Например, это может быть проблема с твоим компьютером, роутером или оборудованием в доме. Если же что-то массово недоступно — скорее всего, авария на магистральных узлах связи, в самом дата-центре или в его сети.

А как устроена работа дата-центров изнутри?

Работа дата-центра делится на два основных направления.

Первое — это инженерные системы. Они обеспечивают нормальную работу площадки и оборудования. Сюда входит электроснабжение, охлаждение, вентиляция, контроль доступа, видеонаблюдение, очистные сооружения, топливохранилища, пожарные сигнализации, системы оповещения, а также эксплуатация зданий и сооружений. Всё это инженерная часть.

Второе направление — IT-инфраструктура. Это каналы связи, сетевые устройства, серверы, системы хранения данных. Мы поддерживаем их работу, чтобы они соответствовали требованиям отказоустойчивости сервисов компании. Также мы развиваем и масштабируем эти системы, чтобы обеспечить их рост и избежать узких мест в развитии сервисов.

Кроме того, много специалистов работает за пределами самого дата-центра. Они играют важную роль в его жизненном цикле: поддерживают стабильность программного обеспечения, проектируют и внедряют решения для сети, оборудования и строительства. Это сетевые инженеры, системные администраторы, разработчики, RnD-инженеры (занимаются исследованиями и разработкой продуктов), закупщики и многие другие.

Направление

Примеры профессий

Инженерная ветка

  • Дежурные инженеры

  • Технический руководитель дата-центра

  • Главный энергетик и его команда

  • Главный механик и инженеры по механическим системам

  • Менеджер строительных проектов

  • Администратор

  • Инженер по охране труда и безопасности

  • Логисты

IT-инфраструктура

  • Специалист первой линии поддержки

  • Специалист второй линии поддержки

  • Специалист по SMD-ремонту (приборов поверхностного монтажа)

  • Руководители групп проектов и инцидентов

  • Руководитель IT-поддержки дата-центра

Внешние специалисты

  • Сетевые инженеры

  • Системные администраторы

  • Разработчики

  • RnD-инженеры

  • Закупщики

  • Другие специалисты, работающие за пределами дата-центра (обеспечивают стабильность ПО, сети, проектируют и реализуют решения)

Структура распределения ролей в работе дата-центра

Все системы дата-центра — как программные, так и аппаратные — находятся под постоянным мониторингом. Они оснащены системами алертов и светофорами аварийных и предаварийных состояний, которые следят за множеством критериев. Это позволяет заранее обнаружить возможные проблемы и предотвратить их или быстро минимизировать последствия.

Однако это не значит, что люди круглосуточно смотрят в мониторы на показатели. У нас настроены системы оповещений, матрицы эскалаций, боты в мессенджерах и другие инструменты автоматизации, которые значительно упрощают работу.

Интересно! Получается, для поддержки дата-центра работать по 24 часа в сутки не обязательно?

Раньше у нас были 24-часовые смены, и даже сейчас в некоторых подразделениях они сохранились. Но сейчас такой режим работы обычно не требуется. Архитектура построения сервисов и дата-центров в Яндексе предусматривает высокую степень отказоустойчивости.

Если выходит из строя какой-то компонент, например сервер или группа серверов, это обычно не приводит к серьёзным последствиям. На такие случаи предусмотрен запас прочности. Но если выходит из строя оборудование в объёме, превышающем допустимый уровень отказоустойчивости, могут возникнуть локальные проблемы, которые заметят пользователи.

Значит, вся работа сводится к бесконечному ремонту оборудования?

Не совсем так. Оборудование действительно ломается каждый день и в больших количествах. Наша задача — соблюдать гарантии по SLA, то есть поддерживать определённое количество работоспособного оборудования и не выходить за пределы этих обязательств.

SLA (Service Level Agreement) — это соглашение об уровне обслуживания. Оно определяет стандарты качества и доступности услуг. В случае дата-центров SLA фиксирует, какой процент оборудования и сервисов должен быть работоспособным, устанавливает сроки устранения неисправностей, допустимое время простоя и другие параметры.

Мы следим за этими показателями очень тщательно. Работа идёт постоянно, хотя иногда может приостанавливаться — например, на выходные. На более длительное время — нет.

Также мы анализируем данные: сколько поступает заявок разных типов, какое оборудование ломается, как часто и по каким причинам. Мы оцениваем, как быстро решаются задачи, и выявляем повторяющиеся проблемы. Эта часть процесса управления инцидентами направлена на повышение эффективности работы. Есть отдельный сотрудник, который управляет этим на уровне всех дата-центров, а в каждом дата-центре — локальные специалисты, которые занимаются анализом на месте.

Какие ресурсы нужны для работы дата-центра?

Место. Площадь одного дата-центра, включая всю сопутствующую инфраструктуру, — 5–7 футбольных полей. Если есть ограничения по площади или стоимости земли, некоторые компании строят дата-центры в несколько этажей. Но мы предпочитаем концепцию одного этажа. Это удобнее с точки зрения логистики: проще обслуживать оборудование, не нужны большие лифты и подъёмные устройства. Земля и площадь, кстати, не самые дорогие ресурсы в дата-центре.

Люди. В дата-центрах работает относительно немного сотрудников. Мы планируем наём, основываясь на так называемых IT-мегаваттах — мере, отражающей количество серверов, установленных в дата-центре или запланированных на будущее. Например, если я знаю, что в следующем году будет установлено определённое количество серверов, я могу рассчитать, сколько сотрудников понадобится, чтобы поддерживать их работу и соблюдать гарантии.

Кроме этого при строительстве нового дата-центра существует базовый набор персонала — около 15 человек. Это минимальная команда, которая нужна для запуска и работы площадки с самого начала.

Artboard 1 copy 30.webp

Если говорить об усреднённом дата-центре Яндекса, то команда, которая работает непосредственно на месте, насчитывает около 40 сотрудников. Так как «игроков» мы набираем всего на два «футбольных поля» из пяти, у нас довольно малолюдно.

Электроэнергия. Это главный ресурс для работы дата-центра, и её требуется очень много. Для сравнения: один дата-центр потребляет столько же энергии, сколько небольшой город с населением в несколько десятков тысяч человек.

Представим, что все дата-центры в мире на один день отключились. Как это повлияло бы на повседневную жизнь?

Если отключится только один дата-центр, это вызовет локальные сбои. Например, могут перестать работать отдельные веб-ресурсы, сегменты электронной коммерции или услуги провайдеров. Это неприятно, но пережить можно.

Если отключатся все дата-центры, последствия могут быть хуже. Сейчас интернетом пользуется около 60% населения Земли. Степень интеграции интернета в жизнь и бизнес варьируется от низкой до очень высокой.

Мы привыкли к удобству, которое даёт интернет. Ещё 15 лет назад было немыслимо покупать онлайн что угодно и когда угодно — даже квартиру или машину, планировать путешествия, пользоваться телемедициной или получать госуслуги не выходя из дома. Сегодня это стало нормой. По сути, можно вообще не выходить на улицу: жить, работать, полноценно питаться, поддерживать социальные связи и контакты. Пандемия COVID-19 это подтвердила.

При отключении всех дата-центров в странах с высокой цифровизацией наступят катастрофические последствия:

  • Работа транспорта будет нарушена. Невозможно будет вызвать такси или заправиться через приложение.

  • Платёжные системы и онлайн-банкинг перестанут работать.

  • Мобильные сети и приложения, использующие интернет, станут недоступны.

  • Онлайн-ретейл и доставка остановятся.

  • Соцсети и удалённое образование исчезнут.

  • Предприятия столкнутся с проблемами: системы электронного документооборота, постановки задач и отчётности станут недоступны.

  • Часть государственных услуг также окажется под угрозой.

  • Электронные системы и базы данных перестанут работать.

В одной только России более миллиона человек сразу лишатся работы и заработка. Жизнь откатится назад, в начало 2000-х. Учитывая такую зависимость от интернета, сферу дата-центров в странах с высокой цифровизацией регулируют законами и ограничениями. В ней очень высока степень ответственности.

В общем, если отключатся все дата-центры, то интернет в его нынешнем виде просто перестанет существовать.

Но самолёты падать не начнут?

Нет, системы, от которых зависит жизнь и здоровье людей, разрабатываются по особым стандартам отказоустойчивости и резервирования. Самолёты продолжат летать. Однако возникнут серьёзные производственные, экономические и социальные проблемы, которые временно парализуют общество.

А что происходит с данными в таком случае?

Когда отключается дата-центр или его часть — такое случалось и в истории Яндекса, — ничего критичного не происходит. Мы регулярно проводим учения, отключая дата-центр, чтобы проверить работоспособность систем. В таких ситуациях всё восстанавливается в течение разумного времени — от нескольких часов до суток.

Для внешних пользователей в случае Яндекса проблем вообще не возникает, потому что остальные дата-центры продолжают работать и сервисы остаются доступными.

Если говорить в общем, то при отключении и последующем восстановлении большая часть данных сохранится. Это похоже на ваш компьютер: если выдернуть его из розетки, файлы, скорее всего, не пострадают, если их запись не прерывалась. Всё снова заработает после включения.

Другое дело, если произойдёт физическое повреждение дисковых накопителей или серверов. Проблемы будут серьёзнее, и шанс восстановить данные минимален.

Звучит страшно! А что может нарушить работу дата-центра и как защититься от этого?

Перебои в энергоснабжении. В Яндексе мы строим дата-центры уже 20 лет и накопили большой опыт, позволяющий делать их надёжными и отказоустойчивыми. Для защиты от перебоев у нас есть резервные системы энергоснабжения. Критичные компоненты дублируются: два трансформатора, две кабельные трассы и так далее. Кроме того, мы подключаемся к надёжным подстанциям федерального значения, где аварии происходят крайне редко — раз в десятки лет.

Проблемы с каналами связи. Это могут быть сбои в каналах связи с внешним миром, узлами обмена трафиком или другими дата-центрами. Мы защищаемся резервированием: кабели прокладываются по кольцевым маршрутам и по разным трассам. Хотя даже это не исключает проблем с кабелями одновременно в двух местах. Например, при ремонтных работах экскаваторы могут повредить трассы на расстоянии сотен километров друг от друга. Но благодаря избыточности такие инциденты не приводят к серьёзным последствиям.

Отказ систем охлаждения. Серверы вырабатывают много тепла и нуждаются в охлаждении. Если системы охлаждения выходят из строя, это может привести к перегреву серверов и сбоям в работе. Для защиты мы используем резервные вентиляционные установки с запасом мощности. Если часть систем перестаёт работать, остальные берут нагрузку на себя.

Человеческий фактор. Согласно отчёту Uptime Institute Annual Outage Analysis 2024, около половины значительных сбоев в работе дата-центров связаны с человеческими ошибками. Например, кто-то может включить не тот рубильник, подключить кабель не в тот порт или ввести неправильную команду, что приведёт к остановке работы дата-центра.

Мы стараемся минимизировать такие ошибки с помощью подробных регламентов, чек-листов, тестирования изменений на специальном оборудовании, а также тренингов и обучения сотрудников. Перед внедрением изменений мы тщательно их проверяем, чтобы избежать критических последствий.

Значит, на такие случаи всегда есть план Б?

Да. Например, план Б у Яндекса — это резервирование дата-центрами. Даже самый надёжный центр обработки данных, где каждый компонент имеет резерв и ещё один резерв сверху, не застрахован от отключений по внешним или внутренним причинам.

Чтобы сервисы продолжали работать даже при отключении дата-центра, мы регулярно проводим учения. Отключаем дата-центры частично или полностью, проверяем доступность сервисов и оцениваем масштаб возникающих проблем. Это поэтапный процесс: если что-то идёт не так и приборы фиксируют сбой, мы откатываем изменения, устраняем причину и продолжаем учения.

Такой подход позволяет нам всегда быть готовыми к непредвиденным ситуациям и иметь возможность эффективно реализовать план Б.

Каким ты видишь будущее дата-центров?

Дата-центры и интернет уже кардинально изменили нашу жизнь — подобно тому, как поворотным моментом в истории цивилизации когда-то стало появление колеса, письменности, металлургии, паровой тяги. Они открыли доступ к огромным массивам знаний, упростили коммуникацию, позволили людям работать и учиться не выходя из дома и обеспечили фундамент для развития новых технологий.

Следующим шагом станет эпоха искусственного интеллекта, который тоже будет рождаться и развиваться в дата-центрах. Это вызовет ещё больше изменений в нашей жизни, даст новые возможности, создаст новые профессии, приведёт к развитию новых технологий и науки.