Суперсервер Nvidia: почему он стоит миллионы и как вообще работает

Войти в ID

Войти в ID

Загрузка

Что это вообще за штука

Один из самых свежих примеров — сервер уровня NVL72.

NVL72 — это конфигурация суперсервера от Nvidia, в которой 72 графических процессора (GPU) объединены в одну систему и работают как единый вычислительный блок. Это не сервер в классическом смысле, а готовый модуль для сборки AI-кластера:

72 GPU (видеокарты, но для ИИ);
36 CPU (обычные процессоры);
жидкостное охлаждение (как радиатор у машины, только сложнее).

Важный момент: это не 72 отдельных компьютера. Они работают как единый суперчип.

Представьте: не 72 сотрудника, а один человек с 72 парами рук. Ладно, можно представить и что-то более приятное!

Почему ИИ требует таких монстров

Современные модели ИИ — это не просто большие программы, а системы с сотнями миллиардов параметров. Эти параметры нужно постоянно пересчитывать и обновлять — причём не один раз, а миллиарды раз в процессе обучения. Один GPU с этим не справляется — ни по памяти, ни по скорости. Поэтому модель разбивают на части и распределяют по десяткам или сотням GPU.

Но дальше возникает главная сложность. Каждый шаг обучения состоит из двух фаз:
1. Вычисления (GPU считает свою часть модели).
2. Синхронизация (все GPU обмениваются результатами).

И вот вторая часть часто оказывается медленнее первой.

После каждого шага GPU должны:

обменяться градиентами (результатами вычислений);
обновить общие веса модели;
синхронизироваться, чтобы двигаться дальше одновременно.

Объёмы данных при этом огромные: речь идёт о гигабайтах и даже терабайтах информации, которые нужно передавать между GPU на каждом шаге. Если эта передача занимает слишком много времени — GPU простаивают.

Вся система начинает работать как пробка из суперкаров на узком шоссе.

Именно поэтому ключевая технология здесь — не сами вычисления, а связь между GPU. В обычных системах обмен идёт через центральный процессор и ограниченные каналы. В AI-серверах используется другая архитектура: GPU соединяются напрямую через NVLink и объединяются коммутаторами NVSwitch.

72 GPU создают очень много тепла, ведь весь сервер потребляет 120 КВт — как два многоквартирных дома в 12 этажей.

От такой энергии сервер очень сильно греется.

Обычное охлаждение не справляется, поэтому используют жидкостную систему. Уходит меньше энергии на охлаждение, выше плотность компонентов, обеспечивается стабильная работа под нагрузкой.

Это даёт несколько критических эффектов:

GPU обмениваются данными напрямую, без участия CPU.
Пропускная способность достигает сотен гигабайт в секунду на соединение.
Внутри системы формируется единое пространство памяти.
Синхронизация происходит почти без задержек.

В результате десятки GPU начинают работать как один вычислительный блок. Это важно, потому что современные модели нельзя просто «разрезать» на независимые части. Их компоненты постоянно зависят друг от друга, и без быстрой связи обучение либо замедляется в разы, либо становится экономически невыгодным.

Поэтому такие серверы — это не просто «очень мощные компьютеры». Это системы, в которых главное — не сила каждого GPU, а скорость, с которой они могут работать вместе.

Почему это стоит миллионы

Точнее, 3 млн долларов за один сервер (обычно их покупают десятками, соединяя в единый суперкомпьютер). И такая цена абсолютно оправданна. А ещё только на электричество один такой сервер будет тратить больше тысячи долларов в сутки.

GPU — основная статья расходов

Главная ценность системы — ускорители вроде Nvidia H100 или новых чипов поколения Blackwell. Это не видеокарты, а специализированные вычислительные блоки под нейросети:

Десятки тысяч вычислительных ядер.
От 80 до 192 ГБ памяти HBM прямо рядом с чипом.
Экстремальная пропускная способность внутри самого GPU.

Такие чипы стоят десятки тысяч долларов за штуку. В системе их 72 — и только на этом уровне счёт уже идёт на миллионы. Отдельно стоит упомянуть память HBM: она технологически сложнее обычной и сама по себе оказывается одной из самых дорогих частей каждого GPU. В сумме система получает несколько терабайт сверхбыстрой памяти, доступной почти как единое пространство.

CPU — управляющий слой

Процессоры здесь играют вспомогательную, но критичную роль. Это не офисные CPU, а специализированные чипы (например, архитектуры Grace), которые:

Управляют потоками данных.
Распределяют задачи между GPU.
Обеспечивают стабильную загрузку всей системы.

Они не делают основную работу, но без них GPU просто не смогут эффективно использоваться.

Небольшое устройство размером с гладильную доску обеспечивает серверу пропускную способность 130 ТБ/с — этого с запасом хватит на весь современный интернет.

Почему это важно для нас

Современные модели уровня GPT обучаются на тысячах GPU одновременно и обрабатывают триллионы токенов данных. Без высокоскоростных соединений между GPU обучение либо занимает месяцы, либо становится экономически бессмысленным. Именно поэтому ключевая инновация таких систем — не количество чипов, а скорость связи между ними.

Производительность нового серверного узла GB200 NVL72 сможет удовлетворить потребности разработки даже самых требовательных моделей искусственного интеллекта с триллионами параметров.

GB200 NVL72 в 30 раз более эффективны в инференсе LLM и в четыре раза более эффективны в обучении LLM, чем системы на архитектуре прошлого поколения. А это значит, что новые ИИ придут к нам быстрее!