Question 1

Чем H100 отличается от A100?

Accepted Answer

NVIDIA H100 построен на архитектуре Hopper и обеспечивает до 6x прирост производительности по сравнению с A100 (Ampere) при обучении трансформерных моделей. Ключевые отличия: поддержка FP8 (3,958 TFLOPS vs отсутствие у A100), память HBM3 с пропускной способностью 3.35 TB/s (vs 2.0 TB/s HBM2e), NVLink 4.0 на 900 GB/s (vs 600 GB/s), а также встроенный Transformer Engine, который автоматически выбирает оптимальную точность для каждого слоя нейросети.

Question 2

Сколько VRAM нужно для обучения LLM?

Accepted Answer

Правило оценки: для обучения в FP16 нужно примерно 2 байта на параметр модели, плюс оптимизатор (Adam) добавляет ещё ~12 байт/параметр. Модель 7B требует ~100 GB VRAM (2 x H100), 13B - ~200 GB (3-4 x H100), 70B - ~560 GB (8 x H100 c NVLink), 180B+ - кластер из нескольких узлов. Файн-тюнинг с LoRA/QLoRA снижает требования в 4-8 раз: 7B помещается на 1 x H100, 70B - на 2-4 x H100.

Question 3

H100 SXM5 или H100 PCIe - что выбрать?

Accepted Answer

H100 SXM5 - для максимальной производительности: 700W TDP, NVLink 4.0 (900 GB/s между GPU), поддержка HBM3 на полной скорости. Идеален для обучения больших моделей, где межгпушная связь критична. H100 PCIe - более доступный вариант (350W TDP), устанавливается в стандартные серверы, NVLink только через мост (2 GPU). Подходит для инференса и файн-тюнинга, где не нужна связь 4-8 GPU. Для серьёзного обучения LLM рекомендуем SXM5.

Question 4

Можно ли масштабировать до кластера?

Accepted Answer

Да. Наши серверы проектируются для кластерной работы: NVLink 4.0 для связи внутри узла (до 900 GB/s), InfiniBand NDR 400GbE для межузлового соединения, поддержка NVIDIA Base Command и Slurm для оркестрации. Мы строим кластеры от 2 до 64 узлов (до 512 GPU H100). Топология - fat-tree с неблокирующим InfiniBand-коммутатором. Типичный проект кластера на 32 узла (256 x H100) реализуется за 4-6 недель.

Question 5

Какое охлаждение нужно для H100?

Accepted Answer

H100 SXM5 потребляет до 700W на GPU. Сервер с 8 x H100 генерирует ~10 кВт тепла. Для единичных серверов достаточно воздушного охлаждения в серверной с кондиционированием (температура на входе до 35C). Для кластеров от 8 узлов рекомендуем жидкостное охлаждение (direct liquid cooling) - снижает PUE с 1.5 до 1.1, уменьшает шум и позволяет плотнее размещать серверы. Мы проектируем системы охлаждения под конкретные помещения.

Question 6

Сроки поставки H100 серверов?

Accepted Answer

Одиночные серверы (1-2 x H100): 5-7 рабочих дней, компоненты в наличии на складе. Серверы с NVLink (4-8 x H100): 10-14 рабочих дней, включая сборку, прошивку и 72-часовой стресс-тест. Кластерные решения (10+ узлов): 3-6 недель в зависимости от масштаба и требований к сети. Экспресс-сборка: +30% к стоимости, сроки сокращаются вдвое. Каждый сервер проходит тестирование CUDA, NVLink bandwidth, памяти и термалов.

Параметр	Значение
Архитектура GPU	NVIDIA Hopper
Ядра CUDA	16,896
Тензорные ядра	528 (4-е поколение)
Память	80 GB HBM3
Пропускная способность памяти	3.35 TB/s
FP8 Tensor Performance	3,958 TFLOPS
FP16 Tensor Performance	1,979 TFLOPS
FP32 Performance	67 TFLOPS
TDP	700W
Interconnect	NVLink 4.0 (900 GB/s)
PCIe	Gen5 x16
Multi-Instance GPU (MIG)	До 7 инстансов
Transformer Engine	Да (автовыбор FP8/FP16)

Метрика	H100	A100	H200
FP8 TFLOPS	3,958	N/A	3,958
FP16 TFLOPS	1,979	312	1,979
Память	80 GB HBM3	80 GB HBM2e	141 GB HBM3e
Bandwidth	3.35 TB/s	2.0 TB/s	4.8 TB/s
NVLink	900 GB/s	600 GB/s	900 GB/s
TDP	700W	400W	700W
Цена (сервер)	от 12 млн ₸	от 4.8 млн ₸	от 14.4 млн ₸

Серверы с NVIDIA H100 80GB SXM5

Полные спецификации NVIDIA H100

Для каких задач подходит H100

Обучение LLM

Fine-tuning

Инференс

Computer Vision

NLP и обработка текста

Научные вычисления

H100 vs A100 vs H200 - бенчмарки

Вопросы о
NVIDIA H100

Смотрите также

NVIDIA H200

NVIDIA A100

Сравнение GPU

Обучение AI

Готовы заказать сервер с H100?

GPU Server Kazakhstan

Свяжитесь с нами