Сравнение GPU 2026

Сравнение GPU серверов:
полный гайд 2026

Объективное сравнение всех актуальных серверных GPU от NVIDIA. Характеристики, бенчмарки, реальная производительность, цены и рекомендации для каждой задачи. Без маркетинга - только цифры и факты.

GPU в сравнении

13+

параметров

типов задач

моделей AI

Характеристики

Полная таблица сравнения

Все ключевые параметры серверных GPU NVIDIA в одной таблице. Данные актуальны на 2026 год.

Параметр	H100 SXM5	H200	A100 80GB	B200	L40S	RTX 4090
Архитектура	Hopper	Hopper	Ampere	Blackwell	Ada Lovelace	Ada Lovelace
CUDA ядра	16 896	16 896	6 912	18 432	18 176	16 384
Tensor Cores	528 (4th gen)	528 (4th gen)	432 (3rd gen)	576 (5th gen)	568 (4th gen)	512 (4th gen)
VRAM	80 GB HBM3	141 GB HBM3e	80 GB HBM2e	192 GB HBM3e	48 GB GDDR6X	24 GB GDDR6X
Memory Bandwidth	3.35 TB/s	4.8 TB/s	2.0 TB/s	8.0 TB/s	864 GB/s	1.0 TB/s
FP8 (TFLOPS)	3 958	3 958	N/A	9 000	733	660
FP16 (TFLOPS)	1 979	1 979	312	4 500	733	330
FP32 (TFLOPS)	67	67	19.5	70	91	82.6
TDP	700W	700W	400W	1 000W	350W	450W
NVLink	900 GB/s	900 GB/s	600 GB/s	1 800 GB/s	—	—
MIG	7 instances	7 instances	7 instances	TBA	—	—
Цена (GPU)	~12 000 000 ₸	~14 400 000 ₸	~4 800 000 ₸	~19 200 000 ₸	~5 760 000 ₸	~960 000 ₸
Цена (сервер от)	57 600 000 ₸	72 000 000 ₸	33 600 000 ₸	120 000 000 ₸	24 000 000 ₸	7 200 000 ₸

* Цены ориентировочные на Q1 2026. TFLOPS указаны с Tensor Cores (Sparsity). Фактические цены зависят от конфигурации и поставщика.

Рейтинги

Рейтинг по ключевым метрикам

Одна GPU не может быть лучшей во всём. Вот как они ранжируются по разным критериям.

FP8 TFLOPS (AI Training)

B2009 000

H100 / H2003 958

L40S733

RTX 4090660

A100N/A

VRAM (GB)

B200192 GB

H200141 GB

H100 / A10080 GB

L40S48 GB

RTX 409024 GB

Цена / Производительность

A100 80GBЛучший баланс

L40SХорошо

H100 SXM5Средне

H200Ниже среднего

B200Премиум

Memory Bandwidth

B2008.0 TB/s

H2004.8 TB/s

H1003.35 TB/s

A1002.0 TB/s

RTX 40901.0 TB/s

L40S864 GB/s

Рекомендации

Какой GPU выбрать?

Выбор GPU зависит от вашей задачи, бюджета и масштаба. Мы подготовили матрицу рекомендаций для типичных сценариев использования.

Задача	Рекомендация	Почему
Обучение LLM >70B GPT, LLaMA 70B+	H100 / H200	NVLink для model parallelism + HBM3/3e для высокой пропускной способности. H200 позволяет вместить 70B модель в одну GPU.
Обучение LLM <30B LLaMA 7B-13B, Mistral	A100	80 GB VRAM достаточно для моделей до 30B (FP16). Лучшее соотношение цена/производительность в этом сегменте.
Inference (high throughput) Массовое обслуживание	H200 / L40S	Больше VRAM = больший batch size = выше throughput. H200 (141 GB) лидирует. L40S (48 GB) -- бюджетный вариант.
Inference (low latency) Реальное время	H100 / B200	Tensor Cores 4-го/5-го поколения обеспечивают минимальную задержку. FP8 ускоряет inference без потери качества.
Fine-tuning LoRA, QLoRA, PEFT	A100 / H100	Fine-tuning требует меньше VRAM чем полное обучение. A100 оптимален для моделей до 70B с QLoRA. H100 -- для полного fine-tuning крупных моделей.
Computer Vision YOLO, SAM, ResNet	L40S / A100	CV-модели компактнее LLM. L40S с 91 TFLOPS FP32 и 48 GB VRAM -- отличный выбор. A100 для крупных датасетов.
Рендеринг / 3D Blender, Omniverse	L40S / RTX 4090	Максимум CUDA-ядер за минимальную цену. L40S поддерживает профессиональные драйверы и ECC. RTX 4090 -- для бюджетных рабочих станций.
Ограниченный бюджет Стартапы, R&D	A100 / RTX 4090	A100 (4.8 млн ₸ за GPU) -- минимальная цена среди серверных GPU. RTX 4090 (960 тыс ₸) -- для задач, не требующих NVLink и ECC.

Правило выбора GPU

Для 80% задач A100 или H100 -- оптимальный выбор. A100 -- когда бюджет ограничен и модель помещается в 80 GB. H100 -- когда важна скорость обучения и есть модели >30B параметров. H200 и B200 оправданы только для frontier-моделей с сотнями миллиардов параметров, где каждый час GPU-времени стоит тысячи долларов.

Требования к памяти

Сколько VRAM нужно?

Объём видеопамяти -- главный ограничитель при работе с LLM. Вот требования популярных моделей для inference в FP16.

Модель	Параметры	VRAM (FP16)	Минимальная конфигурация
LLaMA 3 8B Meta, 2024	8B	~16 GB	1x RTX 4090 / 1x L40S / 1x A100
LLaMA 3 13B Meta, 2024	13B	~26 GB	1x L40S (48 GB) / 1x A100 (80 GB)
LLaMA 3 70B Meta, 2024	70B	~140 GB	2x H100 (NVLink) / 1x H200 (141 GB)
GPT-3 OpenAI, 175B params	175B	~350 GB	8x H100 (NVLink) / 4x H200
GPT-4 class ~1.8T params (MoE)	~1.8T	~3.6 TB	GPU-кластер: 32+ H100 / 16+ B200

* VRAM для inference (FP16). Для обучения требуется в 3-4x больше из-за градиентов, оптимизатора (Adam) и активаций. Квантизация (INT8/INT4) уменьшает требования в 2-4 раза.

Формула расчёта VRAM

Inference (FP16):

VRAM = Params x 2 bytes

Пример: 70B x 2 = 140 GB

Training (FP16 + Adam):

VRAM = Params x 18 bytes

Пример: 7B x 18 = 126 GB

Способы экономии VRAM

1

Квантизация INT8

Уменьшает VRAM в 2x с минимальной потерей качества (GPTQ, AWQ)
2

Квантизация INT4

Уменьшает VRAM в 4x. LLaMA 70B помещается в 1x L40S (48 GB)
3

LoRA / QLoRA

Fine-tuning без полного хранения градиентов. 70B модель на 1x A100
4

Tensor Parallelism

Разделение модели между GPU через NVLink. Линейное масштабирование VRAM

Детали

Архитектуры GPU: поколения

Каждое поколение GPU NVIDIA приносит существенный скачок производительности. Вот ключевые отличия архитектур.

Ampere

A100 (2020)

3rd gen Tensor Cores (TF32, BF16)
MIG (Multi-Instance GPU) -- впервые
HBM2e до 80 GB, 2.0 TB/s
Structural Sparsity (2x throughput)
NVLink 3.0 (600 GB/s)

Вердикт

Рабочая лошадка AI. Проверенная временем.

Hopper

H100 / H200 (2022-2024)

4th gen Tensor Cores (FP8 -- впервые)
Transformer Engine (автоматический FP8)
HBM3/3e до 141 GB, 4.8 TB/s
NVLink 4.0 (900 GB/s)
DPX Instructions (dynamic programming)

Вердикт

Золотой стандарт для AI в 2024-2026.

Blackwell

B200 (2025)

5th gen Tensor Cores (2x FP8 vs Hopper)
2nd gen Transformer Engine (FP4)
HBM3e 192 GB, 8.0 TB/s
NVLink 5.0 (1 800 GB/s)
Confidential Computing (hardware)

Вердикт

Будущее AI. Максимальная мощность, максимальная цена.

FAQ

Частые вопросы

Ответы на самые популярные вопросы о выборе GPU для серверов и AI-задач.

H100 превосходит A100 по производительности FP8/FP16 в 3-6 раз благодаря архитектуре Hopper и 4-му поколению Tensor Cores. Для обучения моделей >30B параметров H100 окупается за счёт сокращения времени тренировки. Для моделей <30B параметров A100 остаётся отличным выбором с лучшим соотношением цена/производительность.

B200 предлагает революционный скачок: 192 GB HBM3e, 9 000 TFLOPS FP8 и 1 800 GB/s NVLink. Однако цена сервера от 120 млн ₸ и ограниченная доступность в 2026 году делают H100/H200 более практичным выбором для большинства задач. B200 оправдан для frontier-моделей с триллионами параметров.

RTX 4090 подходит для inference малых и средних моделей, fine-tuning и рендеринга. Главные ограничения: 24 GB VRAM (недостаточно для крупных моделей), отсутствие NVLink (нельзя объединять память), отсутствие MIG (нельзя разделить GPU), и лицензионные ограничения NVIDIA на использование в дата-центрах.

NVLink обеспечивает прямую связь между GPU: 900 GB/s у H100 против 64 GB/s у PCIe 5.0. Это критично для обучения больших моделей, когда параметры не помещаются в одну GPU и нужен model parallelism. Для inference одной модели PCIe-версия обычно достаточна и стоит на 20-30% дешевле.

Правило: VRAM должен вмещать модель + батч. LLaMA 7B (FP16) требует ~14 GB = 1 GPU. LLaMA 70B требует ~140 GB = 2x H100 или 1x H200. GPT-3 (175B) требует ~350 GB = минимум 8x H100. Для обучения умножайте на 3-4x из-за градиентов и оптимизатора.

Технически возможно (PCIe-подключение), но практически не рекомендуется. NVLink работает только между одинаковыми GPU. Фреймворки (PyTorch, TensorFlow) оптимизированы под однородные кластеры. Исключение: одна GPU для inference + другая для предобработки, но это редкий сценарий.

Каталог