- Главная
- Сравнение GPU
Сравнение GPU серверов:
полный гайд 2026
Объективное сравнение всех актуальных серверных GPU от NVIDIA. Характеристики, бенчмарки, реальная производительность, цены и рекомендации для каждой задачи. Без маркетинга - только цифры и факты.
Полная таблица сравнения
Все ключевые параметры серверных GPU NVIDIA в одной таблице. Данные актуальны на 2026 год.
| Параметр | H100 SXM5 | H200 | A100 80GB | B200 | L40S | RTX 4090 |
|---|---|---|---|---|---|---|
| Архитектура | Hopper | Hopper | Ampere | Blackwell | Ada Lovelace | Ada Lovelace |
| CUDA ядра | 16 896 | 16 896 | 6 912 | 18 432 | 18 176 | 16 384 |
| Tensor Cores | 528 (4th gen) | 528 (4th gen) | 432 (3rd gen) | 576 (5th gen) | 568 (4th gen) | 512 (4th gen) |
| VRAM | 80 GB HBM3 | 141 GB HBM3e | 80 GB HBM2e | 192 GB HBM3e | 48 GB GDDR6X | 24 GB GDDR6X |
| Memory Bandwidth | 3.35 TB/s | 4.8 TB/s | 2.0 TB/s | 8.0 TB/s | 864 GB/s | 1.0 TB/s |
| FP8 (TFLOPS) | 3 958 | 3 958 | N/A | 9 000 | 733 | 660 |
| FP16 (TFLOPS) | 1 979 | 1 979 | 312 | 4 500 | 733 | 330 |
| FP32 (TFLOPS) | 67 | 67 | 19.5 | 70 | 91 | 82.6 |
| TDP | 700W | 700W | 400W | 1 000W | 350W | 450W |
| NVLink | 900 GB/s | 900 GB/s | 600 GB/s | 1 800 GB/s | — | — |
| MIG | 7 instances | 7 instances | 7 instances | TBA | — | — |
| Цена (GPU) | ~12 000 000 ₸ | ~14 400 000 ₸ | ~4 800 000 ₸ | ~19 200 000 ₸ | ~5 760 000 ₸ | ~960 000 ₸ |
| Цена (сервер от) | 57 600 000 ₸ | 72 000 000 ₸ | 33 600 000 ₸ | 120 000 000 ₸ | 24 000 000 ₸ | 7 200 000 ₸ |
Рейтинг по ключевым метрикам
Одна GPU не может быть лучшей во всём. Вот как они ранжируются по разным критериям.
FP8 TFLOPS (AI Training)
VRAM (GB)
Цена / Производительность
Memory Bandwidth
Какой GPU выбрать?
Выбор GPU зависит от вашей задачи, бюджета и масштаба. Мы подготовили матрицу рекомендаций для типичных сценариев использования.
| Задача | Рекомендация | Почему |
|---|---|---|
| Обучение LLM >70B GPT, LLaMA 70B+ | H100 / H200 | NVLink для model parallelism + HBM3/3e для высокой пропускной способности. H200 позволяет вместить 70B модель в одну GPU. |
| Обучение LLM <30B LLaMA 7B-13B, Mistral | A100 | 80 GB VRAM достаточно для моделей до 30B (FP16). Лучшее соотношение цена/производительность в этом сегменте. |
| Inference (high throughput) Массовое обслуживание | H200 / L40S | Больше VRAM = больший batch size = выше throughput. H200 (141 GB) лидирует. L40S (48 GB) -- бюджетный вариант. |
| Inference (low latency) Реальное время | H100 / B200 | Tensor Cores 4-го/5-го поколения обеспечивают минимальную задержку. FP8 ускоряет inference без потери качества. |
| Fine-tuning LoRA, QLoRA, PEFT | A100 / H100 | Fine-tuning требует меньше VRAM чем полное обучение. A100 оптимален для моделей до 70B с QLoRA. H100 -- для полного fine-tuning крупных моделей. |
| Computer Vision YOLO, SAM, ResNet | L40S / A100 | CV-модели компактнее LLM. L40S с 91 TFLOPS FP32 и 48 GB VRAM -- отличный выбор. A100 для крупных датасетов. |
| Рендеринг / 3D Blender, Omniverse | L40S / RTX 4090 | Максимум CUDA-ядер за минимальную цену. L40S поддерживает профессиональные драйверы и ECC. RTX 4090 -- для бюджетных рабочих станций. |
| Ограниченный бюджет Стартапы, R&D | A100 / RTX 4090 | A100 (4.8 млн ₸ за GPU) -- минимальная цена среди серверных GPU. RTX 4090 (960 тыс ₸) -- для задач, не требующих NVLink и ECC. |
Правило выбора GPU
Для 80% задач A100 или H100 -- оптимальный выбор. A100 -- когда бюджет ограничен и модель помещается в 80 GB. H100 -- когда важна скорость обучения и есть модели >30B параметров. H200 и B200 оправданы только для frontier-моделей с сотнями миллиардов параметров, где каждый час GPU-времени стоит тысячи долларов.
Сколько VRAM нужно?
Объём видеопамяти -- главный ограничитель при работе с LLM. Вот требования популярных моделей для inference в FP16.
| Модель | Параметры | VRAM (FP16) | Минимальная конфигурация |
|---|---|---|---|
| LLaMA 3 8B Meta, 2024 | 8B | ~16 GB | 1x RTX 4090 / 1x L40S / 1x A100 |
| LLaMA 3 13B Meta, 2024 | 13B | ~26 GB | 1x L40S (48 GB) / 1x A100 (80 GB) |
| LLaMA 3 70B Meta, 2024 | 70B | ~140 GB | 2x H100 (NVLink) / 1x H200 (141 GB) |
| GPT-3 OpenAI, 175B params | 175B | ~350 GB | 8x H100 (NVLink) / 4x H200 |
| GPT-4 class ~1.8T params (MoE) | ~1.8T | ~3.6 TB | GPU-кластер: 32+ H100 / 16+ B200 |
Формула расчёта VRAM
Способы экономии VRAM
- 1 Квантизация INT8Уменьшает VRAM в 2x с минимальной потерей качества (GPTQ, AWQ)
- 2 Квантизация INT4Уменьшает VRAM в 4x. LLaMA 70B помещается в 1x L40S (48 GB)
- 3 LoRA / QLoRAFine-tuning без полного хранения градиентов. 70B модель на 1x A100
- 4 Tensor ParallelismРазделение модели между GPU через NVLink. Линейное масштабирование VRAM
Архитектуры GPU: поколения
Каждое поколение GPU NVIDIA приносит существенный скачок производительности. Вот ключевые отличия архитектур.
Ampere
- 3rd gen Tensor Cores (TF32, BF16)
- MIG (Multi-Instance GPU) -- впервые
- HBM2e до 80 GB, 2.0 TB/s
- Structural Sparsity (2x throughput)
- NVLink 3.0 (600 GB/s)
Hopper
- 4th gen Tensor Cores (FP8 -- впервые)
- Transformer Engine (автоматический FP8)
- HBM3/3e до 141 GB, 4.8 TB/s
- NVLink 4.0 (900 GB/s)
- DPX Instructions (dynamic programming)
Blackwell
- 5th gen Tensor Cores (2x FP8 vs Hopper)
- 2nd gen Transformer Engine (FP4)
- HBM3e 192 GB, 8.0 TB/s
- NVLink 5.0 (1 800 GB/s)
- Confidential Computing (hardware)
Частые вопросы
Ответы на самые популярные вопросы о выборе GPU для серверов и AI-задач.
H100 превосходит A100 по производительности FP8/FP16 в 3-6 раз благодаря архитектуре Hopper и 4-му поколению Tensor Cores. Для обучения моделей >30B параметров H100 окупается за счёт сокращения времени тренировки. Для моделей <30B параметров A100 остаётся отличным выбором с лучшим соотношением цена/производительность.
B200 предлагает революционный скачок: 192 GB HBM3e, 9 000 TFLOPS FP8 и 1 800 GB/s NVLink. Однако цена сервера от 120 млн ₸ и ограниченная доступность в 2026 году делают H100/H200 более практичным выбором для большинства задач. B200 оправдан для frontier-моделей с триллионами параметров.
RTX 4090 подходит для inference малых и средних моделей, fine-tuning и рендеринга. Главные ограничения: 24 GB VRAM (недостаточно для крупных моделей), отсутствие NVLink (нельзя объединять память), отсутствие MIG (нельзя разделить GPU), и лицензионные ограничения NVIDIA на использование в дата-центрах.
NVLink обеспечивает прямую связь между GPU: 900 GB/s у H100 против 64 GB/s у PCIe 5.0. Это критично для обучения больших моделей, когда параметры не помещаются в одну GPU и нужен model parallelism. Для inference одной модели PCIe-версия обычно достаточна и стоит на 20-30% дешевле.
Правило: VRAM должен вмещать модель + батч. LLaMA 7B (FP16) требует ~14 GB = 1 GPU. LLaMA 70B требует ~140 GB = 2x H100 или 1x H200. GPT-3 (175B) требует ~350 GB = минимум 8x H100. Для обучения умножайте на 3-4x из-за градиентов и оптимизатора.
Технически возможно (PCIe-подключение), но практически не рекомендуется. NVLink работает только между одинаковыми GPU. Фреймворки (PyTorch, TensorFlow) оптимизированы под однородные кластеры. Исключение: одна GPU для inference + другая для предобработки, но это редкий сценарий.
Подробнее о каждом GPU
Детальные страницы с полными характеристиками, конфигурациями серверов и ценами.
NVIDIA H100
Флагман для обучения LLM. 3 958 TFLOPS FP8, NVLink 900 GB/s, MIG.
NVIDIA H200
Максимальный VRAM в Hopper. 4.8 TB/s bandwidth. Идеален для inference крупных моделей.
NVIDIA A100
Лучшая цена за TFLOPS. Проверенная архитектура. Идеальна для бюджетных AI-задач.
Обучение нейросетей
Серверы для обучения LLM, компьютерного зрения и генеративного AI.
Инференс и деплой
Серверы для развёртывания моделей в продакшен с минимальной задержкой.
Цены и конфигурации
Актуальные цены на серверы, конфигуратор и индивидуальные предложения.
Не уверены, какой GPU выбрать?
Наш инженер проанализирует вашу задачу и подберёт оптимальную конфигурацию за 2 часа. Бесплатно.
или напишите в WhatsApp