INFERENCE & DEPLOY

GPU серверы для инференса и деплоя AI моделей

Максимальный throughput, минимальная latency. Серверы оптимизированы под продакшн-деплой LLM, мультимодальных моделей и real-time AI сервисов на NVIDIA H200, H100 и L40S.

Подобрать конфигурацию Бенчмарки

35ms

Latency (p99)

Mistral 7B на H100

3200 t/s

Throughput

Tokens/sec на H100

72 ₸

Cost per 1M tokens

Self-hosted vs 1 440-7 200 ₸ API

99.9%

Uptime SLA

Гарантия доступности

INFERENCE STACK

Современный стек для продакшна

Четыре ключевых инструмента, которые обеспечивают высокопроизводительный инференс на GPU серверах. Каждый - лидер в своей нише, вместе - непобедимый стек.

vLLM

Высокопроизводительный inference engine с PagedAttention для эффективного управления KV-cache. Поддерживает continuous batching, tensor parallelism и более 100 моделей из коробки. Простой API, совместимый с OpenAI.

PagedAttention Continuous Batching OpenAI API

TensorRT-LLM

Оптимизирующий компилятор от NVIDIA. Преобразует модели в максимально эффективный вычислительный граф с поддержкой FP8, INT8 квантизации, kernel fusion и in-flight batching. На 20-40% быстрее generic решений.

FP8/INT8 Kernel Fusion In-Flight Batching

Triton Inference Server

Production-grade model serving от NVIDIA. Multi-model serving, динамический батчинг, A/B тестирование моделей, мониторинг метрик через Prometheus. Поддерживает TensorRT, ONNX, PyTorch и TensorFlow одновременно.

Multi-Model A/B Testing Prometheus

ONNX Runtime

Кроссплатформенный inference runtime от Microsoft. Оптимизирован для широкого спектра моделей: CV, NLP, speech. Поддерживает CUDA, TensorRT execution providers. Идеален для standardized ML pipeline с моделями из разных фреймворков.

Cross-Platform CUDA Provider Multi-Framework

BENCHMARKS

Реальная производительность

Замеры на реальных моделях с TensorRT-LLM, FP16/INT8 квантизацией и continuous batching. Условия максимально приближены к продакшн-нагрузке.

Модель	GPU	Tokens/sec	Latency (p99)	Batch size
LLaMA 3 7B FP16, TensorRT-LLM	L40S	2,400	45 ms	32
LLaMA 3 70B INT8, Tensor Parallel	H200	800	120 ms	8
Mistral 7B FP8, vLLM	H100	3,200	35 ms	64
GPT-4 class (MoE) FP8, 8-way TP	8x H100	500	200 ms	4

* Замеры: input 512 tokens, output 256 tokens. TensorRT-LLM 0.17, vLLM 0.6.x. CUDA 12.4. Actual results may vary.

VRAM & THROUGHPUT

Почему VRAM решает всё в инференсе

В отличие от обучения, где GPU загружен compute-задачами на 95%, инференс LLM - это memory-bound операция. Скорость генерации токенов напрямую зависит от пропускной способности памяти (HBM bandwidth) и её объёма.

Больше VRAM означает больший batch size - возможность обрабатывать больше запросов одновременно. Это прямо снижает стоимость за токен: один GPU с batch=32 генерирует в 8 раз больше токенов, чем с batch=4, при тех же затратах на электроэнергию и амортизацию.

KV-cache масштабируется с batch size

Каждый запрос в batch хранит свой KV-cache. На LLaMA 70B один запрос - 2.5 ГБ KV-cache. Batch=8 требует 20 ГБ только под кэш.

Cost per token падает экспоненциально

Удвоение batch size снижает cost per token почти вдвое. H200 с 141 ГБ позволяет batch=32 для 70B моделей, тогда как L40S ограничен batch=2.

H200

141 GB HBM3e

Модель 70B INT8: 35 ГБ KV-cache batch=16: 40 ГБ Запас: 66 ГБ

H100

80 GB HBM3

Модель 70B INT8: 35 ГБ KV-cache batch=8: 20 ГБ Запас: 25 ГБ

L40S

48 GB GDDR6X

Модель 13B FP16: 26 ГБ KV-cache batch=16: 12 ГБ Запас: 10 ГБ

Распределение VRAM при типичной инференс-нагрузке

GPU ДЛЯ ИНФЕРЕНСА

Серверы для инференса - под ключ

Три проверенные конфигурации. Собираем за 5-7 дней, тестируем 72 часа под нагрузкой, доставляем по Казахстану и СНГ.

L40S Inference

Стартовый инференс-сервер

2x NVIDIA L40S 48GB
256 GB DDR5 ECC
2 TB NVMe Gen4
EPYC 9354 32-core
10GbE сеть

Для инференса моделей 7B-13B, embedding-сервисов, CV и NLP пайплайнов

от 24 000 000 ₸

Заказать L40S

H200 Inference

Мощный LLM-сервер

4x NVIDIA H200 141GB NVLink
1 TB DDR5 ECC
8 TB NVMe Gen5 RAID
Dual EPYC 9654 96-core
100GbE InfiniBand

Для LLM 70B+, multi-model serving, высоконагруженных AI API с SLA

от 72 000 000 ₸

Заказать H200

H100 Multi-Model

Enterprise inference platform

8x NVIDIA H100 80GB NVLink
2 TB DDR5 ECC
16 TB NVMe Gen5 RAID
Dual EPYC 9754 128-core
400GbE InfiniBand NDR

Для GPT-4 class моделей, одновременный serving 10+ моделей, enterprise AI

от 120 000 000 ₸

Заказать H100

OPTIMIZATION

Как выжать максимум из GPU

Четыре техники, которые снижают latency и повышают throughput без замены железа. Мы настраиваем каждую при поставке сервера.

Квантизация INT8/FP8

Снижает размер модели в 2x и ускоряет вычисления на 30-50%. FP8 на Hopper/Ada сохраняет 99.5% качества. GPTQ, AWQ, SmoothQuant - выбираем оптимальный метод под модель.

KV-Cache оптимизация

PagedAttention в vLLM устраняет фрагментацию VRAM - утилизация памяти растёт с 60% до 95%. Prefix caching для повторяющихся промптов. Multi-query attention для экономии KV-cache на 4-8x.

Continuous Batching

Новые запросы добавляются в batch, не дожидаясь завершения текущих. В 3-5x выше throughput по сравнению со static batching. Каждый запрос освобождает slot сразу после finish.

Speculative Decoding

Маленькая модель-драфтер генерирует N кандидатов, большая модель верифицирует их пакетом. Ускорение генерации в 2-3x для длинных ответов. Без потери качества - математически идентичный output.

Связанные разделы

Обучение нейросетей

GPU серверы для training

Сравнение GPU

H100 vs H200 vs L40S vs A100

Цены и конфигуратор

Собери сервер под бюджет

FAQ

Вопросы про
инференс

Ответы на ключевые вопросы о серверах для инференса AI моделей. Нужна консультация - напишите нам.

Задать вопрос

Зависит от модели и требований к latency. Для моделей до 13B параметров отлично подходит L40S - оптимальный баланс цены и производительности. Для больших моделей (70B+) необходим H200 с 141 ГБ HBM3e VRAM. Для максимального throughput при работе с несколькими моделями - H100 с NVLink.

Для моделей, помещающихся в VRAM одного GPU (до ~65B на H200), NVLink не обязателен. Однако для моделей 70B+ с tensor parallelism NVLink критичен - без него межGPU-коммуникация идёт через PCIe, увеличивая latency на 40-60%. Для multi-model serving NVLink также полезен при sharing KV-cache.

Зависит от размера моделей и доступной VRAM. На H200 (141 ГБ) можно запустить 2-3 модели по 7B (каждая ~14 ГБ в FP16, ~7 ГБ в INT8). На L40S (48 ГБ) - одну модель 13B в INT8 или две модели 7B. vLLM и Triton поддерживают multi-model serving с динамическим распределением памяти.

TensorRT-LLM даёт максимальную производительность (на 20-40% выше throughput), но требует предварительную компиляцию модели и привязан к NVIDIA GPU. vLLM проще в настройке, поддерживает PagedAttention и continuous batching из коробки, быстрее обновляет поддержку новых моделей. Для продакшна с фиксированной моделью - TensorRT-LLM. Для экспериментов и быстрого деплоя - vLLM.

Основные стратегии: (1) Квантизация - INT8/FP8 снижает потребление VRAM и ускоряет вычисления на 30-50% с минимальной потерей качества. (2) KV-cache оптимизация - PagedAttention в vLLM устраняет фрагментацию памяти. (3) Speculative decoding - малая модель-драфтер генерирует кандидатов, большая модель верифицирует пакетом. (4) Continuous batching - обработка новых запросов без ожидания завершения текущих. (5) Правильный GPU - H200 с HBM3e имеет bandwidth 4.8 TB/s, что критично для memory-bound inference.