AirLLM: запуск 70B модели на GPU с 4 ГБ VRAM

Thu, 04 Jun 2026 03:14:16 +0300

70B модель на бюджетной видеокарте — это реально

AirLLM — open-source инструмент, который даёт возможность запускать языковые модели с 70 миллиардами параметров на одной GPU с всего лишь 4 ГБ видеопамяти. И всё это без квантизации (quantization), дистилляции (distillation) или прунинга (pruning) — техник, которые обычно применяются для «облегчения» моделей ценой потери точности. А в последних версиях планка поднялась ещё выше: Llama 3.1 на 405 миллиардов параметров теперь работает на GPU с 8 ГБ VRAM.

AirLLM on AI-Uchi — Всё об искусственном интеллекте

AirLLM: запуск 70B модели на GPU с 4 ГБ VRAM

70B модель на бюджетной видеокарте — это реально