Квантование моделей: запуск большой LLM на слабом железе

Tue, 10 Feb 2026 18:00:00 +0300

Модель с 70 миллиардами параметров занимает 140 ГБ в формате FP16. У вас нет сервера с четырьмя A100? Не проблема. Квантование позволяет сжать ту же модель до 40 ГБ и запустить её на паре потребительских видеокарт — или взять модель поменьше и уместить её в 8 ГБ VRAM обычной RTX 3060. В этой статье разберём, как это работает, какие методы существуют и что конкретно нужно делать.

Что такое квантование и зачем оно нужно

Квантование — это снижение точности числового представления весов модели. Вместо 16-битных чисел с плавающей запятой (FP16) веса хранятся в 8-битном (INT8), 4-битном (INT4) или даже 2-битном формате. Математически это означает переход от непрерывного пространства значений к дискретному с меньшим числом уровней.

Оптимизация Моделей on AI-Uchi — Всё об искусственном интеллекте

Квантование моделей: запуск большой LLM на слабом железе

Что такое квантование и зачем оно нужно