Голосовой AI-ассистент: Whisper + LLM + TTS на своём сервере

Wed, 04 Mar 2026 18:00:00 +0300

Вы говорите вслух — ассистент отвечает голосом. Без подписки, без передачи данных в облако, без зависимости от серверов OpenAI или Google. Всё работает локально на вашем железе, со скоростью, которая ощущается как живой разговор.

Это не фантастика 2027 года. Это реальный стек, который собирают разработчики прямо сейчас: faster-whisper для распознавания речи, Ollama для запуска LLM, Kokoro или Piper для синтеза голоса. В этом гайде — архитектура, выбор компонентов, код и реальные цифры производительности.

Квантование моделей: запуск большой LLM на слабом железе

Tue, 10 Feb 2026 18:00:00 +0300

Модель с 70 миллиардами параметров занимает 140 ГБ в формате FP16. У вас нет сервера с четырьмя A100? Не проблема. Квантование позволяет сжать ту же модель до 40 ГБ и запустить её на паре потребительских видеокарт — или взять модель поменьше и уместить её в 8 ГБ VRAM обычной RTX 3060. В этой статье разберём, как это работает, какие методы существуют и что конкретно нужно делать.

Что такое квантование и зачем оно нужно

Квантование — это снижение точности числового представления весов модели. Вместо 16-битных чисел с плавающей запятой (FP16) веса хранятся в 8-битном (INT8), 4-битном (INT4) или даже 2-битном формате. Математически это означает переход от непрерывного пространства значений к дискретному с меньшим числом уровней.

Локальный AI on AI-Uchi — Всё об искусственном интеллекте

Голосовой AI-ассистент: Whisper + LLM + TTS на своём сервере

Квантование моделей: запуск большой LLM на слабом железе

Что такое квантование и зачем оно нужно