Инференс

5 материалов

Google представила TPU 8-го поколения: два специализированных чипа TPU 8t и TPU 8i для обучения и …

Ollama — CLI-инструмент для локального запуска LLM. Обзор возможностей, поддерживаемые модели, …

Google запустил два новых уровня инференса в Gemini API — Flex со скидкой 50% и Priority с …

LM Studio — бесплатное десктопное приложение для запуска LLM локально. Обзор возможностей, сравнение …

Разбираем путь запроса к LLM: фазы prefill и decode, KV-кэш, speculative decoding и оптимизации, …