22 FebarticleКак работает инференс: от запроса до ответаРазбираем путь запроса к LLM: фазы prefill и decode, KV-кэш, speculative decoding и оптимизации, …→