AirLLM

AirLLM позволяет запускать 70B языковые модели на одной GPU с 4 ГБ VRAM без квантизации и прунинга — …