04 JunarticleОбучение больших моделей на множестве GPUКак обучать гигантские нейросети на кластерах GPU: параллелизм данных, модели, конвейеров, ZeRO и …→