Scaling Laws, Carefully: как масштаб управляет искусственным интеллектом

Представьте, что вы тратите сотни миллионов долларов на обучение языковой модели — и только после запуска понимаете, что распределили вычислительный бюджет неоптимально. Именно поэтому законы масштабирования (scaling laws) стали одним из самых ценных инструментов в арсенале AI-исследователей. 24 июня 2026 года Лилиан Вэн (Lilian Weng) опубликовала на Lil’Log долгожданный — по её собственным словам, «просроченный на 3+ года» — разбор этой темы. В статье мы пройдём по ключевым идеям, разберём исторический спор Kaplan vs. Chinchilla и поймём, почему слепо доверять этим законам опасно.


Что такое законы масштабирования и зачем они нужны

Законы масштабирования — одно из важнейших эмпирических открытий в глубоком обучении. Суть проста: ошибка на обучении L предсказуемо снижается по мере роста размера модели N, объёма данных D и вычислений C, следуя степенному закону — на лог-лог графике это выглядит как прямая линия.

Законы масштабирования можно воспринимать как фреймворк для описания взаимосвязи между вычислениями, потерями, размером модели и данными; в основе — вопрос об оптимальном распределении вычислительного бюджета между N и D.

ℹ Почему это важно
Каждый раз, когда AI-лаборатория решает, сколько параметров делать в модели и сколько токенов на неё потратить, она опирается на законы масштабирования. Это не абстрактная математика — это многомиллиардные инвестиционные решения.

Типичный рабочий процесс: провести несколько небольших обучающих прогонов, подогнать на них законы масштабирования, а затем экстраполировать требования по токенам и вычислениям для более крупных моделей.

Именно эти законы побудили OpenAI строить GPT-4, Google — обучать Gemini Ultra. Каждое крупное решение об архитектуре, бюджете обучения и сборе данных во frontier-лабораториях принимается с оглядкой на эти уравнения.


Kaplan против Chinchilla: исторический спор о балансе

Два фундаментальных исследования пришли к противоположным выводам о том, как оптимально тратить compute.

Законы Kaplan (OpenAI, 2020)

Эволюция законов масштабирования для LLM началась с работы Kaplan et al. (2020), установившей степенные зависимости между производительностью модели и тремя ключевыми факторами: размером модели, объёмом датасета и вычислениями. Исследование показало, что более крупные модели более эффективны по количеству примеров, — это означало, что оптимальной compute-эффективности можно добиться, обучая очень большие модели на относительно скромных данных.

Закон Chinchilla (DeepMind, 2022)

Коррективы внёс Hoffmann et al. (2022) — так называемый «закон Chinchilla». Эта работа выступила против приоритизации только размера модели и показала, что баланс между размером модели и объёмом обучающих данных критически важен. Например, модель на 70B параметров, обученная на большем объёме данных, превзошла Gopher-280B при том же вычислительном бюджете.

«Compute is expensive. Scaling laws are a way to help us reason about the optimal compute allocation between data and model size before committing to a large run.» — Lilian Weng

Почему же два авторитетных исследования пришли к противоположным рекомендациям? Лилиан Вэн разбирает это сквозным образом: почему Kaplan и Chinchilla получили противоположные выводы, как подсчёт параметров и выбор диапазона подгонки меняют ответ, и что дефицит данных означает для кривых масштабирования сегодня.


graph TD
    A[Вычислительный бюджет C] --> B{Как распределить?}
    B --> C[Kaplan 2020\nБольше параметров N\nМеньше данных D]
    B --> D[Chinchilla 2022\nБаланс N и D\n~20 токенов на параметр]
    C --> E[Риск: недообученная\nмодель]
    D --> F[Результат: лучший\nperformance при том же C]
    F --> G[Frontier LLM 2024-2026]

Почему они расходятся?

Основная причина расхождений — методологические различия: какие именно параметры модели считать (embeddings или нет), в каком диапазоне compute проводить подгонку, и насколько далеко экстраполировать. Наклон кривых масштабирования, судя по всему, связан с конкретной предметной областью, а не с архитектурой модели. Это объясняет, почему результаты могут серьёзно расходиться при переходе к другим доменам или архитектурам.


Три оси масштабирования: N, D и C

Законы масштабирования — это эмпирические зависимости, описывающие, как производительность нейросети меняется при увеличении трёх ключевых переменных: размера модели (количество параметров), обучающих данных (количество токенов) и вычислений (суммарные FLOP, используемые при обучении).

ПеременнаяОбозначениеЧто означаетОграничение
Размер моделиNЧисло параметровСтоимость инференса
Объём данныхDЧисло токеновДефицит качественных данных
ВычисленияCFLOP за обучениеБюджет и энергия
ПотериLCross-entropy lossЗависит от домена

Когда разработчики увеличивают compute на обучение в 10 раз, производительность модели улучшается на предсказуемую величину в разнообразных задачах: понимание языка, распознавание изображений, генерация кода. Эта предсказуемая зависимость сохраняется на протяжении шести порядков величины размера модели — от небольших исследовательских моделей до современных frontier-систем, обучение которых стоит сотни миллионов долларов.

💡 Практический вывод
Если у вас фиксированный compute-бюджет, правило Chinchilla предлагает грубый ориентир: ~20 токенов данных на каждый параметр модели. Однако это лишь отправная точка — реальные оптимумы зависят от конкретного домена и целей инференса.

Ловушки экстраполяции: когда законы врут

Стабильность законов масштабирования заставила многих разработчиков и инвесторов воспринимать их как полезное эмпирическое руководство, на основе которого принимаются крупные инвестиционные решения. Однако законы масштабирования — это эмпирические закономерности, а не математические гарантии.

Вот главные источники риска при использовании scaling laws на практике:

1. Дефицит данных

Когда запасы уникальных высококачественных токенов иссякают, начинают действовать штрафы за повторное использование данных и переобучение, поэтому простая картина степенного закона требует поправок перед тем, как делать ставку на крупные compute-вложения.

Исследователи изучали законы масштабирования в условиях ограниченных датасетов. Оказалось, что увеличение вычислений приносит убывающую отдачу, если данные не масштабируются вместе с ними.

2. Детали подгонки

Пост Вэн разбирает, как работает compute-оптимальное распределение, почему Kaplan et al. и Chinchilla расходятся, и как ограничения данных и детали подгонки делают экстраполяцию рискованной.

3. Нелинейные переходы

Caballero et al. (2023) ввели концепцию «гладко сломанных законов нейронного масштабирования» (BNSL), предложив более тонкий фреймворк для понимания поведения масштабирования. BNSL описывает явления вроде двойного спуска и резких переходов способностей — то, что традиционные законы масштабирования не предсказывали. Работа показала ограничения существующих моделей при предсказании поведения на экстремальных масштабах.

# Упрощённая иллюстрация степенного закона (Kaplan-style)
import numpy as np

def predict_loss(N, D, A=406.4, B=410.7, alpha=0.34, beta=0.28):
    """
    Параметры подогнаны на конкретном корпусе!
    Экстраполяция за пределы диапазона обучения опасна.
    """
    return (A / N**alpha) + (B / D**beta)

# Пример: модель 7B параметров, 140B токенов
loss = predict_loss(N=7e9, D=140e9)
print(f"Предсказанные потери: {loss:.4f}")
# Реальный результат зависит от домена, архитектуры и гиперпараметров!
⚠ Важное предупреждение
Законы масштабирования подогнаны на конкретных архитектурах, данных и диапазонах compute. Экстраполяция за пределы наблюдаемого диапазона — особенно при смене архитектуры или домена данных — может давать серьёзно неверные предсказания.

Frontier-реальность: цены, данные и новые направления

CEO Anthropic Дарио Амодей публично заявлял, что стоимость обучения современных frontier-моделей составляет от $100 млн до $1 млрд, с прогнозами достижения $5–10 млрд к 2025–2026 годам и потенциально $10–100 млрд в течение трёх лет.

При таких ставках ошибка в распределении compute — это не академическая оплошность, а реальный финансовый и репутационный риск. Именно здесь законы масштабирования из теоретического инструмента превращаются в инженерную необходимость.

Новые направления масштабирования

Новейшее (2026) исследование «Scaling Behaviors of LLM Reinforcement Learning Post-Training» изучает, как RL в процессе post-training масштабируется с размером модели и compute. Авторы провели эмпирическое исследование на моделях разных масштабов и выяснили, что зависимость между тестовыми потерями, compute и данными можно смоделировать степенным законом — как для базовых, так и для instruction-tuned моделей.

Однако анализ выявил скрытую тенденцию к насыщению эффективности обучения. Хотя более крупные модели достигают более высокой эффективности, отдача уменьшается по мере роста масштаба. Это означает, что RL-масштабирование имеет встроенные ограничения, отличные от тех, что наблюдаются при предобучении.

«Закон Densing» (2025) исследует эффективность использования параметров: он вводит понятие «плотности способностей» — отношения эффективного числа параметров к реальному. Авторы обнаружили, что лучшие модели каждого времени демонстрируют растущую плотность способностей: новые модели достигают заданной производительности с меньшим числом параметров, чем старые.

📝 Пример: Meta Llama 3
Meta обучала Llama 3 на кластере из 16 000 GPU H100. Выбор соотношения числа параметров и токенов обучения напрямую определялся эмпирическими законами масштабирования — и при этом модель намеренно обучалась на большем числе токенов, чем предписывает «compute-optimal» по Chinchilla, поскольку целью была эффективность инференса, а не только потери на обучении.

Заключение: масштабируй с умом

Законы масштабирования — мощный навигатор в мире дорогостоящего обучения LLM, но не компас с гарантированной точностью. Подведём итоги:

  1. Степенной закон работает — потери снижаются предсказуемо при росте N, D и C на многих порядках величины.
  2. Kaplan и Chinchilla не противоречат друг другу — они отвечают на разные вопросы при разных методологических условиях.
  3. Детали имеют значение — способ подсчёта параметров, диапазон подгонки и выбор домена кардинально меняют прогноз.
  4. Данные становятся узким местом — дефицит высококачественных токенов корректирует простую картину степенного закона.
  5. RL post-training и эффективность параметров — новые направления, где старые законы требуют переосмысления.

Законы масштабирования — это эмпирические закономерности, а не математические гарантии. Используйте их как инструмент планирования, а не как оракул.

Блог-пост Лилиан Вэн «Scaling Laws, Carefully» стал отличным напоминанием: прежде чем ставить сотни миллионов на один обучающий прогон, стоит тщательно разобраться в том, что именно вы экстраполируете — и из какого диапазона данных.