Введение: топливо, без которого не летит ни одна модель

Есть расхожая фраза в ML-индустрии: «Everyone wants to do the model work, not the data work» — «Все хотят работать с моделями, но никто не хочет возиться с данными». Эта ирония принадлежит Sambasivan et al. (2021) и точно отражает парадокс современного AI: сообщество понимает ценность высококачественных данных, но всё равно остаётся неустойчивое впечатление, что работа с данными — это «второй сорт».

Между тем качественные данные — это топливо для обучения современных моделей глубокого обучения. Именно об этом написала Лилиан Венг (Lilian Weng, OpenAI) в своей статье «Thinking about High-Quality Human Data» в феврале 2024 года. В ней она систематизировала ключевые принципы сбора, разметки и контроля качества человеческих данных для задач выравнивания LLM. Разберём главные идеи — с практическим уклоном.


Почему человеческие данные так важны

Большая часть размеченных данных для конкретных задач поступает от человеческой аннотации — например, для задач классификации или RLHF-разметки при обучении выравниванию LLM.

RLHF расшифровывается как Reinforcement Learning from Human Feedback — это этап обучения, который превращает модель с «сырыми» знаниями в модель с суждением. Именно RLHF стоит за тем, почему ChatGPT, Claude или Gemini могут следовать инструкциям, а не просто предсказывать следующий токен.

Проблема в том, что цена ошибки здесь высока. Если аннотаторы не получили чётких инструкций, собранные данные могут сделать модель чрезмерно осторожной или заставить её отвечать в нежелательном стиле — например, быть осуждающей.

⚠ Эффект каскада данных
Ошибки в разметке не остаются локальными. Некачественные данные на входе порождают «data cascades» — цепочку downstream-проблем, которые становятся всё дороже исправлять по мере продвижения по пайплайну.

Анатомия качественной аннотации

Чёткие инструкции — основа всего

Фундаментально сбор человеческих данных требует внимания к деталям и тщательного исполнения. Ни одна ML-техника не компенсирует размытые руководящие принципы для аннотаторов. Критически важно:

  • Однозначность критериев: что считается «хорошим» ответом, а что — нет.
  • Примеры граничных случаев: инструкции без примеров неоднозначны по определению.
  • Иерархия приоритетов: если критерии (полнота, безопасность, стиль) конфликтуют — что важнее?

Согласованность аннотаторов (Inter-Annotator Agreement)

Мерилом качества разметки служит IAA — степень согласия между независимыми аннотаторами. Несогласие людей может отражать подлинную неоднозначность или контекстуальную чувствительность, которую модели не способны уловить. Это не всегда плохо: если два эксперта расходятся во мнениях по сложному случаю — возможно, задача сама по себе субъективна.

Хотя модели часто демонстрируют более высокую внутреннюю согласованность, чем люди-оценщики, они также рискуют воспроизводить систематические ошибки или ошибки калибровки.

💡 Практика: калибровочные сессии
Перед началом крупного проекта разметки проводите «калибровочные» сессии: дайте одним и тем же примерам несколько аннотаторов, обсудите расхождения, обновите гайдлайны. Это резко снижает variance в финальном датасете.

Разнообразие аннотаторов и предвзятость

Если обратная связь от людей не является разнообразной или репрезентативной, модель может усвоить непредусмотренные предубеждения.

Исследования выявили демографические предубеждения — систематическое выравнивание аннотаций LLM с позициями отдельных демографических групп. Если LLM воспроизводят взгляды одной группы в ущерб другим, это рискует закрепить структурные нарушения.

Поэтому состав пула аннотаторов — это не HR-вопрос, а инженерное решение с прямым влиянием на поведение модели.


Типология задач разметки и их стоимость

RLHF собирает попарные рейтинги предпочтений от экспертов-людей, тогда как инструкционное обучение собирает пары «вход–выход», обучающие модель конкретным задачам.

Тип разметкиФормат данныхСтоимостьРезультат
Классификация / ТэггингКатегория / меткиНизкаяБазовые задачи
Instruction TuningПромпт + эталонный ответСредняяСледование инструкциям
RLHF PreferenceПары ответов + ранжированиеВысокаяВыравнивание, безопасность
Expert AnnotationСложные доменные задачиОчень высокаяСпециализация, рассуждения

RLHF обходится в 5–10 раз дороже за образец, но обеспечивает лучшее выравнивание по безопасности, тону и полезности.

Рыночный контекст: глобальный рынок аннотации данных, по прогнозам, достигнет $2,26 млрд в 2025 году, демонстрируя рост 32,5% в год по данным Grand View Research. При этом с 2023 по 2024 год затраты на разметку данных выросли в 88 раз, тогда как вычислительные затраты увеличились лишь в 1,3 раза.

Мы платим за человеческое суждение всё больше не потому, что стали беднее, а потому что поняли: именно оно определяет, будет ли модель полезной или опасной.


Масштабирование и автоматизация: где ИИ помогает, а где нет

RLAIF и гибридные подходы

По мере роста масштабов обучения встаёт вопрос: можно ли заменить людей? Reinforcement learning with AI feedback (RLAIF) убирает необходимость в людях-аннотаторах, используя AI-оценщиков для снижения затрат и ускорения обучения.

Однако это не серебряная пуля. Вместо замены человеческого суждения модельные оценщики должны проходить бенчмаркинг на фоне разнообразных человеческих перспектив.

Интересное решение — подход RLTHF (Targeted Human Feedback): он снижает высокую стоимость аннотации, комбинируя первичное выравнивание на основе LLM с избирательными человеческими исправлениями, идентифицируя трудноразмечаемые примеры через распределение наград reward-модели. На датасетах HH-RLHF и TL;DR RLTHF достигает уровня выравнивания, сравнимого с полной человеческой аннотацией, используя лишь 6–7% от объёма человеческих усилий.

ℹ LLM-as-a-Judge
Техника LLM-as-a-judge — использование самой языковой модели для оценки других ответов — набирает популярность. Но исследования показывают: модели нередко воспроизводят системные смещения. Не стоит полностью убирать человека из контура оценки на критически важных задачах.

Пайплайн контроля качества


graph TD
    A[Задача разметки] --> B[Создание гайдлайнов]
    B --> C[Калибровочная сессия]
    C --> D[Разметка аннотаторами]
    D --> E{Контроль IAA}
    E -- Низкое согласие --> F[Пересмотр гайдлайнов]
    F --> C
    E -- Высокое согласие --> G[Агрегация меток]
    G --> H[Экспертная валидация]
    H --> I[Финальный датасет]
    I --> J[Обучение / Fine-tuning]

Агрегация разметки: мудрость толпы

Классический принцип из статьи Фрэнсиса Гальтона «Vox Populi» (1907) — «мудрость толпы» — работает и в разметке данных: агрегация мнений множества аннотаторов часто точнее мнения любого отдельного эксперта.

Но слепая агрегация опасна: большинство может систематически ошибаться. Поэтому:

  • Взвешенное голосование — учёт репутации аннотатора.
  • Байесовская агрегация — учёт априорной вероятности правильного ответа.
  • Экспертный арбитраж — спорные случаи разрешает эксперт домена.

Практические рекомендации по построению датасета

В отличие от классических NLP-задач разметки, аннотирование для LLM требует более тонкого подхода, учитывающего качество исходных данных, ясность промпта, релевантность вывода и поведенческое выравнивание.

Аннотаторов теперь просят не просто ставить метки, но и оценивать рассуждения, обнаруживать тонкие ошибки, ранжировать варианты завершений и симулировать взаимодействия пользователей в различных доменах.

Ключевые практики:

  1. Чёткие критерии оценки — helpfulness, honesty, harmlessness (3H-фреймворк Anthropic).
  2. Разнообразие пула аннотаторов — по демографии, культуре, экспертизе.
  3. Непрерывная обратная связь — аннотаторы должны понимать, как их работа влияет на модель.
  4. Документирование расхождений — «неправильные» случаи несогласия — ценнейшие сигналы.
  5. Итеративное обновление — по мере эволюции возможностей модели и паттернов использования может потребоваться дорогостоящее добавление или переразметка данных для корректировки поведения.
# Пример схемы агрегации аннотаций (majority voting + expert arbitration)
from collections import Counter

def aggregate_labels(annotations: list[str], threshold: float = 0.7) -> str:
    """
    annotations: список меток от разных аннотаторов
    threshold: доля согласия для автоматического принятия
    Возвращает метку или флаг 'NEEDS_REVIEW'
    """
    total = len(annotations)
    counts = Counter(annotations)
    top_label, top_count = counts.most_common(1)[0]
    
    agreement_ratio = top_count / total
    if agreement_ratio >= threshold:
        return top_label
    else:
        return "NEEDS_REVIEW"  # Направить эксперту

# Пример
annotations = ["helpful", "helpful", "harmful", "helpful"]
result = aggregate_labels(annotations, threshold=0.6)
print(result)  # → "helpful"
📝 Реальный кейс: InstructGPT
InstructGPT — класс моделей OpenAI на базе GPT-3, улучшенный с помощью RLHF. Именно тщательно выстроенный процесс сбора предпочтений людей-аннотаторов позволил этой модели качественно отличаться от базового GPT-3 по полезности, несмотря на меньший масштаб. Это наглядно демонстрирует: данные важнее параметров.

Заключение: данные — это стратегический актив

Подведём итоги. Качество человеческих данных — не техническая деталь, а стратегическое решение с долгосрочными последствиями:

  • Плохая разметка дороже хорошей: ошибки на уровне данных каскадируются через весь пайплайн обучения.
  • IAA — не цель, а инструмент диагностики: низкое согласие часто сигнализирует о проблеме с инструкциями, а не с аннотаторами.
  • Автоматизация помогает масштабироваться, но не заменяет человеческое суждение на субъективных и высокоставочных задачах.
  • Разнообразие — не этика, а инженерия: однородный пул аннотаторов = систематическое смещение в модели.
  • Итеративность обязательна: датасет — живой артефакт, который нужно обновлять по мере изменения поведения модели и требований продукта.

Множество ML-техник помогают улучшить качество данных, но фундаментально сбор человеческих данных требует внимания к деталям и тщательного исполнения. Никакой алгоритм не обойдёт этот факт.

Лучшие модели следующего поколения будут выиграны не за счёт новой архитектуры трансформера, а за счёт того, чья команда лучше выстроит процесс получения качественной обратной связи от людей.