Качество человеческих данных: фундамент AI
Почему качество данных разметки важнее архитектуры модели, как устроен RLHF и что делает аннотацию по-настоящему ценной.
Введение: топливо, без которого не летит ни одна модель
Есть расхожая фраза в ML-индустрии: «Everyone wants to do the model work, not the data work» — «Все хотят работать с моделями, но никто не хочет возиться с данными». Эта ирония принадлежит Sambasivan et al. (2021) и точно отражает парадокс современного AI: сообщество понимает ценность высококачественных данных, но всё равно остаётся неустойчивое впечатление, что работа с данными — это «второй сорт».
Между тем качественные данные — это топливо для обучения современных моделей глубокого обучения. Именно об этом написала Лилиан Венг (Lilian Weng, OpenAI) в своей статье «Thinking about High-Quality Human Data» в феврале 2024 года. В ней она систематизировала ключевые принципы сбора, разметки и контроля качества человеческих данных для задач выравнивания LLM. Разберём главные идеи — с практическим уклоном.
Почему человеческие данные так важны
Большая часть размеченных данных для конкретных задач поступает от человеческой аннотации — например, для задач классификации или RLHF-разметки при обучении выравниванию LLM.
RLHF расшифровывается как Reinforcement Learning from Human Feedback — это этап обучения, который превращает модель с «сырыми» знаниями в модель с суждением. Именно RLHF стоит за тем, почему ChatGPT, Claude или Gemini могут следовать инструкциям, а не просто предсказывать следующий токен.
Проблема в том, что цена ошибки здесь высока. Если аннотаторы не получили чётких инструкций, собранные данные могут сделать модель чрезмерно осторожной или заставить её отвечать в нежелательном стиле — например, быть осуждающей.
Анатомия качественной аннотации
Чёткие инструкции — основа всего
Фундаментально сбор человеческих данных требует внимания к деталям и тщательного исполнения. Ни одна ML-техника не компенсирует размытые руководящие принципы для аннотаторов. Критически важно:
- Однозначность критериев: что считается «хорошим» ответом, а что — нет.
- Примеры граничных случаев: инструкции без примеров неоднозначны по определению.
- Иерархия приоритетов: если критерии (полнота, безопасность, стиль) конфликтуют — что важнее?
Согласованность аннотаторов (Inter-Annotator Agreement)
Мерилом качества разметки служит IAA — степень согласия между независимыми аннотаторами. Несогласие людей может отражать подлинную неоднозначность или контекстуальную чувствительность, которую модели не способны уловить. Это не всегда плохо: если два эксперта расходятся во мнениях по сложному случаю — возможно, задача сама по себе субъективна.
Хотя модели часто демонстрируют более высокую внутреннюю согласованность, чем люди-оценщики, они также рискуют воспроизводить систематические ошибки или ошибки калибровки.
Разнообразие аннотаторов и предвзятость
Если обратная связь от людей не является разнообразной или репрезентативной, модель может усвоить непредусмотренные предубеждения.
Исследования выявили демографические предубеждения — систематическое выравнивание аннотаций LLM с позициями отдельных демографических групп. Если LLM воспроизводят взгляды одной группы в ущерб другим, это рискует закрепить структурные нарушения.
Поэтому состав пула аннотаторов — это не HR-вопрос, а инженерное решение с прямым влиянием на поведение модели.
Типология задач разметки и их стоимость
RLHF собирает попарные рейтинги предпочтений от экспертов-людей, тогда как инструкционное обучение собирает пары «вход–выход», обучающие модель конкретным задачам.
| Тип разметки | Формат данных | Стоимость | Результат |
|---|---|---|---|
| Классификация / Тэггинг | Категория / метки | Низкая | Базовые задачи |
| Instruction Tuning | Промпт + эталонный ответ | Средняя | Следование инструкциям |
| RLHF Preference | Пары ответов + ранжирование | Высокая | Выравнивание, безопасность |
| Expert Annotation | Сложные доменные задачи | Очень высокая | Специализация, рассуждения |
RLHF обходится в 5–10 раз дороже за образец, но обеспечивает лучшее выравнивание по безопасности, тону и полезности.
Рыночный контекст: глобальный рынок аннотации данных, по прогнозам, достигнет $2,26 млрд в 2025 году, демонстрируя рост 32,5% в год по данным Grand View Research. При этом с 2023 по 2024 год затраты на разметку данных выросли в 88 раз, тогда как вычислительные затраты увеличились лишь в 1,3 раза.
Мы платим за человеческое суждение всё больше не потому, что стали беднее, а потому что поняли: именно оно определяет, будет ли модель полезной или опасной.
Масштабирование и автоматизация: где ИИ помогает, а где нет
RLAIF и гибридные подходы
По мере роста масштабов обучения встаёт вопрос: можно ли заменить людей? Reinforcement learning with AI feedback (RLAIF) убирает необходимость в людях-аннотаторах, используя AI-оценщиков для снижения затрат и ускорения обучения.
Однако это не серебряная пуля. Вместо замены человеческого суждения модельные оценщики должны проходить бенчмаркинг на фоне разнообразных человеческих перспектив.
Интересное решение — подход RLTHF (Targeted Human Feedback): он снижает высокую стоимость аннотации, комбинируя первичное выравнивание на основе LLM с избирательными человеческими исправлениями, идентифицируя трудноразмечаемые примеры через распределение наград reward-модели. На датасетах HH-RLHF и TL;DR RLTHF достигает уровня выравнивания, сравнимого с полной человеческой аннотацией, используя лишь 6–7% от объёма человеческих усилий.
Пайплайн контроля качества
graph TD
A[Задача разметки] --> B[Создание гайдлайнов]
B --> C[Калибровочная сессия]
C --> D[Разметка аннотаторами]
D --> E{Контроль IAA}
E -- Низкое согласие --> F[Пересмотр гайдлайнов]
F --> C
E -- Высокое согласие --> G[Агрегация меток]
G --> H[Экспертная валидация]
H --> I[Финальный датасет]
I --> J[Обучение / Fine-tuning]
Агрегация разметки: мудрость толпы
Классический принцип из статьи Фрэнсиса Гальтона «Vox Populi» (1907) — «мудрость толпы» — работает и в разметке данных: агрегация мнений множества аннотаторов часто точнее мнения любого отдельного эксперта.
Но слепая агрегация опасна: большинство может систематически ошибаться. Поэтому:
- Взвешенное голосование — учёт репутации аннотатора.
- Байесовская агрегация — учёт априорной вероятности правильного ответа.
- Экспертный арбитраж — спорные случаи разрешает эксперт домена.
Практические рекомендации по построению датасета
В отличие от классических NLP-задач разметки, аннотирование для LLM требует более тонкого подхода, учитывающего качество исходных данных, ясность промпта, релевантность вывода и поведенческое выравнивание.
Аннотаторов теперь просят не просто ставить метки, но и оценивать рассуждения, обнаруживать тонкие ошибки, ранжировать варианты завершений и симулировать взаимодействия пользователей в различных доменах.
Ключевые практики:
- Чёткие критерии оценки — helpfulness, honesty, harmlessness (3H-фреймворк Anthropic).
- Разнообразие пула аннотаторов — по демографии, культуре, экспертизе.
- Непрерывная обратная связь — аннотаторы должны понимать, как их работа влияет на модель.
- Документирование расхождений — «неправильные» случаи несогласия — ценнейшие сигналы.
- Итеративное обновление — по мере эволюции возможностей модели и паттернов использования может потребоваться дорогостоящее добавление или переразметка данных для корректировки поведения.
# Пример схемы агрегации аннотаций (majority voting + expert arbitration)
from collections import Counter
def aggregate_labels(annotations: list[str], threshold: float = 0.7) -> str:
"""
annotations: список меток от разных аннотаторов
threshold: доля согласия для автоматического принятия
Возвращает метку или флаг 'NEEDS_REVIEW'
"""
total = len(annotations)
counts = Counter(annotations)
top_label, top_count = counts.most_common(1)[0]
agreement_ratio = top_count / total
if agreement_ratio >= threshold:
return top_label
else:
return "NEEDS_REVIEW" # Направить эксперту
# Пример
annotations = ["helpful", "helpful", "harmful", "helpful"]
result = aggregate_labels(annotations, threshold=0.6)
print(result) # → "helpful"
Заключение: данные — это стратегический актив
Подведём итоги. Качество человеческих данных — не техническая деталь, а стратегическое решение с долгосрочными последствиями:
- Плохая разметка дороже хорошей: ошибки на уровне данных каскадируются через весь пайплайн обучения.
- IAA — не цель, а инструмент диагностики: низкое согласие часто сигнализирует о проблеме с инструкциями, а не с аннотаторами.
- Автоматизация помогает масштабироваться, но не заменяет человеческое суждение на субъективных и высокоставочных задачах.
- Разнообразие — не этика, а инженерия: однородный пул аннотаторов = систематическое смещение в модели.
- Итеративность обязательна: датасет — живой артефакт, который нужно обновлять по мере изменения поведения модели и требований продукта.
Множество ML-техник помогают улучшить качество данных, но фундаментально сбор человеческих данных требует внимания к деталям и тщательного исполнения. Никакой алгоритм не обойдёт этот факт.
Лучшие модели следующего поколения будут выиграны не за счёт новой архитектуры трансформера, а за счёт того, чья команда лучше выстроит процесс получения качественной обратной связи от людей.