Модель из прошлого, созданная с помощью настоящего

28 апреля 2026 года исследователи Алек Рэдфорд (Alec Radford), Ник Левин (Nick Levine) и Дэвид Дюванод (David Duvenaud) выпустили Talkie — языковую модель на 13 миллиардов параметров, обученную исключительно на текстах, опубликованных до 1931 года. Примечательно, что в создании этой «исторической» модели активно участвовали современные инструменты Anthropic: в процессе пост-тренировки исследователи использовали Claude Sonnet 4.6 в роли судьи (judge) при online DPO (direct preference optimization — прямой оптимизации предпочтений), а финальный раунд обучения с учителем использовал синтетические многоходовые диалоги, сгенерированные между Claude Opus 4.6 и самой Talkie.

ℹ Кто такой Alec Radford?
Алек Рэдфорд — один из самых влиятельных исследователей в области ИИ за последнее десятилетие. Он был ведущим автором основополагающей статьи GPT 2018 года в OpenAI, где также работал над ранними моделями GPT, системой распознавания речи Whisper и генератором изображений DALL-E.

Что такое Talkie и зачем он нужен

Модель — официально называемая talkie-1930-13b-base — обучена на 260 миллиардах токенов исторических английских текстов до 1931 года, включая книги, газеты, периодику, научные журналы, патенты и судебные дела. Исследователи выбрали конец 1930 года в качестве граничной даты, поскольку именно тогда произведения переходят в общественное достояние в США, что делает их юридически доступными для обучающих данных.

Когда модель спрашивают о чём-либо, она отвечает с мировоззрением, актуальным до 1931 года: считает Вторую мировую войну маловероятной и представляет 2026 год как мир, в котором господствуют пароходы и обширные железнодорожные сети.

«Безумие 1914–1918 годов миновало» — так Talkie оценивает вероятность новой мировой войны, хотя и предупреждает о «тлеющих враждебных настроениях» в Европе.

Архитектура и семейство моделей

Отдельный диалоговый чекпоинт talkie-1930-13b-it также доступен для интерактивного использования. Он прошёл instruction-tuning (тонкую настройку под следование инструкциям) на наборе данных, построенном на основе исторических справочных материалов до 1931 года: руководств по этикету, пособий по написанию писем, энциклопедий и сборников поэзии.


graph TD
    A["260B токенов\nпре-1931 текстов"] --> B["talkie-1930-13b-base\nБазовая модель"]
    B --> C["Instruction tuning\nиз исторических источников"]
    C --> D["Online DPO\n(судья: Claude Sonnet 4.6)"]
    D --> E["SFT на синтетических диалогах\n(Claude Opus 4.6 × Talkie)"]
    E --> F["talkie-1930-13b-it\nДиалоговая модель"]
    G["FineWeb\n(современные данные)"] --> H["talkie-web-13b-base\nМодель-близнец для сравнения"]

Обе модели выпущены под лицензией Apache 2.0.

ЧекпоинтОписаниеРазмер
talkie-1930-13b-baseБазовая модель на пре-1931 данных53.1 ГБ
talkie-1930-13b-itДиалоговая версия с instruction tuning26.6 ГБ
talkie-web-13b-base«Современный близнец» на FineWeb для сравнений~50 ГБ

Роль Claude в создании Talkie

Использование Claude Sonnet 4.6 в роли судьи в пайплайне reinforcement learning позволило поднять средний рейтинг следования инструкциям Talkie с 2.0 до 3.4 по пятибалльной шкале.

Команда также запустила круглосуточную live-демонстрацию на talkie-lm.com/chat, где Claude Sonnet 4.6 непрерывно генерирует запросы к диалоговой модели, позволяя посетителям наблюдать за «голосом» и знаниями Talkie в реальном времени.

⚠ Парадокс vintage-обучения
Команда признаёт: reinforcement learning с обратной связью от ИИ неизбежно формирует поведение Talkie анахронично. Например, 7B-версия модели после RL начала отвечать в формате «лонгридов» (listicles). В будущем исследователи надеются использовать сами vintage-модели в качестве судей, чтобы обеспечить полностью самодостаточный пайплайн пост-тренировки, соответствующий эпохе.

Научная ценность: меморизация vs. обобщение

Главный вопрос, который ставят авторы: насколько способности современных LLM объясняются настоящим обобщением, а не простым запоминанием данных из интернета?

Современные языковые модели все без исключения обучены — прямо или опосредованно — на веб-данных. Это создаёт гомогенизирующий эффект, при котором все модели связаны друг с другом через общие обучающие данные. Vintage-модели, обученные на иных источниках, помогают исследователям понять, как разнообразие данных формирует поведение и возможности модели.

Загрязнение бенчмарков (benchmark contamination) — когда тестовые данные случайно попадают в обучающий набор — является одной из наиболее устойчивых и недооценённых проблем в оценке LLM. Talkie предлагает инструмент для её измерения.

💡 Можно ли научить Talkie программировать?
Когда исследователи проверили, может ли Talkie научиться писать код на Python при наличии нескольких демонстрационных примеров, модель показала определённые успехи — хотя ограниченные простыми однострочными программами. Это свидетельствует о том, что языковые модели способны обобщать за пределы своих предобученных данных весьма интересными способами.

Сложности при создании

Основные технические препятствия, с которыми столкнулась команда:

  • Качество OCR. Поскольку в 1930 году цифровых публикаций не существовало, каждый токен в обучающем корпусе пришлось оцифровать с физических источников через оптическое распознавание символов (OCR). В контролируемых экспериментах выяснилось, что обучение на тексте, транскрибированном обычными OCR-системами, давало лишь 30% эффективности по сравнению с моделью, обученной на вручную транскрибированных версиях тех же текстов.

  • Утечки данных. Более ранняя 7B-версия Talkie явно знала о президентстве Рузвельта и законах Нового курса, что свидетельствовало о несовершенной фильтрации. Команда построила классификатор анахронизмов на основе n-граммов, однако признаёт, что и 13B-версия сохраняет некоторые знания о Второй мировой войне и послевоенном мироустройстве.

Планы на будущее

Разработчики планируют значительно масштабировать Talkie в ближайшие месяцы: целевой показатель — модель уровня GPT-3 к лету 2026 года. По предварительным оценкам, корпус может вырасти до более чем одного триллиона токенов исторических текстов — достаточно для обучения модели на уровне GPT-3.5. В планах также многоязычное расширение за пределы английского.

Ключевой вопрос, движущий проектом: сможет ли vintage-модель предвосхитить открытия и изобретения, сделанные после её граничной даты? Смогла бы модель, обученная только до 1911 года, самостоятельно вывести общую теорию относительности — как предполагал генеральный директор DeepMind Демис Хассабис?

Talkie доступна на GitHub и HuggingFace, живая демонстрация — на talkie-lm.com.