Talkie: LLM из 1930-х, обученный с помощью Claude
Alec Radford выпустил Talkie — 13B-модель, обученную только на текстах до 1931 года. Claude Sonnet 4.6 и Opus 4.6 помогли создать и протестировать её.
Модель из прошлого, созданная с помощью настоящего
28 апреля 2026 года исследователи Алек Рэдфорд (Alec Radford), Ник Левин (Nick Levine) и Дэвид Дюванод (David Duvenaud) выпустили Talkie — языковую модель на 13 миллиардов параметров, обученную исключительно на текстах, опубликованных до 1931 года. Примечательно, что в создании этой «исторической» модели активно участвовали современные инструменты Anthropic: в процессе пост-тренировки исследователи использовали Claude Sonnet 4.6 в роли судьи (judge) при online DPO (direct preference optimization — прямой оптимизации предпочтений), а финальный раунд обучения с учителем использовал синтетические многоходовые диалоги, сгенерированные между Claude Opus 4.6 и самой Talkie.
Что такое Talkie и зачем он нужен
Модель — официально называемая talkie-1930-13b-base — обучена на 260 миллиардах токенов исторических английских текстов до 1931 года, включая книги, газеты, периодику, научные журналы, патенты и судебные дела. Исследователи выбрали конец 1930 года в качестве граничной даты, поскольку именно тогда произведения переходят в общественное достояние в США, что делает их юридически доступными для обучающих данных.
Когда модель спрашивают о чём-либо, она отвечает с мировоззрением, актуальным до 1931 года: считает Вторую мировую войну маловероятной и представляет 2026 год как мир, в котором господствуют пароходы и обширные железнодорожные сети.
«Безумие 1914–1918 годов миновало» — так Talkie оценивает вероятность новой мировой войны, хотя и предупреждает о «тлеющих враждебных настроениях» в Европе.
Архитектура и семейство моделей
Отдельный диалоговый чекпоинт talkie-1930-13b-it также доступен для интерактивного использования. Он прошёл instruction-tuning (тонкую настройку под следование инструкциям) на наборе данных, построенном на основе исторических справочных материалов до 1931 года: руководств по этикету, пособий по написанию писем, энциклопедий и сборников поэзии.
graph TD
A["260B токенов\nпре-1931 текстов"] --> B["talkie-1930-13b-base\nБазовая модель"]
B --> C["Instruction tuning\nиз исторических источников"]
C --> D["Online DPO\n(судья: Claude Sonnet 4.6)"]
D --> E["SFT на синтетических диалогах\n(Claude Opus 4.6 × Talkie)"]
E --> F["talkie-1930-13b-it\nДиалоговая модель"]
G["FineWeb\n(современные данные)"] --> H["talkie-web-13b-base\nМодель-близнец для сравнения"]
Обе модели выпущены под лицензией Apache 2.0.
| Чекпоинт | Описание | Размер |
|---|---|---|
talkie-1930-13b-base | Базовая модель на пре-1931 данных | 53.1 ГБ |
talkie-1930-13b-it | Диалоговая версия с instruction tuning | 26.6 ГБ |
talkie-web-13b-base | «Современный близнец» на FineWeb для сравнений | ~50 ГБ |
Роль Claude в создании Talkie
Использование Claude Sonnet 4.6 в роли судьи в пайплайне reinforcement learning позволило поднять средний рейтинг следования инструкциям Talkie с 2.0 до 3.4 по пятибалльной шкале.
Команда также запустила круглосуточную live-демонстрацию на talkie-lm.com/chat, где Claude Sonnet 4.6 непрерывно генерирует запросы к диалоговой модели, позволяя посетителям наблюдать за «голосом» и знаниями Talkie в реальном времени.
Научная ценность: меморизация vs. обобщение
Главный вопрос, который ставят авторы: насколько способности современных LLM объясняются настоящим обобщением, а не простым запоминанием данных из интернета?
Современные языковые модели все без исключения обучены — прямо или опосредованно — на веб-данных. Это создаёт гомогенизирующий эффект, при котором все модели связаны друг с другом через общие обучающие данные. Vintage-модели, обученные на иных источниках, помогают исследователям понять, как разнообразие данных формирует поведение и возможности модели.
Загрязнение бенчмарков (benchmark contamination) — когда тестовые данные случайно попадают в обучающий набор — является одной из наиболее устойчивых и недооценённых проблем в оценке LLM. Talkie предлагает инструмент для её измерения.
Сложности при создании
Основные технические препятствия, с которыми столкнулась команда:
Качество OCR. Поскольку в 1930 году цифровых публикаций не существовало, каждый токен в обучающем корпусе пришлось оцифровать с физических источников через оптическое распознавание символов (OCR). В контролируемых экспериментах выяснилось, что обучение на тексте, транскрибированном обычными OCR-системами, давало лишь 30% эффективности по сравнению с моделью, обученной на вручную транскрибированных версиях тех же текстов.
Утечки данных. Более ранняя 7B-версия Talkie явно знала о президентстве Рузвельта и законах Нового курса, что свидетельствовало о несовершенной фильтрации. Команда построила классификатор анахронизмов на основе n-граммов, однако признаёт, что и 13B-версия сохраняет некоторые знания о Второй мировой войне и послевоенном мироустройстве.
Планы на будущее
Разработчики планируют значительно масштабировать Talkie в ближайшие месяцы: целевой показатель — модель уровня GPT-3 к лету 2026 года. По предварительным оценкам, корпус может вырасти до более чем одного триллиона токенов исторических текстов — достаточно для обучения модели на уровне GPT-3.5. В планах также многоязычное расширение за пределы английского.
Ключевой вопрос, движущий проектом: сможет ли vintage-модель предвосхитить открытия и изобретения, сделанные после её граничной даты? Смогла бы модель, обученная только до 1911 года, самостоятельно вывести общую теорию относительности — как предполагал генеральный директор DeepMind Демис Хассабис?
Talkie доступна на GitHub и HuggingFace, живая демонстрация — на talkie-lm.com.