Репозиторий, который объясняет всё изнутри

GitHub-репозиторий rasbt/LLMs-from-scratch стал одним из самых популярных образовательных проектов в мире AI: более 92 тысяч звёзд и 14 тысяч форков — цифры, которые говорят сами за себя. Автор — Себастьян Рашка (Sebastian Raschka), исследователь в области LLM. В книге и коде вы узнаете, как работают большие языковые модели изнутри, шаг за шагом написав их с нуля. Главная идея проста: понять можно только то, что построил сам.

ℹ Что это такое
LLMs-from-scratch — официальный репозиторий к книге Build a Large Language Model (From Scratch) издательства Manning. Весь код написан на PyTorch без использования сторонних LLM-библиотек.

Подход: зеркало ChatGPT для образования

Метод, описанный в книге, зеркально отражает подход, используемый при создании крупных фундаментальных моделей, таких как те, что лежат в основе ChatGPT. При этом код из основных глав рассчитан на запуск на обычном ноутбуке без специализированного железа, а GPU используется автоматически, если он доступен.

Без опоры на существующие LLM-библиотеки вы кодируете базовую модель, превращаете её в текстовый классификатор и в итоге создаёте чат-бота, который следует разговорным инструкциям.

«Я не понимаю того, что не могу построить» — Ричард Фейнман. Именно этот принцип лежит в основе книги Рашки.

Структура курса: 7 глав и 5 приложений

Репозиторий строго следует структуре книги. Каждая глава — отдельная директория с Jupyter-ноутбуком, скриптами и решениями упражнений.

ГлаваТемаКлючевые файлы
Ch 2Working with Text Datach02.ipynb, dataloader.ipynb
Ch 3Coding Attention Mechanismsch03.ipynb, multihead-attention.ipynb
Ch 4Implementing a GPT Modelch04.ipynb, gpt.py
Ch 5Pretraining on Unlabeled Datagpt_train.py, gpt_generate.py
Ch 6Finetuning for Classificationgpt_class_finetune.py
Ch 7Finetuning to Follow Instructionsgpt_instruction_finetuning.py

Приложения охватывают введение в PyTorch (Appendix A), параметрически эффективный fine-tuning с LoRA (Appendix E) и настройку тренировочного цикла (Appendix D).

💡 Бесплатный бонус
На сайте Manning можно скачать бесплатный 170-страничный PDF «Test Yourself On Build a Large Language Model (From Scratch)» — около 30 вопросов с решениями на каждую главу.

Маршрут от токена до модели

Ниже — упрощённая схема того, как выстроен путь обучения:


graph TD
    A[Текстовые данные / Tokenization] --> B[Attention Mechanisms]
    B --> C[GPT Model Architecture]
    C --> D[Pretraining на сырых данных]
    D --> E[Fine-tuning: классификация]
    D --> F[Fine-tuning: следование инструкциям]
    E --> G[Готовая LLM на ноутбуке]
    F --> G

Бонусные материалы: от Llama до MoE

Помимо основных глав, репозиторий содержит обширную коллекцию дополнительных ноутбуков. Среди них — реализации современных архитектур:

  • Llama 3.2 From Scratch
  • Qwen3 Dense и Mixture-of-Experts (MoE — смесь экспертов) From Scratch
  • Gemma 3 / Gemma 4 From Scratch
  • Olmo 3 From Scratch
  • Grouped-Query Attention, Multi-Head Latent Attention, Sliding Window Attention
  • KV Cache, FLOPs-анализ

Это превращает репозиторий из учебного пособия в живую коллекцию актуальных архитектурных решений.

Быстрый старт

git clone --depth 1 https://github.com/rasbt/LLMs-from-scratch.git
cd LLMs-from-scratch
# Открывайте нужную главу, например:
jupyter notebook ch02/01_main-chapter-code/ch02.ipynb
⚠ Требования
Главный prerequisite — уверенное знание Python. Знание PyTorch желательно, но не обязательно: Appendix A даёт достаточное введение. Знание глубоких нейросетей ускорит освоение, но не является обязательным.

Продолжение: reasoning-модели

В 2025 году Рашка выпустил книгу-продолжение. «Build A Reasoning Model (From Scratch)» можно считать сиквелом: она начинается с pretrained-модели и реализует разные подходы к рассуждению — inference-time scaling, reinforcement learning и дистилляцию. Описываемые методы зеркалят подходы, используемые в таких моделях, как DeepSeek R1 и GPT-5 Thinking.

Почему это важно для отрасли

В момент, когда большинство реализаций LLM используют высокоуровневые пакеты вроде transformers, особенно ценно видеть прогрессивное построение модели через базовые элементы PyTorch. Репозиторий Рашки закрывает критический пробел: между «использую ChatGPT» и «понимаю, как он работает». Себастьян Рашка — Staff Research Engineer в Lightning AI, где занимается исследованиями LLM и разработкой open-source ПО. Его работа доказывает, что самый лучший способ понять технологию — это построить её самостоятельно.