LLMs с нуля: легендарный репозиторий на GitHub с 92К звёзд

Репозиторий, который объясняет всё изнутри

GitHub-репозиторий rasbt/LLMs-from-scratch стал одним из самых популярных образовательных проектов в мире AI: более 92 тысяч звёзд и 14 тысяч форков — цифры, которые говорят сами за себя. Автор — Себастьян Рашка (Sebastian Raschka), исследователь в области LLM. В книге и коде вы узнаете, как работают большие языковые модели изнутри, шаг за шагом написав их с нуля. Главная идея проста: понять можно только то, что построил сам.

ℹ Что это такое

LLMs-from-scratch — официальный репозиторий к книге Build a Large Language Model (From Scratch) издательства Manning. Весь код написан на PyTorch без использования сторонних LLM-библиотек.

Подход: зеркало ChatGPT для образования

Метод, описанный в книге, зеркально отражает подход, используемый при создании крупных фундаментальных моделей, таких как те, что лежат в основе ChatGPT. При этом код из основных глав рассчитан на запуск на обычном ноутбуке без специализированного железа, а GPU используется автоматически, если он доступен.

Без опоры на существующие LLM-библиотеки вы кодируете базовую модель, превращаете её в текстовый классификатор и в итоге создаёте чат-бота, который следует разговорным инструкциям.

«Я не понимаю того, что не могу построить» — Ричард Фейнман. Именно этот принцип лежит в основе книги Рашки.

Структура курса: 7 глав и 5 приложений

Репозиторий строго следует структуре книги. Каждая глава — отдельная директория с Jupyter-ноутбуком, скриптами и решениями упражнений.

Глава	Тема	Ключевые файлы
Ch 2	Working with Text Data	`ch02.ipynb`, `dataloader.ipynb`
Ch 3	Coding Attention Mechanisms	`ch03.ipynb`, `multihead-attention.ipynb`
Ch 4	Implementing a GPT Model	`ch04.ipynb`, `gpt.py`
Ch 5	Pretraining on Unlabeled Data	`gpt_train.py`, `gpt_generate.py`
Ch 6	Finetuning for Classification	`gpt_class_finetune.py`
Ch 7	Finetuning to Follow Instructions	`gpt_instruction_finetuning.py`

Приложения охватывают введение в PyTorch (Appendix A), параметрически эффективный fine-tuning с LoRA (Appendix E) и настройку тренировочного цикла (Appendix D).

💡 Бесплатный бонус

На сайте Manning можно скачать бесплатный 170-страничный PDF «Test Yourself On Build a Large Language Model (From Scratch)» — около 30 вопросов с решениями на каждую главу.

Маршрут от токена до модели

Ниже — упрощённая схема того, как выстроен путь обучения:


graph TD
    A[Текстовые данные / Tokenization] --> B[Attention Mechanisms]
    B --> C[GPT Model Architecture]
    C --> D[Pretraining на сырых данных]
    D --> E[Fine-tuning: классификация]
    D --> F[Fine-tuning: следование инструкциям]
    E --> G[Готовая LLM на ноутбуке]
    F --> G

Бонусные материалы: от Llama до MoE

Помимо основных глав, репозиторий содержит обширную коллекцию дополнительных ноутбуков. Среди них — реализации современных архитектур:

Llama 3.2 From Scratch
Qwen3 Dense и Mixture-of-Experts (MoE — смесь экспертов) From Scratch
Gemma 3 / Gemma 4 From Scratch
Olmo 3 From Scratch
Grouped-Query Attention, Multi-Head Latent Attention, Sliding Window Attention
KV Cache, FLOPs-анализ

Это превращает репозиторий из учебного пособия в живую коллекцию актуальных архитектурных решений.

Быстрый старт

git clone --depth 1 https://github.com/rasbt/LLMs-from-scratch.git
cd LLMs-from-scratch
# Открывайте нужную главу, например:
jupyter notebook ch02/01_main-chapter-code/ch02.ipynb

⚠ Требования

Главный prerequisite — уверенное знание Python. Знание PyTorch желательно, но не обязательно: Appendix A даёт достаточное введение. Знание глубоких нейросетей ускорит освоение, но не является обязательным.

Продолжение: reasoning-модели

В 2025 году Рашка выпустил книгу-продолжение. «Build A Reasoning Model (From Scratch)» можно считать сиквелом: она начинается с pretrained-модели и реализует разные подходы к рассуждению — inference-time scaling, reinforcement learning и дистилляцию. Описываемые методы зеркалят подходы, используемые в таких моделях, как DeepSeek R1 и GPT-5 Thinking.

Почему это важно для отрасли

В момент, когда большинство реализаций LLM используют высокоуровневые пакеты вроде transformers, особенно ценно видеть прогрессивное построение модели через базовые элементы PyTorch. Репозиторий Рашки закрывает критический пробел: между «использую ChatGPT» и «понимаю, как он работает». Себастьян Рашка — Staff Research Engineer в Lightning AI, где занимается исследованиями LLM и разработкой open-source ПО. Его работа доказывает, что самый лучший способ понять технологию — это построить её самостоятельно.

Репозиторий, который объясняет всё изнутри

Подход: зеркало ChatGPT для образования

Структура курса: 7 глав и 5 приложений

Маршрут от токена до модели

Бонусные материалы: от Llama до MoE

Быстрый старт

Продолжение: reasoning-модели

Почему это важно для отрасли

Источники

Похожие статьи

MiniMind: обучить GPT с нуля за 2 часа и 40 центов

Qwen3.6-35B-A3B: мощный ИИ для кодинга теперь открыт

Open WebUI: мощная self-hosted платформа для локального AI

Разработчик выпустил open-source систему анализа акций на базе ИИ

PaddleOCR: мощный OCR-движок для LLM и RAG