7-недельный курс по production RAG с LangGraph и Telegram

Бесплатный курс: как построить AI-ассистент по научным статьям за 7 недель

Команда jamwithai выложила на GitHub полноценный практический курс по построению production-grade RAG (Retrieval-Augmented Generation — поиск с генерацией ответов) системы. Цель — создать исследовательского ассистента, который автоматически загружает научные статьи, понимает их содержание и отвечает на вопросы с помощью продвинутых техник RAG. Финальный результат: работающий агент с Telegram-интерфейсом и полноценным мониторингом.

Чем этот курс отличается от туториалов на YouTube

Авторы идут профессиональным путём: сначала изучают основы keyword-поиска, затем добавляют векторный поиск для гибридного retrieval — а не прыгают сразу в AI-first подходы, игнорируя поисковые основы.

«Мы строим RAG-системы так, как это делают успешные компании — сначала прочный поисковый фундамент, усиленный AI»

Это практические занятия, которые дают индустриальные best practices, которые реально используют успешные компании. Каждая неделя выходит как отдельная ветка в репозитории (week1.0, week2.0, …week7.0), что позволяет проходить курс поэтапно.

ℹ Что такое RAG?

RAG (Retrieval-Augmented Generation) — технология, при которой LLM (большая языковая модель) перед генерацией ответа ищет релевантные документы в базе знаний. Это снижает галлюцинации и позволяет работать со свежими данными без дообучения модели.

Программа по неделям

Неделя	Тема	Ключевые технологии
Week 1	Инфраструктура	Docker, FastAPI, PostgreSQL, OpenSearch, Airflow
Week 2	Пайплайн загрузки данных	arXiv API, Docling, Apache Airflow
Week 3	BM25 keyword search	OpenSearch, Query DSL, relevance scoring
Week 4	Chunking + Hybrid Search	Векторные эмбеддинги, RRF fusion
Week 5	Полный RAG pipeline	Ollama (локальный LLM), Gradio UI
Week 6	Мониторинг и кэширование	Langfuse tracing, Redis
Week 7	Agentic RAG + Telegram	LangGraph, Telegram Bot

Архитектура системы


graph TD
    A[Пользователь / Telegram] --> B[FastAPI Gateway]
    B --> C[LangGraph Agent]
    C --> D{Router: нужен retrieval?}
    D -- Да --> E[OpenSearch Hybrid Search]
    E --> F[Document Grader]
    F -- Нерелевантно --> G[Query Rewriter]
    G --> E
    F -- Релевантно --> H[LLM Generation]
    D -- Нет --> H
    H --> I[Ответ пользователю]
    C --> J[Langfuse Monitoring]
    C --> K[Redis Cache]

Главная фишка — Agentic RAG в неделю 7

На 7-й неделе RAG-система из Week 6 превращается в интеллектуального агента, который «думает перед тем, как действовать»: валидирует запросы, оценивает релевантность документов, переписывает запросы когда нужно и адаптирует стратегию на основе результатов.

Ключевой инсайт: традиционный RAG — это фиксированный pipeline, а Agentic RAG — система принятия решений, которая оценивает качество на каждом шаге и корректирует подход, обеспечивая более качественные ответы с полной прозрачностью.

Ключевые навыки недели 7: построение state-based агентных workflow с LangGraph, реализация guardrails для валидации запросов, проектирование систем оценки документов, создание адаптивных стратегий retrieval и интеграция Telegram-ботов с RAG-системами.

💡 Почему LangGraph?

LangGraph — это stateful, cyclic граф-оркестратор. Он не просто запускает pipeline, а моделирует всю систему как направленный циклический граф с условным ветвлением, персистентными чекпоинтами и возможностью подключения human-in-the-loop.

Быстрый старт

# 1. Клонировать репозиторий
git clone https://github.com/jamwithai/arxiv-paper-curator
cd arxiv-paper-curator

# 2. Настроить окружение
cp .env.example .env

# 3. Установить зависимости
uv sync

# 4. Запустить все сервисы
docker compose up --build -d

# 5. Проверить здоровье системы
curl http://localhost:8000/api/v1/health

⚠ Требования к железу

Для запуска всего стека нужно минимум 8 GB RAM и 20 GB свободного места на диске. Потребуется Docker Desktop и Python 3.12+.

После запуска доступны несколько интерфейсов:

Сервис	URL	Назначение
API Docs	http://localhost:8000/docs	Интерактивное тестирование API
Gradio UI	http://localhost:7861	Чат-интерфейс
Langfuse	http://localhost:3000	Мониторинг pipeline
Airflow	http://localhost:8080	Управление DAG-воркфлоу
OpenSearch	http://localhost:5601	UI поискового движка

Почему это важно для индустрии

В 2024–2025 годах стало ясно, что линейные RAG-пайплайны ненадёжны: они ломаются, когда документы нерелевантны, галлюцинируют, когда ответа нет в базе, и сдаются при сложных запросах.

К 2026 году Agentic RAG стал базовым стандартом для серьёзных AI-приложений: небольшое увеличение задержки и стоимости токенов компенсируется значительным ростом надёжности.

Курс охватывает Docker-оркестрацию, гибридный retrieval через OpenSearch, FastAPI-сервисы и production-мониторинг через Langfuse — и в итоге студент разворачивает систему, которая автоматически загружает статьи, оценивает релевантность документов, интеллектуально переписывает запросы и отдаёт ответы через несколько интерфейсов.

📝 Для кого курс

Курс подойдёт ML-инженерам и backend-разработчикам, которые уже знакомы с Python и хотят освоить production-паттерны построения RAG-систем. Базовые знания Docker и FastAPI будут плюсом.

Репозиторий доступен по адресу: github.com/jamwithai/production-agentic-rag-course

Бесплатный курс: как построить AI-ассистент по научным статьям за 7 недель

Чем этот курс отличается от туториалов на YouTube

Программа по неделям

Архитектура системы

Главная фишка — Agentic RAG в неделю 7

Быстрый старт

Почему это важно для индустрии

Источники

Похожие статьи

Alibaba открыла Zvec — «SQLite для векторных баз данных»

AI Agent с нуля: бесплатный курс на GitHub для разработчиков

Yuxi: открытая платформа агентов с графом знаний

MinerU 3.1: парсер документов для LLM перешёл на Apache 2.0

DeepTutor 1.0: ИИ-репетитор с агентной архитектурой