7-недельный курс по production RAG с LangGraph и Telegram
Открытый курс на GitHub от jamwithai: строим production-grade RAG-систему с нуля — от инфраструктуры до агентного поиска с LangGraph и Telegram-ботом.
Бесплатный курс: как построить AI-ассистент по научным статьям за 7 недель
Команда jamwithai выложила на GitHub полноценный практический курс по построению production-grade RAG (Retrieval-Augmented Generation — поиск с генерацией ответов) системы. Цель — создать исследовательского ассистента, который автоматически загружает научные статьи, понимает их содержание и отвечает на вопросы с помощью продвинутых техник RAG. Финальный результат: работающий агент с Telegram-интерфейсом и полноценным мониторингом.
Чем этот курс отличается от туториалов на YouTube
Авторы идут профессиональным путём: сначала изучают основы keyword-поиска, затем добавляют векторный поиск для гибридного retrieval — а не прыгают сразу в AI-first подходы, игнорируя поисковые основы.
«Мы строим RAG-системы так, как это делают успешные компании — сначала прочный поисковый фундамент, усиленный AI»
Это практические занятия, которые дают индустриальные best practices, которые реально используют успешные компании. Каждая неделя выходит как отдельная ветка в репозитории (week1.0, week2.0, …week7.0), что позволяет проходить курс поэтапно.
Программа по неделям
| Неделя | Тема | Ключевые технологии |
|---|---|---|
| Week 1 | Инфраструктура | Docker, FastAPI, PostgreSQL, OpenSearch, Airflow |
| Week 2 | Пайплайн загрузки данных | arXiv API, Docling, Apache Airflow |
| Week 3 | BM25 keyword search | OpenSearch, Query DSL, relevance scoring |
| Week 4 | Chunking + Hybrid Search | Векторные эмбеддинги, RRF fusion |
| Week 5 | Полный RAG pipeline | Ollama (локальный LLM), Gradio UI |
| Week 6 | Мониторинг и кэширование | Langfuse tracing, Redis |
| Week 7 | Agentic RAG + Telegram | LangGraph, Telegram Bot |
Архитектура системы
graph TD
A[Пользователь / Telegram] --> B[FastAPI Gateway]
B --> C[LangGraph Agent]
C --> D{Router: нужен retrieval?}
D -- Да --> E[OpenSearch Hybrid Search]
E --> F[Document Grader]
F -- Нерелевантно --> G[Query Rewriter]
G --> E
F -- Релевантно --> H[LLM Generation]
D -- Нет --> H
H --> I[Ответ пользователю]
C --> J[Langfuse Monitoring]
C --> K[Redis Cache]
Главная фишка — Agentic RAG в неделю 7
На 7-й неделе RAG-система из Week 6 превращается в интеллектуального агента, который «думает перед тем, как действовать»: валидирует запросы, оценивает релевантность документов, переписывает запросы когда нужно и адаптирует стратегию на основе результатов.
Ключевой инсайт: традиционный RAG — это фиксированный pipeline, а Agentic RAG — система принятия решений, которая оценивает качество на каждом шаге и корректирует подход, обеспечивая более качественные ответы с полной прозрачностью.
Ключевые навыки недели 7: построение state-based агентных workflow с LangGraph, реализация guardrails для валидации запросов, проектирование систем оценки документов, создание адаптивных стратегий retrieval и интеграция Telegram-ботов с RAG-системами.
Быстрый старт
# 1. Клонировать репозиторий
git clone https://github.com/jamwithai/arxiv-paper-curator
cd arxiv-paper-curator
# 2. Настроить окружение
cp .env.example .env
# 3. Установить зависимости
uv sync
# 4. Запустить все сервисы
docker compose up --build -d
# 5. Проверить здоровье системы
curl http://localhost:8000/api/v1/health
После запуска доступны несколько интерфейсов:
| Сервис | URL | Назначение |
|---|---|---|
| API Docs | http://localhost:8000/docs | Интерактивное тестирование API |
| Gradio UI | http://localhost:7861 | Чат-интерфейс |
| Langfuse | http://localhost:3000 | Мониторинг pipeline |
| Airflow | http://localhost:8080 | Управление DAG-воркфлоу |
| OpenSearch | http://localhost:5601 | UI поискового движка |
Почему это важно для индустрии
В 2024–2025 годах стало ясно, что линейные RAG-пайплайны ненадёжны: они ломаются, когда документы нерелевантны, галлюцинируют, когда ответа нет в базе, и сдаются при сложных запросах.
К 2026 году Agentic RAG стал базовым стандартом для серьёзных AI-приложений: небольшое увеличение задержки и стоимости токенов компенсируется значительным ростом надёжности.
Курс охватывает Docker-оркестрацию, гибридный retrieval через OpenSearch, FastAPI-сервисы и production-мониторинг через Langfuse — и в итоге студент разворачивает систему, которая автоматически загружает статьи, оценивает релевантность документов, интеллектуально переписывает запросы и отдаёт ответы через несколько интерфейсов.
Репозиторий доступен по адресу: github.com/jamwithai/production-agentic-rag-course