
50+ AI-проектов на GitHub: RAG, агенты, OCR в одном репо
Разработчик Sumanth открыл репозиторий с 50+ практическими AI-проектами: агенты, RAG-системы, OCR и мультимодальные приложения с полным кодом.
На GitHub появилась коллекция из 50+ готовых AI-проектов
Машинное обучение всё ещё пугает большинство разработчиков своей теоретической частью — но теперь порог входа стал значительно ниже. Developer Advocate и ML-инженер Sumanth открыл репозиторий Hands-On AI Engineering с более чем 50 практическими туториалами по AI-агентам, RAG (Retrieval-Augmented Generation — системы поиска с дополненной генерацией), мультимодальным моделям, OCR-приложениям и голосовым ИИ-агентам. Проект уже набрал более 1000 звёзд на GitHub и попал в подборки лучших AI-репозиториев от Analytics Vidhya и DEV Community.
Каждый проект включает полный исходный код, инструкцию по запуску и документацию — чтобы можно было сразу запустить и адаптировать под реальную задачу.
Что внутри репозитория
Репозиторий разбит на пять категорий. Каждая содержит самостоятельные проекты с полным кодом.
🤖 AI-агенты (AI Agents)
Самый большой раздел — более 25 проектов. Среди них:
- Multi-Agent Financial Analyst — команда специализированных агентов для финансового анализа
- Daily AI News Digest — автоматический дайджест новостей: агент собирает 10 свежих историй с Hacker News, скрапирует содержание статей с Trafilatura, формирует HTML-рассылку через Gemma 4 и доставляет её на почту через Gmail SMTP
- Eagle Eye — агент для ревью Pull Request’ов через GitHub и Telegram с оценкой серьёзности замечаний
- CartMate — агент поддержки e-commerce с памятью на базе Mem0 и Mistral Small 4
- Marketing Strategy Agent — мультиагентный генератор маркетинговых кампаний: Market Analyst (с веб-поиском Serper), Strategy Officer и Creative Director работают последовательно и выдают исследование рынка, полную стратегию и креативный контент
- Cal Scheduling Agent — разговорный ассистент для управления встречами в Cal.com через естественный язык с автоматической обработкой часовых поясов
📸 OCR (оптическое распознавание символов)
Medical Prescription Digitizer оцифровывает рукописные или напечатанные рецепты в структурированный формат с помощью Mistral Large 3 и проверяет названия препаратов в реальном времени через базу RxNorm.
Также в разделе:
- Image-to-Structured-Data Extractor — конвертирует изображения в валидированный JSON через Mistral Large 3 и Instructor
- LaTeX Formula OCR — извлекает математические формулы из изображений и PDF в формат LaTeX
🎧 Аудио
- Music Explorer — чат с любым аудиофайлом или YouTube-видео через Gemini 3 Flash: транскрипция, анализ эмоций, определение инструментов и разбивка по временным меткам
- Multilingual Audio Translator — загрузи или запиши аудио на любом языке, получи транскрипцию через faster-whisper, перевод через Gemini и синтезированную озвучку через Kokoro TTS
🎬 Мультимодальные проекты
- Multimodal RAG — RAG-система, которая принимает текст, URL, PDF, изображения, аудио и видео в общий индекс ChromaDB. Gemini Embedding 2 отвечает за поиск, Gemini 3 Flash — за генерацию ответов.
- Image Question Answering — загрузи PDF, выбери страницу и задавай визуальные вопросы: Gemma 4 с режимом «thinking» анализирует графики, таблицы и рисунки через PyMuPDF.
- GLM-OCR Pro — структурированное извлечение данных из документов через GLM-OCR и Ollama локально, с выводом в формате Markdown.
Какие модели используются
graph TD
A[Hands-On AI Engineering] --> B[AI Agents]
A --> C[OCR]
A --> D[Audio]
A --> E[Multimodal]
A --> F[RAG]
B --> G[MiniMax M2.7]
B --> H[DeepSeek V4 Flash]
B --> I[Gemini 3 Flash]
B --> J[Mistral Small 4]
C --> K[Mistral Large 3]
D --> L[Gemma 4]
E --> M[Gemini Embedding 2]
Репозиторий не привязан к одному провайдеру — используются модели сразу нескольких поставщиков:
| Модель | Провайдер | Применение в проектах |
|---|---|---|
| MiniMax M2.7 | MiniMax | Новостные дайджесты, форм-заполнение |
| DeepSeek V4 Flash | DeepSeek | Portfolio Analyst, SQL-агент |
| Gemma 4 | OCR, QnA по PDF, newsletter | |
| Gemini 3 Flash | Видео, аудио, мультимодальный RAG | |
| Mistral Small 4 / Large 3 | Mistral | OCR, кодинг-агент, e-commerce |
| Gemini Embedding 2 | Векторный поиск в RAG |
Контекст и значение для отрасли
Репозиторий попал в подборку «10 лучших AI-репозиториев для инженеров» на DEV Community как пример коллекции AI-приложений и агентных систем на базе LLM, которые реально запускаются и показывают, как части складываются в рабочие примеры.
Примечательно, что проекты охватывают самые актуальные направления 2026 года: MCP-серверы (Model Context Protocol — протокол для подключения внешних инструментов к LLM), мультиагентные пайплайны, локальный запуск моделей через Ollama, интеграции с Telegram и реальными API.
python app.py или Streamlit-интерфейс.Репозиторий распространяется под лицензией MIT — это означает свободное коммерческое использование и модификацию кода без ограничений.
Ссылка на репозиторий: github.com/Sumanth077/Hands-On-AI-Engineering