На GitHub появилась коллекция из 50+ готовых AI-проектов

Машинное обучение всё ещё пугает большинство разработчиков своей теоретической частью — но теперь порог входа стал значительно ниже. Developer Advocate и ML-инженер Sumanth открыл репозиторий Hands-On AI Engineering с более чем 50 практическими туториалами по AI-агентам, RAG (Retrieval-Augmented Generation — системы поиска с дополненной генерацией), мультимодальным моделям, OCR-приложениям и голосовым ИИ-агентам. Проект уже набрал более 1000 звёзд на GitHub и попал в подборки лучших AI-репозиториев от Analytics Vidhya и DEV Community.

Каждый проект включает полный исходный код, инструкцию по запуску и документацию — чтобы можно было сразу запустить и адаптировать под реальную задачу.


Что внутри репозитория

Репозиторий разбит на пять категорий. Каждая содержит самостоятельные проекты с полным кодом.

ℹ Структура репозитория
Все проекты лицензированы под MIT и готовы к форку. Поддерживаются модели от OpenAI, Anthropic, Google и open-source сообщества.

🤖 AI-агенты (AI Agents)

Самый большой раздел — более 25 проектов. Среди них:

  • Multi-Agent Financial Analyst — команда специализированных агентов для финансового анализа
  • Daily AI News Digest — автоматический дайджест новостей: агент собирает 10 свежих историй с Hacker News, скрапирует содержание статей с Trafilatura, формирует HTML-рассылку через Gemma 4 и доставляет её на почту через Gmail SMTP
  • Eagle Eye — агент для ревью Pull Request’ов через GitHub и Telegram с оценкой серьёзности замечаний
  • CartMate — агент поддержки e-commerce с памятью на базе Mem0 и Mistral Small 4
  • Marketing Strategy Agent — мультиагентный генератор маркетинговых кампаний: Market Analyst (с веб-поиском Serper), Strategy Officer и Creative Director работают последовательно и выдают исследование рынка, полную стратегию и креативный контент
  • Cal Scheduling Agent — разговорный ассистент для управления встречами в Cal.com через естественный язык с автоматической обработкой часовых поясов

📸 OCR (оптическое распознавание символов)

Medical Prescription Digitizer оцифровывает рукописные или напечатанные рецепты в структурированный формат с помощью Mistral Large 3 и проверяет названия препаратов в реальном времени через базу RxNorm.

Также в разделе:

  • Image-to-Structured-Data Extractor — конвертирует изображения в валидированный JSON через Mistral Large 3 и Instructor
  • LaTeX Formula OCR — извлекает математические формулы из изображений и PDF в формат LaTeX

🎧 Аудио

  • Music Explorer — чат с любым аудиофайлом или YouTube-видео через Gemini 3 Flash: транскрипция, анализ эмоций, определение инструментов и разбивка по временным меткам
  • Multilingual Audio Translator — загрузи или запиши аудио на любом языке, получи транскрипцию через faster-whisper, перевод через Gemini и синтезированную озвучку через Kokoro TTS

🎬 Мультимодальные проекты

  • Multimodal RAG — RAG-система, которая принимает текст, URL, PDF, изображения, аудио и видео в общий индекс ChromaDB. Gemini Embedding 2 отвечает за поиск, Gemini 3 Flash — за генерацию ответов.
  • Image Question Answering — загрузи PDF, выбери страницу и задавай визуальные вопросы: Gemma 4 с режимом «thinking» анализирует графики, таблицы и рисунки через PyMuPDF.
  • GLM-OCR Pro — структурированное извлечение данных из документов через GLM-OCR и Ollama локально, с выводом в формате Markdown.

Какие модели используются


graph TD
    A[Hands-On AI Engineering] --> B[AI Agents]
    A --> C[OCR]
    A --> D[Audio]
    A --> E[Multimodal]
    A --> F[RAG]
    B --> G[MiniMax M2.7]
    B --> H[DeepSeek V4 Flash]
    B --> I[Gemini 3 Flash]
    B --> J[Mistral Small 4]
    C --> K[Mistral Large 3]
    D --> L[Gemma 4]
    E --> M[Gemini Embedding 2]

Репозиторий не привязан к одному провайдеру — используются модели сразу нескольких поставщиков:

МодельПровайдерПрименение в проектах
MiniMax M2.7MiniMaxНовостные дайджесты, форм-заполнение
DeepSeek V4 FlashDeepSeekPortfolio Analyst, SQL-агент
Gemma 4GoogleOCR, QnA по PDF, newsletter
Gemini 3 FlashGoogleВидео, аудио, мультимодальный RAG
Mistral Small 4 / Large 3MistralOCR, кодинг-агент, e-commerce
Gemini Embedding 2GoogleВекторный поиск в RAG
💡 Для кого подойдёт
Репозиторий подходит как для начинающих AI-разработчиков, которые хотят понять архитектуру агентов и RAG на реальном коде, так и для опытных инженеров, которым нужен стартовый шаблон для продакшн-решения.

Контекст и значение для отрасли

Репозиторий попал в подборку «10 лучших AI-репозиториев для инженеров» на DEV Community как пример коллекции AI-приложений и агентных систем на базе LLM, которые реально запускаются и показывают, как части складываются в рабочие примеры.

Примечательно, что проекты охватывают самые актуальные направления 2026 года: MCP-серверы (Model Context Protocol — протокол для подключения внешних инструментов к LLM), мультиагентные пайплайны, локальный запуск моделей через Ollama, интеграции с Telegram и реальными API.

📝 Пример запуска
Каждый проект содержит инструкцию по установке зависимостей и переменных окружения. Достаточно склонировать репозиторий, задать API-ключи и запустить python app.py или Streamlit-интерфейс.

Репозиторий распространяется под лицензией MIT — это означает свободное коммерческое использование и модификацию кода без ограничений.

Ссылка на репозиторий: github.com/Sumanth077/Hands-On-AI-Engineering