OpenMed: open-source AI для здравоохранения

Что это и для кого

OpenMed — это фреймворк, который предоставляет state-of-the-art биомедицинские и клинические LLM, способные соперничать с проприетарными enterprise-стеками, объединяя обнаружение моделей, продвинутые механизмы извлечения данных и одностроковую оркестрацию.

Проект основан Мазияром Панахи с целью создания и распространения прозрачных, передовых медицинских языковых моделей. Его миссия — построить движок по умолчанию для каждой больницы, фармацевтического гиганта и государственного медицинского учреждения, которым требуется безопасная и мощная платформа медицинского интеллекта.

Целевая аудитория:

Разработчики медицинских приложений и MLOps-инженеры
Клинические дата-сайентисты и исследователи
Больницы и фармкомпании, работающие в условиях HIPAA/GDPR
Мобильные разработчики на Swift (iOS/macOS)

ℹ Лицензия и доступность

Полностью открытый код под лицензией Apache-2.0 — никакого vendor lock-in, данные остаются в вашей инфраструктуре. Проект доступен на GitHub, PyPI и HuggingFace.

Ключевые возможности

1. On-device клинический NLP без облака

OpenMed предлагает извлечение сущностей, деидентификацию PII и 1000+ специализированных медицинских моделей, которые работают полностью на вашем железе — от однострочного Python до нативного Swift-приложения на iPhone, на базе Apple MLX.

OpenMed работает полностью на устройстве: клинический текст никогда его не покидает. На iPhone через OpenMedKit можно сканировать клиническую заметку, деидентифицировать её и извлекать клинические сигналы — локально, без единого сетевого запроса.

2. Извлечение медицинских сущностей (NER)

NER — это фундамент для извлечения структурированной информации из более чем 80% медицинских данных, которые хранятся в неструктурированных клинических заметках и биомедицинской литературе.

Модели OpenMed NER оцениваются на 12 устоявшихся биомедицинских NER-бенчмарках, охватывающих химические вещества, болезни, гены и виды, и достигают новых SOTA micro-F1 на 10 из 12 датасетов.

Пример использования:

from openmed import analyze_text

result = analyze_text(
    "Patient started on imatinib for chronic myeloid leukemia.",
    model_name="disease_detection_superclinical",
)
for entity in result.entities:
    print(f"{entity.label:<12} {entity.text:<28} {entity.confidence:.2f}")
# DISEASE      chronic myeloid leukemia     0.98
# DRUG         imatinib                     0.95

3. PII-деидентификация (Privacy Filter)

OpenMed-PII-SuperClinical — трансформерная модель токен-классификации, дообученная для обнаружения персональных данных. Она идентифицирует и классифицирует 54 типа чувствительной информации, включая имена, адреса, номера соцстрахования, номера медицинских записей и многое другое.

OpenMed 1.5.5 включает мультиязычный Privacy Filter, поддержку арабского, японского и турецкого языков для PII, унифицированную маршрутизацию PyTorch/MLX, анонимизацию на базе Faker и более 1000 open-source healthcare LLM-моделей.

4. Мультиплатформенность

OpenMed работает везде: CPU, CUDA, Apple Silicon (MLX), и нативно в iOS/macOS-приложениях через OpenMedKit. Поддерживается однострочное развёртывание — Python API, Dockerized REST-сервис или batch-пайплайны.

На Apple Silicon достигается ускорение в 24–33× по сравнению с CPU PyTorch для Privacy Filter (медианная задержка на один шаг инференса).

5. Архитектура моделей

OpenMed NER — это набор open-source, domain-adapted трансформерных моделей, сочетающих облегчённое domain-adaptive pretraining (DAPT) и parameter-efficient LoRA. DAPT выполняется на корпусе из 350k фрагментов из PubMed, arXiv и деидентифицированных клинических заметок MIMIC-III с бэкбонами DeBERTa-v3, PubMedBERT и BioELECTRA.


flowchart LR
    A["Клинический текст"] --> B["OpenMed\n(100% on-device)"]
    B --> C["Медицинские сущности\n(NER)"]
    B --> D["Обнаружение PII"]
    B --> E["Деидентифицированный текст"]
    style B fill:#0D6E6E,stroke:#0A5656,stroke-width:2px,color:#ffffff
    style C fill:#D6EBEB,stroke:#0D6E6E,color:#0E1116
    style D fill:#F7DCD8,stroke:#C5453A,color:#0E1116
    style E fill:#F5E27A,stroke:#A98A0D,color:#0E1116

6. Интеграция с экосистемой

OpenMed поддерживает нативный Privacy Filter, OpenAI Nemotron Privacy Filter и мультиязычный Privacy Filter, а также GLiNER для zero-shot задач. Функция analyze_text оборачивает валидацию, инференс и форматирование для скриптов, ноутбуков и сервисов. Деидентификация PII совместима с HIPAA через smart entity merging.

Тарифы и цены

OpenMed полностью бесплатен: Apache-2.0, ваша инфраструктура, ваши данные — без каких-либо лицензионных сборов.

Уровень	Стоимость	Что входит
Open Source (GitHub/PyPI)	Бесплатно	Весь код, все модели, документация
HuggingFace модели	Бесплатно	1000+ моделей на HF Hub
AWS Marketplace	По тарифам AWS	45 готовых моделей на SageMaker/Bedrock
Корпоративная поддержка	По запросу	Enterprise-интеграция, SLA

💡 Быстрый старт

Установить OpenMed можно в одну команду:

pip install openmed
# или с поддержкой Apple MLX:
pip install "openmed[mlx]"

После установки достаточно запустить openmed для запуска интерактивного интерфейса или исследовать 481 модель на HuggingFace и 45 на AWS Marketplace.

Плюсы и минусы

✅ Плюсы	❌ Минусы
Полностью on-device, данные не покидают устройство	Молодой проект (активно развивается с 2025 года)
Apache-2.0: никаких ограничений на коммерческое использование	Небольшое сообщество контрибьюторов (пока 3 контриб.)
1000+ специализированных медицинских моделей	Требует самостоятельной оценки перед продакшеном
SOTA-результаты на 10 из 12 NER-бенчмарков	Нет встроенного UI для нетехнических пользователей
Поддержка iOS/macOS через Swift OpenMedKit	Multimodal (изображения) пока не поддерживается
Мультиязычность: 12 языков, PII на арабском/японском/турецком	Документация ещё не полная по всем разделам
Ускорение 24–33× на Apple Silicon (MLX)	Zero-shot GLiNER режим помечен как экспериментальный

Сравнение с альтернативами

Параметр	OpenMed	MedGemma (Google)	OpenBioLLM (Saama)
Лицензия	Apache-2.0	Gemma License (ограничения)	Llama 3 License
On-device / локально	✅ 100% on-device	⚠️ Возможно, но не фокус	❌ Требует GPU-сервер
iOS/Swift SDK	✅ OpenMedKit	❌ Нет	❌ Нет
PII деидентификация	✅ 54 типа, HIPAA/GDPR	❌ Не специализировано	❌ Не специализировано
Число моделей	1000+	2 варианта (4B/27B)	2 варианта (8B/70B)
Мультиязычность	12 языков	Ограниченная	Английский
NER-бенчмарки	SOTA на 10/12 датасетах	Мультимодальный фокус	SOTA на медицинских QA
Multimodal (изображения)	❌ Нет	✅ Да	❌ Нет
AWS Marketplace	✅ 45 моделей	❌ Нет	❌ Нет

Для сравнения: MedGemma — это Google DeepMind-модель, представленная на Google I/O 2025 на базе архитектуры Gemma 3, ориентированная на понимание медицинских изображений и текстов.

OpenBioLLM-70B от Saama AI Labs с 70 миллиардами параметров превосходит другие open-source биомедицинские модели сопоставимого масштаба, а также показывает лучшие результаты по сравнению с такими моделями, как GPT-4, Gemini, Meditron-70B, Med-PaLM-1 и Med-PaLM-2 на биомедицинских бенчмарках. Однако OpenBioLLM не предлагает on-device исполнения и клинической деидентификации.

⚠ Важно для продакшена

Open-source медицинские модели не следует использовать в приложениях, напрямую взаимодействующих с пациентами, без тщательной валидации. Всегда проводите внутреннее тестирование на клинических данных вашего учреждения перед развёртыванием.

Вердикт

OpenMed подойдёт:

Разработчикам медицинских iOS/macOS-приложений, которым критична приватность
Клиникам и фармкомпаниям с требованиями HIPAA/GDPR к суверенности данных
Исследователям и дата-сайентистам, которым нужны SOTA NER-модели без облачных зависимостей
Командам, встраивающим клинический NLP в существующие Python/Docker-пайплайны

Не подойдёт:

Задачам, требующим мультимодального анализа (рентген, МРТ)
Командам без технической экспертизы в NLP и MLOps
Проектам, ищущим готовые коробочные решения с UI

«Будущее медицинского AI должно быть открытым, проверяемым и суверенным» — именно этот принцип лежит в основе OpenMed.

Рейтинг: 8.5 / 10

Критерий	Оценка
Функциональность	9/10
Простота интеграции	8/10
Безопасность / приватность	10/10
Зрелость экосистемы	7/10
Документация	8/10

Заключение

OpenMed — это один из наиболее перспективных open-source проектов в медицинском AI 2025–2026 годов. OpenMed 1.5.5 принёс мультиязычный Privacy Filter, on-device деидентификацию на 9 языках и первый вклад внешнего контрибьютора. Проект стремительно набирает зрелость: более 5 миллионов загрузок на PyPI и 1200 подписчиков HuggingFace-организации говорят о реальном интересе сообщества.

Если вы строите клиническое NLP-решение и не готовы отправлять медицинские данные пациентов в облако — OpenMed сегодня является, пожалуй, лучшим выбором на рынке open-source инструментов. Начните с pip install openmed, изучите документацию и протестируйте модели прямо в Jupyter-ноутбуке — репозиторий openmed-starter содержит туториалы, примеры кода и SageMaker-ноутбуки для быстрого старта.