
OpenMed: open-source AI для здравоохранения
Обзор OpenMed — open-source фреймворка для клинического NLP: NER, деидентификация PII, 1000+ моделей, on-device на Apple Silicon и iOS.
OpenMed: open-source AI для здравоохранения
Что это и для кого
OpenMed — это фреймворк, который предоставляет state-of-the-art биомедицинские и клинические LLM, способные соперничать с проприетарными enterprise-стеками, объединяя обнаружение моделей, продвинутые механизмы извлечения данных и одностроковую оркестрацию.
Проект основан Мазияром Панахи с целью создания и распространения прозрачных, передовых медицинских языковых моделей. Его миссия — построить движок по умолчанию для каждой больницы, фармацевтического гиганта и государственного медицинского учреждения, которым требуется безопасная и мощная платформа медицинского интеллекта.
Целевая аудитория:
- Разработчики медицинских приложений и MLOps-инженеры
- Клинические дата-сайентисты и исследователи
- Больницы и фармкомпании, работающие в условиях HIPAA/GDPR
- Мобильные разработчики на Swift (iOS/macOS)
Ключевые возможности
1. On-device клинический NLP без облака
OpenMed предлагает извлечение сущностей, деидентификацию PII и 1000+ специализированных медицинских моделей, которые работают полностью на вашем железе — от однострочного Python до нативного Swift-приложения на iPhone, на базе Apple MLX.
OpenMed работает полностью на устройстве: клинический текст никогда его не покидает. На iPhone через OpenMedKit можно сканировать клиническую заметку, деидентифицировать её и извлекать клинические сигналы — локально, без единого сетевого запроса.
2. Извлечение медицинских сущностей (NER)
NER — это фундамент для извлечения структурированной информации из более чем 80% медицинских данных, которые хранятся в неструктурированных клинических заметках и биомедицинской литературе.
Модели OpenMed NER оцениваются на 12 устоявшихся биомедицинских NER-бенчмарках, охватывающих химические вещества, болезни, гены и виды, и достигают новых SOTA micro-F1 на 10 из 12 датасетов.
Пример использования:
from openmed import analyze_text
result = analyze_text(
"Patient started on imatinib for chronic myeloid leukemia.",
model_name="disease_detection_superclinical",
)
for entity in result.entities:
print(f"{entity.label:<12} {entity.text:<28} {entity.confidence:.2f}")
# DISEASE chronic myeloid leukemia 0.98
# DRUG imatinib 0.95
3. PII-деидентификация (Privacy Filter)
OpenMed-PII-SuperClinical — трансформерная модель токен-классификации, дообученная для обнаружения персональных данных. Она идентифицирует и классифицирует 54 типа чувствительной информации, включая имена, адреса, номера соцстрахования, номера медицинских записей и многое другое.
OpenMed 1.5.5 включает мультиязычный Privacy Filter, поддержку арабского, японского и турецкого языков для PII, унифицированную маршрутизацию PyTorch/MLX, анонимизацию на базе Faker и более 1000 open-source healthcare LLM-моделей.
4. Мультиплатформенность
OpenMed работает везде: CPU, CUDA, Apple Silicon (MLX), и нативно в iOS/macOS-приложениях через OpenMedKit. Поддерживается однострочное развёртывание — Python API, Dockerized REST-сервис или batch-пайплайны.
На Apple Silicon достигается ускорение в 24–33× по сравнению с CPU PyTorch для Privacy Filter (медианная задержка на один шаг инференса).
5. Архитектура моделей
OpenMed NER — это набор open-source, domain-adapted трансформерных моделей, сочетающих облегчённое domain-adaptive pretraining (DAPT) и parameter-efficient LoRA. DAPT выполняется на корпусе из 350k фрагментов из PubMed, arXiv и деидентифицированных клинических заметок MIMIC-III с бэкбонами DeBERTa-v3, PubMedBERT и BioELECTRA.
flowchart LR
A["Клинический текст"] --> B["OpenMed\n(100% on-device)"]
B --> C["Медицинские сущности\n(NER)"]
B --> D["Обнаружение PII"]
B --> E["Деидентифицированный текст"]
style B fill:#0D6E6E,stroke:#0A5656,stroke-width:2px,color:#ffffff
style C fill:#D6EBEB,stroke:#0D6E6E,color:#0E1116
style D fill:#F7DCD8,stroke:#C5453A,color:#0E1116
style E fill:#F5E27A,stroke:#A98A0D,color:#0E1116
6. Интеграция с экосистемой
OpenMed поддерживает нативный Privacy Filter, OpenAI Nemotron Privacy Filter и мультиязычный Privacy Filter, а также GLiNER для zero-shot задач. Функция analyze_text оборачивает валидацию, инференс и форматирование для скриптов, ноутбуков и сервисов. Деидентификация PII совместима с HIPAA через smart entity merging.
Тарифы и цены
OpenMed полностью бесплатен: Apache-2.0, ваша инфраструктура, ваши данные — без каких-либо лицензионных сборов.
| Уровень | Стоимость | Что входит |
|---|---|---|
| Open Source (GitHub/PyPI) | Бесплатно | Весь код, все модели, документация |
| HuggingFace модели | Бесплатно | 1000+ моделей на HF Hub |
| AWS Marketplace | По тарифам AWS | 45 готовых моделей на SageMaker/Bedrock |
| Корпоративная поддержка | По запросу | Enterprise-интеграция, SLA |
Установить OpenMed можно в одну команду:
pip install openmed
# или с поддержкой Apple MLX:
pip install "openmed[mlx]"
После установки достаточно запустить openmed для запуска интерактивного интерфейса или исследовать 481 модель на HuggingFace и 45 на AWS Marketplace.
Плюсы и минусы
| ✅ Плюсы | ❌ Минусы |
|---|---|
| Полностью on-device, данные не покидают устройство | Молодой проект (активно развивается с 2025 года) |
| Apache-2.0: никаких ограничений на коммерческое использование | Небольшое сообщество контрибьюторов (пока 3 контриб.) |
| 1000+ специализированных медицинских моделей | Требует самостоятельной оценки перед продакшеном |
| SOTA-результаты на 10 из 12 NER-бенчмарков | Нет встроенного UI для нетехнических пользователей |
| Поддержка iOS/macOS через Swift OpenMedKit | Multimodal (изображения) пока не поддерживается |
| Мультиязычность: 12 языков, PII на арабском/японском/турецком | Документация ещё не полная по всем разделам |
| Ускорение 24–33× на Apple Silicon (MLX) | Zero-shot GLiNER режим помечен как экспериментальный |
Сравнение с альтернативами
| Параметр | OpenMed | MedGemma (Google) | OpenBioLLM (Saama) |
|---|---|---|---|
| Лицензия | Apache-2.0 | Gemma License (ограничения) | Llama 3 License |
| On-device / локально | ✅ 100% on-device | ⚠️ Возможно, но не фокус | ❌ Требует GPU-сервер |
| iOS/Swift SDK | ✅ OpenMedKit | ❌ Нет | ❌ Нет |
| PII деидентификация | ✅ 54 типа, HIPAA/GDPR | ❌ Не специализировано | ❌ Не специализировано |
| Число моделей | 1000+ | 2 варианта (4B/27B) | 2 варианта (8B/70B) |
| Мультиязычность | 12 языков | Ограниченная | Английский |
| NER-бенчмарки | SOTA на 10/12 датасетах | Мультимодальный фокус | SOTA на медицинских QA |
| Multimodal (изображения) | ❌ Нет | ✅ Да | ❌ Нет |
| AWS Marketplace | ✅ 45 моделей | ❌ Нет | ❌ Нет |
Для сравнения: MedGemma — это Google DeepMind-модель, представленная на Google I/O 2025 на базе архитектуры Gemma 3, ориентированная на понимание медицинских изображений и текстов.
OpenBioLLM-70B от Saama AI Labs с 70 миллиардами параметров превосходит другие open-source биомедицинские модели сопоставимого масштаба, а также показывает лучшие результаты по сравнению с такими моделями, как GPT-4, Gemini, Meditron-70B, Med-PaLM-1 и Med-PaLM-2 на биомедицинских бенчмарках. Однако OpenBioLLM не предлагает on-device исполнения и клинической деидентификации.
Вердикт
OpenMed подойдёт:
- Разработчикам медицинских iOS/macOS-приложений, которым критична приватность
- Клиникам и фармкомпаниям с требованиями HIPAA/GDPR к суверенности данных
- Исследователям и дата-сайентистам, которым нужны SOTA NER-модели без облачных зависимостей
- Командам, встраивающим клинический NLP в существующие Python/Docker-пайплайны
Не подойдёт:
- Задачам, требующим мультимодального анализа (рентген, МРТ)
- Командам без технической экспертизы в NLP и MLOps
- Проектам, ищущим готовые коробочные решения с UI
«Будущее медицинского AI должно быть открытым, проверяемым и суверенным» — именно этот принцип лежит в основе OpenMed.
Рейтинг: 8.5 / 10
| Критерий | Оценка |
|---|---|
| Функциональность | 9/10 |
| Простота интеграции | 8/10 |
| Безопасность / приватность | 10/10 |
| Зрелость экосистемы | 7/10 |
| Документация | 8/10 |
Заключение
OpenMed — это один из наиболее перспективных open-source проектов в медицинском AI 2025–2026 годов. OpenMed 1.5.5 принёс мультиязычный Privacy Filter, on-device деидентификацию на 9 языках и первый вклад внешнего контрибьютора. Проект стремительно набирает зрелость: более 5 миллионов загрузок на PyPI и 1200 подписчиков HuggingFace-организации говорят о реальном интересе сообщества.
Если вы строите клиническое NLP-решение и не готовы отправлять медицинские данные пациентов в облако — OpenMed сегодня является, пожалуй, лучшим выбором на рынке open-source инструментов. Начните с pip install openmed, изучите документацию и протестируйте модели прямо в Jupyter-ноутбуке — репозиторий openmed-starter содержит туториалы, примеры кода и SageMaker-ноутбуки для быстрого старта.