
Норвегия строит суверенный LLM на 2 ПБ флэш-хранилища Huawei
Национальная библиотека Норвегии обучает собственную языковую модель на норвежском языке, используя 2 ПБ Huawei OceanStor Dorado и суперкомпьютер Sigma2 Olivia.
Норвегия строит языковой ИИ, которого нет у коммерческих компаний
Национальная библиотека Норвегии разрабатывает большую языковую модель (LLM — Large Language Model), понимающую норвежский язык, и использует для этого 2 ПБ флэш-хранилища Huawei OceanStor Dorado в пайплайне подготовки данных. Об этом стало известно на форуме Huawei ID Forum 2026 в Париже. По словам представителей проекта, любая страна, не имеющая суверенного LLM на своём языке, оказывается в невыгодном положении: глобально обученная англоязычная модель попросту не знает истории, новостей и культуры этой страны, описанных на родном языке.
Почему именно библиотека?
Министерство культуры Норвегии поручило Национальной библиотеке создать суверенный LLM, поскольку именно она располагает крупнейшей в стране цифровой коллекцией норвежских книг, газет, веб-страниц и других материалов. Библиотека обязана получать экземпляры каждой опубликованной книги и транслируемого контента — это закреплено законодательно.
Особое преимущество: Мариус Хуснес (Marius Husnes), руководитель IT-платформы библиотеки, на форуме в Париже заявил, что ни один коммерческий провайдер LLM не разрабатывал локальную норвежскую модель. Кроме того, у библиотеки есть соглашение с норвежскими газетами, позволяющее обучать LLM на защищённом авторским правом контенте — чего не может себе позволить ни одна частная компания.
С 2005 года библиотека оцифровывала свои фонды и накопила 20 ПБ уникальных данных (тексты, аудио, видео, изображения, веб-контент), хранящихся в схеме 3-2-1 (3 копии, 2 типа носителей, 1 удалённое хранилище) — итого около 60 ПБ.
Архитектура пайплайна: от архива до суперкомпьютера
По словам Хуснеса, узким местом проекта оказался не вычислительный ресурс, а качество данных, их очистка и пропускная способность пайплайна.
Пайплайн состоит из двух ключевых этапов:
graph LR
A["📦 Архив 60 ПБ\n(диск + лента)"] --> B["🔧 Локальный AI-кластер\nNvidia DGX H200 + Huawei OceanStor Dorado 2 ПБ"]
B --> C["🧹 Очистка / Дедупликация\nНормализация / Валидация"]
C --> D["🖥️ Sigma2 Olivia\nHPE Cray EX, 448 GPU, 64 512 CPU-ядер"]
D --> E["🤖 Готовая языковая модель"]
На первом этапе задействован локальный кластер: система Nvidia DGX H200, 384-ядерный CPU-кластер и несколько массивов Huawei OceanStor Dorado, дающих в сумме 2 ПБ флэш-ёмкости — низколатентное хранилище для пайплайнов и подготовки данных к обучению.
После прохождения через пайплайн данные передаются на национальный суперкомпьютер Sigma2 Olivia для непосредственного обучения модели. Olivia оснащена 448 суперчипами NVIDIA Grace Hopper GH200 (связка ARM-процессора Grace и GPU H100), а также процессорами AMD Turin — итого 64 512 физических CPU-ядер на 252 вычислительных узлах. Суммарная ёмкость хранилища Olivia составляет 5,3 ПБ.
Сравнение двух уровней хранилища
| Параметр | Архив (60 ПБ) | AI Pipeline (2 ПБ Huawei) |
|---|---|---|
| Цель | Долгосрочное сохранение | Высокоскоростная обработка |
| Тип носителей | Диск + магнитная лента | All-flash (NVMe) |
| Латентность | Высокая (редкий доступ) | Низкая (параллельный I/O) |
| Оптимизация | Надёжность и стоимость | Пропускная способность |
Три открытых вопроса
Хуснес завершил выступление перечнем задач, которые команда ещё решает:
Оценка (Evaluation) — стандартных инструментов оценки суверенного норвежского LLM не существует: язык имеет две письменные формы, множество диалектов и исторических изменений, поэтому команда создаёт собственный оценочный инструмент прямо в процессе работы.
Управление (Governance) — кто контролирует доступ к суверенному LLM и кто решает, для чего его можно использовать? Это институциональные и политические вопросы без простых ответов.
Оркестрация (Orchestration) — бесшовная совместная работа трёх систем (архив + локальная AI-среда + суперкомпьютер Sigma2) остаётся активным незавершённым проектом.
Что это значит для рынка
Проект наглядно демонстрирует две важные тенденции. Первая: хранилища Huawei играют серьёзную роль на европейском рынке. Выбор OceanStor Dorado для критически важного государственного AI-проекта — весомый аргумент в пользу этой платформы. OceanStor Dorado разработан для поддержки требований AI-приложений и обеспечивает высокую производительность, надёжность и безопасность, интегрируя блочное, файловое и объектное хранилище.
Вторая тенденция: вопрос суверенного AI выходит далеко за рамки выбора «какую модель обучать». Инфраструктура хранения данных, правовое регулирование авторских прав, инструменты оценки под конкретный язык — всё это становится частью национальной AI-стратегии. Норвегия вкладывает в HPC и AI значительные ресурсы: Исследовательский совет рекомендовал выделить 3,4 млрд норвежских крон (~340 млн долларов) на пять лет для обеспечения экспертизы, готовности и безопасности в этой области.
«AI нужны хранители, а не только строители» — Мариус Хуснес, руководитель IT-платформы Национальной библиотеки Норвегии