Норвегия строит языковой ИИ, которого нет у коммерческих компаний

Национальная библиотека Норвегии разрабатывает большую языковую модель (LLM — Large Language Model), понимающую норвежский язык, и использует для этого 2 ПБ флэш-хранилища Huawei OceanStor Dorado в пайплайне подготовки данных. Об этом стало известно на форуме Huawei ID Forum 2026 в Париже. По словам представителей проекта, любая страна, не имеющая суверенного LLM на своём языке, оказывается в невыгодном положении: глобально обученная англоязычная модель попросту не знает истории, новостей и культуры этой страны, описанных на родном языке.

ℹ Контекст
Норвежским языком владеют около 5 миллионов человек по всему миру. Ни один коммерческий провайдер LLM не занимался разработкой нативной норвежской модели.

Почему именно библиотека?

Министерство культуры Норвегии поручило Национальной библиотеке создать суверенный LLM, поскольку именно она располагает крупнейшей в стране цифровой коллекцией норвежских книг, газет, веб-страниц и других материалов. Библиотека обязана получать экземпляры каждой опубликованной книги и транслируемого контента — это закреплено законодательно.

Особое преимущество: Мариус Хуснес (Marius Husnes), руководитель IT-платформы библиотеки, на форуме в Париже заявил, что ни один коммерческий провайдер LLM не разрабатывал локальную норвежскую модель. Кроме того, у библиотеки есть соглашение с норвежскими газетами, позволяющее обучать LLM на защищённом авторским правом контенте — чего не может себе позволить ни одна частная компания.

С 2005 года библиотека оцифровывала свои фонды и накопила 20 ПБ уникальных данных (тексты, аудио, видео, изображения, веб-контент), хранящихся в схеме 3-2-1 (3 копии, 2 типа носителей, 1 удалённое хранилище) — итого около 60 ПБ.

Архитектура пайплайна: от архива до суперкомпьютера

По словам Хуснеса, узким местом проекта оказался не вычислительный ресурс, а качество данных, их очистка и пропускная способность пайплайна.

Пайплайн состоит из двух ключевых этапов:


graph LR
    A["📦 Архив 60 ПБ\n(диск + лента)"] --> B["🔧 Локальный AI-кластер\nNvidia DGX H200 + Huawei OceanStor Dorado 2 ПБ"]
    B --> C["🧹 Очистка / Дедупликация\nНормализация / Валидация"]
    C --> D["🖥️ Sigma2 Olivia\nHPE Cray EX, 448 GPU, 64 512 CPU-ядер"]
    D --> E["🤖 Готовая языковая модель"]

На первом этапе задействован локальный кластер: система Nvidia DGX H200, 384-ядерный CPU-кластер и несколько массивов Huawei OceanStor Dorado, дающих в сумме 2 ПБ флэш-ёмкости — низколатентное хранилище для пайплайнов и подготовки данных к обучению.

После прохождения через пайплайн данные передаются на национальный суперкомпьютер Sigma2 Olivia для непосредственного обучения модели. Olivia оснащена 448 суперчипами NVIDIA Grace Hopper GH200 (связка ARM-процессора Grace и GPU H100), а также процессорами AMD Turin — итого 64 512 физических CPU-ядер на 252 вычислительных узлах. Суммарная ёмкость хранилища Olivia составляет 5,3 ПБ.

Сравнение двух уровней хранилища

ПараметрАрхив (60 ПБ)AI Pipeline (2 ПБ Huawei)
ЦельДолгосрочное сохранениеВысокоскоростная обработка
Тип носителейДиск + магнитная лентаAll-flash (NVMe)
ЛатентностьВысокая (редкий доступ)Низкая (параллельный I/O)
ОптимизацияНадёжность и стоимостьПропускная способность
⚠ Главная проблема
Перенос петабайтов данных из холодного архива в горячий AI-пайплайн оказался нетривиальной задачей. Подготовка данных для AI требует их перемещения с ленты на флэш-накопители, а перемещение даже одного-двух терабайт занимает время — перенос нескольких петабайт может затянуться «навсегда». Команда решала эту задачу самостоятельно, так как ни у кого не было готовых решений в таком масштабе.

Три открытых вопроса

Хуснес завершил выступление перечнем задач, которые команда ещё решает:

  1. Оценка (Evaluation) — стандартных инструментов оценки суверенного норвежского LLM не существует: язык имеет две письменные формы, множество диалектов и исторических изменений, поэтому команда создаёт собственный оценочный инструмент прямо в процессе работы.

  2. Управление (Governance) — кто контролирует доступ к суверенному LLM и кто решает, для чего его можно использовать? Это институциональные и политические вопросы без простых ответов.

  3. Оркестрация (Orchestration) — бесшовная совместная работа трёх систем (архив + локальная AI-среда + суперкомпьютер Sigma2) остаётся активным незавершённым проектом.

💡 Вывод для отрасли
Как сформулировал сам Хуснес: Норвегия — маленькая страна, решающая проблему, с которой столкнётся каждая неанглоязычная нация: как создать ИИ, отражающий ваш язык, вашу культуру и вашу историю? Этот опыт бесценен для любого государства, планирующего суверенный языковой ИИ.

Что это значит для рынка

Проект наглядно демонстрирует две важные тенденции. Первая: хранилища Huawei играют серьёзную роль на европейском рынке. Выбор OceanStor Dorado для критически важного государственного AI-проекта — весомый аргумент в пользу этой платформы. OceanStor Dorado разработан для поддержки требований AI-приложений и обеспечивает высокую производительность, надёжность и безопасность, интегрируя блочное, файловое и объектное хранилище.

Вторая тенденция: вопрос суверенного AI выходит далеко за рамки выбора «какую модель обучать». Инфраструктура хранения данных, правовое регулирование авторских прав, инструменты оценки под конкретный язык — всё это становится частью национальной AI-стратегии. Норвегия вкладывает в HPC и AI значительные ресурсы: Исследовательский совет рекомендовал выделить 3,4 млрд норвежских крон (~340 млн долларов) на пять лет для обеспечения экспертизы, готовности и безопасности в этой области.

«AI нужны хранители, а не только строители» — Мариус Хуснес, руководитель IT-платформы Национальной библиотеки Норвегии