Китай построил суперкомпьютер на 2,45 млн ядер Armv9 — без единого GPU

  • Национальный суперкомпьютерный центр Китая в Шэньчжэне (NSCC-SZ) запустил систему LineShine — экзафлопсный суперкомпьютер без графических ускорителей, целиком построенный на отечественных процессорах LX2 на архитектуре Armv9.
  • В системе 20 480 узлов по два процессора LX2 в каждом — всего 40 960 чипов и около 2,45 миллиона ядер CPU, соединённых сетью LingQi (LQLink) с пропускной способностью 1,6 Тбит/с на узел.
  • LineShine выдаёт 1,54 ExaFLOPS на BF16-обучении и пик 2,16 ExaFLOPS при тренировке 6,3-миллиардной модели сжатия наблюдений Земли. Теоретический пик в FP64 — 2,47 ExaFLOPS.
  • Каждый LX2 — это два чиплета, 304 ядра, 32 ГБ HBM с пропускной способностью 4 ТБ/с прямо в корпусе и до 256 ГБ внешней DDR5. По меркам обычных серверных CPU — нетипичная конфигурация, ориентированная именно на ИИ-задачи.
  • Архитектура отказывается от связки CPU+GPU намеренно: это и обход санкций США на поставки ИИ-ускорителей Nvidia, и попытка устранить узкие места передачи данных между процессором и графическим ускорителем.

Подавляющее большинство ведущих суперкомпьютеров и ИИ-кластеров сегодня строится по гетерогенной схеме: CPU отвечает за оркестрацию и общую логику, а массивно-параллельные вычисления берут на себя ИИ-ускорители — графические процессоры Nvidia, AMD или специализированные ASIC. В Китае в последние годы сложилась другая тенденция: страна развернула целую серию CPU-only суперкомпьютеров для ИИ- и HPC-нагрузок. Главная причина — экспортные ограничения США, из-за которых купить достаточное количество современных GPU-ускорителей легально невозможно. Самый громкий пример этого подхода — система LineShine, недавно введённая в строй в Национальном суперкомпьютерном центре в Шэньчжэне.

Источник изображения — Google

Кто строил и зачем

Архитектором проекта и директором центра выступает Лу Ютун. Производитель самого процессора LX2 в официальных материалах NSCC-SZ не раскрывается, однако отраслевой аналитик Джон Педди (Jon Peddie Research) прямо называет чип «Huawei LX2». Это соответствует общей логике момента: именно Huawei в последние годы стала главным китайским провайдером собственной серверной кремниевой платформы (включая семейство Kunpeng на ядрах TaiShan) и потому естественно подходит для роли подрядчика по нестандартному Armv9-чипу для государственного суперкомпьютера.

LineShine разворачивается фазами. В пилотной части использовались 100 серверов Huawei Kunpeng (на TaiShan-ядрах, около 12 800 ядер CPU); основная сборка — 92 вычислительных шкафа с примерно 47 000 процессоров LX2 и подсистемой хранения объёмом порядка 650 ПБ. Заявленная цель полного развёртывания — около 2 ExaFLOPS, что фактически и подтверждается опубликованными цифрами по BF16-обучению.

Процессор LX2: 304 ядра Armv9 в одном корпусе

Каждый LX2 — это многокристальная сборка из двух вычислительных чиплетов, на которые приходится в общей сложности 304 ядра CPU, организованных в восемь кластеров по 38 ядер (по 152 ядра и четыре кластера на чиплет). Каждое ядро поддерживает:

  • векторные расширения Arm SVE (Scalable Vector Extension);
  • матричные расширения Arm SME (Scalable Matrix Extension);
  • форматы данных FP64, FP32, BF16, FP16 и INT8 — то есть тот же набор, что и у современных ИИ-ускорителей, но реализованный прямо в ядрах CPU.

На каждом ядре — по 32 КБ L1-кэша инструкций и 32 КБ L1-кэша данных; на кластер из 38 ядер — общий L2-кэш на 28,5 МБ. Это уже выглядит не как «обычный серверный CPU с ИИ-довеском», а как ядро, осознанно затачивавшееся под плотную матричную нагрузку.

Память: HBM прямо в корпусе плюс 256 ГБ DDR5 снаружи

Самое необычное в LX2 — подсистема памяти. На одном кристалле уживаются два уровня:

  • 32 ГБ HBM прямо в корпусе процессора (восемь стэков по чипу), агрегированная пропускная способность — около 4 ТБ/с;
  • до 256 ГБ внешней DDR5 (по 128 ГБ на каждый из двух чиплетов).

Аналогичную схему — HBM на корпусе плюс много обычной памяти рядом — впервые в крупном масштабе применила Fujitsu в процессоре A64FX, на котором построен японский суперкомпьютер Fugaku. Но Fugaku использовал не Armv9, а Armv8.2 (и не имел поддержки SME). LX2, судя по всему, — первый промышленный Armv9-процессор для ИИ и HPC, использующий такую двухуровневую конфигурацию памяти.

Каждый чиплет несёт четыре домена HBM и четыре домена DDR — всего 16 NUMA-доменов на процессор. Доступ к HBM крайне чувствителен к локальности (важно, чтобы данные «лежали под нужным ядром»), доступ к DDR более однороден и равномерно распределяется между кластерами. Это вынуждает программистов учитывать топологию памяти на уровне планирования задач — поэтому в системе работает выделенный SDMA-движок, который перекидывает данные между DDR и HBM фоном, освобождая ядра от этой рутины.

Разработчики специально отмечают в технической документации, что для того, чтобы матричные движки SME действительно были постоянно загружены, потребовалась глубокая совместная переработка вычислительных ядер (ядер библиотек), планировщика времени выполнения, политики удержания данных в кэше и логики размещения тензоров между уровнями HBM и DDR. Без этой инженерной возни такая память остаётся «бутылочным горлышком», а не преимуществом.

Производительность: что выдаёт один LX2 и что выдаёт вся машина

В пересчёте на один процессор LX2 цифры выглядят так:

  • FP64 — около 60,3 TFLOPS;
  • FP32 — около 120,6 TFLOPS;
  • BF16/FP16 — около 240 TFLOPS;
  • INT8 — около 960 TOPS.

Для CPU, особенно работающего без отдельного ускорителя, это очень высокие значения — приближающиеся снизу к плотности ИИ-вычислений, которую обычно дают современные GPU. Но именно снизу: GPU-ускорители уровня MI300A или Nvidia H200 за счёт большей плотности тензорных блоков и меньшего бюджета на универсальность всё ещё опережают LX2 при равном энергопотреблении.

В масштабе всей системы LineShine это превращается в:

  • 20 480 узлов × 2 LX2 = 40 960 процессоров;
  • 2 451 840 ядер CPU совокупно;
  • теоретический пик FP64 — около 2,47 ExaFLOPS (фактическое значение в Linpack зависит от множества факторов и пока не опубликовано);
  • фактическая производительность ИИ-обучения — 1,54 ExaFLOPS в BF16, пик до 2,16 ExaFLOPS при тренировке 6,3-миллиардной модели сжатия данных дистанционного зондирования Земли.

Сеть LingQi: 1,6 Тбит/с на узел

Узлы LineShine связаны фирменной интерконнект-сетью LingQi (LQLink) с пропускной способностью 1,6 Тбит/с на узел и топологией двухплоскостного многорельсового fat-tree. Это уровень, сопоставимый с HPC-сетями уровня Slingshot или InfiniBand NDR — что критически важно для эффективности обучения больших моделей на тысячах узлов, потому что иначе даже мощные CPU тратят время на ожидание соседей. Общая коммутационная фабрика заявлена примерно на миллион портов в 36 сетевых шкафах.

Сравнение: El Capitan и Colossus

Чтобы понять, где находится LineShine в мировой картине, полезны два ориентира:

  • El Capitan (Lawrence Livermore National Laboratory, США) — текущий лидер списка Top500 на классических HPC-нагрузках: 1,74 ExaFLOPS по Linpack, теоретический пик 2,74 ExaFLOPS, более 44 500 APU AMD MI300A. Это гетерогенная архитектура CPU+GPU/APU, но «упакованная» в один корпус.
  • xAI Colossus — крупнейший публично известный ИИ-кластер на GPU Nvidia. Компания не публикует пиковую производительность, но независимые оценки дают теоретический пик около 497,9 ExaFLOPS. Даже при типичной для таких систем утилизации в 15% это соответствует примерно 75 ExaFLOPS реальной производительности обучения — заметно выше LineShine.

То есть LineShine не «обгоняет мир» по абсолютной ИИ-мощности — он закрывает другую задачу: позволяет Китаю получить экзафлопсный класс вычислений вообще без зависимости от Nvidia, AMD, TSMC и экосистемы CUDA.

Почему CPU-only — и за что приходится платить

У однородной CPU-архитектуры в специфическом классе научно-ИИ задач есть несколько объективных преимуществ:

  • всё считается в едином адресном пространстве — нет дорогостоящих и узкополосных пересылок данных между CPU и GPU, нет двух разных стеков памяти;
  • программная модель резко проще: одна архитектура, одни компиляторы, одни инструменты, никакого CUDA или ROCm-«пути»;
  • можно собирать огромные когерентные пулы памяти, объединяя HBM с большими массивами DDR — это полезно для работы с гигантскими научными датасетами, retrieval-augmented generation (RAG) и очень длинными контекстными окнами LLM, которые «не лезут» в память GPU;
  • хорошо подходит для нагрузок с нерегулярным потоком управления, распределённым вводом-выводом, плотными конвейерами обмена данными — то есть для тех шаблонов, которые на GPU реализуются неэффективно;
  • такие системы естественнее интегрируются с традиционным HPC: гидродинамика, молекулярная динамика, биология, физика плазмы — то есть один и тот же кластер может работать и как ИИ-машина, и как классический научный суперкомпьютер.

Главный компромисс тоже честный: CPU-only-системы менее энергоэффективны и дают меньшую плотную производительность на ИИ-обучении, чем GPU-ускоренные. Именно поэтому остальной мир по-прежнему делает ставку на гетерогенные CPU+GPU-архитектуры — там, где есть свободный доступ к лучшим ускорителям, это правильный выбор.

Стратегический контекст: санкции как двигатель архитектуры

LineShine — это не только инженерный проект, но и политическое утверждение. Все ключевые компоненты — процессоры, сеть LingQi, система хранения — китайского происхождения. Это прямой ответ на американские экспортные ограничения, которые с 2022 года последовательно перекрывают Китаю доступ к передовым ИИ-ускорителям Nvidia и инфраструктурным компонентам. Возможность построить экзафлопсную машину без единого американского компонента — и без CUDA как идеологического дефолта — для Пекина оказывается важнее формального места в Top500.

Открытый вопрос — где именно были произведены сами кристаллы LX2. Передовые Armv9-чипы такого класса исторически делались на TSMC; формально Китаю прямой путь туда закрыт. Возможные варианты — SMIC по собственному техпроцессу с компромиссами по плотности и энергоэффективности либо обходные схемы, к которым китайские компании уже неоднократно прибегали ранее. Эта часть истории, в отличие от архитектуры, в открытых источниках пока не раскрывается.

Источник изображения — Национальный суперкомпьютерный центр Китая

Так или иначе, LineShine показывает важный сдвиг: при достаточно агрессивной государственной программе и сильном системном инжиниринге даже без передовых GPU и без EUV-литографии в текущем поколении возможно собрать машину экзафлопсного класса для ИИ и HPC. Производительность на ватт у такого подхода всё ещё хуже, чем у западных аналогов на GPU, но сама возможность — это уже политический и технологический факт, с которым придётся считаться.