近日消息,摩尔线程最新发布的“夸娥智算集群 KUAE”1.2版本,在软硬件集成优化方面迈出了重要一步,不仅实现了对64K长文本的支持,还纳入了LLaMA2全系列、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等多种大模型,显著增强了其在人工智能和高性能计算领域的服务能力,为用户提供了更加强大和多元化的智能计算解决方案。
整理此次更新内容如下:
MFU 提升 10%,最高可达 55%
新版本使用千卡集群训练千亿模型,MFU 提升 10%。
稠密模型集群训练 MFU 最高达到 55%。
Flash Attention2 优化
通过集成最新的 MUSA SDK 平台与优化后的 Flash Attention2 技术,结合新版 Torch MUSA 和算子融合,提升了大模型训练的效率与资源利用率,缩短训练周期并降低了整体成本。
64K 长文本支持
新版本增强了对长文本大模型训练的支持,优化处理长文本理解和生成任务的能力,能够更好地应对文档摘要、文章写作等复杂语言处理任务。
支持混合专家模型 MoE
MCCL 通信库完成 All2All 优化,针对 muDNN 算子在不同形状下的矩阵运算进行优化,以更好地支持 MoE(Mixture of Experts)大模型的训练。
断点续训
进一步提升大模型训练的 Checkpoint 读写性能,写入时间小于 2 秒,提高训练效率。
优化 DeepSpeed
实现了基于摩尔线程 GPU 集群的 DeepSpeed 与 Ulysses 的适配和性能优化,强化长文本训练支持。
适配国内外多款大模型,在 Hugging Face 上支持训练和微调主要开源大模型。
稳定性提升
千卡集群软硬件进一步成熟,实现连续无故障训练 15 天。
新版本引入了 KUAE Aegis 可靠性功能,加强对 GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。
可视化 / 可观测
引入 PerfSight 性能监控系统,可实时显示模型训练过程中的资源消耗与性能分析数据。
内置模型库中新增大模型
KUAE 内置模型库 Model Zoo 新增 LLaMA2 全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。
摩尔线程 AI 旗舰产品夸娥(KUAE)智算集群解决方案从当前的千卡级别扩展至万卡规模,具备万 P 级浮点运算能力。摩尔线程将开展三个万卡集群项目,分别为青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目。
8月2日消息,摩尔线程与360集团在第十二届互联网安全大会期间宣布建立战略合作伙伴关系,双方于会上正式签署了合作协议,此次携手预示着双方将在网络安全和技术融合方面展开深入合作,共同推动行业进步。
双方此次合作旨在聚焦数字安全、信息与数字化服务及大模型等领域的创新应用,共同构建一个更加强大、可靠的人工智能生态系统,为各行各业提供先进的技术支持和服务。双方还将携手打造“360 智脑大模型一体机”,加速推动人工智能技术的发展与应用,为大模型行业的发展注入强劲动力。
据介绍,“360 智脑大模型一体机”集成了 360 智脑大模型,具备大模型管理、推理部署等功能,摩尔线程全功能 GPU 将为其提供底层算力,“以高性价比硬件方案确保大模型推理效率和成本的平衡”。双方还将共同研发和优化推理框架,在软件层面深入定制,致力于为大模型推理带来更具竞争力的方案。
360 大模型产品也已经与摩尔线程完成适配,基于摩尔线程夸娥(KUAE)千卡智算集群,360 集团已成功完成了 70 亿和 700 亿参数的大模型分布式训练任务。摩尔线程方面称,测试结果显示全程软硬件即插即用,集群训练稳定性达到 100%,训练效率和兼容性均达到预期。
据报道,今年 7 月,摩尔线程宣布其 AI 旗舰产品夸娥(KUAE)智算集群解决方案从当前的千卡级别扩展至万卡规模。摩尔线程夸娥万卡智算集群以全功能 GPU 为底座,打造能够承载万卡规模、具备万 P 级浮点运算能力的国产通用加速计算平台,号称专为万亿参数级别的复杂大模型训练而设计。
7月3日消息,摩尔线程科技有限公司对外宣布了一项重要的技术升级,其自主研发的AI旗舰级产品——夸娥(KUAE)智算集群解决方案,实现了从原先的千卡级别跃升至万卡级别的重大跨越。
摩尔线程夸娥万卡智算集群,以全功能 GPU 为底座,打造能够承载万卡规模、具备万 P 级浮点运算能力的国产通用加速计算平台,专为万亿参数级别的复杂大模型训练而设计。
夸娥万卡智算解决方案具备以下核心特性:
万卡万 P:夸娥智算集群实现单集群规模超万卡,浮点运算能力达到 10Exa-Flops,达到 PB 级的超大显存总容量、每秒 PB 级的超高速卡间互联总带宽和每秒 PB 级超高速节点互联总带宽。
长稳训练:摩尔线程夸娥万卡集群平均无故障运行时间超过 15 天,最长可实现大模型稳定训练 30 天以上,周均训练有效率在 99% 以上,远超行业平均水平。
高 MFU:夸娥万卡集群在系统软件、框架、算法等层面一系列优化,实现大模型的高效率训练,MFU(评估大模型训练效率的通用指标)最高可达到 60%。
生态友好:可加速 LLM、MoE、多模态、Mamba 等不同架构、不同模态的大模型。基于 MUSA 编程语言、完整兼容 CUDA 能力和自动化迁移工具 Musify,加速新模型“Day0”级迁移。
摩尔线程将开展三个万卡集群项目,分别为青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目。
hnqyjy.cn 版权所有 (C)2011 https://www.hnqyjy.cn All Rights Reserved 渝ICP备20008086号-34