
华为的芯片节奏财富e99,全面走上了新轨道。
继余承东三折叠手机发布会上亮相麒麟芯片后,AI 算力芯片也有了最新进展。
就在华为全联接大会上,轮值董事长徐直军,带来了全球最强算力超节点和集群!
Atlas 950 SuperPoD 和 Atlas 960 SuperPoD 超节点,分别支持 8192 及 15488 张昇腾卡。
Atlas 950 SuperPoD 预计在 2026 年第四季度上市,完全超越英伟达预计在 2027 年上市的 NVL576,在未来 2 年内保持全球算力第一。
同时还发布了全球最强超节点集群,分别是 Atlas 950 SuperCluster 和 Atlas 960 SuperCluster,算力规模分别超过 50 万卡和达到百万卡,同样坐稳全球最强集群宝座。
此外,华为还公布了昇腾芯片、鲲鹏芯片未来 2 年的演进规划。包括昇腾 950 系列 /960 系列,鲲鹏 950/960 等。
华为轮值董事长也坦承,由于制程和流片方面的原因,"短期在单芯片性能上和英伟达有差距"……
但是,可以通过极致的系统架构和互联技术,将大量芯片整合成一个"超级计算机",在集群级别实现全面超越。

明年 Q1 推出昇腾 950PR,采用华为自研 HBM
芯片方面,华为将坚持"一年一代,算力翻倍"的节奏,持续演进数据格式和带宽技术,以满足 AI 算力增长的无限需求。
由此公布了昇腾 950 系列、昇腾 960 系列和昇腾 970 系列的演进路线。

昇腾 950 系列
昇腾 950 芯片架构亮点如下:
新增支持低精度数据格式
提升向量算力
提升互联带宽 2.5 倍
支持华为自研 HBM

具体芯片如下:
昇腾 950PR
定位:面向推荐(Recommendation)和偏好(Prefill)场景的推理(Inference)优化芯片。
推出这款芯片是因为随着 AIGC 发展,输入上下文越来越长,计算资源消耗增大。在电商、内容平台和社交媒体中,推荐算法需要更高的准确度和更低的时延。
技术创新:采用华为自研 HBM 内存方案,可显著降低成本。
产品形态:标准卡和超节点服务器。
上市时间:2026 年第一季度。

昇腾 950DT财富e99
定位:面向训练(Training)和深度学习(Deep Learning)场景。
技术创新:
采用自研 HBM:HiZQ 2.0
内存容量高达 144GB,访问带宽达 4TB/s。
互联带宽提升至 2TB/s。
支持 FP8、MXFP8、MXFP4、HF8 等多种数据格式,提升训练效率。
上市时间:2026 年第四季度。

昇腾 960(规划中)
定位:旗舰训练芯片,各项规格相比昇腾 950 实现翻倍提升。
算力、内存容量、访问速度、互联端口数全面翻倍。
支持华为自研的 Hi-F4 数据格式,它是目前业界最优的 4bit 精度实现,能进一步提升推理吞吐,并且比业界 FP4 方案的推理精度更优。
上市时间:2027 年第四季度。

昇腾 970(规划中)
定位:全面升级的训练芯片,各项指标大幅提升。
初步规格:相比昇腾 960,FP4、FP8 算力全面翻倍,内存访问带宽提升至少 1.5 倍。
上市时间:2028 年第四季度。

Atlas 950:预计未来 2 年保持全球第一
华为副董事长、轮值董事长徐直军坦言,华为在单芯片制造上受到限制,但是通过过去 30 年在基础软件和系统架构上的积累,可以通过极致的算力架构和互联技术,将大量芯片整合成一个"超级计算机",从而在集群层面实现超越。
超节点(SuperNode)是将大量计算单元(如芯片、服务器)通过高速互联技术整合成一台逻辑上统一的、能像单台计算机一样学习、思考和推理的巨型 AI 计算机。它正成为 AI 基础设施建设的新范式。
目前华为现有 Atlas 900 A3 超节点,支持 384 颗昇腾 910C 芯片。最大算力达 300PFlops,至今仍是全球算力最强的 AI 超节点。自上市以来,已交付超 300 套,服务 20 多家客户。

Atlas 950 超节点
此次最新发布Atlas 950 超节点。
支持 8,192 张昇腾 950DT 芯片,规模是 Atlas 900 的 20 多倍。
它由 128 个计算柜和 32 个互联柜组成,占地约 1000 平方米,采用全光连接。
财富e99
关键指标如下:
FP8 算力:8 EFlops
FP4 算力:16 EFlops
互联带宽:16.3 PB/s(超过全球互联网总带宽的 10 倍)
内存容量:1152 TB
训练总吞吐:4.91mn TPS(较 Atlas 900 提升 17 倍)
推理总吞吐:19.6mn TPS(较 Atlas 900 提升 26.5 倍)

相比英伟达 2025 年将上市的 NVL144,卡规模是其 56.8 倍,总算力是其 6.7 倍,内存容量是其 15 倍,互联带宽是其 72 倍。
Atlas 950 超节点上市时间为 2026 年第四季度。预计在未来两年内保持全球算力第一。
Atlas 960 超节点
一同发布的还有 Atlas 960 超节点 。

它基于昇腾 960/ 昇腾 950DT 芯片,最大支持 15,488 卡。使用跨柜全光互联。
关键指标在 Atlas 950 基础上再度翻番:
FP8 算力:30 EFlops
FP4 算力:60 EFlops
内存容量:4460 TB
互联带宽:34 PB/s
大模型训练和推理性能相比 Atlas 950 提升 3-4 倍。
预计在 2027 年第四季度上市。

开创面向超节点的互联协议灵衢
超节点技术不仅用于 AI,同样重塑通用计算。
华为发布鲲鹏 950、鲲鹏 960 芯片以及对应超节点。

鲲鹏 950 处理器:
版本:96 核 /192 线程;192 核 /384 线程
特性:支持机密计算,新增四层安全隔离。
基于鲲鹏 950,组成泰山 950 超节点。
这将是全球首个通用计算超节点。最大支持 16 节点,32 个处理器,最大内存 48TB。同时支持内存、SSD、DPU 池化。
基于 TaiShan 950 超节点打造的 GaussDB 读写架构无需对数据库进行分布式改造,性能提升 2.9 倍。
最终可平滑替代大型机、小型机上的传统数据库。TaiShan 950 加上分布式 GaussDB 将成为各类大型机、小型机的终结者,彻底取代各种应用场景的大型机和小型机以及 Oracle 的 Exadata 数据库服务器。
除了核心数据库场景,TaiShan 950 超节点在更广泛的场景里,表现也很亮眼:比如虚拟化环境的内存利用率提升 20%,在 Spark 大数据场景,实时数据处理时间缩短 30%。
上市时间为 2026 年第一季度。

构建万卡超节点的最大挑战在于互联技术。华为通过系统性创新攻克了两大难题:
第一是如何做到长距离而且高可靠。大规模超节点机柜多,柜间联接距离长,当前电互联和光互联技术都不能满足需求。其中,当前的电互联技术在高速时联接距离短,最多只能支持两柜互联,而当前的光互联技术虽然可以把长距离的多机柜联接在一起,但无法满足可靠性需求。
第二是如何做到大带宽而且低时延。当前跨柜卡间互联带宽低,和超节点的需求差距达 5 倍;跨柜的卡间时延大,当前互联技术最好只能做到 3 微秒左右,和 Atlas 950/960 设计需求仍然有 24% 的差距,当时延已经低至 2~3 个微秒时,已经逼近物理极限,哪怕 0.1 微秒的提升,挑战都很大。

基于此,华为开创了灵衢(UnifiedBus) 互联协议,并正式开放云衢 2.0 技术规范,邀请产业伙伴共建生态,推动超节点产业发展。

最后,华为还有大招放出,发布超级集群:Atlas 950 SuperPlus 集群。
它由 64 个 Atlas 950 超节点并联组成,整合 52 万颗昇腾 950T 芯片。
总算力达 524 EFlops。支持 UBOE 和 RoCE 两种组网协议,UBOE 在时延、可靠性和成本上更具优势。
上市时间为 2026 年第四季度。

另外 Atlas 960 SuperPlus 集群也在规划中。
规模将达百万卡级,FP8 总算力达 2 ZFlops,FP4 达 4 ZFlops。上市时间为 2027 年第四季度。

最后,徐直军强调,华为将以基于灵衢的超节点和集群持续满足算力快速增长的需求,推动人工智能持续发展,创造更大的价值。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
� � 年度科技风向标「2025 人工智能年度榜单」评选报名开启啦!我们正在寻找 AI+ 时代领航者 点击了解详情
❤️� � 企业、产品、人物 3 大维度,共设立了 5 类奖项,欢迎企业报名参与 � �
一键关注 � � 点亮星标
科技前沿进展每日见财富e99
实倍网提示:文章来自网络,不代表本站观点。