首席科学家陈子忠：超算能效困局，算法或是最优解

2026.07.01

来源：

近期，高性能计算与人工智能协同创新国际论坛（HACI 2026）在深圳举行。这场汇聚400多位全球顶尖院士、专家及产业精英的高级别盛会，聚焦超智融合前沿议题。

香港中文大学（深圳）校长讲座教授、络书智算首席科学家陈子忠受邀出席，并发表题为《超级计算机性能、可靠性与功耗之间的内在关联》的演讲，从算法层面重新审视了超算能效问题，并提出一个核心判断：性能、功耗与可靠性之间的“不可能三角”，并非铁律。

以下为根据陈子忠教授演讲内容整理：

一、超级计算机的功耗有多重要？

今天的超算有多费电？

“美国超级计算机Frontier一年电费两千多万美元，Aurora接近四千万美元，甚至维持ChatGPT运行所需的算力折算成全年电费也要两千万美元”。

芯片的功耗与频率的三次方成正比——频率翻倍，功耗变八倍，这就是为什么最近二十年大家放弃高频单核，转向低频多核。功耗不仅直接决定运营成本，更制约着性能的进一步提升，同时还会影响系统的稳定性和可靠性。因此，节能早已不是环保口号，而是算力能否继续突破的硬性门槛。

二、传统节能手段的困境：系统看不懂任务，只能盲调

现在最常用的节能手段是动态电压频率调整（DVFS）。

原理很简单：在一个多任务并行运行环境中，把某些任务的频率降下去并不会影响整体任务的完成时间，但频率降低却能省电。

但问题在于，频率必须在任务开始前就设好。系统层面不知道这个任务要跑多久、后面有没有空闲，所以只能“盲调”。

这些缺失的关键信息（任务计算量、依赖关系、空闲窗口）其实就隐藏在算法的结构中。

三、算法提前规划：谁必须快，谁可以慢

我们给出的办法是：不让系统瞎猜，而是让算法提前算清楚——哪些任务必须跑得快，哪些任务可以慢慢来。

任何一个大计算任务，都可以拆成很多小任务。这些任务之间有先后顺序，画出来像一张流程图。这张图里有一条“主链条”，必须一个接一个完成、中间不能停的任务，我们称为关键路径，这条路径决定了整个计算要花多长时间。其他的任务可以慢一点，不影响整体进度。

我们重新设计计算的流程图，精确预测出每个小任务要花多久、空闲有多宽。然后区别对待：

关键路径上的任务：保持甚至提高频率，让计算更快
非关键任务：放心降低频率，进入节能模式

实验结果表明，在很多经典的应用程序里，使用传统统计方法预测空闲时段的误差在10%以上，我们基于算法特征的方法误差在0.16%-0.96%，大幅提升了对任务运行时长和空闲时长的预测准确度，从而可以准确分配每个任务运行时的硬件频率，降低应用程序的功耗。

四、降压更节能，但容易出错怎么办？

在保持频率的同时降压比单纯降频更节能，但电压太低芯片容易出错，而且是程序不报错，结果却是错的。这叫软错误，很难防。

如何用很低的成本检测甚至纠正软错误？我们开发了基于算法的容错（ABFT）——通过校验和来捕捉计算中的错误。

计算前先存好每行每列的总和，我们证明了在外积版矩阵乘法运算中，每次循环结束后，这个校验关系依旧成立，如果不成立，说明计算出错了。更进一步，我们用了双重校验和，除了普通加和，再加一个“带权重的加和”，这样不仅能检测有没有错，还能精确定位错在哪里，并算出正确的值，且开销远低于传统方法。

最优决策来自算法层面的深刻理解

性能、功耗、可靠性从来不是单选题，它们相互影响但完全可以共同优化。系统级的优化有它的天花板，真正能带来突破的是算法级的精准预判——看懂任务依赖图，找准关键路径，用好校验，这些才是撬动底层效率的真正杠杆。

下一条InfoComm 2026 | 卡莱特：AI显控定义新未来2026.06.23

返回列表

视频拼接器

超级视频处理器

专业视频处理器

分布式系统

软件

发送器

接收系列

配件

专业配屏软件

播放器

云平台

云联网播控软件

多媒体播控服务器

软件

服务器配件

智慧会议

智能制造

专业画质测评系统

内容安全

首席科学家陈子忠：超算能效困局，算法或是最优解

4008 770 775