首席科学家陈子忠:超算能效困局,算法或是最优解
2026.07.01

来源:

近期,高性能计算与人工智能协同创新国际论坛(HACI 2026)在深圳举行。这场汇聚400多位全球顶尖院士、专家及产业精英的高级别盛会,聚焦超智融合前沿议题。

 

香港中文大学(深圳)校长讲座教授、络书智算首席科学家陈子忠受邀出席,并发表题为《超级计算机性能、可靠性与功耗之间的内在关联》的演讲,从算法层面重新审视了超算能效问题,并提出一个核心判断:性能、功耗与可靠性之间的“不可能三角”,并非铁律。

 

以下为根据陈子忠教授演讲内容整理:

 

一、超级计算机的功耗有多重要?


今天的超算有多费电? 

“美国超级计算机Frontier一年电费两千多万美元,Aurora接近四千万美元,甚至维持ChatGPT运行所需的算力折算成全年电费也要两千万美元”。

 


芯片的功耗与频率的三次方成正比——频率翻倍,功耗变八倍,这就是为什么最近二十年大家放弃高频单核,转向低频多核。功耗不仅直接决定运营成本,更制约着性能的进一步提升,同时还会影响系统的稳定性和可靠性。因此,节能早已不是环保口号,而是算力能否继续突破的硬性门槛。

 

二、传统节能手段的困境:系统看不懂任务,只能盲调


现在最常用的节能手段是动态电压频率调整(DVFS)。 

原理很简单:在一个多任务并行运行环境中,把某些任务的频率降下去并不会影响整体任务的完成时间,但频率降低却能省电。

 

但问题在于,频率必须在任务开始前就设好。系统层面不知道这个任务要跑多久、后面有没有空闲,所以只能“盲调”。

 

这些缺失的关键信息(任务计算量、依赖关系、空闲窗口)其实就隐藏在算法的结构中。

 

三、算法提前规划:谁必须快,谁可以慢


我们给出的办法是:不让系统瞎猜,而是让算法提前算清楚——哪些任务必须跑得快,哪些任务可以慢慢来。

 

任何一个大计算任务,都可以拆成很多小任务。这些任务之间有先后顺序,画出来像一张流程图。这张图里有一条“主链条”,必须一个接一个完成、中间不能停的任务,我们称为关键路径,这条路径决定了整个计算要花多长时间。其他的任务可以慢一点,不影响整体进度。

 

我们重新设计计算的流程图,精确预测出每个小任务要花多久、空闲有多宽。然后区别对待:

  • 关键路径上的任务:保持甚至提高频率,让计算更快

  • 非关键任务:放心降低频率,进入节能模式

 


实验结果表明,在很多经典的应用程序里,使用传统统计方法预测空闲时段的误差在10%以上,我们基于算法特征的方法误差在0.16%-0.96%,大幅提升了对任务运行时长和空闲时长的预测准确度,从而可以准确分配每个任务运行时的硬件频率,降低应用程序的功耗。

 

四、降压更节能,但容易出错怎么办?


在保持频率的同时降压比单纯降频更节能,但电压太低芯片容易出错,而且是程序不报错,结果却是错的。这叫软错误,很难防。

 

如何用很低的成本检测甚至纠正软错误?我们开发了基于算法的容错(ABFT)——通过校验和来捕捉计算中的错误。

 

计算前先存好每行每列的总和,我们证明了在外积版矩阵乘法运算中,每次循环结束后,这个校验关系依旧成立,如果不成立,说明计算出错了。更进一步,我们用了双重校验和,除了普通加和,再加一个“带权重的加和”,这样不仅能检测有没有错,还能精确定位错在哪里,并算出正确的值,且开销远低于传统方法。

 

最优决策来自算法层面的深刻理解


性能、功耗、可靠性从来不是单选题,它们相互影响但完全可以共同优化。系统级的优化有它的天花板,真正能带来突破的是算法级的精准预判——看懂任务依赖图,找准关键路径,用好校验,这些才是撬动底层效率的真正杠杆。