材料科学与工程学报
    主页 > 期刊导读 >

天河二号研发团队护航中国速度

如果说技术积淀和“计算机+多学科”的融合优势是“银河”赋予“天河”的技术财富,“胸怀祖国、团结协作、志在高峰、奋勇拼搏”的“银河精神”就是天河人永远坚守的精神高地。

提起超算,很多人已经不陌生了。无论是“高大上”的国防、材料科学、天文学还是距离我们生活更近的天气预报、灾害监测、交通管理,超算都大有用武之地。今年初,在国家超级计算广州中心,“天河二号”超级计算机,以每秒最高十亿亿次的超强算力,助力筛选出能抑制病毒的小分子药物,搭建“15秒断诊”的新冠肺炎CT影像智能诊断平台,建立新冠肺炎病患时空轨迹数据库。

啃下一个又一个硬骨头

“天河二号”是一组由中国人民解放军国防科技大学研制的异构超级计算机,为“天河一号”超级计算机的后继。“天河二号”于2013年底入驻广东省广州的国家超级计算广州中心并进行验收,2013年底交付使用后对外开放接受运算项目任务,用于实验、科研、教育、工业等领域。

作为“天河工程”“银河工程”副总设计师,国防科技大学计算机学院计算机研究所所长肖立权与团队成功研制出“天河一号”“天河二号”“天河三号E级验证系统”以及银河系列高性能计算机系统。

“走别人没有走过的路很难,但我喜欢挑战!”这是肖立权常说的一句话。20世纪末,大规模计算机系统中通常采用电互联技术,传输速率低且易受干扰,影响系统稳定性。这是我国研制千万亿次级超级计算机路上的一块绊脚石。

如何搬开这块绊脚石?用光互联替代电互联是最优解决方案,研究所将这一重任交给了肖立权。2003年,肖立权受接到任务后,立即着手解决这项技术难题。然而刚开始,按照他的思路做出来的系统根本跑不起来。

“是哪里出了问题?” 肖立权架起示波器、逻辑分析仪,全神贯注观察着,生怕错过关键数据。解决思路一次次提出,但又一次次推翻。有一天,肖立权突然冒出一个想法:是不是数据传输有问题?灵光突现,他一下找到了解决问题的“钥匙”。由此,我国光互联技术在大规模计算机系统中得到有效验证,这为后续该技术在超级计算机系统中的应用奠定了坚实基础。

此后,肖立权瞄准这一技术领域,啃下了一个又一个“硬骨头”,解决了光互联替代电互联的系列技术难题,成功研制出我国首台采用光互联技术的并行计算机互联通信系统,使传输速率从原有的400Mbps一路飙升为10Gbps,实现数量级飞跃。

“银河精神”传承“天河奇迹”

据国防科技大学计算机学院研究员李琼介绍,“天河二号”的峰值计算速度达到每秒十亿亿次。假设每人每秒钟进行一次运算,“天河二号”运算一小时,相当于13亿人同时用计算器算上数千年。

“CPU+GPU异构融合体系”,是天河一号独创的技术路线,其拥有着低能耗、低成本、高集成度等优点。在此基础上,科研人员迈出创新的又一步,为天河二号设计出“新型异构多态体系结构”,不仅大幅提高了系统的计算速度,还将其应用从科学计算拓展至大数据处理等多个领域。

如果说技术积淀和“计算机+多学科”的融合优势是“银河”赋予“天河”的技术财富,“胸怀祖国、团结协作、志在高峰、奋勇拼搏”的“银河精神”就是天河人永远坚守的精神高地。“天河二号”超级计算机研制团队荣获“2015中国全面小康十大杰出贡献人物”。在颁奖的那一刻,现场响起雷鸣般的掌声。

这是一群极其勤奋的科学家,在研发阶段,他们每天工作十几个小时,一年中仅春节期间休息了三天。机器的新速度大多是在凌晨三四点钟算出来的。每到这时,灯火通明的“天河楼”一片欢腾,大家还会兴奋地打电话告诉在外地出差的同伴们。

这是一群视事业高于一切的奉献者。有人在孩子出生当天进入封闭攻关基地而毫无怨言,因为“天河也是我们的孩子”。有人在亲人临终时无法相见,只能在系统调试完成后去墓地献上一束鲜花。

这是一群朝气蓬勃的年轻人,平均年龄不到40岁。在天河一号工程中成长起来的年轻技术人员,都是天河二号研制的骨干力量。值得一提的是,当时还有23名本科生直接参与系统研制。