面向人类未来,扬威“中国超算”:高性能专委会杰出新人奖的中国获得者甘霖

03-03 12:11 | 校园热点来源: 清华大学

面向人类未来

扬威“中国超算”

甘霖

高性能专委会杰出新人奖的中国获得者

美国当地时间2018年11月15日,在达拉斯举办的全球超级计算大会中,甘霖斩获高性能专委会杰出新人奖。

“一直觉得很幸运。”这是1988年出生的甘霖,获奖后的感言。这一超算领域的抢眼奖项,被誉为培养高性能计算未来领导力人才的摇篮,此次甘霖评奖过程也获得了多位国内外知名专家的大力推荐。他说幸运在于,身处一个热门的研究方向,身处一个有实力的研发团队,从“神威·太湖之光”上见证了中国拥有自主核心技术的超算时代。

甘霖(右一)获IEEE-CS青年人才奖

“搬走一座大山”

2015年12月,正值我国第一台国产众核超级计算机“神威·太湖之光”研制与组装的关键时期。此时正在清华大学计算机系攻读博士的甘霖,受导师之邀,欣然来到位于无锡蠡园开发区的国家超算中心研发基地,成为这个平均年龄只有25岁的青春团队中的一员,开启了难忘的“超算之旅”。

神威·太湖之光超级计算机由国家并行计算机工程技术研究中心研制,在2016年6月20日的世界超级计算机大会上登顶榜首,成为世界上首台运算速度超过十亿亿次的超级计算机。

“机器是全新的,硬件是全新的,我们的任务是设计软件与应用,就像为一款新手机开发APP。”刚到基地的甘霖第一次触摸到“神威·太湖之光”的机身,从此和伙伴们一起肩负了“为这款完全国产化的超级计算机打造属于自己的系统”的重要使命,“证明‘神威·太湖之光’不仅硬件好,也‘能用’‘好用’。”而世界高性能计算应用领域的最高奖项便是“戈登·贝尔”奖。

甘霖正在无锡国家超算中心研发基地工作

2016年11月17日,“戈登·贝尔”奖在美国盐城即将揭晓。“The winner is ten……”主持人的话音被现场澎湃的欢呼所淹没,甘霖以共同通讯作者参加的“千万核可扩展全球大气动力学全隐式模拟”项目获奖,实现了中国在这个奖项上“零的突破”。一年后,由甘霖的导师付昊桓等共同领导的团队所完成的“非线性地震模拟”应用再次斩获“戈登·贝尔”奖,实现了我国高性能计算应用在此项大奖上的蝉联。项目研究团队选取了唐山大地震震源附近320公里×312公里×40公里的空间区域,首次精确模拟了该区域在地震发生后150秒内的地质变化,分辨率可达到8米,频率可达到18赫兹,使科学家可以更好地理解唐山大地震所造成的影响,并对未来地震预防预测等研究具有重要借鉴意义。

2016年戈登·贝尔奖获奖证书(上)和领奖现场(下),左起:清华大学计算机系博士生王欣亮、计算机系博士后甘霖、地球系统科学研究中心副教授付昊桓

冲刺“戈登·贝尔”奖的时光里,最令甘霖难忘的是团队“7×24”小时的备战经历。“在距离提交节点的最后一个星期要处理大量的数据,团队成员都高度紧张,24小时不间断地工作。”那时,他们的实验室只有普通的桌椅,没有供人休息的地方,“大家困了就趴在桌子上睡一会儿,然后继续。”

为了兼顾博士阶段的学习,甘霖在北京和无锡期间频繁往返,最多的时候 “平均每周都要往返一次”。在北京与无锡之间的单程高铁需要五个小时,每次甘霖都会利用这段时间“工作”,他的毕业论文写作“四分之三都是高铁上完成的”,这种状态持续了两个多月。北京与无锡之间的1100多公里,见证了甘霖科研之路的汗水和成长。

2017年,“戈登·贝尔”奖的入围数量从去年的6个减到了3个,而甘霖共同领衔的“全球气候模式的高性能模拟”项目也成为了这三分之一。他和团队根据“神威·太湖之光”超级计算机的系统特点,设计了从进程到线程的一整套优化方案,实现了千万核规模下25公里分辨率的模拟和每天3.4模式年的计算性能。

在超算领域,气候应用是众多周知的“硬骨头”。在几十年的发展过程中,无数人以不同的风格、程序语言和实现过程“丰富”着由美国大气研究中心开源的气候模式,有些代码甚至没有注释。有时候为了弄懂其中大气、物理、化学等方向的公式,甘霖他们还需要向不同的专家请教。

“一边是全球最复杂的代码,一边是全球规模最大的机器——太湖之光”,二者结合后的难度可想而知。在准备决赛的日子里,他们每天面对着百万行的程序代码,有时为了精确定位和排除一个细微的程序错误,需要花费几天甚至是几周的时间。

在冲击“戈登·贝尔”奖的时,奖项评审委员会主席曾对甘霖表示,“他们很惊讶我们能踏踏实实地把像气候应用这样百万行代码体量的‘一座大山’搬到一台全新系统,去做这种项目。他说现在就缺少这种项目,因为大家都想在容易出成果的领域里,没有人愿意一步一步地搬‘大山’。”

“计算机+”

清华大学校长邱勇曾多次指出,创新是21世纪最重要的特征,推动学科交叉是获得高水平创新成果、培养拔尖创新人才的重要途径。跨学科交叉研究有多重要呢?有一项统计数据表明,在近100年的300多项诺贝尔自然科学奖中,有近半内容是跨学科交叉研究的成果。甘霖所在的团队便是由清华大学计算机教授杨广文和地学系教授付昊桓共同带领的跨学科团队,“千万核可扩展全球大气动力学全隐式模拟”和“非线性地震模拟”项目就是计算机与气候交叉的重要成果。

不同的学科往往意味着不同的研究语言与研究文化,要求参与者掌握多学科知识。由付昊恒主讲的必修课便是“先讲计算机,后面开始讲地学。”在研究方面,甘霖也曾面临着“讲计算机,学气候的人听不懂;讲气候,学计算机的人听不懂。因此需要团队成员不断‘充电’,将自己的成果更好地展示出来。”

引甘霖“入门”的付昊桓在本科、硕士、博士时学的计算机,却在攻读博士后期间偶然遇到了一位搞地学、计算机学交叉研究的老师,开始了地学研究。因为担心“带歪”自己的第一个学生,付昊桓对甘霖十分上心,手把手地带着甘霖做研究。“付老师和我一起加班,我熬夜做研究到凌晨三四点,他就一起熬夜帮我改。”在导师细心地指导下,30岁的甘霖已经逐渐成长为团队的中坚力量。

这个由年轻人组成的团队,氛围十分和谐,“杨老师和付老师跟我们在一起的时候很随和也很亲切,亦师亦友”。长期的共同奋斗、共同熬夜、一起冲刺“戈登·贝尔奖”和其它成果的经历,让这个团队拧成了一股绳,富有生机和创造力。

甘霖与杨广文教授(上)、付昊桓教授(下)合影

2018年11月30日,杨广文研究组和清华大学生命科学学院李雪明研究组、电子工程系沈渊研究组合作,在《自然•方法》(Nature•Methods)期刊在线发表题为《一种基于粒子滤波的鲁棒的冷冻电镜三维重构算法框架》(A particle-filter framework for robust cryoEM 3D reconstruction)的研究论文。为了获得一个更有效的算法和计算系统以满足未来高分辨率和大规模应用的需求,三方充分合作,利用清华大学生物学科和信息学科交叉的优势,将电子工程领域的粒子滤波算法引入到冷冻电镜的图像重构参数搜索中去,再基于神威·太湖之光等高性能平台的强大计算能力,发展出一套比现有算法更完善、更有效的贝叶斯统计推断算法。

这项工作是三个不同学科研究组交叉研究的阶段性成果,团队正在利用新型的统计推断和机器学习算法将这一工作扩展到对细胞或者细胞器结构的原子分辨率三维重构上去。未来的冷冻电镜技术将使人们不必再借助于复杂的生物化学手段来提取蛋白质,而是利用冷冻电镜直接在细胞中对包括蛋白质在内的生物大分子的原子结构和动态变化进行观察和分析,探索生命活动的本质原理,设计能够治愈疾病的药物,造福人类健康,这也正是一台超级计算机的重要使命之一。

付昊桓在很多采访中都回忆起获奖时“诚惶诚恐”地问评委“我们好在哪儿”:“评委说,我们解决了非常有价值的实际问题,地震问题和气候变化问题都是跟全人类相关的。最好的机器就应该解决最重大、最关键的问题。另外,我们有很多交叉合作,不仅是计算机学和地学的学科交叉,还有跨学校、跨国家的突破。最后,我们把世界第一计算力变成了价值。”

甘霖与“神威·太湖之光”

“我记得我们有个学生说过,清华的学生有这样的特点,不管多难,不管多么不可能,只要交给他一个deadline,然后让他去做就会做出成果。确实是这样,其实两个获奖项目启动时我们都觉得非常困难,后来结果也挺好的。反过来觉得我们国家也是,要想突破一些重大方向可能有困难,但只要我们花功夫可以去做,就可以实现,可以掌握核心技术。”甘霖说,“我个人作为一个超级计算领域的晚辈,是很仰望这些国之重器的,也希望能有更多的人才加入到国产超算中。”

采访结束后,甘霖又匆匆去赶到无锡的火车了。

人物名片

甘霖

甘霖,清华大学计算机系博士后研究员,担任由清华大学团队共同管理的国家超级计算无锡中心主任助理、研发中心主任一职。近年来,作为团队核心成员之一的甘霖基于“神威·太湖之光”超级计算机等全新计算平台,重点攻关新一代自主可控超算芯片的应用研发工作,取得了一系列世界领先的科研成果。

- END -

文字 | 张静 饶金辉

图片 | 受访者提供

编辑 | 阿豆

作者:张静 饶金辉

责任编辑:校媒

更多精彩,请下载 客户端