日前,在2021年国际大学生超算大赛总决赛中,由信息学院本科生组成的上科大代表队GeekPie_HPC在信息学院殷树教授的指导下,斩获了总成绩全球第二名,取得历史性突破。在入围总决赛的清华大学、北京大学、波士顿大学、佐治亚理工学院、克莱姆森大学等一众名校团队中,年轻的上科大GeekPie_HPC代表队是如何脱颖而出,名列前茅?让我们走进他们之中,了解他们的“成功秘诀”。
何为SC超算大赛
高性能计算大会-大学生超算大赛(SC Conference series- Student Cluster Competition,简称SC),是全球最具权威性、最有影响力的三大超算竞赛(SC超算大赛、ASC超算竞赛和ISC超算竞赛)之一。比赛需在限定计算费用前提下搭建虚拟计算系统,用48小时尽量多地完成给定的计算任务,并实现尽可能高的计算性能。今年,在总费用不超过1500美元限制下,每只队伍需在微软Azure云计算平台和甲骨文Oracle高性能计算平台上连续48小时完成各个赛题。刺激的赛制对学生的综合创新、研究和工程能力是极大的考验,同时对学生计算平台选型、计算架构选择和任务分配策略等统筹优化能力也提出了很高的要求。
上科大代表队沉着应对挑战,从系统结构设计、计算设备配置到赛题理解、算力分配,从实验操作、理论分析到结果展示、答辩和接受媒体采访,同学们表现出的综合实力不同反响。曹松晖和赵楚一负责的RamBle和杨易为负责的Quantum Expresso两个赛题获得了全场应用最高分,季宇辰负责的Cardioid应用获得全场第三名。同时,上科大以较低的资源开销实现高性能高效能计算,从计算理念上探索绿色高性能计算。
比赛当天的部分实时系统数据
比赛期间各队伍预算使用数据,上科大以较低的开销实现高性能高效能计算
他们是谁?
上海科技大学GeekPie_HPC SC21主力队员和主要参与成员合影
(左起:李冠呈,李泽城,杨易为,季宇辰,赵楚一,林弘扬,张厶元,秦斐然,井皓天,曹松晖,程家骏)
本次代表上海科技大学出征SC21超算大赛的选手是:
队长及学生教练杨易为,高中毕业于上海交通大学附属中学,负责统筹比赛全局,协调各成员之间的工作分工,同时动态调整QE赛题执行方案;
团队中唯一的女生赵楚一,高中毕业于襄阳市第五中学,负责协调评委面试和RamBle数据可视化;
季宇辰,高中毕业于上海南汇中学,负责Cardioid赛题;
曹松晖,高中毕业于山东师范大学附属中学,负责RamBle调试运行和IO500测试;
井皓天,高中毕业于西安铁一中滨河学校,负责运维工作;
张厶元,高中毕业于复旦大学附属中学青浦分校,负责Benchmark和神秘应用;
李冠呈,高中毕业于山东省实验中学,全程待命应对突发情况。
他们在队伍中各司其职,通力合作, 缺一不可。
脱颖而出的“秘诀”
稳扎稳打,厚积薄发。GeekPie_HPC作为GeekPie学生社团最年轻的分支之一,成立于2017年,至今已经三战SC超算大赛,年年有突破。成绩的背后是团队成员自发的常态化练习、研讨与测试。尤其是在备战期,团队成员要应对专业课程与训练时间的冲突,利用课余时间进行测试和训练,这对团队的凝聚力和抗压能力都是极大的挑战。
“好在我们不是孤军奋战,学校鼓励我们参与各类学生赛事,GeekPie社团的活动室是我们温馨静谧的备战基地。”队长杨易为介绍说,“学院的老师响应了我们很多理论和实践指导的请求,并协助我们理清思路、推动团队不断前进;图信中心的工程师老师解答了我们运维技术方面的疑惑并提供了训练平台的支持。”
学校的硬核课程为团队参加比赛打下了坚实的基础。张厶元提到今年的神秘应用题CosmicTagger是结合并行计算和机器学习应用。“题目不仅需要HPC有关的知识,还需要机器学习有关的知识,尤其是如何有效调动众多GPU资源。”
“大赛的实践经验也非常重要。”曹松晖表示,“我们要根据大赛临场释放的数据集,尽快预估时间和预算安排,需要在备赛过程中提前熟悉各赛题的运行特性。” 基于去年的经验,他们对所有不确定项都引入了至少一个备份计划,保障了比赛的顺利发挥。
齐心协力,互为支持。一个团队的默契程度往往会决定一场比赛的成败。GeekPie_HPC是一支经过时间磨合、彼此信任的团队。他们各司其职,又互相配合。赵楚一在回顾比赛时说,“备赛期间队长每周举行一次简报会,促进了队友的充分沟通和各题的备赛进度。主力队员都有参赛经验,这次引入环境配置和IT支持保障机制,所以比赛时总体上比较顺利。”
季宇辰提及,今年的赛制出现了新的变化。“我负责的Cardioid赛题改为在Oracle超算平台的裸金属服务器上运行。与Azure平台的弹性分配不同,Oracle平台为每支队伍提供给定的硬件资源,这更加贴近传统的HPC使用场景,给我带来了既熟悉又陌生的体验。”他说,“也正是由于Cardioid不用在Azure上运行,队友能够针对其他应用对Azure的CycleCloud平台进行充分地研究,并制定了更加有效的调度与运维方案,大大提高了Azure资源的使用效率,为我们拿到好成绩奠定了基础。”
回顾比赛的收获时,大家坦言虽然有遗憾,但是受益匪浅。程家骏表示:“我从IO500赛题入手熟悉超算系统,第一次感受到了操作系统和计算机系统结构的基础知识在前沿应用的体现。这次参与超算竞赛的经历让我踏入了一个广袤的新领域,感谢带领我入门的学长们和老师,期待明年作为主力参赛。”李冠呈也表示,“在备赛以及大赛参与过程中,作为队伍的替补力量,我不仅加深了对于超算各个层面的理解,也加强了实践响应能力。”“还要感谢同伴们的支持和合作。”井皓天说,“比赛中大家一起齐心协力,冷静应对各种突发情况,让我感受到了团队的力量,这将是我本科生涯中最难忘的经历之一。”
技术保障,坚强后盾。突破性的成绩背后离不开指导教师的悉心指导与学校图书信息中心工程师团队的支持保障。信息学院依托计算机系统与安全中心教授团队,联合GeekPie_HPC社团学生教练团队和图信中心资深工程师团队,为参赛队提供了赛题指导和赛事支持。李泽城介绍说:“指导老师专门邀请了相关方向的专家为我们辅导,指导主力队员制定对策,并通过亲历实战的方式让我们提前为明年的比赛做好准备。”
信息学院高性能实验平台和学校高性能计算共享服务平台联合为参赛队的日常训练和备赛提供了坚实的高性能算力和运维保障。图信中心在大赛期间提供了基于兆芯国产计算平台的云桌面实训教室场地和实时直播平台,并发挥“小核心、大网络”的优势,调动图信中心工程师团队和来自不同院所的高性能计算助管团队,共同为GeekPie_HPC代表队提供了全方位的高性能计算技术保障和媒体支持。