芯东西(公众号:aichip001)
文 | 温淑
芯东西11月4日消息,就在刚刚,面向中国的2020 Arm DevSummit大会正式开幕。作为全球第一大芯片IP供应商Arm发起的年度盛会,本届大会以线上方式举办,以便数千位软硬件工程师、开发者能够突破地域限制进行交流。
在开幕演讲中,Arm CEO Simon Segars以视频方式进行致辞;随后三位阿里巴巴技术大牛组成“天团”,分享阿里巴巴基于Arm指令集,实现软件驱动云优化的实战经验。
Simon在致辞中强调,2020是充满挑战的一年,但同时滋生出许多韧性和想象力。比如,基于Arm生态系统的超级计算机“富岳”正被用于研究新冠病毒如何传播的模型。Simon表示,相信各方通过合作,我们能够共同克服困难,并最终惠及众生。
有关阿里巴巴首席工程师周经森、高级技术专家郭健美、云程序语言与编译器团队负责人李三红这3位阿里巴巴技术高管分享的精彩内容,请随我一文看尽。
一、阿里技术天团:软件优化是系统性能提升的重点周经森担任阿里巴巴智能基础产品事业部首席工程师,负责推动数据中心的软件性能优化。他指出,当运营一个大规模服务器集群时,即使节约的服务器数量只占很小的百分比,也会带来可观收益,而让性能提升的关键,在于实现软件的优化。
他以阿里巴巴应对双十一为例:网络流量逐年攀升的前提下,对机器数量的需求水涨船高,比如,2019年双十一的流量是38.4亿美元,相比2018年增加了27%,但如果每年都增加机器数量,从商业和能源角度来说会造成浪费。
面对这一现状,提升软件性能成为另一个“解题思路”。出于此,阿里巴巴推出基于Arm指令集的软硬件协同优化系统SPEED,以实现软硬件的协同优化。
阿里巴巴高级技术专家郭健美介绍了SPEED系统实现软硬件协同优化的思路。
他指出,在大型机房中实现软硬件性能优化的难点在于两点:
1、各个部门、业务方往往仅能专注于自己的业务,很难关注全局。这时候就需要用简单的、可复现的基准分析来帮助分析全局。
2、基准分析时固化的配置条件可能仅适用于小范围,与实际应用时并不相同。
考虑到这两点,SPEED系统设计时主要遵循两个思路:
1、在小规模配置时候,考虑多种场景。比如,让SPEC CPU去跑多种不同的模型。
2、SPEED关注的核心问题是基础配置,以及基础配置能否扩展到集成多种软硬件的数据中心中。
二、SPEED:运行四大关键步骤接下来,郭健美分享了SPEED系统运行时的四大关键步骤:
1、Estimation(判断):在这一过程中,SPEED系统会了解数据中心发生了什么,并完成业务画像。
2、Evaluation(评估):完成“判断”后,SPEED系统会评估究竟从哪里去做优化和做软硬件升级,并通过对小规模的服务器进行优化,进而评估优化措施是否可以大范围推广。
3、Decision(决策):数据中心中集成了大量软硬件,这一流程需要SPEED系统以“集群”的视角,权衡各种因素,去做优先级别的排序,确定规模化优化中最重要的部分是什么。
4、Validation(验证):这是一套“集群”层面的评估、分析方法,用以获取前述软硬件优化手段取得的结果,并验证是否实现了预设的效果。
这四大步骤也是SPEED全称(System Performance Estimation,Evaluation and Decision)的由来。
郭健美同时指出,在SPEED系统运行过程中,要实现系统对监控、传输、软硬件更新换代的各方面需求,还需要每台机器加装监控端,用于获取数据。
另外,SPEED系统会加装三个引擎,分别用于数据集成、分析、服务。最终,软硬件优化结果会以UI界面向用户呈现。
据阿里云程序语言与编译器团队负责人李三红分享,为实现上述所有功能,阿里巴巴团队会根据业务场景,利用JAVA知识进行优化。
三、SPEED系统三大特点郭健美同时分享了SPEED系统运行时的三大特点,分别是无侵入性部署、软硬件集成、领域知识和AI结合。
1、无侵入性部署
现有的大部分解决方案,要求每台服务器搭载很多监控端,数据上传和存储过程会消耗大量算力。
而SPEED系统则利用海量的、现有的监控数据,不采集新数据。这样一方面解放了服务器算力,另一方面降低了客户在服务器、监控端上投入的成本,以及对客户设备的侵入性。
2、软硬件集成
软件部分的集成重在“理解”系统的性能,因此,SPEED系统从“业务视角”出发,为自身智能化能力较缺乏的客户赋能,关注业务本身是否受到影响。
此外,硬件方面,SPEED系统从“未来视角”出发,关注硬件系统的升级趋势。
3、领域知识和AI的结合
目前,各类数据趋于海量,因此系统部署中要不可避免要用到AI知识。针对AI应用中有时准确率不高的问题,SPEED系统融合领域知识,以推出足够可靠的预测结果,进而保证软硬件优化措施的落地结果。
结语:全球软硬件开发者的盛会今年,Arm年度技术论坛(Arm TechCon)首次更名为Arm DevSummit,并将参会方式由线下转为线上。除了举办方式的差异,本届大会时长由往年的一天延长为两天,容纳了更多的分享内容。
通过大会首日阿里巴巴三位技术高管的分享,可以了解阿里团队应对海量数据、算力需求增长等问题的解题思路。接下来的议程中,Arm DevSummit或将带来更多精彩内容。