2023年6月28日,在“2023亚马逊云科技中国峰会”上,亚马逊云科技大中华区产品部总经理陈晓建带来了主题演讲,全面阐述了针对当前AI创新风潮所带来的算力资源需求爆发,以及中国企业创新出海的“全球化”需求,亚马逊云科技是如何提供强劲助力的。

今天的世界面临着前所未有的挑战,只有专注创新才能创造更多的增长机会。云服务是支持数字创新的关键生产力,作为云服务领导者的亚马逊云科技一直专注于基础设施服务的持续创新,赋能用户业务发展。

亚马逊云科技提供了广泛和深入的基础架构的服务,通过丰富的服务和功能,可以让客户摆脱基础架构的束缚,有效应对由于AI创新技术、由于全球业务扩张所带来的IT压力,继而专注于创新。


【资料图】

亚马逊云科技大中华区产品部总经理陈晓建在演讲中说到,面对算力的需求井喷所带来挑战,我们通过自研芯片提供更好的性价比,通过各种丰富的计算、网络、存储等各种产品的组合应对突发的算力需求,通过Serverless有效降低运维的复杂性,从而简化算力的使用,全面满足用户的多样化的算力需求。”

“对于全球布局,亚马逊云科技提供从中心到边缘的多种产品的解决方案,包括覆盖全球的基础架构,以及快速部署稳定系统的能力,还有全面支持全球各个国家和地区业务合规能力,这些都能够成为用户创造坚实底层架构的基石。”

·全面和深入的基础设施能力

针对算力需求紧缺,亚马逊云科技为用户提供全面和深入的算力支持,提供包括Intel、AMD、英伟达和自研的CPU及加速芯片产品。

以Nitro为例,这是亚马逊云科技的第一款自研芯片产品,截止今天已经迭代了第五代。Nitro实现了非常轻量级的虚拟化。业界常看到的虚拟化损耗通常在20-30%之间,Nitro通过硬件虚拟化,整个性能损耗不到1%。另外它实现了网络和存储在硬件级别的隔离机制,并且在硬件层面实现了硬件的加密,提高了用户数据的安全性。

有了Nitro芯片之后可以大大增强EC2实例应用的安全性,并且降低推出新实例的复杂性,这也是2017年以来,虽然整个EC2实例越来越复杂,但亚马逊云科技推出新实例的速度却越来越快了。

基于ARM架构的通用处理器芯片Graviton也是亚马逊自研芯片中的明星产品。Graviton 3相比之前的Graviton 2计算性能提高多达25%,浮点性能提高多达2倍,加密工作负载性能最多快2倍。去年新推出的Graviton 3E更加关注向量计算性能,这项性能指标对于高性能计算HPC来说是非常重要的。

与Graviton 3相比,Graviton 3E在HPL(线性代数的测量工具)上的性能提升高达35%,在GROMACS(分子运动)上性能提升12%,在金融期权定价的工作负载上性能提升30%,和类似X86的EC2实例相比,整个功耗可以降低60%。

F1一级方程式赛车就使用了Graviton来运行空气动力学的模拟,用比以往快70%的速度开发新一代赛车,打造出一款能将下压力损失从50%降低到15%的赛车。下压力的大幅降低为车手提供了更高的超车机会,同时也给车迷带来了更多精彩的赛道缠斗。

针对应用越来越广泛的机器学习,亚马逊面向训练和推理这两个主要场景已经推出了三代不同的机器学习芯片。2019年推出了第一代用于机器学习的推理芯片Inferentia,所对应的实例Inf1和同样基于通用GPU的EC2实例相比,带来了70%的成本降低,获得了广泛的应用。2022年推出的第二代推理芯片Inferentia 2进一步提升了4倍吞吐量,延迟只是之前的1/10,通过优化,第二代Inferentia可以大规模部署复杂的模型,例如大型语言模型和Diffusion类模型。并且,Inferentia在设计的时候就考虑到了吞吐率和延迟的优化平衡,使得用户两者可以兼得。

针对训练场景,亚马逊云科技推出了加速芯片Trainium,以HuggingFace BERT模型为例,基于Trainium的Trn1实例和通用的GPU实例对比,单节点的吞吐率可以提升1.2倍,而多节点集群的吞吐率可以提升1.5倍,从成本考虑,单节点成本可以降低1.8倍,集群成本更是降低了2.3倍。

许多复杂的模型需要分布式的大规模集群算力,通过Trainium可以构建一个EC2 UltraCluster超大集群,通过由3万张Trainium芯片构成的超大集群,用户可以获得云上6 ExaFlops的训练能力。

·高度弹性的计算资源

由于AI创新带来的算力资源需求的井喷,除了对突发算力的需要,还有另外一个重要的特点,那就是很多客户并不知道在什么时候需要多少计算资源,他们需要更弹性、更具灵活性的解决方案。

亚马逊云科技提供600多种不同的计算实例,从处理器、网络、存储到各种周边的服务能够跟计算很好地结合,以搭积木的方式构建出一个丰富灵活的计算实例资源,满足多种不同算力的要求。

如今的数据规模已经达到PB量级,数据存储类型也是多种多样的,热、温、冷、冻等不同类型的数据存储成本、性能也会有很大的差别,如何在存储成本和性能之间取得平衡非常重要。现在也很难只用一种服务就可以满足不同数据类型对存储的要求,因此亚马逊云科技提供的对象存储Amazon S3的方案多达8种存储级别,无论是高性能计算、机器学习,还是通用计算都可以找到最适合自己的存储级别。

以全球领先的综合性视觉效果公司Weta Digital维塔数码为例,他们在10多年前开发《阿凡达》的时候选择了自建机房,用到了4000台物理服务器,共有 35000 个处理器核心,是一个规模相当大的计算机集群,尽管如此,当时他们花了整整14个月才看到影片的第一帧。

而到了《阿凡达2》的时候,亚马逊云科技为维塔数码提供了各种从算力资源到云上制作的堆栈,机器学习堆栈等一系列的服务,维塔数码使用了大量计算实例、GPU实例、SPOT竞价实例等,提供了非常强的伸缩性以及很好的性价比。得益于此,在《阿凡达2》项目中,8个月的时间里,他们已经运行了33亿个线程小时。

·Serverless降低云的使用门槛

很多客户还希望使用云服务的门槛尽可能的低,以降低云运维的复杂性,亚马逊云科技也为客户提供了相应的服务——Serverless。

自从2014年发布Lambda以来,亚马逊云科技已经相继发布了众多Serverless新技术,包括:解决Java应用冷启动的问题的Amazon Lambda SnapStart,可视化编辑器Amazon Application Composer等。用户可以根据他们自己的应用类型来灵活选择不同颗粒度的产品。

由Second Dinner开发的《MARVEL SNAP》是一款基于漫威IP的数字卡牌游戏,拥有全球超过数百万的客户。Second Dinner全面采用了亚马逊云科技的Serverless架构来开发、构建和运行该游戏,整个游戏没有使用任何一台EC2计算实例或容器,完全由事件驱动架构实现,这不仅帮助用户节省了成本,加快了应用开发速度,也减少了安全方面隐患。

完全托管的Serverless使得开发者可以专注于业务开发,而不是基础设施的运维,也让系统能很容易的实现快速伸缩。Marvel Snap的开发人员在系统非常早期的测试的时候,在还没有上线的时候通过Serverless已经实现了每分钟14万请求的压力测试,这个在云主机的时代是很难实现的,使用Serverless完全不用关注整个后台架构的伸缩。

通过全栈数据服务的Serverless化,亚马逊云科技开启了Serverless的新时代,让客户无需预置或管理基础设施,就可以运行几乎任何类型的应用程序,帮助客户最大限度减轻运维工作,增加业务敏捷性。

·全球布局 无处不在的云服务

企业出海自然就需要全球化的布局,很多企业的战略中有一些通用的需求,需要有全球无处不在的云服务,需要快速部署的高效能力,也需要能够符合全球各国、各地区的合法合规要求。目前亚马逊云科技在全球拥有31个区域,99个可用区,已经覆盖了245个国家和地区,目前仍在持续拓展全球的基础设施,在这些可用区背后是亚马逊云科技所构建的骨干网,这个全球骨干网是有史以来最大规模的专门构建的骨干网之一。

亚马逊云科技CTO Werner Vogels说过一句话,“Everything fails, all the time”。所有的功能模块都有可能出现故障,我们不能完全避免故障的发生,但亚马逊云科技通过种种努力,将风险降到最低,包括:

1)区域隔离,多可用区设计:每个区域都会有多个可用区,任何单一可用区的故障不会影响到其他可用区的业务,最大限度降低服务的中断。

2)控制面和数据面解耦:更多地依靠数据面来保持服务运行、降低对控制面的依赖,能够提高整体稳定性。

3)蜂窝架构:把系统分割成多个微小的、单一的、相互之间隔离的蜂窝状单元,能够在问题出现时降低爆炸半径,通过爆炸半径能够把故障控制在一个单元以内。

4)随机分片:是对蜂窝架构的进一步优化。它把客户的访问随机分配到不同的单元中,说单个单元的故障并不会对整个系统造成影响,还是可以通过其他的单元完成。

5)服务责任模型:通过明确定义亚马逊云科技与客户责任区间的方式,保障客户在应用的任何阶段都能享有对所写代码和程序的控制权。

6)运营就绪审查:通过对亚马逊云科技大量运营案例进行分析,对过往的问题进行复盘,从而用户在整个部署的时候能够避免重现他们之前所发生的问题。

7)安全的持续部署:可以最大限度减少因错误部署而对生产造成的影响。

8)COE纠错流程:了解问题所发生时候的系统状态,以防止类似的错误再次发生。

·支持全球多个地区的业务合规能力

企业在全球布局中还面临最后一个需求,也是最重要的需求:合规。亚马逊云科技几乎满足全球所有监管机构的合规性要求,支持143项安全标准与合规认证。拥有超过300种安全合规服务,帮助各行各业的客户能够更方便的搭建满足全球各地安全和合规要求的架构。

以隐私保护为例,ISO/IEC 27018:2019是针对保护云中个人数据安全的行为准则。亚马逊云科技遵从这一国际公认的行为准则,并经过独立的第三方进行了评估,这证明亚马逊云科技具备适当的控制体系,专门处理内容隐私保护。

此外,CISPE是第一个符合欧盟通用数据保护条例 (GDPR) 第 40 条的面向云基础设施服务提供商的泛欧洲数据保护行为准则。亚马逊云科技有50多项服务符合CISPE的准则,还有云原生敏感数据保护解决方案,帮助用户能够更好地发现和管理在亚马逊云科技上面的敏感数据,从而满足个人数据保护法的要求。

安全是实现合规的一种方式,亚马逊云科技也一直在高度致力于建设各种高度安全的云计算环境,拥有超过300种安全合规和治理服务,帮助各行各业的客户能够更方便地搭建满足全球各地安全和合规要求的架构。

关键词: