电子数码
亚马逊宣布Amazon Elastic Compute Cloud(EC2)P5实例正式可用
2023-08-01 09:20  点击:38
  最近,亚马逊云科技在纽约峰会上宣布Amazon Elastic Compute Cloud(EC2)P5实例正式可用。

  这是nvidia最新的h100 tensor core gpu支持的新一代gpu实例,满足客户在运行人工智能、机器学习和高性能计算负载时的高性能和可扩展性需求。amazon ec2 p5实例与以前基于gpu的实例相比,可以将训练时间从几天缩短到几个小时,缩短6倍,最多可以节省40%的训练费用。

  亚马逊ec2 p5实例提供8个nvidia的h100天核心gpu、640 gb的高带宽gpu内存、第三代amd epyc处理器、2tb系统内存和30tb本地nvme内存。此外,amazon ec2 p5实例提供3200gbps的聚合网络带宽,支持gpudirect rdma传输绕过cpu的节点间通信,提供更低的延时和更高的横向扩展。
 
  今年3月,亚马逊云科技和英伟达宣布多边合作,以训练日益复杂的大规模语言模式,开发生成的ai应用软件,构建世界上最可扩展性的付费人工智能基础设施。
当时,亚马逊云提前发布了nvidia h100 ten core gpu支持的亚马逊ec2 p5实例,建立并训练了大规模的机器学习模型,提供最多20 exaflops的性能。亚马逊云(amazon cloud)与英伟达(envidia)的合作在十多年间取得了许多成果,并提供了多种gpu案例,支持视觉计算、人工智能和高性能计算集群。例如,cg1实例(2010年)、g2(2013年)、p2(2016年)、p3(2017年)、g3(2017年)、p3dn(2018年)、g4(2019年)、p4(2020年)、g5(2021年)、p4de(2022年)。
 
  目前,机器学习模型的规模已经达到数万个参数,这种复杂性大大增加了顾客训练模型所需的时间。例如,最新大型语言模型的训练时间长达几个月。在高性能计算领域也出现了类似的趋势。随着高性能计算使客户的数据收集更加准确,数据集达到eb水平,客户正在寻找更快解决日益复杂的应用程序的方法。
 
  亚马逊ec2 p5实例越来越复杂的巨大的语言模式和训练计算机视觉模式,实行适于、答辩、代码生成、视频及图像生成、语音识别等ai最繁琐的计算密集型生成满足应用程序的要求。与之前基于gpu的实例相比,amazon ec2 p5实例对这些应用程序的训练时间缩短了6倍。像使用变形金刚框架的语言模型一样,在工作负载中可以使用精度较低的fp8数据类型的用户,可通过nviia的变形金刚引擎支援,最大提高6倍的性能。
 
  高性能计算客户可以使用amazon ec2 p5实例在药物发现、地震分析、天气预报和金融建模等领域大规模发布高费用应用程序。此外,amazon ec2 p5支持使用动态程序(dynamic programming)应用程序的客户使用新的dpx指令集来加速基因组测序和数据分析。
 
  通过amazon ec2 p5实例,客户可以探索以前看似不可能解决的问题,提供更快的重复解决方案,并加快进入市场的速度。
发表评论
0评
推荐阅读