作者:Arm物联网事部业务拓展副总裁 马健
当下,我们正处在激动人心的人工智能(AI)技术变革初期阶段。随着自然语言、多模态大模型以及生成式AI技术的加速演进,AI正以比较罕见的速度重塑各行各业。根据IDC的预测,全球数据量将从2024年的159.2ZB增长到2028年的超过384.6ZB,年复合增长率达24.4%。其中,到2028年,预计37%的数据将会在云端直接产生,而其余数据会从边缘端和终端直接产生。
面对边缘数据的激增,有效的数据处理、低延迟传输以及智能、安全的存储正成为行业关注的重点。未来的计算架构不仅要提供更强的算力,还必须更紧密地与存储系统结合,以确保AI模型能够有效运行,同时优化数据管理和访问方式。
从目前的AI技术发展方向来看,一方面,大模型正向通用人工智能(AGI)演进,探索多模态、物理AI等新方向,并持续挑战算力的新极限。另一方面,为推进大模型全面部署的进程,行业开始迈向深度优化和垂直领域定制化,使大模型能走入千行百业,适应移动端、边缘计算、云端部署等不同场景。
DeepSeek的推出对全球AI市场产生了深远影响:作为一种开放的创新技术,它不仅展示了AI在训练与推理过程中的优化潜力,还极大提高了大规模部署的效率,充分证明了模型能够在更低成本、更有效能的环境中稳定运行。这一成就对于推动AI在企业级应用和边缘计算领域的大规模应用具有重要意义。
Arm计算平台:持续促进从云到端的AI优化部署
在AI发展的初期阶段,数据中心作为模型训练和初期推理的核心场所,正面临着比较罕见的挑战。传统的标准通用芯片在处理计算密集型的AI工作负载时显得力不从心,无法满足AI时代对于高性能、低功耗以及灵活扩展性的迫切需求。在此背景下,Arm计算平台凭借其先进的技术优势,为新一代AI云基础设施的发展开辟了新的范式。从Arm Neoverse计算子系统(CSS)、Arm Total Design生态项目到芯粒系统架构(CSA),Arm进行了从技术到生态的整体化布局,不仅为AI数据中心的工作负载提供了有效、灵活且可扩展的解决方案,还帮助合作伙伴专注于产品差异化,为产品上市进程提速。
AI推理是AI释放价值的关键,它正迅速从云端拓展至边缘端,覆盖世界的每一个角落。在边缘AI领域,Arm凭借其技术与生态的独特优势,不断创新,确保智能物联网与消费电子生态系统能在恰当的时机、于最适合的地点执行特出工作负载。
为了满足边缘AI日益攀升的AI工作负载需求,Arm近期发布了以全新Armv9超高能效CPU Cortex-A320以及对Transformer网络具有原生支持的Ethos-U85 AI加速器为核心的边缘AI计算平台。该平台实现了CPU与AI加速器的深度集成。相比去年以Cortex-M85搭配Ethos-U85的平台提升了八倍的机器学习(ML)计算性能,带来了显著的AI计算能力突破,可赋能边缘AI设备轻松运行超过10亿参数的大模型。
图:Arm边缘AI计算平台支持运行超10亿参数的端侧AI模型
其中,全新发布的超高能效Cortex-A320不仅可以为Ethos-U85提供更高的内存容量与带宽,让大模型在Ethos-U85上的执行如虎添翼,还支持更大的可寻址内存空间,并能够更灵活地管理多层次内存访问延迟。Cortex-A320与Ethos-U85的组合,是运行大模型及应对边缘AI任务所带来的内存容量及带宽挑战的理想选择。
此外,Cortex-A320还充分利用了Armv9增强的AI计算特性以及包括Secure EL2、指针验证/分支目标识别(PACBTI)以及内存标记扩展(MTE)等在内的安全特性。此前,这些特性已经在其他市场得到广泛应用,而Arm现在将其引入了物联网与边缘AI计算领域,在提供出色且灵活AI性能的同时,实现对软件负载更好的隔离与软件内存异常的防护,提高整体系统安全性。
AI时代的存储发展:存储、计算和安全能力的全面升级
随着AI计算需求的持续增长,云边端在对计算能力提出更高要求的同时,也对存储系统的性能、密度、实时性和功耗等方面提出了更严苛的要求。在传统模式下,计算架构往往将存储和计算相对分离,存储设备仅仅承担数据存放的角色,数据需要在存储与计算节点之间频繁搬移,导致“存储-计算”之间的瓶颈。然而在AI时代,为满足数据实时分析、智能管理及有效访问等需求,将存储置于离计算单元更近的地方,或让存储本身具备计算能力,变得尤为关键。这样能够确保AI任务在最合适的位置得到有效执行。
从云到端的AI计算,对存储吞吐量、延迟、能耗、安全以及诸如Open Channel等提升主机可管理性(host manageability)的需求都不尽相同。存储控制器以及运行在存储控制器中Arm CPU上的固件在支持差异化AI存储需求中起到了极其重要的作用。
图:Arm丰富的IP平台解决方案为AI存储提供领先的性能及能效
事实上,作为数据存储与网络控制的基石,Arm一直在为全球存储控制器和设备提供高性能、低功耗、安全可靠的解决方案,其中包括:
·Arm Cortex-R系列实时处理器拥有最快的中断延时和实时反应速度,被广泛应用于诸多存储设备;
·Arm Cortex-M系列嵌入式处理器是后端闪存和媒体控制的热门选择,并支持自定义指令,客户可以针对独特NAND介质的深度优化来创造差异;
·Arm Cortex-A系列应用处理器以高吞吐量流水线设计、支持比较高处理性能,同时拥有ML、数据处理软件和丰富操作系统的坚实生态支持;
·Arm Ethos-U AI加速器支持每秒2048MACs的Transformer原生加速,可以助力存储控制器本身变得更智能;
·此外,还有为数据中心量身定制的Neoverse。我们已开始看到CXL(Compute Express Link)方面的创新设计采用Arm Coherent Mesh Network (CMN)与Neoverse组合实现可“组成式”内存扩展,并融入近存储计算的理念,减少数据搬运。
生态携手,构建AI计算与存储未来
在专注提供领先的技术和产品的同时,Arm还致力于和生态系统合作伙伴携手共进,共同推动存储产业的发展。基于Arm架构的平台正被行业领先的存储企业广泛采用,以优化其存储解决方案。例如,Solidigm公司比较新发布的122TB PCIe SSD Solidigm™ D5-P5336显著提升了AI数据中心的能效、存储密度和性能,其存储控制器采用Arm Cortex-R CPU,有效提升了读写的实时性和延时确定性;慧荣科技(Silicon Motion)面向AI PC的SM2508主控芯片采用了Arm Cortex-R8与Cortex-M0,在能效和数据吞吐上实现了突破,其SM2264XT-AT是业界新款车用PCIe Gen4主控芯片,通过增强的虚拟化来支持混合关键性工作负载对数据的访问,并可节省30%的能耗;江波龙基于Arm Cortex-R CPU打造的XP2300、ORCA 4836以及UNCIA 3836固态硬盘,凭借其大容量与高性能的优势,广泛应用于AI PC、服务器、云计算、分布式存储及边缘计算等多个应用场景,满足AI技术的本地化部署需求。
此外,在本土存储市场,大普微、联芸科技、忆芯科技、特纳飞、得一微电子、英韧科技等领先的存储企业,也都广泛采用Arm技术打造SSD主控芯片与设备方案。
迄今为止,基于Arm架构和平台所应用的存储设备已近200亿台,其中包括云和企业级SSD、车载SSD、消费级SSD、硬盘驱动器和嵌入式闪存设备。目前,由Arm技术赋能的存储设备持续保持在每日大约300万台的出货量。
凭借前沿的技术实力、丰富的生态布局、深厚的存储行业积累,Arm正继续引领技术创新,赋能AI时代的计算与存储发展。Arm也将继续与合作伙伴携手,通过安全、有效的Arm计算平台,构建AI时代计算与存储的新未来。