EN

世界杯赛程

世界杯赛程

2026世界杯官网入口 更好的硬件何如将零值形成AI加速引擎:寥落筹画让AI更轻量、更高效

发布日期:2026-05-09 21:13 来源:未知 作者:admin 浏览次数:

在AI模子鸿沟,限度至关病笃。

尽管部分AI群众告诫称,握续扩大大言语模子的限度正在遇到性能收益递减的瓶颈,各大公司仍在束缚推出体量更大的AI器具。Meta最新发布的Llama模子领有高达2万亿个参数。

跟着模子限度的扩大,其能力也在增强,但随之而来的是更高的能耗需乞降更长的运行时辰,进而加重了碳排放问题。为了缓解这些问题,业界开动转向限度较小、能力相对有限的模子,并尽可能接收低精度数值来暗示模子参数。

可是,还有另一条旅途,有望在保留超大模子高性能的同期,镌汰运行时辰、降粗劣耗。这一规律的中枢,等于充分诓骗大型AI模子里面大都存在的零值。

关于很多模子而言,大多数参数——包括权重和激活值——本色上都是零,或者相等接近于零,皆备不错在不耗损精度的前提下将其视为零科罚。这种特质被称为寥落性。寥落性为省俭筹画资源提供了宽敞契机:与其销耗时辰和能量对零进行加法或乘法运算,不如平直跳过这些筹画;与其在内存中存储大都零值,不如只保存非零参数。

缺憾的是,刻下主流硬件(如多核CPU和GPU)并弗成自然充分诓骗寥落性。要实在流露寥落性的上风,计划东说念主员和工程师需要再行想考并重构通盘设计架构,涵盖硬件、底层固件和应用软件各个层面。

在斯坦福大学的计划团队中,咱们诱骗出了(据咱们所知)首款大致高效科罚各种寥落和传统责任负载的硬件芯片。在不同责任负载下,能耗省俭幅度各异显耀,但平均而言,咱们的芯片能耗仅为CPU的七十分之一,筹画速率平均擢升至CPU的八倍。为闭幕这一观点,咱们从底层开动,对硬件、固件和软件进行了全面的针对寥落性的工程设计。咱们但愿这只是硬件与模子协同发展的早先,最终闭幕更高能效的AI。

数组与寥落暗示

神经网罗过甚输入数据以数字数组的神态暗示,这些数组不错是一维(向量)、二维(矩阵)或更高维度(张量)。寥落向量、矩阵或张量中大多数元素为零。寥落进度因情况而异,但当零值占比超越50%时,就不错从挑升针对寥落性的筹画规律中获益。与之相对的是"密集"对象——即零值数目相关于元素总额较少的情况。

寥落性不错自然存在,也不错通过东说念主工方式引入。举例,应酬网罗图自然等于寥落的。设计一个图,其中每个节点代表一个东说念主,每条边代表一段友谊相关。由于大多数东说念主彼此并不分解,暗示通盘可能集结相关的矩阵中绝大多数元素都是零。其他AI应用场景,如图学习和推选模子,一样存在自然的寥落性。

无为情况下,一个4×4的矩阵无论包含几许个零值,在内存中都会占用16个存储空间。若矩阵是寥落的,即大都元素为零,则不错更高效地用"纤维树"结构暗示:最初是包含非零元素地方行坐标的"纤维",集结至包含非零元素列坐标的纤维,最终连气儿到对应的非零值自身。在筹画机内存中存储纤维树时,每条纤维的端点(即"段")会与坐标和数值一同保存。

除自然存在的寥落性外,还不错通过多种方式在AI模子中主动引入寥落性。两年前,Cerebras的计划团队讲授,不错将大言语模子中多达70%至80%的参数缔造为零,而不耗损任何精度。Cerebras在Meta开源的Llama 7B模子上考据了这一论断,计划想路一样适用于ChatGPT、Claude等其他大言语模子。

寥落筹画的上风

寥落筹画的高效性源于两个基本特质:压缩零值的能力,以及零的极端数学性质。寥落筹画算法和专用硬件都充分诓骗了这两个中枢想路。

最初,寥落数据不错被压缩,从而以"寥落数据类型"的神态更省俭内存地进行存储。压缩还能在科罚大都数据时遏抑数据传输的能耗。以一个包含三个非零元素的4×4矩阵为例:传统方式会将其齐全存储,占用16个内存空间;而压缩为寥落数据类型后,百家乐2026世界杯中国官方下载只需保留非零元素,仅占用3个存储空间,相较于原本的16个大幅省俭。跟着寥落进度和矩阵限度的增大,这种省俭效果将更加显耀。

除本色数据值外,压缩数据还需要存储元数据,即非零元素的行诸君置信息。这无为以"纤维树"的方式抒发:列出包含非零元素的行标签,并与对应的列标签相接,进而连气儿到存储在这些位置的数值。

在内存层面,情况更加复杂:每个非零值的行列标签,以及记号标签数目的"段"信息,都需要一并存储,以便明晰差异元数据和本色数据。

在密集、未压缩的矩阵数据类型中,不错一一或并行拜访数值,且其位置可通过简便公式平直筹画。但在寥落压缩数据中,拜访数值需要先查找行索引坐标,再"曲折"查找列索引坐标,最终才能定位到观点值。由于寥落数据的位置具有立时性,这些曲折查找操作可能极为立时,导致筹画经过依赖于数据自身,并需要动态分拨内存拜访。

其次,零的两个数学特质使软件和硬件不错大都跳过筹画:任何数乘以零等于零,因此无需本色实行乘法;任何数加零等于其自身,因此加法也不错平直跳过。

在矩阵-向量乘法这一AI最常见的运算中,除触及两个非零元素的筹画以外,其余筹画均可跳过。往时述4×4矩阵与一个四元素向量的乘法为例:在密集筹画中,需要16次乘法和16次加法;而在寥落筹画中,只需科罚向量中的非零元素,FIFA世界杯官方合作指定网站通过曲折查找定位矩阵中对应的非零元素,仅对这部分进行乘加运算——在示例中,只需实行两次乘法,而非16次。

现存硬件的局限

缺憾的是,当代硬件并不擅长加速寥落筹画。以矩阵-向量乘法为例,在单核CPU中,向量中的每个元素需一一相乘后写入内存,遵循低下。因此,本色使用中通常借助复旧向量运算的CPU或GPU,将通盘元素并行科罚,大幅擢升速率。但当矩阵和向量都极为寥落时,向量化CPU和GPU的大部分算力都销耗在了与零的乘法运算上,产生大都无效筹画。

新一代GPU大致对一种特定类型的寥落性——结构化寥落性——进行一定进度的硬件加速。结构化寥落性假定每四个相邻参数中有两个为零。可是,部分模子更相宜非结构化寥落性——即允许轻易参数(权重或激活值)为零并被压缩,无论其位置何如。GPU不错通过软件方式(如cuSparse库)复旧非结构化寥落筹画,但这种复旧通常十分有限,GPU硬件诓骗率偏低,大都算力破费在非凡支出上。

在通过软件进行寥落筹画时,当代CPU随机比GPU更具上风,因为CPU具备更好的纯真性。但CPU在寥落筹画中常受限于曲折查找操作带来的性能瓶颈。CPU无为会笔据预期需求对数据进行"预取",但关于立时寥落数据,这一机制通常失效,导致CPU不得不销耗时钟周期恭候正确数据加载。

苹果公司率先通过在A14和M1芯片的预取器中复旧"指针数组"拜访模式,加速了曲折查找速率。尽管预取技巧的更动使苹果CPU在寥落筹画方面更具竞争力,但CPU架构仍存在专用寥落筹画架构所不具备的根人性支出,因为CPU需要兼顾通用筹画需求。

其他公司也在诱骗加速寥落机器学习的硬件,包括Cerebras的晶圆级引擎(Wafer Scale Engine)和Meta的考研与推理加速器(MTIA)。Cerebras的晶圆级引擎过甚配套寥落编程框架,在大言语模子上闭幕了高达70%的寥落度,后果超卓。但其硬件和软件有操办仅复旧权重寥落性,不复旧对很多应用至关病笃的激活值寥落性。MTIA第二版声称在寥落筹画性能上较初版擢升七倍,但现在公开暴露的寥落性复旧信息仅限于矩阵乘法,尚未掩饰向量或张量运算。

尽管矩阵乘法占据了大多数当代机器学习模子的主要筹画时辰,但为其他运算提供寥落性复旧一样至关病笃。为幸免在寥落与密集数据类型之间时常切换,通盘操作都应原生复旧寥落科罚。

Onyx:从底层复旧寥落筹画的硬件加速器

针对上述万般折中有操办的不及,斯坦福大学团队研发了一款硬件加速器——Onyx,大致从底层充分诓骗寥落性,无论是结构化一经非结构化寥落性均可复旧。Onyx是首款可编程加速器,同期复旧寥落和密集筹画,大致对两种模式下的关节操作进行加速。

CPU、粗粒度可重构阵列(CGRA)和现场可编程门阵列(FPGA)代表了遵循与纯真性之间的不同量度。CPU的每个逻辑单位针对特定功能高效设计;FPGA的每个比特均可竖立,极具纯真性但遵循较低;CGRA则旨在兼顾FPGA的纯真性与CPU的遵循。

CGRA由针对特定应用鸿沟优化的可竖立内存和筹画单位组成,设施员不错在高脉络上对其里面进行再行竖立,使其比FPGA更高效,同期比CPU更纯真。

Onyx基于CGRA架构构建,由纯真可编程的科罚单位(PE)模块和内存(MEM)模块组成。内存模块发扬存储压缩矩阵和其他数据神态,科罚单位模块则平直对压缩矩阵进走时算,摈弃通盘无谓要的无效筹画。

Onyx的编译器发扬将软件教导调遣为CGRA竖立。最初,输入抒发式(如寥落向量乘法)被编削为抽象内存节点和筹画节点组成的图;编译器将这些抽象节点映射到CGRA的内存模块和科罚单位上,并打算数据传输旅途;最毕生成竖立CGRA所需的教导集。

由于Onyx具备可编程性,工程师不错将向量-向量元素乘法、矩阵-向量乘法、矩阵-矩阵乘法等多种AI中枢运算映射到加速器上。

性能评估

咱们接收"能量蔓延积"(EDP,即能耗与筹画时辰的乘积)来评估硬件的遵循擢升,该目的玄虚响应了速率与能耗之间的量度相关。

Onyx的能量蔓延积最高可达使用专用寥落库的CPU(12核Intel至强科罚器)的565倍。此外,Onyx还可竖立为加速旧例密集筹画应用,雷同GPU或TPU的责任方式:当筹画为寥落类型时,Onyx切换至寥落筹画模式;当筹画为密集类型时,则切换至并行加速模式。这一架构为在磨灭芯片上同期加速寥落与密集筹画迈出了病笃一步。

一样值得心扉的是,Onyx开启了算法层面的新想路。寥落加速硬件不仅能擢升AI的性能遵循和动力遵循,还将激发计划东说念主员和工程师探索具有谗谄性后劲的新式算法。

异日瞻望

咱们的团队已在Onyx基础上入辖下手诱骗下一代芯片。除矩阵乘法外,机器学习模子还触及非线性层、归一化、Softmax函数等多种运算。咱们正在为下一代加速器过甚编译器添加对齐全筹画类型的复旧。由于寥落机器学习模子可能同期包含寥落层和密集层,咱们也在计划何如更高效地将密集与寥落加速架构集成于磨灭芯片,以闭幕不同数据类型之间的快速调遣。此外,咱们还在探索通过更有用地拆分寥落数据来谗谄内存死心,从而在多个寥落加速芯片上协同运行筹画任务。

与此同期,咱们正在研发大致预测寥落加速器性能的系统,以提拔更优硬件的设计责任。从永恒来看,咱们但愿不雅察高度寥落性是否会在更多模子类型中取得普及,以及寥落加速器是否会在更大限度上取得应用。

为非结构化寥落性构建硬件、充分诓骗零值的后劲,只是是个开动。有了这么的硬件,AI计划东说念主员和工程师将有契机探索以全新、富余创意的方式诓骗寥落性的模子与算法。咱们服气,这是应付AI束缚增长的运行时辰、资本和环境影响的关节计划标的。

Q&A

Q1:什么是寥落筹画?它对AI有什么意旨?

A:寥落筹画是一种诓骗AI模子中大都参数为零这一特质来跳过无效运算、压缩存储的筹画方式。由于模子中70%以上的参数可能为零或接近零,寥落筹画不错平直跳过与零计划的乘法和加法,从而显耀降粗劣耗、加速运算速率,在不摒弃模子精度的前提下擢升举座遵循。

Q2:现存的GPU和CPU为什么弗成很好地复旧寥落筹画?

A:GPU主要复旧一种叫作念"结构化寥落性"的特定模式,对更纯真实非结构化寥落性复旧有限,导致大都算力被销耗在无效的零值运算上。CPU诚然更纯真,但在寥落筹画中常受限于立时内存拜访导致的预取失败问题,一样存在遵循瓶颈。两者都穷乏从底层针对寥落筹画挑升设计的架构复旧。

Q3:Onyx芯片比拟平素CPU能擢升几许性能?

A:Onyx在能量蔓延积(速率与能耗的玄虚目的)上,最高可达12核Intel至强CPU的565倍。平均而言,Onyx的能耗仅为CPU的七十分之一2026世界杯官网入口,筹画速率则平均擢升至CPU的八倍。Onyx同期复旧寥落和密集筹画,大致笔据任务类型自动切换筹画模式,是现在已知首款兼顾两种筹画模式的可编程加速器。

银河国际游戏平台官网