2026世界杯官网入口更好的硬件何如将零值形成AI加速引擎：寥落筹画让AI更轻量、更高效

发布日期：2026-05-09 21:13 来源：未知作者：admin 浏览次数：

在AI模子鸿沟，限度至关病笃。

尽管部分AI群众告诫称，握续扩大大言语模子的限度正在遇到性能收益递减的瓶颈，各大公司仍在束缚推出体量更大的AI器具。Meta最新发布的Llama模子领有高达2万亿个参数。

跟着模子限度的扩大，其能力也在增强，但随之而来的是更高的能耗需乞降更长的运行时辰，进而加重了碳排放问题。为了缓解这些问题，业界开动转向限度较小、能力相对有限的模子，并尽可能接收低精度数值来暗示模子参数。

可是，还有另一条旅途，有望在保留超大模子高性能的同期，镌汰运行时辰、降粗劣耗。这一规律的中枢，等于充分诓骗大型AI模子里面大都存在的零值。

关于很多模子而言，大多数参数——包括权重和激活值——本色上都是零，或者相等接近于零，皆备不错在不耗损精度的前提下将其视为零科罚。这种特质被称为寥落性。寥落性为省俭筹画资源提供了宽敞契机：与其销耗时辰和能量对零进行加法或乘法运算，不如平直跳过这些筹画；与其在内存中存储大都零值，不如只保存非零参数。

缺憾的是，刻下主流硬件（如多核CPU和GPU）并弗成自然充分诓骗寥落性。要实在流露寥落性的上风，计划东说念主员和工程师需要再行想考并重构通盘设计架构，涵盖硬件、底层固件和应用软件各个层面。

在斯坦福大学的计划团队中，咱们诱骗出了（据咱们所知）首款大致高效科罚各种寥落和传统责任负载的硬件芯片。在不同责任负载下，能耗省俭幅度各异显耀，但平均而言，咱们的芯片能耗仅为CPU的七十分之一，筹画速率平均擢升至CPU的八倍。为闭幕这一观点，咱们从底层开动，对硬件、固件和软件进行了全面的针对寥落性的工程设计。咱们但愿这只是硬件与模子协同发展的早先，最终闭幕更高能效的AI。

数组与寥落暗示

神经网罗过甚输入数据以数字数组的神态暗示，这些数组不错是一维（向量）、二维（矩阵）或更高维度（张量）。寥落向量、矩阵或张量中大多数元素为零。寥落进度因情况而异，但当零值占比超越50%时，就不错从挑升针对寥落性的筹画规律中获益。与之相对的是"密集"对象——即零值数目相关于元素总额较少的情况。

寥落性不错自然存在，也不错通过东说念主工方式引入。举例，应酬网罗图自然等于寥落的。设计一个图，其中每个节点代表一个东说念主，每条边代表一段友谊相关。由于大多数东说念主彼此并不分解，暗示通盘可能集结相关的矩阵中绝大多数元素都是零。其他AI应用场景，如图学习和推选模子，一样存在自然的寥落性。

无为情况下，一个4×4的矩阵无论包含几许个零值，在内存中都会占用16个存储空间。若矩阵是寥落的，即大都元素为零，则不错更高效地用"纤维树"结构暗示：最初是包含非零元素地方行坐标的"纤维"，集结至包含非零元素列坐标的纤维，最终连气儿到对应的非零值自身。在筹画机内存中存储纤维树时，每条纤维的端点（即"段"）会与坐标和数值一同保存。

除自然存在的寥落性外，还不错通过多种方式在AI模子中主动引入寥落性。两年前，Cerebras的计划团队讲授，不错将大言语模子中多达70%至80%的参数缔造为零，而不耗损任何精度。Cerebras在Meta开源的Llama 7B模子上考据了这一论断，计划想路一样适用于ChatGPT、Claude等其他大言语模子。

寥落筹画的上风

寥落筹画的高效性源于两个基本特质：压缩零值的能力，以及零的极端数学性质。寥落筹画算法和专用硬件都充分诓骗了这两个中枢想路。

最初，寥落数据不错被压缩，从而以"寥落数据类型"的神态更省俭内存地进行存储。压缩还能在科罚大都数据时遏抑数据传输的能耗。以一个包含三个非零元素的4×4矩阵为例：传统方式会将其齐全存储，占用16个内存空间；而压缩为寥落数据类型后，百家乐2026世界杯中国官方下载只需保留非零元素，仅占用3个存储空间，相较于原本的16个大幅省俭。跟着寥落进度和矩阵限度的增大，这种省俭效果将更加显耀。

除本色数据值外，压缩数据还需要存储元数据，即非零元素的行诸君置信息。这无为以"纤维树"的方式抒发：列出包含非零元素的行标签，并与对应的列标签相接，进而连气儿到存储在这些位置的数值。

在内存层面，情况更加复杂：每个非零值的行列标签，以及记号标签数目的"段"信息，都需要一并存储，以便明晰差异元数据和本色数据。

在密集、未压缩的矩阵数据类型中，不错一一或并行拜访数值，且其位置可通过简便公式平直筹画。但在寥落压缩数据中，拜访数值需要先查找行索引坐标，再"曲折"查找列索引坐标，最终才能定位到观点值。由于寥落数据的位置具有立时性，这些曲折查找操作可能极为立时，导致筹画经过依赖于数据自身，并需要动态分拨内存拜访。

其次，零的两个数学特质使软件和硬件不错大都跳过筹画：任何数乘以零等于零，因此无需本色实行乘法；任何数加零等于其自身，因此加法也不错平直跳过。

在矩阵-向量乘法这一AI最常见的运算中，除触及两个非零元素的筹画以外，其余筹画均可跳过。往时述4×4矩阵与一个四元素向量的乘法为例：在密集筹画中，需要16次乘法和16次加法；而在寥落筹画中，只需科罚向量中的非零元素，FIFA世界杯官方合作指定网站通过曲折查找定位矩阵中对应的非零元素，仅对这部分进行乘加运算——在示例中，只需实行两次乘法，而非16次。

现存硬件的局限

缺憾的是，当代硬件并不擅长加速寥落筹画。以矩阵-向量乘法为例，在单核CPU中，向量中的每个元素需一一相乘后写入内存，遵循低下。因此，本色使用中通常借助复旧向量运算的CPU或GPU，将通盘元素并行科罚，大幅擢升速率。但当矩阵和向量都极为寥落时，向量化CPU和GPU的大部分算力都销耗在了与零的乘法运算上，产生大都无效筹画。

新一代GPU大致对一种特定类型的寥落性——结构化寥落性——进行一定进度的硬件加速。结构化寥落性假定每四个相邻参数中有两个为零。可是，部分模子更相宜非结构化寥落性——即允许轻易参数（权重或激活值）为零并被压缩，无论其位置何如。GPU不错通过软件方式（如cuSparse库）复旧非结构化寥落筹画，但这种复旧通常十分有限，GPU硬件诓骗率偏低，大都算力破费在非凡支出上。

在通过软件进行寥落筹画时，当代CPU随机比GPU更具上风，因为CPU具备更好的纯真性。但CPU在寥落筹画中常受限于曲折查找操作带来的性能瓶颈。CPU无为会笔据预期需求对数据进行"预取"，但关于立时寥落数据，这一机制通常失效，导致CPU不得不销耗时钟周期恭候正确数据加载。

苹果公司率先通过在A14和M1芯片的预取器中复旧"指针数组"拜访模式，加速了曲折查找速率。尽管预取技巧的更动使苹果CPU在寥落筹画方面更具竞争力，但CPU架构仍存在专用寥落筹画架构所不具备的根人性支出，因为CPU需要兼顾通用筹画需求。

其他公司也在诱骗加速寥落机器学习的硬件，包括Cerebras的晶圆级引擎（Wafer Scale Engine）和Meta的考研与推理加速器（MTIA）。Cerebras的晶圆级引擎过甚配套寥落编程框架，在大言语模子上闭幕了高达70%的寥落度，后果超卓。但其硬件和软件有操办仅复旧权重寥落性，不复旧对很多应用至关病笃的激活值寥落性。MTIA第二版声称在寥落筹画性能上较初版擢升七倍，但现在公开暴露的寥落性复旧信息仅限于矩阵乘法，尚未掩饰向量或张量运算。

尽管矩阵乘法占据了大多数当代机器学习模子的主要筹画时辰，但为其他运算提供寥落性复旧一样至关病笃。为幸免在寥落与密集数据类型之间时常切换，通盘操作都应原生复旧寥落科罚。

Onyx：从底层复旧寥落筹画的硬件加速器

针对上述万般折中有操办的不及，斯坦福大学团队研发了一款硬件加速器——Onyx，大致从底层充分诓骗寥落性，无论是结构化一经非结构化寥落性均可复旧。Onyx是首款可编程加速器，同期复旧寥落和密集筹画，大致对两种模式下的关节操作进行加速。

CPU、粗粒度可重构阵列（CGRA）和现场可编程门阵列（FPGA）代表了遵循与纯真性之间的不同量度。CPU的每个逻辑单位针对特定功能高效设计；FPGA的每个比特均可竖立，极具纯真性但遵循较低；CGRA则旨在兼顾FPGA的纯真性与CPU的遵循。

CGRA由针对特定应用鸿沟优化的可竖立内存和筹画单位组成，设施员不错在高脉络上对其里面进行再行竖立，使其比FPGA更高效，同期比CPU更纯真。

Onyx基于CGRA架构构建，由纯真可编程的科罚单位（PE）模块和内存（MEM）模块组成。内存模块发扬存储压缩矩阵和其他数据神态，科罚单位模块则平直对压缩矩阵进走时算，摈弃通盘无谓要的无效筹画。

Onyx的编译器发扬将软件教导调遣为CGRA竖立。最初，输入抒发式（如寥落向量乘法）被编削为抽象内存节点和筹画节点组成的图；编译器将这些抽象节点映射到CGRA的内存模块和科罚单位上，并打算数据传输旅途；最毕生成竖立CGRA所需的教导集。

由于Onyx具备可编程性，工程师不错将向量-向量元素乘法、矩阵-向量乘法、矩阵-矩阵乘法等多种AI中枢运算映射到加速器上。

性能评估

咱们接收"能量蔓延积"（EDP，即能耗与筹画时辰的乘积）来评估硬件的遵循擢升，该目的玄虚响应了速率与能耗之间的量度相关。

Onyx的能量蔓延积最高可达使用专用寥落库的CPU（12核Intel至强科罚器）的565倍。此外，Onyx还可竖立为加速旧例密集筹画应用，雷同GPU或TPU的责任方式：当筹画为寥落类型时，Onyx切换至寥落筹画模式；当筹画为密集类型时，则切换至并行加速模式。这一架构为在磨灭芯片上同期加速寥落与密集筹画迈出了病笃一步。

一样值得心扉的是，Onyx开启了算法层面的新想路。寥落加速硬件不仅能擢升AI的性能遵循和动力遵循，还将激发计划东说念主员和工程师探索具有谗谄性后劲的新式算法。

异日瞻望

咱们的团队已在Onyx基础上入辖下手诱骗下一代芯片。除矩阵乘法外，机器学习模子还触及非线性层、归一化、Softmax函数等多种运算。咱们正在为下一代加速器过甚编译器添加对齐全筹画类型的复旧。由于寥落机器学习模子可能同期包含寥落层和密集层，咱们也在计划何如更高效地将密集与寥落加速架构集成于磨灭芯片，以闭幕不同数据类型之间的快速调遣。此外，咱们还在探索通过更有用地拆分寥落数据来谗谄内存死心，从而在多个寥落加速芯片上协同运行筹画任务。

与此同期，咱们正在研发大致预测寥落加速器性能的系统，以提拔更优硬件的设计责任。从永恒来看，咱们但愿不雅察高度寥落性是否会在更多模子类型中取得普及，以及寥落加速器是否会在更大限度上取得应用。

为非结构化寥落性构建硬件、充分诓骗零值的后劲，只是是个开动。有了这么的硬件，AI计划东说念主员和工程师将有契机探索以全新、富余创意的方式诓骗寥落性的模子与算法。咱们服气，这是应付AI束缚增长的运行时辰、资本和环境影响的关节计划标的。

Q&A

Q1：什么是寥落筹画？它对AI有什么意旨？

A：寥落筹画是一种诓骗AI模子中大都参数为零这一特质来跳过无效运算、压缩存储的筹画方式。由于模子中70%以上的参数可能为零或接近零，寥落筹画不错平直跳过与零计划的乘法和加法，从而显耀降粗劣耗、加速运算速率，在不摒弃模子精度的前提下擢升举座遵循。

Q2：现存的GPU和CPU为什么弗成很好地复旧寥落筹画？

A：GPU主要复旧一种叫作念"结构化寥落性"的特定模式，对更纯真实非结构化寥落性复旧有限，导致大都算力被销耗在无效的零值运算上。CPU诚然更纯真，但在寥落筹画中常受限于立时内存拜访导致的预取失败问题，一样存在遵循瓶颈。两者都穷乏从底层针对寥落筹画挑升设计的架构复旧。

Q3：Onyx芯片比拟平素CPU能擢升几许性能？

A：Onyx在能量蔓延积（速率与能耗的玄虚目的）上，最高可达12核Intel至强CPU的565倍。平均而言，Onyx的能耗仅为CPU的七十分之一2026世界杯官网入口，筹画速率则平均擢升至CPU的八倍。Onyx同期复旧寥落和密集筹画，大致笔据任务类型自动切换筹画模式，是现在已知首款兼顾两种筹画模式的可编程加速器。

银河国际游戏平台官网

上一篇：上一篇：2026世界杯官网入口解说称2025年苹果占据卫星智高东谈主机市集七成份额

下一篇：下一篇：2026世界杯官网入口 OpenAI 硬件精致东谈主的闭门共享，向咱们揭示了为什么硬件「非常」仍是智妙手机

2026FIFA世界杯中国官网

世界杯赛程

2026世界杯官网入口更好的硬件何如将零值形成AI加速引擎：寥落筹画让AI更轻量、更高效

世界杯赛程

2026世界杯官网入口 更好的硬件何如将零值形成AI加速引擎：寥落筹画让AI更轻量、更高效

2026世界杯官网入口更好的硬件何如将零值形成AI加速引擎：寥落筹画让AI更轻量、更高效