
4月22日,谷歌发布第八代专用AI芯片TPU(张量处置器)。和此前TPU手脚单一居品不同,第八代TPU初度拆分为两款:包含用于模子测验的TPU 8t,以及为模子推理优化的TPU 8i。
据谷歌先容,TPU 8t提供更高的打算费解量和更强的可推广带宽,擅所长置大范畴、打算密集型的测验责任负载,旨在将前沿模子的成就周期从数月镌汰至数周,其性价比上一代居品提高2.7倍。
而TPU 8i专为对延伸高度明锐的模子推理责任负载假想,将288 GB的HBM(高带宽内存)与384 MB的静态立时存储器(SRAM)筹划,其内存带宽达到TPU 8t的1.3倍,性价比升迁了80%。SRAM是与动态立时存取器(DRAM)相对的两种中枢内存类型,前者的延伸极低但造价贵,后者本钱更低、容量大但存取速率相对较慢,HBM也基于DRAM堆叠打造。
智能体期骗的爆发,是谷歌鞭策测验推理芯片分歧的进犯布景。谷歌CEO桑达尔·皮查伊(Sundar Pichai)在一篇博客中讲明,TPU 8i针对推理进行了优化,所搭载的静态立时存储器(SRAM)容量增多了3倍,从而提供了同期启动数百万个智能体所需的精深费解量和低延伸。
谷歌推出专用推理芯片,也被外界视为对英伟达的正面挑战。在本年3月的GTC大会上,英伟达发布用于推理的Groq 3 LPX机架,可容纳256颗Groq 3 LPU芯片,专为欣忭智能体对低延伸与大齐高下文的需求而假想。每颗LPU芯片提供500 MB的SRAM。
英伟达模子推理芯片决策有进一步的细分。模子推理分为对打算才气条件高的预填充prefill(处置输入教导)阶段,kaiyun稳定可靠的2026新版以及条件快速内存传输的解码decode(生成输出token)阶段。英伟达的决策中,Groq 3 LPU芯片持重解码阶段,而预填充阶段由Vera Rubin GPU承担。
百家乐2026世界杯中国官方下载长期以来,AI芯片行业多聘用“训推一体”的假想念念路,亦即让一款芯片既能用于模子测验又用于推理行状。国内头部GPU芯片公司,如摩尔线程、沐曦股份等,均定位于此路子。但“训推分歧”决策正冉冉成为新的发展地点,并催生了一些有益聚焦推理场景的芯片公司。
国产推理AI芯片公司曦望Sunrise的贸易居品持重东谈主阎研暗示,模子测验和推理在打算精度、内存架构、互联神志等方面存在较大区别,一颗芯片难以兼顾测验效用与推理的经济性。
据曦望Sunrise先容,公司在2026年1月发布的新一代旗舰居品启望S3推理GPU,搭载LPDDR6内存(第六代低功耗双倍数据速率内存,属于DRAM),而莫得沿用高端测验GPU的HBM显存路子。公司方面称,大模子推理的一个中枢特征是,在高并发、长高下文的主流云霄推理场景中,用于加快推理的KV Cache的显存占比可跳跃80%,且随并发用户数线性增长。S3聘用的LPDDR6决策,在提供满盈推理带宽的同期,大幅提高显存容量上限,以匹配推理场景的中枢需求。
采写:南齐N视频记者 杨柳开云体育app2026世界杯中国官网下载

备案号: