NVIDIA要重塑AI:单用户速度可达2万Token每秒、能耗降1000倍
时间:2026-03-23 | 作者: | 阅读:03月23日消息,如果说前几年的AI重点是训练,那么现在的重点是推理,NVIDIA上周的GTC大会上已经发布了全新的LPU芯片,就是要重塑AI推理。
在GTC大会期间,NVIDIA首席科学家Bill Dally跟谷歌首席科学家Jeff Dean两位大神有了一番精彩的深度访谈,其中Dally就谈到了NVIDIA在做的一些研究进展。
AI推理对延迟的要求很高,Dally指出目前的瓶颈已经不是算力本身,瓶颈在通信开销上,NVIDIA正在研究片上通信的静态调度,将会彻底取消路由开销、排队和仲裁,通信速度接近光速本身。
目前的技术方案中,芯片从一角到另一角的延迟有几百纳秒之多,NVIDIA的技术方案可以做到30纳秒。
片外通信中,之前的方案是一步步提高带宽速率,现在做到了400Gbps甚至800Gbps,但这样的带宽也带来了复杂的信号处理及纠错机制,但速度如果从400Gbps降低到200Gbps,复杂问题反而会消失,只做序列化延迟的话,几个时钟周期就能完成。
Dally表示他有信心未来AI推理可以做到单用户每秒10000到20000Token的推理速度——作为对比,大家要知道目前很多人用在大模型AI推理速度,普遍在100Token每秒以内,甚至每秒60Token以上的速度就算高速了。
Dally表示做到这样的速度前提是用对了架构,他还以NVFP4精度做了例子对比,用这种精度做一次乘加运算需要消耗10飞焦的能量,但HBM4从外部读取数据大约消耗15皮焦能量,差距是1000倍以上。
改用SRAM缓存的话,读取数据的能耗也会变成10飞焦了,跟计算过程的消耗一个级别。
不过SRAM也不是没代价的,芯片成本比HBM还会高的,GTC大会上NVIDIA发布的LPU芯片LPU30也只能集成500MB SRAM缓存,跟GPU集成的288GB HBM4不是一个量级的。
来源:https://news.mydrivers.com/1/1111/1111093.htm
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 早就不是显卡公司了!黄仁勋给NVIDIA起了一个新名字:将电子转为Token的“转换器”
- 时间:2026-04-16
-
- RTX 5060/Ti都要升级9GB显存!砍带宽换显存:最快下月就发
- 时间:2026-04-15
-
- NVIDIA、AMD对中国出口芯片被自己人卡脖子:美国商务部裁员20%没人干活
- 时间:2026-04-14
-
- 8GB显卡再战十年不是吹牛!NVIDIA RTX神经纹理压缩技术实测:显存占用爆降85%
- 时间:2026-04-13
-
- DLSS 4.5怎么开?NVIDIA官方教程来了
- 时间:2026-04-08
-
- 黄仁勋想不到!中国寻求突破NVIDIA CUDA护城河:一种前所未有的新方式
- 时间:2026-04-08
-
- 从 RTX 到 Spark:NVIDIA 为本地代理式 AI 加速 Gemma 4
- 时间:2026-04-07
-
- 显卡不怕缺货 NVIDIA正享受内存危机:AMD截然相反
- 时间:2026-04-04
精选合集
更多大家都在玩
大家都在看
更多-
- ColorOS 16正式版来了!锁屏岛、AI闪记重磅上线
- 时间:2026-04-17
-
- Fi连接频繁断开怎么办 无线网不稳定修复方法【技巧】-手机Wi
- 时间:2026-04-17
-
- 零基础了解 cap定理 netflix infoq:快速入门说明
- 时间:2026-04-17
-
- 看图精灵图片叠加教程
- 时间:2026-04-17
-
- 《放开那三国》04月18日1567区-分崩离析
- 时间:2026-04-17
-
- 王者荣耀世界连结系统怎么样
- 时间:2026-04-17
-
- 王者荣耀世界问迹任务怎么完成
- 时间:2026-04-17
-
- 《红色沙漠》钢铁之心马蹄铁获取攻略-德梅尼斯和平关塞宝箱位置详解
- 时间:2026-04-17

