小米大模型推理速度全球最快!1000 tokens/s是啥概念:官方科普
时间:2026-06-09 | 作者: | 阅读:06月9日消息,日前,小米正式上线Xiaomi MiMo-V2.5-Pro-UltraSpeed模式。
据介绍,这是全球首个在通用GPU上突破1000 tokens/s的万亿参数模型,刷新了旗舰模型的全球最快推理速度。
今日,“小米技术”公众号发文科普了什么是1000 tokens/s,以及这一速度到底有多快。
小米表示,token即词元,是大模型中的计量单位,类似日常买菜时使用的“斤”“两”。
1000 tokens/s也就是1000 Tokens Per Second,简称1000 TPS,意思是每秒可以生成1000个token。
如果把大模型推理想象成“打字”,TPS就是它的“打字速度”,数字越高,生成速度越快。
粗略换算,1个token约等于1到2个汉字,或0.75个英文单词。
也就是说,1000 tokens/s大约相当于每秒生成750个英文单词,或上千个汉字。
作为对比,普通大模型输出速度一般为50到130 TPS,接近人在朗读;国内顶尖大模型输出速度约为400 TPS,已经像快语速播报。
而小米此次上线的UltraSpeed模式,输出速度达到1000 TPS,是人眼阅读速度的约200倍,基本可以做到一眨眼生成一整页A4纸内容。
那么,小米是如何实现这一速度的?
据了解,小米采用了FP4量化技术,只对精度最不敏感的MoE专家模块进行压缩,其余部分保持原有精度,并通过量化感知训练边压缩边补偿,实现模型体积大幅降低,同时尽量保持能力不受影响。
同时,小米还采用DFlash投机解码技术,让小模型一次并行“抢答”一整块token,再由大模型进行无损验证。
猜对就采纳,猜错则打回,最终输出结果与原模型完全一致,但验证方式从“逐字确认”变成了“整块确认”,从而大幅提升效率。
此外,TileRT推理系统也发挥了关键作用。
通过常驻内核和异构流水线,它可以尽可能消除微秒级运行中计算步骤之间的启动、等待、搬数据等空隙,在不改变计算结果的前提下,充分压榨硬件时间。
来源:https://news.mydrivers.com/1/1128/1128296.htm
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 小米电视投屏设置与操作教程
- 时间:2026-06-09
-
- 海外发布的小米17T Pro 为什么这个时候选择“回国”
- 时间:2026-06-09
-
- 小米17T系列手机正式开启首销 暑期特惠价2999元起
- 时间:2026-06-09
-
- 小米10 Pro手机具体所采用的扬声器型号是哪个
- 时间:2026-06-09
-
- 小米助手唤醒设备误触发可能性分析
- 时间:2026-06-09
-
- 小米10 Pro如何查看电池寿命
- 时间:2026-06-09
-
- 小米手机换机互传使用教程完整步骤详解
- 时间:2026-06-09
-
- 小米净水器连米家APP无法控制的解决方法
- 时间:2026-06-09
精选合集
更多大家都在玩
大家都在看
更多-
- 2026世界杯直播观看平台推荐
- 时间:2026-06-09
-
- 2026世界杯最新完整赛程对阵图哪里可以查看
- 时间:2026-06-09
-
- 把静态图片做成动态图片的软件推荐
- 时间:2026-06-09
-
- 国足2026世界杯晋级情况分析
- 时间:2026-06-09
-
- TBH塔斯克巴英雄掉落什么
- 时间:2026-06-09
-
- TBH塔斯克巴英雄符文树怎么升级
- 时间:2026-06-09
-
- 百度网盘客户端电脑端显示设置教程
- 时间:2026-06-09
-
- 2026年世界杯在哪些城市举办
- 时间:2026-06-09
