小米MiMo要蹭着DeepSeek蹦上牌桌
时间:2026-05-28 | 作者: | 阅读:0声明:本文来自于微信公众号 硅星人Pro,作者:董道力,授权站长之家转载发布。
5月27日,小米把 MiMo-V2.5系列 API 永久降价。
MiMo-V2.5-Pro 的输入缓存命中价格降到0.025元/百万 tokens,输入未命中价格3元/百万 tokens,输出价格6元/百万 tokens。普通版 MiMo-V2.5更低:缓存命中0.02元,输入未命中1元,输出2元。
这不是一次常规促销。
因为把价格横向一比就会发现,小米这次不是随便降价,而是直接对标 DeepSeek。
MiMo-V2.5-Pro 对 DeepSeek V4-Pro,MiMo-V2.5对 DeepSeek V4-Flash。
如今,DeepSeek 已经不只是一个模型名字。至少在国产大模型市场里,它正在变成一把价格尺子。
这把尺子反复抽打各大模型公司:你的模型卖多少钱啊
而这样一个问题平等的提给所有人,也就创造了一些新的机会,如小米MiMo这样的后来者,可以比其他模型身段更灵活,进而可以“蹭”着DeepSeek赌出一个上牌桌的机会。
token 的价格划分越来越细了
先来看看降价如何发生。
在这张价格表里,最重要的细节是它把缓存命中和缓存未命中明确拆成了两种价格。
这已经是今天大模型价格战的暗线。
所谓缓存命中,说白了就是:如果这次请求的前缀内容,和之前某次请求的前缀内容一样,平台就不用从头再算一遍,而是复用之前保存下来的中间结果。
大模型处理长上下文时,成本大体分两段。
第一段叫 prefill,可以理解成“读题”。系统提示词、项目代码、企业文档、历史对话,都要先被模型读进去。
第二段叫 decode,可以理解成“答题”。模型再一个 token 一个 token 往外生成回答。
过去大家谈 API 价格,主要看输入和输出。但现在大模型越来越多地用在 Agent、Coding、知识库和长对话里,很多输入其实是重复的。
代码助手每次都要看同一个仓库,企业助手每次都要读同一批制度文档,Agent 每一轮都带着同一套工具说明和系统规则。
可能真正的不同只是最后一句指令。
这时候,缓存就成了成本结构里的关键变量。
第一次做题要打草稿,第二次题目前半段一样,就不用重新打草稿。缓存命中价格之所以能低到离谱,原因就在这里。
以 MiMo-V2.5-Pro 为例,未命中输入是3元/百万 tokens,缓存命中后是0.025元,差了120倍。
价格战的味道很浓,但大模型厂商已经不再把 token 当成一种统一商品来卖。新输入、缓存输入、输出 token,背后是三种完全不同的成本结构。这一轮价格战不是“所有 token 一起便宜”,而是厂商开始按照真实成本,把 token 拆开重新定价。
降价来自“机房”
“最高降幅99%”是最大噱头,但背后的门道来自其他地方。
在降价的公告里小米团队提到,他们基于 SGLang HiCache 完整支持 SWA,也就是 Sliding Window Attention,把 KV Cache 在 GPU 显存、CPU 内存、SSD 多级存储之间的数据搬运量降低到优化前的近1/7,同时把可缓存 token 数量提升到近5倍。
这段话解释了这次降价的另一层原因。
大模型每生成一个 token,都要参考前面的上下文。如果每一步都把所有上下文重新算一遍,成本会非常高。KV Cache 存的,就是前面 token 在注意力机制里算出来的 Key 和 Value。
它相当于把模型已经读过的内容,变成可复用的“计算草稿”。
但草稿也要放地方。最好的地方是 GPU 显存,速度最快,也最贵;其次是 CPU 内存;再往下是 SSD,便宜但慢。缓存越多,越不可能全放在显存里。
于是,哪些缓存放显存,哪些放内存,哪些放 SSD什么时候搬搬多少怎么避免搬运本身拖慢推理
来源:https://www.chinaz.com/2026/0528/1755307.shtml
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 小米手机恢复出厂设置失败解决方法
- 时间:2026-05-28
-
- 小米Note移动4G合约版恢复出厂设置失败解决方法
- 时间:2026-05-28
-
- 小米4电信版恢复出厂设置失败解决方法
- 时间:2026-05-28
-
- 2026年小米最重磅新品来了!玄戒+自研OS+AI大模型 三项自研大会师
- 时间:2026-05-28
-
- 小米3联通版刷Recovery教程与刷机步骤详解
- 时间:2026-05-28
-
- 1499元 米家无线吸尘器4 Pro上市:自动集尘+蓝光探尘
- 时间:2026-05-27
-
- 小米自研大模型MiMo-V2.5系列API永久降价:最高降99% 不再区分上下文长度
- 时间:2026-05-27
-
- 安卓手机刷入小米MIUI系统详细步骤指南
- 时间:2026-05-27
精选合集
更多大家都在玩
热门话题
大家都在看
更多-
- 金山毒霸清理C盘垃圾文件详细步骤教程
- 时间:2026-05-28
-
- 金山毒霸锁定浏览器主页设置方法详解
- 时间:2026-05-28
-
- 金山毒霸主页锁定与禁止访问设置方法
- 时间:2026-05-28
-
- 小智双核浏览器主页设置与修改方法详解
- 时间:2026-05-28
-
- 小智双核浏览器收藏网页的详细图文教程
- 时间:2026-05-28
-
- 小智双核浏览器兼容模式设置与修改方法详解
- 时间:2026-05-28
-
- 技嘉AORUS Infinity首次全系下放:RTX 5080木质版曝光
- 时间:2026-05-28
-
- MediaTek 以边缘到云端的次世代技术 全面赋能 Agentic AI 时代
- 时间:2026-05-28
