英特尔傲腾内存运行万亿参数AI模型实战指南

时间：2026-05-25 | 作者：318050 | 阅读：0

最近，Reddit上一位名叫APFrisco的用户分享了一套相当硬核的玩法。他用一堆二手硬件，成功在一台单GPU工作站上，跑起了拥有1万亿参数的Kimi K2.5大模型，推理速度能达到每秒4个Token左右。

这事儿听起来有点不可思议，毕竟万亿参数模型通常需要庞大的计算集群来支撑。

硬件配置：消费级与二手硬件的“混搭”

那么，这套“神器”是怎么搭起来的呢？

核心配置其实很清晰：

真正的亮点在内存系统——总容量达到了768GB。

这可不是普通的768GB，它由两部分组成：

正是后者，扮演了突破显存瓶颈的关键角色。

图形算力方面，靠的是两张华硕GeForce RTX 3060 OC 12GB显卡。

存储用了一块西部数据WD SN850X 2TB固态硬盘，电源则是华擎的Steel Legend SL-850G 850W全模组电源。

整套配置充满了极客式的“混搭”风格，核心思路就是用相对廉价的消费级或二手硬件，去挑战专业级的任务。

硬件堆砌只是基础，真正的魔法发生在软件层面。

这套方案采用了基于llama.cpp的GPU与CPU混合推理方法。

具体来说，通过llama.cpp的override-tensor标志，系统巧妙地将模型中的路由组件强制分流到那两张总计24GB显存的GPU中去处理。

而模型那海量的、万亿级别的参数，则全部交给傲腾内存来存储和读取。

这个策略的高明之处在于，它精准地绕开了单卡显存不足这个最大的绊脚石。

GPU只负责它擅长的、计算密集型的部分，而参数存储和调度的重担，则交给了容量巨大且速度远超传统SSD的傲腾内存。

这种分工协作，让在有限资源下运行超大模型成为了可能。

这里不得不提一下英特尔傲腾。尽管这个产品线已经停产，但它独特的性能定位——介于DRAM内存和固态硬盘之间——使其在特定场景下依然散发着余热。

对于这类需要超大内存容量但又受制于预算的项目来说，二手傲腾模块成了一个替代昂贵大容量DRAM的特殊选择。

这个案例也指向了一个更广阔的未来。

随着CXL（Compute Express Link）计算快速连接标准的日益成熟，业界普遍期待未来会出现更多高性价比、可字节寻址的内存扩展解决方案。

大语言模型对内存容量的渴求几乎是无限的，而这类技术的进步，将为更普惠的AI算力基础设施打开新的大门。

从这个角度看，这次极客实验不仅仅是一次硬件 hack，更像是对未来技术路径的一次有趣预演。

《夸克》非常好用的免费AI浏览器

来源:整理自互联网
免责声明：文中图文均来自网络，如有侵权请联系删除，心愿游戏发布此文仅为传递信息，不代表心愿游戏认同其观点或证实其描述。