位置:首页 > 新闻资讯 > 美团开源原生多模态大模型LongCat-Next 实现视觉与语音原生统一处理

美团开源原生多模态大模型LongCat-Next 实现视觉与语音原生统一处理

时间:2026-03-27  |  作者:  |  阅读:0

3月27日,美团发布并全面开源原生多模态大模型LongCat-Next及其核心组件离散原生分辨率视觉分词器(dNaViT)。

该模型突破传统以语言为中心的架构,将图像、语音与文本统一映射为同源的离散Token,通过纯粹的'下一个Token预测'范式实现视觉与语音的原生处理。

LongCat-Next具备三项关键技术突破:离散原生自回归架构打破模态隔阂、dNaViT构造视觉'词典'、语义对齐完备编码器解决离散化信息损失问题。

来源:https://news.pconline.com.cn/2121/21217412.html
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。

相关文章

更多

精选合集

更多

大家都在玩

热门话题

大家都在看

更多