谷歌发布全能型多模态大模型Gemini Omni 可流畅处理文字图像视频音频

时间：2026-05-20 | 作者： | 阅读：0

谷歌DeepMind负责人哈萨比斯正式发布Gemini模型家族旗舰版Gemini Omni。据悉，该模型以“全能”为设计目标，在处理文字、图像、视频、音频等多种模态信息时，展现出前所未有的流畅性与深度理解能力。

在演示中，Gemini Omni展示了多项强大能力。它能与用户手绘的鱼进行实时互动并生成动画，也能将复杂知识转化为弹珠穿行管道的视觉叙事。此外，模型还能精准识别并讲解天文黑洞素描图，并在蛋白质折叠等科学领域展现出卓越的推理与可视化潜力。

据悉，Gemini Omni已被深度集成至Gemini App，成为用户日常AI交互的默认智能引擎，并为后续所有基于Gemini的服务提供统一的强大模型基础。

《夸克》非常好用的免费AI浏览器

来源:https://news.pconline.com.cn/2153/21538151.html
免责声明：文中图文均来自网络，如有侵权请联系删除，心愿游戏发布此文仅为传递信息，不代表心愿游戏认同其观点或证实其描述。

相关文章