多模态大模型具备任意输入输出能力

5月20日，消息称，今日凌晨，谷歌正式发布旗舰级多模态大模型 Gemini Omni，宣称具备“任意输入、任意输出”的核心能力，旨在实现文本、图像、音频、视频等全模态信息的互理解与自由生成。

Gemini Omni 依托谷歌长期积累的世界模型 Genie、图像模型 Nano Banana、视频模型 Veo 三大核心技术底座，构建起完整的全模态 AI 框架，为跨模态协作提供基础。

该模型支持多样化的混合输入，用户可将手绘草图、文字描述、图片素材、音频、视频等任意形式内容组合输入模型，系统可自行解析信息逻辑、模拟现实物理规则，最终实现高精度、符合现实逻辑的文本、图像、音频、视频等多模态输出的互理解和生成。

本次发布最大的亮点在于对话式实时编辑能力。不同于传统 AI 生成工具一次性输出、修改繁琐的痛点，Gemini Omni 支持在生成过程中的交互式迭代优化。用户在初始内容生成后，可通过自然语言对话精准调整画面细节，例如替换视频场景、修改物体材质、调整动态特效，且修改过程不会破坏画面原有的整体逻辑与物理效果。

发布会现场演示中，工作人员仅凭手绘简易图形+文字指令，便生成了带有物理碰撞效果的完整特效视频，直观展现了模型的强大创作能力。

chatGPT

近期文章

互联网资讯 / 人工智能 · 2026年5月20日 0

多模态大模型具备任意输入输出能力