互联网资讯 / 人工智能 · 2026年5月20日

多模态大模型具备任意输入输出能力

多模态大模型具备任意输入输出能力

5月20日,消息称,今日凌晨,谷歌正式发布旗舰级多模态大模型 Gemini Omni,宣称具备“任意输入、任意输出”的核心能力,旨在实现文本、图像、音频、视频等全模态信息的互理解与自由生成。

谷歌发布旗舰多模态大模型Gemini Omni 可实现“任意输入、任意输出”能力

Gemini Omni 依托谷歌长期积累的世界模型 Genie、图像模型 Nano Banana、视频模型 Veo 三大核心技术底座,构建起完整的全模态 AI 框架,为跨模态协作提供基础。

该模型支持多样化的混合输入,用户可将手绘草图、文字描述、图片素材、音频、视频等任意形式内容组合输入模型,系统可自行解析信息逻辑、模拟现实物理规则,最终实现高精度、符合现实逻辑的文本、图像、音频、视频等多模态输出的互理解和生成。

本次发布最大的亮点在于对话式实时编辑能力。不同于传统 AI 生成工具一次性输出、修改繁琐的痛点,Gemini Omni 支持在生成过程中的交互式迭代优化。用户在初始内容生成后,可通过自然语言对话精准调整画面细节,例如替换视频场景、修改物体材质、调整动态特效,且修改过程不会破坏画面原有的整体逻辑与物理效果。

发布会现场演示中,工作人员仅凭手绘简易图形+文字指令,便生成了带有物理碰撞效果的完整特效视频,直观展现了模型的强大创作能力。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.