互联网资讯 · 2025年7月28日 0

智象未来参加WAIC:多模态智能体重塑创作未来格局

在2025世界人工智能大会上,HiDReaM.AI 的联合创始人兼首席技术官姚霆发表主题演讲,系统阐释多模态智能体在内容创作领域的技术突破与商业化实践。作为专注于多模态生成的 AI 创新企业,智象未来致力于探索落地形式,让创作回归灵感、让时间贴合故事,推动内容创作从单纯提高工具效率向生产力革命迈进。

智象未来参加WAIC:多模态智能体重塑创作未来格局

AI 技术的爆发性发展正由实验室走向产业应用。智象未来以解决真实创作痛点为导向,在商业化落地中形成“技术筑基、场景破局、价值闭环”的路径。真正的 AI 商业化不在于单点技术的炫耀,而在于从模型能力到服务形态再到最终成果的全链路赋能。

智象未来聚焦技术到价值的产品化,形成了 MaaS-SaaS-RaaS 的梯次商业化体系。

智象未来参加WAIC:多模态智能体重塑创作未来格局

MaaS(Model as a Service)是根基,打造百亿级多模态基础模型,支持图像、视频、音频、文本等多模态的生成与理解。

SaaS(Software as a Service)是桥梁。基于基础模型,开发垂直场景产品,建设个人创作者平台和社区,将技术能力转化为即用服务,降低创作门槛。

RaaS(Result as a Service)是终局。通过商业视频营销服务和新媒体创作智能体,直接为客户交付可落地的成果,让 AI 成为真正的生产力工具,而非空谈。

该逻辑在实际应用中已得到验证:多模态生成平台覆盖影视制作、产品营销、文旅等领域,实现技术研发到商业价值的闭环。

多模态技术突破:从“能生成”走向“生成更优”。

技术实力是商业化的底气,智象多模态模型以高维理解与精准生成为核心,建立覆盖图像、视频与编辑的全栈能力矩阵。

在技术层面,基础模型经历三次关键迭代,形成“理解深、控制准、画质高”的核心优势。自 2023 年 8 月的 1.0 版本(DIT 实现多模态对齐)起,至 2024 年 6 月的 2.0 版本(DIT+AR,强化时空建模),再到 2024 年 12 月的 3.0 版本(MoE 多场景学习、记忆增强),持续突破生成瓶颈。

这些能力转化为三大核心价值:语义一致性、精准可控性与影视级画质,分别在风格统一、个性化定制与稳定的长时序输出等方面提供技术保障。

智象未来参加WAIC:多模态智能体重塑创作未来格局

在图像生成领域,HiDReaM 系列开源模型表现突出,下载量达数十万,被主流工具集成。全系列模型在国际榜单中处于前列。HiDReaM-I1 开源后迅速登顶,成为首个领跑的中国自研模型,相关指标在全球持续走高。大模型家族实现文本、图像、视频的联合建模,视频生成产品支持 4K、全局与局部可控及多镜头剧本生成,被业内人士视为对 AIGC 美学的再定义。结合开源的交互编辑模型 HiDReaM-E1,用户可用自然语言指令完成生成与编辑,降低创作门槛,支持全球开发者与创作者实现“所想即所得”。

最近,HiDReaM-E1.1 继续在图像编辑领域的开源榜单中处于前列,支持自然语言驱动的图像编辑,能够完成背景替换、颜色修改、局部重绘等操作。

智象未来参加WAIC:多模态智能体重塑创作未来格局

在视频生成领域,模型支持文本到视频、图像到视频、首尾帧生成,能够复刻国漫、吉卜力等风格,实现镜头与画面运动的协同学习。通过扩散自回归模型(DIT+AR),解决了时空一致性问题,使生成内容更符合物理规律。

在创作工具箱层面,AI口播、视频模板、运动笔刷、虚拟换衣、图像超分等功能,形成了“生成-编辑-优化”的闭环,覆盖个人创作者到企业客户的场景需求。

智象未来参加WAIC:多模态智能体重塑创作未来格局

产品形态:以智能体为核心驱动,重塑内容创作的全过程。

以智能体为核心,构建覆盖图像生成、视频创作、营销传播的完整工具链。

面向短视频二创的 vivago agent 能以多模态输入、智能拆解、交互式生成为核心优势。提供图像、视频、音频、文本等素材后,可分析需求、拆解任务(分镜、剧本、素材检索),调用图像/视频生成模型补全内容,并通过智能剪辑整合输出。它能理解视觉要素并捕捉氛围,使短视频创作从“从零开始”转向“按需生成”。

将发布长视频编辑智能体 HiClIP,解决“内容过载、分发低效、回报周期长”的难题。它以多模态语义理解来解构内容核心,提取高光片段、生成音频摘要,实现一次创作、全域适配的二次传播。无论是影视片段高光剪辑,还是教育课程的知识点拆解,HiClIP 都能为长视频带来新的流量活力。

产品化落地实现创作互补:vivago agent 专注短视频二创,通过模板检索、智能剪辑与多模态生成,帮助用户快速产出个性化内容,降低同质化风险;HiClIP 面向长视频,通过多模态语义理解提炼核心信息、实现高光片段提取与跨平台剪辑,推动长视频的二次传播。

生态共创:连接全产业链的价值网络。

AI 的价值在于连接与赋能,落地需生态协同。智象未来正与各领域伙伴合作,构建覆盖多行业的生态网络,形成技术-场景-生态的共赢格局。

智象未来参加WAIC:多模态智能体重塑创作未来格局

让创作者释放创意潜力,是智象的始终坚持。让 AI 真正“理解并辅助创作”,推动内容产业生产力的革新加速。通过多模态智能体为支点,探索“技术为笔、创意为墨”的新可能,让创作者聚焦灵感,让故事抵达更远的地方。