互联网资讯 / 人工智能 · 2024年2月13日

AI大模型:强调“大”可能是严重误导

万模之战,意义何在

让4000块GPU协同连接,能高效并行去做运算,这里面有许多的Know-How。

ChatGPT和国内产品都在不断进化,两者可能存在着非线性、加速增长拉开的差距。

通用人工智能不是一个静止的点,而是一个需要不断突破的新领域。

商汤科技内部有一个略显神秘的部门:人工智能伦理与治理委员会。去年,他们发布了《智能伦理治理年度报告》,提出AI的发展应“负责任且可评估”,并制定了内部监管要求。

这像是提前回应了年初马斯克等人呼吁暂停AI研究的言论。

当国内企业竞相投入大模型研发时,商汤已经抢跑了一年。这是一家看似“万事俱备”的公司,对AI的发展有充分的预案。

2014年商汤成立时,人工智能被看作一条通往未来的赛道,但躬身入局后,AI四小龙们发现这条赛道从技术到商业落地仍有着众多壁垒,曾被誉为“亚洲AI第一股”的商汤目前还未实现盈利。如今他们为国内政企客户提供包括智慧出行、智能座舱、手机SDK在内的AI解决方案。

今年初,ChatGPT重新带火了整个人工智能行业。4月10日,商汤发布了“日日新SensEnova”大模型体系,以及“商量”、“秒画”等一系列AIGC应用,成为继百度、华为之后,第三家发布大模型的国内企业。

此时,社交媒体的热搜话题已经从“什么时候能用上国产大模型”,变成了“我们和ChatGPT差距有几年”。

不好简单用时间来衡量,商汤科技的联合创始人、首席科学家王晓刚认为,一旦AI收到用户的海量反馈,“智慧飞轮”转起来,模型的进化速度将一日千里。

王晓刚2018年便开始带领商汤研发团队开发大模型,起初是视觉大模型,2021年切入NLP自然语言模型等领域。此前,他先后就读中科大少年班、香港中文大学和麻省理工,在顶级的国际期刊和会议发表超过300篇论文。最近半年,作为商汤的技术负责人同时也是绝影智能汽车业务的一把手,他频繁出现在公开场合,推介公司的技术成果。

王晓刚告诉雪豹财经社,公司在2018年就投入算力建设,是一个非常有前瞻性的举动,但他认为,这不是一个大力出奇迹的行业。他回顾了商汤大模型的研发过程,反复强调“Know-How”的重要性,对目前国内热炒的“万模之战”,他也冷静地提出了自己的看法。

以下是雪豹财经社与王晓刚的对话节选(经编辑):

对话商汤科技首席科学家王晓刚:AI大模型只强调“大”是严重误导

商汤科技联合创始人、首席科学家王晓刚

图片来源:商汤科技

雪豹财经社:商汤科技是从什么时候开始做大语言模型的?

王晓刚:2018年,商汤把总部落在上海时,我们就提出要建超算中心,后来才有了大装置的建设,奠定了算力基础。我们模型的研发是从视觉开始,先做出了有10亿参数的视觉模型,随后发现当视觉模型体量变大后,它能体现出极好的通用性,小模型也会受益。比如,早期的智慧城市交通项目涉及不同场景下人、车、物的识别,当时需要做出各自的专有模型,后来我们发现一个通用大模型就可以全覆盖。随后,我们在2021年开始了自然语言大模型研究,2022年我们研发了320亿参数的全球最大通用视觉模型,并开源了多模态模型书生2.0,今年3月书生2.5开放给社区,这些最终促成了我们的“日日新”大模型体系。

雪豹财经社:我们体验了商汤的 “商量”和“秒画”,感觉在中文理解方面的表现可圈可点。你们是如何教模型作诗的?

王晓刚:我们首先要解决的是工程问题:让4000块GPU协同连接,能高效并行做运算,这里面有许多的Know-How(技术诀窍);其次要对模型做多轮训练。一开始,让模型写出一首质量过关的古诗是很难的,经过多轮对话的训练,包括一些辅助语料的投喂,才能逐渐让模型理解汉语的规律。而秒画也是源于我们自己本身的语言模型,因而它对中文语言的理解,生成的图像描述才更加准确。外界方式中,有用英文直接汉化喂给AIGC模型,这可能就会让模型产生误解,影响生成图像的效果。

雪豹财经社:ChatGPT是一个现象级的AI产品,也带火了国内的大模型赛道,这款产品对你有什么启发?

王晓刚:ChatGPT证实了我们的一个判断:随着模型体量的增加,人工智能的天花板会不断提升。这点是非常确定的,也是商汤一直坚持的。2022年底公开的ChatGPT-3.5,带来质的改变的是它对任务的算法处理能力。过去模型学的是数据,但GPT-3.5学习的是任务,而且可以不断解锁新的任务,这个给到大家新的启发。另一个就是AIGC带来的用户反馈,我们叫做“智慧飞轮”,在社区中,不只是专业研究员和科学家,还包括设计师和其他各行各业的人,大家一同参与模型的训练和制作,推动AIGC能力不断进步。

雪豹财经社:国内AIGC产品跟ChatGPT有多大的差距?有企业家说是2年左右。

王晓刚:我觉得这件事不能简单地用时间长短来衡量。单论模型基础能力和训练基础设施,大家都有着一定积累。ChatGPT的特别在于,当它出现的时候,全世界大量的人参与到数据创作过程当中。一方面使用模型创造了很多高质量数据,这些数据反过来又迭代,促进模型能力的提升。因而这是一个加速变化的过程,所以有可能是一个非线性、加速增长拉开的差距,应该用动态的眼光来看待,大家都在不断进化。

雪豹财经社:大模型是目前创投界大热的赛道之一,你怎么看“智能涌现”和这场“万模之战”?

王晓刚:今天国内谈大模型都在强调“大”字,但我认为背后还有很多重要因素,才会出现“智能涌现”,比如许多实现层面的Know-How。如果只强调“大”,单纯依靠模型体量实现“智能涌现”,会有严重的误导性,会让我们浪费很多资源和时间。关键是要结合行业实际需求,大模型不仅要具备相应技术能力,还要有效率,还要有商业化落地场景,这才是这场“万模之战”的意义所在。

雪豹财经社:商汤的大模型团队一共有多少人?

王晓刚:“日日新”的研发涉及到商汤整个研发体系和研发团队,比如大模型的基础设施研发,一个部门就有几百人,他们的工作就是训练系统底层架构。要把一个大模型训好,必须从底层架构、任务数据收集、应用反馈等方方面面都优化到极致,不是几个人能完成的。我们商汤的研发体系正在被大模型重塑。

雪豹财经社:“日日新”大模型和“商量”“秒画”等AIGC应用,在内部测试中有没有让你感到惊艳的表现?

王晓刚:模型发布前要做很多维度的测试,我们有专门的团队在做这件事。拿“商量”来说,测试时给它出一道作文题,它并不会一次就给出一个完美答复,需要通过多轮对话把不完美的地方告诉它,它能快速学习不断修正给出更好的答案,让我惊艳的是它强大的学习能力。我们的AI数字人视频生成平台“如影”就是“商量”起的名字,我们问为什么,它回答“如影随形嘛”。

雪豹财经社:商汤的AIGC应用还没有对公众开放,但有部分合作伙伴已经体验了,他们有什么反馈?

王晓刚:我拿“商量”举例。一开始大家只是对它做一些通用型测试,反馈比较好,后来大家发现它有强大的逻辑推理能力,相当于一个AI大脑,就考虑用它来连接现有的传感器,相当于操控设备的“手”和“脚”。还有客户在上海车展上体验了“秒画”,觉得它生成的车辆效果图可以直接拿去使用。总的来说,我们跟客户交流越深入,就越坚定在这个方向投入的信心。

雪豹财经社:相关应用打算什么时候对公众开放?

王晓刚:商汤目前主要还是面向B端的企业客户。我们欢迎感兴趣的客户去官网申请试用。

雪豹财经社:近期,包括马斯克在内的1000多位人工智能专家联名签署了一封公开信,呼吁暂停开发比GPT-4更强大的AI系统至少6个月,称其“对社会和人类构成潜在风险”。你怎么看?

王晓刚:人们暂时还没有太学会如何驾驭AI。就像出现了新的工具,还不知道如何去使用。任何技术都有两面性,能够给带来价值,也有一些潜在风险。但简单地限制并不能解决问题,还是要在发展中摸索出一套切实可行的办法,能够让我们跟AI共同发展,能够驾驭它,能够让它造福于我们。

雪豹财经社:商汤内部设立了人工智能伦理与治理委员会,它是怎么运作的?

王晓刚:2020年1月,商汤正式成立人工智能伦理与治理委员会,包括2名外部委员和4名内部委员,他们来自技术、工程、法律、伦理等相关专业背景。我们在2021年提出了“负责任且可评估”的发展理念,商汤任何AI产品发布前都要经过该委员会审核,提前发现并去除潜在风险。

雪豹财经社:你认为通用人工智能(AGI)将在什么时候到来?

王晓刚:通用人工智能,我觉得它是一个方向,大家已经在朝着这个方向前进了。公众已经感知到了它在自然语言理解方面的成果,接下来还有视觉、音频等多模态的发展。通用人工智能不是一个静止的点,而是一个我们可以取得不断突破的新领域。

雪豹财经社:商汤科技的研发团队是怎么寻找突破方向的?

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册