人工智能 · 2024年2月20日

重视ChatGPT引发的新一轮人工智能革命

ChatGPT是一款由美国OpenAI公司开发的自然语言人机交互应用,拥有接近人类水平的语言理解和生成能力,是迄今为止人工智能领域最成功的产品和历史上用户增长速度最快的应用程序。ChatGPT依赖大模型、大数据、大算力支撑,其出现标志着通用人工智能的起点和强人工智能的拐点,是里程碑式的技术进步,将引发新一轮人工智能革命。

国内人工智能“大模型”已具备一定基础,但与ChatGPT还存在一定差距,其背后面临数据、算力和创新环境等深层次制约。需从战略高度重视ChatGPT引发的新一轮人工智能革命,瞄准大模型、整合大数据、布局大算力,实施包容审慎监管,为新事物发展留足空间,加快抢占未来科技竞争制高点。

ChatGPT具有里程碑意义

将引发新一轮人工智能革命

ChatGPT(Chat Generative Pre-trained Transformer,聊天生成型预训练转换模型)是一款由美国OpenAI公司开发的自然语言人机交互应用,拥有接近人类水平的语言理解和生成能力,因其出色的回答问题、创作内容、编写代码等能力,使得人们直观真切地体会到人工智能技术进步带来的巨大变革和效率提升,上线5天用户突破100万,两个月活跃用户突破1亿,是迄今为止人工智能领域最成功的产品和历史上用户增长速度最快的应用程序。

ChatGPT是一个经过长期技术储备、通过大量资源投入、带有一定成功偶然性的人工智能“核爆点”。ChatGPT的发展经历了3个阶段(如下图所示),前期GPT-1(2018年)、GPT-2(2019年)、GPT-3(2020年)等版本已经投入了大量资源(包括购买高性能芯片、雇佣数据标注人员、占用计算资源等),效果并不理想,后期在采用“基于强化学习的人类反馈学习”技术后发生“蝶变”,迅速成为爆款应用。

从战略高度重视ChatGPT引发的新一轮人工智能革命

图ChatGPT发展路径

ChatGPT关键在于“三大支撑”。一是“大模型”。全称是“大语言模型”(Large Language Model),指参数量庞大(目前规模达千亿级)、使用大规模语料库进行训练的自然语言处理模型,是ChatGPT的“灵魂”。二是“大数据”。GPT-1使用了约7000本书籍训练语言模型。GPT-2收集了Reddit平台(美国第五大网站,功能类似于国内的百度贴吧)800多万个文档的40GB文本数据。GPT-3使用维基百科等众多资料库的高质量文本数据,数据量达到45TB,是GPT-2的1150倍。三是“大算力”。以GPT-3为例,其参数量达1750亿,采用1万颗英伟达V100 GPU组成的高性能网络集群,单次训练用时14.8天,总算力消耗约为3640PF-days(假如每秒进行一千万亿次计算,需要3640天)。

ChatGPT标志着里程碑式的技术进步。一是在最具挑战性的自然语言处理领域实现了革命性突破。相比视频、图像、语音等,自然语言的语法、语义、逻辑复杂,存在多样性、多义性、歧义性等特点。文本数据稀缺,通常表现为非结构化的低质量数据。自然语言处理任务种类繁多,包括语言翻译、问答系统、文本生成、情感分析等。因此,长期以来自然语言处理被认为是人工智能最具挑战性的领域。ChatGPT不仅实现了高质量的自然语言理解和生成,并且能够进行零样本学习和多语言处理,为自然语言处理领域带来了前所未有的突破。二是标志着通用人工智能的起点。在此之前,人工智能在不同场景应用需要训练不同模型。而ChatGPT利用单一大模型即可完成人机对话、机器翻译、编码测试等多种任务,已经具备通用人工智能的一些核心技术和特征:能够自动化地学习各种知识、信息,不断自我优化;充分理解和流畅表达人类语言,逻辑推理强,实现了具备一般人类智慧的机器智能;拥有一定的自适应和迁移学习能力,可以适用于多种应用场景和任务。三是代表着强人工智能的拐点。ChatGPT证明了大模型的学习和进化能力,将推动强人工智能(机器拥有知觉和意识,有真正的推理和解决问题的能力)加速演进。目前大模型智能程度已接近人类水平,甚至一些业界人士认为,将来会逐渐产生自我认知和感知,进而出现意识并且超越人类。

全球通用人工智能技术加速演进。ChatGPT涉及到“三大”中的“大模型”是核心和独门秘籍。当前,隐藏在ChatGPT背后的“大模型”正越来越多进入人们的视野。国际上已掀起从“大炼模型”到“炼大模型”的技术热潮。OpenAI公司将继续推进ChatGPT的模型演进,目前已发布多模态预训练大模型GPT-4,实现了几个方面跃升:强大的图像识别能力;文字输入上限提升到2.5万字;回答问题准确性明显提高;可以生成创意文本、歌词,实现风格变化等。谷歌创设了1370亿参数级大型自然语言对话模型LaMDA。当前正加快推出基于LaMDA的聊天机器人Bard,并动员全公司开展内测。微软与英伟达合作推出了5300亿参数的MT-NLG模型,与两家公司之前各自的系统相比,优点在于更加擅长各种自然语言任务,例如自动生成句子、问答、阅读和推理、词义消歧等。Meta公司复现了GPT-3,并对所有社区免费开放。

以ChatGPT为代表的人工智能大模型渗透到各行各业,将引发新一轮人工智能革命。从本质上看,ChatGPT是一个“大模型”(参数量巨大的概率模型),其成功实践充分证明了作为通用技术的大模型在人类社会各个方面布局应用的潜力。一是成功探索了大模型的商业模式。ChatGPT已经应用于商用搜索引擎和办公软件,嵌入GPT-3.5的微软必应搜索引擎可以更好理解和响应用户查询,提供更准确的搜索结果,嵌入GPT-4的Office软件大幅提升了办公效率。二是短期来看大模型将替代服务业的一些工作。ChatGPT可以完成各类文本生成任务,替代行政管理人员、科研人员、法律行业人士、媒体从业者、客服人员的部分工作。能够编码、检测安全漏洞,替代软件工程师的一些工作。可以高质量完成语言间的转换,替代翻译人员的部分工作。三是随着大模型不断渗透,人们的生产生活方式将发生深刻变革。在不久的将来,广泛开发应用的大模型将以超出人类的速度和准确性来执行自动化生产、智能制造任务,赋能交通、医疗、金融等各个行业。这将会引发以强人工智能和通用人工智能为代表的新一轮智能革命,大幅提高生产效率,带来经济、社会和产业的深刻变革。

从战略高度重视ChatGPT引发的新一轮人工智能革命

国内大模型已具备一定基础,但与ChatGPT还存在一定差距。一是百度自主研发的“文心”大模型,参数规模达2600亿,已在能源、金融、制造等领域发布了11个行业大模型。二是阿里达摩院推出10万亿参数的多模态M6大模型。三是华为与鹏城实验室合作开发的盘古大模型,是首个全开源2000亿参数中文预训练语言模型,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出。四是北京智源人工智能研究院推出1.75万亿参数的悟道2.0,可以同时处理中英文和图片数据。浪潮和中科院也分别推出了相应的大模型等。

从技术能力来看,专家判断当前国内技术比ChatGPT主要差在大模型环节,包括清洗、标注、模型结构设计、训练推理的技术积累。ChatGPT背后是文本/跨模态大模型、多轮对话、强化学习等多技术的融合创新,而国内大部分科技企业、科研院所多聚焦垂直应用,缺乏多技术融合创新能力。从落地应用来看,国内头部企业均表示已开展相关技术研发或部分模型进入内测阶段,但仍未出现与ChatGPT抗衡的大模型产品。加之大模型的训练成本较高,技术应用面临着亿元级研发投入和海量训练试错,国内企业投入严重不足,研发推广和产业落地整体落后于海外。

差距背后存在深层次制约因素,或使中美“大模型”差距进一步拉大,主要表现为三个“缺少”:

缺少高质量训练数据。GPT-3模型训练需要的语料75%是英文,3%是中文,还有一些西班牙文、法文、德文等语料集,这些学习语料可通过公开数据(如维基百科、百度百科、微博、知乎等)、开源数据集、网页爬取(训练GPT-3爬取了31亿个网页,约3000亿词)、私有数据集(如OpenAI的WebText数据集,收集了Reddit平台上的800万篇高赞文章,约150亿词)等方式获取。这些语料中,英文语料公开数据更多、质量更高。中文开源高质量数据少,特别是构建通用领域大模型的百科类、问答类、图书文献、学术论文、报纸杂志等高质量中文内容。同时,国内专业数据服务还处于起步阶段,可用于人工智能模型训练的经过加工、清洗、标注的高质量数据集还相对匮乏。缺少高质量训练数据已成为国内大模型训练的核心痛点。

缺少充足的智能算力支撑。一是大模型训练和运营算力成本高昂。训练阶段,目前业界测算ChatGPT训练成本约为1000万美元,为研发拥有部分ChatGPT能力的大模型,至少需要上千张A100训

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册