互联网资讯 · 2024年2月17日

智谱AI发布国产大模型GLM-4,中文能力媲美GPT-4

智谱AI今天发布全自研第四代基座大模型GLM-4,性能相比前一代GLM-3提升60%、中文能力比肩GPT-4。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

GLM-4的整体性能相比上一代大幅提升,逼近GPT-4。它可以支持更长的上下文,具备更强的多模态能力。同时,它的推理速度更快,支持更高的并发,大大降低推理成本。

GLM-4大幅提升了智能体能力,GLM-4 All Tools 实现自主根据用户意图,自动理解、规划复杂指令,自由调用网页浏览器、code InteRpReteR代码解释器和多模态文生图大模型以完成复杂任务。GLMs 个性化智能体定制功能亦同时上线,用户用简单的提示词指令就能创建属于自己的 GLM 智能体。

GLM-4在各项评测集上的最终得分如下:

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

MMLU:81.5,达到GPT-4的94%水平;

GSM8K:87.6 ,达到GPT-4的95%水平;

MATH :47.9,达到GPT-4的91%水平;

BBH :82.3,达到GPT-4的99%水平;

HellaSwag :85.4,达到GPT-4 的90%水平;

HuManEval:72,达到GPT-4的100%水平。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

GLM-4在IFEval PRoMpt提示词跟随中文方面达到和GPT-4的88%水平,指令跟随(中文)方面达到 90%水平。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

基于AlignBench数据集,GLM-4超过了GPT-4的6月13日版本,逼近GPT-4最新11月6日版本的效果。GLM-4在中文推理、逻辑推理方面的能力,还有待进一步提升。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

GLM-4可以支持128k的上下文窗口长度,单次提示词可以处理的文本可以达到300页。同时,在needle test(大海捞针)测试中,128K文本长度内GLM-4 模型均可做到几乎100%的精度召回,并未出现长上下文全局信息因为失焦而导致的精度下降问题。

GLM-4实现了自主根据用户意图,自动理解、规划复杂指令,自由调用网页浏览器、code InteRpReteR代码解释器和文生图CogView3模型。

GLM-4 通过代码解释器,会自动调用代码解释器进行复杂的方程或者微积分求解。GLM-4 All Tools取得和GPT-4 All Tools相当的效果。

GLM-4的All Tools能力完全自动,而且可以处理各种任务,包括文件处理、数据分析、图表绘制等复杂任务,支持处理 Excel、PDF、PPT 等格式的文件。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

GLMs个性化智能体定制能力也同步上线。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

GLM模型智能体的推出标志着任何人都能够自由运用GLM-4模型并挖掘它的潜力,没有任何编程基础也能够实现大模型的便捷开发。这是智谱AI为降低大模型使用门槛所做的最新努力。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

2024年智谱AI也将发起开源开放的大模型开源基金。

智谱AI推出国产大模型GLM-4 中文能力比肩GPT-4

该计划包括三个“1000”:智谱AI将为大模型开源社区提供1000张卡,助力开源开发;提供1000万元的现金用来支持与大模型相关的开源项目;为优秀的开源开发者提供1000亿免费API Tokens。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册