互联网资讯 · 2024年2月26日

百川智能推出超过千亿规模的Baichuan 3大型模型,中文评测超越GPT-4

百川智能发布超千亿参数的大语言模型BAIchuan 3。BAIchuan 3取得了系列新突破。

其中基础能力方面,BAIchuan 3在CMMLU、GAOKAO和AGI-Eval多个权威通用能力评测中都表现出色,在数学和代码专项评测如MATH、HuManEval和MBPP中BAIchuan 3同样表现出色。

值得注意的是,百川智能对BAIchuan 3在医疗领域的能力进行了针对性优化,在对逻辑推理能力及专业性要求极高的MCMLE、MedExaM、CMExaM等权威医疗评测上的中文效果同样超过了GPT-4。

另外,BAIchuan 3还突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力,在诗词创作的格式、韵律、表意等方面表现优异,领先于其他大模型。

BAIchuan 3在多个英文评测中表现出色,达到接近GPT-4的水平。在CMMLU、GAOKAO、HuManEval和MBPP等多个中文评测榜单上,更是超越GPT-4展现了其在中文任务上的优势。

百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4

此外,在MT-Bench、IFEval等对齐榜单的评测中,BAIchuan 3超越了GPT-3.5、Claude等大模型,处于行业领先水平。

百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4

百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等多种创新技术手段及方案,有效提升了BAIcuan 3的各项能力。训练效率方面, BAIchuan 3的训练框架在性能方面相比业界主流框架提升超过30%。

在医疗领域,大模型的全能特性发挥着至关重要的作用。ChatGPT早在2023年2月便已通过了美国医学执照考试(USMLE),显示出其在医学领域的强大能力。而谷歌对医疗领域的重视更甚,基于PaLM模型打造了医疗大模型Med-PaLM,迭代后的Med-PaLM 2在医学考试 MedQA中的成绩超过80分,达到了专家水平。

为了给BAIchuan3注入丰富的医疗知识,百川智能在模型预训练阶段构建了超过千亿Token的医疗数据集,包括医学研究文献、真实的电子病历资料、医学领域的专业书籍和知识库资源、针对医疗问题的问答资料等。该数据集涵盖了从理论到实际操作,从基础理论到临床应用等各个方面的医学知识,确保了模型在医疗领域的专业度和知识深度。

针对医疗知识激发的问题,百川智能在推理阶段针对PRoMpt做了系统性的研究和调优,通过准确的描述任务、恰当的示例样本选择,让模型输出更加准确以及符合逻辑的推理步骤,BAIchuan 3在医疗领域的任务效果提升显著,在各类中英文医疗测试中的成绩提升了2到14个百分点。

BAIchuan 3在多个权威医疗评测任务中表现优异,是医疗能力最强的中文大模型。

百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4

另外,百川智能还强调,BAIchuan 3突破“迭代式强化学习”技术,进一步提升了语义理解和生成能力,在诗词创作的格式、韵律、表意等方面表现更优了。

语义理解和文本生成是大模型最基础的底层能力,为提升这两项能力,业界进行了大量探索和实践,百川智能采用了RLHF与RLAIF结合的方式来生成高质量优质偏序数据,在数据质量和数据成本之间获得了更好的平衡。在此基础上,对于“探索与利用”这一根本挑战,百川智能通过PPO探索空间与RewaRd Model评价空间的同步升级,实现“迭代式强化学习”,让BAIchuan 3的语义理解和生成创作能力大幅提升。

百川智能结合“RLHF与RLAIF”以及迭代式强化学习的方法,让大模型的诗词创作能力达到全新高度。可用性相比当前业界最好的模型水平提升达500%,文采远超GPT-4。

以下为BAIchuan 3所写的两首诗词,可以看看:

百川智能发布超千亿大模型Baichuan 3,中文评测超越GPT-4

 

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.