百川智能推出超过千亿规模的Baichuan 3大型模型，中文评测超越GPT-4

百川智能发布超千亿参数的大语言模型BAIchuan 3。BAIchuan 3取得了系列新突破。

其中基础能力方面，BAIchuan 3在CMMLU、GAOKAO和AGI-Eval多个权威通用能力评测中都表现出色，在数学和代码专项评测如MATH、HuManEval和MBPP中BAIchuan 3同样表现出色。

值得注意的是，百川智能对BAIchuan 3在医疗领域的能力进行了针对性优化，在对逻辑推理能力及专业性要求极高的MCMLE、MedExaM、CMExaM等权威医疗评测上的中文效果同样超过了GPT-4。

另外，BAIchuan 3还突破“迭代式强化学习”技术，进一步提升了语义理解和生成能力，在诗词创作的格式、韵律、表意等方面表现优异，领先于其他大模型。

BAIchuan 3在多个英文评测中表现出色，达到接近GPT-4的水平。在CMMLU、GAOKAO、HuManEval和MBPP等多个中文评测榜单上，更是超越GPT-4展现了其在中文任务上的优势。

此外，在MT-Bench、IFEval等对齐榜单的评测中，BAIchuan 3超越了GPT-3.5、Claude等大模型，处于行业领先水平。

百川智能在训练过程中针对性地提出了“动态数据选择”、“重要度保持”以及“异步CheckPoint存储”等多种创新技术手段及方案，有效提升了BAIcuan 3的各项能力。训练效率方面， BAIchuan 3的训练框架在性能方面相比业界主流框架提升超过30%。

在医疗领域，大模型的全能特性发挥着至关重要的作用。ChatGPT早在2023年2月便已通过了美国医学执照考试（USMLE），显示出其在医学领域的强大能力。而谷歌对医疗领域的重视更甚，基于PaLM模型打造了医疗大模型Med-PaLM，迭代后的Med-PaLM 2在医学考试 MedQA中的成绩超过80分，达到了专家水平。

为了给BAIchuan3注入丰富的医疗知识，百川智能在模型预训练阶段构建了超过千亿Token的医疗数据集，包括医学研究文献、真实的电子病历资料、医学领域的专业书籍和知识库资源、针对医疗问题的问答资料等。该数据集涵盖了从理论到实际操作，从基础理论到临床应用等各个方面的医学知识，确保了模型在医疗领域的专业度和知识深度。

针对医疗知识激发的问题，百川智能在推理阶段针对PRoMpt做了系统性的研究和调优，通过准确的描述任务、恰当的示例样本选择，让模型输出更加准确以及符合逻辑的推理步骤，BAIchuan 3在医疗领域的任务效果提升显著，在各类中英文医疗测试中的成绩提升了2到14个百分点。

BAIchuan 3在多个权威医疗评测任务中表现优异，是医疗能力最强的中文大模型。

另外，百川智能还强调，BAIchuan 3突破“迭代式强化学习”技术，进一步提升了语义理解和生成能力，在诗词创作的格式、韵律、表意等方面表现更优了。

语义理解和文本生成是大模型最基础的底层能力，为提升这两项能力，业界进行了大量探索和实践，百川智能采用了RLHF与RLAIF结合的方式来生成高质量优质偏序数据，在数据质量和数据成本之间获得了更好的平衡。在此基础上，对于“探索与利用”这一根本挑战，百川智能通过PPO探索空间与RewaRd Model评价空间的同步升级，实现“迭代式强化学习”，让BAIchuan 3的语义理解和生成创作能力大幅提升。

百川智能结合“RLHF与RLAIF”以及迭代式强化学习的方法，让大模型的诗词创作能力达到全新高度。可用性相比当前业界最好的模型水平提升达500%，文采远超GPT-4。

以下为BAIchuan 3所写的两首诗词，可以看看：

百川智能发布超千亿大模型Baichuan 3，中文评测超越GPT-4

chatGPT

近期文章

互联网资讯 · 2024年2月26日

百川智能推出超过千亿规模的Baichuan 3大型模型，中文评测超越GPT-4

Need more than content? Move into the product flow.