追一科技发布中文T5模型，引领NLG技术

创新五载，智驭未来。

2016年成立以来，从NLP到最新的多模态技术，创新一直是我们发展的基石，让追一在业内保持着技术和商业落地的领先。同时，我们也将创新成果持续开放，分享给伙伴，首届中文NL2SQL挑战赛，SiMBERT、WoBERT等多个预训练模型的开放见证了我们对业界的贡献。近期，追一又开源了首个中文T5模型，共同推进NLG发展。

领跑NLG技术！追一科技开源首个中文T5模型

众所周知，自BERT以来，预训练模型遍地开花，自然语言理解（NLU）领域有了长足的进步。相比之下，自然语言生成（NLG）仍然方兴未艾。近年来，一些NLG预训练模型如UniLM、BART、T5等也陆续发布，但这些模型往往是纯英文或者多语言形式，并没有精细地为中文的NLG预训练模型。

为了弥补中文NLG预训练模型的空白，共同推动中文NLG技术的进步，追一科技结合自身的中文NLP经验，训练并开源了国内首个中文生成式预训练模型T5 PEGASUS，在自动摘要、问题生成多个自然语言处理任务上，达到了新高度。值得注意的是，T5 PEGASUS凭借出色的小样本学习能力，还可以帮助企业和开发者大大减轻数据标注训练负担。

AI创作风起云涌，NLG知多少

自然语言生成（NLG），通常也称文本生成，泛指一切输入输出都是自然语言的任务，可以应用于多种场景，比如电商领域的标题和文案生成，司法、保险等领域的文本摘要，还有各种AI写诗、写歌、写故事等创作，甚至解数学题等等，同时，它也可以用于再生数据，比如生成相似问、关键词造句等，从而减轻AI训练和运营本身的成本。

再举一例，解数学题

有 50 个数的平均数是 83，如果去掉其中两个数，这两个数的和是 118，那么剩下的数的平均数是多少？

效果方面，T5 PEGASUS表现出色，比如在自动摘要任务的Rouge指标上，它平均比原来的最优结果高出1%以上，在问题生成等任务上同样达到了新的高度，是当前中文NLG模型中的SOTA（算法模型性能在当前最优）。

领跑NLG技术！追一科技开源首个中文T5模型

共推中文NLG发展

追一科技一直专注于NLP技术的研究，不仅致力于提高自身的NLP实力，也致力于推动中文NLP创新研究和NLP开源社区的发展。2019年追一科技举办了首届中文NL2SQL挑战赛，发布了首个大规模中文NL2SQL数据集，推进NLP技术在企业结构化数据库交互上的研究与落地应用。

随着预训练模型越来越成为NLP发展的重要方向，追一陆续开源了多个预训练模型，如SiMBERT、WoBERT等。此次开源的T5 PEGASUS是追一在NLG领域的重要结果，希望能通过开源模型与业内和开发爱好者一同推动中文NLG技术的进步。

chatGPT

近期文章

互联网资讯 / 人工智能 · 2023年12月5日

追一科技发布中文T5模型，引领NLG技术

Need more than content? Move into the product flow.