互联网资讯 / 人工智能 · 2023年12月5日

追一科技发布中文T5模型,引领NLG技术

创新五载,智驭未来。

2016年成立以来,从NLP到最新的多模态技术,创新一直是我们发展的基石,让追一在业内保持着技术和商业落地的领先。同时,我们也将创新成果持续开放,分享给伙伴,首届中文NL2SQL挑战赛,SiMBERT、WoBERT等多个预训练模型的开放见证了我们对业界的贡献。近期,追一又开源了首个中文T5模型,共同推进NLG发展。

领跑NLG技术!追一科技开源首个中文T5模型

众所周知,自BERT以来,预训练模型遍地开花,自然语言理解(NLU)领域有了长足的进步。相比之下,自然语言生成(NLG)仍然方兴未艾。近年来,一些NLG预训练模型如UniLM、BART、T5等也陆续发布,但这些模型往往是纯英文或者多语言形式,并没有精细地为中文的NLG预训练模型。

为了弥补中文NLG预训练模型的空白,共同推动中文NLG技术的进步,追一科技结合自身的中文NLP经验,训练并开源了国内首个中文生成式预训练模型T5 PEGASUS,在自动摘要、问题生成多个自然语言处理任务上,达到了新高度。值得注意的是,T5 PEGASUS凭借出色的小样本学习能力,还可以帮助企业和开发者大大减轻数据标注训练负担。

AI创作风起云涌,NLG知多少

自然语言生成(NLG),通常也称文本生成,泛指一切输入输出都是自然语言的任务,可以应用于多种场景,比如电商领域的标题和文案生成,司法、保险等领域的文本摘要,还有各种AI写诗、写歌、写故事等创作,甚至解数学题等等,同时,它也可以用于再生数据,比如生成相似问、关键词造句等,从而减轻AI训练和运营本身的成本。

再举一例,解数学题

有 50 个数的平均数是 83,如果去掉其中两个数,这两个数的和是 118,那么剩下的数的平均数是多少?

效果方面,T5 PEGASUS表现出色,比如在自动摘要任务的Rouge指标上,它平均比原来的最优结果高出1%以上,在问题生成等任务上同样达到了新的高度,是当前中文NLG模型中的SOTA(算法模型性能在当前最优)。

领跑NLG技术!追一科技开源首个中文T5模型

共推中文NLG发展

追一科技一直专注于NLP技术的研究,不仅致力于提高自身的NLP实力,也致力于推动中文NLP创新研究和NLP开源社区的发展。2019年追一科技举办了首届中文NL2SQL挑战赛,发布了首个大规模中文NL2SQL数据集,推进NLP技术在企业结构化数据库交互上的研究与落地应用。

随着预训练模型越来越成为NLP发展的重要方向,追一陆续开源了多个预训练模型,如SiMBERT、WoBERT等。此次开源的T5 PEGASUS是追一在NLG领域的重要结果,希望能通过开源模型与业内和开发爱好者一同推动中文NLG技术的进步。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册