创新五载,智驭未来。
2016年成立以来,从NLP到最新的多模态技术,创新一直是我们发展的基石,让追一在业内保持着技术和商业落地的领先。同时,我们也将创新成果持续开放,分享给伙伴,首届中文NL2SQL挑战赛,SiMBERT、WoBERT等多个预训练模型的开放见证了我们对业界的贡献。近期,追一又开源了首个中文T5模型,共同推进NLG发展。
众所周知,自BERT以来,预训练模型遍地开花,自然语言理解(NLU)领域有了长足的进步。相比之下,自然语言生成(NLG)仍然方兴未艾。近年来,一些NLG预训练模型如UniLM、BART、T5等也陆续发布,但这些模型往往是纯英文或者多语言形式,并没有精细地为中文的NLG预训练模型。
为了弥补中文NLG预训练模型的空白,共同推动中文NLG技术的进步,追一科技结合自身的中文NLP经验,训练并开源了国内首个中文生成式预训练模型T5 PEGASUS,在自动摘要、问题生成多个自然语言处理任务上,达到了新高度。值得注意的是,T5 PEGASUS凭借出色的小样本学习能力,还可以帮助企业和开发者大大减轻数据标注训练负担。
AI创作风起云涌,NLG知多少
自然语言生成(NLG),通常也称文本生成,泛指一切输入输出都是自然语言的任务,可以应用于多种场景,比如电商领域的标题和文案生成,司法、保险等领域的文本摘要,还有各种AI写诗、写歌、写故事等创作,甚至解数学题等等,同时,它也可以用于再生数据,比如生成相似问、关键词造句等,从而减轻AI训练和运营本身的成本。
再举一例,解数学题
有 50 个数的平均数是 83,如果去掉其中两个数,这两个数的和是 118,那么剩下的数的平均数是多少?
效果方面,T5 PEGASUS表现出色,比如在自动摘要任务的Rouge指标上,它平均比原来的最优结果高出1%以上,在问题生成等任务上同样达到了新的高度,是当前中文NLG模型中的SOTA(算法模型性能在当前最优)。
共推中文NLG发展
追一科技一直专注于NLP技术的研究,不仅致力于提高自身的NLP实力,也致力于推动中文NLP创新研究和NLP开源社区的发展。2019年追一科技举办了首届中文NL2SQL挑战赛,发布了首个大规模中文NL2SQL数据集,推进NLP技术在企业结构化数据库交互上的研究与落地应用。
随着预训练模型越来越成为NLP发展的重要方向,追一陆续开源了多个预训练模型,如SiMBERT、WoBERT等。此次开源的T5 PEGASUS是追一在NLG领域的重要结果,希望能通过开源模型与业内和开发爱好者一同推动中文NLG技术的进步。