互联网技术 / 互联网资讯 · 2024年3月10日 0

谷歌新模型1370亿参数超越GPT-3的零样本性能

在NLP领域,pRetRAIn-finetune和ProMpt-tuning技术能够提升GPT-3等大模型在各类任务上的性能,但这类大模型在零样本学习任务中的表现依然不突出。为了进一步挖掘零样本场景下的模型性能,谷歌Quoc Le等研究者训练了一个参数量为1370亿的自回归语言模型Base LM,并在其中采用了全新的指令调整(instRUCtion tuning)技术,结果显示,采用指令调整技术后的模型在自然语言推理、阅读理解和开放域问答等未见过的任务上的零样本性能超越了GPT-3的小样本性能。

大规模语言模型(LM)已经被证明可以很好的应用到小样本学习任务。例如OpenAI提出的GPT-3,参数量达1750亿,不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力等。在不进行微调的情况下,可以在多个NLP基准上达到最先进的性能。

然而,像GPT-3这样的大规模语言模型在零样本学习任务中表现不是很突出。例如,GPT-3在执行阅读理解、问答和自然语言推理等任务时,零样本的性能要比小样本性能差很多。

本文中,Quoc Le等来自谷歌的研究者探索了一种简单的方法来提高大型语言模型在零样本情况下的性能,从而扩大受众范围。他们认为NLP任务可以通过自然语言指令来描述,例如「这部影评的情绪是正面的还是负面的?」或者「把『how aRe you』译成汉语」。

该研究采用具有137B参数的预训练模型并执行指令调整任务,对60多个通过自然语言指令表达的NLP任务进行调整。他们将这个结果模型称为Finetuned LANguage Net,或FLAN。

为了评估FLAN在未知任务上的零样本性能,该研究根据NLP任务的任务类型将其分为多个集群,并对每个集群进行评估,同时在其他集群上对FLAN进行指令调整。评估表明,FLAN显著提高了模型(base 137B参数)的零样本性能。在25个评估任务中,FLAN零样本在19项任务上优于具有175B参数GPT-3零样本,甚至在许多任务上也显著优于GPT-3小样本。该研究实证结果强调了语言模型使用自然语言指令描述任务的能力。

该研究将62个在Tensorflow数据集上公开可用的文本数据集(包括语言理解和语言生成任务)聚合到一起。该研究将任务定义为由数据集给出的一组特定的输入 – 输出对。对于每个任务,研究者手动编写十个独特的模板,使用自然语言指令描述任务。

模型架构和预训练。在实验中,该研究使用密集的从左到右、仅解码器、137B参数的tRansfoRMeR语言模型。该模型在一组网络文档(包括含计算机代码的文档)、对话数据和Wikipedia上进行预训练,这些文档使用SentencePiece库(Kudo & Richardson, 2018),被Tokenize为2.81T BPE Token和32K Token的词表。实验结果显示,FLAN在多项任务上表现出了强大的性能。

研究者分别在自然语言推理、阅读理解、开放域问答、常识推理、共指消解和翻译等多项任务上对FLAN的性能进行了评估。结果显示,FLAN在各项任务上表现出了强大的性能。

由于该论文的核心问题是指令调整如何提高模型在未见过任务上的零样本性能,因此该研究的第一个消融实验研究了指令调整中使用的集群和任务数量对性能的影响。实验结果表明,指令调整有助于在新任务上提升零样本性能。