互联网资讯 / 人工智能 · 2024年1月2日 0

自然语言处理的高级深度学习:表征学习

通过半监督学习和自我监督学习的某些特征,表征学习大大减少了训练模型所需的数据量,更重要的是,它更加重视阻碍传统监督学习中带注释的训练数据。

它也促进了多任务学习、零次学习、流形布局技术和数据倍数概念等技术的发展,成为连接这些技术的基石。上面提到的这些技术对深度学习在自然语言技术中的应用产生了巨大价值和重大影响。

由于表征学习,不仅使自然语言处理更快、更易于组织使用,而且更适用于广泛的用例,而这些用例在表征学习出现之前是无法实现的。

但是,如果用发展的眼光看问题,为了获取长远受益,他们必须现在就行动起来。

字节对编码(byte pair encoder)

从广义上讲,表征学习的工作方式与键值对的概念没有什么不同。它使用类似于密钥的字节对编码,每个键都有一个表示它的数值,像字典或查找表一样。字节对编码是表征学习的核心内容,字节对编码是为语言中“有意义的块”而生成的。

这种学习模式有两个值得注意的地方。首先是它的语言价值,对于单词来说,表征可以识别:这些事物是否是同义词?这些东西在语义上是否相关?这些东西在句法上是否有联系。其次,这种表征可以针对单个单词、句子甚至段落,以及用户需求提供更多的应用场景。

零次学习(zero-shot learning)

表征学习以多种方式对深度学习产生深远影响,其中最值得注意的是减少了训练数据的数量,这恰恰是高级机器学习模型提升准确率的必备条件。如果你的表示足够好,你可以用来制作模型,他们称之为零次学习。使用这种技术,数据科学家可以利用标签作为训练模型的唯一示例。

例如,在构建预测飞机模型时,统计AI的方法会使用“AIRplane as your one example”这个标签,然后得出推论:“a few shots, [a] single shot”。其结果存在各种各样的变化。这一原则会提升企业在自然语言应用领域的适用性,因为大多数高级机器学习用例都需要高标准的训练数据,而这一点往往令人望而却步。

多任务学习(multi-task learning)

如果说减少训练数据是表征学习相对于深度学习应用模式的突破,那么另一个突破就是多个任务训练模型。借助更广泛使用的监督和非监督学习方法,即使针对特定模型的机器学习任务,建模者再一次使用相关任务时也必须从头开始创建新模型。以表征学习、多任务学习为基础可能会使这种方式成为过去。

作者介绍

崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。曾任惠普技术专家。乐于分享,撰写了很多热门技术文章,阅读量超过60万。《分布式架构原理与实践》作者。