互联网资讯 · 2024年2月29日

网络充斥低质机翻内容 警惕大语言模型训练中的数据陷阱

亚马逊云计算人工智能实验室的研究人员发现,网络上大量内容来自机器翻译生成,这些跨越多种语言的翻译内容质量普遍较低。研究团队强调,这凸显了在训练大型语言模型时,数据质量和来源考量的重要性。

研究还发现,机器生成内容在资源较少语言的翻译中很普遍,并占网络内容的很大一部分。

研究团队开发了名为多维cc矩阵的庞大资源,以更好地理解机器翻译内容的特征。该资源包含90种语言中64亿个独特的句子,并包括翻译元组,即相互翻译的一组句子。

这项研究发现大量网络内容通常被翻译成多种语言,主要通过机器翻译完成。这种内容不仅在资源较少语言的翻译中普遍存在,而且在这些语言的所有网络内容中也占很大一部分。

研究人员还注意到,出于广告收入等目的,被翻译成多种语言的内容存在选择性偏差。

机器翻译技术在过去十年里取得了显著进步,但仍达不到人类质量水平。多年来,使用当时可用的机器翻译系统将机器翻译内容添加到网络上,因此网络上大部分机器翻译内容按照现代标准可能质量很低。这可能会导致LLM模型产生更多‘幻觉’,而选择偏差表明即使不考虑机器翻译错误,数据质量也可能较低。数据质量对于LLM训练至关重要,其中高质量的语料库,如书籍和维基百科文章,通常会进行多次向上采样。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.