互联网资讯 / 人工智能 · 2024年3月3日

AI大模型折叠:降低数据标注成本,工人月收入最低5000,单价从5毛降至4分

郑雯觉得记得几个月的下午,她一个小时就赚了2毛钱。她毕业于湖南的一所专科学校,是一名大模型数据标注师,每天的工作并不复杂——给自己领取的原始数据添加标签。

但大模型对于数据的质量要求很高,那天当时一张图片被要求反复修改了8次才通过,整个修改过程花费了一个1小时。也就是说,她这一个小时只赚了2毛钱,而正常情况下可以赚到12块,可以拉600个框。

这几乎是所有数据标注从业者的共识。数据标注的一端承载着从业者们不足5000元的月薪,他们如蚂蚁雄兵般构建起大模型的基石。而另一端则是互联网大厂们的AI梦想,他们希望借此超越Chat GPT 4。

数据标注采用最原始的计件制算工资,并不存在职场上的勾心斗角。唯一的苦恼这份过于枯燥的工作,让他们中的大部分很难坚持完3个月。并且,几乎所有人都告诉Tech星球,你最好别去。

可他们不知道的是,要不了多久,他们中的大部分可能会失去这份枯燥的工作。因为,那些简单的数据标注将会被AI取代。

林双在2017年赚到了一笔“快钱”:15天6000多元。对于专科毕业的林双来说,这个收入着实可观。那是人们对AI期望爆棚的时候,几乎没有人怀疑过它的未来,所有的投资机构都坚信这里可以诞生十亿、百亿甚至千亿规模的企业。

几乎所有AI技术的背后都是算法、算力、算据的竞争,庞大的数据是技术优劣的底层。背景光鲜的程序员们坐在“北上广”的办公室里,通过代码迭代算法描绘AI蓝图,而大专生、宝妈等在三四线城市的格子间处理庞大数据包中的图片、文字、语音等。

ChatGPT也不例外。一位百度文心一言项目组的员工称,大模型本身并没有什么新技术,也没有太高的技术壁垒,关键的问题是算力壁垒形成的参数壁垒。

大模型时代的数据标注员和以前的也并没有特别大区别,为数不多的差距可能是更加舒适的办公环境和对标注质量的更高要求。一位数据标注的从业者向Tech星球介绍,一般刚刚入行时,他们会组建一个10人左右的团队,这其中有一个人承担质检工作,如果不合格,就要员工打回去重做。而数据的质量则决定着大模型的优劣。

数据民工们也并不关心,AI技术又有什么新的分支,他们更在意的是单价,因为这里是计件算工资。

拉框是数据标注中常见的一种操作,标注员根据要求对图片中的物体,如车辆、红路灯、障碍物等画框标注。拉框分为2D和3D,后者的价格会更贵一些。

但这种热度并没有持续多少,伴随着越来越多人涌入以及AI行业整体发展的不够顺利,标注一个图片的单价越来越低,林双称现在最低的只有4分钱。

“如果是拉框,行业的平均单价是在0.15元左右,但还是要看项目,如果自己可以接到单,接到一手单的最低要求应该是100个入职员工,那规模挺大,3D的框有可能达到3毛钱一个,不过很少可以有达到5毛的。”

当然,如果你本身具备医疗、金融方面的专业知识,那么单价则会更高。比如,很多医疗大模型会要求标注员有是临床专业,且有相关从业经验。

大部分从业者每个月的收入都不过5000元,其中也不乏少数的幸运儿。杨硕本来在四川经营一家服装店,但疫情影响了他的生意,他在今年转型做大模型数据标注,现在,他每个月有8000元收入。

阿里、腾讯、字节这样的互联网大厂,以及上汽、领克等车企是数据标注业务分发的源头,想要以最好的价格直接从源头获取订单,数据标注公司们需要具备一定的规模。

一位数据标注公司员工对Tech星球称,他们直接从大厂拿到订单,但是大厂要求他们得有500人,因此他们会选择通过加盟或者子公司的方式来达到人员要求。

二者的区别是加盟适用于初入行的人组建工作室,如果要成立子公司,一般一个区域就只有一家。小白工作室需要收加盟费,2.5万或者3万。子公司是一个区域的独家代理商,需要缴纳5万费用。而他们可以三年以内保证订单的充足,并负责3年内的技术培训,这些工作室或者子公司们组成一个大的工会。

上述数据标注公司员工称,大模型的火热再次将数据标注行业推上热潮,现在几乎每天都有人去他们公司拜访。

但事实上,经营一个数据标注公司并不容易。数据标注公司告诉你的是,这个行业前1到2个月比较难做,因为员工需要爬坡期,前期只需要5-8个人就够了,40多岁的阿姨都没有问题的。

稳定是数据标注公司或者工作室最重要的因素。但是Tech星球接触的大部分标注员工往往都因为枯燥无趣在3个月内“光速”离职,新员工并不是马上可以到岗实操,人员流动性大的结果就是数据标注的质量和周期不够稳定。

依靠着肯尼亚工人蚂蚁搬家式的积累,最终OpenAI的语言对话大模型能力脱颖而出。这些被称为数据民工的普通人支撑起了山姆·奥特曼的AI梦,但如果不出意外,他们手中的大部分工作,很快就会被自己参与创造的新产品所取代。

在国外,Open AI 前员工于2021年成立的AnthRopic今年已经融资51.5亿美元,是其过去两年融资总额的7倍还多。这家公司提供了一种新的方法,可在较少人工参与的情况下,便训练出模型。

今年,AI初创公司Refuel推出了一个名为Autolabel的开源工具,可以使用市面上主流的大模型来对数据集进行标注。该公司的测试结果称,Autolabel的标注效率相比人工标注提高了100倍,成本仅为人工成本的1/7。

在国内,一家名为视智未来的公司也在打造标注大模型。他们在接受采访时表示,有些项目已经用GPT交付了,准确率方面达到了80%多,与人工接近。

几乎所有从事过数据标注的人员,都向Tech星球透露着同一个观点:数据标注是一个没有门槛的工作,只需要你熟练使用电脑即可。

但事实上,如果简单的标注可以用AI来完成,那么人工参与的将是难度更高的数据筛选和标准工作,这也意味着行业的门槛将会不断提高,尤其是ChatGPT、文心一言类的大语言模型。

作为对照,早在ChatGPT走红前,OpenAI就组建十几位博士生来“打标”。而百度在海口的数据标注基地拥有数百名专职大模型数据标注师,标注师的本科率达到100%。

这类大语言模型的特点是,标注员需要具备一定的知识储备和逻辑分析能力。根据《财经十一人》报道,标注师们需要判断问题类型,随后给5个回答分别打分并排序,分数区间为0-5分,如果打分低于3分,还要标注出具体原因。

数据标注的另一个热门领域是自动驾驶。据德勤的报告显示,2022年自动驾驶领域的标注需求占整个AI下游应用的38%,预计到2027年,比例将上涨到52%。相较于大语言模型,对于自动驾驶领域的模型而言,那些简单的拉框操作依然有着较为宽松的学历要求。

标注员们是人类从移动互联网时代到人工智能时代的基石,Tech星球接触到的大部分从业者大多不清楚AI将带给他们那些改变,也不知道他们为了AI的发展做出的贡献,他们只是互联网时代的新一代螺丝钉,而且随时可能被替代。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册