互联网技术 / 互联网资讯 / 营销 · 2022年9月14日 0

AI数据服务行业进入“认知战争”,云测数据如何保持行业领先地位?

文 | 曾响铃

来源 | 科技向令说(xiangling0815)

新基建驱动AI加速落地,也让它背后的“粮草”——AI数据标注产业进入发展快车道。

不久前,今年首场国家级重大国际经贸活动服贸会的成果发布环节上,数据标注领域的头部企业云测数据首次对外展示了一项成果,其数据项目的最高交付精准度竟然达到了99.99%。

这个决定AI产品落地水平的领域里,99.99%的精准度刷新了一个行业记录,按照实际AI项目的需要,AI客户可选择的服务标准跨越到了一个新的时代。

AI数据服务行业进入“认知战争”,云测数据如何保持行业领先地位?

事实上,在多元化的人工智能场景落地背景下,更高标准的AI数据质量已成为AI的刚需。这次服贸会上,数据标注的头部企业所进行的99.99%的成果展示,其背后也隐含着行业高阶进化的改变,最突出的就是“劳动密集”的标签,可能要被彻底撕掉了。

高精度,成就数据标注的“差异化”?

AI数据标注产业是人工智能链条上最偏“人工”的部分,早期的低门槛使得市面上存在着大大小小的企业、工作室,泥沙俱下,良莠不齐。

但现如今,我们已经看到这一现状正在发生变化,AI数据服务行业随着AI产业需求进行着优胜劣汰。现在,当行业头部企业将最高项目交付精准度提升到一个“顶尖”时,马太效应突出,差异化趋势愈发明显。

1、表面同质化服务下,数据精度推动数据标注企业获得“差异化认知”

在过去很长一段时间内,AI企业多根据自身项目需求为导向来选择数据标注服务商,AI数据行业内并没有太多严谨的规则。可以说,过去的数据标注,是一个有些缺乏“差异化认知”的行业,A企业和B企业到底怎么区分,没有明确的标准。

当头部企业从自身出发首次规范行业标准,将最高99.99%的数据标注精准度进行正式发布,实际上就等于给行业设定了一个可行的认知标准,这样的AI数据才是高质量数据。

至此,不管是AI企业客户还是业界人士,或都可以借助精准度对数据标注行业进行企业与企业的区分,而不是在认知上一锅烩。

而这,当然也来源于99.99%这个精确度与其他诸如92%、95%、98%之类的数字存在着跨越时代级别的差异。

这某种程度上也表明数据标注产业在伴随AI发展多年后,自身开始趋向成熟,头部玩家强者恒强,产业内优势资源和技术得到有效聚集,朝着无限接近100%进发,99.99%更像是一个里程碑,将加快人工智能时代的到来。

2、用高精度切中AI发展需求,数据标注企业更容易获得“差异化竞争优势”

跳出普通人“认知”方面的驱动力,高精度数据的另一重差异化价值是切中AI发展需求。

随着AI的持续深度发展,场景落地已经代替技术研究成为主旋律,数据标注的服务方向从“AI产品训练”走向“AI产品落地”,这意味着AI项目试错空间相较于技术研究大幅下降,要求更高的精确度来满足用户体验。

更进一步看,新基建中的重要版块AI新基建,生来就带有强烈的落地应用导向——要驱动各大产业升级,也必须更贴近落地。

在数据质量决定AI算法的精度、算法的精度又决定产品质量的关联逻辑下,更注重落地的AI项目会更积极主动寻找那些数据质量(精确度)更高的供应商,数据标注行业将会形成过去没有的梯度,发布最高99.99%精确度标准的头部企业云测数据,还将藉此获得“差异化竞争优势”吸引更多产业客户,如果没有更多企业跟随上来,则将一直保持唯一的“第一梯队”。

PK高精度后,是时候放弃对数据标注“劳动密集”偏见了?

劳动密集是之前业界对AI数据标注的主要评价,或者说刻板印象,AI界的“富士康”之类的说法揭示出这个产业的外在尴尬形象。

但这一切,随着更高精度的数据标注成果出现而开始改变。

一个普通的草台班子数据标注团队可能也能实现及格线上的AI数据精确度,这是机械式的人力操作天然具备的能力,毕竟数据标注确实主要靠的是人力的劳动。但再要提升精度,尤其是无限往100%靠近,就必须更多依赖各种技能的支撑,不断进行高位再优化,榨取精度提升的空间。

数据标注的精准度越高,再次上升(并保证配套服务质量)能够从“人力”中获得的支持越少,从“技能”获得的支持越多。

因此,当数据标注产业出现99.99%这类高精度成果时,也意味着技能的成分可能超越了人力的成分,行业已经走向了各类前沿技术支撑的“技能密集”阶段。

这种支撑高精确度的“技能密集”,应当包括四个方面:

1、专业人才技能:需求专业化倒逼数据标注人才素养提升

专业、垂直类的数据标注,比泛化的数据标注更需要技能支撑,尤其在需要获得高精准度的情况下,单纯的体力劳动已经不可能完成。

一是特殊的数据标注类型,例如,云测数据的主要服务场景之一自动驾驶,常常会有激光雷达传感器产生的数据需要标注。一般车载摄像头的数据标注,比较“体力化”,框出指定的元素教会算法识别即可:

AI数据服务行业进入“认知战争”,云测数据如何保持行业领先地位?

而激光雷达的数据则与人类现实世界差距甚远:

AI数据服务行业进入“认知战争”,云测数据如何保持行业领先地位?

这时候,云测数据不得不要求人工对雷达数据有丰富的知识技能和处理经验,可能还牵扯很多物理学方面的知识,绝不再是简单地体力劳动了。

二是,专业领域的数据标注。这方面较为典型的是垂直领域的语音、文本类数据标注,例如金融、家居领域,这些数据标注的需求不亚于这些领域一线的业务人员(需要深度理解业务,才能标注好包括专业词汇、逻辑等数据),因此,像云测数据这类平台培养了金融、家居等领域的“专才”,甚至于,在为一些金融机构服务时,还要按照需求提供达到素质要求的标注队伍进行作业。

2、复杂工具技能:数据标注本身也在进行某种数字化升级

高精度的实现,除了数据标注人员由流水线工人转化为有特定技能的专业人才之外,随着业务量的扩大,还配套有渗透全流程的各种数字化工具来提高准确率、效率,这就如同一个制造业企业进行了数字化、智能化升级来应对严苛的市场竞争一样。

从云测数据的案例看,99.99%的准确率背后是一大堆技术工具在支撑。