人工智能 · 2024年2月5日

百度数据众包:AI新基建的新商机

文/智能相对论(aixdlun)

作者/叶远风

AI成了新基建的C位,不论是原本就以AI立身的百度,还是纷纷在技术上加大投入以拥抱新基建的阿里、腾讯等巨头,最近都显出强化AI地位的态势。

在AI新基建浪潮下,其背后的动力和“灵魂”——AI数据行业正在快速增长。按照艾瑞咨询《2019年中国人工智能基础数据服务行业研究报告》,预计2025年市场规模将突破113亿元,其中,原本就在AI技术和应用上领先的企业在数据业务上也更为积极。

有人曾称5G是“新基建”的“基建”,是很多新基建项目的前置技术。事实上,以数据众包为代表的AI数据行业,也可以看作AI新基建的“基建”型业务,为各行各业智能化转型提供动能,加速智能经济到来。 反过来,当AI新基建蓬勃兴起时,它背后的数据众包产业也面临急速膨胀的市场,这是一片门槛不算高的蓝海,但并非人人都能做得好。

多重因素推动AI数据需求进一步增长

AI从行业架构上分为基础层、技术层、平台层以及应用层。无论是算力、算法、数据都只是在基础层,海量的数据获取和加工是AI发展的基石。

我们通常看到的那些AI智能化应用,在后端首先都需要足够多、足够好的数据对计算机进行训练。

推动基础层AI数据需求进一步增长,肯定来自于更上层的“倒逼”。总体看来,新基建的大背景下,整体AI行业的高速发展驱动了AI数据需求的增长“提速”,而具体来看,又有三重因素:

1、AI应用落地时对数据的强依赖

以人脸识别为例,一般的FaceID已经为人所熟知,其原理,是通过大量数据训练,让算法可以精准为整张脸标记特征,眼睛、鼻子、嘴、颧骨……从而识别不同的人物、确定身份。

但是,实际应用落地要想适用面更广,又会有新的麻烦。

例如,疫情期间戴上了口罩,就没办法为鼻子以下的部位做特征标记进行比对。这时候,AI数据的价值就体现出来了,更复杂、更大量的数据训练,让系统在鼻子以上部位能标记出更多、更细致的特征,半边脸就能完全区别出一个人来,甚至有科技公司开发出凭借眼部复杂特征的识别方式。

只有更高质量、更具有丰富度的数据,训练出更细致的特征标注能力,系统识别的能力才会越强。 在人脸识别之外,很多AI落地应用也有类似的逻辑。

2、AI应用场景深耕,垂直领域变为数据竞逐

在AI走得更快、更远的一些场景,数据的价值更为明显。

例如,在自动驾驶领域,决定自动驾驶平稳性和安全性的,是系统对路况各种要素的识别,而它们都依赖于前期大量数据训练,给机器标注各要素、教会它识别。

标注得越精细,机器的理解能力就会越强,发生意外的可能性就越低,就像学生学习知识一样,“不知道”的东西越来越少。

国内处在自动驾驶领先位置的百度,首先领先的就是数据,其ApolloScape数据集比Cityscapes、Kitty等同类的自动驾驶数据集大10倍以上,涵盖更复杂的环境、天气和交通状况。

可以说,在那些深耕的场景里,AI的竞逐首先甚至主要就是数据的竞逐,AI新基建的深度落地,离不开对数据的索求。

3、“AI国情”侧重于数据发展

与多数人想象不同的是,同为AI基础层,看起来十分高深的算法,其门槛已经不算高,公开渠道上,论文、开源深度学习框架、各种各样AutoML框架算法,可供获取的很多。

除了百度这样的AI巨头还需要在算法上做一些突破和引领,对多数AI参与者来说,算法已经不是遥不可及。

而正如原南开大学校长龚克所言,中国在核心算法上的优势不算明显,但中国的数据和应用场景可以领先世界。

这方面,AI数据需要的应用采集源(例如人相、交通道路图像等)、劳动力人口、需求市场,中国原本也十分有优势。在这样的“AI国情”下,AI新基建除了保证自有算法能力不被卡脖子,在已有大量落地场景的优势下,大力发展AI数据就顺利成章。

三大痛点,自建团队已并非“AI新基建”最优选择

AI数据的需求方,主要包括AI公司、科技公司、科研机构以及传统意义上的行业企业(手机、汽车、安防等),这个群体越来越庞大。

AI数据的市场供给,主要由企业自建或直接获取外包团队的形式以及供应商组成,而按照艾瑞咨询的报告,供应商模式占比高达79%。

问题在于,为什么需求方们都热衷于选择数据众包这类供应商模式来获得数据,在数据需求庞大的情况下,为什么不自建团队采集和标注数据?这主要基于三个痛点:

1、数据需求的“潮汐现象”

春运期间,铁路运力不够,平时,又大量闲置。

如果自建团队,很多AI需求方将产生与此类似的“潮汐现象”:受自身产品迭代周期的影响,在AI迭代期涌入大量数据需求,团队难以承受;在日常维护期数据需求不是很旺盛,团队又在闲置。

于是,数据供应商就成为弹性投入、增强企业适应力的必然,市场供给的主力军变成各类AI基础数据的服务提供者。

2、数据资源池不足

自建团队往往面临较为严重的数据资源池匮乏问题。举例来说,如果你是一家做与人体有关的图像识别的专业公司,或者需要这样的技术来配合主业,你可能需要寻找不同肤色、不同外形特征的人物做AI数据采集,以提升AI的“认知”能力,而对很多企业而言,除了依赖那些有限的开源数据,没有太多办法。

这方面,专门做数据业务的平台就有明显的资源聚集优势。 例如,单就人物图像来说,百度数据众包的数据资源池在国内覆盖30个省份,具备汉族、少数民族采集能力;在国外覆盖22个国家,具备白人、黑人、印第安人等多人种采集能力。

3、数据输出能力的“维度差距”

数据众包平台集中大量地熟悉数据采标业务,已经得到了充足的锻炼,一些平台,例如百度数据众包还对内提供大量数据服务,自2011年起全面支持百度自动驾驶、小度助手等AI业务,它们对于外部需求,在能力上更容易应对。

这本质上体现在通用的“标准化”和专项的“定制化”区别上。AI数据有时候只需要一些标准化的泛化数据,例如道路要素标记,车、路灯、行人、斑马线、双黄线等,有些时候则需要定制化数据,例如专门针对乡村小道的识别,其中可能有野狗、野猫等更复杂的要素。

但这种标准化和定制化只是相对的,对发展往往不够充分的自建平台而言是“定制化”(意味着需要花费大量精力),到了数据众包平台那里,可能只是“标准化”的一部分 ,像百度数据众包的标注能力已经可以覆盖市95%以上的主要标注场景。

AI新基建对数据采标有三大要求,数据众包都满足了吗?

有庞大而快速增长的市场,也有供应商模式相对自建团队的优势,在AI新基建浪潮下,数据众包成为了一门“更好的生意”,这些年也有不断大量的玩家加入。

总体而言,最早的玩家大都已经取得较明显的市场优势,例如百度数据众包已经成为在世界范围内采标能力、流程标准化/工具智能化、数据安全等方面都处于领先位置的一站式AI数据服务平台(这与中国AI领先、百度以AI为主战略也有关系),覆盖了智能驾驶、手机、互联网、AI开发者等头部客户;

而新进入者亦有冲劲,像云测数据从云测试转身到AI数据行业,对京东众智、腾讯云数据、龙猫数据等都可能形成冲击。

不过,从需求方的角度看,不论是谁,“一门更好的生意”要坐实,这三大基础要求必须满足。

1、安全:“银行级合规”

AI数据不但是AI新基建的重要驱动力,它也是企业的重要资产,它的泄露和核心算法的泄露都是知识产权的重大损失,没有根本区别。

只不过,算法可以自己蒙头在家管死,而在数据众包市场上,涉及到甲乙方原始数据交接、生产过程及成果交付,这其中存在着许多数据安全的口子。

一旦上升到新基建的高度,对很多赖以生存的需求方来说,说数据是命根子可能不为过,对数据的处理保证安全是第一位的,甚至需要“银行级合规”避免出现任何纰漏。

对巨头而言,出现安全问题就更加不能容忍,例如,百度数据众包为此在数据确权、数据加密、实名认证、生产监控等方面进行全流程管控确保数据安全

如果我们翻开各大平台的官网主页,即便最新进入的玩家云测数据,都能发现它们用了很大的篇幅先讲安全。

不过,安全最终还是靠“不出事故”来检验,如同云计算稳定性说得再好,不宕机才是最好的证明。

2、“产量”:前沿科技下的密集的劳动力

虽然AI是顶尖的前沿技术,但AI数据确实一个不折不扣的劳动力密集行业。AI新基建首先驱动的是对数据产量的需求,这直接反应到劳动力规模是否足够大上 ,毕竟,一张一张的

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册