4月26日,由安徽省人民政府、科技部、中国科学院主办的2021中国(安徽)科技创新成果转化交易会在合肥盛大开幕,大会以夯实创新基础,加快科技成果转化为主题,旨在通过汇聚科技成果资源,推动科技成果交易和签约落地。
在该大会的新能源与智能网联汽车产业链创新链协同主题论坛上,百度技术委员会理事长陈尚义作为演讲嘉宾,分享了百度多年来在数据领域,特别是自动驾驶应用场景中的数据采集、标注和训练的技术成果和应用实践。
众所周知,人工智能技术研发,离不开海量的、高质量的数据。伴随着整个产业的发展,尤其是自动驾驶高级别技术的发展演进,市场对于数据的需求呈指数级增长。陈尚义表示,百度在该领域积累了深厚的技术、能力和资源。
目前,数据从获取、加工,再到应用,每一个环节都仍面临诸多挑战:国家法规对于道路数据采集有着严格的测绘资质限制,且采集车辆和激光雷达等传感器采购、管理成本高;模型准确度关乎人身安全,自动驾驶算法研发对于数据的质量要求极高,且专业性难度大;数据量大、维度多,导致数据管理困难、训练流程割裂等,自动驾驶行业的数据痛点亟待解决。
陈尚义介绍,百度数据众包团队打造的数据服务与资产管理平台,可以提供涵盖数据采集、标注、存储、管理、训练、清洗、评测等全流程的一体化解决方案,覆盖人工智能开发的全生命周期,帮助企业快速推进技术落地。
在数据获取方面,百度拥有强大的采集能力、丰富的采集经验和领先的技术优势。百度自有采集车队,具备甲级测绘资质,可合规采集道路数据;适宜的线路规划和数据筛选方法,并已积累上千种场景;业内领先的采集车方案可满足多数技术路线,也可根据不同需求进行定制改装。
在数据加工方面,百度具备多种数据标注能力,覆盖自动驾驶等各种数据类型。为确保数据标注的效率和准确率,百度的数据平台对数据需求进行科学分发、精准的人员筛选、引入智能标注技术,以及多重审核流程,严守质量底线。同时,百度与山西综改区共建山西数据标注基地,每天有3200余人固定人力作业,以及超过20万活跃众包标注员,可提供业内最强的标注资源和产能支撑。
在数据应用方面,通过数据管理开发平台,百度可提供数据管理、模型训练、模型评估等一体化的数据应用服务。平台对海量数据进行标签可视化管理,对算力资源进行统一调度,支持业内多种AI主流框架;流水线式的作业建模和任务队列管理,最大程度提升算法研发的效率和机器资源利用率。
伴随着交通强国战略的提出和实施,自动驾驶离人民生活越来越近,行业正迫切需要越来越多的科技企业参与进来,为智慧交通基础设施的加速建设注入更多AI与数据结合的科技动能。百度数据众包是目前国内最大的AI数据服务提供商,未来将持续以专业合规的数据采集服务,优质高效的数据标注服务,和便捷高效的数据管理训练平台,高效释放数据价值,为各行各业赋能。