互联网技术 / 互联网资讯 · 2023年12月18日

百分点大数据技术团队:数据治理实施方法论

数据作为第五大生产要素,已逐渐成为政府和企业决策的重要手段与依据。面对数据多样化、数据需求个性化、数据应用智能化的需求,以及在2B和2G行业中数据质量参差不齐、数据应用难以发挥价值、数据资产难以沉淀等问题,如何做好数据治理工作、提升数据治理能力成为了政府和企业数字化转型的重中之重。百分点大数据技术团队基于多年的数据治理项目经验,总结了一套做好数据治理工作及提升数据治理能力的实施方法论。

近年来,推动数据治理体系建设一直是业界探索的热点,另外,《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》将数据作为第五大生产要素提出意义非同一般。但与劳动力等生产要素不同的是,数据是无形的,且数据孤岛林立,要想发挥数据价值,提升数据治理能力是必要举措。百分点结合多年政府各个部门及各类企业数据治理项目经验,提出数据治理项目开展过程中数据治理平台应具备4大能力:聚、治、通、用,以及项目实施总体指导思想:PDCA。

百分点大数据技术团队:数据治理“PAI”实施方法论

四大能力建设:

聚:数据汇聚能力,面对数据来源各异,数据类型纷繁多样,数据时效要求不一等各类情况,数据治理首先能把各类数据接入到平台中,是第一步。

治:狭义数据治理能力,包括数据标准、数据质量、元数据、数据安全、数据生命周期、主数据。核心是保证数据标准的统一、借助元数据掌握数据资产分布情况及影响分析和血缘关系、数据质量地持续提升、数据资产的安全可靠、数据资产的淘汰销毁机制以及核心主数据的统一及使用。

通:数据拉通整合能力,原始业务数据分散在各业务系统中,数据组织是以满足业务流转为前提。后续数据需求是根据实际业务对象开展而非各业务系统,所以需要根据业务实体重新组织数据。

用:数据服务能力,数据资产只有真正赋能于前端业务才能发挥实际效用,所以如何让业务部门快速找到并便利的使用所需数据资产是数据治理平台的另一项核心能力。

百分点大数据技术团队:数据治理“PAI”实施方法论

结合数据治理项目实际落地实施过程以四大能力构建、PDCA实施指导思想提出了“PAI”实施方法论,即流程化、自动化、智能化三化论,以逐步递进方式不断提升数据治理能力,为政府和企业后续的数据赋能业务及数据催生业务创新打下坚实基础。

数据治理流程化

因数据治理类项目通常采用瀑布式开发模式,核心流程包含:需求、设计、开发、测试、上线等阶段,流程化是将交付流程步骤进行详细分解并对项目组及客户工作内容进行提炼及规范,明确每个流程的标准输入、输出内容。

百分点大数据技术团队:数据治理“PAI”实施方法论

其中因需求、概要设计和详细设计为执行过程中的核心流程节点,将针对此三部分进行详细讲解。

需求调研

数据类项目总体调研流程如下:

百分点大数据技术团队:数据治理“PAI”实施方法论

数据调研是整个项目的基础,既要详细掌握现有业务现状及数据情况又要准确获取客户需求,明确项目建设目标。

需求调研工作事项

百分点大数据技术团队:数据治理“PAI”实施方法论

上表描述了需求调研过程关键节点的客户方及项目组工作内容内容及输入输出,并说明了需求调研阶段的总体原则、调研方式及相关要求。

需求调研注意事项

(1)需求收集

关键干系人需求

真正用户是谁及其需求

需求获取前置问题:客户管什么,重点关注什么,目前如何管理,欠缺什么,重复劳动有哪些?

(2)需求验证

3W验证,谁来用,什么场景下用,解决哪些问题?

原型草图

(3)需求管理

核心需求

识别是否行业共性

(4)需求确认

形成文字版需求规格说明书

务必签字确认

概要设计

数据治理项目概要设计主要涵盖网络架构、数据流架构、标准库建设、数据仓库建设四部分内容。总体目标是明确数据如何进出数据治理平台、数据在平台内部如何组织及流动以及数据在平台内部应遵循哪些标准及规范。针对每部分具体工作事项及输入、输出。

百分点大数据技术团队:数据治理“PAI”实施方法论

网络架构要明确硬件部署方案、待接入系统网络情况及后续使用人群及访问系统方式,以便满足数据接入及数据服务需求。

数据流架构要明确各类数据的处理方式及流向,以便确认后续数据加工及存储方式。

标准库建设要明确平台所遵循的各类标准及规范,以保证平台建设过程的统一规范,为后续业务赋能打下坚实基础。

数据仓库建设要明确主题域及关键实体,明确后续数据拉通整合的实体对象,以更好地支撑繁杂多变的数据需求。

详细设计

详细设计针对项目实际落地的工作模块分别进行设计,明确每部分实现的设计,具体模块、工作内容、输入、输出。

数据治理自动化

在将数据治理项目流程化以后整个工作内容及具体工作产出已经比较明确了,但是会发现流程中会涉及到大量的开发工作,同时发现很多工作具有较高的重复性或相似性,开发使用的流程及技术都是一样的只是配置不同,因此针对流程化以后各节点的自动化开发应运而生。通过配置任务的个性化部分,然后统一生成对应的开发任务或脚本即可完成开发。自动化处理一般有两种实现路径,其一是采购成熟数据治理软件,其二是自研开发相应工具。其中数据治理过程中可实现自动化处理的流程节点如“工序”标蓝色部分。

百分点大数据技术团队:数据治理“PAI”实施方法论

数据治理智能化

经过自动化阶段以后数据治理流程中数据仓库模型设计、MapPING映射等阶段依旧有非常多人工处理工作,这些工作大部分跟业务领域知识及实际数据情况强相关,依赖专业的业务知识和行业经验才可进行合理地规划和设计。如何快速精通行业知识和提升行业经验是数据治理过程中新的“拦路虎”。如何更好地沉淀和积累行业知识,自动地提供设计和处理的建议是数据治理“深水区”面临的一个新的挑战。数据治理智能化将为我们的数据治理工作开辟一个 “新天地”。在整个数据治理流程中智能化可以发挥作用的的节点如“工序”标红色部分。

百分点大数据技术团队:数据治理“PAI”实施方法论

基于以上知识的不断沉淀积累,在数据治理开展过程中即可进行智能化推荐。如上图所示,在做实体及属性认定时结合NLP技术和知识库规则即可进行相似度认定推荐。并且随着行业知识的不断积累和完善后期可以直接推荐行业主题模型及主数据模型,以及针对实体及属性的数据标准、数据质量检查规则的推荐。

总结

流程化是数据治理工作开展第一步,是自动化和智能化的基础,将数据治理各节点开展过程中用到的内容进行梳理并规范,包括:业务流程图、网络架构图、业务系统台账等,行业知识梳理完善以后形成行业版知识,如标准文件梳理,数据元标准整理。自动化是将流程化标准后的工作进行自动化开发,涉及仓库模型设计、标准化、脚本开发、DQC、指标体系自动化构建,包括自动化程序生成和自动化检查。智能化是在流程化、自动化基础之上针对数据拉通整合、主题模型、数据加工检查给出智能化建议,减少人工分析的工作。

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册