阿里云优惠券 先领券再下单
最近,大数据领域的领军企业Palantir因其在国防领域的深入应用而备受关注。其核心的“本体论”方法论展现了追求规范和统一的工程思想。
Palantir的“本体论”方法论为数据应用的实施提供了重要的理论支撑。该方法论强调通过提前定义完整的业务实体、关系和规则,建立统一的数据语义框架,以确保数据的准确性和一致性。这种“精密工程”的方法在业务逻辑相对稳定且对数据一致性要求极高的场景(如国防和金融风险控制等)中展现了独特的价值。
数睿数据于2024年推出的「数据通」是基于SMaRdaten构建的面向数据工程的产品解决方案。它与Palantir的核心理念惊人地相似,承继并通过方法论的进化和实践创新,实现了更轻量和敏捷的本土化应用。
今天,我们将对此进行深入分析!
一、承袭核心理念 以“模型”理解世界
Palantir的本体论不仅仅是对数据进行提取、转换和加载,而是首先构建一个能够准确描述企业业务运作的抽象数据模型。该模型定义了:
&Middot; 实体:如客户、供应商、订单、设备
&Middot; 实体之间的关系:如“客户” “创建了”“订单”
&Middot; 实体的属性:如“客户”有“名称”、“ID”、“行业”等属性
数据通提倡的“让数据迅速使用”的理念与“本体论”不谋而合,并体现在专家知识库的构建中。同样是通过构建一个抽象的行业模型库,通过沉淀算法库、标准库、字段库与模型库,将行业专业知识系统化封装。在数据通用户手册中,“专家库的构建方法”章节显示了其构成要素与Palantir本体论的高度对应。
两者均相信,有效的数据治理和分析必须始于对业务的深刻理解和模型化,而不是粗暴处理原始数据。这解决了传统数据治理中“业务含义不清、数据模型设计与物理表开发断链”的根本问题。

Palantir本体论与数据通建模概念的对应关系
二、进化方法论 从“专家访谈”到“产品化轻量实践”
1. 实体识别方法的智慧
Palantir的实施通常从与业务专家的深入访谈开始,以提取业务本体。数据通则明确提出了两种构建实体的方法,视为Palantir方法的流程化和工具化:
方式1:围绕业务场景设计 这类似于Palantir的“逆向工程”,从业务流程(如“客户下单”)中提取实体(“客户”、“订单”)和事件(“下单事件”)。
方式2:围绕分析场景设计 即从分析目标(如“销售指标”)反推所需的明细数据(“销售记录”)和维度实体(“商品”、“员工”),这种方法更符合数据仓库建设的思维。
结合这两种思路的方法,使得数据通既具备了Palantir的业务洞察深度,又兼顾了传统数据分析的需求,实用性更强。

数据通实体识别方法
2. 专家规则——自动化的基石
这是两者最精彩的交汇点。Palantir的强大之处在于一旦本体建立,它能自动发现数据源中的实体并与本体映射,实现“快速找数”。数据通的“主动数据治理”理念,其“主动”性体现在此:
&Middot; 专家规则:如“映射规则”、“识别规则”(例如身份证识别算法),即Palantir中用于自动化映射的“规则”或“插件”的体现。
&Middot; AI技术:通过识别算法判断字段含义,这比单纯依赖元数据匹配更智能,且与Palantir使用的技术相似。
&Middot; 复用与沉淀:实施一个或多个项目后,转换算法将逐步沉淀,以供后续建模时复用。这是在构建一个不断成长的、行业化的“专家知识库”,与Palantir在不同项目(如政府、金融、医疗)中积累的行业本体库思路完全一致。
可以说,数据通的“专家知识库”不仅是数据模型的定义,还包括实现自动化治理的“规则和算法”,这与Palantir本体论驱动的自动化数据集成理念不谋而合。
3. 关键差异与数睿数据·数据通的特色
尽管理念与方法同源,但两者仍存在一定区别:
&Middot; 受众转变:Palantir更像一个“专家”平台,由数据科学家和工程师主导,通过代码进行高级别的本体定义和集成,灵活性强但门槛高。数据通则更偏向“具备数据思维的业务人员”。与Palantir的代码驱动模式相比,数据通通过可视化建模、自然语言交互等产品化设计,使业务专家也能主导数据模型构建——这正是其“轻量级”实践的核心体现。数据通产品手册中提供了大量详细工具的使用指引,充分体现了这种“开箱即用”的产品化思路。

&Middot; 范围聚焦:Palantir本体论贯穿从数据集成、治理到分析应用的整个链条,尤其擅长处理复杂、异构的关系网络数据。数据通则明确其范围“以数据模型为基石,向分析应用延伸”,更侧重于为数据仓库/数据中台的底层建设提供一种先进的、自动化的模型设计方法,是数据治理流程的上游环节。

专家知识库在数据治理中的应用逻辑
三、数睿数据模式创新,渐进式敏捷与智能闭环
1. 渐进式敏捷构建:边用边建,快速见效
与传统“大而全”的模型先行思路不同,数据通倡导从核心场景切入,边使用边完善知识库。
这里有两个值得强调的点:一是基于数据通的自动建模能力,用户可以提问并不断追问,在各类分析场景中穿梭,最终达成用户满意的问数意图。二是数据通会拆解意图并告知用户其分析逻辑,用户在过程中能够判断分析逻辑和思维链是否正确。如果发现数据缺失,系统也会引导反向补全数据源。
即便在初期数据基础薄弱的情况下,这种模式依然具备良好的可用性。随着专家知识库的不断学习和完善,分析的准确性和覆盖度将迅速提升。

智能问数意图拆解
这种边用边建的优势也非常明显:初始门槛低,无需前期投入过大,能够快速启动并取得成效;伴随业务的持续补充,这种模式使得数据通更加适应快速变化的业务环境,如工业制造和数字营销等行业。
2. Data Agent与自然语言理解:智能响应闭环
数据通采用AI智能体和自然语言对话,推动数据的快速使用。这使得用户的使用和维护变得更加简便。
&Middot; Data Agent:实现“智能取数—主动治理—智能问数”的全流程闭环,能够根据场景动态获取信息并生成数据分析模型。
&Middot; 自然语言理解:大幅降低使用门槛,用户可以直接使用“分析工厂缺陷率趋势”等自然语言下达指令,系统能够精准解析并直接交付结果。

四、实践印证,数睿数据敏捷响应正在释放巨大价值
目前,卫健、电力、制造等行业的领先企业已经开始采用“敏捷响应”的新模式。
以某市卫健委项目为例,其成功的关键在于渐进式策略。项目开始时并未追求构建完美而庞大的数据模型,而是聚焦于“医疗质量监测”等关键场景,快速梳理并沉淀了覆盖诊疗、药品、病种等60余项医疗领域数据模型,每个模型统一定义所有数据字段和标准,构建于数据通的专家知识库中。

专家知识库模型在数据通中的配置效果
在此基础上,数据通逐步接入辖区医院的异构数据源,完成超过20万张数据表的整合与治理,形成了统一规范的医疗数据中心。基于专家知识库的支持,平台能够对部分场景实现自动化映射和智能匹配推荐,从而提取目标数据,将跨医院数据获取从被动转为主动,将原本耗时三个月的人工比对工作缩短至仅一周。

主动数据治理智能匹配推荐
项目成功上线后,随着接入医院数量的增加至40个及业务场景的不断扩展,平台内沉淀的专家数据模型从最初聚焦核心场景的60余个,逐渐丰富至200余个,显著提升了AI大模型对医疗业务语义的理解能力,智能治理与分析的场景覆盖面日益全面。
如今,只需像聊天一样输入需求,曾经需要专业团队耗时数周完成的“慢性病监测报告”、“就诊趋势分析”、“疾病流行趋势预测”等复杂任务,如今只需瞬间即可完成。这一过程充分体现了“数据越流动越智慧,越使用越增值”的平台进化价值。
结语
如果Palantir的本体论是构建企业“数据大脑”的尖端哲学,那么数睿数据·数据通则是一套成熟可操作的本土化工程蓝图。它承袭了模型驱动的核心理念,进化出更轻量、产品化的方法论,并通过渐进式敏捷与智能闭环实现了规模化交付。
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
