📊 数据治理全景框架

数据治理不是项目,是机制 | 组织 + 流程 + 技术 + 制度 | 共 16 大模块 · 200+ 知识点

作者:野阔江流

🎯 数据治理全景框架

确保数据「找得到、看得懂、信得过、用得好」的一整套机制

一、数据治理是什么?为什么必须做?5个核心问题
1.1 定义 — 数据治理的四大支柱
组织架构:谁负责?谁执行?谁监督?流程制度:怎么做?什么标准?如何考核?技术工具:用什么工具?如何自动化?如何监控?价值实现:数据如何服务业务?如何产生价值?
一句话定义:数据治理是确保数据 找得到、看得懂、信得过、用得好 的一整套机制。
核心理念:数据治理不是成本中心,是价值中心。高质量数据 = 高质量决策 = 业务增长。
1.2 为什么必须做?(五大痛点)
问题不治理的后果治理后的效果
数据孤岛各系统数据不一致,决策靠猜统一数据源,跨部门协同
数据质量差报表不准,业务不信任数据可信,决策有依据
数据安全风险数据泄露、合规违规权限清晰、审计可追溯
重复建设各部门各自为政,成本高复用共享,降本增效
监管压力等保/GDPR/数安法不合规合规运营,避免处罚
二、数据治理的组织架构三层体系
2.1 三层治理体系
🏛️ 决策层 — Data Governance Council
职责:制定战略、审批制度、协调资源、裁决争议
成员:CDO(首席数据官) / CIO / 业务VP / 合规负责人
会议:季度治理委员会会议、重大事项临时会议

📋 管理层 — Data Governance Office
职责:制定标准、设计流程、监督执行、评估效果
成员:数据治理负责人 / 数据架构师 / 数据质量经理 / 安全专员
产出:数据标准、治理制度、质量报告、培训材料

🔧 执行层 — Data Stewards(三类管家)
├─ 业务数据管家:业务定义 · 质量把关 · 源头管控
├─ 技术数据管家:数据模型 · ETL流程 · 技术实现
└─ 系统数据管家:系统维护 · 日常监控 · 问题处理
2.2 关键角色职责表
角色职责典型产出汇报对象
CDO首席数据官数据战略制定、跨部门协调数据战略规划、年度预算CEO
数据治理负责人治理体系搭建、制度落地治理制度、质量报告CDO
数据架构师数据架构设计、技术选型数据架构图、技术标准CTO/CDO
数据质量经理质量规则设计、监控告警质量报告、SLA指标治理负责人
业务数据管家业务定义、源头质量业务字典、质量规则业务部门+治理团队
技术数据管家数据模型、ETL开发数据模型、ETL文档技术部门+治理团队
2.3 数据所有权与责任制
数据所有者(Data Owner):对数据有最终决策权的业务负责人数据管家(Data Steward):代表所有者执行日常治理工作数据使用者(Data Consumer):使用数据的人或系统
核心原则:谁生产谁负责,谁使用谁反馈
三、数据标准管理三大类标准
3.1 数据标准体系
基础数据标准:命名规范 · 编码规范 · 取值范围 · 参考数据业务数据标准:业务术语 · 指标定义 · 业务规则 · 计算逻辑技术数据标准:字段命名 · 数据类型 · 接口规范 · 模型规范
3.2 核心标准内容示例
标准类型内容示例
命名规范字段名、表名、系统名的命名规则用户ID统一用 user_id
编码规范主键编码、分类编码的规则订单号:ORD+时间戳+序号
数据格式日期、金额、百分比等格式日期统一 YYYY-MM-DD
取值范围枚举值、边界值定义性别:M/F/U (男/女/未知)
业务术语业务概念的标准定义"活跃用户":近30天有登录
指标定义计算口径、数据来源"客单价"=订单总额/订单数
3.3 参考数据管理
统一维护:参考数据由数据治理团队统一维护,发布标准版本版本控制:变更需记录版本、生效时间、变更原因映射关系:各系统内部码值需建立与标准码值的映射
参考数据示例:国家代码(ISO)、币种、状态码等系统间共享的基础数据
四、元数据管理四类元数据
4.1 元数据的分类
类型定义示例
技术元数据描述数据的技术属性表名、字段名、类型、索引、约束
业务元数据描述数据的业务含义业务定义、规则、所有者、使用场景
操作元数据描述数据的操作信息ETL作业、执行时间、处理行数、日志
管理元数据描述数据的管理属性数据分类、安全等级、保留期限、权限
4.2 元数据管理的五大内容
数据资产目录:有哪些数据?在哪些系统?谁负责?数据字典:每个字段的业务含义、技术属性、取值范围数据血缘:数据从哪来?经过哪些处理?到哪去?数据关系:表与表的关系、字段与字段的关系、系统间的关系变更历史:数据结构变更、业务规则变更、责任人变更
4.3 数据血缘管理
影响分析:上游表结构变更 → 影响哪些下游报表?溯源分析:报表数据异常 → 从哪一层开始出问题?合规审计:敏感数据从哪里来?流向哪里?
血缘路径示例:源系统A → ODS层 → DW层 → 报表A/报表B
4.4 元数据管理工具
工具类型功能代表产品
数据目录工具资产发现、血缘可视化、数据字典Apache Atlas / Collibra / Alation
数据建模工具数据模型设计、元数据维护ER/Studio / PowerDesigner / ERWin
ETL工具操作元数据采集、作业血缘Informatica / Talend / SSIS
自建平台定制化需求、集成企业内部系统自研元数据平台
五、数据质量管理六维度
5.1 数据质量六个维度
维度定义检测方法典型指标
完整性数据是否缺失空值检测、必填校验空值率 < 1%
准确性数据是否正确业务规则校验、跨系统比对错误率 < 0.5%
一致性数据是否矛盾跨表/跨系统一致性校验不一致率 < 1%
时效性数据是否及时数据延迟监控延迟 < 4h
唯一性数据是否重复主键/唯一键检测重复率 < 0.1%
有效性数据是否符合格式格式校验、枚举值校验格式错误率 < 0.5%
5.2 数据质量管理流程(五步闭环)
① 定义规则 → 业务方参与 + 技术实现② 执行检测 → 自动化执行 + 定时调度③ 问题分析 → 根因分析 + 影响评估④ 问题修复 → 数据修正 + 流程优化⑤ 效果评估 → 趋势报告 + KPI考核
5.3 数据质量SQL规则示例
-- 完整性:必填字段不能为空
SELECT COUNT(*) FROM orders WHERE order_id IS NULL OR customer_id IS NULL;

-- 准确性:订单金额不能为负
SELECT COUNT(*) FROM orders WHERE amount < 0;

-- 一致性:订单金额 = 明细金额之和
SELECT o.order_id FROM orders o LEFT JOIN order_details od ON o.order_id=od.order_id GROUP BY o.order_id HAVING o.amount <> SUM(od.amount);

-- 唯一性:主键重复检测
SELECT order_id, COUNT(*) FROM orders GROUP BY order_id HAVING COUNT(*) > 1;
5.4 三层监控体系 + 告警分级
层级监控内容频率告警方式
实时监控ETL作业状态、关键指标异常实时邮件+短信
日常监控数据质量六维度指标每日邮件+仪表盘
周期评估质量趋势、问题统计、改进效果每周/每月报告+会议
P0严重:核心错误率>5%/ETL失败 → 1小时内响应,暂停下游P1重要:错误率1-5%/延迟>8h → 4小时内当天修复P2一般:错误率<1%/格式问题 → 24小时内计划修复
六、数据安全管理六大模块
6.1 数据分类分级
级别定义典型数据保护措施
L4 绝密泄露将造成极严重损害核心商业机密、密钥、算法最高加密、严格访问、专人
L3 机密泄露将造成严重损害身份证号、银行卡号、工资加密存储、脱敏展示、审批
L2 秘密泄露将造成一般损害手机号、邮箱、地址脱敏展示、权限控制
L1 公开可对外公开的信息产品信息、公开公告基础访问控制
6.2 数据脱敏策略
脱敏方式适用场景示例
掩码手机号、身份证展示138****1234
替换姓名脱敏张三 → 张**
截断银行卡号6222****1234
随机化测试环境数据真实金额→随机金额
加密敏感数据存储AES加密存储
6.3 访问控制 RBAC
数据分析师角色:查询销售数据集市(不含敏感字段)业务经理角色:查询完整业务数据(含客户信息)数据工程师角色:读写ODS/DW层、查看技术元数据
审批流程:数据访问申请 → 数据管家审核 → 数据所有者审批 → 权限开通 → 定期复核
6.4 审计与合规
法规核心要求应对措施
网络安全法数据分类分级、安全保护措施分类分级制度、访问控制、加密
数据安全法数据安全责任、风险评估安全评估、安全审计、应急预案
个人信息保护法个人信息保护、用户授权隐私政策、授权管理、数据脱敏
GDPR数据主体权利、跨境传输数据主体请求响应、数据转移机制
七、主数据管理 MDM四域+两模式
7.1 什么是主数据?
跨部门共享:多个部门都需要使用相对稳定:变化频率低高价值:对业务决策影响大
7.2 典型主数据域
主数据域核心属性数据来源下游使用
客户主数据客户ID、姓名、联系方式、等级CRM、订单系统销售、客服、营销
产品主数据产品ID、名称、规格、价格ERP、商品系统销售、采购、仓储
供应商主数据供应商ID、名称、联系方式、等级采购系统、ERP采购、财务
员工主数据员工ID、姓名、部门、职位HR系统财务、权限、OA
7.3 主数据管理模式
集中式:各系统 → 主数据中心 → 分发到各系统(统一维护、统一标准、唯一数据源)联邦式:各系统维护自己的主数据 → 协调层负责同步(灵活但一致性难保证)
核心原则:主数据中心是唯一真实来源,数据仓库的主数据来源于主数据中心,不自行维护。
7.4 主数据管理五大环节
主数据识别主数据建模主数据整合(去重合并)主数据分发主数据维护
八、数据生命周期管理六阶段
8.1 六阶段全览
阶段管理要点关键措施
创建数据质量源头管控录入校验、数据标准、数据所有者
存储安全存储、高效访问分类存储、备份策略、加密存储
使用权限控制、使用审计访问授权、操作审计、使用规范
共享安全共享、数据脱敏脱敏规则、审批流程、传输加密
归档成本优化、合规保留归档策略、存储分层、索引管理
销毁合规销毁、不留痕迹销毁审批、安全擦除、销毁证明
8.2 数据保留策略
数据类型保留期限法律依据存储位置
交易记录10年会计法热存储→冷存储
用户个人信息注销后6个月个人信息保护法热存储
系统日志6个月网络安全法温存储→归档
财务凭证30年会计法冷存储
8.3 归档与销毁流程
归档流程:识别归档数据 → 评估归档价值 → 选择归档方式(压缩/冷介质) → 执行归档 → 更新元数据

销毁流程:触发销毁条件(保留期满/业务下线) → 多级审批 → 最后备份 → 安全擦除(物理删除/覆盖写入) → 销毁证明存档
九、数据架构治理四层次
9.1 四层次架构治理
层次内容治理要点
企业级数据架构数据战略、数据蓝图、数据地图与业务战略对齐、规划演进路径
系统级数据架构系统数据模型、数据流、接口标准化设计、避免重复建设
数据模型概念模型、逻辑模型、物理模型建模规范、评审流程、版本管理
数据存储数据库选型、存储策略、容量规划成本优化、性能保障、扩展性
9.2 架构评审流程
架构设计 → 架构评审(架构师+业务专家+技术专家) → 评审意见 → 修改完善 → 评审通过 → 实施评审要点:模型设计是否合理 / 数据流是否正确 / 是否存在孤岛 / 安全是否到位 / 性能是否满足
9.3 架构演进示例
现状:各系统独立建设,数据孤岛严重
目标:统一数据平台,数据共享互通
演进路线:
├─ 第1年:建设数据仓库,整合核心业务数据
├─ 第2年:建设主数据中心,统一核心主数据
└─ 第3年:建设中台,实现数据资产化
十、数据治理流程与制度四级制度
10.1 核心治理流程
流程内容频率
数据标准发布流程标准制定→评审→发布→执行按需
数据质量改进流程问题发现→分析→修复→验证持续
数据安全审批流程访问申请→审批→授权→审计按需
元数据变更流程变更申请→影响分析→审批→执行按需
数据问题处理流程问题上报→分派→处理→反馈持续
10.2 四级制度体系
一级制度(总纲):《数据治理管理办法》二级制度(专项):数据标准/质量/安全/元数据/主数据管理办法三级制度(操作):命名规范/分类分级/质量评估/访问权限规范四级制度(流程):标准发布/问题处理/访问审批流程
十一、数据治理评估与度量成熟度+KPI
11.1 成熟度模型 L1-L5
等级名称特征
L1初始级无组织、无流程、无工具,被动应对
L2发展级开始建组织,部分有标准,以手工为主
L3定义级完整组织架构,完善标准流程制度,部署工具
L4管理级流程自动化,持续改进,融入业务,价值可量化
L5优化级成为企业文化,数据驱动决策,持续创新
11.2 KPI指标体系
维度KPI指标目标值频率
数据质量数据质量评分> 95%每月
数据质量核心字段空值率< 1%每日
数据质量数据错误率< 0.5%每日
数据安全安全事件数0每月
数据安全权限审批及时率> 95%每月
数据标准标准覆盖率> 90%每季度
数据资产数据资产目录覆盖率> 80%每季度
数据服务数据需求响应时间< 3天每月
数据服务数据用户满意度> 85%每季度
十二、数据治理工具平台五大平台
12.1 工具体系架构
数据资产管理平台:数据目录 + 元数据管理(Atlas/Collibra/Alation)数据质量平台:质量规则 + 质量监控 + 问题管理(Great Expectations/Informatica DQ)数据标准平台:标准发布 + 版本管理 + 标准映射数据安全平台:权限管理 + 数据脱敏 + 审计日志(Apache Ranger/Protegrity)主数据管理平台:主数据维护 + 分发策略 + 质量监控(Informatica MDM/Riversand)
12.2 平台选型原则
业务匹配:功能满足需求,不追求大而全技术兼容:与现有技术栈兼容,集成成本低可扩展性:支持未来数据量和业务增长易用性:界面友好,学习成本低成本可控:采购+实施+运维成本合理
十三、数据治理实施路径八步法
13.1 八步实施法
Step 1 规划:明确目标、制定战略、规划路线图Step 2 组织:建立治理委员会、组建治理团队、明确角色职责Step 3 评估:数据资产盘点、质量评估、成熟度评估Step 4 标准:数据标准、流程制度、规范文档Step 5 平台:元数据平台、质量平台、安全平台Step 6 试点:选择试点业务域、验证流程、积累经验Step 7 推广:扩展到其他业务域、持续优化Step 8 运营:日常治理、效果评估、持续改进
13.2 关键成功因素 vs 失败原因
✅ 成功因素❌ 失败原因
高层支持(CDO/CIO)缺乏高层支持,资源不足
业务参与(不是IT独角戏)IT独角戏,业务不参与
价值导向(解决痛点)贪大求全,周期长见效慢
小步快跑(先试点后推广)重工具轻流程
工具支撑(自动化)缺乏价值量化
持续投入(长期工程)人才不足
十四、DAMA-DMBOK 数据管理体系10大领域
14.1 DAMA 10大数据管理领域
① 数据架构 (Data Architecture)② 数据模型与设计 (Data Modeling & Design)③ 数据存储与操作 (Data Storage & Operations)④ 数据安全 (Data Security)⑤ 数据集成与互操作 (Data Integration & Interoperability)⑥ 文档与内容管理 (Document & Content Management)⑦ 参考数据与主数据 (Reference & Master Data)⑧ 数据仓库与BI (Data Warehousing & BI)⑨ 元数据管理 (Metadata Management)⑩ 数据质量 (Data Quality)
14.2 治理 vs 管理
数据治理 (Governance):对数据管理活动进行指导和监督 | 关注战略、组织、制度、流程、评估 | 回答:为什么做?谁负责?怎么做?

数据管理 (Management):执行数据治理决策的具体活动 | 关注技术、工具、实施、操作 | 回答:用什么方法?用什么工具?

关系:治理 ──指导──▶ 管理 ──反馈──▶ 治理
十五、数据治理最佳实践10条+建议
15.1 十大最佳实践
领域最佳实践
组织设立CDO职位,建立数据治理委员会
标准从核心业务数据开始建立标准,逐步扩展
质量建立数据质量SLA,纳入业务部门KPI
安全数据分类分级,最小权限原则
元数据自动化元数据采集,减少人工维护
主数据建立主数据中心,统一数据源
流程建立数据问题处理闭环流程
工具先流程后工具,工具服务流程
评估建立数据治理成熟度评估体系
培训定期开展数据治理培训,提升全员素养
15.2 给不同角色的建议
给CDO的建议:从痛点出发选高价值场景 → 建立治理委员会争取高层支持 → 设专职团队 → 建KPI量化成效 → 定期向管理层汇报

给治理负责人的建议:先建组织和制度流程再建工具 → 选试点快速见效 → 建管家网络覆盖各业务部门 → 建反馈机制持续改进

给数据管家的建议:深入理解业务从业务视角看数据 → 建质量规则持续监控 → 与业务部门搞好关系 → 记录常见问题形成知识库
十六、总结:核心要点终极总结
16.1 数据治理是什么
组织+流程+技术+制度的体系确保数据找得到、看得懂、信得过、用得好是持续运营机制,不是一次性项目
16.2 数据治理做什么(八大维度)
组织架构:治理委员会、数据管家、角色职责数据标准:命名规范、编码规范、数据格式、业务术语元数据管理:数据目录、数据字典、数据血缘数据质量:六维度监控、质量规则、问题处理数据安全:分类分级、访问控制、脱敏加密、审计合规主数据管理:主数据整合、分发、维护数据生命周期:创建、存储、使用、归档、销毁数据架构:架构设计、架构评审、架构演进
16.3 怎么做 + 关键成功因素
实施路径:规划 → 组织 → 评估 → 标准 → 平台 → 试点 → 推广 → 运营

六大关键成功因素:
① 高层支持(CDO/CIO) ② 业务参与(业务数据管家) ③ 价值导向(解决痛点)
④ 小步快跑(试点后推广) ⑤ 工具支撑(自动化) ⑥ 持续投入(长期工程)

🎯 最终目标:数据资产化 → 数据价值化 → 数据驱动业务增长
16.4 常用术语表
术语英文定义
数据治理Data Governance对数据资产进行有效管理的体系
数据所有者Data Owner对数据有最终决策权的业务负责人
数据管家Data Steward代表所有者执行日常治理工作的人
元数据Metadata描述数据的数据
数据血缘Data Lineage数据从源头到目标的流转路径
主数据Master Data企业核心业务对象的标准化数据
参考数据Reference Data系统间共享的基础数据
数据脱敏Data Masking对敏感数据进行遮蔽处理
CDOChief Data Officer首席数据官
DAMAData Mgmt Association国际数据管理协会
DMBOKData Mgmt Body of Knowledge数据管理知识体系指南
16
大模块
62+
核心知识点
200+
详细条目
10
颜色主题