数据治理 Data Governance 基础概念

数据架构、数据标准、数据质量、主数据管理、元数据管理、数据安全、数据生命周期、数据基础平台、数据应用、数据需求与规划 、外部数据采购、数据运维等;数据治理的6个基本原则:职责、策略、采购、绩效、符合和人员行为;数据管理组织的构成分为三个层次,自上而下划分为决策层、管理协调层以及执行层。

数据治理涉及到哪些方面?

数据架构、数据标准、数据质量、主数据管理、元数据管理、数据安全、数据生命周期、数据基础平台、数据应用、数据需求与规划 、外部数据采购、数据运维等

数据治理的6个基本原则:职责、策略、采购、绩效、符合和人员行为

数据管理组织的构成分为三个层次,自上而下划分为决策层、管理协调层以及执行层。

企业数据架构管理应该遵循 可信数据源原则;数据分布减法原则;数据完整性原则

数据治理过程中用到的工具

  1. 数据生命周期管理相关工具
  2. 数据安全相关工具
  3. 主数据管理工具
  4. 数据清洗工具
  5. 数据资产管理工具
  6. 数据共享交换平台或工具
  7. 数据质量管理工具
  8. 元数据管理工具
  9. 数据标准化工具

数据治理参考标注或方法论

SMART的:Specific(具体的)、Measurable(可衡量的)、Actionable(可操作的)、Relevant(相关的)、Timely(及时的)。

  1. GB/T36073-2018《数据管理能力成熟度评估模型》 —- 《数据管理能力成熟度评估模型》DCMM
    • DCMM按照组织、制度、流程、技术对数据管理能力进行了分析和总结, 提炼出组织数据管理的8个过程域,即数据战略、数据治理、数据架构、数据应 用、数据安全、数据质量、数据标准、数据生存周期
  2. GB/T 34960《信息技术服务治理 数据治理规范》
  3. DAMA DMBOK — DAMA数据管理知识体系指南(原书第2版)
  4. DGI
  5. COBIT 5
  6. TOGAF 9

DAMA数据管理知识体系、DCMM数据管理能力成熟度评估、DGI数据治理框架

DMBOK 简述

  • 数据治理(Data Governance):通过建立一个能够满足企业需求的数据决策体系,为数据管理提供指导和监督。这些权限和责任的建立应该考虑到组织的整体需求。(参见第3章)
  • 数据架构(Data Architecture):定义了与组织战略协调的管理数据资产的“蓝图”,指导基于组织的战略目标,指定符合战略需求的数据架构。(参见第4章)
  • 数据建模和设计(Data Modeling and Design):以数据模型(data model.)的精确形式,进行发现、分析、展示和沟通数据需求的过程。(参见第5章)
  • 数据存储和操作(Data Storage and Operations):以数据价值最大化为目标,包括存储数据的设计、实现和支持活动,以及在整个数据生命周期中,从计划到销毁的各种操作活动。(参见第6章)
  • 数据安全(Data Security):这一活动确保数据隐私和安全,数据的获得和使用必须要有安全的保障。(参见第7章)
  • 数据集成和互操作(Data Integration and Interoperability):包括与数据存储、应用程序和组织之间的数据移动和整合相关的过程。(参见第8章)
  • 文档和内容管理(Document and Content Management):用于管理非结构化媒体的数据和信息的生命周期过程,包括计划、实施和控制活动,尤其是指支持法律法规遵从性要求所需的文档。(参见第9章)
  • 参考数据和主数据管理(Reference and Master Data Management):包括核心共享数据的持续协调和维护,使关键业务实体的真实信息,以准确、及时和相关联的方式在各系统间得到一致使用。(参见第10章)
  • 数据仓库和商务智能(Data Warehousing and Business Intelligence):包括计划、实施和控制流程,来管理决策支持数据,并使知识工作者通过分析报告从数据中获得价值。(参见第11章)
  • 元数据管理(Metadata Management):包括规划、实施和控制活动,以便能够访问高质量的集成元数据,包括定义、模型、数据流和其他至关重要的信息(对理解数据及其创建、维护和访问系统有帮助)。(参见第12章)
  • 数据质量管理(Data Quality Management):包括规划和实施质量管理技术,以测量、评估和提高数据在组织内的适用性。(参见第13章)

除了有关知识领域的章节外DAMA-DMBOK,车轮图以外的内容,包含以下主题章节:

  • 数据处理伦理(Data Handling Ethics):描述了关于数据及其应用过程中,数据伦理规范在促进信息透明、社会责任决策中的核心作用。数据采集、分析和使用过程中的伦理意识对所有数据管理专业人士有指导作用。(参见第2章)
  • 大数据和数据科学(Big Data and Data Science):描述了针对大型的、多样化数据集收集和分析能力的提高而出现的技术和业务流程。(参见第14章)
  • 数据管理成熟度评估(Data Management Maturity Assessment):概述了评估和改进组织数据管理能力的方法。(参见第15章)
  • 数据管理组织和角色期望(Data Management Organization and Role Expectations):为组建数据管理团队、实现成功的数据管理活动提供了实践提供和参考因素。(第16章)
  • 数据管理和组织变革管理(Data Management and Organizational Change Management ):描述了如何计划和成功地推动企业文化变革,文化的变革是将数据管理实践有效地嵌入组织中必然结果。(第17章)

DGI数据治理项目通用10个组成部分

分类 具体内容
与过程相关 ① 最终目标与愿景
② 短期目标、治理标准、评估标准、资金筹集策略
③ 数据规则与定义
④ 决策权
⑤ 问责制度
⑥ 控制措施
与员工与企业部门相关 ⑦ 数据利益相关方
⑧ 数据治理办公室
⑨ 数据管理小组
与过程相关 ⑩ 主动型、应对型与持续性的数据治理过程(项目)

DGI框架的5W1H法则

WHY,为什么需要数据治理?

DGI框架中的第1-2组件,数据治理愿景使命、数据治理目标。用这两个组件来定义企业为什么需要数据治理。它为企业数据治理指明了方向,是其他数据治理活动的总体策略。

WHAT,数据治理治什么?

DGI框架中的3-6个组件,数据规则与定义、数据的决策权、数据问责制、数据管控,DGI框架这4个组件定义出了数据治理到底治什么。

  • 数据规则与定义,侧重业务规则的定义,例如:相关的策略、数据标准、合规性要求等;
  • 数据的决策权,侧重数据的确权,明确数据归口和产权为数据标准的定义、数据管理制度、数据管理流程的制度奠定基础。
  • 数据问责制,侧重数据治理职责和分工的定义,明确谁应该在什么时候做什么。
  • 数据管控,侧重采用什么样的措施来保障数据的质量和安全,以及数据的合规使用。

WHO,谁参与数据治理?

DGI框架中的7-9组件,定义数据治理的利益干系人,主要包括:数据利益相关者、数据治理办公室和数据专员。DGI框架对数据治理的主导、参与的职责分工定义给出了相关参考。

WHEN,什么时候开展数据治理?

DGI框架中的第10个组件,用来定义数据治理的实施路径、行动计划。

HOW,如何开展数据治理?

DGI框架中的第10组件,数据治理流程,描述了数据管理的重要活动和方法。

WHERE,数据治理位于何处?

DGI框架外的组件,虽然没有含在10大组件之列但却十分重要,强调明确当前企业数据治理的成熟度级别,找到企业与先进标杆的差距,是定义数据治理内容和策略的基础。

参考链接:https://blog.csdn.net/m0_56143415/article/details/122706095

flink 一步一步学习

flink是一个用于对无界和有界数据流进行有状态计算的框架和分布式处理引擎,被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算, 即它是一个持高吞吐、低延迟、高性能的分布式处理框架。是Apache软件基金会的顶级项目

flink图标

flink是什么?

对于技术学习,无论是什么语言什么工具,对其介绍或者说学习最主要的途径就是官方网站和主要文档。其它任何地方的信息都是其官方网站的信息挪用。对flink的介绍在其官网上有下边一段话。

Apache Flink is a framework and distributed processing engine for stateful computations over unbounded and bounded data streams. Flink has been designed to run in all common cluster environments, perform computations at in-memory speed and at any scale.

大概翻译一下: flink是一个用于对无界和有界数据流进行有状态计算的框架和分布式处理引擎,被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算, 即它是一个持高吞吐、低延迟、高性能的分布式处理框架

  • 无界数据流:无界数据流有一个开始但是没有结束
  • 有界数据流:有界数据流有明确定义的开始和结束

flink的特点

用一句话来概述特点就是,flink基于数据流的状态计算。而在其官网地址打开时有一张图也可以具体的体现其特点。事件驱动、流处理、流批一体
flink的基本特点介绍

flink VS spark

在spark中,一切都是由批次组成的,离线数据是一个大批次,而实时数据是由一个一个无限的小批次组成的,本质是RDD,是数据集合,是有界的。
在flink中,一切都是由流组成的,离线数据是有界限的流,实时数据是一个没有界限的流,这就是所谓的有界流和无界流。

友情链接

  1. apache hive 大数据的ETL工具/ 数据仓库
  2. spark是什么?在大数据圈子里的地位如何
  3. Spark的RDD中的action(执行)和transformation(转换)两种操作
  4. hadoop distcp 分布式拷贝命令基本介绍

spark是什么?在大数据圈子里的地位如何

spark是什么?在大数据圈子里的的定位是哪一个?数据本身就是一个很宽泛的概念,一切数据被记录、被分析、产出新的信息,这些事物在无时无刻的发生着,大数据也好,传统意义上的数据也罢,总归是跑不出数据的传递、存储、计算这三个方向

spark是什么?在大数据圈子里的的定位是哪一个?大数据又与数据有什么样的关联和区别?数据本身就是一个很宽泛的概念,一切数据被记录、被分析、产出新的信息,这些事物在无时无刻的发生着,大数据也好,传统意义上的数据也罢,总归是跑不出数据的传递、存储、计算这三个方向

spark是什么
spark是什么

spark是大数据生态圈的计算框架,也就是说它主要占据数据整体流向闭环中的计算这一部分,至于它的技术基础和详细的使用介绍可以通过笔者之前的文章做入门了解。它不论是在数据的离线处理,实时计算等数仓构建以及机器学习等多个针对数据做计算的方方面面的应用都体现了较好的效果。在大数据计算处理这一块占有重要的一席之地。

而大数据相对于传统意义上的数据而言,主要区别在于大数据的数据量以及数据来源的多样性。两者的本质都是从历史数据中发现对未来有价值的信息。数据是对现象发生过程的全记录,通过数据不仅能够了解对象,还能分析对象,掌握对象运作的规律,挖掘对象内部的结构与特点,甚至能了解对象自己都不知道的信息。

大数据杀熟?
coivd-19流调数据跟踪....
网购推荐喜欢精准到匪夷所思...
天气地震的预测...

无论是什么场景,都是数据或者大数据的具体应用和具象反馈,数据无处不在,数据的价值也是不可估量的。