数据集成和应用集成 你瞅啥?

数据集成和应用集成是组织利用来自不同系统的数据的方法,但它们满足不同的需求。它们经常被错误地视为相同,然而应用程序集成和数据集成的概念有很大的不同,尤其是在它们的使用方式和用途方面。

数据集成

数据集成是集成两个或多个数据库数据的过程(process)。关注于管理数据流,并且每个标准化的信息获取方式;是面向批处理的,它处理静态数据。换句话说,数据集成是对应用系统已产生并“落地”后的数据进行感知、抽取、传输、处理、加载到目标库的整个过程,即数据集成的任务开始时,源端应用系统的数据产生过程已完成了。

数据集成领域还包括一些特殊的应用场景,如异构数据库间的复制同步(即按事务边界实时复制Replicate)、 CDC(日志DML、DDL获取及同步)、 数据文件(txt、csv、excel等)加载数据库、以及非结化文件交换传输(文件目录、FTP、HDFS)等应用场景。

特征

  • 参与数据集成的各个应用系统与集成任务是互相独立的,应用系统无需知道运行中的数据集成任务;
  • 数据集成任务可以是实时的、准实时的、或批处理定时的;
  • 当交换的数据完成时,目标系统无需立即给源端系统反馈信息,因而往往是异步处理过程;
  • ETL、ELT、CDC技术往往用于数据集成场景中

应用集成

应用集成是指两个或多个应用之间的协同处理过程(process)。在两个或多个应用程序之间创建连接器,以确保它们可以一起运行。应用程序集成过程涉及实时处理小数据集;这使公司能够在与性能相关的问题、新信息等出现时加快响应速度。

特征

  • 参与应用集成的数据库无需知道运行中的应用集成过程(process);
  • 消费数据的应用系统在应用层保持之间的依赖性(耦合度相对高);
  • 应用集成是实时的且需要双向的握手(handshake);
  • 消费数据后,目标业务过程可以返回执行结果给源端应用,因而往往是同步的处理过程;
  • 被集成交换的数据可无需“落地”数据库,仅由用户界面使用数据进行展示;
  • 面向服务的架构(SOA)设计理念及ESB技术产品往往应用于应用集成领域。

数据仓库 基础概念 维度建模(dimensional modeling)及模式介绍

数据仓库建模包含了几种数据建模技术,除了ER建模和关系建模,还包括专门针对数据仓库的维度建模技术。维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。

维度建模的基本概念

维度建模本身属于一种关系建模方法,但和之前在操作型数据库中介绍的关系建模方法相比增加了两个概念:

1、维度表(dimension): 表示对分析主题所属类型的描述。比如”昨天早上张三在京东花费200元购买了一个皮包”。那么以购买为主题进行分析,可从这段信息中提取三个维度:时间维度(昨天早上),地点维度(京东), 商品维度(皮包)。通常来说维度表信息比较固定,且数据量小。

2、事实表(fact table): 表示对分析主题的度量。比如上面那个例子中,200元就是事实信息。事实表包含了与各维度表相关联的外码,并通过JOIN方式与维度表关联。事实表的度量通常是数值类型,且记录数会不断增加,表规模迅速增长。

维度建模的三种模式

1、星形模式(Star Schema)是最常用的维度建模方式,星形模式的维度建模由一个事实表和一组维表成,且具有以下特点:

a. 维表只和事实表关联,维表之间没有关联;

b. 每个维表的主码为单列,且该主码放置在事实表中,作为两边连接的外码;

c. 以事实表为核心,维表围绕核心呈星形分布

星形模式

2、雪花模式(Snowflake Schema)是对星形模式的扩展,每个维表可继续向外连接多个子维表.星形模式中的维表相对雪花模式来说要大,而且不满足规范化设计。雪花模型相当于将星形模式的大维表拆分成小维表,满足了规范化设计。然而这种模式在实际应用中很少见,因为这样做会导致开发难度增大,而数据冗余问题在数据仓库里并不严重。

雪花模式

3、星座模式(Fact Constellations Schema)也是星型模式的扩展。基于这种思想就有了星座模式:前面介绍的两种维度建模方法都是多维表对应单事实表,但在很多时候维度空间内的事实表不止一个,而一个维表也可能被多个事实表用到。在业务发展后期,绝大部分维度建模都采用的是星座模式。

星座模式

雪花模式是将星型模式的维表进一步划分,使各维表均满足规范化设计。而星座模式则是允许星形模式中出现多个事实表。

数据仓库 基础概念 分层逻辑及特征介绍

数据仓库

数据仓库(Data Warehouse) 简称DW,顾名思义,数据仓库是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库

数据仓库特征

数据仓库存储是一个面向主题(移动的用户分析也可做为一个主题)的,反映历史变化数据,用于支撑管理决策。

  • 效率足够高,要对进入的数据快速处理。
  • 数据质量高,数据仓库是提供很多决策需要的数据支撑,DW的数据应该是唯一的具有权威性的数据,企业的所有系统只能从DW取数据,所以需要定期对DW里面的数据进行质量审,保证DW里边数据的唯一、权威、准确性。
  • 扩展性,企业业务扩展和降低企业建设数据仓库的成本考虑
  • 面向主题,数据仓库中的数据是按照一定的主题域进行组织的,每一个主题对应一个宏观的分析领域,数据仓库排除对决策无用的数据,提供特定主题的简明视图。
  • 数据仓库主要提供查询服务,并且需要查询能够及时响应
  • DW的数据也是只允许增加不允许删除和修改,数据仓库主要是提供查询服务,删除和修改在分布式系统.
数据仓库上下游结构

各层定义

DW :data warehouse 翻译成数据仓库

DW数据分层,由下到上为 DWD,DWB,DWS

DWD:data warehouse detail 细节数据层,有的也称为 ODS层,是业务层与数据仓库的隔离层

DWB:data warehouse base 基础数据层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。

DWS:data warehouse service 服务数据层,基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据,一般是宽表。

数据集市

数据集市(Data Mart)简称DM,是为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subjectarea)。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是在实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。

数据集市,以某个业务应用为出发点而建设的局部DW,DW只关心自己需要的数据,不会全盘考虑企业整体的数据架构和应用,每个应用有自己的DM。

数据集市特征

  • DM结构清洗,针对性强,扩展性好,因为DM仅仅是单对一个领域而建立,容易维护修改
  • DM建设任务繁重,公司有众多业务,每个业务单独建立表。
  • DM的建立更多的消耗存储空间,单独一个DM可能数据量不大,但是企业所有领域都建立DM这个数据量就会增加多倍。