当前位置:首页 >> 计算机软件及应用 >> 第1章 数据仓库概述

第1章 数据仓库概述


DW&DM

第1章 数据仓库概述

DW&DM

1.l数据库到数据仓库的演变
数据库到数据仓库的演变
一、 蜘蛛网问题 数据库的发展 → 企业运营环境 → 以数据库为中心 市场部 → 销售、市场策划 财务部 → 产生财务报表 人事部 → 人员变动情况 … …

企业级数据库

蜘蛛网问题(图1-1)

1

数据分析的结果缺乏可靠性 图1-2中展示了某电信公司的市场部和计划部对业务A是否具有市场前景的分析 过程和结果。市场部认为“业务A的市场前景很好”,而计划部却得到截然相反的结 果“业务A没有市场前景”。作为企业的最棕决策者,将如何根据这样的结论进行决 策呢?

1.1 数据库到数据仓库的演变 第一章 数据仓库概述

1.3 仓库的应用前景

DW&DM

1.1 数据库到数据仓库的演变 第一章 数据仓库概述

1.3 仓库的应用前景

DW&DM
外部市场信息A 外部信息 外部市场信息B 外部市场信息C

抽取数据的时间不同

分析程序和内容不同 分析程序1
分析结果1: 业务A市场前 景很好

抽取数据的内容不同

分析程序2

分析结果2: 业务A没有市 场前景

1.1 数据库到数据仓库的演变 第一章 数据仓库概述

1.3 仓库的应用前景

? ?

?
?

?

两个分析的数据都来自于企业数据库,但是结论却不同,下面通过分析 两个过程的差异来寻求原因。 首先,市场部门和计划部门从企业数据库中抽取的数据可能不同, 比如,市场部抽取的是在大客户中对业务A的使用情况,而计划部抽取 的是在普通客户中对业务A的使用情况,二者分析的数据存在差异。 其次,市场部分析的时间是2001年3月5日,而计划部分析的时间是 2001年3月25日,两个分析过程从企业数据库中抽取数据的时间不同,企 业数据库中的内容已经发生了变化,这很可能导致分析的结果不同。 再次,分析业务的发展趋势常常需要引入企业外部的信息,比如客 户的满意程度,国家的政策等,市场部门引用的外部信息来源可能与计 划部不同,而外部信息必然是仁者见仁,智者见智,这也可能是导致最 终分析结果不同。 最后,市场部门使用的分析程序可能与计划部不同,通过上面的分 析,我们可以看出导致两个分析过程出现截然相反的结论的根本原因是 数据的来源部一致,对于不同来源的数据的分析结果显然是不一致的。

2.数据处理的效率很低
? 在错综复杂的体系中,不同级别的数据库可能使用不同类型的数 据库系统,对于有巨型数据量的企业级数据库可能使用IBM DB2, 对于中小型数据库可能使用SQL Server。各种数据库的开发工具 和开发环境不同,抽取程序应用的技术不同,因而难以集成。 ? 如果一个大型企业的决策者需要一份关于公司整体运营情况 的报表,通常需要动用大量的人力和物力才能达到,首先,需要 确定报表涉及的内容分布在哪个数据库的哪个位置,然后调动各 个部门的程序员\分析员对应用进行分析,设计和编码。 ? 由于数据分散在各个数据库中,因此需要编写的程序很多。 由于在企业中使用的数据库类型很多,因此可能需要使用多种的 技术来实现。程序的重用性很差,因为决策者明天想看的内容很 可能和今天是不同的。可见,动用大量的人力,物力和时间才能 完成的报表不仅实效性很差,数据处理的效率也很低。

DW&DM

以数据库为中心

以数据库为中心 以数据仓库为中心

以数据仓库为中心

1.1 数据库到数据仓库的演变 第一章 数据仓库概述

1.3 仓库的应用前景

? 3. 难以将数据转化成信息 ? 除了数据处理效率和数据的可信度之外,“蜘蛛网”式的结 构还难以将数据转化为信息。比如,某电力公司想分析某个大客 户今年的情况和过去的3年有什么不同?大客户的情况可能包括客 户的呼叫行为,话费情况,交费情况,咨询问题等。因此想要比 较完整的回答这个问题,实际上需要将客户多方面的数据综合成 信息。 ? 在实际的数据库系统中,记录客户呼叫行为的数据库通常只 保留客户最近3个月的呼叫话单,帐务数据库可能保留客户今年的 交费情况,客户咨询数据库可能保留客户2年内的咨询信息,如图 1-4所示。每个数据库由于其数据量和业务处理的需求不同,对 于历史数据的存储时间也不同,因此以现有的数据库系统难以提 供完整的历史数据,鉴于这样的原因,用户根本不可能从这些数 据中提取出完整的信息。

DW&DM

1.1 数据库到数据仓库的演变 第一章 数据仓库概述

1.3 仓库的应用前景

? 操作型系统的使用人员通常是企业的具体操作人员, 处理的数据通常是企业业务的细节信息,其目标是实 现企业的业务运营;而分析型系统的使用人员通常是 企业的中高层的管理者,或者是从事数据分析的工程 师。分析型系统包含的信息而非具体的细节,其目的 是为企业的决策者提供支持信息。操作型系统和分析 型系统的划分如图1-4所示。 ? 操作型处理和分析型处理的分离,划清了数据处 理的分析型环境和操作型环境之间的界限,从而由原 来以单一数据库为中心的数据环境发展为以数据库为 中心的业务处理系统和以数据仓库为基础的分析系统。 企业的生产环境,也由以数据库为中心的环境发展为 以数据仓库为中心的环境,如图1-5所示。

DW&DM

以数据库为中心

以数据库为中心 以数据仓库为中心

以数据仓库为中心

1.1 数据库到数据仓库的演变 第一章 数据仓库概述

1.3 仓库的应用前景

DW&DM
1.2 数据仓库体系结构

一、数据仓库体系结构(图 1-6) 由于数据库和数据仓库的出发点不同,数据仓库将独立于业务数据库系统, 但是数据仓库又同数据库系统息息相关。也就是说,数据仓库不是简单对数据进 行存储,而是对数据进行“再组织”。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

数据挖掘系统/数据展现系统

数据 集市

数据 集市

数据 集市

数据 集市

数据仓库存储





元 数 据

企业外部数据
数据清洗/转换 数据提取

提取仓库

业务操作型数据

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
1.3数据仓库重要名词 1 数据提取(Data Extraction )—— 数据抽取 数据仓库按主题从业务数据库提取相关数据的过程。 从数据仓库的角度来看,并不是业务数据库中的所有数据都是决策支持所必 须的。数据仓库按照分析的主题来组织数据,我们只需要提取出系统分析必须的那 一部分数据。 例如:某超市确定以分析客户的购买行为为主题建立数据仓库,只需将同客 户购买行为相关的数据提取出来,超市员工的数据没有必要放进数据仓库。

2

数据清洗(Data Cleaning) 企业建立很多不同的数据库 数据的不一致 是将错误的、不一致的数据在进入数据仓库之前予以更正或 删除,以免影响DSS决 策的正确性。 图2-2所示,客户数据库中有客户基本信息表,客户服务数据库中有一张客户咨询 信息表,由于操作人员的失误,将客户信息表中的“张山”在客户咨询表录入为“张 三”。 图2-3所示,客户信息表“张三”的手机状态是正常,此时张山去办理停机,在客 户业务变更表中,手机状态修改为“停机”,如果数据刷新不够实时,导致客户基本信 息表和客户业务表变更不同步。
2.1 数据仓库的体系结构

DW&DM
客户基本信息表 客户咨询信息表

客户号:100 姓名:张山 年龄:23

客户号:100
姓名:张山 咨询问题:…

客户基本信息表

客户业务变更信息表

客户号:100 姓名:张山

客户号:100 姓名:张山 业务变更:停机

年龄:23
手机服务状态:正常

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
3 数据转化(Data Transformation)(图2-4) 把源数据的数据格式转换成统一的数据格式的过程。 也叫:数据集成(Data Integration) 由于业务系统可能使用不同的数据库厂商的产品,比如IBM DB2、informix 、 Sybase . Sql server 等,各种数据库产品提供的数据类型可能不同,需要将不同格式 的数据转换成统一的格式。 4 提取仓库 由于业务数据库系统中的数据和数据格式存在不一致的问题,因此在数据放进数据 仓库前需要进行缓存,以等待清洗和转换,这些数据缓存的位置即提取仓库。 5 提取日志(Extraction Store) 当从业务系统提取数据时,需要记录提取数据的过程,该过程被记载在提取日志中。 提取日志详细的记录了数据的来源,数据的转化过程等。 数据管理员 是负责数据导入时管理数据质量的专业人员,还检阅提取日志,发现其中数据 提取的错误和源于业务系统的错误。

6

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

2000-2-3

2/3/2000

2000/2/3

2000-2-4
2000-2-5

2/4/2000
2/5/2000

2000/2/4
2000/2/5

…..

…..

…..

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
7 外部数据源(External Source) 从系统外部获取的同主题分析相关的数据来源。 例:采购部 —— (确定采购订单)采购货单 —— 产品销售情况(内部) 商品的价格水平 质量水平 竞争对手的采购信息(外部)

8

数据仓库存储 用于存放数据仓库数据和元数据的存储空间。 数据存储方式:多维数据集,关系型数据库以及二者的结合。 数据 业务系统中提取的或者从外部数据源中导入的数据进行清洗,转化后成为数据 仓库的原始数据,它们是数据仓库数据的一部分,不是全部。

9

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
10 元数据(Meta Data)(图2-5) 数据是对事物的描述,而元数据是对数据的描述;它提供了有关数据的环境。 数据仓库中的元数据有两类: 第一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包括所有源 数据的名称,属性及其在提取仓库中的转化; 第二种是在数据仓库中是用来与最终用户的多维商业模型和前端工具之间建立映 射的,这种数据成为决策支持系统元数据,包括 (1)数据仓库中的信息的种类,存储位置,存储格式 (2)信息之间的关系,信息和业务的关系,数据使用的业务规则(3)数据模型 (4)数据模型和数据仓库的关系。 例如:从customer业务数据库的user表中取出3列(user_id,user_name,address), 在清洗转换过程中,将user_name从char(20)转化为varchar(50)格式,最终放进 user维表(User_ID,User_name,Address)中,转换后(User_ID,User_name,Address)3 列原始的存放位置、进行的清洗转化处理、数据最终的存放位置、数据格式、数据使 用的规则等等都作为元数据的一部分,图2-5所示。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

原始数据位置
Customer 数据库

数据清洗转化

数据最终存放位置
维表 数据库

Char(20) User_name User 表 User 维表

User_id User_name address

格式转化

User_ID User_Name Address



Varchar(50) User_Name

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

11

数据集市(Data Market ) 面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据 子集。 减少数据处理量,使信息更快捷,灵活。

DW&DM
1.4 数据仓库定义

权威定义 ,William Inmon 博士 90年代 初,给出:
数据仓库:通常是一个面向主题的、集成的、随时间变化的、但信息 本身是相对稳定的数据集合,用于对管理决策过程的支持。
操作型数据和分析型数据的特性比较
操作型数据的特点 细节的 在存取的瞬间是准确的 可更新的 操作需求通常事先知道 生命周期符合SDLC 对性能(如操作时延)要求高 一个时刻操作一个数据单元 事务驱动(数据驱动) 面向应用 一次操作数量小 支持日常操作需求
2.1 数据仓库的体系结构 2.2 数据仓库的特点 2.3 数据仓库的数据组织

分析型数据的特点 综合的、经过提炼的 代表过去的数据 不可更新 分析需求通常事先不知道 生命周期不同于SDLC 对性能要求较宽 一个时刻操作一个数据集合 分析驱动(模型驱动) 面向分析 一次操作数据量很大 支持管理需求
2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS 2.6 外部数据和非结构数据

DW&DM
一、 数据库的功能和特性 1 数据的安全性 (以 SQL Server 为例)

用 户

DBAP

DBMS

操作系统

数据库

身份验证

操作权控制

文件操作控制

加密存储 与 控制

计算机系统的安全模式 数据库数据的加密存取 —— 防止有意的非法活动; 使用用户身份验证 限制操作权 —— 控制有意的非法操作; 提高系统可靠性 数据备份 —— 控制无意的损坏
2.1 数据仓库的体系结构 2.2 数据仓库的特点 2.3 数据仓库的数据组织 2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS 2.6 外部数据和非结构数据

DW&DM
2 数据处理的并发性 事务T1 ?读 A= 16 时间 T1 事务T2

? A= A - 1 写回 A=15

T2 T3 T4

读 A=16 B=B?2,写回B=200

?

?

A=A-4 写回 A=12 (覆盖了T1对A的修改)

丢失数据修改
2.1 数据仓库的体系结构 2.2 数据仓库的特点 2.3 数据仓库的数据组织 2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS 2.6 外部数据和非结构数据

DW&DM
事务T1 ?对A加X锁 获得 时间 T1 事务T2

?读A=16
?

T2
T3 T4 T5 T6 要对 A 加X 锁 等待 等待

没 有 丢 失 数 据

?修改A= A – 1 写回A=15 ?释放对A的X锁 ?

等待 获得对A的X锁

?
?

T7
T8 T9

读A=15
修改A= A – 4 写回A=11 释放对A的X锁
2.6 外部数据和非结构数据

?
2.1 数据仓库的体系结构 2.2 数据仓库的特点 2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

DW&DM
3 事务处理的可靠性 事务(Transaction): 是用户定义的数据操作系列,这些操作可作为一个完整的工作单元。 一个事务内的所有语句是一个整体,要么全部执行,要么全部不执行。 例如: A 账户向B 账户转帐100元 第一个动作—— A 账户 — 100元 第二个动作—— B 账户 + 100元 事务的特征: (1 ) (2 ) (3 ) (4 ) 原子性(Atomicity) 事务是数据库的逻辑工作单位,其中的操作,要么都进行,要么都不进行; 一致性(Consistency) 事务的执行结果,必须是从数据库的一个一致性状态转换到另一个一致性状态; 隔离性(Isolation) 一事务的操作不受其它事务的干扰,即事务操作中使用的数据是隔离的; 持续性(Durability) 事务一旦提交,对数据库的操作就是永久性(Permanence)的。
2.3 数据仓库的数据组织 2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS 2.6 外部数据和非结构数据

2.1 数据仓库的体系结构 2.2 数据仓库的特点

DW&DM
4 数据的一致性和完整性 需要数据库设计、应用开发、系统维护等方面进行复杂的大量工作。

由此可见,操作型的环境涉及到事务管理,封锁管理,死锁管理,数据备份 恢复,系统日志管理,数据存储管理等一系列复杂技术。
二、 数据仓库的功能和特性 1 面向主题 主题: 用户使用数据仓库进行决策时所关心的重要方面。 (如, 销售情况、利润情况、客户情况) 面向主题:数据仓库中的信息是按主题进行组织的,为按主题进行决策 的过程提供支持。 (尽管数据仍以表方式存储,但数据组织和建模方法已不同)

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

收益数据

客户数据

市场数据

计费数据库 现 有 业 务 系 统

客户服务数 据库
市场信息数 据库

帐务数据库

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

客户基本信息表
客户标识号 客户姓名 客户年龄 客户地址

客户呼叫记录表
客户标识号 客户呼叫时间 客户呼叫地点 客户呼叫号码

...

呼叫时长
呼叫费率 ......

客户话费表
客户标识表

客户咨询表
客户标识号 客户咨询内容 咨询答案 ...

客户本月总话费
本月月租费 本月通话费 本月短信费 ...

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
2 数据的集成性

OLTP 建表的数据在多个库中抽取 → 蜘蛛网问题 OLAP 要求数据的一致性 → 集成的(李强,李 强) 图2-8所示中,示例了一个数据集成的例子,某电信公司建立数据仓库时包 括了客户这个主题,公司的业务系统中,客户的信息分散在各个业务数据库中, 需要从客户基本信息表,客户呼叫记录表,客户话费表,客户咨询表等表中将 数据提取并进行集成。 图2-9示例了在实际问题中可能遇到的需要进行数据转换的工作。 数据的集成性需要对数据进行 ETL, 特别是转化和清洗,其中, 要注意的问题: ⑴ 数据格式 ⑵ 测量单位 ⑶ 数据代码 ⑷ 数据名称 数据的集成是动态的,不是静态的。
2.1 数据仓库的体系结构 2.2 数据仓库的特点 2.3 数据仓库的数据组织 2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS 2.6 外部数据和非结构数据

客户基本信息表
客户标识号 客户姓名 客户年龄 客户地址 ...

DW&DM

客户标识号 客户姓名

客户呼叫记录表
客户标识号 客户呼叫时间 客户呼叫地点 客户呼叫号码 呼叫时长

客户年龄
客户地址 ... 客户标识号 客户呼叫时间 客户呼叫地点 客户呼叫号码 呼叫时长 呼叫费率 ... 客户标识号

呼叫费率
...

客户话费表
客户标识号 客户本月总话费 本月月租费

客户本月总话费 本月月租费 本月通话费

本月通话费
本月短信费 ...

本月短信费
... 客户标识号 客户咨询内容 咨询答案 ...

客户咨询表
客户标识号 客户咨询内容

咨询答案
...

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
客户信息表 客户呼叫记录表 客户话费表 客户咨询表
A表通话时长 B表通话时长 C表通话时长 客户信息表 客户呼叫记录表 客户话费表 客户咨询表 客户信息表 客户呼叫记录表 客户话费表 客户咨询表

f 1 F


m
0 M 男 2小时 120分钟 7200秒 name user_name USERNAME NAME 姓 姓 姓 姓 名 名 名 名 char(10) varchar(10) char(12) varchar(20) 集成后数据 统一变量命名 统一编码/编码间 转化

统一度量单位

统一字段格式

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
进一步考虑,决策支持系统需要的不是静态的集成,而是动态的集成。静态集成的 最大缺点在于数据集成后数据源中的数据发生了变化,这些变化将不能反映给决策者, 导致决策者使用的是过时的数据。因此数据仓库必须能够使集成数据以一定的周期(例 如24小时)进行刷新,使决策者能够使用新增的数据,其过程如图1-15所示。

任务调度:定期进行数据 刷新

业务系统

数据仓库
数据清洗,转换整理

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
3 数据的稳定性 OLTP 中的操作 —— 存入、查询、修改、删除 OLAP 中的操作 —— 存入、查询 (注意:两个 存入 的不同) 数据仓库中,数据一旦写入,就不再变化了。所以,也可以把数据仓库 看作是一个虚拟的只读存储器。 我们在图中演示了一个简单的例子。例如在3月23日,100号顾客的消费金额 变成250元,这一信息在业务系统中被更新了。但是在数据仓库中(假定数据仓库 每天进行一次数据提取),3月23日的数据提取结果是在数据仓库中增加了记录 XXX,说明100号顾客在3月23日的消费金额为200元,在执行3月24日的数据提取工 作后,原先记录的XXX并没有发生任何的改变,而是在数据仓库中增加了一条新的 纪录YYY,说明100号顾客在3月24日的消费金额为250元。可见,数据仓库实际上 是为100号顾客的消费行为进行了定期的拍照,并将快照存储起来后供后续的分析 工作使用。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

业务运营系统
客户号:100 费用(元):200 客户号:100 费用(元):250

数据更新

3月23日 数据抽取 记录号:XXX 时间:3月23日 客户号:100 费用(元):200 记录号:XXX 时间:3月23日 客户号:100 费用(元):200

3月24日 数据抽取

数据仓库系统

数据仓库中增加一 个记录

记录号:YYY 时间:3月24日 客户号:100 费用(元):250

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
4 数据随时间变化的特性 OLTP 的存入 = 修改 OLAP 的存入 = 增加(数据保存 大约 5—10年) 数据仓库 —— 记录系统的各个瞬态,并通过各个瞬态的连接形成动画。

由于在数据仓库中数据只增不删,这使得数据仓库中的数据总是拥有时间维 度。数据仓库实际上就是记录系统的各个瞬间,并通过各个瞬间连接起来形成动画。 从而在数据分析的时候再现系统运动的全过程。数据提取的周期实际上决定了动画 间隔的时间,数据提取的时间短,则动画的速度快,图1-17示意了这个特点。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

t1 t2 t3

数据仓库的快照集合

业务系统的运营

tn

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
100% 100%

0%
数据库系统中硬件资源利用率曲线

时间

0%
数据仓库系统中硬件资源利用率曲线

时间

5

多维性

数据是带有时间轴的 → 数据是多维的 → 形成 立方体 (Cube)

三、 数据仓库的工作目标

—— 支持决策

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
1.5 数据仓库的数据组织
一、 数据仓库的数据组织形式

数据仓库的数据级别:

早期细节级 当前细节级 轻度综合级 高度综合级

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

高度细节级

轻度细节级

当前细节级

早期细节级

后备数据

后备数据

后备数据

后备数据

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

如图1-19,所示是一个数据仓库数据组织的示例。由于客户的呼叫数据的数据 量很大,并且数据仓库的使用者常常只关心近期的细节数据,因此我们可以在系统中 只保留近三个月的呼叫数据,而将3个月之前的详细数据到处到备份设备中。 在数据仓库中,细节数据可以聚合成轻度和高度综合级别的数据,比如按“月”、 “季度”、“年”统计,需要说明的是轻度和高度是一种相对的概念,而没有绝对的 边界,并且在数据仓库中数据的综合程度常常有很多的级别。 在2001/3时,系统保留了从2001/1~2001/3的呼叫详细数据,等到2001/4月,2001/1 的细节数据被导出,保留的是从2001/2~2001/4的呼叫详细数据。 实际上综合数据也可能被导出系统,比如企业的管理者认为企业的决策只同企业 近15年来的运营数据有关,则15年前的综合数据也可以导出。对于高度综合的数据, 由于其数据量已经很少,所以一般不考虑它们的导出问题。 总的来说,数据仓库的这种组织方式的核心思想是在系统中保留最有可能被客户 使用的数据,而用户很少使用的数据则备份出系统。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
当前细节级 最近3个月 (2001年1月-2001年3月) 客户呼叫详细数据 轻度综合级 1995-2001年按 月统计的客户呼叫 信息 1995-2001年按 季度统计的客户 呼叫信息 高度综合级

1995-2001年按年统 计的客户呼叫信息

2001年1月以前的呼叫详细 数据 2001/3数据仓库中数据的状态 最近3个月 (2001年2月-2001年4月) 客户呼叫详细数据 1995-2001年按 月统计的客户呼叫 信息 1995-2001年按 季度统计的客户 呼叫信息

1995-2001年按年统 计的客户呼叫信息

2001年2月以前的呼叫详细 数据
2001/4数据仓库中数据的状态

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

二、 数据的颗粒度 数据粒度越小 → 信息越细节 → 数据粒度级别越低 → 数据量越大 数据粒度越大 → 综合度越高 → 数据粒度级别越高 → 数据量越小 数据粒度的两种形式: ⑴ 是对数据仓库中数据的综合程度的度量

如图所示的例子,按照每“月”统计的客户呼叫数据和按照每次呼叫记载的客 户呼叫数据,两者的数据量相差极大。我们假定每个字段为8个字节,每个用户一天 进行5次通话,则一个客户一个月的呼叫细节数据的数据量为:8×6×30×5=7200字 节,而一个客户1个月的呼叫汇总数据的数据量为8×4=32字节。 图1-20所示细节数据和综合数据用途上的差异。图1-21所示的细节数据和综 合数据在回答综合问题上代价的差异。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

8X6 8X4 30X5 客户呼叫记录 客户呼叫记录表 客户标识号 客户呼叫时间 客户呼叫地点 客户呼叫号码 呼叫时长 呼叫费率 按月汇总表 客户标识号 月份 呼叫总时长 呼叫总次数

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

细节数据

综合数据

综合数据能够回答的问题:

王五这个月打了几个电话?
细节数据回答的问题: 王五这个月3号在北京打了几个电 话? 王五这个月3号给李明打过电话妈? 通话时间是多少? 王五这个月的通话总时长是多少?

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

细节数据

综合数据

综合数据回答综合问题,只需在访

问很少的数据

细节数据回答综合问题需要访问 大量的记录,进行大量的计算。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

从图中我们可以看出,综合程度不同的数据其用途不同,在数据仓库多重的数据

粒度是必不可少的,但是由于数据仓库最主要的目的是反映企业整体信息和DSS分析,
回答综合程度较高的问题。如果为了回答许多细节问题,而使系统的数据量极度膨胀, 从而降低系统的运营效率,就背离了系统建设的初衷,这也是我们在数据仓库数据组 织方式中说明的,对细节数据和综合数据采用不同综合策略的原因。实际的工程项目 中,我们可以将综合程度较高的数据存放在访问速度较高的磁盘上,而将细节数据定 期导出到低俗的磁带上。 例如,我们将近三个月的呼叫细节数据和按月综合的数据、按年综合的数据放在 高速磁盘上,而将以往的细节数据放在低俗磁带上,如图1-23所示。需要注意的是:

从数据仓库中导出的数据仍然属于数据仓库,只是在存储介质上发生了变化。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

高速磁盘

3个月内的客户 呼叫细节数据

5年内按月综合 的呼叫数据

10年内按年综 合的呼叫数据

低速的磁带设备

3个月以前的客户呼叫细节数据

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
⑵ 针对数据挖掘 —— 统计中的抽样样本空间(

数据挖掘常常会使用非常负责的算法(如神经元网络),其计算的复杂度较 高,如果我们将数据仓库中存放的巨量数据直接运算,则计算时间和空间复杂度将 太高,以致于系统难以承受。因此我们在进行数据挖掘时,需要对数据仓库中的数 据进行抽样。粒度的第二种形式是指抽样率,即以一定的抽样率对数据仓库中的数 据进行抽样后得到一个样本数据库,数据挖掘将在这个样本数据库上进行,如图2 -20。 这样抽象的思想是合理的,因为我们进行数据挖掘是为了建立分析模型,反 映事务发展的规律和趋势。由抽样带来的模型误差可以在模型建立之后再次使用源 数据对模型进行校验和调整,这样可以大大缩短模型建立的时间,提高模型的精确 度。实际上,数据挖掘通过循环不断地改进分析模型,如图1-24所示。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

以一定抽样率 进行抽样

数据仓库

样本数据库

数据挖掘 算法

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

(1)以一定抽样率进行抽样

数据仓库

样本数据库

数据挖掘算 法

(2)通过挖掘建立模型

(3)使用源数据进行校验

分析模型

(4)再次进行循环

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

评价抽样率和抽样方法是否合适,关键在于抽样得到的样本是否能够反映源数 据集合的特征,图1-26所示一种常见的评价方法:通过比较样本集合间的数值特 征来评价本集合和元数据之间的相似性。 如:我们使用某种抽样方法进行随即抽样,得到样本1和样本2,然后比较这两 个样本集合之间如均值、方差等数值特征,如果这两个样本的数值特征不类似,则 继续抽样。等到抽样获得的样本4,样本5和样本6它们的数值特征非常的相似,则 认为再继续进行抽样的样本集合的数值特征也都类似,并且都同数据源具有类似的 特征,抽样的过程到此即可以结束,过程如图1-26.

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

抽样1 抽样2

样本1

样本2
抽样3

源数据
抽样4 抽样5 抽样6

样本3

样本4 样本5

样本6

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
三、 数据分割:
将数据分散到各自的物理单元中,以便能够独立处理,提高数据处理的效率, 数据分割后的数据单元成为:分片。 数据分割没有固定的标准,分割的方法和粒度应当根据实际情况来确定。分 割方法常常可以选择时间、地点、业务领域来划分。如图1-28所示,显示了按照 地理位置进行的一个分割。如果涉及的数量非常大,可爱按照问题的需求从多个角 度进行分割,例如按照时间和地理位置两个角度进行分割,如图1-29。 按照时间进行分割符合数据仓库数据随时间变化的特点,并且分割后数据分 布比较均匀,所以是最常见的分割方法。 分割使得数据可以更容易索引、监控和顺序扫描,并且重构、重组简单。重 构是分割的反面,而重组是对分割的数据进行新的组合,如图1-27所示。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
1995 …

70,000,000 条记录

1995 … 1996 … 1997 … 1998 … 1999 … 2000 … 2001 …

1996 .. 1998 …

1997 …

1999 …

2000 …
10,000,000 条记录

2001 …

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
福建 上海

中国各地区的 产量


宁夏 贵州

1999 福建 … 30,000,000 条记录

1999 广东 …

1999 山西 …

34340,000 条记录

……

1999 … 2000 … 2001 …

2000 福建 …

2000 广东 …

2000 山西 …

……
……

2001 福建 …

2001 广东 …

2001 山西 …

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

1995 分割 1996 1997 1995-2001 重构 1998 1999 2000 2001 重组 2001 1998-2000 1996-1997

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
四、 数据仓库的数据组织形式(发展过程中出现)



简单堆积文件 数据由数据库中提取后逐天存储 简单直接文件(对数据库进行快照(不一定按天),并存储) (图 1-31) 定期综合文件 数据存储单位被分成日、周、旬、月、季、年等多个级别,定期进行综合 (图 1-32) 优点:存储量小; 缺点:细节在综合中丢失



2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

2001/1/1

2001/1/2

2001/1/3

……
2001/2/1 数据库快照 业务系统 2001/2/2 2001/2/3

……

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

2001/1/1 数 据 综 合 逐 渐 增 加 2001年 第1周 2001年 1月 2001年 1季度 2001年

2001/1/2 2001年 第2周 2001年 2月 2001年 2季度

… … … …

2001/1/7 2001年 第7周 2001年 12月 2001年 4季度

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM



连续文件 连续文件保留了简单堆积和定期综合的优点(图 1-34,1-35,1-36) 在简单堆积文件中,每天的数据表中有很多雷同的信息,如图2-29所示的某商场 2001/1和2001/2的两张采购表,其中“牙膏”和“毛巾”在两个表都出现了。牙膏在 2001/1是从上海购买的,而2001/2是在北京购买,其他的信息都相同。如果能够记录两 表之间不同的信息,则既能保留细节信息,又能大大减少数据量。 图1-35中显示了对两张表使用连续文件的形式进行存储的结果。对于两个表中相 同的表项“毛巾”,只需在时间列上说明使用范围是“2001/1-2001/2”,对于两表不 同的表项分别记录。 随着时间的推移,如果又有新的数据表加入,则我们可以使用连续文件和新的数 据表进行类似的处理,以达到“两全其美”的目的。如图2-31所示,我们将2001年1 月~2001年2月的连续文件和2001年3月的新文件进行综合,而后得到2001年1月~2001 年3月的连续文件。但是,我们应当指出:连续文件增加的“时间”列也会为查询带来 一定的不便。一个系统某些性能的提高,总是通过牺牲其他的性能来获得的。

注意:连续文件的缺点是给查询带来不方便

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

2001/1月采购表
商品编号 商品名 购买地点

2001/2月采购表 商品编号 1 2 3 6 商品名 牙膏 毛巾 笔 裤子 购买地点 北京 广州 杭州 宁波

1 2 4

牙膏 毛巾 水杯

上海 广州 深圳

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
2001/1月采购表
商品编号 商品名 牙膏 1 毛巾 水杯 购买地点 上海 广州 深圳 商品编号

2001/2月采购表
商品名 牙膏 1 毛巾 笔 裤子 购买地点 北京 广州 杭州 宁波

1 2 4

1 2 3 6

2001/1—2001/2月采购表
商品编号 商品名 牙膏 牙膏 毛巾 笔 水杯 裤子 购买地点 上海 北京 广州 杭州 深圳 宁波 时间

1 1 2 3 4 6

2001/1 2001/2 2002/1-2001/2 2001/2 2001/1 2001/2

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
2001/1—2001/2月采购表
商品编号 商品名 牙膏 牙膏 毛巾 笔 水杯 裤子 购买地点 上海 北京 广州 杭州 深圳 宁波 时间

2001/3月采购表 2001/1 2001/2 2002/1-2001/2 2001/2 2001/1 2001/2
商品编号 商品名 牙膏 1 毛巾 笔 裤子 购买地点 北京 广州 杭州 宁波

1 1 2 3 4 6

1 2 3 6

2001/1—2001/3月采购表
商品编号 商品名 牙膏 牙膏 毛巾 笔 水杯 裤子 购买地点 上海 北京 广州 杭州 深圳 宁波 时间

1 1 2 3 4 6

2001/1 2001/2-2001/3 2002/1-2001/3 2001/2-2001/3 2001/1 2001/2-2001/3

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
五、数据仓库的数据追加技术

数据组织结构 数据组织形式

解决数据存储问题

数据仓库完成数据的初始加载后,还需要不断地增加新数据
数据追加技术 → 关键 是 捕获数据变化 → 把 变化 记录下来 ⑴ 时标法 给(数据库)中的数据增加一个时间标记,当检索到新的时间标记时,把带有新 时间标记的记录作为数据仓库的数据追加内容。如图 1-37,在完成2001/1的数据导入 工作后,2001/1/2日数据条目(2001/1/1,1,牙膏,上海)发生了变化,则将其时间 标记改成2001/1/2,这样在执行2001/1/2的数据导入工作时,数据库将会检索到的具 有新时间标记的条目(2001/1/2,1,牙膏,北京)作为数据追加的内容。 问题:一般数据库不会增加时间标记(因为时间标记对于OLTP没有意义)
2.1 数据仓库的体系结构 2.2 数据仓库的特点 2.3 数据仓库的数据组织 2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS 2.6 外部数据和非结构数据

DW&DM

时间标记 2001/1/1 2001/1/1

商品编号 1 2

商品名 牙膏 毛巾

购买地点 上海 上海

比较 时间标记,发现比2001/1/1更新的时间标记的记录

时间标记 2001/1/2 2001/1/1

商品编号 1 2

商品名 牙膏 毛巾

购买地点 北京 上海

追加进数据仓库 2001/1/2 1 牙膏 北京

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
⑵ 前后映像比较法

对数据库进行快照,把当前快照和原来快照作比较,决定数据追加内容(图 1-38)。 缺点: 数据库数据量大时,全数据库比较无法做到。
⑶ DELTA文件法 从应用程序中记录修改了哪些数据,形成DELTA文件,作为数据追加内容(图 1-39)。 (很难使所有应用程序都支持DELTA文件功能)

⑷ 日志文件法 由数据库服务器详细记录数据操作,形成数据库日志文件,通过分析数据库 日志文件,获取数据变化情况,得到数据追加内容 图1-40中我们示意了一段简化了的系统日志,它包含操作时间、操作人员、 操作内容、操作结果(包括正确和错误)等基本信息。我们可以通过对数据追加任 务完成后新生成的系统日志进行分析,得到追加内容。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

原先业务数 据库

快照1

比较后追加 当前业务数 据库

快照2

应用程序 对于修改操作 DELTA文件:记录应用程序 对业务数据成功的修改 业务数据库

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

应用程序a

应用程序b

应用程序c

数据库服务器

系统日志:记录所应用 程序对业务数据库的访问 情况

业务数据库

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

2001/1/1:9:00: LiMing UPDATE user.name=‘ 林冲’ WHERE user_id=100; 2002/1/1:9:01:LiMing SELECT * FROM user.name WHERE user_id>100; 2001/1/1:9:02 : sa UPDATE user.name= ‘ 林胜之’ WHERE user_id=100; 2001/1/1:9:03 : sa CREATE TABLE userinfo………

查询性质的操作可以不做处理

对user表的两种操作,只需执行第二次删除操作

六、清理数据仓库中的数据 数据仓库中清理的过程如下: ◆ ◆ ◆ ◆ 数据从操作型环境进入分析型环境; 数据从细节数据逐渐转换为综合数据; 数据从高速磁盘上转移到低速磁带机上; 数据失去使用价值,最终被清除。 —— 数据在数据仓库中的生命周期
2.3 数据仓库的数据组织 2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS 2.6 外部数据和非结构数据

2.1 数据仓库的体系结构 2.2 数据仓库的特点

DW&DM
1.7 操作数据存贮 ODS(Operational Data Store)

一、 ODS 的概念 问题:企业经常会遇到介于 OLTP 和 OLAP 之间的业务问题 例: 超市采购 采购部经理 —— 确定 进货清单 了解 商品存货是否充足 商品近期的销售情况 近期的仓储情况 超市的现有资金情况… 分析 → 进货清单 数据仓库数据量太大 → 信息检索时间太长 → 问题类型: 既要方便分析,又要快速进行数据检索, 同时,数据应该是全局一致的信息 ODS ODS定义 用于支持企业日常的全局应用的数据集合。

无法完成

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
二、 ODS的特性
? 类似于传统的数据库 引入数据是可变的; 数据是当前或者近期的( ODS市面向全局应用的,因此ODS中的数据需要面向 主题来组织,并且应当是实时集成的) ? 有别于分散的操作型系统 数据按照主体来组织在企业级上要求保持一致,因此进入ODS的数据必须经过 清洗和整理到达集成和一致的目的

? 区别于DW的特性 存放当前和近期的数据, ODS中的数据可以进行联机修改,包括增加、删除、 更新等操作,而DW的数据只增不删。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
三、 ODS 应用
⑴ 企业级的OLTP应用

由于ODS提供的是集成的、企业级一致的数据,因此,企业级的OLTP成为可能。
企业级OLTP:是指在实际事物的处理中,常常涉及多个部门的数据,需要通过多个 部门的数据协同才能更好的完成任务。 实例: 在一个大型国有企业中存在多个部门:人事处、财务处、企业医院、幼儿园 等。当一个职工工作调动时,需要办理企业规定的一系列调动手续。如图2-40所 示。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

人事处 调离证明

财务处 调离证明+财务证明

医院

调离证明+财务证明 +医院证明

幼儿园

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

建立ODS实际上是建立了一个全局数据库,它通过在 ODS中的纪录系 统定义和参考表来建立一系列DB和ODS纪录间的双向联系,以实现数据在

企业级上的同步。
ODS的纪录系统就是说明如何从DB中向ODS进行数据抽取。有了ODS 纪录系统后, DB 中对应的数据项发生变化,都将反映到相应的 ODS 记录 中。反过来,参考表建立的是从 ODS 数据项到 DB 数据项的反向映射。当 ODS中的记录发生变化时,将通过参考表去修改与之相关的DB中的所有数 据项,其过程如下图2-41,数据库A、B、C都存在相同含义的数据,数据库 A中的数据项发生变化后,通过ODS记录系统定义,反映到ODS中对应的

数据项,再通过参考表去更新数据库B和C。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
ODS全局数据库

(2)

ODS记录系统 的定义

参考表

定义在各 DB上的记录 系统
(1)

各业务数据库

数据更新需要反 映到所有相关的 DB上
(3)

数据库(B)

数据库(A)

数据库(C)

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

通过记录系统定义和参考表,使得原先分散的数据库系统被紧密地 结合起来,一点动,全局变。建立ODS后,当人事处完成了人员调动的 手续后,这些变更信息通过ODS反映到企业的各个数据库中,调动的人

员可直接到新单位报道,这样可以大大的缩短办理手续的时间其过程。
如图1-44所示。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

ODS 调动信息

调动信息更新
人事处

幼儿园

应用系统D 应用系统A 财务处 企业医院

应用系统C 应用系统B

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
( 2 ) 近期的OLTP DW主要用于解决企业长期战略问题,因此在DW上进行的OLAP分析主要是较

长时间段的。但是许多中间层次的管理人员通常不需要大量历史数据,而主要参考
近期内的数据,即短时间的OLAP分析。如果使用DW进行 OLAP分析,由于数据仓库 中的数据量级很大,将很大程度影响决策的延时,因此在ODS中进行近期的 OLAP 是非常适合的选择。基于ODS既有数据仓库面向主体、集成的特点,又有操作型系

统可联机修改、主要保存近期数据的特点,引入一种“动态切换”的思想,即在系统
中设置一个状态切换开关(是 ODS 系统在操作型环境和分析型环境间进行动态切 换)。这样,在进行全局 OLTP 处理时, ODS主要进行事务处理、加锁解锁管理、 死锁检查、数据恢复备份、日志管理等类似于数据库系统的工作。当进行分析处理

时, ODS则关闭事务管理、加锁解锁管理、死锁检查等模块,从而大大提高了系统
的效率,图1-45示意了这个过程。由于ODS中的数据量远远小于数据仓库中的数据 量,因此使用ODS进行近期的OLTP将非常有效。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

数据仓库

完整的OLAP展现

时间 近期 的 OLAP

ODS

事务管 理

死锁检 查

加锁解 锁

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
(3)DB-ODS-DW的3层体系结构 ODS的引入,使DB-DW两层体系结构逐渐转化成了DB-ODS-DW的3层体系结构, 如图1-46所示。 原先在DW和业务系统间保证数据一致性的工作从DW/DB接口转移到了ODS/DB接 口上,原先全部由数据仓库来实现的诸多复杂功能得到了更好的划分,这有利于产品 的可实现性和维护性。ODS主要面向全局的联机事务处理和近期的OLAP,而数据仓 库主要面向长期的决策分析,这样使数据的层次性得到了更进一步的划分。 ODS的数据建模通常需要在了解全局数据库系统的基础上,从面向主题的角度重

新分析原有数据库系统。 ODS的数据模型不是要取代原先数据库系统的数据模式,而
是从新的角度对数据进行重新组织。 比如电信公司的计费系统主要是对客户的消费行为进行记录,账务系统主要是对 客户的缴费行为进行记录,客户服务系统主要是对客户的咨询和投诉进行记录。如果

选择了“客户”这个主题,我们在关心的不是消费行为、交费行为、咨询投诉行为在 各
个系统中的单据表格,而是从“客户”这个角度重新开代计费系统、账务系统、客户 服
2.1 数据仓库的体系结构 2.2 数据仓库的特点

务系统中的相关信息,去除具体动作,而保留“客户”本身的内在属性和特征。 2.3 数据仓库的数据组织 2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS 2.6 外部数据和非结构数据

DW&DM

全局数据库仓库 在ODS/DW接口处完成简单 的数据定期抽取工作 历史数据 不可联机更新

ODS全局数据库 在ODS/DB接口处完成数据 一致性的工作 当前和近期的细节数据 可联机更新

各业务数据库

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

DB-ODS-DW三层结构中数据的流动
在三层结构中,数据的传输控制是通过两级记录系统的定义来实现的。ODS系统 和DW系统都有各自的记录系统和记录系统定义。ODS的记录系统定义在原有的数据 库系统中,DW的记录系统定义在ODS一致性数据环境中。 ODS记录系统的定义作为ODS元数据的一部分保存在ODS区中,它指明需要如何 从数据库系统中提取数据。DW记录系统的定义作为元数据的一部分存放在DW中,它 指明需要如何从ODS环境中提取数据,如图1-47所示。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

全局数据库仓库 DW记录系统 的定义

ODS全局数据库 ODS记录系统 的定义 DW记录 系统

各业务数据库 ODS记录系统

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

数据库系统的原数据包含了数据库系统的整体存储信息、各个数据 库和数据表中的字段信息、数据表之间的关联信息、数据索引约束等。 ODS的元数据包含ODS数据的描述、 ODS记录间的关系、 ODS记录系

统的定义(如何从数据库系统向ODS提取数据)、参考表等。另外,系
统还需要定义体系元数据,用于描述ODS元数据, ODS元数据、DW元 数据之间的关系,它们之间的联系如图1-48所示。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM

数据仓库元数据

体系元数据

ODS 元数据

DB DB元数据

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
(4)ODS/DW、ODS/DB间的比较
? 数据量级 相差较大
? 数据存放时间 DW中包含的时大量的历史数据,其数据量远远超过了在ODS 中存放的当前和近期 数据。 ? 数据的内容 DW中几乎无所不包,从细节数据到轻度综合、、高度综合的数据都在其中,甚至 为了决策的需要,还需要从外部数据源中补充数据。 ODS只存放当前和近期的数 据,DW保留长期数据。 ODS中为了进行近期OLAP,也保留有少量的综合数据。 ? ODS和DW的应用需求不同。 DW面向长期的决策分析, ODS主要有全局OLAP 、近期OLAP这两类应用。

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据

DW&DM
? 处理数据的技术 ODS既要进行全局OLAP ,又要进行短期OLAP 。这使得ODS既要有数据库 系统中的事务管理、加锁解锁管理、死锁检查、数据恢复备份、日志管理等 功能,又要有比较简单OLAP的功能,并通过“动态切换”工作于全局OLAP和 近期OLAP两种状态。 ? 保持数据一致性的要求 ODS保持数据一致性的要求比DW严格。 DW对数据一致性的要求是在数据 导入时对不正确的数据进行更正,对于无法更正的数据进行删除,这样使数 据仓库中的数据一致了。但并没有解决原有数据库系统中数据不一致的问 题。而ODS要进行全局OLAP ,这需要全局数据始终保持一致的状态,因此 ODS将从根本上解决数据不一致的问题。 ? 最终用户 ODS只要面向中层管理人员,进行日常的管理和短期决策,DW系统主要面 向专业的数据分析人员和高层管理人员。 DB、ODS、DW间的比较如表1-2所示
2.1 2.2 的数据组织

DW&DM

表1-2:
数据库系统DB 瞬态数据 细节数据 企业内部数据 可联机修改 数据分散、非结构化 面向事务处理 OLTP 底层操作管理人员

DB、ODS、DW数据特征的差异
操作数据系统ODS 当前和近期数据 细节数据 企业内部数据 可联机修改 数据集成 面向主题 全局OLTP/近期OLAP 中层管理人员 数据仓库DW 历史数据 细节数据和综合数据 企业内部数据和必要的外部数据源 不可更改 数据集成 面向主题 长期战略决策 高层管理人员

2.1 数据仓库的体系结构 2.2 数据仓库的特点

2.3 数据仓库的数据组织

2.4 数据仓库建设的两条技术路线 2.5 操作数据存储ODS

2.6 外部数据和非结构数据


赞助商链接
更多相关文档:
更多相关标签:
网站地图

文档资料共享网 nexoncn.com copyright ©right 2010-2020。
文档资料共享网内容来自网络,如有侵犯请联系客服。email:zhit325@126.com