知识大全 深入探讨数据仓库建模与ETL的实践技巧[3]
Posted 产品
篇首语:但使书种多,会有岁稔时。本文由小常识网(cha138.com)小编为大家整理,主要介绍了知识大全 深入探讨数据仓库建模与ETL的实践技巧[3]相关的知识,希望对你有一定的参考价值。
深入探讨数据仓库建模与ETL的实践技巧[3] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!
这里我们首先要确定维度的层次(Hierarchy)和级别(Level)(图四 pic bmp) 如图所示 我们在时间维度上 按照 年 季度 月 形成了一个层次 其中 年 季度 月 成为了这个层次的 个级别;同理 当我们建立产品维度时 我们可以将 产品大类 产品子类 产品 划为一个层次 其中包含 产品大类 产品子类 产品 三个级别
那么 我们分析中所用到的这些维度 在数据仓库中的存在形式是怎样的呢?
我们可以将 个级别设置成一张数据表中的 个字段 比如时间维度;我们也可以使用三张表 分别保存产品大类 产品子类 产品三部分数据 比如产品维度 (图五 pic bmp)
另外 值得一提的是 我们在建立维度表时要充分使用代理键 代理键是数值型的ID号码(例如图六中每张表的第一个字段) 它唯一标识了每一维度成员 更重要的是 在聚合时 数值型字段的匹配和比较 JOIN效率高 便于聚合 同时 代理键对缓慢变化维度有着重要的意义 在原数据主键相同的情况下 它起到了对新数据与历史数据的标识作用
在此 我们不妨谈一谈维度表随时间变化的问题 这是我们经常会遇到的情况 我们称其为缓慢变化维度
比如我们增加了新的产品 或者产品的ID号码修改了 或者产品增加了一个新的属性 此时 维度表就会被修改或者增加新的记录行 这样 我们在ETL的过程中 就要考虑到缓慢变化维度的处理 对于缓慢变化维度 有三种情况
缓慢变化维度第一种类型
历史数据需要修改 这种情况下 我们使用UPDATE方法来修改维度表中的数据 例如 产品的ID号码为 后来发现ID号码错了 需要改写成 那么 我们就在ETL处理时 直接修改维度表中原来的ID号码为
缓慢变化维度第二种类型
历史数据保留 新增数据也要保留 这时 要将原数据更新 将新数据插入 我们使用UPDATE / INSERT 比如 某一员工 年在A部门 年时他调到了B部门 那么在统计 年的数据时就应该将该员工定位到A部门;而在统计 年数据时就应该定位到B部门 然后再有新的数据插入时 将按照新部门(B部门)进行处理 这样我们的做法是将该维度成员列表加入标识列 将历史的数据标识为 过期 将目前的数据标识为 当前的 另一种方法是将该维度打上时间戳 即将历史数据生效的时间段作为它的一个属性 在与原始表匹配生成事实表时将按照时间段进行关联 这种方法的好处是该维度成员生效时间明确
cha138/Article/program/SQL/201311/16276相关参考
深入探讨数据仓库建模与ETL的实践技巧[2] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! (二
深入探讨数据仓库建模与ETL的实践技巧[1] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 这篇
深入探讨数据仓库建模与ETL的实践技巧[6] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! (三
深入探讨数据仓库建模与ETL的实践技巧[5] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! ET
ETL的过程原理和数据仓库建设[1] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 引言 数据
ETL的过程原理和数据仓库建设[2] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 数据抽取和上
这种数据上的割据必须在项目的开始就立即加以解决理想的情况是公司最高管理层的一个或者几个成员能够为数据仓库进行部门或部门之间的对象设置管理层的支持有助于打破各个部门之间日益严重的由于数据保护而形成的
数据抽取、清洗与转换及BI项目中ETL设计[3] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!
一课程简介 定价¥ 本视频课程共课时主要讲述了数据仓库(DW)和数据挖掘(DM)的基本方法基本原理重点说明这些方法的主要思想和技术在数据仓库部分不仅全面深入地介绍了基本概念和体系结构而且详细阐述了
在数据仓库中经常查询的SQL总带有下列特征: ◆几个表进行关联 ◆只有一个数据量巨大的表称为事实表 ◆其他的都是编码表称为维表 ◆维表和事实表之间有主外键关系 假设有D(key)D(ke