知识大全 浅谈数据仓库和数据挖掘本质
Posted 知
篇首语:丈夫志四海,万里犹比邻。本文由小常识网(cha138.com)小编为大家整理,主要介绍了知识大全 浅谈数据仓库和数据挖掘本质相关的知识,希望对你有一定的参考价值。
数据仓库和数据挖掘是两个比较大的概念 在国外已经非常成熟 在国内随着前几年企业数据的累计 ERP的成熟 数据仓库和数据挖掘开始起步
如何建立数据仓库和数据挖掘是个不断值得探讨和优化的问题 不仅仅在技术上 在商业应用上也是如此 随着新的技术和观念的不断引入 传统的数据仓库技术方法有了很大的改变 基于数据仓库的应用也有了新的发展 每个企业的数据仓库根据企业特点不同 可以采用非常灵活的选型方法进行选型设计 实施 本文根据一些比较新的技术特点 谈谈数据仓库和数据挖掘的架构
从成熟的数据仓库架构入手来看 建立EDW(Enterprise Data Warehouse)是个比较好的选择 EDW是企业数据仓库 对整个企业数据有一个完整的不冗余的保留关键历史变化信息的唯一视图 基于EDW可以建立不同主题的数据集市Data Mart 数据集市不同的企业有不同的要求 基本上可以分用户主题 业务流主题 产品主题等等 在EDW的基础上可以有非常多的主题应用 如何建立EDW是个比较重要的问题
建立EDW的关键是要把握数据仓库的本质 提供关键历史变化信息 可以真实还原企业数据的关键历史视图 也就是现在提到比较多的DSS层 在DSS层之下有ODS层做当前数据视图 有缓冲层做增量数据视图 利用增量数据视图和DSS层数据视图结合起来 利用缓慢变化维或者代理键技术 从理论上就可以实现DSS层的任何数据历史变化 但是在实际实施DSS层时候 一个能提供高性能计算的数据库和选择一个切合业务发展的增量时间频率是两个关键点
缓慢变化维从具体实施过程的可以维护性出发 比较统一通用的方法可以采用增加快照开始时间和快照结束时间 结合业务系统的主键 就可以完成DSS层真实企业数据关键历史快照视图 在实施过程中关键要把握增量数据缓冲层中三种集合数据 纯粹新增的数据A 关键历史信息发生变化的数据B 关键历史信息没有发生变化的数据C 对集合A B都需要增加快照记录 对集合C则采用更新快照记录 这个过程的重点是高性能计算和商业需求
在DSS层之上 根据EDW方案种数据库不同 可以采用建立数据集市 数据集市基本上可以采用星型模型建立 便于多维分析
成熟EDW是用来支持商业应用的 EDW之上的一个比较重要的应用是数据挖掘 从EDW海量数据中寻找有用的信息 支持企业的发展 这里不具体到数据挖掘厂商 从一般性的概念上理解更加重要 数据挖掘需要EDW能够基于DSS层的企业数据关键历史视图 重新组合成商业上决策因素集合 结合数据挖掘的一些成熟的算法 把EDW里面的海量数据处理成为信息决策源 在实施数据挖掘过程中 需要注意的是一定要根据企业本身的业务来制定模型 任何脱离企业业务的理论模型在具体实施过程中失败的可能性很大
谈完了数据仓库和数据挖掘的本质 那么目前可以值得选择的一些厂商和技术是什么呢?
随着商业智能 数据仓库的成熟 进入这个领域的厂商越来越多 评测也是各有千秋 在EDW方面 根据数据仓库的容量 计算复杂度 实时性要求 在低端可以考虑微软的SQL Sserver 目前SQL Sserver 在商业智能上有显著增强 在中端可以考虑Oracle 的DW 解决方案 Sybase IQ在数据量不是非常大的时候性能还是不错的 如果要做超大型的DW 那么需要考虑一些高端专业的DW解决方案 目前TERADATA和IBM的Share Nothing架构的高端数据仓库在海量数据处理 复杂商业计算 实时数据处理方面扩展性比较好 但是投入非常大
cha138/Article/program/SQL/201311/16368相关参考
前言 在事务处理系统中的数据主要用于记录和查询业务情况随着数据仓库(DW)技术的不断成熟企业的数据逐渐变成了决策的主要依据数据仓库是一种面向决策主题由多数据源集成拥有当前及历史总结数据以读为
一课程简介 定价¥ 本视频课程共课时主要讲述了数据仓库(DW)和数据挖掘(DM)的基本方法基本原理重点说明这些方法的主要思想和技术在数据仓库部分不仅全面深入地介绍了基本概念和体系结构而且详细阐述了
ETL的过程原理和数据仓库建设[2] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 数据抽取和上
ETL的过程原理和数据仓库建设[1] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 引言 数据
数据仓库和我们常见的RDBMS系统有些亲缘关系但它又有所不同如果你没有实施过数据仓库那么从设定目标到给出设计从创建数据结构到编写数据分析程序再到面对挑剔的用户的评估整个过程都会带给你一种与以往的项
在数据仓库中经常查询的SQL总带有下列特征: ◆几个表进行关联 ◆只有一个数据量巨大的表称为事实表 ◆其他的都是编码表称为维表 ◆维表和事实表之间有主外键关系 假设有D(key)D(ke
过去我们一直使用的OLTP技术也许隐藏着许多严重的缺陷数据仓库的实现并不是一个简单的任务你会发现以前积累下来的丰富经验并不适合处理每个数据仓库的独特需求 下面列出的条款是你在实现数据仓库过程
规则三:定义目标和量化收益 在项目开始实施以前用户必须明确回答几个问题我们为什么要建立一个数据仓库?项目的目的同我们机构的任务一致吗?哪些问题是我们致力于要去解决的?要考虑及时推入市场质量和客户
一直觉得数据仓库很遥远毕竟它对资源的要求很高经济统计计算机等综合能力 数据仓库是面向决策支持的应用用于提供一个统一的视角在过去对于不同的部门来说对每个客户的认识是片面的也许客户部门会认为一个总投
知识大全 SQL Server数据库中涉及到的数据仓库概念[2]
SQLServer数据库中涉及到的数据仓库概念[2] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!