知识大全 数据抽取、清洗与转换及BI项目中ETL设计[3]
Posted 知
篇首语:幽映每白日,清辉照衣裳。本文由小常识网(cha138.com)小编为大家整理,主要介绍了知识大全 数据抽取、清洗与转换及BI项目中ETL设计[3]相关的知识,希望对你有一定的参考价值。
数据抽取、清洗与转换及BI项目中ETL设计[3] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!
数据清洗
数据清洗的任务是过滤那些不符合要求的数据 将过滤的结果交给业务主管部门 确认是否过滤掉还是由业务单位修正之后再进行抽取 不符合要求的数据主要是有不完整的数据 错误的数据和重复的数据三大类
A 不完整的数据 其特征是是一些应该有的信息缺失 如供应商的名称 分公司的名称 客户的区域信息缺失 业务系统中主表与明细表不能匹配等 需要将这一类数据过滤出来 按缺失的内容分别写入不同Excel文件向客户提交 要求在规定的时间内补全 补全后才写入数据仓库
B 错误的数据 产生原因是业务系统不够健全 在接收输入后没有进行判断直接写入后台数据库造成的 比如数值数据输成全角数字字符 字符串数据后面有一个回车 日期格式不正确 日期越界等 这一类数据也要分类 对于类似于全角字符 数据前后有不面见字符的问题只能写SQL的方式找出来 然后要求客户在业务系统修正之后抽取;日期格式不正确的或者是日期越界的这一类错误会导致ETL运行失败 这一类错误需要去业务系统数据库用SQL的方式挑出来 交给业务主管部门要求限期修正 修正之后再抽取
C 重复的数据 特别是维表中比较常见 将重复的数据的记录所有字段导出来 让客户确认并整理
数据清洗是一个反复的过程 不可能在几天内完成 只有不断的发现问题 解决问题 对于是否过滤 是否修正一般要求客户确认;对于过滤掉的数据 写入Excel文件或者将过滤数据写入数据表 在ETL开发的初期可以每天向业务单位发送过滤数据的邮件 促使他们尽快的修正错误 同时也可以作为将来验证数据的依据 数据清洗需要注意的是不要将有用的数据过滤掉了 对于每个过滤规则认真进行验证 并要用户确认才行
cha138/Article/program/SQL/201311/16285相关参考
数据抽取、清洗与转换及BI项目中ETL设计[2] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!
数据抽取、清洗与转换及BI项目中ETL设计[1] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧!
ETL的过程原理和数据仓库建设[2] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 数据抽取和上
深入探讨数据仓库建模与ETL的实践技巧[3] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 这里
用spring来管理项目的数据库部分往往比自己去写连接要容易管理的多步骤也比较简单 项目根目录下建立conflib目录将spring相关包coop到lib中并导入建立个文件jdbcpropert
深入探讨数据仓库建模与ETL的实践技巧[4] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 缓慢
深入探讨数据仓库建模与ETL的实践技巧[2] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! (二
深入探讨数据仓库建模与ETL的实践技巧[1] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! 这篇
深入探讨数据仓库建模与ETL的实践技巧[6] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! (三
深入探讨数据仓库建模与ETL的实践技巧[5] 以下文字资料是由(全榜网网www.cha138.com)小编为大家搜集整理后发布的内容,让我们赶快一起来看一下吧! ET