ETL(Extract-Transform-Load的缩写)
即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。
ETL工具分为两部分:脚本定义模块和脚本执行模块,这两个模块的关系如下:
–脚本定义模块只定义和保存脚本,脚本执行模块只读取和执行脚本,二者互不影响。
–需要为两个模块提供同样的环境,但不一定是同一个环境。
数据适配器是按照指定接口开发的一个程序,分为来源适配器和目标适配器两种
来源适配器:按照指定的描述和参数,从来源获取数据
目标适配器:按照指定的描述和参数,向目标写入数据
适配器由系统统一管理,定义ETL任务时,在来源/目标描述中指定需要的适配器
数据来源描述包括适配器、来源信息和参数三部分。
适配器由系统统一管理,在任务定义时只需要选择对应的适配器即可
来源描述可以是一个文件名、一个数据库表名等等,这些由适配器解析
参数由适配器处理,用于筛选数据。
本文深入探讨了ETL(Extract-Transform-Load)在BI/DW中的核心作用,详细阐述了其作为数据集成和价值提升关键步骤的过程。重点介绍了ETL工具的组成部分、数据适配器的功能以及数据来源描述的重要性,旨在帮助读者理解如何高效地实现数据从源到目标的转化。
3万+

被折叠的 条评论
为什么被折叠?



