Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案 中文PDF版
基本信息
打开支付宝首页搜“673273051”领红包,领到大红包的小伙伴赶紧使用哦!
相关书籍
内容介绍
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,书中介绍了如何使用PDI来实现数据的剖析、清洗、校验、抽取、转换、加载等各类常见的ETL类工作。
除了ODS/DW类比较大型的应用外,Kettle 实际还可以为中小企业提供灵活的数据抽取和数据处理的功能。Kettle除了支持各种关系型数据库、HBase、MongoDB这样的NoSQL数据源外,它还支持Excel、Access这类小型的数据源。并且通过插件扩展,Kettle 可以支持各类数据源。本书详细介绍了Kettle可以处理的数据源,而且详细介绍了如何使用Kettle抽取增量数据。
Kettle 的数据处理功能也很强大,除了选择、过滤、分组、连接、排序这些常用的功能外,Kettle 里的Java表达式、正则表达式、Java脚本、Java类等功能都非常灵活而强大,都非常适合于各种数据处理功能。本书也使用了一些篇幅介绍Kettle这些灵活的数据处理功能。
目录:
第一部分:开始
第1章 ETL入门 2
第2章 Kettle基本概念 18
第3章 安装和配置 39
第4章 ETL示例解决方案——Sakila 54
第二部分:ETL
第5章 ETL子系统 82
第6章 数据抽取 92
第7章 清洗和校验 119
第8章 处理维度表 147
第9章 加载事实表 172
第10章 处理OLAP数据 188
第三部分:管理和部署
第11章 ETL开发生命期 206
第12章 调度和监控 224
第13章 版本和移植 238
第14章 血统和审计 249
第四部分:性能和扩展性
第15章 性能调优 264
第16章 并行、集群和分区 283
第17章 云计算中的动态集群 303
第18章 实时数据整合 315
第五部分:高级主题
第19章 Data Vault管理 326
第20章 处理复杂数据格式 350
第21章 Web Services 363
第22章 Kettle集成 404
第23章 扩展Kettle 424
