迄今为止,Hadoop 的发展已经经历了两代,分别为Hadoop 1.0 和Hadoop 2.0。与《Hadoop 权威指南(第3版)》相比,第4版在重点介绍Hadoop 2.0的基础上,新增了对当前热门的Hadoop 技术(如YARN、Parquet、Flume、Crunch和Spark)的专门讲解,有助于Hadoop开发者更好地理解相关技术的背景、原理及使用。此外,第4版还引入了Hadoop在医疗健康领域和分子生物学领域的最新应用成果,并为此新增了相关的实例学习,这对广大Hadoop用户而言,具有更好的实践指导意义。
今天,Hadoop 开源项目已经成为研究大数据、开发大数据应用的重要平台,在我国已经形成一个庞大的Hadoop用户社群,他们对学习、掌握和提高Hadoop提出了很高的需求,《Hadoop权威指南》系列版本的推出恰好可以满足这样的需要。该书从第1版发行以来,历次再版后的畅销也证明了它的用途和价值。

本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,
第I部分介绍Hadoop基础知识,主题涉及Hadoop、 MapReduce、 Hadoop分布式文件系统、YARN、Hadoop 的I/O操作。
第II部分介绍MapReduce,主题包括MapReduce应用开发; MapReduce 的工作机制、MapReduce 的类型与格式、MapReduce 的特性。
第三部分介绍Hadoop的运维,主要涉及构建Hadoop集群、管理Hadoop。
第IV部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、 Flume、 Sqoop、 Pig、 Hive、 Crunch、 Spark、 HBase、 ZooKeeper。
第V部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。
本书是一本权威、全面的Hadoop参考与工具书,阐述了Hadoop生态圈的最新发展和应用,程序员可以从中探索海量数据集的存储和分析,管理员可以从中了解Hadoop集群的安装和运维。
目录总览




由于篇幅限制小编,小编只在这里给大家展示目录及部分内容,有需要完整文档的程序猿(媛)可以关注文末公众号自行获取
第|部分Hadoop基础知识

第1章初识Hadoop


第2章关于MapReduce


第3章Hadoop 分布式文件系统


第4章关于YARN


第5章Hadoop的I/O操作


第2部分关于MapReduce

第6章MapReduce应用开发


第7章MapReduce的工作机制


第8章MapReduce的类型与格式


第9章MapReduce的特性


由于篇幅限制小编,pdf文档的详解资料太全面,细节内容实在太多啦,所以只把部分知识点截图出来粗略的介绍,每个小节点里面都有更细化的内容!不会只有大纲和目录,有需要的程序猿(媛)可以关注文末公众号自行获取
第3部分Hadoop的操作

第10章构建Hadoop集群


第11章管理Hadoop


第IV部分Hadoop相关开源项目

第12章关于Avro


第13章关于Parquet


第14章关于Flume


第15章关于Sqoop


第16章关于Pig


第17章关于HiveHive的shel环境


第18章关于Crunch


第19章关于Spark


第20章关于HBase


第21章关于ZooKeeper


第V部分案例学习

第22章医疗公司塞纳(Cerner) 的可聚合数据


第23章生物数据科学:用软件拯救生命


第24章开源项目Cascading


附录

附录A安装Apache Hadoop

附录B关于CDH

附录C准备NCDC气象数据

附录D新版和旧版JavaMapReduce API

领取文章中的730页《Hadoop权威指南大数据的存储与分析》,只需要:
——对文章将进行转发+评论,关注下方公众获取即可。


本书全面介绍了Hadoop的基础知识、MapReduce、集群运维、相关开源项目及其在医疗和生物领域的应用。新增内容涵盖YARN、Parquet、Flume、Crunch和Spark,适合Hadoop开发者和管理员深入学习。书中通过实例展示了Hadoop在实际场景中的运用,是理解和掌握Hadoop生态的重要参考。
559

被折叠的 条评论
为什么被折叠?



