Hadoop 核心技术学习全记录：从 0 到 1 的大数据入门实战心得

最新推荐文章于 2025-12-25 17:46:15 发布

原创最新推荐文章于 2025-12-25 17:46:15 发布 · 856 阅读

本内容遵循CC 4.0 BY-SA版权协议

作为大数据领域的 “敲门砖”，Hadoop 的学习过程像拆盲盒 —— 一开始觉得 “分布式”“集群” 很高深，跟着课程一步步实操后，才摸清了它的底层逻辑。

整个课程是按 “基础环境→核心组件→上层工具” 的递进逻辑设计的，每一步都对应实际工作中的基础需求：

一开始觉得 “虚拟机配置”“Linux 命令” 是 “前置知识”，差点跳过，后来才发现这是集群能跑起来的关键：

课 02《Hadoop 完全分布式部署前的基础准备》里，修改主机名、配置IP映射、免密登录这三步，我一开始漏了 “免密登录”，结果启动集群时每台机器都要输密码，重复操作了 3 遍才搞定；
重点记：ssh-keygen生成密钥、ssh-copy-id 主机名分发密钥，这是集群机器间 “无感知通信” 的前提。

课 01《Hadoop 概述》先讲了 “为什么需要 Hadoop”（解决海量数据存储 / 计算），课 03《完全分布式部署》则是 “怎么搭起来”：

踩坑：配置core-site.xml hdfs-site.xml时，把fs.defaultFS写成了机器 IP 而非主机名，导致集群启动后节点无法通信；
技巧：用start-dfs.sh启动后，一定要用jps命令检查每台机器的进程（NameNode、DataNode、SecondaryNameNode），缺一个都要查配置文件。

HDFS 是 Hadoop 的 “存储大脑”，课 04《HDFS 介绍与使用》讲了原理，课 05-07 则是Java API 实操（这是企业里开发的基础技能）：

课 05《用 API 查看 HDFS 目录文件列表》：用FileSystem.listStatus()获取文件信息时，要注意 “递归遍历子目录” 的逻辑，我一开始只写了单层目录，结果漏了子文件；
课 06《HDFS 读写文件》：上传文件时，FSDataOutputStream要配合IOUtils.copyBytes()，否则会出现 “文件上传成功但内容为空” 的情况；
课 07《删除 HDFS 文件》：FileSystem.delete()方法要加true参数（递归删除目录），否则删不了非空文件夹 —— 这和 Linux 的rm -rf逻辑一致。

MapReduce 是 Hadoop 的 “计算引擎”，课 08-11 是从 “入门” 到 “实战” 的进阶：

课 08《MapReduce 编程入门》：写 WordCount 案例时，一开始把Map的输出 key/value 写反了，导致 Reduce 阶段统计混乱；
课 09《基于 MapReduce 的数据排序》：排序要在Map阶段输出 “待排序字段” 作为 key，利用 Reduce 的 “默认按 key 排序” 特性 —— 不用自己写排序算法，这是 MapReduce 的巧妙之处；
课 10《MapReduce 分区》：Partitioner的作用是 “把数据按规则分到不同 Reduce”，比如按日期分区存储日志，实操时要注意 “分区数要和 ReduceTask 数对应”；
课 11《MapReduce 结果入库》：把计算结果写入数据库时，要在Reducer的cleanup()方法里关闭数据库连接，否则会出现 “连接泄露”。

课 12-13 是 Hive 的入门，它相当于 “MapReduce 的 SQL 外壳”，不用写复杂的 Java 代码就能做数据分析：

课 12《Hive 概述 & 安装》：Hive 依赖 Hadoop，安装时要确保HADOOP_HOME配置正确，否则启动 Hive 会报 “找不到 HDFS”；
课 13《Hive 基本操作》：用create table建表时，要指定row format delimited fields terminated by '\t'（和数据的分隔符对应），否则查出来是乱码；
实用：Hive 的insert overwrite可以把查询结果导出到 HDFS，这是 “计算结果落地” 的常用操作。

三次作业是对前面内容的综合考验：

配置文件的 “小错误”= 集群启动失败比如hdfs-site.xml里的dfs.replication（副本数）设成了大于集群节点数，导致 DataNode 启动后自动退出 —— 副本数不能超过机器数！
MapReduce 的 “数据倾斜” 初体验统计日志时，某一个 key 的数量特别多，导致对应的 ReduceTask 运行了 1 小时（其他只跑了 5 分钟）—— 后来才知道这是 “数据倾斜”，入门阶段可以先通过 “增加 ReduceTask 数” 缓解。
Hive 的 “元数据” 不能丢Hive 的表结构存在元数据库（默认是 Derby），如果换机器启动 Hive，要把元数据同步过去，否则会出现 “表不存在” 的情况 —— 生产环境一般用 MySQL 存元数据。

“抄代码” 不如 “写代码 + 改代码”比如 WordCount 案例，写完基础版后，试着改造成 “统计每个文件的词频”（加个文件名作为 key 的前缀），比单纯复制粘贴记得牢。
把 “报错信息” 当 “知识点” 记比如 “HDFS 权限不足”“MapReduce 任务超时”，把报错内容 + 解决方法记到笔记里，下次遇到直接查。
多查官网 + 社区Hadoop 的官网文档（https://hadoop.apache.org/docs/）虽然有点枯燥，但 “配置项说明”“API 参数” 写得最权威；遇到问题先搜 Stack Overflow，大部分坑前人都踩过。