××××××××××××××××××××××××××××××××自述 可忽略×××××××××××××××××××××××××××××××××××××××
大数据,分布式近年来被炒得非常热,而Hadoop作为一种开源的分布式平台也越来越受人关注,其热度从CSDN的主页上的曝光率就可知一二。 我最早接触Hadoop是在大二的时候,听香港理工的曹建农教授介绍Hadoop这个开源的新武器,当时来蹭讲座的我怎么也不会想到两年后我要用这个平台做我的毕业设计。上学期在做课程设计的时候的大胆挑战了分布式这个课题,然后选择了Hadoop这个平台,实现了一个7节点的distributed cluster。现在毕设更上一层,要在Hadoop上作出一套系统,免不了要用Eclipse这个神器来写程序,所以花了几天时间查阅资料,实现了Eclipse下运行Hadoop程序WordCount。
×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××
目标: 用Eclipse控制Hadoop文件系统HDFS, 在Eclipse下写程序直接在Hadoop上运行
环境参数:
OS: ubuntu 12.04 (most updated) 32 bit
JVM: JDK1.7.0
Eclipse: eclipse-java-juno-SR1-linux-gtk
Hadoop: hadoop-1.4.0
P.S.以上所有的资料都是开源的,都是从开源官网下的。(真心喜欢开源啊)
为了简单及不失普遍性,所搭建的Hadoop平台为伪分布式系统。
特别注意:
Eclipse所属用户必须对HADOOP_HOME具有可执行的权限,最简单的就是让这两者属于同一个用户。我就是一开始没有注意这点,一直失败。
***************************************************************************************************************************
前期准备工作: 实现Hadoop伪分布式系统
如何实现Hadoop伪分布式,有很多很好的博文可以借鉴,但是网上也有很多文章没有将清楚细节,所以我这里将我自己参考的资料列出来:
http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/ 这个外国哥们写得很详细,很多操作的原因也写得笔记清楚, 但是有一些细节还是要照着自己的环静该一下,比如: java的Path, Hadoop 的Path,你自己的用户名等。
我也把我自己的步骤贴出来,但是由于是很早以前写在实验报告里的,所以没有截图,而且格式比较乱。
JAVA环境设置(离线安装jdk7)
1.首先解压压缩包
$tarzxf jdk-7-linux-i586.tar.gz
将得到的jdk1.7.0存到/usr/local/java下
2.配置环境变量
在/etc/environment中添加如下内容:
exportJAVA_HOME=/usr/local/java/jdk1.7.0
exportJRE_HOME=/usr/local/java/jdk1.7.0/jre
exportCLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
在/etc/profile下,添加以下四行
exportJAVA_HOME=/usr/local/java/jdk1.7.0
exportJRE_HOME=/usr/local/java/jdk1.7.0/jre
exportCLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
exportPATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin
umask022
-
验证java环境配置成功
重启系统,然后在命令行输入:
$java-version
如果显示一下内容则成功:
javaversion "1.7.0"
Java(TM)SE Runtime Environment (build 1.7.0)
JavaHotSpot(TM) Client VM (build 16.3-b01, mixed mode, sharing)
添加Hadoop系统的用户
$sudo addgroup hadoop
$sudo adduser --ingroup hadoop hduser
配置SSH远程免密登录
1.在线安装SSH:

本文介绍了如何在Eclipse环境下配置Hadoop伪分布式系统,以便运行WordCount程序。主要步骤包括:安装和配置Java、SSH免密登录、禁用IPv6、解压并配置Hadoop、格式化HDFS、安装Hadoop-Eclipse插件以及运行WordCount示例。通过这些步骤,开发者能够在Ubuntu 12.04系统上用Eclipse直接编写和运行Hadoop程序。
3867

被折叠的 条评论
为什么被折叠?



