nutch在windows下的配置

本文介绍了如何在Windows上配置Nutch 0.9与Tomcat6,利用Cygwin模拟环境,详细步骤包括创建weburls.txt,修改配置文件如crawl-urlfilter.txt和nutch-site.xml,执行bin/nutch crawl命令,将nutch-0.9.war部署到Tomcat,以及最终测试搜索引擎的功能。

nutch0.9+Tomcat6在windows下的配置,还需要下载一个Cygwin类UNIX模拟环境,当然在linux环境下可以跳过这个。

在nutch-0.9目录下新建一个weburls.txt,用于存放入口网页地址,如http://www.view.sdu.edu.cn/。然后在nutch-0.9/conf/crawl-urlfilter.txt文件里修改以下地方:在

# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

后面添加+^http://www.view.sdu.edu.cn/这一行。

在nutch-0.9/conf/nutch-site.xml文件里的配置里添加以下:

<property>
<name>http.agent.name</name>
<value>*</value>
<description>localweb.com</description>
</property>
<property>
<name>searcher.dir</name>
<value>D:\nutch\nutch-0.9\localweb</value>
<description></description>
</property>

然后打开Cygwin,到nutch-0.9的目录下,敲入命令行 bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2,然后回车等待下载。下载完成后,将nutch-0.9目录下的nutch-0.9.war文件复制到tomcat目录下的webapps目录下并解压,解压过程中选择全部替换。然后在解压后的webapps/nutch-0.9/WEB-INF/classes目录下的nutch-site.xml文件里进行修改,将以下内容添加到configuration属性中:

<property>
<name>searcher.dir</name>
<value>D:\nutch\nutch-0.9\localweb</value>
<description></description>
</property>


然后打开浏览器输入http://127.0.0.1:8080/nutch-0.9出现nutch界面:

测试查询,输入 山东大学齐鲁医院 ,出现以下界面:

nutch搜索引擎初步完成。注意上述步骤的操作顺序,有些顺序十分严格,本实验感谢董小五程序媛鼓励师的耐心指导。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值