nutch0.9+Tomcat6在windows下的配置,还需要下载一个Cygwin类UNIX模拟环境,当然在linux环境下可以跳过这个。
在nutch-0.9目录下新建一个weburls.txt,用于存放入口网页地址,如http://www.view.sdu.edu.cn/。然后在nutch-0.9/conf/crawl-urlfilter.txt文件里修改以下地方:在
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
后面添加+^http://www.view.sdu.edu.cn/这一行。
在nutch-0.9/conf/nutch-site.xml文件里的配置里添加以下:
<property>
<name>http.agent.name</name>
<value>*</value>
<description>localweb.com</description>
</property>
<property>
<name>searcher.dir</name>
<value>D:\nutch\nutch-0.9\localweb</value>
<description></description>
</property>
然后打开Cygwin,到nutch-0.9的目录下,敲入命令行 bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2,然后回车等待下载。下载完成后,将nutch-0.9目录下的nutch-0.9.war文件复制到tomcat目录下的webapps目录下并解压,解压过程中选择全部替换。然后在解压后的webapps/nutch-0.9/WEB-INF/classes目录下的nutch-site.xml文件里进行修改,将以下内容添加到configuration属性中:
<property>
<name>searcher.dir</name>
<value>D:\nutch\nutch-0.9\localweb</value>
<description></description>
</property>
然后打开浏览器输入http://127.0.0.1:8080/nutch-0.9出现nutch界面:
测试查询,输入 山东大学齐鲁医院 ,出现以下界面:
nutch搜索引擎初步完成。注意上述步骤的操作顺序,有些顺序十分严格,本实验感谢董小五程序媛鼓励师的耐心指导。
本文介绍了如何在Windows上配置Nutch 0.9与Tomcat6,利用Cygwin模拟环境,详细步骤包括创建weburls.txt,修改配置文件如crawl-urlfilter.txt和nutch-site.xml,执行bin/nutch crawl命令,将nutch-0.9.war部署到Tomcat,以及最终测试搜索引擎的功能。
3017

被折叠的 条评论
为什么被折叠?



