Nutch1.2的安装使用。

本文介绍了如何利用Nutch作为网页爬取工具,并通过配置Tomcat展示搜索结果的过程。详细说明了从初始URL集合注入、生成片段文件、抓取网页内容、解析数据、建立索引直至配置Tomcat展示搜索结果的完整工作流程。

Nutch是网页爬取的工具,这里还将安装Tomcat以支持显示搜索的动态页面。(Tomcat是动态页面应用服务器)

nutch工作流程


1、将起始URL集合注入到Nutch系统之中。
2、生成片段文件,其中包括了将要抓取的URL地址。
3、根据URL地址在互联网上抓取相应的内容。
4、解析所抓取的网页,并分析其中的文本和数据。
5、根据新抓取的网页中的URL集合来更新起始URL集合,并再次进行抓取。

6、同时,对抓取到的网页内容建立索引,生成索引文件存放在系统之中。

(一个类广搜的过程。

在本地新建一个weburls.txt文件,写入要爬取的网站url

修改 nutch-1.2/conf/crawl-urlfilter.txt

然后运行爬取命令

bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 50 -threads 2

-dir = localweb  指明下载数据存放路径,该目录不存在时,会被自动创建
-deptch =    下载深度为2

-topN = 50    下载符合条件的前100个页面
-threads
2    启动的线程数目

运行结果为


执行后新建的文件夹localweb下会有五个文件夹

crawldb:爬行数据库,用来存储所要爬行的网址
linkdb: 链接数据库
,用来存储每个网址的链接地址,包括源地址链接地址
segments: 抓取的网址
被作为一个单元,而一个segment就是一个单元。一个segment包括以下子目录:
          crawl_generate:   包含所抓取的网址列表
        crawl_fetch:     
包含每个抓取页面的状态
         content:        
包含每个抓取页面的内容
         parse_text:     
包含每个抓取页面的解析文本
         parse_data:    
包含每个页面的外部链接元数据
         crawl_parse:   
包含网址的外部链接地址,用于更新crawldb数据库
indexes:
采用Lucene的格式建立索引集
index最终生成
目录


之后配置Tomcat,来显示Nutch的结果。

Tomcat 是Servlet 和JSP动态网页的服务端容器

流程图:


装好Tomcat后,配置Nutch,来运行搜索抓取到的结果。


我的数据并没有抓到,在deep1时就停下了,显示可用URL为0,不明原因,日后补充。

附录:

netstat -an

-a 是显示所有网络连接

-n 是用网络IP代替名称

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值