Larbin——一款c++编写的爬虫程序

本文介绍了Larbin,一款用C++编写的高效HTTP Web爬虫程序,可在标准PC上每日抓取超过5百万页面。文章记录了作者在Ubuntu环境下安装配置Larbin的过程及遇到的问题。
Larbin——一款c++编写的爬虫程序
2009-08-13 22:01
    今天我读了一篇名叫“开源网络爬虫程序(spider)一览“的文章,然后就在列表的末尾看到了这个程序"Larbin",由于它是唯一一个用c++写的,而在所有编程语言中我对于c++是最熟悉的,二话不说就开始找它的程序,打算自己配置运行一下,再看代码研究一下。
我在google 直接输入关键词"larbin",第一页就找到了项目网站
http://larbin.sourceforge.net/index-eng.html
网站上一对E文,但是对我来说最有用的只是download这个关键词。其他两个有用的是两个"how to use larbin"和 "how to custmize larbin"的链接。但是在一开始做配置的时候我觉得不需要看这两个。因为google 上输入关键词"larbin 安装"就出一大堆结果。
其中,有效的一篇文章在这里:
http://www.cgeek.org/?p=68
我在ubuntu中按着它说的做了之后,在make的时候竟然还是出错了。出错信息是fetch文件夹下的file.h有多余的“域“,按着提示把域去掉。再次make的时候就成功了。
还没开始进一步学习,今天就到这了。

http://hsmyy198712.iteye.com/blog/762698


larbin

Larbin is an HTTP Web crawler with an easy interface that runs under Linux. It can fetch more than 5 million pages a day on a standard PC (with a good network).

语言:C++


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值