ubuntu12.04下网络爬虫 larbin 的安装

准备工作:
1.
安装gcc: sudo apt-get install gcc
安装g++: sudo apt-get install g++
安装xutils-dev:sudo apt-get install xutils-dev
安装make: sudo apt-get install make
2.
到官网下载larbin.tar.gz
安装:
1.解压larbin的包: tar -zxvf larbin.tar.gz
2.进入到 larbin目录下:cd larbin
3.修改adns文件夹的internal.h文件569-571行:
adns_status adns__parse_domain(adns_state ads, int serv, adns_query qu,
vbuf vb, parsedomain_flags flags,
const byte
dgram, int dglen, int cbyte_io, int max);
改为:
adns_status adns__parse_domain(adns_state ads, int serv, adns_query qu,
vbuf
vb, adns_queryflags flags,
const byte dgram, int dglen, int cbyte_io, int max);
(注意:此处的vb,dgram,cbyte_io均是指针类型,我编辑的时候是带星号的,但是博客上不显示星号)
4.复制/usr/include/c++/的iostream文件到larbin的src目录下,并改名为iostream.h,在文件中添加一句using namespace std;
5.修改编译选项配置:vi options.h
修改输出选项: 将//#define SIMPLE_SAVE前的//取消掉,在#define DEFAULT_OUTPUT前加//
(注释的其实相当清楚的)
6.检查系统是否满足编译要求:./configure
7.编译:make
8.运行:进入larbin目录:./larbin
9.ctrl+c 终止程序

ps:
配置文件主要是options.h 和larbin.conf,可以根据自己的需求配置
在浏览器输入localhost:8081可以看到爬到的的网页的统计信息

你可能感兴趣的:(网络爬虫,larbin)