E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Larbin
larbin
中hash函数
/*returnahashcodeforthisurl*/ uinturl::hashCode(){ unsignedinth=port; unsignedinti=0; while(host[i]!=0){ h=31*h+host[i]; i++; } i=0; while(file[i]!=0){ h=31*h+file[i]; i++; } returnh%hashSize; }另一个简单的
aican_yu
·
2011-07-19 09:00
File
url
larbin
中的TCP连接
//
Larbin
//SebastienAilleret //07-03-00->07-03-00 #include #include #include #include #include #include
aican_yu
·
2011-07-18 23:00
Web
struct
socket
tcp
null
processing
larbin
中write的用法
//
Larbin
//SebastienAilleret //15-11-99->03-05-01 #include #include #include #include #include #include
aican_yu
·
2011-07-18 21:00
larbin
源码分析(十二) global文件中的四个init初始化模块函数
larbin
源码分析(十二)global文件中的四个init初始化模块函数
larbin
源码分析(十二)global文件中的四个init初始化模块函数 一在global.cc文件中的global构造函数中
jake1036
·
2011-06-21 13:00
larbin
源码分析(十) IpSite站点的抽象类
larbin
源码分析(十)IpSite站点的抽象类 IpSite站点的抽象类 一该类的功能 NamedSite中的类经过dns请求之后,就会将站点名转换为ip,然后将urltransfer
jake1036
·
2011-06-16 14:00
larbin
源码分析(九) NamedSite站点的抽象类
larbin
源码分析(九)NamedSite站点的抽象类
larbin
源码分析(九)NamedSite站点的抽象类 一类的主要功能 NamedSite该类为一个主站点的抽象类,主站点类似www.baidu.com
jake1036
·
2011-06-15 14:00
larbin
源码分析(七)
larbin
中的2种容器与4个url队列
larbin
源码分析(七)
larbin
中的2种容器与4个url队列
larbin
源码分析(七)
larbin
中的2种容器4个url队列 一
larbin
中的2中类型的队列 staticSyncFifo*URLsPriority
jake1036
·
2011-06-13 20:00
larbin
源码分析(六)
larbin
中线程处理类
larbin
源码分析(六)
larbin
中线程处理类
larbin
源码分析(六)
larbin
中线程处理类 一 线程类
larbin
下的线程操作类,主要在mypthread.h中定义,实质上是利用宏定义
jake1036
·
2011-06-13 17:00
larbin
源码分析(五) hashDup类对象的实现
larbin
源码分析(五)hashDup类对象的实现
larbin
源码分析(五)hashDup类对象的实现 一类的成员变量及主要功能 (1)成员变量 ssize_tsize;//表示
jake1036
·
2011-06-13 16:00
larbin
源码分析(四) hashTable类对象的实现
larbin
源码分析(四)hashTable类对象的实现
larbin
源码分析(四)hashTable类对象的实现 一hashTable类对象 作用:爬虫将爬取的url存储在该类对象中,存储方式是
jake1036
·
2011-06-12 16:00
larbin
源代码分析 url类分析
larbin
源代码分析url类分析
larbin
源代码分析url类分析 一分析utils包中的url类 该类代表实际中的一个url,成员变量主要有,char*file,char*host,uint16
jake1036
·
2011-06-11 21:00
larbin
源码分析(二) gloabl文件
Larbin
String类对象的实现
larbin
源码分析(二)gloabl文件
Larbin
String类对象的实现
Larbin
String类对象的实现 一该类介绍
Larbin
String类主要是字符串处理,主要的成员参数是char
jake1036
·
2011-06-11 17:00
larbin
源码分析(一) gloabl文件 Connexion结构
larbin
源码分析(一)gloabl文件Connexion结构
larbin
源码分析(一)从gloabl文件分析每一个结构 一本系列主要是分析
larbin
开源爬虫的源代码,主要思路是先从global文件中的各个重要的结构开始
jake1036
·
2011-06-11 16:00
larbin
跑起来了,下一步就是阅读代码了
03年的代码就是不好编译通过,即使现在
larbin
跑起来了,还是出现很多的警告 首先在下载
larbin
源代码。
Rockics
·
2011-06-03 22:00
服务器
url
文档
iostream
larbin
跑起来了,下一步就是阅读代码了
03年的代码就是不好编译通过,即使现在
larbin
跑起来了,还是出现很多的警告 首先在下载
larbin
源代码。
soboer
·
2011-06-03 22:00
代码
今天晚上要把
larbin
运行起来
然后还要给大妈电话,说服她使用qq游戏,晚上主要是配置编译
larbin
,争取运行起来。好像还要洗衣服,查询明天出行路线之类的。 昨天晚上死活编译不过去,有点阴影。
soboer
·
2011-06-03 17:00
in
今天晚上要把
larbin
运行起来
然后还要给大妈电话,说服她使用qq游戏,晚上主要是配置编译
larbin
,争取运行起来。好像还要洗衣服,查询明天出行路线之类的。 昨天晚上死活编译不过去,有点阴影。
Rockics
·
2011-06-03 17:00
makedepend是个工具居然
我原来不知道 编译
larbin
的时候configure阶段出现很多错误 幸亏同事高明 一语道破天机 这居然是个工具安装之 哈哈 我在超超的电脑上操作幸好这哥们的root帐号密码简单容易破解
Rockics
·
2011-06-02 23:00
工具
破解
Larbin
配置
571注释掉3.把所有#include替换为#include并且加上usingnamespacestd; 还有一个简单的方法,就是从/usr/include/c++里面copy一份iostream到
larbin
orzlzro
·
2011-05-01 10:00
html
ubuntu
iostream
larbin
的使用
apt-get install xutils-dev 2 注释掉adns下internal.h中第568—571行代码 3 到/usr/include/c++/下CP一份iostream文件到
larbin
kenby
·
2011-04-11 20:00
html
C++
c
C#
程序员必备的10大健康装备!——我们要工作更要健康!
之后主要研究下
larbin
爬虫,如果有可能会给它添加一个删除功能,因为其排重部分用的是bloomfilter算法,这个算法的有点很明显,对大规模数据的处理很快,性能很好,而
pcajax
·
2011-03-18 16:00
工作
算法
Google
larbin
学习网址收集
吴昆的博客个人感觉比较好对学习
larbin
很有帮助http://hi.baidu.com/hustwk/blog/category/
larbin
%D3%EB%C5%C0%B3%E6 青青子衿的博客有文件的分析
w28971023
·
2010-11-29 20:00
c
算法
搜索引擎
larbin
学习网址收集
吴昆的博客 个人感觉比较好 对学习
larbin
很有帮助 http://hi.baidu.com/hustwk/blog/category/
larbin
%D3%EB%C5%C0%B3%E6 青青子衿的博客
womendu
·
2010-11-29 20:00
学习
开源网络爬虫介绍及其比较
Larbin
开发语言:C++http
jationxiaozi
·
2010-11-08 19:00
java
Web
Lucene
url
工具
网络爬虫
larbin
中两个wait队列的功能
原来的两个wait队列的作用是对于对应namedsite中含有较多url超过限制的,如果之前从内存中取则放入prioritywait队列,从硬盘中取则放入diskwait队列,原始的feed阶段并不把url往这两个队列中投放。限制namedsite中的url总数,可以壤ipsite中的url总数不会太多,而不会太短时间内尝试。feed阶段不使用不代表他们没有作用,因此不要将它们删除。
jollyjumper
·
2010-10-14 18:00
url
larbin
中的robots.txt解析
robots.txt是MartijnKoster在1994年编写WebCrawler时发明的。非标准的扩展包括Crawl-delay(两次连续爬行的时间,应该很有用吧,不知道实际用得多不),sitemap和allow。默认的实现是第一个规则取胜。Google的实现是先用allow模式然后disallow,bing查看哪个规则更明确。标准的扩展有visit-time和request-rate等。la
jollyjumper
·
2010-10-09 10:00
Google
扩展
token
bing
开源搜索引擎的相关知识收集
http://www.dbanotes.net/web/nutch.htmlNutch初体验http://
larbin
.sourceforge.net/index-eng.htmlMulti-purposewebcrawlerNUTCHhttp
大漠驼铃
·
2010-09-30 10:00
网络爬虫
Larbin
的学习(四)——基本数据结构
首先从我接触到的第一个数据结构开始(因为我在详细阅读代码前首先做了些源代码修改工作)——Vector (1)%
LARBIN
_HOME%/src/utils/Vector 这个类唯一值得一提的就是他的存储空间优化机制
hsmyy198712
·
2010-09-16 17:00
数据结构
算法
工作
网络爬虫
Larbin
的学习(三)——整体架构
这一回开始对
Larbin
的源代码进行学习。经过一段时间的学习,我发现
larbin
的架构还是不错的。而且他的架构中使用到了许多技术,在阅读源代码的过程中也可以捡起以前学过的东西。
hsmyy198712
·
2010-09-16 17:00
数据结构
工作
关于开源的网络爬虫/网络蜘蛛
larbin
结构分析的一篇非常不错的文章
larbin
是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人SébastienAilleret独立开发。
larbin
目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。
lyflower
·
2010-09-14 15:00
网络爬虫
Larbin
的学习(二)——
larbin
定制化
这篇主要讲
larbin
的配置问题,由于作者已经讲得很详细,在此我只把原文进行翻译提炼: (1)
larbin
对外的接口 作者为我们提供了一个文件,叫做%
LARBIN
_HOME%/src/interf
hsmyy198712
·
2010-09-14 10:00
html
.net
网络爬虫
Larbin
的学习(一)——
larbin
的配置
Larbin
是一款历史比较悠久的网络爬虫程序,它基于C/C++编写。
hsmyy198712
·
2010-09-14 10:00
C++
c
linux
windows
ubuntu
网络爬虫--
larbin
larbin
分析、源码分析、结构分析 单线程非阻塞。这是目前使用的比较多的一种做法,无论在client还是server都有着广泛的应用。
to myself 的分类学习日志
·
2010-08-28 20:00
larbin
中URL的去重-Bloom Filter算法
读
larbin
的源码曾经赞叹它去重方法的设计,虽然有一定的冲突率,但是效率极高,占用的内存非常小,按照
larbin
的配置,下载6400万网页,使用的内存只有8M。
piziwang
·
2010-08-18 17:00
数据结构
算法
performance
整理思路
看
larbin
源码看看的,感觉脑子里思路乱急了,整理整理。
larbin
工作的主要步骤就是:首先,初始化各种变量,等等。然后进行dns解析解析完后,进行抓取。
neu_loner
·
2010-07-03 16:12
职场
休闲
larbin
整理思路
看
larbin
源码看看的,感觉脑子里思路乱急了,整理整理。
larbin
工作的主要步骤就是:首先,初始化各种变量,等等。然后进行dns解析解析完后,进行抓取。
neu_loner
·
2010-07-03 16:12
职场
休闲
larbin
larbin
源码分析--Fifo
标准Fifo结构 templateclassFifo{ public: uintin,out; //入口和出口的标识符 uintsize; T**tab; /*Specificconstructor*/ Fifo(uintsize=maxUrlsBySite); /*Destructor*/ ~Fifo(); /*givethefirstobjectandletitin*/ inline
neu_loner
·
2010-07-02 19:30
源码
搜索引擎
爬虫
fifo
larbin
larbin
源码分析--Fifo
标准Fifo结构 templateclassFifo{ public: uintin,out; //入口和出口的标识符 uintsize; T**tab; /*Specificconstructor*/ Fifo(uintsize=maxUrlsBySite); /*Destructor*/ ~Fifo(); /*givethefirstobjectandletitin*/ inline
neu_loner
·
2010-07-02 19:30
源码
爬虫
搜索引擎
fifo
larbin
larbin
源码分析--IPSite
classIPSite{private:/*dateoflastaccess:avoidrapidfire*/time_tlastAccess;/**IsthisSiteinaokSites(eghavesomethingtofetch)*/boolisInFifo;/**Getanurlfromthefifo*resizetabiftoobig*/url*getUrl();public:/**C
neu_loner
·
2010-07-02 19:22
搜索引擎
爬虫
larbin
larbin
larbin
源码分析--IPSite
classIPSite{ private: /*dateoflastaccess:avoidrapidfire*/ time_tlastAccess; /**IsthisSiteinaokSites(eghavesomethingtofetch)*/ boolisInFifo; /**Getanurlfromthefifo *resizetabiftoobig */ url*getUrl();
neu_loner
·
2010-07-02 19:22
爬虫
搜索引擎
larbin
源码研究
IPSite
larbin
源码分析--IPSite
classIPSite{ private: /*dateoflastaccess:avoidrapidfire*/ time_tlastAccess; /**IsthisSiteinaokSites(eghavesomethingtofetch)*/ boolisInFifo; /**Getanurlfromthefifo *resizetabiftoobig */ url*getUrl();
neu_loner
·
2010-07-02 19:22
爬虫
搜索引擎
larbin
源码研究
IPSite
larbin
源码分析---NamedSite
此类事用来存储已经访问过的网站,每一个NamedSite都对应着相应的IPsite classNamedSite{ private: /*stringusedforfollowingCNAMEchains(justonejump)*/ char*cname; /**we'vegotagooddnsanswer *gettherobots.txt*/ voiddnsOK(); /**Cannotg
neu_loner
·
2010-07-02 19:17
爬虫
搜索引擎
spider
休闲
larbin
larbin
源码分析---NamedSite
此类事用来存储已经访问过的网站,每一个NamedSite都对应着相应的IPsite classNamedSite{ private: /*stringusedforfollowingCNAMEchains(justonejump)*/ char*cname; /**we'vegotagooddnsanswer *gettherobots.txt*/ voiddnsOK(); /**Cannotg
neu_loner
·
2010-07-02 19:17
爬虫
搜索引擎
spider
休闲
larbin
larbin
源码分析----PersistentFifo
此队列里面存入的是url对象 classPersistentFifo{ protected: uintin,out; //队列标志位,入口出口#ifdefTHREAD_OUTPUT pthread_mutex_tlock;#endif //numberofthefileusedforreading intfin,fout; //nameoffiles uintfileNameLength;
neu_loner
·
2010-07-02 19:28
源码
搜索引擎
爬虫
spider
larbin
larbin
源码分析----PersistentFifo
此队列里面存入的是url对象 classPersistentFifo{ protected: uintin,out; //队列标志位,入口出口#ifdefTHREAD_OUTPUT pthread_mutex_tlock;#endif //numberofthefileusedforreading intfin,fout; //nameoffiles uintfileNameLength;
neu_loner
·
2010-07-02 19:28
源码
搜索引擎
爬虫
spider
larbin
larbin
源码分析--SyncFifo
//同步队列中的每个操作都需要先加锁,后解锁,以免发生同步问题。 templateclassSyncFifo{ protected: uintin,out; //队列的两个标志位,一个入口标志位,一个出口标志位 uintsize; //队列长度 T**tab;#ifdefTHREAD_OUTPUT pthread_mutex_tlock; /
neu_loner
·
2010-07-02 19:09
搜索引擎
爬虫
队列
休闲
larbin
larbin
源码分析--SyncFifo
//同步队列中的每个操作都需要先加锁,后解锁,以免发生同步问题。 templateclassSyncFifo{ protected: uintin,out; //队列的两个标志位,一个入口标志位,一个出口标志位 uintsize; //队列长度 T**tab;#ifdefTHREAD_OUTPUT pthread_mutex_tlock; /
neu_loner
·
2010-07-02 19:09
搜索引擎
爬虫
队列
休闲
larbin
larbin
源码分析(1)--global结构
从今天开始写
larbin
的源码分析。希望在一个月后,自己能够对
larbin
的源码了如指掌,也希望到那时自己可以写出一个爬虫。
neu_loner
·
2010-07-02 19:35
搜索引擎
爬虫
spider
global
larbin
larbin
源码分析(1)--global结构
从今天开始写
larbin
的源码分析。希望在一个月后,自己能够对
larbin
的源码了如指掌,也希望到那时自己可以写出一个爬虫。
neu_loner
·
2010-07-02 19:35
搜索引擎
爬虫
spider
global
larbin
在Ubuntu 9.10上部署
Larbin
2.6.3
本机环境 gcc-4.4.1 Ubuntu-9.10
larbin
-2.6.3 2.解压文件并进入根目录 tar zxvf
larbin
-2.6.3.tar.gz cd
larbin
-2.6.3
hdxiong
·
2010-06-21 13:00
C++
c
C#
gcc
ubuntu
上一页
1
2
3
4
5
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他