larbin源码分析(一) gloabl文件 Connexion结构
larbin源码分析(一) 从gloabl文件分析每一个结构
一 本系列主要是分析larbin开源爬虫的源代码,主要思路是先从global文件中的各个重要的结构开始。
1 Connexion 此处为一个结构体
程序中保持一定的数量。小扩展:FetchOpen 类主要用来建立连接,而FetchPipe类主要用来进行连接之后的数据交换。
struct Connexion{
char state ; //表示socket的状态EMPTY , CONNECTING , WRITE . OPEN
int pos ; //请求被发送到的位置
FetchError err ; //查询如何终止的
int socket ; // number of the fds
int timeout ; //链接的超时值
LarbinString request ; //http 请求报头
file * parser ; //对下载的网页进行解析
char buffer[maxPageSize] ; //存储下载的网页数据
Connexion() ;
~Connexion() ;
void recycle() ; //此处主要进行循环使用
} ;
2 具体成员函数的实现
Connexion::Connexion() //具体将socket的状态变为emptyC
{ //将文件解析句柄变为空
state = emptyC ;
parser = NULL ;
Connexion::~Connexion() //保证一旦调用,即报告错误
assert(false) ;
/*recycle a connexion*/
void Connexion::recycle() //循环使用该结构体
delete parser ; //删除解析对象
request.recycle() ; //对LarbinString 调用recycle函数。
3 utils包下的connexion.h 和 connexion.cc的具体代码实现
// Sebastien Ailleret
// 15-11-99 -> 14-12-99
/**/ /* make write until everything is written
* return 0 on success, 1 otherwise
* Don't work on non-blocking fds
int ecrire ( int fd, char * buf);
/**/ /* make write until everything is written
* return 0 on success, 1 otherwise
* Don't work on non-blocking fds
int ecrireBuff ( int fd, char * buf, int count);
/**/ /** Write an int on a fds
* (uses ecrire)
int ecrireInt ( int fd, int i);
int ecrireInt2 ( int fd, int i);
int ecrireInti ( int fd, int i, char * f);
int ecrireIntl ( int fd, long i, char * f);
/**/ /** Write an int on a fds
* (uses ecrire)
int ecrireLong ( int fd, long i);
/**/ /* Write a char on a fds
* return 0 on success, 1 otherwise
* Don't work on non-blocking fds
int ecrireChar ( int fd, char c);
#endif // CONNEXION_H
写入操作中主要使用了 write 系统调用。
ssize_t write(int fd , char * buf , int count)
若是发生写错误,则返回值为-1 ,但是若此时的错误状态为EINTR ,则表示是发生了中断操作,此时应该继续进行写操作。
(1) 误区
// Sebastien Ailleret
// 15-11-99 -> 03-05-01
#include < stdio.h >
#include < stdlib.h >
#include < unistd.h >
#include < string .h >
#include < sys / socket.h >
#include < netinet / in .h >
#include < netinet / tcp.h >
#include < ctype.h >
#include < netdb.h >
#include < arpa / inet.h >
#include < errno.h >
#include < iostream >
#include " options.h "
using namespace std ;
/**/ /*********************************/
/**/ /* various functions for writing */
/**/ /* make write until everything is written
* return 0 on success, 1 otherwise
* Don't work on non-blocking fds
int ecrire ( int fd, char * buf) {
int pos = 0 ;
int len = strlen(buf);
while(pos < len)
int i = write(fd , buf + pos, len - pos) ;
if(i == -1)
if(errno != EINTR)
pos = len + 1 ;
pos += i ;
return pos != len ;
/**/ /* make write until everything is written
* return 0 on success, 1 otherwise
* Don't work on non-blocking fds
int ecrireBuff ( int fd, char * buf, int count) {
int pos = 0;
while(pos < count)
int i = write(fd , buf + pos , count - pos) ;
if(i == -1)
case EINTR :
break ;
pos = count + 1 ;
perror("buf error") ;
pos += i ;
return pos != count;
/**/ /** Write an int on a fds
* (uses ecrire)
int ecrireInt ( int fd, int i) {
char buf[20];
sprintf(buf, "%d", i);
return ecrire(fd, buf);
int ecrireInt2 ( int fd, int i) {
char buf[20];
sprintf(buf, "%d%c", i/10, i%10 + '0');
return ecrire(fd, buf);
int ecrireInti ( int fd, int i, char * f) {
char buf[100];
sprintf(buf, f, i);
return ecrire(fd, buf);
int ecrireIntl ( int fd, long i, char * f) {
char buf[100];
sprintf(buf, f, i);
return ecrire(fd, buf);
/**/ /** Write an int on a fds
* (uses ecrire)
int ecrireLong ( int fd, long i) {
char buf[30];
sprintf(buf, "%ld", i);
return ecrire(fd, buf);
/**/ /* Write a char on a fds
* return 0 on success, 1 otherwise
* Don't work on non-blocking fds
int ecrireChar ( int fd, char c) {
int pos = 0;
while (pos < 1) {
int i = write(fd, &c, 1);
if (i == -1) {
if (errno != EINTR) {
pos = 2;
} else {
pos += i;
return pos != 1;
下一个系列,处理的是LarbinString 相关,该类主要是处理http报头的。