goodfriends2007

如何阅读源代码(2)

3怎样阅读开源代码的例子

开源代码在linux下多一些，下面借鉴别的一个例子对阅读源代码的过程了解下。

我找的例子是一个统计日志的工具，webalizer。之所以选择这个软件来作为例子，一方面是因为它是用C写的，流程比较简单，没有C++的程序那么多的枝节，而且软件功能不算复杂，代码规模不大，能够在一篇文章的篇幅里面讲完; 另外一个方面是因为恰巧前段时间我因为工作的关系把它拿来修改了一下，刚看过，还没有忘记。我采用的例子是webalizer2.01-09, 也可以到它的网站http://www.mrunix.net/webalizer/ 下载最新的版本。这是一个用C写的，处理文本文件（简单的说是这样，实际上它支持三种日志文本格式：CLF, FTP, SQUID), 并且用html的方式输出结果。读者可以自己去下载它的源代码包，并一边读文章，一边看程序。解压缩它的tar包(我download的是它的源代码tar包），在文件目录中看到这样的结果：

$ ls

aclocal.m4 dns_resolv.c lang output.h webalizer.1 CHANGES dns_resolv.h lang.h parser.c webalizer.c configure graphs.c linklist.c parser.h webalizer.h configure.in graphs.h linklist.h preserve.c webalizer_lang.h COPYING hashtab.c Makefile.in preserve.h webalizer.LSM Copyright hashtab.h Makefile.std README webalizer.png country-codes.txt INSTALL msfree.png README.FIRST DNS.README install-sh output.c sample.conf

首先，我阅读了它的README(这是很重要的一个环节）, 大体了解了软件的功能，历史状况，修改日志，安装方法等等。然后是安装并且按照说明中的缺省方式来运行它，看看它的输出结果。(安装比较简单，因为它带了一个configure, 在没有特殊情况出现的时候，简单的./configure, make, make install就可以安装好。)然后就是阅读源代码了。我从makefile开始入手（我觉得这是了解一个软件的最好的方法）在makefile开头，有这些内容：

prefix = /usr/local

exec_prefix = ${prefix}

BINDIR = ${exec_prefix}/bin

MANDIR = ${prefix}/man/man1

ETCDIR = /etc

CC = gcc

CFLAGS = -Wall -O2

LIBS = -lgd -lpng -lz -lm

DEFS = -DETCDIR="/etc" -DHAVE_GETOPT_H=1 -DHAVE_MATH_H=1

LDFLAGS=

INSTALL= /usr/bin/install -c

INSTALL_PROGRAM=${INSTALL}

INSTALL_DATA=${INSTALL} -m 644

# where are the GD header files?

GDLIB=/usr/include

这些定义了安装的路径，执行程序的安装路径，编译器，配置文件的安装路径，编译的选项，安装程序，安装程序的选项等等。要注意的是，这些并不是软件的作者写的，而是./configure的输出结果。下面才是主题内容，也是我们关心的。

# Shouldn't have to touch below here!

all: webalizer

webalizer: webalizer.o webalizer.h hashtab.o hashtab.h linklist.o linklist.h preserve.o preserve.h dns_resolv.o dns_resolv.h parser.o parser.h output.o output.h graphs.o graphs.h lang.h webalizer_lang.h

$(CC) ${LDFLAGS} -o webalizer webalizer.o hashtab.o linklist.o preserv e.o parser.o output.o dns_resolv.o graphs.o ${LIBS}

rm -f webazolver

ln -s webalizer webazolver

webalizer.o: webalizer.c webalizer.h parser.h output.h preserve.h graphs.h dns_resolv.h webalizer_lang.h

$(CC) ${CFLAGS} ${DEFS} -c webalizer.c

parser.o: parser.c parser.h webalizer.h lang.h

$(CC) ${CFLAGS} ${DEFS} -c parser.c

hashtab.o: hashtab.c hashtab.h dns_resolv.h webalizer.h lang.h

$(CC) ${CFLAGS} ${DEFS} -c hashtab.c

linklist.o: linklist.c linklist.h webalizer.h lang.h

$(CC) ${CFLAGS} ${DEFS} -c linklist.c

output.o: output.c output.h webalizer.h preserve.h

hashtab.h graphs.h lang.h

$(CC) ${CFLAGS} ${DEFS} -c output.c

preserve.o: preserve.c preserve.h webalizer.h parser.h

hashtab.h graphs.h lang.h

$(CC) ${CFLAGS} ${DEFS} -c preserve.c

dns_resolv.o: dns_resolv.c dns_resolv.h lang.h webalizer.h

$(CC) ${CFLAGS} ${DEFS} -c dns_resolv.c

graphs.o: graphs.c graphs.h webalizer.h lang.h

$(CC) ${CFLAGS} ${DEFS} -I${GDLIB} -c graphs.c

好了，不用再往下看了，这些就已经足够了。从这里我们可以看到这个软件的几个源代码文件和他们的结构。webalizer.c是主程序所在的文件，其他的是一些辅助程序模块。对比一下目录里面的文件，

$ ls *.c *.h

dns_resolv.c graphs.h lang.h output.c parser.h webalizer.c

dns_resolv.h hashtab.c linklist.c output.h preserve.c webalizer.h

graphs.c hashtab.h linklist.h parser.c preserve.h webalizer_lang.h

于是，让我们从webalizer.c开始吧。

作为一个C程序，在头文件里面，和C文件里面定义的extern变量，结构等等肯定不会少，但是，单独看这些东西我们不可能对这个程序有什么认识。所以，从main函数入手，逐步分析，在需要的时候再回头来看这些数据结构定义才是好的方法。（顺便说一句，Visual C++, 等windows下的IDE工具提供了很方便的方法来获取函数列表，C++的类列表以及资源文件，对于阅读源代码很有帮助。Unix/Linux也有这些工具，但是，我们在这里暂时不说，而只是通过最简单的文本编辑器vi来讲)。跳过webalizer.c开头的版权说明部分（GPL的），和数据结构定义，全局变量声明部分，直接进入main()函数。在函数开头，我们看到：

/* initalize epoch */

epoch=jdate(1,1,1970); /* used for timestamp adj. */

/* add default index. alias */

add_nlist("index.",&index_alias);

这两个函数暂时不用仔细看，后面会提到，略过。

sprintf(tmp_buf,"%s/webalizer.conf",ETCDIR);

/* check for default config file */

if (!access("webalizer.conf",F_OK))

get_config("webalizer.conf");

else if (!access(tmp_buf,F_OK))

get_config(tmp_buf);

从注释和程序本身可以看出，这是查找是否存在一个叫做webalizer.conf的配置文件，如果当前目录下有，则用get_config来读入其中内容，如果没有，则查找ETCDIR/webalizer.conf是否存在。如果都没有，则进入下一部分。(注意：ETCDIR = @ETCDIR@在makefile中有定义）

/* get command line options */

opterr = 0; /* disable parser errors */

while ((i=getopt(argc,argv,"a:A:c:C:dD:e:E:fF:g:GhHiI:l:Lm:M:n:N:o:pP:qQr:R:s:S:t:Tu:U:vVx:XY"))!=EOF)

{

switch (i)

{

case 'a': add_nlist(optarg,&hidden_agents); break; /* Hide agents */

case 'A': ntop_agents=atoi(optarg); break; /* Top agents */

case 'c': get_config(optarg); break; /* Config file */

case 'C': ntop_ctrys=atoi(optarg); break; /* Top countries */

case 'd': debug_mode=1; break; /* Debug */

case 'D': dns_cache=optarg; break; /* DNS Cache filename */

case 'e': ntop_entry=atoi(optarg); break; /* Top entry pages */

case 'E': ntop_exit=atoi(optarg); break; /* Top exit pages */

case 'f': fold_seq_err=1; break; /* Fold sequence errs */

case 'F': log_type=(optarg[0]=='f')?

LOG_FTP:(optarg[0]=='s')?

LOG_SQUID:LOG_CLF; break; /* define log type */

case 'g': group_domains=atoi(optarg); break; /* GroupDomains (0=no) */

case 'G': hourly_graph=0; break; /* no hourly graph */

case 'h': print_opts(argv[0]); break; /* help */

case 'H': hourly_stats=0; break; /* no hourly stats */

case 'i': ignore_hist=1; break; /* Ignore history */

case 'I': add_nlist(optarg,&index_alias); break; /* Index alias */

case 'l': graph_lines=atoi(optarg); break; /* Graph Lines */

case 'L': graph_legend=0; break; /* Graph Legends */

case 'm': visit_timeout=atoi(optarg); break; /* Visit Timeout */

case 'M': mangle_agent=atoi(optarg); break; /* mangle user agents */

case 'n': hname=optarg; break; /* Hostname */

case 'N': dns_children=atoi(optarg); break; /* # of DNS children */

case 'o': out_dir=optarg; break; /* Output directory */

case 'p': incremental=1; break; /* Incremental run */

case 'P': add_nlist(optarg,&page_type); break; /* page view types */

case 'q': verbose=1; break; /* Quiet (verbose=1) */

case 'Q': verbose=0; break; /* Really Quiet */

case 'r': add_nlist(optarg,&hidden_refs); break; /* Hide referrer */

case 'R': ntop_refs=atoi(optarg); break; /* Top referrers */

case 's': add_nlist(optarg,&hidden_sites); break; /* Hide site */

case 'S': ntop_sites=atoi(optarg); break; /* Top sites */

case 't': msg_title=optarg; break; /* Report title */

case 'T': time_me=1; break; /* TimeMe */

case 'u': add_nlist(optarg,&hidden_urls); break; /* hide URL */

case 'U': ntop_urls=atoi(optarg); break; /* Top urls */

case 'v':

case 'V': print_version(); break; /* Version */

case 'x': html_ext=optarg; break; /* HTML file extension */

case 'X': hide_sites=1; break; /* Hide ind. sites */

case 'Y': ctry_graph=0; break; /* Supress ctry graph */

}

if (argc - optind != 0) log_fname = argv[optind];

if ( log_fname && (log_fname[0]=='-')) log_fname=NULL; /* force STDIN? */

/* check for gzipped file - .gz */

if (log_fname) if (!strcmp((log_fname+strlen(log_fname)-3),".gz")) gz_log=1;

这一段是分析命令行参数及开关。（getopt()的用法我在另外一篇文章中讲过，这里就不再重复了。）可以看到，这个软件虽然功能不太复杂，但是开关选项还是不少。大多数的unix/linux程序的开头部分都是这个套路，初始化配置文件，并且读入分析命令行。在这段程序中，我们需要注意一个函数：add_nlist(). print_opts(), get_config()等等一看就明白，就不用多讲了。这里我们已经是第二次遇到add_nlist这个函数了，就仔细看看吧。

$ grep add_nlist *.h

linklist.h:extern int add_nlist(char *, NLISTPTR *); /* add list item */

可以发现它定义在linklist.h中。

在这个h文件中，当然会有一些数据结构的定义，比如：

struct nlist { char string[80]; /* list struct for HIDE items */

struct nlist *next; };

typedef struct nlist *NLISTPTR;

struct glist { char string[80]; /* list struct for GROUP items */

char name[80];

struct glist *next; };

typedef struct glist *GLISTPTR;

这是两个链表结构。还有

extern GLISTPTR group_sites ; /* "group" lists */

extern GLISTPTR group_urls ;

extern GLISTPTR group_refs ;

这些都是链表，太多了，不用一一看得很仔细，因为目前也看不出来什么东西。当然要注意它们是extern的，也就是说，可以在其他地方(文件）看到它们的数值（类似于C++中的public变量）。这里还定义了4个函数：

extern char *isinlist(NLISTPTR, char *); /* scan list for str */

extern char *isinglist(GLISTPTR, char *); /* scan glist for str */

extern int add_nlist(char *, NLISTPTR *); /* add list item */

extern int add_glist(char *, GLISTPTR *); /* add group list item */

注意，这些都是extern的，也就是说，可以在其他地方见到它们的调用(有点相当于C++中的public函数）。再来看看linklist.c，

NLISTPTR new_nlist(char *); /* new list node */

void del_nlist(NLISTPTR *); /* del list */

GLISTPTR new_glist(char *, char *); /* new group list node */

void del_glist(GLISTPTR *); /* del group list */

int isinstr(char *, char *);

这5个函数是内部使用的（相当于C++中的private), 也就是说，这些函数只被isinlist(NLISTPTR, char *), isinglist(GLISTPTR, char *), add_nlist(char *, NLISTPTR *), add_glist(char *, GLISTPTR *)调用，而不会出现在其他地方。所以，我们先来看这几个内部函数。举例来说，

add_nlist(char *)

NLISTPTR new_nlist(char *str)

{

NLISTPTR newptr;

if (sizeof(newptr->string) < strlen(str))

{

if (verbose)

fprintf(stderr,"[new_nlist] %s ",msg_big_one);

}

if (( newptr = malloc(sizeof(struct nlist))) != NULL)

{strncpy(newptr->string, str, sizeof(newptr->string));newptr->next=NULL;}

return newptr;

}

这个函数分配了一个struct nlist, 并且把其中的string赋值为str, next赋值为NULL.这实际上是创建了链表中的一个节点。verbose是一个全局变量，定义了输出信息的类型，如果verbose为1，则输出很详细的信息，否则输出简略信息。这是为了调试或者使用者详细了解程序情况来用的。不是重要内容，虽然我们常常可以在这个源程序的其他地方看到它。另外一个函数：

void del_nlist(NLISTPTR *list)

{

NLISTPTR cptr,nptr;

cptr=*list;

while (cptr!=NULL)

{

nptr=cptr->next;

free(cptr);

cptr=nptr;

}

这个函数删除了一个nlist（也可能是list所指向的那一个部分开始知道链表结尾），比较简单。看完了这两个内部函数，可以来看

/*********************************************/

/* ADD_NLIST - add item to FIFO linked list */

/*********************************************/

int add_nlist(char *str, NLISTPTR *list)

{

NLISTPTR newptr,cptr,pptr;

if ( (newptr = new_nlist(str)) != NULL)

{

if (*list==NULL) *list=newptr;

else

{

cptr=pptr=*list;

while(cptr!=NULL) { pptr=cptr; cptr=cptr->next; };

pptr->next = newptr;

}

return newptr==NULL;

}

这个函数是建立了一个新的节点，把参数str赋值给新节点的string, 并把它连接到list所指向链表的结尾。另外的三个函数：new_glist(), del_glist(), add_glist()完成的功能和上述三个差不多，所不同的只是它们所处理的数据结构不同。看完了这几个函数，我们回到main程序。接下来是，

/* setup our internal variables */

init_counters(); /* initalize main counters */

我们所阅读的这个软件是用来分析日志并且做出统计的，那么这个函数的名字已经告诉了我们，这是一个初始化计数器的函数。简略的看看吧！

$ grep init_counters *.h

webalizer.h:extern void init_counters();

在webalizer.c中找到：

void init_counters()

{

int i;

for (i=0;i for (i=0;i<31;i++) /* monthly totals */

{

tm_xfer[i]=0.0;

tm_hit[i]=tm_file[i]=tm_site[i]=tm_page[i]=tm_visit[i]=0;

}

for (i=0;i<24;i++) /* hourly totals */

{

th_hit[i]=th_file[i]=th_page[i]=0;

th_xfer[i]=0.0;

}

......

}略过去一大串代码，不用看了，肯定是计数器清0。在主程序中，接下来是：

if (page_type==NULL) /* check if page types present */

{

if ((log_type == LOG_CLF) || (log_type == LOG_SQUID))

{

add_nlist("htm*" ,&page_type); /* if no page types specified, we */

add_nlist("cgi" ,&page_type); /* use the default ones here... */

if (!isinlist(page_type,html_ext)) add_nlist(html_ext,&page_type);

}

else add_nlist("txt" ,&page_type); /* FTP logs default to .txt */

}

page_type这个变量在前面见过，

case 'P': add_nlist(optarg,&page_type); break; /* page view types

根据在最开始读过的README文件，这个page_type是用来定义处理的页面的类型的。在README文件中，

-P name Page type. This is the extension of files you consider to be pages for Pages calculations (sometimes called 'pageviews'). The default is 'htm*' and 'cgi' (plus whatever HTMLExtension you specified if it is different). Don't use a period!

我们在程序中也可以看到，如果没有在命令行中或者config文件中指定，则根据处理的日志文件的类型来添加缺省的文件类型。比如对于CLF文件(WWW日志)，处理html, htm, cgi文件

if (log_type == LOG_FTP)

{

/* disable stuff for ftp logs */

ntop_entry=ntop_exit=0;

ntop_search=0;

}

else

.....

这一段是对于FTP的日志格式，设置搜索列表。

for (i=0;i {

sm_htab[i]=sd_htab[i]=NULL; /* initalize hash tables */

um_htab[i]=NULL;

rm_htab[i]=NULL;

am_htab[i]=NULL;

sr_htab[i]=NULL;

}

清空哈西表，为下面即将进行的排序工作做好准备。关于哈西表，这是数据结构中常用的一种用来快速排序的结构，如果不清楚，可以参考相关书籍，比如清华的<<数据结构>>教材或者<<数据结构的C++实现>>等书。

if (verbose>1)

{

uname(&system_info);

printf("Webalizer V%s-%s (%s %s) %s ",

version,editlvl,system_info.sysname,

system_info.release,language);

}

这一段，是打印有关系统的信息和webalizer程序的信息（可以参考uname的函数说明）。

#ifndef USE_DNS

if (strstr(argv[0],"webazolver")!=0)

{

printf("DNS support not present, aborting... ");

exit(1);

}

#endif /* USE_DNS */

这一段，回忆我们在看README文件的时候，曾经提到过可以在编译的时候设置选项开关来设定DNS支持，在源代码中可以看到多次这样的代码段出现，如果不指定DNS支持，这些代码段则会出现（ifdef)或者不出现(ifndef).下面略过这些代码段，不再重复。

/* open log file */

if (gz_log)

{

gzlog_fp = gzopen(log_fname,"rb");

if (gzlog_fp==Z_NULL)

{

/* Error: Can't open log file ... */

fprintf(stderr, "%s %s ",msg_log_err,log_fname);

exit(1);

}

else

{

if (log_fname)

{

log_fp = fopen(log_fname,"r");

if (log_fp==NULL)

{

/* Error: Can't open log file ... */

fprintf(stderr, "%s %s ",msg_log_err,log_fname);

exit(1);

}

这一段，回忆在README文件中曾经读到过，如果log文件是gzip压缩格式，则用gzopen函数打开（可以猜想gz***是一套针对gzip压缩格式的实时解压缩函数），如果不是，则用fopen打开。

/* switch directories if needed */

if (out_dir)

{

if (chdir(out_dir) != 0)

{

/* Error: Can't change directory to ... */

fprintf(stderr, "%s %s ",msg_dir_err,out_dir);

exit(1);

}

同样，回忆在README文件中读到过，如果参数行有-o out_dir, 则将输出结果到该目录，否则，则输出到当前目录。在这一段中，如果输出目录不存在(chdir(out_dir) != 0)则出错。

#ifdef USE_DNS

if (strstr(argv[0],"webazolver")!=0)

{

if (!dns_children) dns_children=5; /* default dns children if needed */

if (!dns_cache)

{

/* No cache file specified, aborting... */

fprintf(stderr,"%s ",msg_dns_nocf); /* Must have a cache file */

exit(1);

}

......

在上面曾经提到过，这是DNS解析的代码部分，可以略过不看，不会影响对整个程序的理解。

/* prep hostname */

if (!hname)

{

if (uname(&system_info)) hname="localhost";

else hname=system_info.nodename;

}

这一段继续处理参数做准备工作。如果在命令行中指定了hostname(机器名）则采用指定的名称，否则调用uname查找机器名，如果没有，则用localhost来作为机器名。(同样在README中说得很详细）

/* get past history */

if (ignore_hist) {if (verbose>1) printf("%s ",msg_ign_hist); }

else get_history();

如果在命令行中指定了忽略历史文件，则不读取历史文件，否则调用get_history()来读取历史数据。在这里，我们可以回想在README文件中同样说过这一细节，在命令行或者配置文件中都能指定这一开关。需要说明的是，我们在这里并不一定需要去看get_history这一函数，因为从函数的名称，README文件和程序注释都能很清楚的得知这一函数的功能，不一定要去看代码。而如果要猜想的话，也可以想到，history是webalizer在上次运行的时候记录下来的一个文件，而这个文件则是去读取它，并将它的数据包括到这次的分析中去。不信，我们可以来看看。

void get_history()

{

int i,numfields;

FILE *hist_fp;

char buffer[BUFSIZE];

/* first initalize internal array */

for (i=0;i<12;i++)

{

hist_month[i]=hist_year[i]=hist_fday[i]=hist_lday[i]=0;

hist_hit[i]=hist_files[i]=hist_site[i]=hist_page[i]=hist_visit[i]=0;

hist_xfer[i]=0.0;

}

hist_fp=fopen(hist_fname,"r");

if (hist_fp)

{

if (verbose>1) printf("%s %s ",msg_get_hist,hist_fname);

while ((fgets(buffer,BUFSIZE,hist_fp)) != NULL)

{

i = atoi(buffer) -1;

if (i>11)

{

if (verbose)

fprintf(stderr,"%s (mth=%d) ",msg_bad_hist,i+1);

continue;

}

/* month# year# requests files sites xfer firstday lastday */

numfields = sscanf(buffer,"%d %d %lu %lu %lu %lf %d %d %lu %lu",

&hist_month[i],

&hist_year[i],

&hist_hit[i],

&hist_files[i],

&hist_site[i],

&hist_xfer[i],

&hist_fday[i],

&hist_lday[i],

&hist_page[i],

&hist_visit[i]);

if (numfields==8) /* kludge for reading 1.20.xx history files */

{

hist_page[i] = 0;

hist_visit[i] = 0;

}

fclose(hist_fp);

}

else if (verbose>1) printf("%s ",msg_no_hist);

}

/*********************************************/

/* PUT_HISTORY - write out history file */

/*********************************************/

void put_history()

{

int i;

FILE *hist_fp;

hist_fp = fopen(hist_fname,"w");

if (hist_fp)

{

if (verbose>1) printf("%s ",msg_put_hist);

for (i=0;i<12;i++)

{

if ((hist_month[i] != 0) && (hist_hit[i] != 0))

{

fprintf(hist_fp,"%d %d %lu %lu %lu %.0f %d %d %lu %lu ",

hist_month[i],

hist_year[i],

hist_hit[i],

hist_files[i],

hist_site[i],

hist_xfer[i],

hist_fday[i],

hist_lday[i],

hist_page[i],

hist_visit[i]);

}

fclose(hist_fp);

}

else

if (verbose)

fprintf(stderr,"%s %s ",msg_hist_err,hist_fname);

}

在preserve.c中，这两个函数是成对出现的。get_history()读取文件中的数据，并将其记录到hist_开头的一些数组中去。而put_history()则是将一些数据记录到同样的数组中去。我们可以推测得知，hist_数组是全局变量（在函数中没有定义），也可以查找源代码验证。同样，我们可以找一找put_history()出现的地方，来验证刚才的推测是否正确。在webalizer.c的1311行，出现：

month_update_exit(rec_tstamp); /* calculate exit pages */

write_month_html(); /* write monthly HTML file */

write_main_index(); /* write main HTML file */

put_history(); /* write history */

可以知道，推测是正确的。再往下读代码，

if (incremental) /* incremental processing? */

{

if ((i=restore_state())) /* restore internal data structs */

{

/* Error: Unable to restore run data (error num) */

/* if (verbose) fprintf(stderr,"%s (%d) ",msg_bad_data,i); */

fprintf(stderr,"%s (%d) ",msg_bad_data,i);

exit(1);

}

......

}

同样，这也是处理命令行和做数据准备，而且和get_history(), put_history()有些类似，读者可以自己练习一下。下面，终于进入了程序的主体部分, 在做完了命令行分析，数据准备之后，开始从日志文件中读取数据并做分析了。

/*********************************************/

/* MAIN PROCESS LOOP - read through log file */

/*********************************************/

while ( (gz_log)?(our_gzgets(gzlog_fp,buffer,BUFSIZE) != Z_NULL):

(fgets(buffer,BUFSIZE,log_fname?log_fp:stdin) != NULL))

我看到这里的时候，颇有一些不同意作者的这种写法。这一段while中的部分写的比较复杂而且效率不高。因为从程序推断和从他的代码看来，作者是想根据日志文件的类型不同来采用不同的方法读取文件，如果是gzip格式，则用our_gzgets来读取其中一行，如果是普通的文本文件格式，则用fgets()来读取。但是，这段代码是写在while循环中的，每次读取一行就要重复判断一次，明显是多余的而且降低了程序的性能。可以在while循环之前做一次这样的判断，然后就不用重复了。

total_rec++;

if (strlen(buffer) == (BUFSIZE-1))

{

if (verbose)

{

fprintf(stderr,"%s",msg_big_rec);

if (debug_mode) fprintf(stderr,": %s",buffer);

else fprintf(stderr," ");

}

total_bad++; /* bump bad record counter */

/* get the rest of the record */

while ( (gz_log)?(our_gzgets(gzlog_fp,buffer,BUFSIZE)!=Z_NULL):

(fgets(buffer,BUFSIZE,log_fname?log_fp:stdin)!=NULL))

{

if (strlen(buffer) < BUFSIZE-1)

{

if (debug_mode && verbose) fprintf(stderr,"%s ",buffer);

break;

}

if (debug_mode && verbose) fprintf(stderr,"%s",buffer);

}

continue; /* go get next record if any */

}

这一段代码，读入一行，如果这一行超过了程序允许的最大字符数（则是错误的日志数据纪录），则跳过本行剩下的数据，忽略掉（continue进行下一次循环）。同时把total_bad增加一个。如果没有超过程序允许的最大字符数（则是正确的日志数据纪录），则

/* got a record... */

strcpy(tmp_buf, buffer); /* save buffer in case of error */

if (parse_record(buffer)) /* parse the record */

将该数据拷贝到一个缓冲区中，然后调用parse_record()进行处理。我们可以同样的推测一下，get_record()是这个程序的一个主要处理部分，分析了日志数据。在parse_record.c中，有此函数，

/*********************************************/

/* PARSE_RECORD - uhhh, you know... */

/*********************************************/

int parse_record(char *buffer)

{

/* clear out structure */

memset(&log_rec,0,sizeof(struct log_struct));

log_rec.hostname[0]=0;

log_rec.datetime[0]=0;

log_rec.url[0]=0;

log_rec.resp_code=0;

log_rec.xfer_size=0;

log_rec.refer[0]=0;

log_rec.agent[0]=0;

log_rec.srchstr[0]=0;

log_rec.ident[0]=0;

#ifdef USE_DNS

memset(&log_rec.addr,0,sizeof(struct in_addr));

#endif

/* call appropriate handler */

switch (log_type)

{

default:

case LOG_CLF: return parse_record_web(buffer); break; /* clf */

case LOG_FTP: return parse_record_ftp(buffer); break; /* ftp */

case LOG_SQUID: return parse_record_squid(buffer); break; /* squid */

}

可以看到，log_rec是一个全局变量，该函数根据日志文件的类型，分别调用三种不同的分析函数。在webalizer.h中，找到该变量的定义，从结构定义中可以看到，结构定义了一个日志文件所可能包含的所有信息（参考CLF，FTP, SQUID日志文件的格式说明）。

/* log record structure */

struct log_struct { char hostname[MAXHOST]; /* hostname */

char datetime[29]; /* raw timestamp */

char url[MAXURL]; /* raw request field */

int resp_code; /* response code */

u_long xfer_size; /* xfer size in bytes */

#ifdef USE_DNS

struct in_addr addr; /* IP address structure */

#endif /* USE_DNS */

char refer[MAXREF]; /* referrer */

char agent[MAXAGENT]; /* user agent (browser) */

char srchstr[MAXSRCH]; /* search string */

char ident[MAXIDENT]; }; /* ident string (user) */

extern struct log_struct log_rec;

先看一下一个parser.c用的内部函数，然后再来以parse_record_web()为例子看看这个函数是怎么工作的，parse_record_ftp, parse_record_squid留给读者自己分析作为练习。

/*********************************************/

/* FMT_LOGREC - terminate log fields w/zeros */

/*********************************************/

void fmt_logrec(char *buffer)

{

char *cp=buffer;

int q=0,b=0,p=0;

while (*cp != '')

{

/* break record up, terminate fields with '' */

switch (*cp)

{

case ' ': if (b || q || p) break; *cp=''; break;

case '"': q^=1; break;

case '[': if (q) break; b++; break;

case ']': if (q) break; if (b>0) b--; break;

case '(': if (q) break; p++; break;

case ')': if (q) break; if (p>0) p--; break;

}

cp++;

}

从parser.h头文件中就可以看到，这个函数是一个内部函数，这个函数把一行字符串中间的空格字符用''字符（结束字符）来代替，同时考虑了不替换在双引号，方括号，圆括号中间的空格字符以免得将一行数据错误的分隔开了。（请参考WEB日志的文件格式，可以更清楚的理解这一函数）

int parse_record_web(char *buffer)

{

int size;

char *cp1, *cp2, *cpx, *eob, *eos;

size = strlen(buffer); /* get length of buffer */

eob = buffer+size; /* calculate end of buffer */

fmt_logrec(buffer); /* seperate fields with 's */

/* HOSTNAME */

cp1 = cpx = buffer; cp2=log_rec.hostname;

eos = (cp1+MAXHOST)-1;

if (eos >= eob) eos=eob-1;

while ( (*cp1 != '') && (cp1 != eos) ) *cp2++ = *cp1++;

*cp2 = '';

if (*cp1 != '')

{

if (verbose)

{

fprintf(stderr,"%s",msg_big_host);

if (debug_mode) fprintf(stderr,": %s ",cpx);

else fprintf(stderr," ");

}

while (*cp1 != '') cp1++;

}

if (cp1 < eob) cp1++;

/* skip next field (ident) */

while ( (*cp1 != '') && (cp1 < eob) ) cp1++;

if (cp1 < eob) cp1++;

/* IDENT (authuser) field */

cpx = cp1;

cp2 = log_rec.ident;

eos = (cp1+MAXIDENT-1);

if (eos >= eob) eos=eob-1;

while ( (*cp1 != '[') && (cp1 < eos) ) /* remove embeded spaces */

{

if (*cp1=='') *cp1=' ';

*cp2++=*cp1++;

}

*cp2--='';

if (cp1 >= eob) return 0;

/* check if oversized username */

if (*cp1 != '[')

{

if (verbose)

{

fprintf(stderr,"%s",msg_big_user);

if (debug_mode) fprintf(stderr,": %s ",cpx);

else fprintf(stderr," ");

}

while ( (*cp1 != '[') && (cp1 < eob) ) cp1++;

}

/* strip trailing space(s) */

while (*cp2==' ') *cp2--='';

/* date/time string */

cpx = cp1;

cp2 = log_rec.datetime;

eos = (cp1+28);

if (eos >= eob) eos=eob-1;

while ( (*cp1 != '') && (cp1 != eos) ) *cp2++ = *cp1++;

*cp2 = '';

if (*cp1 != '')

{

if (verbose)

{

fprintf(stderr,"%s",msg_big_date);

if (debug_mode) fprintf(stderr,": %s ",cpx);

else fprintf(stderr," ");

}

while (*cp1 != '') cp1++;

}

if (cp1 < eob) cp1++;

/* minimal sanity check on timestamp */

if ( (log_rec.datetime[0] != '[') ||

(log_rec.datetime[3] != '/') ||

(cp1 >= eob)) return 0;

/* HTTP request */

cpx = cp1;

cp2 = log_rec.url;

eos = (cp1+MAXURL-1);

if (eos >= eob) eos = eob-1;

while ( (*cp1 != '') && (cp1 != eos) ) *cp2++ = *cp1++;

*cp2 = '';

if (*cp1 != '')

{

if (verbose)

{

fprintf(stderr,"%s",msg_big_req);

if (debug_mode) fprintf(stderr,": %s ",cpx);

else fprintf(stderr," ");

}

while (*cp1 != '') cp1++;

}

if (cp1 < eob) cp1++;

if ( (log_rec.url[0] != '"') ||

(cp1 >= eob) ) return 0;

/* response code */

log_rec.resp_code = atoi(cp1);

/* xfer size */

while ( (*cp1 != '') && (cp1 < eob) ) cp1++;

if (cp1 < eob) cp1++;

if (*cp1<'0'||*cp1>'9') log_rec.xfer_size=0;

else log_rec.xfer_size = strtoul(cp1,NULL,10);

/* done with CLF record */

if (cp1>=eob) return 1;

while ( (*cp1 != '') && (*cp1 != ' ') && (cp1 < eob) ) cp1++;

if (cp1 < eob) cp1++;

/* get referrer if present */

cpx = cp1;

cp2 = log_rec.refer;

eos = (cp1+MAXREF-1);

if (eos >= eob) eos = eob-1;

while ( (*cp1 != '') && (*cp1 != ' ') && (cp1 != eos) ) *cp2++ = *cp1++;

*cp2 = '';

if (*cp1 != '')

{

if (verbose)

{

fprintf(stderr,"%s",msg_big_ref);

if (debug_mode) fprintf(stderr,": %s ",cpx);

else fprintf(stderr," ");

}

while (*cp1 != '') cp1++;

}

if (cp1 < eob) cp1++;

cpx = cp1;

cp2 = log_rec.agent;

eos = cp1+(MAXAGENT-1);

if (eos >= eob) eos = eob-1;

while ( (*cp1 != '') && (cp1 != eos) ) *cp2++ = *cp1++;

*cp2 = '';

return 1; /* maybe a valid record, return with TRUE */

}

该函数，一次读入一行（其实是一段日志数据中间的一个域，因为该行数据已经被fmt_logrec分开成多行数据了。根据CLF中的定义，检查该数据并将其拷贝到log_rec结构中去，如果检查该数据有效，则返回1。回到主程序,

/* convert month name to lowercase */

for (i=4;i<7;i++)

log_rec.datetime[i]=tolower(log_rec.datetime[i]);

/* get year/month/day/hour/min/sec values */

for (i=0;i<12;i++)

{

if (strncmp(log_month[i],&log_rec.datetime[4],3)==0)

{ rec_month = i+1; break; }

}

rec_year=atoi(&log_rec.datetime[8]); /* get year number (int) */

rec_day =atoi(&log_rec.datetime[1]); /* get day number */

rec_hour=atoi(&log_rec.datetime[13]); /* get hour number */

rec_min =atoi(&log_rec.datetime[16]); /* get minute number */

rec_sec =atoi(&log_rec.datetime[19]); /* get second number */

....

在parse_record分析完数据之后，做日期的分析，把日志中的月份等数据转换成机器可读（可理解)的数据，并存入到log_rec中去。

if ((i>=12)||(rec_min>59)||(rec_sec>59)||(rec_year<1990))

{

total_bad++; /* if a bad date, bump counter */

if (verbose)

{

fprintf(stderr,"%s: %s [%lu]",

msg_bad_date,log_rec.datetime,total_rec);

......

如果日期，时间错误，则把total_bad计数器增加1，并且打印错误信息到标准错误输出。

good_rec = 1;

/* get current records timestamp (seconds since epoch) */

req_tstamp=cur_tstamp;

rec_tstamp=((jdate(rec_day,rec_month,rec_year)-epoch)*86400)+

(rec_hour*3600)+(rec_min*60)+rec_sec;

/* Do we need to check for duplicate records? (incremental mode) */

if (check_dup)

{

/* check if less than/equal to last record processed */

if ( rec_tstamp <= cur_tstamp )

{

/* if it is, assume we have already processed and ignore it */

total_ignore++;

continue;

}

else

{

/* if it isn't.. disable any more checks this run */

check_dup=0;

/* now check if it's a new month */

if (cur_month != rec_month)

{

clear_month();

cur_sec = rec_sec; /* set current counters */

cur_min = rec_min;

cur_hour = rec_hour;

cur_day = rec_day;

cur_month = rec_month;

cur_year = rec_year;

cur_tstamp= rec_tstamp;

f_day=l_day=rec_day; /* reset first and last day */

}

/* check for out of sequence records */

if (rec_tstamp/3600 < cur_tstamp/3600)

{

if (!fold_seq_err && ((rec_tstamp+SLOP_VAL)/3600 { total_ignore++; continue; }

else

{

rec_sec = cur_sec; /* if folding sequence */

rec_min = cur_min; /* errors, just make it */

rec_hour = cur_hour; /* look like the last */

rec_day = cur_day; /* good records timestamp */

rec_month = cur_month;

rec_year = cur_year;

rec_tstamp= cur_tstamp;

}

cur_tstamp=rec_tstamp; /* update current timestamp */

如果该日期、时间没有错误，则该数据是一个好的数据，将good_record计数器加1，并且检查时间戳，和数据是否重复数据。这里有一个函数，jdate()在主程序一开头我们就遇到了，当时跳了过去没有深究，这里留给读者做一个练习。（提示：该函数根据一个日期产生一个字符串，这个字符串是惟一的，可以检查时间的重复性，是一个通用函数，可以在别的程序中拿来使用）

/*********************************************/

/* DO SOME PRE-PROCESS FORMATTING */

/*********************************************/

/* fix URL field */

cp1 = cp2 = log_rec.url;

/* handle null '-' case here... */

if (*++cp1 == '-') { *cp2++ = '-'; *cp2 = ''; }

else

{

/* strip actual URL out of request */

while ( (*cp1 != ' ') && (*cp1 != '') ) cp1++;

if (*cp1 != '')

{

/* scan to begin of actual URL field */

while ((*cp1 == ' ') && (*cp1 != '')) cp1++;

/* remove duplicate / if needed */

if (( *cp1=='/') && (*(cp1+1)=='/')) cp1++;

while ((*cp1 != ' ')&&(*cp1 != '"')&&(*cp1 != ''))

*cp2++ = *cp1++;

*cp2 = '';

}

/* un-escape URL */

unescape(log_rec.url);

/* check for service (ie: http://) and lowercase if found */

if ( (cp2=strstr(log_rec.url,"://")) != NULL)

{

cp1=log_rec.url;

while (cp1!=cp2)

{

if ( (*cp1>='A') && (*cp1<='Z')) *cp1 += 'a'-'A';

cp1++;

}

/* strip query portion of cgi scripts */

cp1 = log_rec.url;

while (*cp1 != '')

if (!isurlchar(*cp1)) { *cp1 = ''; break; }

else cp1++;

if (log_rec.url[0]=='')

{ log_rec.url[0]='/'; log_rec.url[1]=''; }

/* strip off index.html (or any aliases) */

lptr=index_alias;

while (lptr!=NULL)

{

if ((cp1=strstr(log_rec.url,lptr->string))!=NULL)

{

if ((cp1==log_rec.url)||(*(cp1-1)=='/'))

{

*cp1='';

if (log_rec.url[0]=='')

{ log_rec.url[0]='/'; log_rec.url[1]=''; }

break;

}

lptr=lptr->next;

}

/* unescape referrer */

unescape(log_rec.refer);

......

这一段，做了一些URL字符串中的字符转换工作，很长，我个人认为为了程序的模块化，结构化和可复用性，应该将这一段代码改为函数，避免主程序体太长，造成可读性不强和没有移植性，和不够结构化。跳过这一段乏味的代码，进入到下面一个部分---后处理。

if (gz_log) gzclose(gzlog_fp);

else if (log_fname) fclose(log_fp);

if (good_rec) /* were any good records? */

{

tm_site[cur_day-1]=dt_site; /* If yes, clean up a bit */

tm_visit[cur_day-1]=tot_visit(sd_htab);

t_visit=tot_visit(sm_htab);

if (ht_hit > mh_hit) mh_hit = ht_hit;

if (total_rec > (total_ignore+total_bad)) /* did we process any? */

{

if (incremental)

{

if (save_state()) /* incremental stuff */

{

/* Error: Unable to save current run data */

if (verbose) fprintf(stderr,"%s ",msg_data_err);

unlink(state_fname);

}

month_update_exit(rec_tstamp); /* calculate exit pages */

write_month_html(); /* write monthly HTML file */

write_main_index(); /* write main HTML file */

put_history(); /* write history */

}

end_time = times(&mytms); /* display timing totals? */

if (time_me' '(verbose>1))

{

printf("%lu %s ",total_rec, msg_records);

if (total_ignore)

{

printf("(%lu %s",total_ignore,msg_ignored);

if (total_bad) printf(", %lu %s) ",total_bad,msg_bad);

else printf(") ");

}

else if (total_bad) printf("(%lu %s) ",total_bad,msg_bad);

/* get processing time (end-start) */

temp_time = (float)(end_time-start_time)/CLK_TCK;

printf("%s %.2f %s", msg_in, temp_time, msg_seconds);

/* calculate records per second */

if (temp_time)

i=( (int)( (float)total_rec/temp_time ) );

else i=0;

if ( (i>0) && (i<=total_rec) ) printf(", %d/sec ", i);

else printf(" ");

}

这一段，做了一些后期的处理。接下来的部分，我想在本文中略过，留给感兴趣的读者自己去做分析。原因有两点：

a、这个程序在前面结构化比较强，而到了后面结构上有些乱，虽然代码效率还是比较高，但是可重用性不够强, 限于篇幅，我就不再一一解释了。

b、前面分析程序过程中，也对后面的代码做了一些预测和估计，也略微涉及到了后面的代码，而且读者可以根据上面提到的原则来自己分析代码，也作为一个实践吧。

你可能感兴趣的:(数据结构,struct,list,File,null,buffer)

吐血整理Java集合框架，免费送聪明马的博客 Java java 数据结构
Java集合框架（JavaCollectionsFramework）是Java标准库中的一个重要部分。它为Java开发人员提供了一组常用的数据结构，如列表、集合、映射等，使其更容易地处理数据。在这篇博客中，我将详细介绍Java集合框架，包括它的主要特点、常用的集合类型以及如何使用它们来解决实际问题。一、Java集合框架的主要特点Java集合框架的主要特点是：统一的接口。Java集合框架提供了一组统
【从零到一的Java Stream,保姆级教学】聪明马的博客 Java java 后端
JavaStream是Java8中的一项重大新功能，它提供了一种强大的功能，用于处理集合和数组等数据结构的元素序列。Stream基于lambda表达式，它允许我们使用一种简洁而直观的方式来处理数据，而不用关心底层的实现细节。本文将详细介绍JavaStream的用法。什么是StreamJavaStream是一个用于描述数据流的API，它提供了一个面向函数式编程的方式来处理集合和数组等数据结构的元素序
YashanDB访问约束数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%A6%82%E5%BF%B5%...访问约束是YashanDB特有的一种关系数据结构，基于有界计算理论的访问约束模型（AC，AccessConstraint）实现：通过在数据源上建立AC，实现大数据变小的模型变换。在查询时，通过访问AC数据，缩小查询代价和提升查
chatgpt pro是什么？和chatgpt plus有什么区别？如何升级chatgpt pro? chatgpt
chatgptpro是什么？chatGPTPro是openAI推出的目前最高级别的付费订阅服务，一个月200美元.这对于一般用户来说是一个比较昂贵的费用。chatgptpro和chatgptplus有什么区别？chatGPTPlus官网原文：EverythinginFreeExtendedlimitsonmessaging,fileuploads,advanceddataanalysis,andi
【后端java】构建工具maven 骑鱼过海的猫123 java maven python
文章目录1导入本地jar包到maven仓库1导入本地jar包到maven仓库mvninstall:install-file-Dfile=-DgroupId=-DartifactId=-Dversion=-Dpackaging=是你的jar文件的路径。是你的项目的组ID。是你的项目的ArtifactID。是你的jar包的版本号通常是jar，除非你的文件是其他类型的包，如pom。mvninstall:
Rust 中使用 :: 这种语法的几种情况 yujunlong3919 rust rust 区块链
文章目录1.访问模块成员：2.访问关联函数或静态方法：3.访问trait的关联类型或关联常量4.指定泛型类型参数1.访问模块成员：modutils{pubfndo_something(){/*...*/}}letresult=utils::do_something();2.访问关联函数或静态方法：structMyStruct;implMyStruct{fnnew()->Self{MyStruct}
null和undefined的区别编程星空 JavaScript 前端 javascript 开发语言
null和undefined是JavaScript中两个特殊的值，它们都表示“无”或“空”，但在语义和使用场景上有明显区别。以下是它们的详细对比：1.定义undefined表示变量已声明但未赋值，或函数没有返回值时的默认返回值。是JavaScript引擎默认赋予的初始值。类型为undefined。null表示一个空对象指针，通常用于显式表示“无”或“空”。是开发者主动赋值的值。类型为object（
cesium 加载本地json、GeoJson数据前端熊猫 Cesium json 前端
GeoJSON是一种用于编码地理数据结构的格式{"type":"Feature","geometry":{"type":"Point","coordinates":[125.6,10.1]},"properties":{"name":"某地点"}}一、直接加载GeoJSON文件//方式1：通过GeoJsonDataSource加载viewer.dataSources.add(Cesium.GeoJ
【BAT-表姐御用01dir命令】批量获取文件夹中的文件名 Ama_tor BAT合集-表姐御用
前言：本篇使用dir命令，末尾有彩蛋1、新建txt文件2、输入以下代码DIR*.*/B>LIST.TXT3、把txt文件的后缀改成.bat4、双击应用生成一个已获取名字列表的文本文件拓展：dir的语法（TIPS:dir/?:获取dir用法大全）1、dir：可得到当前目录下所有文件夹及文件，包含文件日期、时间、大小和文件名，不过不包含子文件夹下的文件夹和文件。2、dir目录：在命令后面添加文件夹名称
Linux搭建FTP服务器见字如晤X. 服务器 linux 运维
FTP概述FTP服务（FileTransferProtocol服务，文件传输协议服务）是一种用于在网络上传输文件的协议。FTP服务允许用户将文件从一个计算机（本地主机）传输到另一个计算机（远程主机），或者从远程主机接收文件到本地主机。这种传输是基于客户端-服务器模式的，其中用户使用的本地计算机作为客户端，而提供文件存储和访问的远程计算机作为服务器传输连接与传输模式FTP客户端和服务器之间的连接，主
LQB（4）-python-DFS搜索 AAA顶置摸鱼蓝桥杯python组深度优先算法 python 蓝桥杯
前言DFS即深度优先搜索（Depth-FirstSearch），是一种用于遍历或搜索树或图的算法，有三种核心的应用场景（基础遍历、回溯、剪枝）。一、DFS-基础遍历1.核心原理深度优先搜索（DFS）是一种遍历或搜索树/图的算法，优先沿着一条路径尽可能深入，直到无法继续再回溯。实现方式：递归：隐式利用系统调用栈。栈模拟：显式使用栈数据结构。2.代码实现(1)递归实现（树结构）classTreeNod
Python's SQLAlchemy and Object-Relational Mapping zhanglizhuo Python
Acommontaskwhenprogramminganywebserviceistheconstructionofasoliddatabasebackend.Inthepast,programmerswouldwriterawSQLstatements,passthemtothedatabaseengineandparsethereturnedresultsasanormalarrayofrec
python调用接口返回401,带有Python的Jira API在有效凭据上返回错误401 weixin_39743369 python调用接口返回401
IamtryingtousetheJirapythonlibrarytodosomequitebasicthings.Evenbeforedoinganything,theconstructorfails.address='https://myaddress.atlassian.net'options={'server':address}un='[email protected]'#un='my'#alsod
doris集群 warrah 岁月云——大数据杂烩 doris
开发doris的团队厉害，这个百度工程师确实也干了一些实事，不像领导层只会跑火车。1参数配置1.1文件句柄数vim/etc/security/limits.conf*softnofile655350*hardnofile6553501.2关闭透明大页echonever>/sys/kernel/mm/transparent_hugepage/enabledechonever>/sys/kernel/
Python 基础-循环赔罪 Python 系统学习 python windows 服务器
目录简介breakcontinue小结简介要计算1+2+3，我们可以直接写表达式：>>>1+2+36要计算1+2+3+...+10，勉强也能写出来。但是，要计算1+2+3+...+10000，直接写表达式就不可能了。为了让计算机能计算成千上万次的重复运算，我们就需要循环语句。Python的循环有两种，一种是for...in循环，依次把list或tuple中的每个元素迭代出来，看例子：names=[
Java集合之ArrayList（含源码解析超详细） &星辰入梦来& Java集合 java python 开发语言
1.ArrayList简介ArrayList的底层是数组队列，相当于动态数组。与Java中的数组相比，它的容量能动态增长。在添加大量元素前，应用程序可以使用ensureCapacity操作来增加ArrayList实例的容量。这可以减少递增式再分配的数量。ArrayList继承于AbstructList，实现了List，RandomAccess，Cloneable，Java.io.Serializa
Python 队列的使用：掌握先进先出的数据结构车载testing python
Python队列的使用：掌握先进先出的数据结构队列是一种先进先出（FIFO）的数据结构，它在多种编程场景中都非常有用，比如任务调度、事件处理等。在Python中，我们可以通过标准库中的queue模块来实现队列。本文将详细介绍如何使用Python的queue模块来创建和操作队列。导入Queue模块使用queue模块之前，我们需要先导入它：fromqueueimportQueue创建队列创建一个队列实
Java中sort()方法的使用吃锦鲤的猫 Java
/****@ClassName:Test*@Description:给定一个数组使用sort()方法进行排序(据说这是最快的方法)*默认采用升序排序*@author:yangyr*@date:2019年12月30日下午4:48:55**/publicclassTest{publicstaticvoidmain(String[]args){ArrayListarrayList=newArrayLis
java中的sort() 愿随我ღ
importjava.util.*;publicclassCollectionTest{publicstaticvoidmain(String[]args){Listl=newArrayList();l.add(10);l.add(1);l.add(0);l.add(120);for(Iteratorit=l.iterator();it.hasNext();){System.out.println
mysql 删表卡死_如何解决mysql 删表卡住的问题霍冉 mysql 删表卡死
如何解决mysql删表卡住的问题mysql删表卡住的解决办法：首先执行“showfullprocesslist;”语句；然后执行“killprocessid;”语句；最后使用kill语句将所有的id杀死，并重启MySQL即可。推荐：《mysql视频教程》MySQL表不能修改、删除等操作，卡死、锁死情况的处理办法。MySQL如果频繁的修改一个表的数据，那么这么表会被锁死。造成假死现象。比如用Navi
mongoDB 命令行操作小胖_@ mongo mongodb 数据库命令行
mongoDBmongo命令MongoDBshellversionv4.4.15usage:mongo[options][dbaddress][filenames(endingin.js)]dbaddresscanbe:foofoodatabaseonlocalmachine192.168.0.5/foofoodatabaseon192.168.0.5machine192.168.0.5:9999
力扣-二叉树-530 二叉搜索树的最小绝对差夏末秋也凉力扣 #二叉树 leetcode 算法数据结构
思路类似于数组中计算最小绝对差，利用中序遍历是有序的，计算两两元素差代码classSolution{public:intminNUM=INT_MAX;TreeNode*pre=NULL;intgetMinimumDifference(TreeNode*root){if(root==nullptr)returnminNUM;getMinimumDifference(root->left);if(pr
力扣-二叉树-501 二叉搜索树的众数夏末秋也凉力扣 #二叉树 leetcode 算法
思路二叉搜索树的特性就是中序遍历有序，所以思考时可以先按照有序数组思考代码classSolution{public:vectorresult;TreeNode*pre=nullptr;intcount=1;intmaxCount=0;voidtravesl(TreeNode*node){if(node==nullptr)return;travesl(node->left);if(pre!=null
力扣-二叉树-235 二叉搜索树的最近公共祖先夏末秋也凉力扣 #二叉树 leetcode 算法
思路重点抓住二叉搜索树的特点是有序，然后思考清楚搜索到的p和q情况classSolution{public:TreeNode*lowestCommonAncestor(TreeNode*root,TreeNode*p,TreeNode*q){if(root==NULL)returnNULL;if(root->valval&&root->valval){TreeNode*right=lowestCo
力扣-二叉树-450 删除二叉搜索树中的节点夏末秋也凉力扣 #二叉树 leetcode 算法数据结构
思路和向二叉搜索树插入节点一样，都可以利用递归完成不同节点的连接代码classSolution{public:TreeNode*deleteNode(TreeNode*root,intkey){if(root==nullptr)returnnullptr;if(root->val==key){if(root->left==nullptr&&root->right==nullptr)returnnu
力扣-二叉树-98 验证二叉搜索树夏末秋也凉力扣 #二叉树 leetcode 算法
思路第一个特性，二叉搜索树的中序遍历是有序的，第二个特性，利用两个指针判断大小关系代码classSolution{public:TreeNode*pre=NULL;boolisValidBST(TreeNode*root){if(root==NULL)returntrue;boolleft=isValidBST(root->left);if(pre!=NULL&&pre->val>=root->v
深入理解Java的集合框架一碗黄焖鸡三碗米饭 java
深入理解Java的集合框架Java集合框架（JavaCollectionsFramework，简称JCF）是Java语言中最常用的API之一，它为开发者提供了强大且灵活的数据结构支持。集合框架通过一系列的接口和实现类，帮助我们管理、存储和操作数据。Java集合框架包括常见的List、Set、Map等接口及其具体实现类，合理选择适当的集合类型，对于程序性能和代码可维护性至关重要。本文将深入解析Jav
Rook-ceph(1.92最新版) 野猪佩挤 k8s 存储 ceph
安装前准备#确认安装lvm2yuminstalllvm2-y#启用rbd模块modproberbdcat>/etc/rc.sysinit/etc/sysconfig/modules/rbd.modulesfilesystem.yaml<
STM32硬件SPI函数解析与示例 weixin_58038206 stm32 嵌入式硬件单片机
1.SPI简介SPI（SerialPeripheralInterface）即串行外设接口，是一种高速、全双工、同步的通信总线，常用于微控制器与各种外设（如传感器、存储器等）之间的通信。STM32系列微控制器提供了多个SPI接口，具有灵活的配置选项。2.相关函数解析2.1初始化相关函数SPI_Init(SPI_TypeDef*SPIx,SPI_InitTypeDef*SPI_InitStruct)功
C++ STL容器大全 string vector stack queue list priority_queue set map pair luckyyunji C++数据结构 c++
数据结构(容器)string类Vectorvector向量->不定长数组#include定义vector方法一vectorv1;vector>v2;vector>>v3;方法二vectorv1(5,10);vector>v2(5,vector(5,10));vector>>v3(5,vector(5,vector(5,10)))尾插尾删尾插v.push_back(123);尾删v.pop_back
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep