最近我需要写点页面分析的东西,这些东西某些程度上类似搜索引擎的“爬虫->parser->存储”的过程。
过去我常用的抓取页面的库是libcurl,这个东西是unix常用命令curl的基础,curl被称做“命令行浏览器”,功能强大,支持的协议也全面。遗憾的是libcurl仅仅是个支持多协议的抓取库,不能做解析。
找来找去,发现了w3c的Libwww库,这东西功能强大的吓人,不仅有解析,还有robot(也就是爬虫了,或是叫internet walker)功能。在Libwww基础上完成的程序很多,最著名的大概是字符模式的浏览器lynx。我几乎就觉得这就我需要的东西了,立刻dive into。
一整天之后,我终于能用这东西抓下来页面,并且从html页面中分析出来一些信息了,但是想更进一步就变的异常困难。因为这个库功能太复杂了。这东西文档不详细,被人提及的也少。Libwww最近的Release 5.3.2,发布于2000年12月20日。一个有这么多年历史的东西,竟然没多少开发者在讨论,非常不正常。
找来找去,最后在libcurl的FAQ里面看到了和Libwww的比较,精选的读者来信告诉我,不仅仅是我一个人被Libwww的复杂弄的晕了头脑,我才花了一整天,写信的那个哥们竟然用了一人月,还是在里面打转,直到换了 curl才好。虽然这是libcurl推销自己的方法,不过这些失败的前辈的经验让我对自己的智商重新有了信心。看来这东西没多少人讨论是正常的...
好吧,我也投降,libcurl没html解析功能,这没关系,我找别的办法好了...这么复杂的库,再好我也实在没办法忍受下去了,再说我需要的功能其实也真没Libwww那么复杂的。
写程序其实很容易迷失,你会看到一个似乎很完美,什么都能做的东西,一下子就喜欢上它,但是最后往往还是无福消受。往往是那些,不那么成熟,多少有点小毛病的库,组合在一起才是真正的解决方案。
=======================================================================
from: http://www.9php.com/FAQ/cxsjl/c/2008/09/2520639129348.html
使用libcurl的post方法上传数据,很奇怪奇怪的问题!!。。。
使用libcurl的(9php.com)post方法上传数据,很奇怪奇怪的(9php.com)问题!!。。。
我用libcurl将网页下载写到一个string对象中,然后对其处理--取词。再用libcurl的(9php.com)post方法将内容上传,处理一条后就接着上传,60多条记录下来,发现有30多条没有上传上去。不知道什么原因。大家帮忙分析一下。。。
2008-9-11 15:44lemonniu
上传代码:
int CurlUpload(string XMLCode,string xmlUid)
{
CURL *curl;
// CURLcode response; //定义CURLcode类型的(9php.com)变量
CURLcode code;
CURLcode retcode;
code=curl_global_init(CURL_GLOBAL_ALL); //初始化所有可能的(9php.com)调用
if(code!=CURLE_OK)
{
cout<<"upload global init failed"<<endl;
return -1;
}
curl = curl_easy_init(); //初始化一个CURL类型的(9php.com)指针
if(curl==NULL)
{
cout<<"upload Failed create CURL connection"<<endl;
curl_easy_cleanup(curl);
return -1;
}
code=curl_easy_setopt(curl,CURLOPT_URL,"http://192.168.1.210/parser/save");
if(code!=CURLE_OK)
{
cout<<"upload Failed set url"<<endl;
curl_easy_cleanup(curl);
return -1;
}
string request="uid="+xmlUid;
request+="&xml="+XMLCode;
code=curl_easy_setopt(curl, CURLOPT_POST, 1);
if(code!=CURLE_OK)
{
curl_easy_cleanup(curl);
cout<<"upload Failed set POST"<<endl;
return -1;
}
//code=curl_easy_setopt(curl, CURLOPT_POSTFIELDS,request.c_str());
code=curl_easy_setopt(curl,CURLOPT_COPYPOSTFIELDS,request.c_str());
if(code!=CURLE_OK)
{
curl_easy_cleanup(curl);
cout<<"upload Failed set postfields"<<endl;
return -1;
}
code=curl_easy_perform(curl);
if(code!=CURLE_OK)
{
curl_easy_cleanup(curl);
cout<<"upload Failed to upload data"<<endl;
return -1;
}
code=curl_easy_getinfo(curl,CURLINFO_RESPONSE_CODE,&retcode);
if ( (code == CURLE_OK) && retcode == 200 )
{
cout<<retcode<<endl;
cout<<"send ok"<<endl;
sum++;
curl_easy_cleanup(curl);
return 1;
}
else
{
//curl_easy_cleanup(curl);
return -1;
}
}
=======================================================================
from: http://blog.163.com/xu_chao2000/blog/static/27770610200801303252802/
libcurl应用:如何把下载内容写入内存
libcurl 的文档中有getinmemory.c这个例子,把下载的网页写入自己定义的一个memorystruct中,看了这个例子的做法,它需要自己照顾内存的开辟,特别是需要在curl_easy_perform的调用函数中释放已开辟的内存,很不利于函数的封装,而且应用于multihandle的时候,运行时会出莫名其妙的assert错误。因此改写了一下,将下载的内容放入stl的string中,这样根本不需要自己照顾内存的开辟和释放。源代码如下:
#include <string>
#include "curl.h"
using namespace std;
static char errorBuffer[CURL_ERROR_SIZE];
static int writer(char *, size_t, size_t, string *);
static bool init(CURL *&, char *,string *);
int main()
{
CURL *conn = NULL;
CURLcode code;
string buffer;
curl_global_init(CURL_GLOBAL_DEFAULT);
char* url="http://cool.haxx.se/";
if (!init(conn,url,&buffer ))
{
fprintf(stderr, "Connection initializion failed/n");
exit(EXIT_FAILURE);
}
code = curl_easy_perform(conn);
if (code != CURLE_OK)
{
fprintf(stderr, "Failed to get '%s' [%s]/n", url, errorBuffer);
exit(EXIT_FAILURE);
}
curl_easy_cleanup(conn);
printf("%s/n",buffer.c_str());
return 0;
}
static bool init(CURL *&conn, char *url,string *p_buffer)
{
CURLcode code;
conn = curl_easy_init();
if (conn == NULL)
{
fprintf(stderr, "Failed to create CURL connection/n");
exit(EXIT_FAILURE);
}
code = curl_easy_setopt(conn, CURLOPT_ERRORBUFFER, errorBuffer);
if (code != CURLE_OK)
{
fprintf(stderr, "Failed to set error buffer [%d]/n", code);
return false;
}
code = curl_easy_setopt(conn, CURLOPT_URL, url);
if (code != CURLE_OK)
{
fprintf(stderr, "Failed to set URL [%s]/n", errorBuffer);
return false;
}
code = curl_easy_setopt(conn, CURLOPT_FOLLOWLOCATION, 1);
if (code != CURLE_OK)
{
fprintf(stderr, "Failed to set redirect option [%s]/n", errorBuffer);
return false;
}
code = curl_easy_setopt(conn, CURLOPT_WRITEFUNCTION, writer);
if (code != CURLE_OK)
{
fprintf(stderr, "Failed to set writer [%s]/n", errorBuffer);
return false;
}
code = curl_easy_setopt(conn, CURLOPT_WRITEDATA, p_buffer);
if (code != CURLE_OK)
{
fprintf(stderr, "Failed to set write data [%s]/n", errorBuffer);
return false;
}
return true;
}
static int writer(char *data, size_t size, size_t nmemb, string *writerData)
{
unsigned long sizes = size * nmemb;
if (writerData == NULL) return 0;
writerData->append(data, sizes);
return sizes;
}