E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
protocol-http
Nutch学习笔记10---一个bug引发Http协议研究
自己修改
protocol-http
的代码,实现连接池,发现怎么样都有异常,经过调试跟踪,发现了一个bug,见我给nutch发的邮件,想验证下是否是一个bug.Hello,IamusingNutch1.7
强子哥哥
·
2014-07-09 15:00
Nutch
Nutch学习笔记9---fetch优化
protocol-http
VS httpclient
最近通过查看日志,发现nutch的fetch和parse阶段最耗时间。 然后查看代码,发现每次取网页都会新建一个socket,然后发送请求,读取响应,再关闭连接。 如果一个请求就对应着一个socket.这也太恐怖了吧。 我们都知道切换socket的HTTP层的长连接是非常有效的!!!如果你用的http网页远程提取器插件是protcol-http的话,那么 Fetcher里的 ProtocolOu
强子哥哥
·
2014-07-07 15:00
Nutch
Keep-Alive
Fetcher
protocol-http
Nutch源代码研究 网页抓取 下载插件
今天我们来看看Nutch的源代码中的
protocol-http
插件,是如何抓取和下载web页面的。
atco
·
2013-06-05 11:00
搜索引擎Nutch源代码研究之一+网页抓取(2)
今天我们来看看Nutch的源代码中的
protocol-http
插件,是如何抓取和下载web页面的。
zhwei_87
·
2011-10-11 19:00
html
搜索引擎
socket
header
web服务
encoding
搜索引擎Nutch源代码研究之一 网页抓取(2)
今天我们来看看Nutch的源代码中的
protocol-http
插件,是如何抓取和下载web页面的。
blessed24
·
2010-12-06 21:00
C++
c
搜索引擎
socket
C#
搜索引擎Nutch源代码研究之一 网页抓取(2)
今天我们来看看Nutch的源代码中的
protocol-http
插件,是如何抓取和下载web页面的。
fuliang
·
2007-12-15 00:00
c
搜索引擎
socket
SVN
Lucene
搜索引擎Nutch源代码研究之一 网页抓取(2)
今天我们来看看Nutch的源代码中的
protocol-http
插件,是如何抓取和下载web页面的。
fuliang
·
2007-12-15 00:00
c
搜索引擎
socket
SVN
Lucene
搜索引擎Nutch源代码研究之一 网页抓取(1)
Nutch源代码研究之一 网页抓取: Nutch的爬虫代码部分主要集中在:package org.apache.nutch.fetcher和插件protocol-file Protocol-ftp
protocol-http
fuliang
·
2007-12-14 20:00
apache
thread
搜索引擎
SVN
Lucene
搜索引擎Nutch源代码研究之一 网页抓取(1)
Nutch源代码研究之一 网页抓取: Nutch的爬虫代码部分主要集中在:package org.apache.nutch.fetcher和插件protocol-file Protocol-ftp
protocol-http
fuliang
·
2007-12-14 20:00
apache
thread
搜索引擎
SVN
Lucene
上一页
1
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他