开拓者-2015

Nutch源码剖析关于robot （HttpBase）

关于robot

author ：旱魃斗天 [email protected] 开拓者部落 ccqq 群 248087140

org.apache.nutch.fetcher.Fetcher734

Protocol protocol = this.protocolFactory.getProtocol(fit.url.toString());

BaseRobotRules rules = protocol.getRobotRules(fit.url, fit.datum);

参数说明

getRobotRules方法中FetchItem 的声明：

FetchItem fit = null;

fit = fetchQueues.getFetchItem();

HttpBase中关于robot的分析

在实现类httpbase中有getRobotRules的实现

public BaseRobotRules getRobotRules(Text url, CrawlDatum datum) {

return robots.getRobotRulesSet(this, url);

}

方法中体中robots.getRobotRulesSet(this, url);中robots的声明如下

private HttpRobotRulesParser robots = null;

在构造方法中，创建了对象

public HttpBase(Logger logger) {

if (logger != null) {

this.logger = logger;

}

robots = new HttpRobotRulesParser();

}

Httpbase有两个构造方法，还有一个是无参数的构造方法。

在setConf方法中做了配置

// Inherited Javadoc

public void setConf(Configuration conf) {

this.conf = conf;

this.proxyHost = conf.get("http.proxy.host");

this.proxyPort = conf.getInt("http.proxy.port", 8080);

this.useProxy = (proxyHost != null && proxyHost.length() > 0);

this.timeout = conf.getInt("http.timeout", 10000);

this.maxContent = conf.getInt("http.content.limit", 64 * 1024);

this.userAgent = getAgentString(conf.get("http.agent.name"), conf.get("http.agent.version"), conf

.get("http.agent.description"), conf.get("http.agent.url"), conf.get("http.agent.email"));

this.acceptLanguage = conf.get("http.accept.language", acceptLanguage);

this.accept = conf.get("http.accept", accept);

// backward-compatible default setting

this.useHttp11 = conf.getBoolean("http.useHttp11", false);

this.robots.setConf(conf);

logConf();

}

org.apache.nutch.protocol.RobotRulesParser中关于robot的分析

httpbase对RobotRulesParser中getRobotRulesSet方法的调用

public BaseRobotRules getRobotRules(Text url, CrawlDatum datum) {

return robots.getRobotRulesSet(this, url);

}

RobotRulesParser的getRobotRulesSet

public BaseRobotRules getRobotRulesSet(Protocol protocol, Text url) {

URL u = null;

try {

u = new URL(url.toString());

} catch (Exception e) {

return EMPTY_RULES;

}

return getRobotRulesSet(protocol, u);

}

return getRobotRulesSet(protocol, u);一句，调用了抽象方法getRobotRulesSet

public abstract BaseRobotRules getRobotRulesSet(Protocol protocol, URL url);

HttpRobotRulesParser中关于robot的实现

package org.apache.nutch.protocol.http.api;

/**

* This class is used for parsing robots for urls belonging to HTTP protocol.

这个类用来解析robots中符合http协议的urls

* It extends the generic {@link RobotRulesParser} class and contains

它继承了robotrulesparser并且包含了获取robots file 的http协议实现

* Http protocol specific implementation for obtaining the robots file.

public class HttpRobotRulesParser extends RobotRulesParser {

public static final Logger LOG = LoggerFactory.getLogger(HttpRobotRulesParser.class);

protected boolean allowForbidden = false;

HttpRobotRulesParser() { }

public HttpRobotRulesParser(Configuration conf) {

super(conf);

allowForbidden = conf.getBoolean("http.robots.403.allow", false);

}

/**

* The hosts for which the caching of robots rules is yet to be done,

* it sends a Http request to the host corresponding to the {@link URL}

* passed, gets robots file, parses the rules and caches the rules object

* to avoid re-work in future.

对于没有robots跪着的主机，发送一个与url一致的http request 到这个host

获取robots文件，解析规则，缓存规则对象，已方便后来使用

* @param http The {@link Protocol} object

* @param url URL

* @return robotRules A {@link BaseRobotRules} object for the rules

public BaseRobotRules getRobotRulesSet(Protocol http, URL url) {

String protocol = url.getProtocol().toLowerCase(); // normalize to lower case

String host = url.getHost().toLowerCase(); // normalize to lower case

BaseRobotRules robotRules = (SimpleRobotRules)CACHE.get(protocol + ":" + host);

//CACHE继承自父类 RobotRulesParser

//声明如下

//protected static final Hashtable<String, BaseRobotRules> CACHE = new Hashtable<String, //BaseRobotRules> ();

boolean cacheRule = true;

if (robotRules == null) { // cache miss

URL redir = null;

if (LOG.isTraceEnabled()) { LOG.trace("cache miss " + url); }

try {

Response response = ((HttpBase)http).getResponse(new URL(url, "/robots.txt"),

new CrawlDatum(), true);

跟踪代码发现 http是org.apache.nutch.protocol.httpclient.Http

// try one level of redirection ?

if (response.getCode() == 301 || response.getCode() == 302) {

String redirection = response.getHeader("Location");

if (redirection == null) {

// some versions of MS IIS are known to mangle this header

redirection = response.getHeader("location");

}

if (redirection != null) {

if (!redirection.startsWith("http")) {

// RFC says it should be absolute, but apparently it isn't

redir = new URL(url, redirection);

} else {

redir = new URL(redirection);

}

response = ((HttpBase)http).getResponse(redir, new CrawlDatum(), true);

}

if (response.getCode() == 200) // found rules: parse them

robotRules = parseRules(url.toString(), response.getContent(),

response.getHeader("Content-Type"),

agentNames);

else if ( (response.getCode() == 403) && (!allowForbidden) )

robotRules = FORBID_ALL_RULES; // use forbid all

else if (response.getCode() >= 500) {

cacheRule = false;

robotRules = EMPTY_RULES;

}else

robotRules = EMPTY_RULES; // use default rules

} catch (Throwable t) {

if (LOG.isInfoEnabled()) {

LOG.info("Couldn't get robots.txt for " + url + ": " + t.toString());

}

cacheRule = false;

robotRules = EMPTY_RULES;

}

if (cacheRule) {

CACHE.put(protocol + ":" + host, robotRules); // cache rules for host

if (redir != null && !redir.getHost().equals(host)) {

// cache also for the redirected host

CACHE.put(protocol + ":" + redir.getHost(), robotRules);

}

return robotRules;

}

public class HttpResponse implements Response

package org.apache.nutch.protocol.httpclient;

// JDK imports

import java.io.ByteArrayOutputStream;

import java.io.IOException;

import java.io.InputStream;

import java.net.URL;

// HTTP Client imports

import org.apache.commons.httpclient.Header;

import org.apache.commons.httpclient.HttpVersion;

import org.apache.commons.httpclient.cookie.CookiePolicy;

import org.apache.commons.httpclient.methods.GetMethod;

import org.apache.commons.httpclient.params.HttpMethodParams;

import org.apache.commons.httpclient.HttpException;

// Nutch imports

import org.apache.nutch.crawl.CrawlDatum;

import org.apache.nutch.metadata.Metadata;

import org.apache.nutch.metadata.SpellCheckedMetadata;

import org.apache.nutch.net.protocols.HttpDateFormat;

import org.apache.nutch.net.protocols.Response;

import org.apache.nutch.protocol.http.api.HttpBase;

/**

* An HTTP response.

* @author Susam Pal

public class HttpResponse implements Response {

private URL url;

private byte[] content;

private int code;

private Metadata headers = new SpellCheckedMetadata();

/**

* Fetches the given <code>url</code> and prepares HTTP response.

* @param http An instance of the implementation class

* of this plugin

* @param url URL to be fetched

* @param datum Crawl data

* @param followRedirects Whether to follow redirects; follows

* redirect if and only if this is true

* @return HTTP response

* @throws IOException When an error occurs

HttpResponse(Http http, URL url, CrawlDatum datum,

boolean followRedirects) throws IOException {

// Prepare GET method for HTTP request

this.url = url;

GetMethod get = new GetMethod(url.toString());

get.setFollowRedirects(followRedirects);

get.setDoAuthentication(true);

if (datum.getModifiedTime() > 0) {

get.setRequestHeader("If-Modified-Since",

HttpDateFormat.toString(datum.getModifiedTime()));

}

// Set HTTP parameters

HttpMethodParams params = get.getParams();

if (http.getUseHttp11()) {

params.setVersion(HttpVersion.HTTP_1_1);

} else {

params.setVersion(HttpVersion.HTTP_1_0);

}

params.makeLenient();

params.setContentCharset("UTF-8");

params.setCookiePolicy(CookiePolicy.BROWSER_COMPATIBILITY);

params.setBooleanParameter(HttpMethodParams.SINGLE_COOKIE_HEADER, true);

// XXX (ab) not sure about this... the default is to retry 3 times; if

// XXX the request body was sent the method is not retried, so there is

// XXX little danger in retrying...

不确定默认是不是重试3次，如果请求体被发送，方法却没有重试，会导致正在重试中的动作发生危险

// params.setParameter(HttpMethodParams.RETRY_HANDLER, null);

try {

code = Http.getClient().executeMethod(get);

Header[] heads = get.getResponseHeaders();

for (int i = 0; i < heads.length; i++) {

headers.set(heads[i].getName(), heads[i].getValue());

}

// Limit download size

int contentLength = Integer.MAX_VALUE;

String contentLengthString = headers.get(Response.CONTENT_LENGTH);

if (contentLengthString != null) {

try {

contentLength = Integer.parseInt(contentLengthString.trim());

} catch (NumberFormatException ex) {

throw new HttpException("bad content length: " +

contentLengthString);

}

if (http.getMaxContent() >= 0 &&

contentLength > http.getMaxContent()) {

contentLength = http.getMaxContent();

}

// always read content. Sometimes content is useful to find a cause

// for error.

InputStream in = get.getResponseBodyAsStream();

try {

byte[] buffer = new byte[HttpBase.BUFFER_SIZE];

int bufferFilled = 0;

int totalRead = 0;

ByteArrayOutputStream out = new ByteArrayOutputStream();

while ((bufferFilled = in.read(buffer, 0, buffer.length)) != -1

&& totalRead + bufferFilled <= contentLength) {

totalRead += bufferFilled;

out.write(buffer, 0, bufferFilled);

}

content = out.toByteArray();

} catch (Exception e) {

if (code == 200) throw new IOException(e.toString());

// for codes other than 200 OK, we are fine with empty content

} finally {

if (in != null) {

in.close();

}

get.abort();

}

StringBuilder fetchTrace = null;

if (Http.LOG.isTraceEnabled()) {

// Trace message

fetchTrace = new StringBuilder("url: " + url +

"; status code: " + code +

"; bytes received: " + content.length);

if (getHeader(Response.CONTENT_LENGTH) != null)

fetchTrace.append("; Content-Length: " +

getHeader(Response.CONTENT_LENGTH));

if (getHeader(Response.LOCATION) != null)

fetchTrace.append("; Location: " + getHeader(Response.LOCATION));

}

// Extract gzip, x-gzip and deflate content

if (content != null) {

// check if we have to uncompress it

String contentEncoding = headers.get(Response.CONTENT_ENCODING);

if (contentEncoding != null && Http.LOG.isTraceEnabled())

fetchTrace.append("; Content-Encoding: " + contentEncoding);

if ("gzip".equals(contentEncoding) ||

"x-gzip".equals(contentEncoding)) {

content = http.processGzipEncoded(content, url);

if (Http.LOG.isTraceEnabled())

fetchTrace.append("; extracted to " + content.length + " bytes");

} else if ("deflate".equals(contentEncoding)) {

content = http.processDeflateEncoded(content, url);

if (Http.LOG.isTraceEnabled())

fetchTrace.append("; extracted to " + content.length + " bytes");

}

// Logger trace message

if (Http.LOG.isTraceEnabled()) {

Http.LOG.trace(fetchTrace.toString());

}

} finally {

get.releaseConnection();

}

/* ------------------------- *

* <implementation:Response> *

* ------------------------- */

public URL getUrl() {

return url;

}

public int getCode() {

return code;

}

public String getHeader(String name) {

return headers.get(name);

}

public Metadata getHeaders() {

return headers;

}

public byte[] getContent() {

return content;

}

/* -------------------------- *

* </implementation:Response> *

* -------------------------- */

}

你可能感兴趣的:(Nutch源码剖析关于robot （HttpBase）)

关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
郎朗大婚娶公主：所有光环的背后，都是十年如一日的自律简小尘
近日，关于郎朗大婚的新闻上了热搜，看了新娘的照片，既有天使般的面容，更有魔鬼般的身材，关键是人家还身世好，又有才华，这真的是让所有男人羡慕嫉妒恨哪。有些人不禁会想，“凭什么郎朗的人生就象开挂了一样，可我却每天都活得这么狼狈！”其实，每个开挂的人生背后，都是苦行僧般的自律。01欲戴王冠，必承其重。练琴不能只靠兴趣，更需要自律！我们先来看一下朗朗在小时候的作息时间表：早晨5:45起床，练琴1小时。中午
《中华小厨师》单行VS爱藏：姜是老的辣，书是新的好 cicoky
《汉书·郦食其传》有曰：“王者以民为天，而民以食为天。”自古以来，吃饱饭是每一个人的基本要求，而吃好饭却是每一个人的最终追求。于是，厨师这一职业孕育而生，其渊源之久，甚至可追溯到4000年前的奴隶时代。职业本身无贵贱，但职业能力却有高低之分。所以一家餐馆生意好不好，厨师的水平决定一切，而站在所有厨师顶端的就被称之为“特级厨师”。今天要说的就是一个关于“特级厨师刘昴星”的故事。连载历程1995年第4
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
2023-10-22 奥雷里亚诺第n
昨天在B站看到关于猫喜欢挠人的视频，视频教导说猫挠人的话就抓住它的后脖颈然后用手打打挠人的那个爪子。视频本身没什么，但评论区却炸开了锅（真是符合挑食者厌食心理）。令我印象最深刻的一个甚至上升到了关于我是谁这种终极问题。它说，猫就是畜生，它挠人就打它别惯着它，反正我六道轮回成了人就应该保持人的高贵，谁都别想来打破。我顿时汗颜，但看到下面全是类似的言论只不过后面的理由各有不同，本来想骂人的心都凉了一半
冬天短期的暴利小生意有哪些？那些小生意适合新手做？一起高省
短期生意不失为创业的一个商机，不过短期生意的商机是转瞬即逝的，而且这类生意也很难作为长期的生意去做，那冬天短期暴利小生意查看更多关于短期暴利小生意的文章有哪些呢?给大家先推荐一个2023年风口项目吧，真很不错的项目，全程零投资，当做副业来做真的很稳定，不管你什么阶层的人，或多或少都网购吧？你们知道网购是可以拿提成，拿返利，拿分佣的吗？你们知道很多优惠券群里面，天天群主和管理发一些商品吗？他们其实在
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
2021年2月21日 1000天演讲打卡第52天乒乓球巅峰_时刻
哈喽大家好，我是嘟嘟，今天是2021年2月21日，也是我1000天演讲打卡第52天，今天我要与大家探讨的主题关于乒乓球。乒乓球，是我目前和小伙伴们最喜欢的一项运动，记得第一次打乒乓球的时候，还是4年前与姥姥娱乐，当时姥姥姥爷来深圳了，这边没有朋友，所以他们每天都会去打乒乓球，有一次我初于好奇心，找他们打了几局，打完下来我大汗淋漓，可心中觉得乒乓球比篮球好多了，也是从那是开始，我要求与姥姥姥爷一起打
新私域是什么平台靠谱吗氧惠佣金真的高
新私域指的是借助与互联网电商，随着平台内商家入驻量、用户量相辅相成的全国化平台。是否靠谱取决于平台是否合规。新私域指的是借助与互联网电商，在传统会员体系外新增的锁定用户跨平台、跨界收益，一种随着平台内商家入驻量、用户量相辅相成的全国化平台。关于新私域平台是否靠谱，这个需要看平台的底层逻辑是否合理、合法、合规以及平台的未来的发展方向氧惠APP抖音购物、看电影、点外卖、打车用氧惠APP！佣金更高、更优
简单说说关于shell中zsh和bash的选择秋刀prince MacOS 小猿们的开发日常 bash
希望文章能给到你启发和灵感～如果觉得文章对你有帮助的话，点赞+关注+收藏支持一下博主吧～阅读指南开篇说明一、基础环境说明1.1硬件环境1.2软件环境二、什么是shell、bash、zsh?2.1bash2.2zsh三、选择Bash还是Zsh？四、一些常见问题开篇说明本篇主要简单说明一下，shell中bash和zsh的区别和选择；我们经常会把这两个搞混，不知道什么时候用哪一个，以及怎么使用；一、基础
Kafka是如何保证数据的安全性、可靠性和分区的喜欢猪猪 kafka 分布式
Kafka作为一个高性能、可扩展的分布式流处理平台，通过多种机制来确保数据的安全性、可靠性和分区的有效管理。以下是关于Kafka如何保证数据安全性、可靠性和分区的详细解析：一、数据安全性SSL/TLS加密：Kafka支持SSL/TLS协议，通过配置SSL证书和密钥来加密数据传输，确保数据在传输过程中不会被窃取或篡改。这一机制有效防止了中间人攻击，保护了数据的安全性。SASL认证：Kafka支持多种
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
逻辑思维的过程与力量解晓萱
之前我对逻辑思维的了解停留在，讲话时有逻辑，辩论时条理清晰。今天看了《开讲了》里面关于大学生质疑易中天老师的视频，听到易中天老师的回答，忽然对逻辑思维有了稍微深刻的理解。图片发自App逻辑学对我们太重要了，不仅仅是学习备考，更重要的是生活和事业及交流的选择及过程。偏激的起点和性格有关，更和逻辑思维水平有关。视频里，易中天老师评价北大学生逻辑时讲到：“他的逻辑环节是没问题的，但是逻辑起点错了，所以他
线上分享会感悟（关于教育）猫咪小妖的城堡
未来的理想的教育，是细化到个人的。即，关注每个人的成长，个人的优势发展。教师需要做的，是营造足够好的氛围，提供足够多的支。每个孩子都是一颗种子，老师是园丁，提供营养的土壤，悉心呵护，浇水，施肥，修剪，给予恰当的引导，种子自然会依照本性，长成自己的样子。世界因此而美好，多姿多彩。教育，是连接到本人，对人本心的沟通。从表面上的一个点（一个行为），深究到背后的动机，而非简单的评判与术的运用。这涉及到心理
深入浅出 -- 系统架构之负载均衡Nginx的性能优化 xiaoli8748_软件开发系统架构系统架构负载均衡 nginx
一、Nginx性能优化到这里文章的篇幅较长了，最后再来聊一下关于Nginx的性能优化，主要就简单说说收益最高的几个优化项，在这块就不再展开叙述了，毕竟影响性能都有多方面原因导致的，比如网络、服务器硬件、操作系统、后端服务、程序自身、数据库服务等，对于性能调优比较感兴趣的可以参考之前《JVM性能调优》中的调优思想。优化一：打开长连接配置通常Nginx作为代理服务，负责分发客户端的请求，那么建议开启H
天猫返利网哪个最好?天猫返利网站有哪些? 优惠券高省
关于哪个返利网站好用，今天汐儿给大家介绍以下十大网站，可以作为参考：1、高省网【高省APP】（邀请码：668666）全网佣金最高。手机应用商店搜索“高省”即可免费下载安装，填写高省邀请码：668666，直升2皇冠，享更高佣金及分红奖励。高省APP全网佣金最高，手机应用商店搜索“高省”即可下载，高省邀请码：668666，此码注册，直升2皇冠，佣金更高！送万元推广大礼包，教你如何1年做到百万团队。其实
为什么学生不喜欢上学虾虾说
图片发自App《为什么学生不喜欢上学》作者是丹尼尔·威林厄姆。本书从认知心理学角度，结合大量实证案例，阐释了大脑工作的基本原理，回答了关于学习过程的一系列问题。为什么学生不喜欢上学？——大脑工作的基本原理思考是缓慢的、费力的、不可靠的。思考有三个要素，环境、工作记忆和长期记忆。环境是信息来源；长期记忆是知识、经验的巨型仓库，随时可以调取；工作记忆是中央处理器，是加工信息素材的中央厨房，也是思考过程
阿里云服务器4核8G配置购买及价格类文章汇总（10篇）阿里云最新优惠和活动汇总
阿里云服务器4核8G配置如何购买？价格是多少？4核8G配置的阿里云服务器可以通过云服务器产品页购买也可以通过阿里云活动去下单购买，一般通过活动购买的用户比较多，但是不同实例规格的阿里云服务器价格不一样，带宽不同价格也不一样，本文为大家汇总了10篇关于阿里云服务器4核8G配置购买教程文章和价格类文章，分为购买类文章和价格类文章，以供大家参考如何购买阿里云服务器4核8G配置和最新优惠价格是多少。阿里云
好运来是露漫漫呀
4月9日下午17.45分晴此时学校里广播站放着激情热烈的歌曲——《好运来》。“好运来，祝你好运来……”第一瞬间，我想到了他们是放这首歌是为补考的同学招来好运气的。然后我思绪飞扬，飘到了高中考试前同学放这首歌来抚平心态。飘到了高考前整理班级课桌时，学校喇叭里大大咧咧放着《好运来》……疲惫的我会心一笑。飘到了上学期考细解实验试卷时的那个中午青春小胖放这首歌来招好运，祈祷考的都会…………关于《好运来》的
Linux CTF逆向入门蚁景网络安全 linux 运维 CTF
1.ELF格式我们先来看看ELF文件头，如果想详细了解，可以查看ELF的manpage文档。关于ELF更详细的说明：e_shoff：节头表的文件偏移量（字节）。如果文件没有节头表，则此成员值为零。sh_offset：表示了该section（节）离开文件头部位置的距离+-------------------+|ELFheader|---++--------->+-------------------
共读《罗恩老师的奇迹教育》28 lan杨杨
第28节感恩、珍惜——父母给孩子最珍贵的礼物打卡时间：11.25-11.26打卡内容：读完本节，对于培养孩子感恩和珍惜方面，你有什么感悟？虽然我还没有为人父母，对于育儿并没有什么经验，但对于两个小侄女，作为姑姑的我还是花了很多心思，但很多时候我都觉得自己的教育方法特别不恰当。所以，关于感恩和珍惜，两个小侄女还需要磨砺，我的教育方式也需要改变！不管是作为姑姑，还是有一天成为母亲，我都迫切希望自己能成
《我的职业是小说家》 simple梦
《我的职业是小说家》：《我的职业是小说家》是村上春树前所未有的自传性作品，历时六年完成。一个人，写作三十五年，十三部长篇小说，超过五十种语言译本。虽然拥有享誉世界的知名度，但关于村上春树，许多事情始终包裹在神秘的面纱中：他是怎样下定决心走上职业小说家之路？对他来说，人生中幸福的事是什么？究竟如何看待芥川奖与诺贝尔文学奖……小说家看似风光，却是份孤独的职业。三十五年来，村上春树在孤独中编织着美妙动人
6月复盘之重新认识自己插画君王木木
经历了漫长的疫情恐慌期，每个人都想重新开启的2020上半年一不小心就结束了，但疫情还在继续，趁着这段特殊时期，邀请你一起打开重新认识自己的大门。趁早图先来回顾一下关于你的上半年是怎样过来的呢？看看我们是不是有一样的状况呢？在1月份信誓旦旦的立下全年目标，可能经历了2周时间，这面旗子就倒了；1月底-2月中的春节期间，完全陷入了低谷期，面对大环境的变革，我该何去何从？2月底回上海，意识到真的不能这样堕
国庆节的一天安心雨
昨晚朋友间就转发国庆阅兵时间安排细节。今早，六点起床，到公园散步，一路上国旗招展，浓浓喜庆味。图片发自App准时坐到电脑前，拉上窗帘，关了房门，一个人静静感受，视觉和心灵的震撼。怕大脑内存不足，想要永远留存住那些属于这个时代，属于这个国家的骄傲。于是，拿出手机，对着屏幕拍了一张一张又一张。下午，朋友圈各种关于国庆的想法、评论、图片刷屏，翻了一遍一遍又一遍，每一遍都是骄傲和自豪。为生在这个伟大的时代
今天是个好日子 singing阿梅
图片发自App今日小年公历日子是20180208上午赶写一个材料，关于“四风”问题自查自纠报告，待一稿已成送交主任过目，他瞄一眼即大声反对！不顾我这厢受伤的小心脏，立马重写！吓！下午两个视频会议自从单位条件改善，会议多开了不少……贷款到期开始着急上火今日写作任务还欠奉写什么呢原本想继续写《我的2017》系列很多时候所谓意义都是总结和提炼出来的码一堆文字于他人无甚意义于己也待商榷、重估。另一方面，冥
正确的护肤步骤，爱美的女生一定要了解一下焕颜研究所
皮肤和孩子一样要养，是个长期的工作，天生好皮肤也需要护理。说起护肤其实倒没那么太复杂，主要大家只要了解了护肤步骤并且搭配适合自己的护肤品以后按照规则来就行了，今天给大家正确的护肤步骤，仅供大家参考！【正确的护肤步骤简单说明】晨间护肤顺序是：洗脸—化妆水—眼霜—精华—乳液/面霜—防晒。按照质地从轻薄到厚重的顺序来涂，晚间护肤步骤稍微复杂一点。关于眼霜步骤问题，其实眼霜的步骤比较灵活，在化妆水后任意一
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name

Nutch源码剖析 关于robot （HttpBase）

你可能感兴趣的:(Nutch源码剖析 关于robot （HttpBase）)

Nutch源码剖析关于robot （HttpBase）

你可能感兴趣的:(Nutch源码剖析关于robot （HttpBase）)