creazyfrog

【转】泰然处之，网络爬虫程序实例

最近跟朋友开始研究搜索引擎的实现，下面是朋友参照jobo改的一个给予java的spider

ps：里面的英文可以略过了，这家伙英语水平实在是烂= =

Sosoo 1.0网络爬虫程序
---用户开发手册
编写人：王建华（rimen/jerry）
编写目的：基于sosoo定制web spider程序的编程人员。
目录

一：安装sosoo 2
二：功能定制 2
1．基本功能参数的设置。 2
2．配置机器人对url的检查 3
3：实现文件管理。 4
4．定制html文档下载规则。 4
5．设置对下载后http文档的过滤处理 5
6．启用机器人运行期监控。 5
7．启用对http协议分析的监控。 5
三：sosoo描述 6
四：应用开发指南 6
1．Roboter类，spider程序的主类。 6
2．TaskList接口，解决对处理任务的存储。 7
3．Http客户端实现。 7
4．实现网页存储或处理 7
5．实现运行期的监控 8
五．程序例子 9
六．参考依赖 10

一：安装sosoo
sosoo提供的是一个sosoo-core.jar包，其中并没有提供可运行的程序入口。如果要使用可以通过src中的examples进行体验。开发者可以基于在这上开发出基于UI,j2ee等spider程序
把sosoo-core包加入到你应用的classpath中。
Sosoo 提供一个线程类的来代表一个机器人com.sosoo.robot.spider. Roboter。
通过一个测试类
   public static void main(String[] args)
    throws Exception
   {
    Roboter robby = new Roboter();
robby.setStartURL(new URL("http://10.25.101.173:7001/pa18Web/framework/images/framevork_04.gif"));
    robby.setMaxDepth(0);   //设置最大连接访问深度
    robby.setSleepTime(0);
robby.setWalkToOtherHosts(true);
robby.run();      //启动
}
这样就启动了一个spider程序,sosoo将根据你对javaBean参数的设置进行对网络上html
的抓取.
停止机器人.
robot.stopRobot();
二：功能定制
Sosoo利用回调的方式实现了aop，用户可以通过回调的方式注入javaBean对象，以实现其外部功能
1．基本功能参数的设置。
基本功能指： roboter的原生类型参数（或String），例如：startURL，maxDepth等。

设置开始处理的url【startURL】：必须参数，roboter会根据这个地址开始在网络上进行查找。
robby.setStartURL(URL url)；

设置从开始路径能找的最大深度【maxDepth】：程序会判断当前处理的链接深度是否超过最大链接深度，如果超过这个链接将忽略，当然你可以通过设置depthIsEffect来屏蔽这个功能。默认值为1。
robby.setMaxDepth(0);

设置处理文档的时间间隔【sleepTime】：当处理完一个url时，设置这个间隔时间处理下一个url。单位为s，默认值为60，推荐使用5s。
robby.setSleepTime(0);

设置http连接超时时间：在连接服务器时，可能由于网络或者本身服务的原因，可
能会出现超时的情况，通过设置超时时间来限制对某个url连接的最大时间，这样就可以提高处理的速度，但是如果这个值设置太小，可能很多连接都会连接不到，建议使用大于30的值，默认为60s。
robby.setUrlConnectTimeOut(30);

停止robby线程【stopIt】：你可以通过对robby对象进行操作来停止当前的线程。
robby.stopRobot();

暂停robby线程【sleep】：可以对当前运行的robby线程进行暂停。
robby.setSleep(true);
2．配置机器人对url的检查
sosoo spider会根据用户的设置把收集到url列表中过滤掉不符合条件的url。
过滤的顺序：walkToOtherHosts-allowWholeHost-flexibleHostCheck-
allowWholeDomain-用户提供url列表。

设置是否访问其他的主机【walkToOtherHosts】：如果你需要进行整个互联网的搜索，而不限于你开始提供的url中的主机，把这个参数设置为true。默认为false。

robby.setWalkToOtherHosts(true);

设置是否访问本主机【allowWholeHost】：如果你只想要对开始url代表的主机进行访问，你可以通过设置这个参数进行过滤url。
robby.setAllowWholeHost(true);

设置非www开始的主机【flexibleHostCheck】：当你提供的开始url，不是以www开头，你可以通过设置flexibleHostCheck参数来达到访问本主机的目的。
robby.setFlexibleHostCheck(true);

设置是否访问本域【allowWholeDomain】：如果你只想要对开始url代表的域进行访问，你可以通过设置下面这个参数进行过滤url。
robby.setAllowWholeDomain(true);

设置要访问的url列表【allowedURLs】：这是一个Vector类型的变量，用户可以把这些url放在配置文件中，用户可以在运行时提供这个变量。
robby.setAllowedURLs(allowed)；

定制url检查规则【URLCheck】：用户除了通过上面的规则进行url过滤，用户还可以通过实现urlCheck接口来进行url检测。系统已经提供了RegExpURLCheck实现。提供对properties文件的支持。
robby.setURLCheck(check);

设置是否要找网站跟目录下的/robot.txt文件【ignoreRobotsTxt】：用户可以通过设置这个值来忽略网站提供对robot的支持。默认为false
robby.setIgnoreRobotsTxt(true);

设置url可以重复访问【visitMany】：系统提供了一个访问过的列表缓存，当spider程序发现这个url已经访问过，他将不进行这个url的处理。可以通过这个参数来定制可以重复访问的url列表，这是一个Vector类型。
robby.setVisitMany(visitMany);

设置spider客户端的【proxy】：spider可以通过代理连接internate，但是目前只支持匿名的代理服务器。
robby.setProxy("10.16.111.5:80");
3：实现文件管理。
Spider程序下载url对应的html文档的时候，系统提供一个回调接口HttpDocManager。你可以通过的持接口的实现，把spider获得html数据进行存储，例如你可以把这些文件以文本流存入数据库，存入文件系统等。系统提供了HttpDocToFile实现，把下载的文件存入文件系统。你可以在启动spider程序的时候通过robby.setDocManager(dm);进行注入管理对象。
4．定制html文档下载规则。
当你对各种html文件的格式处理有要求的时候，例如你觉得下载exe,rar文件比较
慢的时候，你可以通过自己的需求定制下载规则。通过实现HttpDownloadCheck
接口可以设定下载的规则。
DownloadRuleSet rules=new DownloadRuleSet("downrules.properties");
robby.setDownloadRuleSet(rules);

系统已经提供了DownloadRuleSet实现，这个是想通过classpath properties来定义下载规则.
文件的内容：
# the file must contain two field,allow[deny] and MIME Type/sub type
# allow stand for if the doc match the conditions,will down the file
# deny stand for if the doc match the conditions,will not down the file
# < size ,express the doc content byte size is smaller than the value
# > size ,express the doc contact byte size is larger than the value
# can't hold out the >= or <=
# the scope of size is optional.
allow image/gif <100000 >10000000
deny image/gif <100000 >10000000
当然你可以自定义自己的实现，只要实现HttpDownloadCheck的boolean
downloadAllowed(Vector httpHeaders) ;方法。
注意：如果这个文档没有下载，这个文档中的连接将不能进行处理，所以一般不建
议过滤掉text/html.

5．设置对下载后http文档的过滤处理
下载文档后，用户可以对这个doc对象进行一系列的处理。Spider提供了一个
FilterChain类。用户可以把自己过滤器加入FilterChain中。
你可以实现DocumentFilter接口定制自己的功能，系统实现提供了一个LinkLocalizer实现，用于替换相对连接。
    FilterChain filters=new FilterChain();
    DocumentFilter filter=new LinkLocalizer();
    filters.add(filter);
    robby.setFilters(filters);
6．启用机器人运行期监控。
当启动spider程序后，程序利用回调接口提供给用户运行期的状态。例如你要要显示机器人对应的处理过的任务，处理中的任务，处理是的状态。通过实现RobotCallback接口来实现，当然你也可以直接取roboter对象的属性来监控。
系统提供RobotMonitor实现，用户打印在cosole上运行期的状态。

RobotCallback monitor=new Monitor();
robby.setWebRobotCallback(monitor);

7．启用对http协议分析的监控。
Spdier循环处理缓存中未处理的url，对于每个url的处理，系统提供一些监控方
法。当然你只要实现HttpToolCallback接口。系统提供了SystemOutHttpToolCallback实现。
HttpToolCallback toolMonitor=new SystemOutHttpToolCallback();
robby.setHttpToolCallback(toolMonitor);
三：sosoo描述
Sosoo是参考jobo提供的核心算法。利用对访问的历史记录存储来替换spider的递归算
法。在处理的效率上有不错的体验，但是它也是牺牲存储为代价的。在程序启动是，系
统将建立两个Vector数组对访问url进行记录。因此sosoo并不使用于大数据量信息抓取，但是对于行业网站，中小企业绝对足够。

目前sosoo提供的处理功能：
支持跨域跨主机的访问
支持多种文件格式的下载
支持对html中连接的递归处理
支持http1.1协议但不支持1.0
支持匿名代理(http)，但不知道需要验证代理。

待扩展的功能：
提供全功能http协议处理
提供javasript的支持
提供表单from的处理支持
提供对ftp协议的支持
提供全方位的代理（http,sock等）支持。
完善系统监控功能
加强对html文档的信息处理能力
提供各种文件类型的处理工具
提供对rss的支持

四：应用开发指南
sosoo提供很强的编程扩展,很容易把他集成到你的j2ee项目中。在中小型搜索引擎中，
特别对某一些特定的行业网站的数据进行分析时，Sosoo提供方便和安全的解决方案。
通过上述对功能的定制，我们可以看到在应用中我们对sosoo的编程接口并不多，而且目前系统都是基于set的方式注入aop注入对象，这样很容易和spring等基于set方式的依赖注入（IOC）框架集成。
1．Roboter类，spider程序的主类。
当你需要把sosoo应用到你的应用中时，roboter提供一个基于线程的工具类。它体可在程序中启动，暂停，退出一个spdier程序。这个类有sosoo提供，并不支持扩展，它标识spider的主体。它是整个spider程序所有功能的入口，包括回调功能，都是通过set方式注入到roboter中。
com.sosoo.robot.spider.Roboter
例如你要启动一个spider线程：

    Roboter robby = new Roboter();
robby.setStartURL(new URL("http://10.25.101.173:7001/pa18Web/framework/images/framevork_04.gif"));
    robby.setMaxDepth(0);   //设置最大连接访问深度
    robby.setSleepTime(0);
robby.setWalkToOtherHosts(true);
robby.run();      //启动
2．TaskList接口，解决对处理任务的存储。
对于sosoo而言，每个url对于一个任务。系统已经提供其默认的实现，你可以根据自己的需求实现这个接口。然后在启动spdier的时候用register方法进行注册。
robby .registerVisitedList(new HashedMemoryTaskList(false));
robby .registerToDoList(new HashedMemoryTaskList());
com.sosoo.robot.spider.TaskList
主要解决是对com.sosoo.robot.spider.RobotTask对象的存储。和常用的操作方
法，例如删除，
添加，查找等。具体参见@JAVADOC
3．Http客户端实现。
目前对sosoo1.0客户端而言，主要的用途就是提供模拟浏览器进行对http文档的获取。同时把他转换为HttpDoc对象。同时对http请求资源的管理，例如cookie管理。
Sosoo主要是通过com.sosoo.robot.http.HttpTool工具类来提供此工能。你也可以自己定制更优化的处理方案替换，同样通过register方法进行注册。由于重载这个工具需要对http协议有深刻的连接，一般不建议替换系统的实现。
Robby.RegisterHttpParser(new HttpTool);
4．实现网页存储或处理
当spider程序下载完以后，spider会用docManager管理其和filter来处理html文档和其内容。
HttpDocManager接口主要用来对HttpDoc对象的管理，例如把它存储在文件系统，或存入数据库等。系统提供了实现HttpDocToFile用来把HttpDoc对象存放在在文件系统中。
FilterChain主要用来进行httpDoc内容的一系列过滤功能。例如你主要取其中的某些信息。或者替换其中某些内容。它是实现了一个数组存储，你可以根据自己的需求加入多个实现DocumentFilter接口的对象，系统提供了一个实现LinkLocalizer，用来替换其中的相对连接。

系统先进行filter处理，然后在进行HttpDocManager

具体编程参考@javadoc

5．实现运行期的监控
Sosoo提供了两个监控的接口。用户可以实现这写接口的某些或全部方法，达到载
运行期内某些状态的监控。
Spider监控：com.sosoo.robot.spider.RobotCallback
主要提供文档的处理，spider的睡眠，spider当前任务的监控。
void webRobotRetrievedDoc(String url, int size);
//实现对获取url对应的HttpDoc对象的监控
void webRobotUpdateQueueStatus(int length);
//实现当前处理任务的监控
void webRobotDone();
//处理完成
void webRobotSleeping(boolean sleeping);
//spider暂停
http分析监控：com.sosoo.robot.http.HttpToolCallback
/**
   * After initiating a download, this method will be called to
   * inform about the URL that will be retrieved
   * @param URL url that will be retrieved now
   */
void setHttpToolDocUrl(String url);

/**
   * After HttpTool got a Content-Length header
   * this method will be called to inform about the size of
   * the document to retrieve
   * @param size document size in
   */
void setHttpToolDocSize(int size);

/**
   * after a block of bytes was read (default after every 1024 bytes,
   * this method will be called
   * @param size the number of bytes that where retrieved
   */
void setHttpToolDocCurrentSize(int size);

/**
   * informs about the current status of the HttpTool
   * @param status an integer describing the current status
   * constants defined in HttpTool
   * @see HttpTool
   */
void setHttpToolStatus(int status);
系统提供了SystemOutHttpToolCallback默认实现。
五．程序例子
package com.sosoo.robot.examples;

/*********************************************
Copyright (c) 2005 by rimen sosoo
*********************************************/

import java.net.URL;

import com.sosoo.robot.http.DownloadRuleSet;
import com.sosoo.robot.http.HttpDocManager;
import com.sosoo.robot.http.HttpDocToBean;
import com.sosoo.robot.http.HttpToolCallback;
import com.sosoo.robot.http.SystemOutHttpToolCallback;
import com.sosoo.robot.spider.RobotCallback;
import com.sosoo.robot.spider.RobotMonitor;
import com.sosoo.robot.spider.Roboter;
import com.sosoo.robot.spider.docfilter.DocumentFilter;
import com.sosoo.robot.spider.docfilter.FilterChain;
import com.sosoo.robot.spider.docfilter.LinkLocalizer;

/**
* This example program downloads a web page. It does not
* store the documents but only logs the visited URLs.
*
* @author jerry[wangjianhua] sosoo
* @version $Revision: 1.1 $
*/
public class SpiderMain {

public static void main(String[] args)
throws Exception
{
System.out.println("URLs will be logged to urls.txt/n/n");

    Roboter robby =new Roboter();
    System.out.println(robby);
    robby.setStartURL(new URL("http://www.sina.com.cn/"));
    robby.setMaxDepth(0);
    robby.setDepthIsEffect(true);
    robby.setSleepTime(0);
    robby.setIgnoreRobotsTxt(true);
    robby.setWalkToOtherHosts(true);

    FilterChain filters=new FilterChain();
    DocumentFilter filter=new LinkLocalizer();
    filters.add(filter);
    //html流过滤器

    DownloadRuleSet rules=new DownloadRuleSet("downrules.properties");
    HttpDocManager dm = new HttpDocToBean();
    //进行文档管理，可以存放在数据库也可以存放在本地。

    RobotCallback monitor=new RobotMonitor();
    HttpToolCallback toolMonitor=new SystemOutHttpToolCallback();

    robby.setDocManager(dm);
    robby.setDownloadRuleSet(rules);
    robby.setFilters(filters);
    robby.setWebRobotCallback(monitor);
    robby.setHttpToolCallback(toolMonitor);

    robby.run(); //启动

}
}

六．参考依赖
Jobo spider实现
Tidy html解析器
Log4j日志记录器
Apach 提供的正值表达式操作器

王建华Mail: [email protected]
王建华Blog: http://jerry_blog.blogcn.com

LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
Git常用命令－修改远程仓库地址猿大师 Linux Java git java
查看远程仓库地址gitremote-v返回结果originhttps://git.coding.net/＊＊＊＊＊.git(fetch)originhttps://git.coding.net/＊＊＊＊＊.git(push)修改远程仓库地址gitremoteset-urloriginhttps://git.coding.net/＊＊＊＊＊.git先删除后增加远程仓库地址gitremotermori
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Some jenkins settings SnC_
Jenkins连接到特定gitlabproject的特定branch我采用的方法是在pipeline的script中使用git命令来指定branch。如下：stage('Clonerepository'){steps{gitbranch:'develop',credentialsId:'gitlab-credential-id',url:'http://gitlab.com/repo.git'}}
Linux sh命令 fengyehongWorld Linux linux
目录一.基本语法二.选项2.1-c字符串中读取内容，并执行2.1.1基本用法2.1.2获取当前目录下失效的超链接2.2-x每个命令执行之前，将其打印出来2.3结合Here文档使用一.基本语法⏹Linux和Unix系统中用于执行shell脚本或运行命令的命令。sh[选项][脚本文件][参数...]⏹选项-c：从字符串中读取内容，并执行。-x：在每个命令执行之前，将其打印出来。-s：从标准流中读取内容
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
Linux vi常用命令 fengyehongWorld Linux linux
参考资料viコマンド（vimコマンド）リファレンス目录一.保存系命令二.删除系命令三.移动系命令四.复制粘贴系命令一.保存系命令⏹保存并退出:wq⏹强制保存并退出:wq!⏹退出(文件未编辑):q⏹强制退出(忽略已编辑内容):q!⏹另存为:w新文件名二.删除系命令⏹删除当前行dd⏹清空整个文档gg：移动到文档顶部dG：删除到最后一行ggdG三.移动系命令⏹移动到文档顶部gg⏹移动到文档底部#方式1G
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
2020-8-19晨间日记：看过的电影盐大虾
今天是周三起床：6点半就寝：11点天气：晴心情：正常纪念日：周三任务清单今日完成的任务，最重要的三件事：1.整理写过的文档2.电影《电灯泡》3.这就是街舞第三季第五期改进：早睡早起习惯养成：早睡早起，看书周目标·完成进度两篇文章学习·信息·阅读电影艺术发展史相关教材健康·饮食·锻炼吃了挺多零食，还喝了果粒橙，还是得少吃，多锻炼，不然会慢慢死掉的。人际·家人·朋友淡定交流，不放在心上。工作·思考专心
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
python批量读取tiff文件_Python Pillow批量转换tif格式到jpg weixin_39557797
最近因为想要整下网站的壁纸，从网站下载了别人整理好的合集压缩包，解压之后，却发现里面的文件都是tif的，tif格式网站和电脑都不认的，根本不能作壁纸。这时候，就需要转换图片格式了，首先我找了几款转换格式的软件，发现效果都不好，要不是不支持tif格式，要不就是转换出来的图片糊的不行。最终，还是决定用Python的Pillow库来写一个脚本，完成这个任务。下面是整个的小脚本----importosim
react-intl——react国际化使用方案苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
国际化介绍i18n：internationalization国家化简称，首字母+首尾字母间隔的字母个数+尾字母，类似的还有k8s(Kubernetes)React-intl是React中最受欢迎的库。使用步骤安装#usenpmnpminstallreact-intl-D#useyarn项目入口文件配置//index.tsximportReactfrom"react";importReactDOMf
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
Spring Boot中实现跨域请求 BABA8891 spring boot 后端 java
在SpringBoot中实现跨域请求（CORS，Cross-OriginResourceSharing）可以通过多种方式，以下是几种常见的方法：1.使用@CrossOrigin注解在SpringBoot中，你可以在控制器或者具体的请求处理方法上使用@CrossOrigin注解来允许跨域请求。在控制器上应用：importorg.springframework.web.bind.annotation.
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

【转】泰然处之，网络爬虫程序实例

你可能感兴趣的:(vector,filter,url,文档,import,网络爬虫)