hailang99

Sosoo 1.0网络爬虫程序

Sosoo 1.0网络爬虫程序
---用户开发手册
编写人：王建华（rimen/jerry）
编写目的：基于sosoo定制web spider程序的编程人员。
目录

一：安装sosoo 2
二：功能定制 2
1．基本功能参数的设置。 2
2．配置机器人对url的检查 3
3：实现文件管理。 4
4．定制html文档下载规则。 4
5．设置对下载后http文档的过滤处理 5
6．启用机器人运行期监控。 5
7．启用对http协议分析的监控。 5
三：sosoo描述 6
四：应用开发指南 6
1．Roboter类，spider程序的主类。 6
2．TaskList接口，解决对处理任务的存储。 7
3．Http客户端实现。 7
4．实现网页存储或处理 7
5．实现运行期的监控 8
五．程序例子 9
六．参考依赖 10

一：安装sosoo
sosoo提供的是一个sosoo-core.jar包，其中并没有提供可运行的程序入口。如果要使用可以通过src中的examples进行体验。开发者可以基于在这上开发出基于UI,j2ee等spider程序
把sosoo-core包加入到你应用的classpath中。
Sosoo 提供一个线程类的来代表一个机器人com.sosoo.robot.spider. Roboter。
通过一个测试类
   public static void main(String[] args)
    throws Exception
   {
    Roboter robby = new Roboter();
robby.setStartURL(new URL("http://10.25.101.173:7001/pa18Web/framework/images/framevork_04.gif"));
    robby.setMaxDepth(0);   //设置最大连接访问深度
    robby.setSleepTime(0);
robby.setWalkToOtherHosts(true);
robby.run();      //启动
}
这样就启动了一个spider程序,sosoo将根据你对javaBean参数的设置进行对网络上html
的抓取.
停止机器人.
robot.stopRobot();
二：功能定制
Sosoo利用回调的方式实现了aop，用户可以通过回调的方式注入javaBean对象，以实现其外部功能
1．基本功能参数的设置。
基本功能指： roboter的原生类型参数（或String），例如：startURL，maxDepth等。

设置开始处理的url【startURL】：必须参数，roboter会根据这个地址开始在网络上进行查找。
robby.setStartURL(URL url)；

设置从开始路径能找的最大深度【maxDepth】：程序会判断当前处理的链接深度是否超过最大链接深度，如果超过这个链接将忽略，当然你可以通过设置depthIsEffect来屏蔽这个功能。默认值为1。
robby.setMaxDepth(0);

设置处理文档的时间间隔【sleepTime】：当处理完一个url时，设置这个间隔时间处理下一个url。单位为s，默认值为60，推荐使用5s。
robby.setSleepTime(0);

设置http连接超时时间：在连接服务器时，可能由于网络或者本身服务的原因，可
能会出现超时的情况，通过设置超时时间来限制对某个url连接的最大时间，这样就可以提高处理的速度，但是如果这个值设置太小，可能很多连接都会连接不到，建议使用大于30的值，默认为60s。
robby.setUrlConnectTimeOut(30);

停止robby线程【stopIt】：你可以通过对robby对象进行操作来停止当前的线程。
robby.stopRobot();

暂停robby线程【sleep】：可以对当前运行的robby线程进行暂停。
robby.setSleep(true);
2．配置机器人对url的检查
sosoo spider会根据用户的设置把收集到url列表中过滤掉不符合条件的url。
过滤的顺序：walkToOtherHosts-allowWholeHost-flexibleHostCheck-
allowWholeDomain-用户提供url列表。

设置是否访问其他的主机【walkToOtherHosts】：如果你需要进行整个互联网的搜索，而不限于你开始提供的url中的主机，把这个参数设置为true。默认为false。

robby.setWalkToOtherHosts(true);

设置是否访问本主机【allowWholeHost】：如果你只想要对开始url代表的主机进行访问，你可以通过设置这个参数进行过滤url。
robby.setAllowWholeHost(true);

设置非www开始的主机【flexibleHostCheck】：当你提供的开始url，不是以www开头，你可以通过设置flexibleHostCheck参数来达到访问本主机的目的。
robby.setFlexibleHostCheck(true);

设置是否访问本域【allowWholeDomain】：如果你只想要对开始url代表的域进行访问，你可以通过设置下面这个参数进行过滤url。
robby.setAllowWholeDomain(true);

设置要访问的url列表【allowedURLs】：这是一个Vector类型的变量，用户可以把这些url放在配置文件中，用户可以在运行时提供这个变量。
robby.setAllowedURLs(allowed)；

定制url检查规则【URLCheck】：用户除了通过上面的规则进行url过滤，用户还可以通过实现urlCheck接口来进行url检测。系统已经提供了RegExpURLCheck实现。提供对properties文件的支持。
robby.setURLCheck(check);

设置是否要找网站跟目录下的/robot.txt文件【ignoreRobotsTxt】：用户可以通过设置这个值来忽略网站提供对robot的支持。默认为false
robby.setIgnoreRobotsTxt(true);

设置url可以重复访问【visitMany】：系统提供了一个访问过的列表缓存，当spider程序发现这个url已经访问过，他将不进行这个url的处理。可以通过这个参数来定制可以重复访问的url列表，这是一个Vector类型。
robby.setVisitMany(visitMany);

设置spider客户端的【proxy】：spider可以通过代理连接internate，但是目前只支持匿名的代理服务器。
robby.setProxy("10.16.111.5:80");
3：实现文件管理。
Spider程序下载url对应的html文档的时候，系统提供一个回调接口HttpDocManager。你可以通过的持接口的实现，把spider获得html数据进行存储，例如你可以把这些文件以文本流存入数据库，存入文件系统等。系统提供了HttpDocToFile实现，把下载的文件存入文件系统。你可以在启动spider程序的时候通过robby.setDocManager(dm);进行注入管理对象。
4．定制html文档下载规则。
当你对各种html文件的格式处理有要求的时候，例如你觉得下载exe,rar文件比较
慢的时候，你可以通过自己的需求定制下载规则。通过实现HttpDownloadCheck
接口可以设定下载的规则。
DownloadRuleSet rules=new DownloadRuleSet("downrules.properties");
robby.setDownloadRuleSet(rules);

系统已经提供了DownloadRuleSet实现，这个是想通过classpath properties来定义下载规则.
文件的内容：
# the file must contain two field,allow[deny] and MIME Type/sub type
# allow stand for if the doc match the conditions,will down the file
# deny stand for if the doc match the conditions,will not down the file
# < size ,express the doc content byte size is smaller than the value
# > size ,express the doc contact byte size is larger than the value
# can't hold out the >= or <=
# the scope of size is optional.
allow image/gif <100000 >10000000
deny image/gif <100000 >10000000
当然你可以自定义自己的实现，只要实现HttpDownloadCheck的boolean
downloadAllowed(Vector httpHeaders) ;方法。
注意：如果这个文档没有下载，这个文档中的连接将不能进行处理，所以一般不建
议过滤掉text/html.

5．设置对下载后http文档的过滤处理
下载文档后，用户可以对这个doc对象进行一系列的处理。Spider提供了一个
FilterChain类。用户可以把自己过滤器加入FilterChain中。
你可以实现DocumentFilter接口定制自己的功能，系统实现提供了一个LinkLocalizer实现，用于替换相对连接。
    FilterChain filters=new FilterChain();
    DocumentFilter filter=new LinkLocalizer();
    filters.add(filter);
    robby.setFilters(filters);
6．启用机器人运行期监控。
当启动spider程序后，程序利用回调接口提供给用户运行期的状态。例如你要要显示机器人对应的处理过的任务，处理中的任务，处理是的状态。通过实现RobotCallback接口来实现，当然你也可以直接取roboter对象的属性来监控。
系统提供RobotMonitor实现，用户打印在cosole上运行期的状态。

RobotCallback monitor=new Monitor();
robby.setWebRobotCallback(monitor);

7．启用对http协议分析的监控。
Spdier循环处理缓存中未处理的url，对于每个url的处理，系统提供一些监控方
法。当然你只要实现HttpToolCallback接口。系统提供了SystemOutHttpToolCallback实现。
HttpToolCallback toolMonitor=new SystemOutHttpToolCallback();
robby.setHttpToolCallback(toolMonitor);
三：sosoo描述
Sosoo是参考jobo提供的核心算法。利用对访问的历史记录存储来替换spider的递归算
法。在处理的效率上有不错的体验，但是它也是牺牲存储为代价的。在程序启动是，系
统将建立两个Vector数组对访问url进行记录。因此sosoo并不使用于大数据量信息抓取，但是对于行业网站，中小企业绝对足够。

目前sosoo提供的处理功能：
支持跨域跨主机的访问
支持多种文件格式的下载
支持对html中连接的递归处理
支持http1.1协议但不支持1.0
支持匿名代理(http)，但不知道需要验证代理。

待扩展的功能：
提供全功能http协议处理
提供javasript的支持
提供表单from的处理支持
提供对ftp协议的支持
提供全方位的代理（http,sock等）支持。
完善系统监控功能
加强对html文档的信息处理能力
提供各种文件类型的处理工具
提供对rss的支持

四：应用开发指南
sosoo提供很强的编程扩展,很容易把他集成到你的j2ee项目中。在中小型搜索引擎中，
特别对某一些特定的行业网站的数据进行分析时，Sosoo提供方便和安全的解决方案。
通过上述对功能的定制，我们可以看到在应用中我们对sosoo的编程接口并不多，而且目前系统都是基于set的方式注入aop注入对象，这样很容易和spring等基于set方式的依赖注入（IOC）框架集成。
1．Roboter类，spider程序的主类。
当你需要把sosoo应用到你的应用中时，roboter提供一个基于线程的工具类。它体可在程序中启动，暂停，退出一个spdier程序。这个类有sosoo提供，并不支持扩展，它标识spider的主体。它是整个spider程序所有功能的入口，包括回调功能，都是通过set方式注入到roboter中。
com.sosoo.robot.spider.Roboter
例如你要启动一个spider线程：

    Roboter robby = new Roboter();
robby.setStartURL(new URL("http://10.25.101.173:7001/pa18Web/framework/images/framevork_04.gif"));
    robby.setMaxDepth(0);   //设置最大连接访问深度
    robby.setSleepTime(0);
robby.setWalkToOtherHosts(true);
robby.run();      //启动
2．TaskList接口，解决对处理任务的存储。
对于sosoo而言，每个url对于一个任务。系统已经提供其默认的实现，你可以根据自己的需求实现这个接口。然后在启动spdier的时候用register方法进行注册。
robby .registerVisitedList(new HashedMemoryTaskList(false));
robby .registerToDoList(new HashedMemoryTaskList());
com.sosoo.robot.spider.TaskList
主要解决是对com.sosoo.robot.spider.RobotTask对象的存储。和常用的操作方
法，例如删除，
添加，查找等。具体参见@JAVADOC
3．Http客户端实现。
目前对sosoo1.0客户端而言，主要的用途就是提供模拟浏览器进行对http文档的获取。同时把他转换为HttpDoc对象。同时对http请求资源的管理，例如cookie管理。
Sosoo主要是通过com.sosoo.robot.http.HttpTool工具类来提供此工能。你也可以自己定制更优化的处理方案替换，同样通过register方法进行注册。由于重载这个工具需要对http协议有深刻的连接，一般不建议替换系统的实现。
Robby.RegisterHttpParser(new HttpTool);
4．实现网页存储或处理
当spider程序下载完以后，spider会用docManager管理其和filter来处理html文档和其内容。
HttpDocManager接口主要用来对HttpDoc对象的管理，例如把它存储在文件系统，或存入数据库等。系统提供了实现HttpDocToFile用来把HttpDoc对象存放在在文件系统中。
FilterChain主要用来进行httpDoc内容的一系列过滤功能。例如你主要取其中的某些信息。或者替换其中某些内容。它是实现了一个数组存储，你可以根据自己的需求加入多个实现DocumentFilter接口的对象，系统提供了一个实现LinkLocalizer，用来替换其中的相对连接。

系统先进行filter处理，然后在进行HttpDocManager

具体编程参考@javadoc

5．实现运行期的监控
Sosoo提供了两个监控的接口。用户可以实现这写接口的某些或全部方法，达到载
运行期内某些状态的监控。
Spider监控：com.sosoo.robot.spider.RobotCallback
主要提供文档的处理，spider的睡眠，spider当前任务的监控。
void webRobotRetrievedDoc(String url, int size);
//实现对获取url对应的HttpDoc对象的监控
void webRobotUpdateQueueStatus(int length);
//实现当前处理任务的监控
void webRobotDone();
//处理完成
void webRobotSleeping(boolean sleeping);
//spider暂停
http分析监控：com.sosoo.robot.http.HttpToolCallback
/**
   * After initiating a download, this method will be called to
   * inform about the URL that will be retrieved
   * @param URL url that will be retrieved now
   */
void setHttpToolDocUrl(String url);

/**
   * After HttpTool got a Content-Length header
   * this method will be called to inform about the size of
   * the document to retrieve
   * @param size document size in
   */
void setHttpToolDocSize(int size);

/**
   * after a block of bytes was read (default after every 1024 bytes,
   * this method will be called
   * @param size the number of bytes that where retrieved
   */
void setHttpToolDocCurrentSize(int size);

/**
   * informs about the current status of the HttpTool
   * @param status an integer describing the current status
   * constants defined in HttpTool
   * @see HttpTool
   */
void setHttpToolStatus(int status);
系统提供了SystemOutHttpToolCallback默认实现。
五．程序例子
package com.sosoo.robot.examples;

/*********************************************
Copyright (c) 2005 by rimen sosoo
*********************************************/

import java.net.URL;

import com.sosoo.robot.http.DownloadRuleSet;
import com.sosoo.robot.http.HttpDocManager;
import com.sosoo.robot.http.HttpDocToBean;
import com.sosoo.robot.http.HttpToolCallback;
import com.sosoo.robot.http.SystemOutHttpToolCallback;
import com.sosoo.robot.spider.RobotCallback;
import com.sosoo.robot.spider.RobotMonitor;
import com.sosoo.robot.spider.Roboter;
import com.sosoo.robot.spider.docfilter.DocumentFilter;
import com.sosoo.robot.spider.docfilter.FilterChain;
import com.sosoo.robot.spider.docfilter.LinkLocalizer;

/**
* This example program downloads a web page. It does not
* store the documents but only logs the visited URLs.
*
* @author jerry[wangjianhua] sosoo
* @version $Revision: 1.1 $
*/
public class SpiderMain {

public static void main(String[] args)
throws Exception
{
System.out.println("URLs will be logged to urls.txt/n/n");

    Roboter robby =new Roboter();
    System.out.println(robby);
    robby.setStartURL(new URL("http://www.sina.com.cn/"));
    robby.setMaxDepth(0);
    robby.setDepthIsEffect(true);
    robby.setSleepTime(0);
    robby.setIgnoreRobotsTxt(true);
    robby.setWalkToOtherHosts(true);

    FilterChain filters=new FilterChain();
    DocumentFilter filter=new LinkLocalizer();
    filters.add(filter);
    //html流过滤器

    DownloadRuleSet rules=new DownloadRuleSet("downrules.properties");
    HttpDocManager dm = new HttpDocToBean();
    //进行文档管理，可以存放在数据库也可以存放在本地。

    RobotCallback monitor=new RobotMonitor();
    HttpToolCallback toolMonitor=new SystemOutHttpToolCallback();

    robby.setDocManager(dm);
    robby.setDownloadRuleSet(rules);
    robby.setFilters(filters);
    robby.setWebRobotCallback(monitor);
    robby.setHttpToolCallback(toolMonitor);

    robby.run(); //启动

}
}

六．参考依赖
Jobo spider实现
Tidy html解析器
Log4j日志记录器
Apach 提供的正值表达式操作器

LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
Git常用命令－修改远程仓库地址猿大师 Linux Java git java
查看远程仓库地址gitremote-v返回结果originhttps://git.coding.net/＊＊＊＊＊.git(fetch)originhttps://git.coding.net/＊＊＊＊＊.git(push)修改远程仓库地址gitremoteset-urloriginhttps://git.coding.net/＊＊＊＊＊.git先删除后增加远程仓库地址gitremotermori
Day17笔记-高阶函数 ~在杰难逃~ Python 笔记 python 开发语言 pycharm 数据分析
高阶函数【重点掌握】函数的本质：函数是一个变量，函数名是一个变量名，一个函数可以作为另一个函数的参数或返回值使用如果A函数作为B函数的参数，B函数调用完成之后，会得到一个结果，则B函数被称为高阶函数常用的高阶函数：map(),reduce(),filter(),sorted()1.map()map(func,iterable)，返回值是一个iterator【容器，迭代器】func:函数iterab
webpack图片等资源的处理 dmengmeng
需要的loaderfile-loader（让我们可以引入这些资源文件）url-loader（其实是file-loader的二次封装）img-loader（处理图片所需要的）在没有使用任何处理图片的loader之前，比如说css中用到了背景图片，那么最后打包会报错的，因为他没办法处理图片。其实你只想能够使用图片的话。只加一个file-loader就可以，打开网页能准确看到图片。{test:/\.(p
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
Some jenkins settings SnC_
Jenkins连接到特定gitlabproject的特定branch我采用的方法是在pipeline的script中使用git命令来指定branch。如下：stage('Clonerepository'){steps{gitbranch:'develop',credentialsId:'gitlab-credential-id',url:'http://gitlab.com/repo.git'}}
Linux sh命令 fengyehongWorld Linux linux
目录一.基本语法二.选项2.1-c字符串中读取内容，并执行2.1.1基本用法2.1.2获取当前目录下失效的超链接2.2-x每个命令执行之前，将其打印出来2.3结合Here文档使用一.基本语法⏹Linux和Unix系统中用于执行shell脚本或运行命令的命令。sh[选项][脚本文件][参数...]⏹选项-c：从字符串中读取内容，并执行。-x：在每个命令执行之前，将其打印出来。-s：从标准流中读取内容
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
Linux vi常用命令 fengyehongWorld Linux linux
参考资料viコマンド（vimコマンド）リファレンス目录一.保存系命令二.删除系命令三.移动系命令四.复制粘贴系命令一.保存系命令⏹保存并退出:wq⏹强制保存并退出:wq!⏹退出(文件未编辑):q⏹强制退出(忽略已编辑内容):q!⏹另存为:w新文件名二.删除系命令⏹删除当前行dd⏹清空整个文档gg：移动到文档顶部dG：删除到最后一行ggdG三.移动系命令⏹移动到文档顶部gg⏹移动到文档底部#方式1G
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
基于Python给出的PDF文档转Markdown文档的方法程序媛了了 python pdf 开发语言
注：网上有很多将Markdown文档转为PDF文档的方法，但是却很少有将PDF文档转为Markdown文档的方法。就算有，比如某些网站声称可以将PDF文档转为Markdown文档，尝试过，不太符合自己的要求，而且无法保证文档没有泄露风险。于是本人为了解决这个问题，借助GPT（能使用GPT镜像或者有条件直接使用GPT的，反正能调用GPT接口就行）生成Python代码来完成这个功能。笔记、代码难免存在
2020-8-19晨间日记：看过的电影盐大虾
今天是周三起床：6点半就寝：11点天气：晴心情：正常纪念日：周三任务清单今日完成的任务，最重要的三件事：1.整理写过的文档2.电影《电灯泡》3.这就是街舞第三季第五期改进：早睡早起习惯养成：早睡早起，看书周目标·完成进度两篇文章学习·信息·阅读电影艺术发展史相关教材健康·饮食·锻炼吃了挺多零食，还喝了果粒橙，还是得少吃，多锻炼，不然会慢慢死掉的。人际·家人·朋友淡定交流，不放在心上。工作·思考专心
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
python怎么将png转为tif_png转tif weixin_39977276
发国外的文章要求图片是tif，cmyk色彩空间的。大小尺寸还有要求。比如网上大神多，找到了一段代码，感谢！https://www.jianshu.com/p/ec2af4311f56https://github.com/KevinZc007/image2Tifimportjava.awt.image.BufferedImage;importjava.io.File;importjava.io.Fi
python批量读取tiff文件_Python Pillow批量转换tif格式到jpg weixin_39557797
最近因为想要整下网站的壁纸，从网站下载了别人整理好的合集压缩包，解压之后，却发现里面的文件都是tif的，tif格式网站和电脑都不认的，根本不能作壁纸。这时候，就需要转换图片格式了，首先我找了几款转换格式的软件，发现效果都不好，要不是不支持tif格式，要不就是转换出来的图片糊的不行。最终，还是决定用Python的Pillow库来写一个脚本，完成这个任务。下面是整个的小脚本----importosim
react-intl——react国际化使用方案苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
国际化介绍i18n：internationalization国家化简称，首字母+首尾字母间隔的字母个数+尾字母，类似的还有k8s(Kubernetes)React-intl是React中最受欢迎的库。使用步骤安装#usenpmnpminstallreact-intl-D#useyarn项目入口文件配置//index.tsximportReactfrom"react";importReactDOMf
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
入门MySQL——查询语法练习 K_un
前言：前面几篇文章为大家介绍了DML以及DDL语句的使用方法，本篇文章将主要讲述常用的查询语法。其实MySQL官网给出了多个示例数据库供大家实用查询，下面我们以最常用的员工示例数据库为准，详细介绍各自常用的查询语法。1.员工示例数据库导入官方文档员工示例数据库介绍及下载链接：https://dev.mysql.com/doc/employee/en/employees-installation.h
Spring Boot中实现跨域请求 BABA8891 spring boot 后端 java
在SpringBoot中实现跨域请求（CORS，Cross-OriginResourceSharing）可以通过多种方式，以下是几种常见的方法：1.使用@CrossOrigin注解在SpringBoot中，你可以在控制器或者具体的请求处理方法上使用@CrossOrigin注解来允许跨域请求。在控制器上应用：importorg.springframework.web.bind.annotation.
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

Sosoo 1.0网络爬虫程序

你可能感兴趣的:(vector,filter,url,文档,import,网络爬虫)