详解Java中的OkHttp JSONP爬虫

什么是JSOUP

JSOUP 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。官网

jsoup实现了WHATWG HTML5规范，并将 HTML 解析为与现代浏览器相同的 DOM。

从 URL、文件或字符串中抓取和解析HTML
使用 DOM 遍历或 CSS 选择器查找和提取数据
操作HTML 元素、属性和文本
根据安全列表清理用户提交的内容，以防止XSS攻击
输出整洁的 HTML

什么是OkHttp

一般在java平台上，我们会使用apache httpclient作为http客户端，用于发送 http 请求，并对响应进行处理。比如可以使用http客户端与第三方服务(如sso服务)进行集成，当然还可以爬取网上的数据等。okhttp与httpclient类似，也是一个http客户端，提供了对 http/2 和 spdy 的支持，并提供了连接池，gzip 压缩和 http 响应缓存功能；

okhttp是目前非常火的网络库，它有以下特性：

1.支持http/2，允许所有同一个主机地址的请求共享同一个socket连接

2.连接池减少请求延时

3.透明的gzip压缩减少响应数据的大小

4.缓存响应内容，避免一些完全重复的请求

OkHttp教程

爬虫需要掌握的技术

JSOUP
OKHTTP
前端知识
http和https
数据存储(Json、XML ,txt、html, CSV ,Excel , ES ,mysql,redis…)
数据分析
JavaScript语言
抓包工具fiddler,Wireshark
数据清洗
正则表达式
文件读写
多线程

根据情况可能还不止上面这些,但是会了上面这些技术那么可以说爬虫算是入门

需要的依赖

 
        
            org.jsoup
            jsoup
            1.11.3
        
        
            com.squareup.okhttp3
            okhttp
            3.10.0

JSON入门Demo

爬取华北地区,所有省市,一个星期全部的天气

按下f12,就就能查看html的结构进行分析具体该怎么爬,然后找到对应的标签,之后根据标签的位置写出css选择器

具体详情代码如下:

        //拿到网页的xml
        String doc = OkHttpUtils.builder()
                .url("http://www.weather.com.cn/textFC/hb.shtml")
                .get()
                .sync();

        //时间,省市,城市,天气现象
        StringBuilder stringBuilder0=new StringBuilder();
        //标题
        StringBuilder stringBuilder = new StringBuilder("时间,省市,城市,天气现象,风向风力,最高气温,天气现象,风向风力,最低气温");
        stringBuilder0.append(stringBuilder).append("\n");
        Document document = Jsoup.parse(doc);//将页面转换为Document
        //使用css 选择器
        Elements selecttop = document.select(".day_tabs li");
        //拿到数据列表
        Elements select = document.select(".conMidtab");
        for (int i1 = 0; i1 < selecttop.size(); i1++) {
            Element element = selecttop.get(i1);

            String text = element.text();
            //进行数据清洗,取出时间
            String time = PatternCommon.cutPatternStr(text, "[\\u4e00-\\u9fa5]*\\((\\S*)\\)", 1).get(1);
            //取和实际对应的列表
            Element element1 = select.get(i1);
            Elements midtab = element1.select(".conMidtab2");
            for (int i = 0; i < midtab.size(); i++) {
                StringBuilder stringBuilder1 = new StringBuilder();
                //时间
                stringBuilder1.append(time).append(",");
                Element element2 = midtab.get(i);
                //拿到所有的行
                Elements trs = element2.select("table tr");
                //拿到省市
                Elements select2 = trs.select(".rowspan");
                stringBuilder1.append(select2.text()).append(",");
                //跳过前3行从第4行开始读取
                for (int i2 = 3; i2 < trs.size()-1; i2++) {
                    StringBuilder stringBuilder2 = new StringBuilder();
                    Element element3 = trs.get(i2);
                    //拿到行下所有列  城市,天气现象,风向风力,最高气温,天气现象,风向风力,最低气温
                    Elements td = element3.select("td");
                    for (int i3 = 0; i3 < td.size(); i3++) {
                        Element element4 = td.get(i3);
                        if(i3 == td.size()-2){
                            //最后一个不需要逗号
                            stringBuilder2.append(element4.text());
                            break;
                        }
                        stringBuilder2.append(element4.text()).append(",");
                    }
                    StringBuilder stringBuilder3 = new StringBuilder();
                    stringBuilder3.append(stringBuilder1).append(stringBuilder2);
                    stringBuilder0.append(stringBuilder3).append("\n");
                }
            }
        }

        //将内容按行写入到csv文件中
        String absoluteFilePathAndCreate = ResourceFileUtil.getAbsoluteFileOrDirPathAndCreate("/weather.csv");
        ReadWriteFileUtils.writeStrCover(new File(absoluteFilePathAndCreate),stringBuilder0.toString());

JSOUP常用方法

注意: 下面的参数名称query和cssQuery 就是css选择器

Jsoup:

Document Jsoup.parse(str); 将字符串HTML转换为Document
Connection connect(String url) 创建到URL的新连接。用于获取和解析HTML页面
Document parse(File in, “UTF-8”) 将文件内容解析为HTML。
Document parse(InputStream in, “UTF-8”, “”) 读取输入流，并将其解析为HTML。

Document :

Elements select(css) 使用css选择器从document中查询指定元素 ,返回Elements类型
String title() 获取文档标题元素的字符串内容。
Element head() 文档头元素的访问者
Element body() 文档主体元素的访问者。

Elements:

Elements select(String query) 在此元素列表中查找匹配的元素。
Element get(int index) 返回此列表中指定位置的元素
String text() 获取元素的value
boolean hasText() 判断是否有内容
List eachText() 获取每个匹配元素的文本内容
String html() 获取所有匹配元素的组合内部HTML
boolean is(String query) 测试是否有匹配的元素如果有则为true。
Elements next() 获取此列表中每个元素的下一个同级元素
Elements next(String query) 获取此列表中每个元素的下一个同级元素，并通过查询进行筛选。
Elements nextAll() 获取此列表中每个元素的以下所有元素同级。
Elements nextAll(String query) 获取此列表中每个元素的以下所有元素同级，并通过查询进行筛选。
Elements prev() 获取此列表中每个元素的前一个元素同级。
Elements prev(String query) 获取此列表中每个元素的前一个元素同级，并通过查询进行筛选。
Elements prevAll() 获取此列表中每个元素之前的所有同级元素。
Elements prevAll(String query) 获取此列表中每个元素之前的所有同级元素，并通过查询进行筛选。
Elements parents() 获取匹配元素的所有父元素和祖先元素。
Element first() 获取第一个匹配的元素。
Element last() 获取最后匹配的元素
List forms() 从所选元素（如果有）中获取FormElement表单
Elements filter(NodeFilter nodeFilter) 对每个选定元素执行深度优先过滤 (可以控制具体怎么遍历)
Elements traverse(NodeVisitor nodeVisitor) 对每个选定元素执行深度优先遍历 (一直遍历到结束)

Element:

Elements parents() 获取此元素的父元素和祖先元素，直到文档根。
Element parent() 获取父元素
String tagName() 获取此元素的标记名称
boolean isBlock() 测试此元素是否为块级元素
String id() 获取此元素的id属性。
Attributes attributes() 获取元素上所有属性
Element child(int index) 通过该元素的基于0的索引号获取该元素的子元素。
Elements children() 获取此元素的子元素列表
List textNodes() 获取此元素的子文本节点
Elements select(String cssQuery) 查找与选择器CSS查询匹配的元素
Element selectFirst(String cssQuery) 查找与选择器CSS查询匹配的第一个元素
boolean is(String cssQuery) 检查此元素是否与给定的选择器CSS查询匹配。
Element nextElementSibling() 获取此元素的下一个同级元素
Elements siblingElements() 获取兄弟元素。如果元素没有同级元素则返回空列表
String cssSelector() 获取将唯一选择此元素的CSS选择器。(可用于检索选择器中元素的CSS路径)
Element previousElementSibling() 获取此元素的上一个同级元素
Element firstElementSibling() 获取此元素的第一个同级元素
int elementSiblingIndex() 在其元素同级列表中获取此元素的列表索引。如果这是第一个同级元素，则返回0。
Element lastElementSibling() 获取此元素的最后一个同级元素
Elements getElementsByTag(String tagName) 查找具有指定标签名的元素，包括此元素下的元素并递归查找。
Element getElementById(String id) 按ID查找元素，包括或在此元素下
Elements getElementsByClass(String className) 查找具有此类的元素，包括或在该元素下。不区分大小写
Elements getElementsByAttribute(String key) 查找具有命名属性集的元素。不区分大小写。
Elements getElementsByAttributeStarting(String keyPrefix) 查找属性名称以提供的前缀开头的元素。
Elements getElementsByAttributeValue(String key, String value) 查找具有具有特定值的属性的元素。不区分大小写。
Elements getElementsByAttributeValueNot(String key, String value) 查找没有此属性=值的元素。不区分大小写。
Elements getElementsByAttributeValueStarting(String key, String valuePrefix) 查找属性以值前缀开头的元素。不区分大小写。
Elements getElementsByAttributeValueEnding(String key, String valueSuffix) 查找属性以值后缀结尾的元素。不区分大小写。
Elements getElementsByAttributeValueContaining(String key, String match) 查找具有其值包含匹配字符串的属性的元素。不区分大小写。
Elements getElementsByAttributeValueMatching(String key, Pattern pattern) 查找具有值与提供的正则表达式匹配的属性的元素。
Elements getElementsByAttributeValueMatching(String key, String regex) 查找具有值与提供的正则表达式匹配的属性的元素。
Elements getElementsByIndexLessThan(int index) 查找同级索引小于提供的索引的元素。
Elements getElementsByIndexGreaterThan(int index) 查找同级索引大于提供的索引的元素。
Elements getElementsByIndexEquals(int index) 查找同级索引等于提供的索引的元素
Elements getElementsContainingText(String searchText) 查找包含指定字符串的元素。文本可以直接出现在元素中，也可以出现在其任何子元素中。(在元素的文本中查找)
Elements getElementsContainingOwnText(String searchText) 查找直接包含指定字符串的元素。搜索不区分大小写。文本必须直接出现在元素中，而不是其任何子体中 (在元素自己的文本中查找)
Elements getElementsMatchingText(Pattern pattern) 查找其文本与提供的正则表达式匹配的元素
Elements getElementsMatchingText(String regex) 查找其文本与提供的正则表达式匹配的元素
Elements getElementsMatchingOwnText(Pattern pattern) 查找其自身文本与提供的正则表达式匹配的元素。
Elements getElementsMatchingOwnText(String regex) 查找其自身文本与提供的正则表达式匹配的元素。
Elements getAllElements() 查找此元素下的所有元素（包括self和children的子元素）
String text() 获取此元素及其所有子元素的组合文本。空白被规范化和修剪。
String wholeText() 获取该元素所有子元素的（未编码）文本，包括原始元素中存在的任何换行符和空格。
String ownText() 获取仅由该元素拥有的文本；无法获取所有子级的组合文本。
boolean hasText() 测试这个元素是否有任何文本内容（不仅仅是空白）。如果元素具有非空白文本内容，则为true。
String data() 获取此元素的组合数据。例如，数据是脚本标记的内部。请注意，数据不是元素的文本。使用text（）获取用户可见的文本，使用data（）获取脚本、注释、CSS样式等的内容。
String className() 获取此元素的“class”属性的文字值，该属性可能包括多个类名，用空格分隔。
Set classNames() 获取所有元素的类名
boolean hasClass(String className) 测试此元素是否具有类。不区分大小写
String val() 获取表单元素的值（input、textarea等）。

使用JSOUP 方式连接

高并发爬取使用OkHttp,因为内部做了很多的优化,在爬取的频率很快和多的时候效率是非常好的, JSOUP内部提供了请求方式但效率没有OkHttp高,下面是封装好的直接就可以用,但是只支持返回xml/html页面否则报错,所以尽量使用OkHttp比较灵活,效率还好


import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

import javax.net.ssl.SSLContext;
import javax.net.ssl.SSLSocketFactory;
import javax.net.ssl.TrustManager;
import javax.net.ssl.X509TrustManager;
import java.io.IOException;
import java.net.InetSocketAddress;
import java.net.Proxy;
import java.security.SecureRandom;
import java.security.cert.X509Certificate;

/**
 * 简要描述
 * @Author: huanmin
 * @Date: 2022/7/17 18:47
 * @Version: 1.0
 * @Description: 文件作用详细描述....
 * Document execute = JsoupConnect.build("http://www.weather.com.cn/textFC/hb.shtml").getExecute();
 */
public class JsoupConnect {

   private final Connection connect;

    public static   JsoupConnect build(String url) {
        return new JsoupConnect(url);
    }
    public  Document  getExecute() {
        Document document = null;
        try {
            document = connect.get();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return  document;
    }
    public  Document  postExecute() {
        Document document = null;
        try {
            document = connect.get();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return  document;
    }
    
    
    public JsoupConnect(String url) {
        Connection connect1 = Jsoup.connect(url);
        TrustManager[] trustManagers = buildTrustManagers();
        connect1.timeout(30000);//超时时间 30秒
        connect1.sslSocketFactory(createSSLSocketFactory(trustManagers));
        connect1.userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36");
        this.connect =connect1;
    }
    //设置代理
    //        Proxy proxy = new Proxy(Proxy.Type.HTTP, new InetSocketAddress("127.0.0.1", 8080));
    public  JsoupConnect proxy(Proxy.Type type,String ip,int port) {
        Proxy proxy = new Proxy(type, new InetSocketAddress(ip, port));
        this.connect.proxy(proxy);
        return this;
    }

    public  JsoupConnect cookie(String name, String value){
        connect.cookie(name,value);
        return this;
    }
    public  JsoupConnect header(String name, String value){
        connect.header(name,value);
        return this;
    }

    //get 和 post
    public  JsoupConnect addParameter(String key, String value){
        connect.data(key,value);
        return this;
    }

    /**
     * 生成安全套接字工厂，用于https请求的证书跳过
     *
     * @return
     */

    private SSLSocketFactory createSSLSocketFactory(TrustManager[] trustAllCerts) {
        SSLSocketFactory ssfFactory = null;
        try {
            SSLContext sc = SSLContext.getInstance("SSL");
            sc.init(null, trustAllCerts, new SecureRandom());
            ssfFactory = sc.getSocketFactory();
        } catch (Exception e) {
            e.printStackTrace();
        }
        return ssfFactory;
    }

    private  TrustManager[] buildTrustManagers() {
        return new TrustManager[]{
                new X509TrustManager() {
                    @Override
                    public void checkClientTrusted(X509Certificate[] chain, String authType) {
                    }

                    @Override
                    public void checkServerTrusted(X509Certificate[] chain, String authType) {
                    }

                    @Override
                    public X509Certificate[] getAcceptedIssuers() {
                        return new X509Certificate[]{};
                    }
                }
        };
    }
}

User-Agent(随机)

User-Agent是Http协议中的一部分，属于头域的组成部分，User Agent也简称UA。用较为普通的一点来说，是一种向访问网站提供你所使用的浏览器类型、操作系统及版本、CPU 类型、浏览器渲染引擎、浏览器语言、浏览器插件等信息的标识。UA字符串在每次浏览器 HTTP 请求时发送到服务器！ ,所以大批量爬虫的时候不要一直使用同一个User-Agent, 要多切换切换,不然就会识别到你了给你拉黑

可以利用随机的方式来获取下面的内容

Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)
Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)
Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1
Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1
Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11
Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36
Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)
Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5
Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5
Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5
Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10
UCWEB7.0.2.37/28/999
Openwave/ UCWEB7.0.2.37/28/999
Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999

import com.google.common.base.Charsets;
import com.google.common.io.Files;
import com.google.common.io.Resources;

import java.io.File;
import java.net.URL;
import java.util.Collections;
import java.util.List;

/**
 * 简要描述
 *
 * @Author: huanmin
 * @Date: 2022/7/17 19:51
 * @Version: 1.0
 * @Description: 文件作用详细描述....
 */
public class UserAgent {

    private static final String DEFAULT_USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.85 Safari/537.36";

    private static List userAgents = null;
    static {
        URL url = Resources.getResource("userAgents");
        if(url != null) {
            File file = new File(url.getPath());
            try {
                userAgents = Files.readLines(file, Charsets.UTF_8);
            } catch(Exception ex) {}
        }
    }

    public static String getUserAgent() {
        if(userAgents == null || userAgents.size() == 0) {
            return DEFAULT_USER_AGENT;
        }
        Collections.shuffle(userAgents);
        return userAgents.get(0);
    }

}

后台爬虫的三大问题

后台爬虫在大行其道的时候，也有着些许棘手的、到目前也没有什么好的解决方案问题，而归根结底，这些问题的根本原因是由于后台爬虫的先天不足导致，在正式讨论之前，我们先思考一个问题，“爬虫和浏览器有什么异同？”

相同点: 本质上都是通过http/https协议请求互联网数据

不同点:

爬虫一般为自动化程序，无需用用户交互，而浏览器不是
运行场景不同 ,浏览器运行在客户端，而爬虫一般都跑在服务端
能力不同, 浏览器包含渲染引擎、javascript ，而爬虫一般都不具备这两者。

了解了这些，我们再来看看后台面临的问题

问题一：交互问题

有些网页往往需要和用户进行一些交互，进而才能走到下一步，比如输入一个验证码，拖动一个滑块，选几个汉字。网站之所以这么做，很多时候都是为了验证访问者到底是人还是机器。

而爬虫程序遇到这种情况很难处理，传统的简单图片验证码可以通过图形处理算法读出内容，但是随着各种各样，花样百出，人神共愤的、变态的验证码越来越多（尤其是买火车票时，分分钟都想爆粗口），这个问题就越来越严重。

问题二：Javascript 解析问题

如前文所述，javascript可以动态生成dom。目前大多数网页属于动态网页**（内容由javascript动态填充），尤其是在移动端，SPA/PWA应用越来越流行，网页中大多数有用的数据都是通过ajax/fetch动态获**取后然后再由js填充到网页dom树中，单纯的html静态页面中有用的数据很少。

目前主要应对的方案就是对于js ajax/fetch请求直接请求ajax/fetch的url ，但是还有一些ajax的请求参数会依赖一段javascript动态生成，比如一个请求签名，再比如用户登陆时对密码的加密等等。

如果一昧的去用后台脚本去干javascript本来做的事，这就要清楚的理解原网页代码逻辑，而这不仅非常麻烦，而且会使你的爬取代码异常庞大臃肿，但是，更致命的是，有些javascript可以做的事爬虫程序是很难甚至是不能模仿的，比如有些网站使用拖动滑块到某个位置的验证码机制，这就很难再爬虫中去模仿。

其实，总结一些，这些弊端归根结底，是因为爬虫程序并非是浏览器，没有javascript解析引擎所致。针对这个问题，目前主要的应对策略就是在爬虫中引入Javascript 引擎，如PhantomJS，但是又有着明显的弊端，如服务器同时有多个爬取任务时，资源占用太大。

还有就是，这些无窗口的javascript引擎很多时候使用起来并不能像在浏览器环境中一样，页面内部发生跳转时，会导致流程很难控制。

问题三：IP限制

这是目前对后台爬虫中最致命的。网站的防火墙会对某个固定ip在某段时间内请求的次数做限制，如果没有超过上线则正常返回数据，超过了，则拒绝请求，如qq 邮箱。

值得说明的是，ip限制有时并非是专门为了针对爬虫的，而大多数时候是出于网站安全原因针对DOS攻击的防御措施。后台爬取时机器和ip有限，很容易达到上线而导致请求被拒绝。目前主要的应对方案是使用代理，这样一来ip的数量就会多一些，但代理ip需要花钱

selenium+phantomjs(维护中…内容重新整理)

selenium+phantomjs组合进行爬取，因为selenium封装了phantomjs，能够让我们更方便，更好的使用，节约时间和成本。

PhantomJs下载地址: https://phantomjs.org/download.html

      
            org.seleniumhq.selenium
            selenium-java
            3.141.59
        
        
            com.codeborne
            phantomjsdriver
            1.4.4

DesiredCapabilities desiredCapabilities = new DesiredCapabilities();
//ssl证书支持
desiredCapabilities.setCapability("acceptSslCerts", true);
//截屏支持，这里不需要
desiredCapabilities.setCapability("takesScreenshot", false);
//css搜索支持
desiredCapabilities.setCapability("cssSelectorsEnabled", true);
//js支持
desiredCapabilities.setJavascriptEnabled(true);
//驱动支持
desiredCapabilities.setCapability(PhantomJSDriverService.PHANTOMJS_EXECUTABLE_PATH_PROPERTY,
        "G:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe");
//创建无界面浏览器对象
PhantomJSDriver driver = new PhantomJSDriver(desiredCapabilities);
//这里注意，把窗口的大小调整为最大，如果不设置可能会出现元素不可用的问题
driver.manage().window().maximize();

上述是对爬虫实例对象设置请求头信息，由于我们爬取的网站采用JS+AJAX进行渲染页面，所以需要js支持，必须设置setJavascriptEnabled(true)，否则无法运行js代码，无法正常拿到渲染后的页面。

//用于设置phantomjs运行器的位置
desiredCapabilities.setCapability(PhantomJSDriverService.PHANTOMJS_EXECUTABLE_PATH_PROPERTY,"G:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe");

现在，我们有了实例对象了，可以进行网页爬取了，以CSDN为例，给大家简单说一下工具的使用。

假设我们现在需要获取JAVA模块的文章（标题+链接）,我们来看看应该怎么做。

String href = "https://www.csdn.net";
PhantomJSDriver driver = create();
//获取csdn主页
driver.get(href);
//定位到Java按钮
WebElement java = driver.findElementByLinkText("Java");
//执行点击
java.click();
//用于定位到Java模块列表
WebElement feedlist_id = driver.findElementById("feedlist_id");
List liList = feedlist_id.findElements(By.className("clearfix"));
//循环遍历li
for (WebElement li : liList) {
    WebElement title = li.findElement(By.className("title"));
    WebElement a = title.findElement(By.tagName("a"));
    System.out.println("标题：" + a.getText() + " 链接:" + a.getAttribute("href"));
}

常用的如下:

//通过id的方式获取元素
public WebElement findElementById(String using)
//通过链接文本方式获取单个元素
public WebElement findElementByLinkText(String using)
//通过标签名方式获取单个元素
public WebElement findElementByTagName(String using）
//通过标签名方式获取多个元素
public List findElementsByTagName(String using)
//通过name属性方式获取单个元素
public WebElement findElementByName(String using)
//通过name属性方式获取多个元素
public List findElementsByName(String using)
//通过类名方式获取单个元素
public WebElement findElementByClassName(String using)
//通过类名方式获取多个元素
public List findElementsByClassName(String using)
//通过css选择器方式获取单个元素
public WebElement findElementByCssSelector(String using)
//通过css选择器方式获取多个元素
public List findElementsByCssSelector(String using)
//通过xpath方式获取单个元素
public WebElement findElementByXPath(String using)
//通过xpath方式获取多个元素
public List findElementsByXPath(String using)
void click(); //触发点击事件
String getAttribute(String name)  //获取属性值
String getText()  //标签文本
element.getAttribute("value")  //输入框value值
clear()用于清空元素的内容
sendKeys(CharSequence... keysToSend)用于给输入框赋值

选择下拉框元素

Select select = new Select(driver.findElementById("select")); 
//通过索引选择 
select.selectByIndex(1);
//通过value值获取 
select.selectByValue("zhangsan")
//通过文本值获取
select.selectByVisibleText("张三");

单选和复选

driver.findElementById("radio"); radio.click(); //单选按钮

复选框其实和单选按钮一样，都是定位元素，点击元素，在选择元素之前，我们可以通过isSelected()来判断元素是否被选择，isEnabled()来判断元素是否被禁用。

表单提交

WebElement form = driver.findElementById("form");
//只能用于表单提交
form.submit();

在某些时候，有些网站在执行的时候可能会打开另外一个窗口，这个时候，如果我们想要回到原先的窗口，应该怎么办呢？

//获取窗口的句柄 
String windowHandle = driver.getWindowHandle(); 
//另外一个窗口执行... 
//另外一个窗口执行结束后，我们可以通过switchTo()去返回到原先窗口 
driver.switchTo().window(windowHandle);

在某些AJAX请求进行渲染的页面，可能我们不能立即获取到渲染后的页面，那么我们就需要进行等待，这里支持两种类型的等待方式：

隐形等待

//针对全局设置，所有命令的超时时间都是10s，如果超过等待时间，则抛出异常。
driver.manage().timeouts().implicitlyWait(10, TimeUnit.SECONDS);

显示等待

WebDriverWait webDriverWait = new WebDriverWait(driver, 10);
webDriverWait.until(new ExpectedCondition() {
    @Override
    public WebElement apply(WebDriver webDriver) {
        return webDriver.findElement(By.id("toolber-keyword"));
    }
});

等待某个元素，最大等待10s，默认0.5s为搜索间隔，搜索到元素则停止等待。在使用获取数据的网站中，使用该方式十分方便，若10s都没有结果，那么则认定系统出现故障。

某些时候，我们可能通过getText()的方式获取标签的文本值并不会生效 ,phantomjs能够执行js语句，这可是一个好方式，我们可以通过写js语句来解决大部分问题。执行js语句Object executeScript(String script, Object... args); 该方法可以供我们执行js语句，script代表我们的js语句，args代表散列值，接受参数使用arguments[0]依次来接受。示例如下：
假设我们想要获取某个标签的文本值

第一种方式：driver.executeScript("document.getElementById('blogClick').innerText")

第二种方式：

WebElement blogClick = driver.findElementById("blogClick");
driver.executeScript("arguments[0].innerText",blogClick);

采用爬虫处理业务，如果是静态网页还比较好处理，如果是AJAX+JS渲染的动态页面，在爬取的过程中，会遇到各种各样的坑，就需要耐心研究了,到底怎么才能获取到

到此这篇关于详解Java中的OkHttp JSONP爬虫的文章就介绍到这了,更多相关java OkHttp JSONP内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

2025年计算机毕业设计springboot 智慧社区管理系统 zhihao503 课程设计 spring boot 后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于智慧社区管理系统的研究，现有成果多聚焦于单一功能模块的数字化（如物业缴费或门禁系统），缺乏对多场景服务整合与用户体验优化的系统性研究。国外研究侧重物联网技术应用（如新加坡“智慧国”计划中的社区传感器网络），而国内研究更多关注管理平台的基础框架设计，但针对业主、物业、设备多方
java实现二叉树的深度优先遍历开往1982 深度优先算法 java
深度优先三种遍历方法1.先序遍历2.中序遍历3.后序遍历1.定义树节点（这里我重构了tostring方法）packagecom.data.tree;publicclassNode{intvalue;Nodeleft;Noderight;publicNode(intval){value=val;}@OverridepublicStringtoString(){return"Node[value="+
Oracle中union用法邓伟林 Oracle Oracle union
Oracle中union用法一、union用于查询结果可能存在多张表中的数据，并剔除重复数据据。二、unionall用于查询结果可能存在多张表中的数据，并将所有数据返回。三、写法：selecta.name,a.idfrom(selectb.namename,b.ididfrombwhereb.id=‘1’unionselectc.namename,c.ididfromcwherec.id=‘1’u
java for循环内执行多线程 m0_74823434 面试学习路线阿里巴巴资料职业发展 java python 开发语言后端
目录一、java用多线程来加快循环效率（推荐第3种！！！！）?第一种：线程池搭配闭锁?第二种：分页概念执行线程?第三种：分页概念执行线程进阶版！！！！一、java用多线程来加快循环效率（推荐第3种！！！！）第一种：线程池搭配闭锁涉及知识：Executors（线程池）、CountDownLatch（闭锁）优点：代码简洁，方便阅读，性能稳定；缺点：Executors创建的线程池是公用的，如果多个地方使
chatgpt赋能python：Python处理雷达基数据：从入门到实践 lvsetongdao123 ChatGpt python chatgpt 开发语言计算机
Python处理雷达基数据：从入门到实践随着气象技术的不断发展，雷达探测技术已成为当今天气预报和气象研究的主要手段之一。雷达基数据是气象雷达接收到的未经加工的原始数据，因其包含大量天气信息，不仅在天气预报、天气预警等方面得到了广泛应用，还被广泛地用于气象科研和大气环境研究。本文将介绍如何使用Python处理雷达基数据，解析其中的信息，获取有效的天气数据，以及分析和可视化这些数据。雷达基数据格式与处
c++右值引用详解! 好好学习O(∩_∩)O c++开发语言
前言左值引用可以参考笔者的这篇文章---从c到c++——4：引用-CSDN博客(ps:这篇文章里的引用单只左引用笔者当时水平不高(虽然现在也不高)起错了名字)左值引用与右值引用的定义c++中,无论是左值引用与右值引用,用途都是在给对象起别名左值与右值的概念左值和右值是c++中的一个概念,严格的来说,对于系统提供的=操作符来说(自己提供的重载函数不算),可以放在等号左边的或者能加const的称为左值
unionall的用法（当某条记录为空时，union all是否可以合并此条记录） hammring mysql
我们经常说union和unionall的区别在于：1.union合并相同的列时，会去重只取其中的一条；2.unionall合并所有的列。但是如果在按照某一条件进行查询时，如果表中数据没有符合该条件的记录。（即按此条件查询，表中查找到的的记录每列都为空）此时unionall并不能合并这种空的记录。比如新建一个表名为t_student的表。记录学生的姓名，性别，年龄和成绩等基础信息。在t_studen
微信小程序面试内容整理-图片优化不务正业的猿面试微信小程序前端微信小程序 notepad++小程序面试职场和发展
在微信小程序中，图片优化是提升加载速度、节省网络带宽和提高用户体验的重要步骤。图片通常是小程序页面中的主要资源，合理的图片优化能显著提高小程序的性能，尤其是在用户网络状况较差的情况下。1.选择合适的图片格式不同的图片格式有不同的特点，选择合适的格式能够有效减小图片的大小，同时保证图片质量。
【数据库】MySQL的索引详解此木|西贝数据库数据库 mysql
简介索引是一种用于快速查询和检索数据的数据结构，类似于书的目录。在几百页的书通过几页目录就可以精确定位到我们想看的章节优点和缺点优点正确的使用索引可以大大提高检索速度可以使用唯一索引保证数据在库中的唯一性使用聚合索引减少回表，降低IO次数缺点索引不宜创建的太多，否则增删改时不仅修改数据，还要修改大量的索引数据索引也会占用磁盘空间索引结构B树：多路平衡查找树，B树的所有节点都会存储key（索引）和d
【数据库】MySQL事务详解此木|西贝数据库数据库 mysql
事务的隔离级别读未提交（read-uncommitted）：最低级的隔离级别，允许其他事务读到未提交的值；读已提交（read-committed）：事务只能读取到其他事务提交的数据；可重复读（repeatable-read）：对同一条数据多次读取结果都是一样（mysql默认隔离级别）；串行化（serializable）：最高的隔离级别，所有事务穿行执行，事务间不会产生干扰隔离级别存在的问题读未提交
AIGC时代品牌突围战：10招玩转DeepSeek内容推荐（深度扩展版）白雪讲堂人工智能大数据机器学习
一、认知革命：从SEO到GEO的生死迭代案例对比：传统SEO困境：某家电品牌2023年投入200万SEO优化，关键词排名TOP3但流量下降42%（SEMrush数据）GEO突破案例：某母婴品牌通过结构化数据改造，AI推荐量从日均300次飙升至1.2万次（来源：DeepSeek官方案例库）实战要点：内容形态改造：将产品参数表升级为JSON-LD格式（某手机品牌实现参数类问题100%引用）流量分配逻辑
Java开发者必看！零成本集成DeepSeek-R1打造AI办公神器，源码级实战教程让你效率翻倍！ Leaton Lee java 人工智能开发语言
目录开篇互动一、为什么是DeepSeek-R1？它凭什么碾压传统AI工具？二、手把手部署DeepSeek-R1本地环境（附避坑指南）步骤1：Docker一键部署步骤2：下载模型步骤3：验证部署三、Java整合DeepSeek-R1：从理论到实战1.添加HTTP客户端依赖（以SpringBoot为例）2.封装AI工具类（核心代码解析）3.实战场景1：自动生成周报（附Prompt技巧）四、高阶玩法：A
列出0 racle Forms配置文件？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
OracleForms配置文件OracleForms应用程序的配置涉及到多个文件，这些文件用于定义运行时环境、数据库连接、安全设置等。以下是与OracleForms相关的常见配置文件：1.formsweb.cfg位置：通常位于/forms/server/formsweb.cfg或WebLogic域中的指定目录。用途：此文件包含启动Forms应用所需的各种参数和属性，如表单模块名称、数据库连接字符串
路由器的配置命令 yinyaoqi 路由器 interface cisco ios network 网络
路由命令十全大补router>enable从用户模式进入特权模式router#disableorexit从特权模式退出到用户模式router#showsessions查看本机上的TELNET会话router#disconnect关闭所有的TELNET会话router#showusers查看本机上的用户router#erasestartup-config删除NVRAM中的配置router#reloa
innovus命令每日精要 | setCheckMode：数字后端物理设计的必备神器数字后端物理设计知识库 innovus 命令每日精要后端性能优化
在数字后端物理设计的领域中，确保设计数据的完整性和正确性是至关重要的。今天，我们要深入探讨的是Innovus中的一个强大命令——setCheckMode。这个命令就像是你的设计流程中的“健康卫士”，能够在各个阶段帮你揪出潜在的数据问题，避免因小失大，让错误在流程中扩散。检查模式核心功能大揭秘1.设计数据完整性检查：全面扫描，无死角-all选项就像是给你的设计做一次“全身CT”，开启所有检查选项，确
H3C Network命令详解 weixin_30471561
转载于:https://www.cnblogs.com/fanweisheng/p/11156926.html
vim在Linux中的作用 U_p_ Linux linux 运维服务器
你这里产生的疑惑其实源于对文件类型和文件扩展名的一些误解。一、什么是普通文件？在Linux中，所有的文件默认都是普通文件，不管你命名为：mkhahamkhaha.txtmkhaha.sh这些名字或者扩展名本身并不决定文件的类型，它们只是为了方便人类识别用途而已。Linux系统中，并不会严格依赖扩展名来决定文件类型。你看到的mkhaha文件的类型：-rwxr-xr-x开头的-表示它是普通文件，而非目
Spring 导入 XML 配置文件：@ImportResource JiaHao汤 Spring spring xml java springboot spring boot 后端
@ImportResource是位于org.springframework.context.annotation包中的一个注解。@ImportResource用于导入XML配置文件，作用是让Spring容器加载指定的XML配置文件，并将其中定义的Bean注册到Spring容器中，以便在应用程序中使用。使用@ImportResource注解可以将一个或多个XML配置文件导入到Spring应用程序上下
小白学java日记day22--单例实例兰翎翡竹
定义一个类只允许有一个对象,建立一个全局的访问点,提供出去供大家使用.分析:1.我们肯定要建立一个单例类来描述2.只允许有一个对象3.全局的访问点:说的就是当前的s----通过static实现的4.提供出去5.给大家使用总括:1.传值.作为全局的访问点.解决一个全局使用的类，频繁创建和销毁。拥有对象的唯一性，并保证内存中对象的唯一。可以节省内存，因为单例共用一个实例，有利于Java的垃圾回收机制。
Java集合之HashSet集合小白的编程日记 java java
文章目录前言一、HashSet集合特点二、HashSet集合的初始化三、HashSet集合中的成员方法1.添加集合元素2.删除集合元素3.查询集合元素4.修改集合元素5、其他成员方法四、集合的遍历总结前言HashSet集合继承了AbstractSet类，实现了Set接口。其框架图如下：一、HashSet集合特点存放单列元素，无序而且不重复。线程不安全，效率高。集合元素可以为null。没有下标，不可
深入理解 TypeScript 中的迭代器（Iterators）与生成器（Generators）念九_ysl typescript 前端 typescript
一、为什么需要迭代协议？在现代JavaScript/TypeScript开发中，我们经常需要处理各种集合型数据：数组、Map、Set甚至是自定义数据结构。ES6引入的迭代协议（IterationProtocols）正是为了解决统一遍历机制的问题。通过迭代器模式，我们可以：为不同的数据结构提供统一的访问接口实现惰性计算（LazyEvaluation）支持现代语言特性（for...of,扩展运算符等）
【C#语言】C#中的同步与异步编程：原理、示例与最佳实践 JosieBook #C#语言 c#开发语言同步异步
文章目录⭐前言⭐一、同步编程：简单但低效的线性执行代码示例执行流程示意图同步编程特点⭐二、异步编程：非阻塞的高效执行代码示例执行流程示意图异步编程核心机制适用场景⭐三、并行异步编程：最大化性能代码示例执行流程示意图并行异步优势⭐四、同步vs异步vs并行异步：对比总结⭐五、实际开发中的选择建议何时用同步？何时用异步？何时用并行异步？⭐总结标题详情作者JosieBook头衔CSDN博客专家资格、阿里云
分布式事务3PC解决了2PC哪些问题？ java干货仓库八股文汇总分布式事务分布式 java 面试
三阶段提交（3PC，Three-PhaseCommit）是对二阶段提交（2PC，Two-PhaseCommit）的改进，旨在解决2PC的一些固有缺陷，特别是在分布式系统中的容错性和性能问题。以下是3PC比2PC更好的原因及其优势的详细分析：1.二阶段提交（2PC）的问题2PC是一种经典的分布式事务协议，分为两个阶段：准备阶段（PreparePhase）：协调者向所有参与者发送准备请求。参与者执行事
CSS中的伪类与伪元素：让样式更加灵活优雅程序员
CSS中的伪类与伪元素：让样式更加灵活优雅在CSS的世界里，伪类和伪元素是两个强大而优雅的特性，它们能让我们的样式代码更加简洁，同时提供更丰富的样式控制能力。今天，让我们深入了解这两个概念。一、伪类（Pseudo-classes）1.1什么是伪类？伪类用于定义元素的特殊状态。它们以单个冒号（:）开头，就像给元素添加了一个虚拟的类，但无需修改HTML结构。1.2常用伪类/*鼠标悬停状态*/butto
工业相机的主要参数及计算 51camera 工业相机
工业相机是机器视觉系统中的关键组件，其本质是将光信号转变为有序的电信号，进而实现数字图像的获取，广泛应用于工业生产、检测、测量等领域。其成像原理与小孔成像类似，但更为复杂。当被摄物体反射的光线通过工业镜头折射后，会投射到相机的感光传感器上，这个感光传感器通常是电荷耦合器件（CCD）或互补金属氧化物半导体（CMOS）。dalsanano系列工业相机1、工作原理图像采集：通过镜头收集被拍摄物体反射或透
如何有效判断与排查Java GC问题 java算法
目录一、GC的重要性与对性能的影响（一）GC对性能的影响简要分析1.GC暂停与应用停顿2.GC吞吐量与资源利用率3.GC对内存管理的作用：资源回收4.GC策略与优化的选择（二）GC的双刃剑二、GC性能评价标准（一）GC性能评价标准：延迟（Latency）与吞吐量（Throughput）延迟STW（Latency）吞吐量（Throughput）（二）SLA与实际业务需求的结合1.如何结合SLA和GC
高输出红外光源的特点及应用 51camera 工业光源红外光源机器视觉
我们都知道光源在机器视觉系统中起着重要作用，能够影响成像效果，今天我们来看看红外光源。红外光是指波长比可见光中的红光长并且肉眼看不到的光。与可见光的红光相比，红外光的散射率较低，但透射率较高，因此，可用于透过印刷图案或液体的成像。红外LED的优点LED照射的红外光仅拥有特定波长范围的能量,与卤素光源相比,照射热极少。因此,对象物不易因热能而受损。红外光源成像实例（以ccs光源为例）1、1000nm
C# Windows Forms点击事件详解 Ro小陌 Windows C#开发语言 c#windows 开发语言
在C#WindowsForms开发中，点击事件是最基础且高频使用的交互机制。以下从底层原理、事件绑定、常见问题及高级用法四个维度进行深度解析：一、点击事件的底层机制消息循环与事件驱动WindowsForms基于Win32消息循环，所有用户操作（如点击）会被转换为WM_LBUTTONDOWN、WM_LBUTTONUP等消息。.NET通过Application.Run()启动消息循环，将消息路由到对应
简要介绍C++中的 max 和 min 函数以及返回值 *TQK* 编程语言知识点 c++编程知识点 c语言
目录编辑简要介绍C++中的max和min函数1.std::max函数基本用法比较多个值2.std::min函数基本用法比较多个值3.使用自定义比较函数示例：自定义比较函数4.使用std::max和std::min与容器示例：在容器中使用总结详解返回值std::max和std::min的返回值std::maxstd::min使用std::max和std::min与容器std::max_element
06.动态代理设计模式 java
06.动态代理设计模式目录介绍01.为何要动态代理1.1为何要动态代理1.2动态代理思考02.动态代理的概念2.1动态代理定义2.2动态代理类比理解2.3动态代理参与者2.4动态代理步骤03.动态代理的实现3.1罗列一个场景3.2用一个例子理解代理3.3基于接口动态代理3.4基于类动态代理3.5动态代理模版代码04.动态代理案例4.1动态代理和反射4.2Java中代理4.3Retrofit核心思想
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他