从头学习爬虫(八)进阶篇----https

本文主要讲解https。

首先要提到ssl证书,看看网络解释。

什么是 SSL 证书? SSL 证书就是遵守 SSL 安全套接层协议的服务器数字证书。而 SSL 安全协议最初是由美国网景 Netscape Communication 公司设计开发的,全称为:安全套接层协议 (Secure Sockets Layer) , 它指定了在应用程序协议 ( 如 HTTP 、 Telnet 、 FTP) 和 TCP/IP 之间提供数据安全性分层的机制,它是在传输通信协议 (TCP/IP) 上实现的一种安全协议,采用公开密钥技术,它为 TCP/IP 连接提供数据加密、服务器认证、消息完整性以及可选的客户机认证。由于此协议很好地解决了互联网明文传输的不安全问题,很快得到了业界的支持,并已经成为国际标准。

SSL 证书由浏览器中“受信任的根证书颁发机构”在验证服务器身份后颁发,具有网站身份验证和加密传输双重功能。

在请求https代码里经常报的错都是ssl,苦恼了了半天。

我总结两条

1绕过

2配置

主要看下代码实现吧

摘自网络:

[java]  view plain  copy
  1. /** 
  2.  * 绕过验证 
  3.  *   
  4.  * @return 
  5.  * @throws NoSuchAlgorithmException  
  6.  * @throws KeyManagementException  
  7.  */  
  8. public static SSLContext createIgnoreVerifySSL() throws NoSuchAlgorithmException, KeyManagementException {  
  9.     SSLContext sc = SSLContext.getInstance("SSLv3");  
  10.   
  11.     // 实现一个X509TrustManager接口,用于绕过验证,不用修改里面的方法  
  12.     X509TrustManager trustManager = new X509TrustManager() {  
  13.         @Override  
  14.         public void checkClientTrusted(  
  15.                 java.security.cert.X509Certificate[] paramArrayOfX509Certificate,  
  16.                 String paramString) throws CertificateException {  
  17.         }  
  18.   
  19.         @Override  
  20.         public void checkServerTrusted(  
  21.                 java.security.cert.X509Certificate[] paramArrayOfX509Certificate,  
  22.                 String paramString) throws CertificateException {  
  23.         }  
  24.   
  25.         @Override  
  26.         public java.security.cert.X509Certificate[] getAcceptedIssuers() {  
  27.             return null;  
  28.         }  
  29.     };  
  30.   
  31.     sc.init(nullnew TrustManager[] { trustManager }, null);  
  32.     return sc;  
  33. }  
[java]  view plain  copy
  1. /** 
  2.  * 模拟请求 
  3.  *  
  4.  * @param url       资源地址 
  5.  * @param map   参数列表 
  6.  * @param encoding  编码 
  7.  * @return 
  8.  * @throws NoSuchAlgorithmException  
  9.  * @throws KeyManagementException  
  10.  * @throws IOException  
  11.  * @throws ClientProtocolException  
  12.  */  
  13. public static String send(String url, Map map,String encoding) throws KeyManagementException, NoSuchAlgorithmException, ClientProtocolException, IOException {  
  14.     String body = "";  
  15.     //采用绕过验证的方式处理https请求  
  16.     SSLContext sslcontext = createIgnoreVerifySSL();  
  17.       
  18.        // 设置协议http和https对应的处理socket链接工厂的对象  
  19.        Registry socketFactoryRegistry = RegistryBuilder.create()  
  20.            .register("http", PlainConnectionSocketFactory.INSTANCE)  
  21.            .register("https"new SSLConnectionSocketFactory(sslcontext))  
  22.            .build();  
  23.        PoolingHttpClientConnectionManager connManager = new PoolingHttpClientConnectionManager(socketFactoryRegistry);  
  24.        HttpClients.custom().setConnectionManager(connManager);  
  25.   
  26.        //创建自定义的httpclient对象  
  27.     CloseableHttpClient client = HttpClients.custom().setConnectionManager(connManager).build();  
  28. /       CloseableHttpClient client = HttpClients.createDefault();  
  29.       
  30.     //创建post方式请求对象  
  31.     HttpPost httpPost = new HttpPost(url);  
  32.       
  33.     //装填参数  
  34.     List nvps = new ArrayList();  
  35.     if(map!=null){  
  36.         for (Entry entry : map.entrySet()) {  
  37.             nvps.add(new BasicNameValuePair(entry.getKey(), entry.getValue()));  
  38.         }  
  39.     }  
  40.     //设置参数到请求对象中  
  41.     httpPost.setEntity(new UrlEncodedFormEntity(nvps, encoding));  
  42.   
  43.     System.out.println("请求地址:"+url);  
  44.     System.out.println("请求参数:"+nvps.toString());  
  45.       
  46.     //设置header信息  
  47.     //指定报文头【Content-type】、【User-Agent】  
  48.     httpPost.setHeader("Content-type""application/x-www-form-urlencoded");  
  49.     httpPost.setHeader("User-Agent""Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");  
  50.       
  51.     //执行请求操作,并拿到结果(同步阻塞)  
  52.     CloseableHttpResponse response = client.execute(httpPost);  
  53.     //获取结果实体  
  54.     HttpEntity entity = response.getEntity();  
  55.     if (entity != null) {  
  56.         //按指定编码转换结果实体为String类型  
  57.         body = EntityUtils.toString(entity, encoding);  
  58.     }  
  59.     EntityUtils.consume(entity);  
  60.     //释放链接  
  61.     response.close();  
  62.        return body;  
  63. }  
配置证书这边不再写了,有需要自行百度。



你可能感兴趣的:(网络爬虫)