GC-扫地僧

py-02-爬虫比价器

第一天：爬取新闻网站

比价器系统

比价系统功能

利用Jsoup爬取每个页面的商品信息
ECharts柱状图、曲线图

工作原理

利用每个电商网站的搜索条查询同样的条件，例如：iphoneX，然后发现其规律

https://search.gome.com.cn/search?question=iphonex%2064g&searchType=goods

https://search.suning.com/iphonex%2064g/

https://list.tmall.com/search_product.htm?q=iphonex+64g

通过url传递了查询条件。

抓取步骤：

用户输入查询条件
分别到每个电商网站访问，利用其查询出它们网站的对应商品
获取其列表页面中第一个商品的链接
利用jsoup爬取每个页面的商品信息
把商品信息入库并设置爬取时间
使用ECharts进行进行价格的比较
拓展：ECharts实现抓取价格柱状图、饼形图、曲线图

2.涉及的技术点

1.JavaScript

JavaScript一种直译式脚本语言，是一种动态类型、弱类型、基于原型的语言，内置支持类型。它的解释器被称为JavaScript引擎，为浏览器的一部分，广泛用于客户端的脚本语言，最早是在HTML（标准通用标记语言下的一个应用）网页上使用，用来给HTML网页增加动态功能。

在1995年时，由Netscape公司的Brendan Eich，在网景导航者浏览器上首次设计实现而成。因为Netscape与Sun合作，Netscape管理层希望它外观看起来像Java，因此取名为JavaScript。

2.json

JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。

3.HttpClient

HttpClient是Apache Jakarta Common下的子项目，可以用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包，并且它支持HTTP协议最新的版本和建议。

注意：不要随意升级版本，每次大版本内容api变化比较大。

4.Jsoup

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

爬虫新闻

5.Httpclient

package test;
import java.io.IOException;
import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClientBuilder;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.junit.Test;
public class TestPrice {
    @Test
    public void taobaoItemPrice() throws IOException{
       String itemId = "560563554738";
       String url = "http://mdskip.taobao.com/core/initItemDetail.htm?isRegionLevel=true&itemTags=385,775,843,1035,1163,1227,1478,1483,1539,1611,1863,1867,1923,2049,2059,2242,2251,2315,2507,2635,3595,3974,4166,4299,4555,4811,5259,5323,5515,6145,6785,7809,9153,11265,12353,12609,13697,13953,16321,16513,17473,17537,17665,17857,18945,19841,20289,21762,21826,25922,28802,53954&tgTag=false&addressLevel=4&isAreaSell=false&sellerPreview=false&offlineShop=false&showShopProm=false&isIFC=false&service3C=true&isSecKill=false&isForbidBuyItem=false&cartEnable=true&sellerUserTag=839979040&queryMemberRight=true&itemId="+itemId+"&sellerUserTag2=306250462070310924&household=false&isApparel=false¬AllowOriginPrice=false&tmallBuySupport=true&sellerUserTag3=144467169269284992&sellerUserTag4=1152930305168967075&progressiveSupport=true&isUseInventoryCenter=false&tryBeforeBuy=false&callback=setMdskip×tamp=1420351892310";
       HttpClientBuilder builder = HttpClients.custom(); 
        builder.setUserAgent("Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:0.9.4)"); 
        CloseableHttpClient httpClient = builder.build(); 
        final HttpGet httpGet = new HttpGet(url); 
        httpGet.addHeader("Referer", "http://detail.tmall.com/item.htm?id="+itemId+"&skuId=68347779144&areaId=110000&cat_id=50024400&rn=763d147479ecdc17c2632a4219ce96b3&standard=1&user_id=263726286&is_b=1"); 
        CloseableHttpResponse response = null; 
        response = httpClient.execute(httpGet); 
        final HttpEntity entity = response.getEntity(); 
        String result = null; 
        if (entity != null) { 
            result = EntityUtils.toString(entity); 
            EntityUtils.consume(entity); 
        } 
         
        //商品价格的返回值，需要解析出来价格 
         
        result = result.substring(10, result.length()-1); 
    }
}

6.Jsoup

package test;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.junit.Test;
public class TestNew {
    @Test
    public void site() throws IOException{
       String url = "http://ent.qq.com/a/20171117/007399.htm";
       String html = Jsoup.connect(url).execute().body();
       
       System.out.println(html);
    }
    
    @Test
    public void title() throws IOException{
       String url = "http://ent.qq.com/a/20171117/007399.htm";
       Document doc = Jsoup.connect(url).get();
       Elements els = doc.select(".hd h1");
       Element ele = els.get(0);
       String title = ele.text();
       
       System.out.println(title);
    }
    
    @Test
    public void img() throws IOException{
       String url = "http://ent.qq.com/a/20171117/007399.htm";
       String imageUrl = Jsoup.connect(url).get()
           .select(".Cnt-Main-Article-QQ p img")
           .get(0)
           .attr("src");
       
       System.out.println(imageUrl);
    }
}

7.抓取价格 – json

2017年4月，京东开始对价格进行反爬虫控制，访问过多的IP地址会被禁止。

    @Test    //价格
    public void getItemPrice() throws IOException{
       String url = "http://p.3.cn/prices/mgets?skuIds=J_3882469";
       String json = Jsoup.connect(url).ignoreContentType(true).execute().body();
       JsonNode jsonNode = MAPPER.readTree(json);
       
              //解析完数组，获取数组第一条数据，获取它的p元素值
       Double price = jsonNode.get(0).get("p").asDouble();
       log.debug(price);
    }

8.抓取描述 - jsonp

    @Test    //商品描述
    public void getItemDesc() throws IOException{
       String url = "http://d.3.cn/desc/3882469";
       String jsonp = Jsoup.connect(url).ignoreContentType(true).execute().body();
              String json = jsonp.substring(9, jsonp.length()-1);      //把函数名去掉
       JsonNode jsonNode = MAPPER.readTree(json);
       
       String desc = jsonNode.get("content").asText();
       log.debug(desc);
    }

第二天：爬取京东商城

抓取的五种方式

9.抓取页面

    @Test     //抓整个页面
    public void html() throws IOException{
       String url = "http://tech.qq.com/a/20170330/003855.htm";
       //doc代表一个页面
       String html = Jsoup.connect(url).execute().body();
       System.out.println(html);
    }

10.抓取整个网站

    @Test   //抓整站，找到所有a链接，然后进行广度优先/深度优先进行遍历
    public void getAllATag() throws IOException{
       String url = "http://tech.qq.com/a/20170330/003855.htm";
              //获取到页面
       Document doc = Jsoup.connect(url).get();
              //获取到页面中的所有a标签
       Elements eles = doc.getElementsByTag("a");
       for(Element ele : eles){
                     String title = ele.text();          //获取a标签的内容
                     String aurl = ele.attr("href");       //获取a标签的属性
           log.debug(title+" - "+aurl);
       }
    }

11.抓取标题 - 页面上的内容

可以多级父子样式嵌套

    @Test    //京东商城，商品标题
    public void getItemTile() throws IOException{
       String url = "https://item.jd.com/3882469.html";
       Document doc = Jsoup.connect(url).get();
       Element ele = doc.select(".itemInfo-wrap .sku-name").get(0);
       String title = ele.text();
       log.debug(title);
    }
       @Test    //当当商城，商品标题
    public void getDDItemTile() throws IOException{
       String url = "http://product.dangdang.com/1052875306.html";
       Document doc = Jsoup.connect(url).get();
       Element ele = doc.select("article").get(0);
       String title = ele.text();
       log.debug(title);
    }

12.抓取价格 – json

2017年4月，京东开始对价格进行反爬虫控制，访问过多的IP地址会被禁止。

    @Test    //价格
    public void getItemPrice() throws IOException{
       String url = "http://p.3.cn/prices/mgets?skuIds=J_3882469";
       String json = Jsoup.connect(url).ignoreContentType(true).execute().body();
       JsonNode jsonNode = MAPPER.readTree(json);
       
              //解析完数组，获取数组第一条数据，获取它的p元素值
       Double price = jsonNode.get(0).get("p").asDouble();
       log.debug(price);
    }

13.抓取描述 - jsonp

    @Test    //商品描述
    public void getItemDesc() throws IOException{
       String url = "http://d.3.cn/desc/3882469";
       String jsonp = Jsoup.connect(url).ignoreContentType(true).execute().body();
              String json = jsonp.substring(9, jsonp.length()-1);      //把函数名去掉
       JsonNode jsonNode = MAPPER.readTree(json);
       
       String desc = jsonNode.get("content").asText();
       log.debug(desc);
    }

5.爬取京东

抓取商品先要找到商品ID，有两个方案：

方案一：商品ID是一串数字，猜测它是自增的，于是我们可以是做一个自增的循环。但如果商品的ID不是连续，会造成很多访问无法继续访问，报链接超时。

方案二：找到网站的所有商品的列表页面，解析html找到商品的ID，这个方式解析麻烦些，但商品ID直接可以获得。

所有一般来说都是采用第二种方案。

分类、商品列表、商品详情

那抓取京东网站就变成抓取所有分类，按分类找到商品列表页面，从商品列表页面抓取出商品ID，最终循环商品ID，抓取所有商品详情页面，解析商品详情页面，找到所有商品的详细信息。

断点抓取、离线分析

京东有近22个大类143个二级分类,1286三级分类，8615683种商品，近九百万种商品。如果持续在线抓取，会很快比屏蔽。也不方便测试。所以我们采取断点抓取，离线分析。先将分类抓取，将榨取后的信息保存到磁盘中，后期对磁盘中的文件进行分析入库。

14.抓取商品分类

    @Test //抓取商品分类（22,143,1286），http://www.jd.com/allSort.aspx
    public void itemCat() throws IOException{
       String url = "http://www.jd.com/allSort.aspx";
       Document doc = Jsoup.connect(url).get();
       
       Elements level1 = doc.select("h2 span");
              log.info("大类总数："+level1.size());
       for(Element ele : level1){
           log.info(ele.text());
       }
       
       Elements level2 = doc.select("dl dt a");
              log.info("二级分类总数："+level2.size());
       for(Element ele : level2){
           log.info(ele.text());
       }
       
       Elements level3 = doc.select("dl dd a");
              log.info("三级分类总数："+level3.size());
       for(Element ele : level3){
           log.info(ele.text()+" "+ele.attr("href"));
       }
    }
    
       @Test    //抓取某个分类下的商品数
    public void itemCatCountOne() throws IOException{
       String url = "http://list.jd.com/list.html?cat=9987,653,655";
       Document doc = Jsoup.connect(url).get();
       Elements ele = doc.select(".st-ext span");
       log.info(ele.text());
    }
    
       @Test //抓取商品分类下商品的数量，去除特殊链接
    public void itemCatCount() throws IOException{
       Integer total = 0;
       String url = "http://www.jd.com/allSort.aspx";
       Document doc = Jsoup.connect(url).get();
       Elements level3 = doc.select("dl dd a");
              log.info("三级分类总数："+level3.size());
       for(Element ele : level3){
           log.info(ele.text()+" "+ele.attr("href"));
           String urlList = "http:"+ele.attr("href");
           
                     if(urlList.indexOf("?cat=")>0){       //有多种链接，只有含有cat才是商品列表页面
              Document listDoc = Jsoup.connect(urlList).get();
              Elements eleCount = listDoc.select(".st-ext span");
              Integer catCount = 0;
              try{
                  catCount = Integer.valueOf(eleCount.text());
              }catch(Exception e){
                  catCount = 0;
              }
              total += catCount;
              
              Elements elePages = listDoc.select("#J_topPage span.fp-text i");
              Integer pages = 0;
              try{
                  pages = Integer.valueOf(elePages.text());
              }catch(Exception e){
                  pages = 0;
              }
              
              
                            log.info(ele.text()+" 商品数："+catCount+" 页数："+pages);
           }
       }
              log.info("总商品数量："+total);
    }

15.商品列表页面抓取商品编号

    @Test    //获取商品详细信息
    public void getItemInfo() throws IOException{
       String itemId = "1411013";
       String url = "http://item.jd.com/"+itemId+".html";
       Document doc = Jsoup.connect(url).get();
       
       String title = doc.select(".sku-name").get(0).text();
              log.info("标题："+title);
       
       Elements eleImages = doc.select("div#spec-list li img");
       String[] images = new String[eleImages.size()];
       for(int i=0;i

 
  16.抓取商品价格 
  京东的价格是单独发起ajax请求，返回json数组，一次可以查询多个价格 
  http://p.3.cn/prices/mgets?skuIds=J_1411013,J_1411014 
  返回结果为json数组： 
  [{"id":"J_1411013","p":"3888.00","m":"6699.00"},{"id":"J_1411014","p":"569.00","m":"1398.00"}] 
  17.抓取商品卖点 
  京东的卖点是单独发起ajax请求，返回json格式数据，回显到页面 
  http://ad.3.cn/ads/mgets?skuids=AD_1411013,AD_1411014 
  返回结果为json数组： 
  [
{"ad":"\u53CC\u66F2\u9762\u4FA7\u5C4F\uFF0C\u91D1\u5C5E\u4E0E\u73BB\u7483\u5DE7\u5999\u878D\u5408\uFF0C\u81EA\u52A8\u8FFD\u7126\uFF0C\u667A\u80FD\u9065\u63A7\u5668\u652F\u6301\u7EA2\u5916\u9065\u63A7\u529F\u80FD\uFF01\u003C\u0061\u0020\u0020\u0074\u0061\u0072\u0067\u0065\u0074\u003D\u0022\u005F\u0062\u006C\u0061\u006E\u006B\u0022\u0020\u0020\u0068\u0072\u0065\u0066\u003D\u0022\u0068\u0074\u0074\u0070\u003A\u002F\u002F\u0073\u0061\u006C\u0065\u002E\u006A\u0064\u002E\u0063\u006F\u006D\u002F\u0061\u0063\u0074\u002F\u006F\u004C\u005A\u0052\u006C\u0057\u007A\u004D\u0070\u0049\u002E\u0068\u0074\u006D\u006C\u0022\u003E\u9886\u5238\u51CF\u94B1\uFF0C\u4E0B\u5355\u8FD4\u73B0\u003C\u002F\u0061\u003E","id":"AD_1411013"},

{"ad":"\u62C9\u6746\u7BB1\u3001\u4E66\u5305\u3001\u53CC\u80A9\u5305\u7B49\u591A\u79CD\u5546\u54C1\u9886\u5238\u6EE1\u0039\u0039\u51CF\u0032\u0030\u3001\u6EE1\u0033\u0039\u0039\u51CF\u0038\u0030\u003C\u0061\u0020\u0068\u0072\u0065\u0066\u003D\u0027\u0068\u0074\u0074\u0070\u003A\u002F\u002F\u0073\u0061\u006C\u0065\u002E\u006A\u0064\u002E\u0063\u006F\u006D\u002F\u0061\u0063\u0074\u002F\u006F\u0057\u0073\u007A\u0055\u0033\u006E\u0032\u0059\u0070\u006D\u0074\u0044\u002E\u0068\u0074\u006D\u006C\u0027\u0020\u0074\u0061\u0072\u0067\u0065\u0074\u003D\u0027\u005F\u0062\u006C\u0061\u006E\u006B\u0027\u003E\u5F00\u5B66\u4E0D\u5C06\u201C\u65E7\u201D\uFF0C\u9886\u5238\u4EAB\u6EE1\u51CF\uFF01\uFF01\u901F\u901F\u62A2\u8D2D\u5427\u007E\u003C\u002F\u0061\u003E","id":"AD_1411014"}
] 
    
  18.抓取商品描述 
  京东的商品描述是单独发起ajax请求，返回jsonp格式数据，回显到页面 
  http://d.3.cn/desc/1411013 
  showdesc({"date":1469167322294,"content":"


"}) 
   
  第三天：爬取商品价格+报表eCharts 
  eCharts 
  19.饼形图 
   
  pie.html 
  


    
    ECharts
    
    


    
    
    

 
  20.柱状图 
   
  bar.html 
  


    
    ECharts
    
    


    
    
    

 
  21.曲线图 
   
  line.html 
  


    
    ECharts
    
    








 
  7.比价器系统 
  23.京东 
  京东的价格是单独发起ajax请求，返回json数组，一次可以查询多个价格 
  http://p.3.cn/prices/mgets?skuIds=J_1411013,J_1411014 
  返回结果为json数组： 
  [{"id":"J_1411013","p":"3888.00","m":"6699.00"},{"id":"J_1411014","p":"569.00","m":"1398.00"}] 
  23.淘宝 
      
      @Test
    public void taobaoItemPrice() throws IOException{
       String itemId = "560563554738";
       String url = "http://mdskip.taobao.com/core/initItemDetail.htm?isRegionLevel=true&itemTags=385,775,843,1035,1163,1227,1478,1483,1539,1611,1863,1867,1923,2049,2059,2242,2251,2315,2507,2635,3595,3974,4166,4299,4555,4811,5259,5323,5515,6145,6785,7809,9153,11265,12353,12609,13697,13953,16321,16513,17473,17537,17665,17857,18945,19841,20289,21762,21826,25922,28802,53954&tgTag=false&addressLevel=4&isAreaSell=false&sellerPreview=false&offlineShop=false&showShopProm=false&isIFC=false&service3C=true&isSecKill=false&isForbidBuyItem=false&cartEnable=true&sellerUserTag=839979040&queryMemberRight=true&itemId="+itemId+"&sellerUserTag2=306250462070310924&household=false&isApparel=false¬AllowOriginPrice=false&tmallBuySupport=true&sellerUserTag3=144467169269284992&sellerUserTag4=1152930305168967075&progressiveSupport=true&isUseInventoryCenter=false&tryBeforeBuy=false&callback=setMdskip×tamp=1420351892310";
       HttpClientBuilder builder = HttpClients.custom(); 
        builder.setUserAgent("Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:0.9.4)"); 
        CloseableHttpClient httpClient = builder.build(); 
        final HttpGet httpGet = new HttpGet(url); 
        httpGet.addHeader("Referer", "http://detail.tmall.com/item.htm?id="+itemId+"&skuId=68347779144&areaId=110000&cat_id=50024400&rn=763d147479ecdc17c2632a4219ce96b3&standard=1&user_id=263726286&is_b=1"); 
        CloseableHttpResponse response = null; 
        response = httpClient.execute(httpGet); 
        final HttpEntity entity = response.getEntity(); 
        String result = null; 
        if (entity != null) { 
            result = EntityUtils.toString(entity); 
            EntityUtils.consume(entity); 
        } 
         
        //商品价格的返回值，需要解析出来价格 
         
        result = result.substring(10, result.length()-1); 
    } 
  24.苏宁 
  http://ds.suning.cn/ds/generalForTile/000000000690128134-9173-2-0000000000-1--ds000000000.jsonp 
  25.价格比较柱状图 
  price.html 
  


    
    ECharts
    
    


    
    
    

 
    
    
   
  day04:用HttpClient+Jsoup的三种方式爬取网页内容 
  最终实现爬虫比价系统 
  苏宁，实现如果发现其他家商品比苏宁商品便宜，立刻降价。 
  软件系统，去各大网站爬取它们对应商品的价格，如果发现价格便宜，立刻修改自己的商品的价格。 
  技术难题： 
  如何解决去爬取其他商城的商品的信息，其中最重要价格！ 
  爬虫项目中会涉及一些技术点 
   
    JavaScript，js，脚本语言python html/jsp
  
   
  js规范它的代码都写在标签>固定属性language=”javascript” 
            
           js只是在浏览器使用，功能受限，很多事情做不了（不能访问本地文件） 
           这种语言脚本语言。 
   
    Json
  
   
  就是一个字符串”{‘name’:’hello World’}” 
  Json本质是字符串，但是这个字符串有规定 
  字符串{}；有key=name,value=hello World；冒号分割key:value 
  http://p.3.cn/prices/mgets?skuIds=J_7348367 
  [ 
  { 
  "op":"899.00", 
  "m":"9999.00", 
  "id":"J_22769568633", 
  "p":"899.00" 
  } 
  , 
  { 
  "op":"1699.00","m":"1999.00","id":"J_5842519","p":"1399.00" 
  } 
  ] 
  []开始，支持多条记录，数组， 
  每条记录以{开始，以}结束，每条记录以逗号分隔 
  4个属性，key,value，多个属性以逗号隔开 
   
    Jsonp
  
   
  Fun(json) 
  Showname(“{‘name’:’hello World’}”) 
  Jsonp本质就是一个函数名把一个json串括在里面 
  show([{"op":"899.00","m":"9999.00","id":"J_22769568633","p":"899.00"},{"op":"1699.00","m":"1999.00","id":"J_5842519","p":"1399.00"}]) 
  http://d.3.cn/desc/7348367 
   
   
    ObjectMapper转换工具
  
   
  pojo转成json；json转成pojo 
   
    HttpClient 最简单爬虫，爬取整个网站，Hadoop底层
  
    Jsoup 主角，专业爬虫；python beatifulsoup
  
    Echarts 百度专业统计图形工具
  
   
  网站获取有3种类型： 
   
    html
  
    json，本质字符串
  
    jsonp，fun(json) 本质还是字符串
  
   
   
  追求： 
   
    对应目的，使用哪个工具更趁手
  
   
  在工作中总会遇到新的知识，领导还不给你时间！ 
  学会利用现有的程序，变成新的内容！ 
  爬虫，学会爬京东，自己去学会爬淘宝。 
  创建一个javaWeb项目 
   
    导入jar包
  
   
  commons-logging-1.1.1.jar                                  公用日志包，工具内部需要 
  httpclient-4.3.3.jar                                                httpClient模拟http请求的客户端工具 
  httpcore-4.3.2.jar                                                  依赖包 
  jsoup-1.7.2.jar                                                         jsoup爬虫包，爬虫工程师 
  jackson-annotations-2.4.0.jar                             jackson json      ObjectMapper对象 pojo<>json 
  jackson-core-2.4.2.jar 
  jackson-databind-2.4.2.jar 
  fastjson-1.1.37.jar 
    
    
    
    
    
    
   
  抓取一个页面后 
  1.获取整个页面html 
  2.从中可以获取标题，内容，图片 
  可以做自己的新闻网站，今日头条都是自己的新闻吗？不是！ 
  怎么从Html里分离出标题，内容，图片。 
    
  1.创建项目和导入jar包 
  1.1 用HttpClient的方式抓取 
    
   
  package test;
import java.io.IOException;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClientBuilder;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.junit.Test;
public class TestHttpClient {
    
    @Test
    public void page() throws ClientProtocolException, IOException {
        //目标：抓取整个网站
        
        /*
         * 用httpclient工具包来实现抓取网站
         * 1）创建builder对象
         * 2）创建一个httpclient对象
         * 3）模拟发起一个http请求，url，可以去访问这个网站
         * 4）接收一个响应对象，对象中有很多的内容，我们只要页面的内容
         * 5）把这个页面对象转成string（html）
         */
        //                              客户端             习惯
        HttpClientBuilder builder = HttpClients.custom();
        HttpClient hc = builder.build();
        //构建一个请求的对象
        String url = "http://ent.qq.com/a/20180412/017735.htm";
        HttpGet get = new HttpGet(url);
        //执行完成把结果封装到响应的对象中,执行get请求
        HttpResponse response = hc.execute(get);
        //获取实体 返回对象
        HttpEntity entity = response.getEntity();
        //解析出整个页面的html代码;EntityUtils:实体工具对象
        String html = EntityUtils.toString(entity);
        System.out.println(html);
    }
} 
    
  1.2 用Jsoup的方式抓取 
    
   
  
 标题
 
  
 
  利用谷歌浏览器，快速定位标签，点击标签所在位置右键，检查 
  展现这个标签结构，如果只是部分内容，选择它的父标签，选中所有内容 
   
  工作中开发方式，无法把每个的内容都熟透！ 
  应用！计算机是一门应用科学。 
  在别人的基础上实现新的功能。 
  HttpClient 模拟http请求，可以进行代码的提交。 
  问度娘，demo做实例，那实例修改！ 
  分析它的一个结构 
   
  抓取整个网站 
   
    网站页面中都有很多链接去链接别的页面
  
    把页面中所有的a标签都抓取到，把它的链接在去抓
  
    重复
  
    别的网站，只抓本域名下的链接
  
    要避免死循环，出现过的不抓了
  
   
  抓取所有的a标签： 
   @Test      //抓取页面所有的a链接标签
 public void a() throws IOException{
    String url = "http://ent.qq.com/a/20171117/007399.htm";
    Elements els = Jsoup.connect(url).get().select("a");
    for(Element o:els){
        System.out.println(o.attr("href"));
    }
 } 
    
    
  企业中实现一个爬虫秘诀： 
   
    要分析每个不同网站的不同的页面组成结构
  
    反爬虫（电商）二次加载（有地方再次发出请求url）
  
   
  org.jsoup.UnsupportedMimeTypeException:
Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml. Mimetype=application/json;charset=utf-8, URL=http://p.3.cn/prices/mgets?skuIds=J_3296833
text/html 
    
    
    
   
  程序出错大多原因是获取的值不正确，eclipse给我们提供断点功能。 
   
  获取jsonp形式来解析 
  showdesc({"date":1525854280288,"content":""}) 
  jd商品详情，二次提交，获取是showdesc(json) 
  Jackson ObjectMapper JsonNode 
  小结： 
  全版的 
  Connection cn = Jsoup.connect(url);         //引入报错
Document doc = cn.get();                           //页面js document
Elements els= doc.select(“.qq”).select(“.pp”);                  
for(Element o:els){
         o.text();                      //div里面是文字
         o.attr(“href”);           //
         o.attr(“src”);             //
}
els.get(0);                  //获取数组中第一元素，哪怕只有一个元素
 
    
  爬取的过程有异常吗？ 
  有，网络出问题；对方网站忙；自己处理异常 
   
    抛出异常，谁调用我谁处理，
  
    try{}catch(Exception e){ 打印异常到控制台 }
  
   
  1.第一种html 
  获取Html 
  获取Html
Jsoup.connect(url).get().body().text();
title 选择器是在页面中找寻指定位置，可以一个，也可以多个
Jsoup.connect(url).get().select(“h1”) 
  2.第二种json， 
  数组[{“name”:”tony”,”age”:68},{“name”:”hellen”,”age”:18}] 
  Jsoup.connect(url) .ignoreContentType(true).get().body()      Element  .text()
获取Json时不是一个标准的响应text/html(html，jsp)，这时必须 ignoreContentType(true)
String json就是一个字符串 [{“n”:”pr”,”p”:”3399.00”}] 
    
  怎么从这里获取p价格？ 
  ObjectMapper MAPPER = new ObjectMapper();
JsonNode node = MAPPER.readTree(json);               
//readTree会把Json字符串，转成JsonNode对象
JsonNode node1 = node.get(0)         
//从数组中获取第一个元素
String price = node1.get(“p”).asText() 
    
  3.第三种jsonp， 
  show ({“n”:”pr”,”p”:”3399.00”})
fun(json)
String jsonp = Jsoup.connect(url).ignoreContentType(true).get().body().text();
String json = jsonp.substring(5,jsonp.length()-1)               截取字符串
ObjectMapper MAPPER = new ObjectMapper();
JsonNode node = MAPPER.readTree(json);
node.get(“p”).asText(); 
    
  难点： 
   
    页面变化 
，样式进行批量修改，重新分析编写爬虫代码
  
    历史问题，历史写了多个不同的版本，根据不同的版本写不同的爬虫
  
    它会检查是否上一个页面也是淘宝网址，如果不是直接不允许访问，如果是就可以继续
  
    登录，cookie,session
  
   
  ------------------------------------------------------------------------------ 
  上午： 
  1.第一种抓取html 
  创建TestJsoup类 
   
    
      /**
     * 抓取某个页面
     * @throws IOException
     */
    @Test
    public void html() throws IOException {
        String url = "http://ent.qq.com/a/20180412/017735.htm";
        //创建链接
        Connection conn = Jsoup.connect(url);
        //获取Document页面对象
        Document docu = conn.get();
        //获取页面的内容，jsoup中把网页中的所有body中的内容
        Element ele = docu.body();
        //获取到页面Html内容
        String html = ele.html();
        System.out.println(html);
    } 
      /**
     * 抓取标题
     * @throws IOException
     */
    @Test
    public void titlel() throws IOException {
        String url = "http://ent.qq.com/a/20180412/017735.htm";
        //创建链接
        Connection conn = Jsoup.connect(url);
        //获取Document页面对象
        Document docu = conn.get();
        找到页面中所有的h1标签，放在一个元素集合
        Elements ele = docu.select("h1");
        //循环中每个元素类型 Elment，e给它起个别名，循环是每个对象，els就是上面的集合
        for(Element e : ele) {
            //获取其中的文本
            String title = e.text();
            System.out.println(title);
        }
        
    } 
   
    
      /**
     * 获取新闻内容，唯一定位
     * @throws IOException
     */
    @Test
    public void content() throws IOException {
        String url = "http://ent.qq.com/a/20180412/017735.htm";
        //创建链接
        Connection conn = Jsoup.connect(url);
        //获取Document页面对象
        Document docu = conn.get();
        找到页面中所有的h1标签，放在一个元素集合
        Elements ele = docu.select(".bd");
        for(Element e:ele) {
            String content = e.text();
            System.out.println(content);
            
        }
    } 
   
    
      /**
     * 获取新闻图片，获取新闻中多张图片
     * @throws IOException
     */
    @Test
    public void img() throws IOException {
        String url = "http://ent.qq.com/a/20180412/017735.htm";
        Elements ele = Jsoup.connect(url).get().select("p img");
        for(Element e:ele) {
            String img = e.attr("src");
            System.out.println(img);
        }
    } 
   
    
      /**
     * 抓取页面所有的a链接标签
     * @throws IOException
     */
    @Test   
    public void a() throws IOException{
        String url = "http://ent.qq.com/a/20171117/007399.htm";
        Elements els = Jsoup.connect(url).get().select("a");
        for(Element o:els){
            System.out.println(o.attr("href"));
        }
    } 
    
   
    
  ------------------------------------------------------------------------------ 
    
  下午： 
  
2.第二种抓取json串数据 
  1、创建TestJD类抓取京东商品的价格 
   
    
      /**
     * 在爬取网页内容时，请求返回的是json字符串
     * 如何来获取json串中的数据
     *
     * 例：获取京东商品的价格；
     * @throws IOException
     */
    @Test
    public void price() throws IOException {
        String url = "http://p.3.cn/prices/mgets?skuIds=J_3296833";
        //ignoreContentType:忽略内容类型
        String json = Jsoup.connect(url).ignoreContentType(true).get().body().text();
        System.out.println(json);
        
        //2.获取json字符串中把p获取到
        
        ObjectMapper om = new ObjectMapper();
        //把字符串转成成JsonNode对象结构
        JsonNode node = om.readTree(json);
        //从JsonNode对象结构获取p
        String price = node.get(0).get("p").asText();
        System.out.println(price);//2999.00
    
    } 
   
    
  3.第三种抓取jsonp数据 
   
   
    
      /**
     * 3.第三种抓取jsonp中的数据
     *
     * 获取商品的详情
     * @throws IOException
     */
    @Test
    public void deatil() throws IOException {
        String url = "http://d.3.cn/desc/7348367";
        String jsoup              =Jsoup.connect(url).ignoreContentType(true).get().body().text();
        //截取字符串 showdesc({"date":
        String json =jsoup.substring(9, jsoup.length()-1);
        //获取Json串中的content属性的内容
        ObjectMapper om = new ObjectMapper();
        JsonNode node = om.readTree(json);
        String desc =node.get("content").asText();
        System.out.println(desc);
        
    } 
    
   
  day05:抓取京东商品一系列信息（标题，卖点，价格，图片，描述） 
  知识回顾： 
  1.概念 
    
   
    
     
      Javascript
  
      脚本语言（弱语言，只在网页使用，为了安全原因）java（面向对象，强语言）
  
     
     
      Css两种方式
  
      style属性；link标签 base.css
  
     
     
      Js两种方式
  
         xxx.js
  
     
     
      Json
  
      本质字符串，String a = “[{“name”:”[{},{}]”,”age”,18},{}]”; 
  成为日常系统交换数据的通用方式，安卓手机，httpclient+json
  
     
     
      Jsonp
  
      本质字符串，show([{},{}]) javascript函数，解决跨域问题
  
     
     
      ObjectMapper
 Jackson json
  
      专门用于pojo和json字符串直接转换，从json字符串中挑出我们关心的属性的值
  
     
    
   
             ObjectMapper MAPPER = new ObjectMapper();
           //从json字符串中获取某个key的value？
           JsonNode node = MAPPER.readTree(json);
           //注意node中的结构，
           数组：node.get(0).get(“p”).asText();
           直接是单个元素：node.get(“p”).asText(); 
  2.爬虫 
    
   
    
     
      Httpclient
  
      模拟发起一个http请求，携带参数，获取返回值
  
     
     
      Jsoup
  
      真正爬虫，对页面数据有一套解析方法，利用css，样式表+jQuery提出选择器
  
     
     
      选择器3种情况
  
      
 
       
        直接使用html规范的标签：div
  
        使用id，#orderId
  
        使用class，.ordercss
  
        .select(.ordercss).select(.detail) 特殊情况
  
       
     
    
   
    
  抓取一个title整个过程？ 
  String url = “sina/1289392.htm”;
Connection cn = Jsoup.connect(url);         //找到要爬取的网站
Docment doc = cn.get();                             //获取到爬取的页面
Elements els = doc.select(“h1”);               //获取了h1标签的集合，集合只有一个元素
Element ele = els.get(0);                             //只获取第一个
for(Element e:els){                                        //获取多张图片
         e.attr(“src”);
}
ele.text();        
  简洁方式： 
  Jsoup.connect(url).get().select(“h1”).get(0).text(); 
   
    怎么在eclipse中调试代码（最多）
  
   
  断点：breakpoint 
   
  在debug模式程序会自动进入到断点。 
   
  弹出的框是提示我们要进入新的debug的窗口环境，设置为yes。 
  以后不会弹出。 
   
   
   
   
  断点调试3个按钮，也支持快捷键 
  F5     进入到子程序中，调用一个函数，进入函数 
  F6     执行一行（用的最多） 
  F7     跳出当前的执行，返回上级调用 
           Fun a(){ 
                     Funb(); 
  } 
  断点方便我们观察每个值， 
  时间开发中，大多数错误99%，变量的值不对； 
  通过断点观察这个值对不对！ 
   
    抓取jd它的价格和描述怎么来的？
  
   
  典型的二次提交 
   
   
   
   
  拷贝请求： 
   
    
  https://p.3.cn/prices/mgets?callback=jQuery634178&type=1&area=1_2901_4135_0.137859419&pdtk=&pduid=15196129033001458838393&pdpin=52399178_m&pin=52399178_m&pdbp=0&skuIds=J_4483112&ext=11000000&source=item-pc 
  http://p.3.cn/prices/mgets?skuIds=J_7348367 
    
   
    
   
    
     
      https://
  
      协议
  
      http://
  
      安全，防止黑客攻击
  
     
     
      /prices
  
      映射路径
  
       
  
       
  
     
     
      p.3.cn
  
      网址
  
      ,3.cn域名p.3.cn
  
      二级域名
  
     
     
      mgets
  
      类似servlet
  
       
  
       
  
     
     
      ?
  
      参数的开始，很多的参数
  
       
  
       
  
     
     
      &
  
      参数之间分隔符
  
       
  
       
  
     
     
      key,value
  
       
  
       
  
       
  
     
     
      callback
  
      参数名称
  
       
  
       
  
     
     
      jQery334234
  
      参数的值
  
       
  
       
  
     
    
   
    
    
    
   
   
  怎么去抓取jd商城的商品详情？ 
   
    抓取核心信息：标题、卖点、价格、图片、描述
  
    https://item.jd.com/7348367.html
  
   
  https://item.jd.com/7348368.html 
  https:// 协议 
  item.jd.com二级域名 
  7348367  代表唯一标识id， 
  自增 
  解决方案：for 0（起始值小于网站商品的id值）到 99999999（大于最大的商品的id号） 
  Jsoup一个一个url抓 
  “https://item.jd.com/”+7348368+“.html” 
  缺点：很多链接无效的！ 
  判断是否无效，判断时间很短，先必须出错，时间耗时！ 
   
  从一级分类链接页面没规律，二级分类链接页面没规律，都直接找不到很多 商品的链接。 
  三级分类，点开列表页面，5*12=60，一页中显示60个商品 
  分页 
   
  找到列表页面，利用选择器找到当前页的所有的商品图片链接 
  Id就可以找到，找到链接jsoup，抓取商品详情！ 
  https://list.jd.com/list.html?cat=9987,653,655# 
  https://list.jd.com/list.html?cat=9987,653,655&page=162 
  找到所有分页，再次请求，抓取到所有的页面的链接 
  这个方案中没有多余的id，都是真实的，抓取效率高！ 
    
   
  总结： 
  目标：抓取所有商品的商品详情信息 
   
    只关注3级分类
  
    获取分页总数
  
    获取每一页数据
  
    直接获取每个商品的详情
  
    放到数据库（京东，淘宝，苏宁）比价系统
  
   
  额外： 
    
  1.获取京东网站所有三级分类 
  网址选择步骤： 
  第一步：https://www.jd.com/ 
   
    
  第二步：https://shouji.jd.com/ 
   
  第三步：https://www.jd.com/allSort.aspx 
   
    
  https://www.jd.com/allSort.aspx 
  aspx，.net，后台服务都使用java 
    
   
    
  创建项目-包-类 
   
  代码实现： 
      /**
      * 获取京东网站所有三级分类
      */
     @Test
     public void level3() throws IOException{
           String url = "https://www.jd.com/allSort.aspx";
           Elements els = Jsoup.connect(url).get()
                .select(".items .clearfix dd a");
           for(Element e:els){
                //获取到商品的链接
                String itemUrl = "http:"+e.attr("href");
                //判断依据，有共同的前缀，以prefix前缀，true,false
                if(itemUrl.startsWith("http://list.jd.com/list.html?cat=")){
                     System.out.println(itemUrl);
                }
           }
     } 
  2.抓取某个分类分页总数，所有分页链接 
    
    
   
              手机3级分类，161页，161*60 
   
    获取每一页数据
  
   
   
    
   
    
    
   
    获取详情的链接   https://list.jd.com/list.html?cat=9987,653,655&page=1
  
   
   
    
      
       /**
     * 抓取某个分类分页总数，所有分页链接
     * @throws IOException
     */
    @Test
    public void itemListUrl() throws IOException {
        
        String url ="https://list.jd.com/list.html?cat=9987,653,655";
        //获得总页数
        Elements  ele = Jsoup.connect(url).get().select(".p-skip").select("b");
        String pageAll=null;
        for(Element e :ele) {
            pageAll = e.text();
        }
        int page = Integer.parseInt(pageAll);
        System.out.println(page);
        
        //获得每一页的链接
        String href = url+"&page=";
        for(int i=1;i<=page;i++) {
            String hrefs = href+i;
            System.out.println(hrefs);
        }
    } 
  3.获取商品的链接 
    
   
    
  /**
 * 获取商品的链接
 * @throws IOException
 */
 @Test
 public void itemUrl() throws IOException{
        String url = "https://list.jd.com/list.html?cat=9987,653,655&page=154";
        Elements els = Jsoup.connect(url).get().select(".p-img a");
           for(Element o:els){
                String itemUrl = "http:"+o.attr("href");
                System.out.println(itemUrl);
           }
 } 
    
  4.抓取所有商品的商品详情信息（标题，卖点，价格，图片，描述） 
  标题： 
   
    
  /**
 * 标题
 * @throws IOException
 */
 @Test
 public void getTitle() throws IOException {
        String url ="https://item.jd.com/7348367.html";
        String title =Jsoup.connect(url).get().select(".sku-name").get(0).text();
        System.out.println("商品的标题是："+title);
 } 
  卖点： 
    
   
    
  查看数据： 
   
    
  得到： 
  https://c.3.cn/recommend?callback=handleComboCallback&methods=accessories&sku=7348367&cat=9987%2C653%2C655 
  
   
  /**
 * 卖点 json
 * 拿到：荣耀10 全面屏AI摄影手机 6GB+64GB 游戏手机 幻夜黑 全网通 移动联通电信4G 双卡双待
 * @throws IOException
 */
 @Test
 public void getSellPoint() throws IOException {
        String url ="https://c.3.cn/recommend?callback=handle"+
                    "ComboCallback&methods=accessories&sku=73"+
                    "48367&cat=9987%2C653%2C655";
        String jsoup = Jsoup.connect(url).ignoreContentType(true).execute().body();
        
        String json =jsoup.substring(20, jsoup.length()-1);
        
        System.out.println(json);
        ObjectMapper om = new ObjectMapper();
        JsonNode node = om.readTree(json);
        String SellPoint =node.get("accessories").get("data").get("wName").asText();
        System.out.println("卖点："+SellPoint);
 } 
  价格： 
  1.找到获取价格的请求可以看出是个jsoup的数据： 
   
    
  2.复制这条请求用谷歌浏览器筛选自己需要的数据得到 
  https://p.3.cn/prices/mgets?callback=jQuery1348823&type=1&skuIds=J_7348367 
   
    
  4.用火狐浏览器打开复制截取的链接确认数据类型： 
    
    
   
      /**
     * 价格
     * @throws IOException
     */
    @Test
    public void getPrice() throws IOException {
        String url = "https://p.3.cn/prices/mgets?callback=jQuery1348823&type=1&skuIds=J_7348367";
        //得到jsonp：
        //jQuery1348823([{"op":"2599.00","m":"9999.00","id":"J_7348367","p":"2599.00"}]);
        String jsonp =Jsoup.connect(url).ignoreContentType(true).execute().body();
        System.out.println(jsonp);
        //截取成json串
        String json = jsonp.substring(14, jsonp.length()-3);
        System.out.println(json);
        ObjectMapper om = new ObjectMapper();
        JsonNode node = om.readTree(json);
        String price = node.get(0).get("op").asText();
        System.out.println("价格："+price);
      
    } 
  图片 
   
      /**
     * 图片
     * @throws IOException
     */
    @Test
    public void getImage() throws IOException {
        String url="https://item.jd.com/7348367.html";
        Elements ele  = Jsoup.connect(url).get().select(".lh li img");
       
        for(Element e:ele) {
            String img = e.attr("src");
            System.out.println(img);
        }
    } 
    
  描述 
   
      /**
     * 商品介绍
     * @throws IOException
     */
    @Test
    public void getDesc() throws IOException {
        String url = "https://item.jd.com/7348367.html";
        Elements ele = Jsoup.connect(url).get().select(".p-parameter").select("ul").select("li");
        //System.out.println(ele);
        for(Element e : ele) {
            
            System.out.println(e.text()+"\n");
        }
    } 
   
    只关注3级分类https://www.jd.com/allSort.aspx进入https://list.jd.com/list.html?cat=9987,653,655
  
   
    
  选择器select，它里面多个样式，必须嵌套关系 
  https://list.jd.com/list.html?cat=9987,653,655 
  http://e.jd.com/ 
  https://mvd.jd.com/music.html 
  https://list.jd.com/list.html?cat=737,794,798 
  爬虫爬取比较规范的数据，不规范的数据舍弃，如果需要这部分数据，单独写爬虫！ 
  我们抓到三级分类1259个！1183有效！ 
   
    抓取商品详情，核心：
  
   
                  标题 
                  卖点 
                  价格 
                  图片 
                  描述 
    
  小结： 
  抓取京东商品详情过程 
   
    获取京东商城的所有的三级页面，商品列表页面都是由三级页面点击而来
  
    进入列表第一个页面，获取它的总页数，拼接成所有的访问页的链接
  
    访问列表页面就获取到页面上的商品链接
  
    一个一个属性抓取 
     
      标题，直接抓网页定位
  
      卖点，二次请求，json
  
      价格，二次请求，json
  
      图片，只小图片，集合，直接抓取页面定位
  
      描述，二次请求，jsonp，去掉函数就是json
  
     
   
  所有的Json引入ObjectMapper去搞定。 
  最难最耗时，二次请求和链接分析 
  反爬虫： 
   
    通过选择器来筛选，把class名称，id改
  
    二次加载，json，换个属性名，jsonp换函数名
  
   
   
  day06:京东、淘宝、苏宁、比价系统框架的搭 
  知识回顾： 
  系统体验爬虫 
  爬取京东商城网站商品详情 
  开发步骤： 
   
    通过3级分类
  
   
   
  https://www.jd.com/allSort.aspx 
  只有在3级分类下才会链接列表页面 
   
  一定要验证抓取结果是否正确，不正确，抓取的代码有问题，修改！ 
  https://list.jd.com/list.html?cat=9987,653,655 
  http://e.jd.com/ 
  找共性，先把最多的统一链接形式的内容抓取下来，一般就足够了， 
  如果还不够，就像把电子书的抓取到？自己在写程序。 
  怎么找共性？ 
  先把所有三级分类链接都打印出来，一扫一眼，就知道哪种更加标准或者说更多使用。 
  2）所有的商品列表中有商品id，链接 
  https://list.jd.com/list.html?cat=9987,653,655 
  里面是含有分页，一页只能抓取60个数据， 
  https://list.jd.com/list.html?cat=9987,653,655&page=3 
  分析出来，其他的参数可以不要，只要page参数，page就是当前页 
  拿到总页数，把它拼接成所有的分页链接，然后一个一个链接去抓取就可以 
  3）获取到每页一个链接，获取商品详情 
  开始自己在页面中抓取各个展现数据。 
   
    标题是可以直接抓取到
  
    利用直接抓取price价格，抓到空，观察，加载情况，标题人家是先出来的，短暂停留，价格才显现出来。直接就判断价格，二次提交，写入到它的位置。（ajax）
  
   
  找到二次提交的链接？ 
   
   
   
  反爬虫，不会在链接中出现这种关键字 
  最差一个情况：一个一个链接找 
  它隐藏，有时隐藏js 
  、 
  没思路，百度，找前人的经验！ 
   
    卖点
  
   
  http://ad.3.cn/ads/mgets?skuids=AD_1411013,AD_1411014 
  百度获取的链接，从前人经验中获取这个信息 
   
    图片
  
   
  直接在网页，直接能抓取小图片 
   
    描述
  
   
  http://d.3.cn/desc/1411013 
  在f12调试时，过滤查询到，也可以获取前人的经验 
  抓取一个新网站时两种方式 
   
    自己分析
  
    获取前人的经验（百度）
  
   
  豆瓣（毕业设计） 
  电影，评分，评论 
   
    电影推荐
  
    电影海报 quartz定时器，每天一张海报
  
    评分可以写成排行，每月一个电影排行榜
  
    评论
  
   
  统计图表 
   
    饼形图
  
   
  换成：个人消费的饼形图 
  要求： 
   
    3个，生活中的分类；住宿，旅游，学习
  
    5个，住宿，旅游，学习，吃饭，交女盆友
  
   
   
   
   
   
    柱状图
  
   
   
    3个，3次月考成绩
  
    5个指标，语文99，数学100，英语60，化学5，物理10
  
   
   
    曲线图
  
   
   
    一周早晨到校时间
  
    工作日5天离校时间
  
   
  工作中解决问题： 
  以工程思路去做！ 
  最终项目目标： 
  需求： 
   
  抓取京东、淘宝、苏宁三家电商，某个商品的价格，用echarts百度图表软件展现出来，领导一看非常直观，领导来决定是否降价。 
  关键技术点： 
   
    抓取京东商城的某个商品的价格？ 
     
      确定某个商品，（动态抓）
  
     
    如何抓取淘宝、苏宁？
  
    如何最终在echarts页面上展现出来
  
   
  隐藏一个问题：怎么判断是同一个商品？ 
  商品有不同规格和颜色，怎么能断定它是同一个呢？ 
  技巧： 
  思路：（一个，动态） 
  利用搜索条，假设输入条件足够详细，理论上查询出来的商品信息匹配度越高。可以近似认为它们是等同。 
  来抓取列表的第一个商品的信息，价格信息，然后把3个商城的价格信息 
  传递给jsp页面，形成echarts所要的数据结构。 
  最终形成柱状图。 
  扩展：（批量，事先抓好） 
   
    都抓到数据库
  
    列出多个字段，
  
    做一个判断，京东-苏宁<0，修改价格，淘宝-苏宁<0，
  
   
  京东 
  https://search.jd.com/Search?keyword=iphonex%2064g 
  https://search.suning.com/iphonex%2064g/ 
  https://list.tmall.com/search_product.htm?q=iphonex+64g 
  开发步骤： 
   
    搜索url都有找到，动态拼接上搜索关键字
  
    Servlet+创建jsp文件，输入框，用户可以填写关键字（表单）
  
   
  SearchServlet，search.jsp 
   
    提交submit，转向到另外servlet，利用jsoup分别抓各个商场搜索数据，近似值，抓取第一款商品id
  
   
  写成3个方法 
  getJDPrice         抓取京东商城某个商品的价格 
  getTBPrice         抓取淘宝商城某个商品的价格 
  getSNPrice         抓取苏宁商城某个商品的价格 
   
    通过商品详情链接，拼接上id，找到商品链接地址
  
    只抓取价格
  
    3个价格都抓取到拼接成满足echarts要的字符串结构，把字符串request传递给统计jsp页面
  
   
  DoServlet调用每个方法，获取其价格，然后拼接jsp页面所要字符串 
  写入request对象中 
   
    统计的Jsp页面通过el表达式获取数据，最终以柱状图展现
  
   
  result.jsp 
  实际开发中， 
   
    先搭建框架，其中遇到方法，假装！getPrice return 100;
  
    每个小细节最终不同的人员完成，团队开发。
  
   
   
   
  在页面中请求分成2类， 
  一类get请求， 
  https://search.jd.com/Search?keyword=iphonex%2064g%20黑色 
  一类post请求（表单请求就属于） 
   method="post" action="/jt-crawler/DoServlet"> 
  按钮 
  οnclick="history.back();return false;"               onclick单击事件 
  history.back();           history是系统提供，back()是回退到上一个页面 
  return false;              放在它去干别的事情，死记！ 
   name="ok" value="返回"/>知识回顾： 
  系统体验爬虫 
  爬取京东商城网站商品详情 
  开发步骤： 
   
    通过3级分类
  
   
   
  https://www.jd.com/allSort.aspx 
  只有在3级分类下才会链接列表页面 
   
  一定要验证抓取结果是否正确，不正确，抓取的代码有问题，修改！ 
  https://list.jd.com/list.html?cat=9987,653,655 
  http://e.jd.com/ 
  找共性，先把最多的统一链接形式的内容抓取下来，一般就足够了， 
  如果还不够，就像把电子书的抓取到？自己在写程序。 
  怎么找共性？ 
  先把所有三级分类链接都打印出来，一扫一眼，就知道哪种更加标准或者说更多使用。 
  2）所有的商品列表中有商品id，链接 
  https://list.jd.com/list.html?cat=9987,653,655 
  里面是含有分页，一页只能抓取60个数据， 
  https://list.jd.com/list.html?cat=9987,653,655&page=3 
  分析出来，其他的参数可以不要，只要page参数，page就是当前页 
  拿到总页数，把它拼接成所有的分页链接，然后一个一个链接去抓取就可以 
  3）获取到每页一个链接，获取商品详情 
  开始自己在页面中抓取各个展现数据。 
   
    标题是可以直接抓取到
  
    利用直接抓取price价格，抓到空，观察，加载情况，标题人家是先出来的，短暂停留，价格才显现出来。直接就判断价格，二次提交，写入到它的位置。（ajax）
  
   
  找到二次提交的链接？ 
   
   
   
  反爬虫，不会在链接中出现这种关键字 
  最差一个情况：一个一个链接找 
  它隐藏，有时隐藏js 
  、 
  没思路，百度，找前人的经验！ 
   
    卖点
  
   
  http://ad.3.cn/ads/mgets?skuids=AD_1411013,AD_1411014 
  百度获取的链接，从前人经验中获取这个信息 
   
    图片
  
   
  直接在网页，直接能抓取小图片 
   
    描述
  
   
  http://d.3.cn/desc/1411013 
  在f12调试时，过滤查询到，也可以获取前人的经验 
  抓取一个新网站时两种方式 
   
    自己分析
  
    获取前人的经验（百度）
  
   
  豆瓣（毕业设计） 
  电影，评分，评论 
   
    电影推荐
  
    电影海报 quartz定时器，每天一张海报
  
    评分可以写成排行，每月一个电影排行榜
  
    评论
  
   
  统计图表 
   
    饼形图
  
   
  换成：个人消费的饼形图 
  要求： 
   
    3个，生活中的分类；住宿，旅游，学习
  
    5个，住宿，旅游，学习，吃饭，交女盆友
  
   
   
   
   
   
    柱状图
  
   
   
    3个，3次月考成绩
  
    5个指标，语文99，数学100，英语60，化学5，物理10
  
   
   
    曲线图
  
   
   
    一周早晨到校时间
  
    工作日5天离校时间
  
   
  工作中解决问题： 
  以工程思路去做！ 
  最终项目目标： 
  需求： 
   
  抓取京东、淘宝、苏宁三家电商，某个商品的价格，用echarts百度图表软件展现出来，领导一看非常直观，领导来决定是否降价。 
  关键技术点： 
   
    抓取京东商城的某个商品的价格？ 
     
      确定某个商品，（动态抓）
  
     
    如何抓取淘宝、苏宁？
  
    如何最终在echarts页面上展现出来
  
   
  隐藏一个问题：怎么判断是同一个商品？ 
  商品有不同规格和颜色，怎么能断定它是同一个呢？ 
  技巧： 
  思路：（一个，动态） 
  利用搜索条，假设输入条件足够详细，理论上查询出来的商品信息匹配度越高。可以近似认为它们是等同。 
  来抓取列表的第一个商品的信息，价格信息，然后把3个商城的价格信息 
  传递给jsp页面，形成echarts所要的数据结构。 
  最终形成柱状图。 
  扩展：（批量，事先抓好） 
   
    都抓到数据库
  
    列出多个字段，
  
    做一个判断，京东-苏宁<0，修改价格，淘宝-苏宁<0，
  
   
  京东 
  https://search.jd.com/Search?keyword=iphonex%2064g 
  https://search.suning.com/iphonex%2064g/ 
  https://list.tmall.com/search_product.htm?q=iphonex+64g 
  开发步骤： 
   
    搜索url都有找到，动态拼接上搜索关键字
  
    Servlet+创建jsp文件，输入框，用户可以填写关键字（表单）
  
   
  SearchServlet，search.jsp 
   
    提交submit，转向到另外servlet，利用jsoup分别抓各个商场搜索数据，近似值，抓取第一款商品id
  
   
  写成3个方法 
  getJDPrice         抓取京东商城某个商品的价格 
  getTBPrice         抓取淘宝商城某个商品的价格 
  getSNPrice         抓取苏宁商城某个商品的价格 
   
    通过商品详情链接，拼接上id，找到商品链接地址
  
    只抓取价格
  
    3个价格都抓取到拼接成满足echarts要的字符串结构，把字符串request传递给统计jsp页面
  
   
  DoServlet调用每个方法，获取其价格，然后拼接jsp页面所要字符串 
  写入request对象中 
   
    统计的Jsp页面通过el表达式获取数据，最终以柱状图展现
  
   
  result.jsp 
  实际开发中， 
   
    先搭建框架，其中遇到方法，假装！getPrice return 100;
  
    每个小细节最终不同的人员完成，团队开发。
  
   
   
   
  在页面中请求分成2类， 
  一类get请求， 
  https://search.jd.com/Search?keyword=iphonex%2064g%20黑色 
  一类post请求（表单请求就属于） 
   method="post" action="/jt-crawler/DoServlet"> 
  按钮 
  οnclick="history.back();return false;"               onclick单击事件 
  history.back();           history是系统提供，back()是回退到上一个页面 
  return false;              放在它去干别的事情，死记！ 
   name="ok" value="返回"/> 
   
  day07:比价系统具体完善 
  知识回顾： 
   
    画图
  
   
  拿到项目，任务，无从下手。 
   
    分解任务，把一个大任务分成很多的小的任务，然后去实现每个任务，链接起来就实现最终大任务。开发步骤。
  
    画图，一图百文。流程图。整个完成爬虫过程。先把框架性画出来，然后一个一个点去实现，最终项目也就完成。
  
   
   
    系统框架图，系统的架构图
  
   
  Servlet,jsp,jsoup 
           任务：爬取京东、淘宝、苏宁；动态实现输入关键字，我们的系统后台分别去每个网站抓取价格，最终返回后拼接成字符串，最终通过echarts柱状图展现。 
   
  今天内容： 
   
    从头把整个项目实现
  
   
  开发步骤： 
   
    创建javaWeb，配置tomcat，把项目部署上去
  
    搭建项目框架，然后在细化每个内容
  
   
  创建类：SearchServlet，DoServlet 
  创建安全的访问的jsp路径/WEB-INF/views 
  创建两个空的jsp：search.jsp，result.jsp 
   
    细化
  
   
  SearchServlet直接转向search.jsp 
  search.jsp创建
， 
  创建一个输入框， 
  创建一个提交按钮提交”>（提交按钮的价值在于用户点击后自动去执行form.action链接） 
  DoServlet获取参数request.getParameter(“key”)，转换中文 
  调用3个网站爬虫方法，京东jsoup，苏宁jsoup，淘宝jsoup+httpclient 
  resuslt.jsp 
  接收DoServlet参数，标识一个价格字符串，直接用el表达式嵌入到json 
  Jsp因为语法校验，如果出错，出错提示，看看是否是自己写错。 
  不管它了，在页面运行起来是进行检查！ 
  Class报错，预编译错误，当文件保存，eclipse进行编译。如果报错说明没有编译过去。基本是运行不了的，这种错误必须解决。 
   
    把项目进行优化（重构）
  
   
  爬虫遇到新的内容 
   
    反爬虫技术，如果是当前网站转过来的链接就可以继续的访问，如果不是就直接拒绝
  
   
  403 Forbidden 
  淘宝为了链接的安全，防止盗链，或者从其他的网站来提交这个链接 
  检查域名taobao.com, 
  解决方案： 
  自己设置一个请求头，Referer代表当前页是从哪个页面过来的（html规范） 
   
    反爬虫，每个请求都会有一个请求头来标识自己是谁，规范。请求头中就会标识我是火狐，就会标识我是一个谷歌浏览器，如果httpclient它也有自己的标识，jsoup它也有自己的标识。
  
   
  服务器后台可以获取这个信息，判断如果是浏览器就可以执行，如果不是也就说明是爬虫类型，服务器就会拒绝 
  解决方案： 
  伪装请求头 
   
   
   
   
    反爬虫，服务器会获取到所有用户的请求，例如tomcat就可以，它会把所有的信息写入到日志文件，监控这个日志文件，就能发现在很短时间内某一个ip地址频繁的访问，1s几百次以上。Nginx监控，封杀。害怕封杀错误，把这个ip暂时加入到一个黑名单中，1分钟后释放。
  
   
  解决方案： 
   
    动态ip，花生壳（不是很好用）
  
    简单易行，延时。延时1分钟，黑名单1小时，抓取效率极低。
  
   
  小结： 
   
    爬虫，几种方式httpclient,jsoup。
  
    httpClient模拟浏览器发起http请求，请求和响应response，api（application interface 应用程序接口）把httpClient工具包。Api学习成本高
  
    jsoup java soup，java爬虫，引入选择器select，选择器利用tag（div span h1 a img）,id（页面唯一性，#id）,class属性（style样式修饰用，定位，重复几率很大， .class）
  
    获取json中某个节点的数据
  
   
  ObjectMapper MAPPER = new ObjectMapper(); 
  JsonNode node = MAPPER.readTree(json字符串)； 
  数组 
  for（JsonNode n :node）{ 
   n.get(“name”); 
  } 
  node.get(0); 
  文本 node.get(“name”).asText(); 
  获取它的href属性：node.get(0).get(“name”).attr(“href”); 
   
    Servlet3.0 ，（2.3 需要一个配置文件去声明servlet）通过@WebServlet注解方式
  
    Request请求对象，封装jsp页面的请求参数，request.getParamter
  
    转向request.getRequestDispatcher(“result.jsp”).forword(request,response);
  
    Jsp引入样式表 
  
    Jsp引入taglib <%@ taglib prefix=”c” uri=” http://java.sun.com/jsp/jstl/core”>
  
   
  <%@ taglib prefix=”fmt” uri=”http://java.sun.com/jsp/jstl/fmt”>格式化日期 
   
    Jstl进行for循环
  
   
   
   ${o.name} 
   
   
    EL表达式${name}
  
    Json [{“name”:”tony”},{}] 中括号数组，大括号一条记录，字符串使用双引号括起来，之间用逗号分库
  
    Jsonp fun(json)，去掉函数名，剩下就是json，通过ObjectMapper


    
        你可能感兴趣的:(java-py)
        
            
                
                                VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite
                                    iwindyforest
vmwaremac os10.10workstationplayer
                                    最近尝试了下VMware下安装MacOS 系统， 
安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章， 
只能提供大概的思路， 但是实际安装起来由于版本问题， 走了不少弯路， 所以我尝试写以下总结， 希望能给有兴趣安装OSX的人提供一点帮助。 
  
  
写在前面的话： 
其实安装好后发现， 由于我的th
                                
                                关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？
                                    deathwknight
JavaScriptjava框架
                                    本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]） 
 
一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下 
 
平台
                                
                                如何把maven项目转成web项目
                                    Kai_Ge
mavenMyEclipse
                                    创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
                                
                                主管？？？
                                    Array_06
工作
                                    转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 
 
 
 
 
很久以前跟同事参加的培训，同事整理得很详细，必须得转！ 
 
前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
                                
                                python内置函数大全
                                    2002wmj
python
                                    最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
                                
                                JSP页面通过JQUERY合并行
                                    357029540
JavaScriptjquery
                                    在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示 
 
 
如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 
 
function mergeCell(){ 
        var trs = $("#table tr"); 
&nb
                                
                                Java基础
                                    冰天百华
java基础
                                    学习函数式编程 
package base;

import java.text.DecimalFormat;

public class Main {

	public static void main(String[] args) {
//		Integer a = 4;  
//		Double aa = (double)a  / 100000;  
//		Decimal
                                
                                unix时间戳相互转换
                                    adminjun
转换unix时间戳
                                    如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？     Java time   JavaScript Math.round(new Date().getTime()/1000)
getTime()返回数值的单位是毫秒   Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
                                
                                作为一个合格程序员该做的事
                                    aijuans
程序员
                                    作为一个合格程序员每天该做的事   1、总结自己一天任务的完成情况 最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 
2、考虑自己明天应该做的主要工作 把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 
3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法 出错不要紧，最重
                                
                                由html5视频播放引发的总结
                                    ayaoxinchao
html5视频video
                                    前言 
  
项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。 
  
视频结构 
  
本该直接介绍html5的<video>的，但鉴于本人对视频
                                
                                解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat
                                    bewithme
httpclient
                                         如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 
  
javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
                                
                                Jedis连接池的入门级使用
                                    bijian1013
redisredis数据库jedis
                                    Jedis连接池操作步骤如下： 
        a.获取Jedis实例需要从JedisPool中获取； 
        b.用完Jedis实例需要返还给JedisPool； 
        c.如果Jedis在使用过程中出错，则也需要还给JedisPool； 
packag
                                
                                变与不变
                                    bingyingao
不变变亲情永恒
                                    变与不变 
   周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在， 
   各种店铺都换了好几茬，这些是变的。 
   三年前还很流行的一款手机在今天看起来已经落后的不像样子。 
   三年前还运行的好好的一家公司，今天也已经不复存在。 
   一座座高楼拔地而起，
                                
                                【Scala十】Scala核心四：集合框架之List
                                    bit1129
scala
                                    Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 
  
1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 
  
2. 给变量赋值(注意val关键字，a，b
                                
                                Nested Functions in C
                                    bookjovi
cclosure
                                      
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。 
  
既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
                                
                                Java-Collections Framework学习与总结-WeakHashMap
                                    BrokenDreams
Collections
                                            总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。 
 
        
强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
                                
                                读《研磨设计模式》-代码笔记-解释器模式-Interpret
                                    bylijinnan
java设计模式
                                    声明： 本文只为方便我个人查阅和理解，详细的分析以及源代码请移步 原作者的博客http://chjavach.iteye.com/ 
 
 

package design.pattern;

/*
 * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象
 * 
 * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值
 * 多
                                
                                After Effects操作&快捷键
                                    cherishLC
After Effects
                                    1、快捷键官方文档 
 
 
 中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html  
 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html  
 
 
 2、常用快捷键
                                
                                Maven 常用命令
                                    crabdave
maven
                                    Maven 常用命令 
  
mvn archetype:generate 
mvn install 
mvn clean 
mvn clean complie 
mvn clean test 
mvn clean install 
mvn clean package 
mvn test 
mvn package 
mvn site 
  
mvn dependency:res
                                
                                shell bad substitution
                                    daizj
shell脚本
                                    #!/bin/sh 
 
/data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
                                
                                Java SE 第二讲（原生数据类型 Primitive Data Type）
                                    dcj3sjt126com
java
                                    Java SE  第二讲： 
 
1.   Windows: notepad, editplus, ultraedit, gvim 
Linux: vi, vim, gedit 
 
2.   Java 中的数据类型分为两大类： 
1）原生数据类型  （Primitive Data Type） 
2）引用类型（对象类型）  （R
                                
                                CGridView中实现批量删除
                                    dcj3sjt126com
PHPyii
                                    1，CGridView中的columns添加 
array(
                        'selectableRows' => 2,
                        'footer' => '<button type="button" onclick="GetCheckbox();" style=&
                                
                                Java中泛型的各种使用
                                    dyy_gusi
java泛型
                                    Java中的泛型的使用：1.普通的泛型使用 
在使用类的时候后面的<>中的类型就是我们确定的类型。 
public class MyClass1<T> {//此处定义的泛型是T
    private T var;

    public T getVar() {
        return var;
    }

    public void setVa
                                
                                Web开发技术十年发展历程
                                    gcq511120594
Web浏览器数据挖掘
                                    回顾web开发技术这十年发展历程： 
Ajax 
03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。 
彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
                                
                                openSession()与getCurrentSession()区别：
                                    hetongfei
javaDAOHibernate
                                    来自 http://blog.csdn.net/dy511/article/details/6166134 
1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 
2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。 
这里getCurrentSession本地事务(本地
                                
                                第一章 安装Nginx+Lua开发环境
                                    jinnianshilongnian
nginxluaopenresty
                                    首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
                                
                                HSQLDB In-Process方式访问内存数据库
                                    liyonghui160com

                                      
  
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。 
  
先睹为快！ 
  
下面是一个In-Process方式访问内存数据库的代码示例： 
  
  
下面代码需要引入hsqldb.jar包 （hsqldb-2.2.8） 
  
import java.s
                                
                                Java线程的5个使用技巧
                                    pda158
java数据结构
                                    Java线程有哪些不太为人所知的技巧与用法？   　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常 
工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。   
                                
                                开发资源大整合：编程语言篇——JavaScript（1）
                                    shoothao
JavaScript
                                    概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。           
  程序包管理器  
  管理javascript库并提供对这些库的快速使用与打包的服务。 
 
  Bower - 用于web的程序包管理。 
  component - 用于客户端的程序包管理，构建更好的web应用程序。 
  spm - 全新的静态的文件包管
                                
                                避免使用终结函数
                                    vahoa.ma
javajvmC++
                                    终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。 
  
    我自己总结了一下这一条的综合性结论是这样的： 
1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.

Javascript	脚本语言（弱语言，只在网页使用，为了安全原因）java（面向对象，强语言）
Css两种方式	style属性；link标签 base.css
Js两种方式	xxx.js
Json	本质字符串，String a = “[{“name”:”[{},{}]”,”age”,18},{}]”; 成为日常系统交换数据的通用方式，安卓手机，httpclient+json
Jsonp	本质字符串，show([{},{}]) javascript函数，解决跨域问题
ObjectMapper Jackson json	专门用于pojo和json字符串直接转换，从json字符串中挑出我们关心的属性的值

https://	协议	http://	安全，防止黑客攻击
/prices	映射路径
p.3.cn	网址	,3.cn域名p.3.cn	二级域名
mgets	类似servlet
?	参数的开始，很多的参数
&	参数之间分隔符
key,value
callback	参数名称
jQery334234	参数的值

py-02-爬虫比价器

目录：

day01:爬取新闻网站

day02:爬取京东商城

day03:爬取商品价格+报表eCharts

day04:用HttpClient+Jsoup的三种方式爬取网页内容

day05:抓取京东商品一系列信息（标题，卖点，价格，图片，描述）

day06:京东、淘宝、苏宁、比价系统框架的搭建

day07:比价系统具体完善

第一天：爬取新闻网站

比价器系统

比价系统功能

工作原理

2.涉及的技术点

1.JavaScript

2.json

3.HttpClient

4.Jsoup

爬虫新闻

5.Httpclient

6.Jsoup

7.抓取价格 – json

8.抓取描述 - jsonp

第二天：爬取京东商城

抓取的五种方式

9.抓取页面

10.抓取整个网站

11.抓取标题 - 页面上的内容

12.抓取价格 – json

13.抓取描述 - jsonp

5.爬取京东

14.抓取商品分类

15.商品列表页面抓取商品编号

16.抓取商品价格

17.抓取商品卖点

18.抓取商品描述

第三天：爬取商品价格+报表eCharts

eCharts

19.饼形图

20.柱状图

21.曲线图

7.比价器系统

23.京东

23.淘宝

24.苏宁

25.价格比较柱状图

day04:用HttpClient+Jsoup的三种方式爬取网页内容

标题

2.第二种抓取json串数据

day05:抓取京东商品一系列信息（标题，卖点，价格，图片，描述）

day06:京东、淘宝、苏宁、比价系统框架的搭

day07:比价系统具体完善

你可能感兴趣的:(java-py)