py嘎嘎

Python网络爬虫实战：爬取携程网酒店评价信息

这个爬虫是在一个小老弟的委托之下写的。

他需要爬取携程网上的酒店的评价数据，来做一些分词和统计方面的分析，然后来找我帮忙。

爬这个网站的时候也遇到了一些有意思的小麻烦，正好整理一下拿出来跟大家分享一下。

这次爬取过程稍微曲折，各种碰壁，最终成功的过程，还是有点意思。

所以本文我会按照自己当时爬取的思路来讲述，希望能给大家一些思路上的启发。

分析部分略长，如果赶时间可以直接拉到最下面，自取代码。

如果是想学习爬虫的话，最好还是跟着文章的思路走一遍吧。

一、明确需求

这位小老弟给我的需求是：

爬取携程网（https://hotels.ctrip.com/）酒店的用户评价数据，具体来讲就是要爬取【上海静安香格里拉大酒店】的评价中，出行类型为【家庭亲子】的用户的评价数据。
评价数据包括：昵称，房型，入住日期，评价日期，评分，评价内容。

要求很简单不是嘛，数据量也不是很大（我看了一下，也才 910 条评价，后来爬取完成之后发现其实只有 750 条左右），根本不够看的。于是，我自作主张，返了个场，在他需求的基础上添加了几条：

酒店不只爬一家了，要爬就爬取【北京市】的所有【四星级以上】的酒店。
评价数据也不止爬【家庭亲子】类型了，要爬就爬所有的评价数据。

二、分析目标网站

这里我发现新手在这里一般都有一个共有的误区，就是他们觉得爬虫都是 “通用” 的，一个网站的爬虫拿过来，网址改一下，再随便撺吧撺吧就可以爬另一个网站了。

实际上，每一个网站的爬取都是需要单独进行分析的，你需要找到目标数据是在网页上的什么位置，是通过静态还是动态的方式加载进去的，网站是否有难搞的反爬虫措施，等等，从而来制定自己爬虫的爬取策略。

一般情况下，除非两个网站是极其相似的，或者根本就是用同一个网页模板开发的，这样的话可以套用同一个爬虫来爬，否则，需要针对每个网站的特点去写对应的爬虫。

1. 酒店列表爬取

好了，话不多讲，我们先来分析一下目标网站。

首先打开携程网站，目的地选择【北京】，星级选择【四星级】和【五星级】，点击搜索。

此时网址是：https://hotels.ctrip.com/hotel/beijing1#ctm_ref=hod_hp_sb_lst

可以看到网址中只包含了【北京】这个信息，什么四星级五星级的筛选条件，并没有体现在 URL 中。但是从结果来看，它又是确实完成了筛选，所以筛选条件的这些参数肯定是包含在请求的某一个位置的。

继续向下看，翻到页尾，发现网站是用这种方式来实现【翻页】功能的。点击【下一页】，跳转到了第 2 页。

回头看一下 URL，居然没有一丝变化，还是：https://hotels.ctrip.com/hotel/beijing1#ctm_ref=hod_hp_sb_lst

到现在基本可以确定一件事儿了，网页中的酒店信息是通过【动态】方式加载进来的。

好，我们去抓包看一下，按 F12 召唤出【开发者工具】，切换到【Network】选项卡，然后刷新一下页面。

天哪，瞧我发现了什么！！！

在浏览器加载页面时，我抓到了一个叫【AjaxHotelList.aspx】的网络请求，而它的返回结果，恰恰就是我们页面中展示的酒店列表的信息。

果然，携程网的酒店数据，是通过 Ajax 请求动态地加载的。如果没猜错的话，刚才没找到的【四星级、五星级】筛选条件参数，以及页码的参数，应该就藏在这个 Ajax 请求的参数中吧。

如图，切换到 Headers 选项，拉到最底下（Form Data 里的参数有点多，代表了各种各样的筛选条件，不过我们不关心那些），看到了 star 和 page 两个参数。

果然如我所料！

不过不能高兴太早，为了防止网站有什么比较坑爹的反爬机制，最好先写段代码验证一下，看能否按照预期爬到数据。

这里我网络请求用的是 requests 库，数据解析用的是 json 库。

照着浏览器中开发者工具里的 Ajax 请求，把里面的 url，headers，以及 form data 搬过来填这里，发起请求，打印返回结果。

（无关的参数实在太多了，这里简化了一下，只保留了关键的三个参数，cityId，star，和 page）


  
    
    
    
    
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import requests
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import json
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        def fetchHotel(city, star, page):
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          url = 
      
        
        
        
        "https://hotels.ctrip.com/Domestic/Tool/AjaxHotelList.aspx"
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          headers = {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Content-type': 
      
        
        
        
        'application/x-www-form-urlencoded; charset=UTF-8',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Origin': 
      
        
        
        
        'https://hotels.ctrip.com',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Referer': 
      
        
        
        
        'https://hotels.ctrip.com/hotel/beijing1',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'accept': 
      
        
        
        
        '*/*',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'user-agent': 
      
        
        
        
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          formData = {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'cityId': city,
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'star': star,
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'page': page,
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        # 发起网络请求
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r = requests.post(url, data=formData,headers=headers)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r.raise_for_status()
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r.encoding = r.apparent_encoding
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        # 打印 r.text 来看看是否获取到了酒店数据
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          print(r.text)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
      fetchHotel(
      
        
        
        
        '1',
      
        
        
        
        '4,5',
      
        
        
        
        1)

运行一下，确实出来结果了（虽然输出一堆 “乱七八糟” 的东西，但是从中文字里还是能够看出来，数据取到了）

OK，这条路走通了，不过既然都写到这儿了，顺手把 json 给解析一下，把数据提取了吧。（免得有的小伙伴不相信）

这里我们提取酒店名称，酒店ID 打印出来看看。


  
    
    
    
    
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import requests
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import json
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        def fetchHotel(city, star, page):
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          url = 
      
        
        
        
        "https://hotels.ctrip.com/Domestic/Tool/AjaxHotelList.aspx"
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          headers = {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Content-type': 
      
        
        
        
        'application/x-www-form-urlencoded; charset=UTF-8',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Origin': 
      
        
        
        
        'https://hotels.ctrip.com',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Referer': 
      
        
        
        
        'https://hotels.ctrip.com/hotel/beijing1',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'accept': 
      
        
        
        
        '*/*',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'user-agent': 
      
        
        
        
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          formData = {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'cityId': city,
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'star': star,
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'page': page,
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        # 发起网络请求
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r = requests.post(url, data=formData,headers=headers)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r.raise_for_status()
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r.encoding = r.apparent_encoding
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        # 打印 r.text 来看看是否获取到了酒店数据
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        #print(r.text)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        # 解析 json 文件，提取酒店数据
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          json_data = json.loads(r.text)[
      
        
        
        
        'hotelPositionJSON']
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          hotelList = []
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        for item 
      
        
        
        
        in json_data:
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              hotelId = item[
      
        
        
        
        'id']
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              hotelList.append(hotelId)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              print(item[
      
        
        
        
        'name'], hotelId)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        return hotelList
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
      fetchHotel(
      
        
        
        
        '1',
      
        
        
        
        '4,5',
      
        
        
        
        1)

运行代码，你看！没错吧，是我们要的酒店列表。

到这里，酒店列表爬取工作，基本就跑通了。

2. 酒店评论爬取

接下来该研究研究酒店评论该怎么爬取吧。

随便打开一个酒店，进入详情页之后，找到了【酒店点评】部分。

在这里，我们可以找到需要的评论的数据，用户昵称，评分，出游类型，入住时间，评价时间，房型，评价内容等等。

继续往下翻，评论页数同样的方式翻页，而且翻页时候 URL 不变，不用说，又是 Ajax 动态加载咯。

直接 F12 召唤开发者工具，流程很熟悉了，就讲快一点啦。于是我就抓到了评价数据的包了。

（其实很好找的啦，AjaxHotelCommentList，懂点英语的都能猜到是这个了）

不过它返回的内容格式不是 json 了，而是 html，而且没有排版，格式有点乱。

这个不要紧，去随便找一个在线代码格式化网站（http://tool.oschina.net/codeformat/html），排个版就好了。

解析 json 文件可以用 json 库，解析 HTML 文件用什么呢？我一般用 BeautifulSoup 库，贼拉好用。

这里先不急解析，先写代码验证一下，看看有没有什么坑爹的反爬机制。

同样的方法，讲 Ajax 请求中的 Url，headers 还有 formdata 里的参数都扣过来，跑一下。


  
    
    
    
    
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import requests
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        def fetchCmts(hotel, page):
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          url = 
      
        
        
        
        "https://hotels.ctrip.com/Domestic/tool/AjaxHotelCommentList.aspx?MasterHotelID=469055&hotel=469055&NewOpenCount=0&AutoExpiredCount=0&RecordCount=5420&OpenDate=2013-12-01&card=-1&property=-1&userType=-1&productcode=&keyword=&roomName=&orderBy=2&viewVersion=c&contyped=0&eleven=12488c2f039b057861112f7bc2f1322271c415a3618cba855bcc85b09795189e&callback=CASOmTvWnCuMJeETo&_=1572277191008"
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          headers = {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Content-type': 
      
        
        
        
        'application/x-www-form-urlencoded; charset=UTF-8',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'referer':
      
        
        
        
        'https://hotels.ctrip.com/hotel/469055.html?isFull=F&masterhotelid=469055&hcityid=2',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'accept': 
      
        
        
        
        '*/*',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'user-agent': 
      
        
        
        
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          formData = {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'hotel': str(hotel),
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'currentPage': str(page),
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'eleven': 
      
        
        
        
        '12488c2f039b057861112f7bc2f1322271c415a3618cba855bcc85b09795189e',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'callback': 
      
        
        
        
        'CASOmTvWnCuMJeETo',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        '_': 
      
        
        
        
        '1572277191008',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r = requests.post(url, headers=headers)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r.raise_for_status()
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r.encoding = 
      
        
        
        
        "utf-8"
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          print(r.text)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
      fetchCmts(
      
        
        
        
        '469055', 
      
        
        
        
        1)

运行代码，果然，可以获取到数据。

不过，这个可不能高兴的太早，为什么呢？

你看 Form Data 的参数中，有三个参数 eleven，callback 和 _ ，这三个的值有点奇怪，一长串看不懂的数字和字母，而且每次的值都不一样。

'_' 的值，1572277191008，这个有点熟悉，好像是时间戳，找在线工具解析一下，没错，果然是。

内心咯噔一下，坏了！

根据经验来讲，参数中带时间戳的，请求一般都是有时效性的。什么意思呢？就是这类请求的参数都是根据一定的规则动态生成的，而且一般几分钟之内就会失效。（再次运行上面的代码，果然啥也获取不到了，失效了）。

也就是说，如果我想通过 Ajax 请求去获取数据的话，我必须搞清楚这三个参数的生成规则。

而这些参数又是经过 JS 加密的，搞这个又涉及到了 JS 逆向的东西。。。

我其实去网上查过携程网酒店爬虫，想看看别人是怎么绕过这个反爬机制的。

结果搜出来的好几个结果，都是用 Selenium webdriver 爬的。那个是什么原理呢。

就是我们正常的思路，是用爬虫直接去访问网站获取数据，爬虫伪装不好的话很容易被发现；

而它们这个，相当于是爬虫操作一个真的浏览器去访问网站，对方网站看到的是真正的浏览器在访问，它怎么也想不到操作浏览器的不是人，而是一只爬虫。所以这个方法几乎可以绕过所有的反爬机制。

不过！！！！

一个爬虫玩家的尊严，不允许我使用这种低效率又无脑的方式（误，手动狗头保命）。

于是我决定硬刚 Ajax 请求！！

不过 JS 逆向哪有这么容易的，一时半会儿也搞不定（记得我第一次做 JS 逆向时，整整调试了一个礼拜的 JS 代码才搞出来）,而那边小老弟要的又比较急......

正在我一筹莫展之际，看到了一张帖子，有个老哥的回答让我茅塞顿开。

对呀，网页端的不行，那就模拟手机端的来试试。

网址由 https://hotels.ctrip.com/hotel 变成了 https://m.ctrip.com/webapp/hotel 。

手机版的评论不是点页码翻页的，是划到页面底部时候自动加载下一页内容的，然后我们在开发者工具中成功抓到了评论数据的请求包。

再看一下它的参数列表，嗯，还好，没有奇奇怪怪的动态加密的参数了。

这次怎么样呢？写段代码验证一下吧。


  
    
    
    
    
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import requests
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        def fetchCmts(hotel, page):
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          url = 
      
        
        
        
        "https://m.ctrip.com/restapi/soa2/16765/gethotelcomment?&_fxpcqlniredt=09031074110034723384"
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          headers = {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Content-type': 
      
        
        
        
        'application/x-www-form-urlencoded; charset=UTF-8',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Origin': 
      
        
        
        
        'https://m.ctrip.com',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'accept': 
      
        
        
        
        '*/*',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'user-agent': 
      
        
        
        
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          formData = {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'groupTypeBitMap': 
      
        
        
        
        '2',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'hotelId': str(hotel),
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'pageIndex': str(page),
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'pageSize': 
      
        
        
        
        '10',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'travelType': 
      
        
        
        
        '-1',       
      
        
        
        
        # -1 表示全部，家庭亲子为 30
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r = requests.post(url, data=formData, headers=headers) 
      
        
        
        
        # formData,
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r.raise_for_status()
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r.encoding = 
      
        
        
        
        "utf-8"
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        return r.text
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
      fetchCmts(
      
        
        
        
        '6410223', 
      
        
        
        
        1)

运行程序，可以获取到结果，修改酒店编号，修改页码，再运行都没问题。

返回的结果是 json格式的，回头用 json 库解析一下，把关键数据提取出来就可以了。

事情进行到这儿，对目标网站的分析研究也就基本结束了。

酒店列表，评论数据的爬取，流程也基本跑通了，接下来只需要把代码整理一下，爬就完事儿了。

二、爬虫代码编写

前面将网站的爬取思路已经捋清楚了，而且做了些小测试也基本跑通了，接下来就是撸码环节了。

1. 获取酒店列表

我们其实也发现了，爬取评论数据时，只需要酒店ID和页码两个参数就够了，所以爬酒店列表时，我们只需要提取酒店ID 即可。


  
    
    
    
    
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import requests
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import json
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        def fetchHotel(city, star, page):
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          url = 
      
        
        
        
        "https://hotels.ctrip.com/Domestic/Tool/AjaxHotelList.aspx"
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          headers = {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Content-type': 
      
        
        
        
        'application/x-www-form-urlencoded; charset=UTF-8',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Origin': 
      
        
        
        
        'https://hotels.ctrip.com',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Referer': 
      
        
        
        
        'https://hotels.ctrip.com/hotel/beijing1',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'accept': 
      
        
        
        
        '*/*',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'user-agent': 
      
        
        
        
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          formData = {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'cityId': city,
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'star': star,
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'page': page,
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        # 发起网络请求
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r = requests.post(url, data=formData,headers=headers)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r.raise_for_status()
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r.encoding = r.apparent_encoding
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        # 解析 json 文件，提取酒店数据
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          json_data = json.loads(r.text)[
      
        
        
        
        'hotelPositionJSON']
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          hotelList = []
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        for item 
      
        
        
        
        in json_data:
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              hotelId = item[
      
        
        
        
        'id']
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              hotelList.append(hotelId)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        return hotelList

2. 爬取评论数据


  
    
    
    
    
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import requests
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import json
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        def fetchCmts(hotel, page):
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          url = 
      
        
        
        
        "https://m.ctrip.com/restapi/soa2/16765/gethotelcomment?&_fxpcqlniredt=09031074110034723384"
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          headers = {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Content-type': 
      
        
        
        
        'application/x-www-form-urlencoded; charset=UTF-8',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Referer': 
      
        
        
        
        'https://m.ctrip.com/webapp/hotel/hoteldetail/dianping/'+ hotel + 
      
        
        
        
        '.html?&fr=detail&atime=20191027&days=1',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Origin': 
      
        
        
        
        'https://m.ctrip.com',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'accept': 
      
        
        
        
        '*/*',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'user-agent': 
      
        
        
        
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          formData = {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'groupTypeBitMap': 
      
        
        
        
        '3',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'auth': 
      
        
        
        
        "",
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'cid': 
      
        
        
        
        "09031074110034723384",
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'ctok': 
      
        
        
        
        "",
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'cver': 
      
        
        
        
        "1.0",
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'extension': 
      
        
        
        
        '[]',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'lang': 
      
        
        
        
        "01",
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'sid': 
      
        
        
        
        "8888",
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'syscode': 
      
        
        
        
        "09",
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'hotelId': str(hotel),
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'needStatisticInfo': 
      
        
        
        
        '0',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'order': 
      
        
        
        
        '0',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'pageIndex': str(page),
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'pageSize': 
      
        
        
        
        '10',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'tagId': 
      
        
        
        
        '0',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'travelType': 
      
        
        
        
        '-1',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r = requests.post(url, data=formData, headers=headers) 
      
        
        
        
        # formData,
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r.raise_for_status()
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r.encoding = r.apparent_encoding
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          json_data = json.loads(r.text)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          cmtsList = []
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          hotelName = json_data[
      
        
        
        
        'hotelName']
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        for item 
      
        
        
        
        in json_data[
      
        
        
        
        'othersCommentList']:
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              cmt = []
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              userName = item[
      
        
        
        
        'userNickName']
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              travelType = item[
      
        
        
        
        'travelType']
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              baseRoomName = item[
      
        
        
        
        'baseRoomName']
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              checkInDate = item[
      
        
        
        
        'checkInDate']
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              postDate = item[
      
        
        
        
        'postDate']
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              ratingPoint = item[
      
        
        
        
        'ratingPoint']
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              content = item[
      
        
        
        
        'content']
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              cmt.append(userName)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              cmt.append(hotelName)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              cmt.append(travelType)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              cmt.append(baseRoomName)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              cmt.append(checkInDate)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              cmt.append(postDate)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              cmt.append(ratingPoint)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              cmt.append(content)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              cmtsList.append(cmt)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        return cmtsList

3. 数据保存函数

将数据保存到 csv 文件中。


  
    
    
    
    
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import pandas 
      
        
        
        
        as pd
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import os
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        def saveCmts(path, filename, data):
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        # 如果路径不存在，就创建路径
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        if 
      
        
        
        
        not os.path.exists(path):
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              os.makedirs(path)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        # 保存文件
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          dataframe = pd.DataFrame(data)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          dataframe.to_csv(path + filename, encoding=
      
        
        
        
        'utf_8_sig', mode=
      
        
        
        
        'a', index=
      
        
        
        
        False, sep=
      
        
        
        
        ',', header=
      
        
        
        
        False )

4. 爬虫调度器

由于小老弟提的要求是：上海静安香格里拉大酒店，家庭亲子类型的，评论数据。所以，

在 fetchCmts 中，将 travelType 的值设置为 30，

'travelType': '30',   # 30 表示 家庭亲子 类型

由于看到评论区内容只有九百多条，每页显示 10 条，所以我们将页码范围设置为 1 - 100 。


  
    
    
    
    
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import time
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        if __name__ == 
      
        
        
        
        '__main__':
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          hotel = 
      
        
        
        
        '469055'      
      
        
        
        
        # 上海静安香格里拉大酒店
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          startPage = 
      
        
        
        
        1
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          endPage = 
      
        
        
        
        100
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          path = 
      
        
        
        
        'Data/'
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          filename = 
      
        
        
        
        'cmtTest.csv'
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        for p 
      
        
        
        
        in range(startPage, endPage+
      
        
        
        
        1):
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              cmts = fetchCmts(hotel, p)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              saveCmts(path, filename, cmts)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              time.sleep(
      
        
        
        
        0.5)

为了保险期间，还加了一个 sleep 函数，每爬一次歇半秒，免得因为爬取太频繁被发现。

几分钟之后，爬取完成，共爬取到 735 条数据。至此，小老弟的忙总算是帮完了。

不过，最开始也说了，我嫌爬的不过瘾，又给自己加了几条需求。

爬取北京市的，所有四星级以上酒店的，所有类型的评价数据。


  
    
    
    
    
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import time
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        if __name__ == 
      
        
        
        
        '__main__':
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          city = 
      
        
        
        
        '1'
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          star = 
      
        
        
        
        '4,5'
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          startPage = 
      
        
        
        
        1
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          hotelEndPage = 
      
        
        
        
        30
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          cmtsEndPage = 
      
        
        
        
        100
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        for page 
      
        
        
        
        in range(startPage, hotelEndPage + 
      
        
        
        
        1):
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
              hotelList = fetchHotel(city, star, page)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        for hotel 
      
        
        
        
        in hotelList:
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
                   
      
        
        
        
        for p 
      
        
        
        
        in range(startPage, cmtsEndPage + 
      
        
        
        
        1):
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
                      cmts = fetchCmts(hotel, p)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
                      saveCmts(
      
        
        
        
        "Data/", 
      
        
        
        
        "cmtTest.csv", cmts)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
                      time.sleep(
      
        
        
        
        1)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          print(
      
        
        
        
        "爬取完成")

这里偷了个懒，具体有多少酒店，每个酒店有多少评论我们不去管它了，就爬 30 页的酒店，每个酒店爬 100 页的评论，

大概就是爬 300 个酒店，每个酒店 1000 条左右的评论，差不多可以了，如果想爬更多的话，可以自行去修改页码范围。

后记

这个爬虫给了我一个新的启示，就是，遇到问题，我们要有死磕的觉悟，但是也要有灵活变通的思维。

就像这个爬虫，爬取评论信息时，PC 版网页的请求加了密不好整，那就换个途径，从手机端来获取数据。

时间也省了，事儿也办了，岂不快哉。

2019年12月18日更新

有读者反馈说，在抓取酒店列表信息的部分，使用文章中的代码无法正常获取数据。

运行代码的结果是这样的，也不报错，就是返回的搜索结果是 0 条。

经调试发现，可能是对方服务器做了调整，需要验证 cookies 信息，只需要在 headers 中添加 cookies 参数即可。

2020年6月20日更新

距离这个爬虫写好已经比较久了，期间对方网站也做过一些反爬机制的调整导致爬虫失效。

很多读者反馈说，前面更新时说的向 headers 中添加 cookies 的方法也失效了。经过测试，确实是，现在网站需要验证 “登陆账号后” 的 cookie 了，注意是登陆账号后的，未登录的cookie爬出来还是0条。

后续网站是否会有调整我不知道，截至本次更新时，添加登陆账号后的 cookie 后，文中的爬虫仍是有效的。（可能有些读者刚刚接触爬虫，不知道 cookie 加在哪儿，下面贴一段测试代码，大家参考）


  
    
    
    
    
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        import requests
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
      
        
        
        
        def fetchCmts(hotel, page):
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          url = 
      
        
        
        
        "https://m.ctrip.com/restapi/soa2/16765/gethotelcomment?&_fxpcqlniredt=09031074110034723384"
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          headers = {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Content-type': 
      
        
        
        
        'application/x-www-form-urlencoded; charset=UTF-8',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'Origin': 
      
        
        
        
        'https://m.ctrip.com',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'accept': 
      
        
        
        
        '*/*',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'user-agent': 
      
        
        
        
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'cookie':
      
        
        
        
        '这里放登陆账号后登陆账号后登陆账号后的cookie',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          formData = {
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'groupTypeBitMap': 
      
        
        
        
        '2',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'hotelId': str(hotel),
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'pageIndex': str(page),
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'pageSize': 
      
        
        
        
        '10',
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
               
      
        
        
        
        'travelType': 
      
        
        
        
        '-1',       
      
        
        
        
        # -1 表示全部，家庭亲子为 30
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          }
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r = requests.post(url, data=formData, headers=headers) 
      
        
        
        
        # formData,
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r.raise_for_status()
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          r.encoding = 
      
        
        
        
        "utf-8"
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
          print(r.text)
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
           
      
        
        
        
        return r.text
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
        
     
       
       
       
       
    
      
      
      
      
     
     
     
     
    
      
      
      
      
     
       
       
       
       
    
      
      
      
      
    
      
      
      
      
     
       
       
       
       
        
        
        
        
      fetchCmts(
      
        
        
        
        '10246623', 
      
        
        
        
        2)

对方网站反爬机制升级，也是侧面反映了网站收到各种爬虫爬取的困扰很大。

希望大家在爬取数据时，注意控制爬取节奏，时间允许的范围内，尽量放慢爬取速度。

如果文章中有哪里没有讲明白，或者讲解有误的地方，欢迎在评论区批评指正，或者扫描下面的二维码，加我微信，大家一起学习交流，共同进步。

你可能感兴趣的:(python)

Python - 数据分析三剑客之Pandas MinggeQingchun Python Python Pandas
阅读前可参考NumPy文章https://blog.csdn.net/MinggeQingchun/article/details/148253682https://blog.csdn.net/MinggeQingchun/article/details/148253682‌Pandas是Python中一个强大的开源数据分析库，专门用于处理结构化数据（如表格、时间序列等），其核心数据结构为Seri
python网络爬虫(第一章/共三章：网络爬虫库、robots.txt规则（防止犯法）、查看获取网页源代码)
python网络爬虫(第一章/共三章：网络爬虫库、robots.txt规则（防止犯法）、查看获取网页源代码)学习python网络爬虫的完整路径：（第一章即此篇文章）（第二章）python网络爬虫(第二章/共三章：安装浏览器驱动，驱动浏览器加载网页、批量下载资源)-CSDN博客https://blog.csdn.net/2302_78022640/article/details/149431071?
mac mlx大模型框架的安装和使用 liliangcsdn python java 前端人工智能 macos
mlx是apple平台的大模型推理框架，对macm1系列处理器支持较好。这里记录mlx安装和运行示例。1安装mlx框架condacreate-nmlxpython=3.12condaactivatemlxpipinstallmlx-lm2运行mlx测试例以下是测试程序，使用方法和hf、vllm等推理框架基本一致。importosos.environ['HF_ENDPOINT']="https://
系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，