Python爬虫抓取去哪儿网景点信息告诉你国庆哪儿最堵

摘要

本文主要介绍了使用Python抓取去哪儿网站的景点信息并使用BeautifulSoup解析内容获取景点名称、票销售量、景点星级、热度等数据,然后使用xlrd、xlwt、xlutils等库来处理Excel,写入到Excel中,最后使用matplotlib可视化数据,并用百度的heatmap.js来生成热力图。
首先,上张效果图:

Python爬虫抓取去哪儿网景点信息告诉你国庆哪儿最堵_第1张图片

Python爬虫抓取去哪儿网景点信息告诉你国庆哪儿最堵_第2张图片

Python爬虫抓取去哪儿网景点信息告诉你国庆哪儿最堵_第3张图片

 

如果想了解更多Python的伙伴或者小白中有任何困难不懂的可以加入我们python交流学习QQ群:250933691,多多交流问题,互帮互助,群里有不错的学习教程和开发工具。资源分享

下面就详细来介绍如何一步步实现。

准备省份名单

访问是按照省份来进行搜索的,所以我们需要准备一份全国各省份的名单,这里,我已经准备好了这份名单

北京市,天津市,上海市,重庆市,河北省,山西省,辽宁省,吉林省,黑龙江省,江苏省,浙江省,安徽省,福建省,江西省,山东省,河南省,湖北省,湖南省,广东省,海南省,四川省,贵州省,云南省,陕西省,甘肃省,青海省,台湾省,内蒙古自治区,广西壮族自治区,西藏自治区,宁夏回族自治区,新疆维吾尔自治区,香港,澳门

将这些数据保存为TXT,一行

然后使用Python加载:

def ProvinceInfo(province_path):
  tlist = []
  with open(province_path, 'r', encoding='utf-8') as f:
      lines = f.readlines()
      for line in lines:
          tlist = line.split(',')
  return tlist

构建URL
这里URL是根据城市名称信息来生成的

  site_name = quote(province_name)  # 处理汉字问题
  url1 = 'http://piao.qunar.com/ticket/list.htm?keyword='
  url2 = '®ion=&from=mps_search_suggest&page='
  url = url1 + site_name + url2

当然上面这个URL还不是最终的URL,因为一个城市搜索后有很多页面,我们需要定位到具体页面才行,这涉及到了如何判断页面数的问题,放在下文。
抓取页面信息函数:

# 获得页面景点信息

def GetPageSite(url):
  try:
      page = urlopen(url)
  except AttributeError:
      logging.info('抓取失败!')
      return 'ERROR'
  try:
      bs_obj = BeautifulSoup(page.read(), 'lxml')
      # 不存在页面
      if len(bs_obj.find('div', {'class': 'result_list'}).contents) <= 0:
          logging.info('当前页面没有信息!')
          return 'NoPage'
      else:
          page_site_info = bs_obj.find('div', {'class': 'result_list'}).children
  except AttributeError:
      logging.info('访问被禁止!')
      return None
  return page_site_info

获得页面数目

# 获取页面数目

def GetPageNumber(url):
  try:
      page = urlopen(url)
  except AttributeError:
      logging.info('抓取失败!')
      return 'ERROR'
  try:
      bs_obj = BeautifulSoup(page.read(), 'lxml')
      # 不存在页面
      if len(bs_obj.find('div', {'class': 'result_list'}).contents) <= 0:
          logging.info('当前页面没有信息!')
          return 'NoPage'
      else:
          page_site_info = bs_obj.find('div', {'class': 'pager'}).get_text()
  except AttributeError:
      logging.info('访问被禁止!')
      return None

  # 提取页面数
  page_num = re.findall(r'\d+\.?\d*', page_site_info.split('...')[-1])

  return int(page_num[0])

对取得的数据进行解析取得感兴趣的数据

# 格式化获取信息

def GetItem(site_info):
  site_items = {}  # 储存景点信息
  site_info1 = site_info.attrs
  site_items['name'] = site_info1['data-sight-name']  # 名称
  site_items['position'] = site_info1['data-point']  # 经纬度
  site_items['address'] = site_info1['data-districts'] + ' ' + site_info1['data-address']  # 地理位置
  site_items['sale number'] = site_info1['data-sale-count']  # 销售量

  site_level = site_info.find('span', {'class': 'level'})
  if site_level:
      site_level = site_level.get_text()
  site_hot = site_info.find('span', {'class': 'product_star_level'})
  if site_hot:
      site_hot = site_info.find('span', {'class': 'product_star_level'}).em.get_text()
      site_hot = site_hot.split(' ')[1]

  site_price = site_info.find('span', {'class': 'sight_item_price'})
  if site_price:
      site_price = site_info.find('span', {'class': 'sight_item_price'}).em.get_text()

  site_items['level'] = site_level
  site_items['site_hot'] = site_hot
  site_items['site_price'] = site_price

  return site_items

获取一个省的全部页面数据,用到了前面的函数

# 获取一个省的所有景点

def GetProvinceSite(province_name):
  site_name = quote(province_name)  # 处理汉字问题
  url1 = 'http://piao.qunar.com/ticket/list.htm?keyword='
  url2 = '®ion=&from=mps_search_suggest&page='
  url = url1 + site_name + url2

  NAME = []  # 景点名称
  POSITION = []  # 坐标
  ADDRESS = []  # 地址
  SALE_NUM = []  # 票销量
  SALE_PRI = []  # 售价
  STAR = []  # 景点星级
  SITE_LEVEL = []  # 景点热度

  i = 0  # 页面
  page_num = GetPageNumber(url + str(i + 1))  # 页面数
  logging.info('当前城市 %s 存在 %s 个页面' % (province_name, page_num))
  flag = True  # 访问非正常退出标志
  while i < page_num:  # 遍历页面
      i = i + 1
      # 随机暂停1--5秒,防止访问过频繁被服务器禁止访问
      time.sleep(1 + 4 * random.random())

      # 获取网页信息
      url_full = url + str(i)
      site_info = GetPageSite(url_full)
      # 当访问被禁止的时候等待一段时间再进行访问
      while site_info is None:
          wait_time = 60 + 540 * random.random()
          while wait_time >= 0:
              time.sleep(1)
              logging.info('访问被禁止,等待 %s 秒钟后继续访问' % wait_time)
              wait_time = wait_time - 1
          # 继续访问
          site_info = GetPageSite(url_full)
      if site_info == 'NoPage':  # 访问完成
          logging.info('当前城市 %s 访问完成,退出访问!' % province_name)
          break
      elif site_info == 'ERROR':  # 访问出错
          logging.info('当前城市 %s 访问出错,退出访问' % province_name)
          flag = False
          break
      else:
          # 返回对象是否正常
          if not isinstance(site_info, Iterable):
              logging.info('当前页面对象不可迭代 ,跳过 %s' % i)
              continue
          else:
              # 循环获取页面信息
              for site in site_info:
                  info = GetItem(site)
                  NAME.append(info['name'])
                  POSITION.append(info['position'])
                  ADDRESS.append(info['address'])
                  SALE_NUM.append(info['sale number'])
                  SITE_LEVEL.append(info['site_hot'])
                  SALE_PRI.append(info['site_price'])
                  STAR.append(info['level'])

              logging.info('当前访问城市 %s,取到第 %s 组数据: %s' % (province_name, i, info['name']))

  return flag, NAME, POSITION, ADDRESS, SALE_NUM, SALE_PRI, STAR, SITE_LEVEL

最后就是把数据写入到Excel中,这里因为数据量很大,而且是获得了一个城市的数据后再写入一次,而在爬取过程中很可能由于各种原因中断,因而每次读取Excel都会判断当前省份是否已经读取过。

# 创建Excel

def CreateExcel(path, sheets, title):
  try:
      logging.info('创建Excel: %s' % path)
      book = xlwt.Workbook()
      for sheet_name in sheets:
          sheet = book.add_sheet(sheet_name, cell_overwrite_ok=True)
          for index, item in enumerate(title):
              sheet.write(0, index, item, set_style('Times New Roman', 220, True))
      book.save(path)
  except IOError:
      return '创建Excel出错!'



# 设置Excel样式

def set_style(name, height, bold=False):
  style = xlwt.XFStyle()  # 初始化样式

  font = xlwt.Font()  # 为样式创建字体
  font.name = name  # 'Times New Roman'
  font.bold = bold
  font.color_index = 4
  font.height = height

  # borders= xlwt.Borders()
  # borders.left= 6
  # borders.right= 6
  # borders.top= 6
  # borders.bottom= 6

  style.font = font
  # style.borders = borders

  return style



# 加载Excel获得副本

def LoadExcel(path):
  logging.info('加载Excel:%s' % path)
  book = xlrd.open_workbook(path)
  copy_book = copy(book)
  return copy_book



# 判断内容是否存在

def ExistContent(book, sheet_name):
  sheet = book.get_sheet(sheet_name)
  if len(sheet.get_rows()) >= 2:
      return True
  else:
      return False



# 写入Excel并保存

def WriteToTxcel(book, sheet_name, content, path):
  logging.info('%s 数据写入到 (%s-%s)' % (sheet_name, os.path.basename(path), sheet_name))
  sheet = book.get_sheet(sheet_name)
  for index, item in enumerate(content):
      for sub_index, sub_item in enumerate(item):
          sheet.write(sub_index + 1, index, sub_item)
  book.save(path)

数据分析、可视化

完成了前面几个步骤之后,我们就已经做好了爬取数据的工作了,现在就是需要可视化数据了,这里,设计的主要内容有:读取Excel数据,然后对每一个sheet(一个省份)读取数据,并去处重复数据,最后按照自己的要求可视化,当然,这里地图可视化部分使用了百度的heatmap.js工具,首先需要把景点的经纬度等信息生成json格式。

def GenerateJson(ExcelPath, JsonPath, SalePath, TransPos=False):
  try:
      if os.path.exists(JsonPath):
          os.remove(JsonPath)
      if os.path.exists(SalePath):
          os.remove(SalePath)
      sale_file = open(SalePath, 'a', encoding='utf-8')
      json_file = open(JsonPath, 'a', encoding='utf-8')
      book = xlrd.open_workbook(ExcelPath)
  except IOError as e:
      return e
  sheets = book.sheet_names()
  sumSale = {}  # 总销售量
  for sheet_name in sheets:
      sheet = book.sheet_by_name(sheet_name)
      row_0 = sheet.row_values(0, 0, sheet.ncols - 1)  # 标题栏数据
      # 获得热度栏数据
      for indx, head in enumerate(row_0):
          if head == '销售量':
              index = indx
              break
      level = sheet.col_values(index, 1, sheet.nrows - 1)

      # 获得景点名称数据
      for indx, head in enumerate(row_0):
          if head == '名称':
              index = indx
              break
      site_name = sheet.col_values(index, 1, sheet.nrows - 1)

      if not TransPos:
          for indx, head in enumerate(row_0):
              if head == '经纬度':
                  index = indx
                  break
          pos = sheet.col_values(index, 1, sheet.nrows - 1)
          temp_sale = 0  # 临时保存销售量
          for i, p in enumerate(pos):
              if int(level[i]) > 0:
                  lng = p.split(',')[0]
                  lat = p.split(',')[1]
                  lev = level[i]
                  temp_sale += int(lev)
                  sale_temp = sheet_name + site_name[i] + ',' + lev
                  json_temp = '{"lng":' + str(lng) + ',"lat":' + str(lat) + ', "count":' + str(lev) + '}, '
                  json_file.write(json_temp + '\n')
                  sale_file.write(sale_temp + '\n')
          sumSale[sheet_name] = temp_sale
      else:
          pass
  json_file.close()
  sale_file.close()
  return sumSale

当然,上面这个函数同时还绘制了景点销量信息的图。不过这里先讨论生成json文本后接下来处理。运行上面的程序会在你指定的路径下生成一个名为LngLat.json的文件,使用文本编辑器打开,然后把内容复制到heatmap.html这个文件的数据部分,这里为了代码不至于太长我删除了大部分数据信息,只保留了一部分,你只需要把下面的代码复制保存为html格式然后在 var points =[]中添加生成的json内容就可以了。最后使用浏览器打开,即可看到下面这样的效果:

Python爬虫抓取去哪儿网景点信息告诉你国庆哪儿最堵_第4张图片




  
  
  
  
  热力图功能示例
  
    ul,li{list-style: none;margin:0;padding:0;float:left;}
    html{height:100%}
    body{height:100%;margin:0px;padding:0px;font-family:"微软雅黑";}
    #container{height:500px;width:100%;}
    #r-result{width:100%;}
    


    
  var map = new BMap.Map("container");          // 创建地图实例   var point = new BMap.Point(105.418261, 35.921984);   map.centerAndZoom(point, 5);             // 初始化地图,设置中心点坐标和地图级别   map.enableScrollWheelZoom(); // 允许滚轮缩放   var points =[ {"lng":116.403347,"lat":39.922148, "count":19962},  {"lng":116.03293,"lat":40.369733, "count":3026},  {"lng":116.276887,"lat":39.999497, "count":3778},  {"lng":116.393097,"lat":39.942341, "count":668},  {"lng":116.314607,"lat":40.01629, "count":1890},  {"lng":116.020213,"lat":40.367229, "count":2190},  {"lng":116.404015,"lat":39.912729, "count":904},  {"lng":116.398287,"lat":39.94015, "count":392},      {"lng":89.215713,"lat":42.94202, "count":96},  {"lng":89.212779,"lat":42.941938, "count":83},  {"lng":90.222236,"lat":42.850153, "count":71},  {"lng":80.931218,"lat":44.004188, "count":82},  {"lng":89.087234,"lat":42.952765, "count":40},  {"lng":86.866582,"lat":47.707518, "count":54},  {"lng":85.741271,"lat":48.36813, "count":4},  {"lng":87.556853,"lat":43.894646, "count":83},  {"lng":89.699515,"lat":42.862384, "count":81},  {"lng":80.903663,"lat":44.286633, "count":53},  {"lng":89.254534,"lat":43.025333, "count":50},  {"lng":86.1271,"lat":41.789203, "count":63},  {"lng":84.537278,"lat":43.314894, "count":81},  {"lng":84.282954,"lat":41.286104, "count":94},  {"lng":77.181601,"lat":37.397422, "count":32},  {"lng":82.666502,"lat":41.611567, "count":64},  {"lng":89.577441,"lat":44.008065, "count":57},  {"lng":83.056664,"lat":41.862089, "count":79},  {"lng":82.639664,"lat":41.588593, "count":53},  {"lng":89.537959,"lat":42.888903, "count":61},  {"lng":89.52734,"lat":42.876443, "count":95},  {"lng":87.11464,"lat":48.310173, "count":86},  {"lng":80.849732,"lat":44.238021, "count":6},  {"lng":89.488521,"lat":42.991858, "count":59},  {"lng":89.550783,"lat":42.882572, "count":92},  {"lng":88.055115,"lat":44.13238, "count":61},  {"lng":77.100143,"lat":39.095865, "count":63},  {"lng":78.992124,"lat":41.103398, "count":42},  {"lng":77.699877,"lat":39.013786, "count":62},  {"lng":81.912557,"lat":43.222123, "count":61},  {"lng":87.526264,"lat":47.75415, "count":33},  {"lng":87.556853,"lat":43.894632, "count":110},  {"lng":87.622686,"lat":43.820354, "count":10},  ]   if(!isSupportCanvas()){     alert('热力图目前只支持有canvas支持的浏览器,您所使用的浏览器不能使用热力图功能~')   } //详细的参数,可以查看heatmap.js的文档 https://github.com/pa7/heatmap.js/blob/master/README.md //参数说明如下: /* visible 热力图是否显示,默认为true    * opacity 热力的透明度,1-100    * radius 势力图的每个点的半径大小       * gradient  {JSON} 热力图的渐变区间 . gradient如下所示    *    {         .2:'rgb(0, 255, 255)',         .5:'rgb(0, 110, 255)',         .8:'rgb(100, 0, 255)'     }     其中 key 表示插值的位置, 0~1.          value 为颜色值.     */ heatmapOverlay = new BMapLib.HeatmapOverlay({"radius":20}); map.addOverlay(heatmapOverlay); heatmapOverlay.setDataSet({data:points,max:10000}); //是否显示热力图   function openHeatmap(){       heatmapOverlay.show();   } function closeHeatmap(){       heatmapOverlay.hide();   } closeHeatmap();   function setGradient(){     /*格式如下所示:     {         0:'rgb(102, 255, 0)',         .5:'rgb(255, 170, 0)',         1:'rgb(255, 0, 0)'     }*/     var gradient = {};     var colors = document.querySelectorAll("input[type='color']");     colors = [].slice.call(colors,0);     colors.forEach(function(ele){         gradient[ele.getAttribute("data-key")] = ele.value;      });       heatmapOverlay.setOptions({"gradient":gradient});   } //判断浏览区是否支持canvas   function isSupportCanvas(){       var elem = document.createElement('canvas');       return !!(elem.getContext && elem.getContext('2d'));   }

如果想了解更多Python的伙伴或者小白中有任何困难不懂的可以加入我们python交流学习QQ群:250933691,多多交流问题,互帮互助,群里有不错的学习教程和开发工具。资源分享

你可能感兴趣的:(Python爬虫抓取去哪儿网景点信息告诉你国庆哪儿最堵)