课程作业-爬虫入门01-获取网络数据的原理-WilliamZeng-20170629

感谢曾老师的分享和耐心细致的问答。

课堂作业

  • 要爬取的数据类别
  • 对应的数据源网站
  • 爬取数据的URL
  • 数据筛选规则(选做)

根据我目前从事的职业我对澳门一些特定酒店的每天或实时的价格监控比较有兴趣。

要爬取的数据类别

  1. 每天或每隔几个小时爬取澳门金沙城中心酒店特定入住日期,所有房型,所有供应代理商的最低价格列表;
  2. (1)的抓取成功后可以延伸抓取更多的入住日期,设置一个日期段取抓取每天的价格,比如未来7天至未来30天每天的价格,假定都是只住1天;
  3. (1)和(2)抓取成功后可以延伸多选择几家澳门的酒店抓取他们的最低价格列表;
  4. 综上所述,要抓取的数据有酒店名称,房型名称,代理商名称,每个代理商提供的最低价格(能做到优惠前价格更好,需要在酒店价格列表页面上取消勾选“优惠后价格”),入住日期。

对应的数据源网站:去哪儿网站-酒店分类-澳门

爬取数据的URL:以澳门金沙城中心酒店8月28日入住,8月29日离店的价格列表页URL为例:http://hotel.qunar.com/city/macao_city/dt-2655/?tag=macao_city#fromDate=2017-08-28&toDate=2017-08-29&q=&from=qunarindex&fromFocusList=0&filterid=d911ed3a-3d2e-4e05-8121-69123ac09795_A&showMap=0&qptype=&QHFP=ZSS_A0BCA90A

数据筛选规则

  1. 下<...title="xxx"...>中title的值或a标签的标签名称来筛选酒店房型;
  2. 下img的图片网址和alt标签值来筛选代理商名称;
  3. 下的标签值来筛选最低酒店房间价格(日均价);
  4. 入住日期和离店日期很多地方都出现,目前还未仔细研究用哪个网页标签筛选数据比较合适;
  5. 此外酒店名称,代理商酒店房间的名称,是否含早餐,退订政策,是否需要预付或担保这些数据有需要也可以考虑抓取。

你可能感兴趣的:(课程作业-爬虫入门01-获取网络数据的原理-WilliamZeng-20170629)