实习项目(一)京东商城

实习报道的第一天,产品经理小姐姐在发来贺电的同时送来的需求,重点都给标注出来了,开始干货。
抓取需求:

1、抓取链接:https://search.jd.com/Search?keyword=男装&enc=utf-8&wq=nan'zhuang&pvid=de1772794e9846299ee9b5e733ea3765
2、抓取分类:男装实体词
3、抓取内容:网站名称(web)、商品名称(goods)、商品可选颜色(color)、版型(type)、面料(material)、风格(style)、适用场景(case)、图案主题(pattern)、材质(quality)、适用季节(season)、领型(Collar)、袖长(sleeve)、工艺(craft)、厚度(land)、基础风格(basic)、适用人群(people)、商品产地(place)、上市时间(time)、流行元素(element)、图案(design)
网站分析:

真实请求:https://search.jd.com/s_new.php?keyword=男装&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=男装&cid2=1342&page=1&s=52&click=0
注意:京东商城商品页的产生方式采用的是动静结合,每页有60个商品,前30通过上面的url产生,后面30个商品的url通过前30个商品的data-pid构造出一个新的url来获取后30个
实习项目(一)京东商城_第1张图片后30个商品的ur:https://search.jd.com/s_new.php?keyword=男装&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=男装&cid2=1342&page=4&s=77&scrolling=y&log_id=1563765245.15591&tpl=3_L&show_items=20404453886,52576474885,52431584442,52493960673,52598555294,52530435674,42703606854,52515634674,52512514165,52436620462,52557198966,52547111864,27527651431,52410301998,52543380332,52502462695,52554757349,52447865578,100002709941,52553040623,52550700303,52497853953,52632274607,52581313734,47232137839,52600594503,52597261609,52629885748,51832947055,52499795157

反扒措施:

  1. User-Agent
  2. 在发送后30商品的url时需要携带Refere,参数为前30个商品的url

两天写完,完美交工,刚交完,又来新需求了。

可怕!

你可能感兴趣的:(爬虫实习)