好久没有更新我的博客了,那么问题来了,我干嘛去了,难道不爱分享了吗?不,我不是。真实情况是,我刚毕业,入职某互联网公司。因为部门规定要完成一个入职任务,就是entry-task。我们部门的entry-task简单拆分就是在一天之内用python实现一个爬虫功能和接下来一周实现一个网站开发,指名道姓的要爬淘宝。阿里巴巴不要给我发律师函奥,我是被迫的奥,不知道有没有冒犯到。
但是问题是,我技术语言是java和go啊,没有python这个选项啊,额,好吧,于是利用周六周日学习了两天python就奥利给了。
我以为我永远不用学习python,直到我入职,我发现我太年轻了,你学什么完全和公司业务有关,不过你也有办法选择,前提是你自己很牛逼。加油吧。
爬取流程:
1、拼接URL的字符串,
(1)找一个要爬取的网站
(2)确定爬取的搜索参数,以及爬取多少页
(3)拿到登录的cookie,去设置header
2、发起HTTP请求
(1)得到网页信息
(2)转码
(3)将网页信息转成text文件
(4)根据你要爬取的参数,如物品名称和销售量去正则匹配
3、将数据按照排序或者什么规则打印出来
这里注意一点就是转码,尤其从网页到具体数据text
这里如果你没做过这个需求,那么你不用担心,一定要自信奥。
用代码时注意把这个cookie换成你自己的,因为我的cookie可能失效了。由于淘宝网的限制只有登录才可以有数据,所以,你要先登录奥,才能有cookie。
代码地址:
github