关于python爬虫的过程以及代码实现

文章目录

    • 1、杂谈
    • 2、python爬虫的过程
    • 3、代码分享

1、杂谈

  好久没有更新我的博客了,那么问题来了,我干嘛去了,难道不爱分享了吗?不,我不是。真实情况是,我刚毕业,入职某互联网公司。因为部门规定要完成一个入职任务,就是entry-task。我们部门的entry-task简单拆分就是在一天之内用python实现一个爬虫功能和接下来一周实现一个网站开发,指名道姓的要爬淘宝。阿里巴巴不要给我发律师函奥,我是被迫的奥,不知道有没有冒犯到。
  但是问题是,我技术语言是java和go啊,没有python这个选项啊,额,好吧,于是利用周六周日学习了两天python就奥利给了。
  我以为我永远不用学习python,直到我入职,我发现我太年轻了,你学什么完全和公司业务有关,不过你也有办法选择,前提是你自己很牛逼。加油吧。

2、python爬虫的过程

爬取流程:

1、拼接URL的字符串,

(1)找一个要爬取的网站

(2)确定爬取的搜索参数,以及爬取多少页

(3)拿到登录的cookie,去设置header

2、发起HTTP请求

(1)得到网页信息

(2)转码

(3)将网页信息转成text文件

(4)根据你要爬取的参数,如物品名称和销售量去正则匹配

3、将数据按照排序或者什么规则打印出来

这里注意一点就是转码,尤其从网页到具体数据text

这里如果你没做过这个需求,那么你不用担心,一定要自信奥。

3、代码分享

用代码时注意把这个cookie换成你自己的,因为我的cookie可能失效了。由于淘宝网的限制只有登录才可以有数据,所以,你要先登录奥,才能有cookie。
代码地址:
github

你可能感兴趣的:(python)