Python网络爬虫入门-进阶项目练习题《写出来私我有奖,学习大礼包一份》

第一:

1. urllib 实现 京东的页面获取
2. 尝试去对知乎实现 首页页面的抓取
3. lagou网的json动态数据提取 获取岗位名称 公司名称 福利 待遇 薪资
4. 豆瓣的模拟登陆 - requests.session 并且获取 首页数据html格式
5. 不是必做: 尝试去采集抖音小视频 (单个)

Python网络爬虫入门-进阶项目练习题《写出来私我有奖,学习大礼包一份》_第1张图片

第二:

'''
域名:
    https://www.baidu.com/word?input=奥特曼

    http: 超文本传输协议 是一种发布和接收HTML页面的方法
    默认端口号:80
    url 统一资源定位符

    https: http + ssl(安全套接层)  443

    域名: 服务器IP 端口

    path => 路径的路径以及 参数

GET POST(数据提交 ) HEAD(只能获取报头) delete


豆瓣源:http://pypi.douban.com/simple/
get请求 分页 url里面
post 分页 data参数里面

免费代理:https://ip.ihuan.me/

作业: requests 获取百度贴吧的页面 保存到本地

作业2: 获取拉钩Python岗位信息: 岗位名称 薪资 公司名称

'''

Python网络爬虫入门-进阶项目练习题《写出来私我有奖,学习大礼包一份》_第2张图片

第三:

下载图片保存到本地 https://www.1000tuku.com/tupiangushi/
    备注: 存储图片方式 三级文件夹 1. images文件夹 2. 图片故事 3. 系列套图的标题 4. 图片
    使用xpath


    /html/body/div[4]/ul/li[1]/a/img # 绝对路径
    相对路径提取是失败的 获取得到了很多我们不想要的数据

    在使用相对路径的时候 提取到不想要的数据的时候 -> 增加一个父节点

urls = url[:-5] + '_' + str(page) + '.html'
     response = requests.get(urls, headers=headers).content.decode('gbk')

 

你可能感兴趣的:(Python,python,网络爬虫,数据分析,编程语言)