python3-B站各分类的信息收集.

将各个分类的信息进行收集整合,本地化存储.

只展示思路.

url='https://www.bilibili.com/'

携带基本的Headers信息.https的请求头 verify=False

在这里插入图片描述

目标获取这几个分类的URL.

在我们能有效的获得对应的URL之后.
在这里插入图片描述

根据情况判断使用.

采用requests.session()的方法 .保留登录状态继续访问.


还是要说仔细分析当前页面的结构.你需要的结果是否有更快捷的方式获取.

python3-B站各分类的信息收集._第1张图片
URL:
python3-B站各分类的信息收集._第2张图片


当我们进去后,再看页面我们在观察.

python3-B站各分类的信息收集._第3张图片

python3-B站各分类的信息收集._第4张图片

这样模块的分类详情和分页都有了.


python3-B站各分类的信息收集._第5张图片
喜欢更详细的 获取到URL 后在 get . 提取信息就好了.

怎么存储你开心就好.


可以看出 爬虫是主体(仿佛在说废话).在解析过程中 加入 try 和 except 来抛出异常 , 抛出异常时,将报错信息 收集起来就行了.


仅供参考,有更好的建议欢迎提出.

python3-B站各分类的信息收集._第6张图片
下载链接(你自己看着玩吧).

你可能感兴趣的:(python-Spider,python)