嗨喽~大家好呀,这里是魔王呐 !
Python 3.8
Pycharm
谷歌浏览器
谷歌驱动
安装教程都可以看文章下方推广获取~
requests >>> pip install requests
re
json 用来转换数据类型 序列化和反序列化模块
selenium >>> pip install selenium==3.141.0 <需要浏览器和浏览器驱动>
如果安装python第三方模块:
win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车
在pycharm中点击Terminal(终端) 输入安装命令
批量采集shipin —> 由浅到深 采集一个shipin 采集多个
通过开发者工具抓包分析, shipin url地址来自于哪里, shipin标题在什么地方
F12打开开发者工具, 或者 鼠标右键点击检查选择network <在网页 在浏览器上面进行操作>
点击刷新 网页, 让本网页相关数据内容, 重新加载一遍 <相对应 相关数据包 数据内容 就展示出来>
找shipin链接在哪里 ----> 常规找shipinurl地址 是 media 里面
找shipin url 来源, 出处 —> 通过在开发者工具关键字搜索 可以找到我们想要的数据在哪里, 只是说
找到数据是进行编码, 到时候写代码的时候 进行解码就Ok了
发送请求, 模拟浏览器对于 网址 发送请求
获取数据, 获取response响应数据
解析数据, 提取我们想要shipin url地址 和 shipin标题
保存数据, 把shipin内容保存到本地
需要更多源码、教程可点击网页端博主头像来到主页,点击左侧的流动文字免费获取哦~(可能需要往下划一下呐)
也可以直接查看文章下方推广加助理小姐姐V免费获取呐~
"""
selenium ---> 使用驱动 ---> 控制浏览器
模拟人的行为去操作浏览器
"""
# 打开浏览器
driver = webdriver.Chrome()
# 访问网站
driver.get('https://www..com/user/MS4wLjABAAAA0ihE2gYz13hwfPpxiZz50L7QM761qG-m28wj-oyWJTMqEJh5TR92GIJI7r-FW-8n')
# 等待
driver.implicitly_wait(10)
def drop_down():
"""执行页面滚动的操作""" # javascript
for x in range(1, 10, 2): # 1 3 5 7 9 在你不断的下拉过程中, 页面高度也会变的
time.sleep(1)
j = x / 9 # 1/9 3/9 5/9 9/9
# document.documentElement.scrollTop 指定滚动条的位置
# document.documentElement.scrollHeight 获取浏览器页面的最大高度
js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight * %f' % j
driver.execute_script(js)
人的一生就像在攀登高峰,勤奋是你踏实稳健的双脚,
信念是你指引前行的向导,勇敢是你孜孜追寻的恒心。
开心日到了,愿你站稳双脚,确定方向,向着你的理想巅峰勇敢前行,
不用怕,未来就在你的脚下。
—— 心灵鸡汤
本文章到这里就结束啦~感兴趣的小伙伴可以复制代码去试试哦
对啦!!记得三连哦~ 另外,欢迎大家阅读我往期的文章呀~