@Yhen

【selenium爬虫】Yhen手把手带你用selenium自动化爬虫爬取海贼王动漫图片

以下内容为本人原创，欢迎大家观看学习，禁止用于商业用途，转载请说明出处，谢谢合作！
大噶好！我是python练习时长一个月的Yhen.很高兴能在这里和大家分享我的学习经验。作为小白，我在写代码的时候可能会遇到各种各样的BUG，我把我的一些经验分享给大家，希望对大家能有所帮助！

今天要带大家用一个比较特别的爬虫方式——selenium来实现爬取百度图片里的海贼王图片。后面会把源码也给到大家哦，因为比较详细，所以篇幅可能会较长，所以如果只想看结果的同学可以直接去看后面的源码哦。

———————— 手动分割线————————————————

好啦，马上开始今天的分享

闲来无事想爬点动漫图片玩玩
爬什么动漫好呢？

打开了百度图片搜索了壁纸
在动漫专栏专栏分区浏览一通

嘿咻~就决定是你了
“海贼王”

虽然我没怎么看过这部动漫

但对它的精湛画工早有耳闻

相信很多小伙伴都很钟爱这部动漫作品吧

里面的图片都是很酷的
url ：
壁纸卡通动漫海贼王

要知道，这里可不止这几十张图
一直翻到到最底部
一共是有447多张的图片

我们今天的目标就是把这447张图片一张不漏的都爬取下来

有了需求，就来开始思路分析了：

既然我们要爬的图片

自然就很容易想到一种普遍的思路：
1.先对首页界面发送请求，获取页面数据
2.进行数据提取，获取图片的链接
3.对图片链接发送请求，获取图片数据
4.把图片保存到本地

这不是就跟之前爬表情包一样嘛？so easy 啦，10分钟给你搞定！

但是…事实真的这么简单吗？

来，我先带你用爬图片的通用方法进行演示

首先是简单的导包和发送请求

# 导入爬虫库
import requests
# 导入pyquery数据提取库
from pyquery import PyQuery as pq

# 首页网址
url = "https://image.baidu.com/search/index?ct=&z=&tn=baiduimage&ipn=r&word=%E5%A3%81%E7%BA%B8%20%E5%8D%A1%E9%80%9A%E5%8A%A8%E6%BC%AB%20%E6%B5%B7%E8%B4%BC%E7%8E%8B&pn=0&istype=2&ie=utf-8&oe=utf-8&cl=&lm=-1&st=-1&fr=&fmq=1587020770329_R&ic=&se=&sme=&width=1920&height=1080&face=0&hd=&latest=©right="
# 请求头
headers ={"User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36"}
#对首页地址发送请求，返回文本数据
response = requests.get(url).text
print(response)

是可以正常的得到数据的

然后就是数据提取了

首先打开检查工具
定位到第一张照片
在右边可以看到在class 类选择器为main_img img-hover 里面的data-imgurl属性对应着有一个链接 https://ss0.bdstatic.com/70cFvHSh_Q1YnxGkpoWK1HF6hhy/it/u=1296489273,320485179&fm=26&gp=0.jpg

我们访问一下

原来就是我们要找的图片详情页的

所以接下来我们用pyquery来进行数据提取
看看能不能把刚刚的链接提取出来

因为这个不是今天的重点，我就直接给你们演示代码了。
如果想知道pyquery怎么使用，
可以去看我前面几篇博文

# 数据初始化
doc = pq(response)
# 通过类选择器main_img img-hover 来提取数据 注意：中间的空格用.代替
main_img = doc(".main_img.img-hover").text()
print(main_img)

打印下看看能不能得到我们想要的数据

oh no，怎么什么都没有呢？！
在确定我们写的代码没有问题后，
我的第一反应是：被反爬了！！！

不要紧，如果是被反爬，我们在请求头加多几个参数就好了

我把请求数据类型，用户信息，防盗链都加进请求头里

# 请求头
#          浏览器类型
headers ={"User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.9 Safari/537.36",
          # 请求数据类型
          "Accept':'application/json, text/javascript, */*; q=0.01",
          # 用户信息
          "Cookie':'BIDUPSID=19D65DF48337FDD785B388B0DF53C923; PSTM=1585231725; BAIDUID=19D65DF48337FDD770FCA7C7FB5EE199:FG=1; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; indexPageSugList=%5B%22%E9%AB%98%E6%B8%85%E5%A3%81%E7%BA%B8%22%2C%22%E5%A3%81%E7%BA%B8%22%5D; delPer=0; PSINO=1; BDRCVFR[dG2JNJb_ajR]=mk3SLVN4HKm; BDRCVFR[tox4WRQ4-Km]=mk3SLVN4HKm; BDRCVFR[-pGxjrCMryR]=mk3SLVN4HKm; BCLID=8092759760795831765; BDSFRCVID=KH_OJeC62A1E9y7u9Ovg2mkxL2uBKEJTH6aoBC3ekpDdtYkQoCaWEG0PoM8g0KubBuN4ogKK3gOTH4AF_2uxOjjg8UtVJeC6EG0Ptf8g0M5; H_BDCLCKID_SF=tJCHoK_MfCD3HJbpq45HMt00qxby26niWNO9aJ5nJDoNhqKw2jJhef4BbN5LabvrtjTGah5FQpP-HJ7tLTbqMn8vbhOkahoy0K6UKl0MLn7Ybb0xynoDLRLNjMnMBMPe52OnaIbp3fAKftnOM46JehL3346-35543bRTLnLy5KJYMDcnK4-XD653jN3P; ZD_ENTRY=baidu; H_PS_PSSID=30963_1440_21081_31342_30824_26350_31164",
          # 防盗链
          "Referer':'https://image.baidu.com/search/index?ct=&z=&tn=baiduimage&ipn=r&word=%E5%A3%81%E7%BA%B8%20%E5%8D%A1%E9%80%9A%E5%8A%A8%E6%BC%AB%20%E6%B5%B7%E8%B4%BC%E7%8E%8B&pn=0&istype=2&ie=utf-8&oe=utf-8&cl=&lm=-1&st=-1&fr=&fmq=1587020770329_R&ic=&se=&sme=&width=1920&height=1080&face=0&hd=&latest=©right="
          }

再次请求，看看能否得到我们要的数据

。。。。。。

不是吧…还不行？

自闭了…

没事，这点挫折怎么能难倒我！！！

我们来逆向分析一波

我们是通过类选择器main_img img-hover来定位数据的
但是没有获取到任何的数据
在代码正确且没有被反爬的前提下
还出现这种情况

那么

…真相只有一个！
我们一开始请求到的首页数据根本就没有main_img img-hover这个类选择器！！！

我们来验证下这个首页数据是不是罪魁祸首

首先打印请求到的首页数据，然后在里面搜索main_img img-hover

搜索发现，冒红了
果然是这个家伙在搞鬼啊
长能耐了！居然不给我数据！

那么事实证明，首页页面是动态数据，他的数据接口并不是首页的网址！

现在这种情况后，有两种解决方法

一.在这些茫茫接口中，找到首页页面数据的接口

二.直接用selenium对页面进行请求

不知你们选择哪一种，反正让我在这么多的数据中找一个接口，我是拒绝的！！！多费事费力

selenium它不香吗？

为什么呢？

因为用selenium把网页打开，所有信息就都会加载到了Elements那里，之后，就可以把动态网页用静态网页的方法爬取了。

意思就是
我们只要selenium对首页进行请求，获取到的数据，就是我们按f12后在控制台看到的源码！就不用在辛辛苦苦的找接口啦!

关于selenium，最常用的用法还是自动化，selenium可以真实的自动开始一个浏览器，模拟用户操作，例如实现自动登录，自动翻页等等。

想了解更多的同学可以参照这个中文翻译文档

https://selenium-python-zh.readthedocs.io/en/latest/

OK说干就干

首先是导包
然后是配置浏览器，selenium有可视模式（真实的打开一个浏览器，你可以看到浏览器的操作）和静默模式（在后台运行，不可见）

我们今天采用静默模式。因为如果重点是爬虫，不需要看到浏览器操作，而且每次都打开一个浏览器太烦了，也耗内存。

还有一个重要的点就是，要使用selenium首先要装一个对应你浏览器的webdriver驱动，并放到你py文件同路径下，这样selenium才能实现模拟浏览器操作

各种浏览器驱动的下载地址，可参考
https://www.jianshu.com/p/6185f07f46d4

webdriver要和py文件放在一起

下面是selenium的静默模式配置
比较麻烦，但是都是死操作，大家熟悉即可

from selenium import  webdriver #调用webdriver模块
from selenium.webdriver.chrome.options import Options # 调用Options类

chrome_options = Options() # 实例化Option
chrome_options.add_argument('--headless') # 设置浏览器启动类型为静默启动
driver = webdriver.Chrome(options = chrome_options) # 设置浏览器引擎为Chrome

你要是问我具体每一步为什么这么设置，我也不知道，人家就是这么规定的。想要了解更多可以去看文档

但是只是静默模式设置麻烦一点，可视模式两三行代码就设置完了

设置完以后
就可以用selenium来发送请求啦

#对首页进行请求
driver.get('https://image.baidu.com/search/index?ct=&z=&tn=baiduimage&ipn=r&word=%E5%A3%81%E7%BA%B8%20%E5%8D%A1%E9%80%9A%E5%8A%A8%E6%BC%AB%20%E6%B5%B7%E8%B4%BC%E7%8E%8B&pn=0&istype=2&ie=utf-8&oe=utf-8&cl=&lm=-1&st=-1&fr=&fmq=1587020770329_R&ic=&se=&sme=&width=1920&height=1080&face=0&hd=&latest=©right=')
# 返回页面源码
response = driver.page_source

大家注意，要获得页面的源码要用driver.page_source
而且是直接给我们返回了字符串格式的数据

我们来打印返回的数据康康

是成功的获取到了数据
那我们现在再在得到的数据中搜索 main_img img-hover
看看这次是不是真的得到了我们想要的数据

登登登登
这回总没问题了吧，我们要的图片网址也在这了

接下来就可以一路狂飙
用pyquery来提取出图片网址
首先数据初始化，然后通过类选择器提取数据，遍历以后通过属性“data-imgurl”取出图片链接
代码如下

from pyquery import PyQuery as pq
# 数据初始化
doc = pq(response)
# 通过类选择器提取数据
x = doc(".main_img.img-hover").items()
count = 0
# 遍历数据
for main_img in x :
     # 通过属性“data-imgurl”取出图片链接
     image_url = main_img.attr("data-imgurl")
     print(image_url)

历经千辛万苦
终于就要成功得到图片网址了
害不容易啊
于是我怀着激动的心情去打印了图片网址

结果发现…
WHAT???
我们刚刚的页面四百多张图片，
你就给我返回20条URL？？？剩下的你吃了？？？？

有意思有意思。跟我作对是吧，但是魔高一尺道高一丈

我回到网页中去

在刚刚的源码中ctrl + F 打开搜索功能
搜索main_img img-hover
发现这里也只有一共只有20条搜索结果

然后我马上想到，刚刚的四百多张图片是我们通过不断下拉，不断加载得来的

所以很有可能是因为初始也页面的没有加载完成，想要获取到剩下的url就必须让selenium操控浏览器不断下拉

怎么实现呢？
我也不知道哈哈哈哈
但是我会百度，不会我就问度娘

找到一篇csdn文章有介绍到怎么用selenium模拟下滑到底部操作
原文链接
https://blog.csdn.net/weixin_43632109/article/details/86797701

但是，要知道，要得到四百多张图片的数据，不是仅仅靠一次下滑底部的操作就能实现的，必须要让selenium在获取源码数据前执行多次下滑底部操作，才能得到全部的数据

那么怎么实现多次操作呢
我设置了一个for循环
先看看代码

import time
# 执行24次下滑到底部操作
for a in range(25):
     # 将滚动条移动到页面的底部
     js = "var q=document.documentElement.scrollTop=1000000"
     driver.execute_script(js)
     # 设置一秒的延时 防止页面数据没加载出来
     time.sleep(1)

我设置了循环次数为25
为什么是25呢？
因为是我之前自己测试过，25次刚好能取到最后一张图片哈哈哈
你们爬别的页面的时候就要自己测试循环次数啦

现在我们再来看看现在获取的图片链接

很明显我们这次获取的数据多了很多
我点击最后一条链接

可以看到，最后一个链接其实就是最后一张图片的链接
所以我们是成功的得到了所有的图片链接了

接下来就是对这些图片发送请求，获取数据并保存到本地就ok啦

import request
#定义count初始值为0
count = 0
# 遍历数据
for main_img in x :
     # 通过属性提取出图片网址
     # 通过属性“data-imgurl”取出图片链接
     image_url = main_img.attr("data-imgurl")

     #对图片链接发送请求，获取图片数据
     image =requests.get(image_url)

     # 在海贼王图片下载文件夹下保存为jpg文件，以“wb”的方式写入 w是写入 b是进制转换
     f = open("海贼王图片下载/" + "{}.jpg".format(count), "wb")
     # 将获取到的数据写入 content是进制转换
     f.write(image.content)
     # 关闭文件写入
     f.close()
     #意思是 count = count+1
     count+=1

发送请求还是用我们的经典爬虫库requests

首先发送请求获取数据

然后在海贼王图片下载文件夹下保存为.jpg文件，以“wb”的方式写入 w是写入 b是进制转换

将获取的数据写入进去，注意图片要用content进制转换

最后关闭文件写入

执行程序后
看看能否把全部的图片都下载下来

完美！成功把网页上的一共447张的图片下载了下来

撒花完结！

最后把源码大家

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import time
from pyquery import PyQuery as pq
import requests


# 实例化一个options对象
chrome_options =Options()
# 把浏览器设置为静默模式
chrome_options.add_argument("headless")
driver = webdriver.Chrome(options=chrome_options)

# 对首页进行请求
driver.get('https://image.baidu.com/search/index?ct=&z=&tn=baiduimage&ipn=r&word=%E5%A3%81%E7%BA%B8%20%E5%8D%A1%E9%80%9A%E5%8A%A8%E6%BC%AB%20%E6%B5%B7%E8%B4%BC%E7%8E%8B&pn=0&istype=2&ie=utf-8&oe=utf-8&cl=&lm=-1&st=-1&fr=&fmq=1587020770329_R&ic=&se=&sme=&width=1920&height=1080&face=0&hd=&latest=©right=')
# 执行24次下滑到底部操作
for a in range(25):
     # 将滚动条移动到页面的底部
     js = "var q=document.documentElement.scrollTop=1000000"
     driver.execute_script(js)
     # 设置一秒的延时 防止页面数据没加载出来
     time.sleep(1)

# 返回页面源码
response = driver.page_source
# print(response)
# 数据初始化
doc = pq(response)
# 通过类选择器提取数据
x = doc(".main_img.img-hover").items()
#定义count初始值为0
count = 0
# 遍历数据
for main_img in x :
     # 通过属性提取出图片网址
     # 通过属性“data-imgurl”取出图片链接
     image_url = main_img.attr("data-imgurl")

     #对图片链接发送请求，获取图片数据
     image =requests.get(image_url)

     # 在海贼王图片下载文件夹下保存为jpg文件，以“wb”的方式写入 w是写入 b是进制转换
     f = open("海贼王图片下载/" + "{}.jpg".format(count), "wb")
     # 将获取到的数据写入 content是进制转换
     f.write(image.content)
     # 关闭文件写入
     f.close()
     # 意思是 count = count + 1
     count+=1

接下来到我的吹水环节

【Yhen说】
大家好久不见啊，由于许多的缘故有一段时间没有发爬虫文章了。前天中午爬酷我的文章没有审核过后，下午我就在寻思下一篇文章写什么了。突然想到也许试试爬百度的图片，于是我就先自己尝试了。本来以为会是很顺利的，就像我文章写到那样，直接用普通的爬虫方法就能搞定，试过了才发现没有这么简单。因为这次的内容完全是自己的方法思路，不像以前都是跟着老师走。六星的老师也有出过爬百度图片的教程，但我在写这篇文章前没有去看，就是想试试自己是不是也能独立做出一个项目来。写完之后我找出老师的视频看，发现老师是用找接口的方法的。我这种方法也算是一种创新吧。用selenium后还是出现数据不全的问题，又困扰了我一会。不过我找了资料后，就被我解决了。学习，不就是不断的发现问题，然后解决问题的过程嘛。当我最后成功的把这447张图片爬下来的时候，我是非常有成就感的哈哈哈。所以，希望大家有空也试试，在遵守网络协议的前提下，用爬虫去做自己感兴趣的事，可能做的过程会遇到很多的挫折，但是当你成功后，你内心有多激动只有你自己才知道。也证明你学了python能真正为你所用，也没白浪费时间对吧！加油！

昨天居然在一个不知名的网站上找到我写的那篇爬小说的文章…也没有添加出处来源。准备联系csdn以及相关人员交涉了，所以还是那句话，欢迎大家看我文章来学习，但是转载请说明出处，并且禁止用于商业用途！谢谢大家的配合。

很开心能在这里把我的经验分享给大家，希望对大家有所帮助。如果有什么不懂的或者想对我提什么建议的欢迎在评论区留言！

如果觉得我写的对你有帮助的同学可以点个小赞嘛，加个关注就更好了。你们的支持是我创作的动力。以后有机会也会分享更多的经验给大家。

我是Yhen，我们下期见

【往期文章回顾】

【爬虫】Yhen手把手带你用python爬小说网站，全网打尽，想看就看！
（这可能会是你看过最详细的教程）

【爬虫】Yhen手把手带你用python爬取知乎大佬热门文章

【爬虫】Yhen手把手教你爬取表情包，让你成为斗图界最靓的仔

【爬虫】Yhen手把手带你爬取去哪儿网热门旅游信息（并打包成旅游信息查询小工具

爬虫笔记（三）：实战qq登录学不动了躺叭爬虫笔记
咳咳，再这样下去会进橘子叭hhhhhh以及，这个我觉得大概率是成功的，因为测试了太多次，登录并且验证之后，qq提醒我要我修改密码才可以登录捏QAQ1.selenium有关selenium具体是啥，这里就不再赘述了，其他的博客分享的都很清楚，我就大概说一下：selenium是一个模拟用户操作的工具，通过selenium就可以点击网页中某一按钮，或者拖动某一图形（是捏，首先想到的就是滑块验证hhhhh
python爬虫笔记：爬取网页数据存储到excel 御风之 python 网页解析 excel
python抓取网页有效数据存储到excel使用requests从网页上获取得到信息使用BeautifulSoup解析提取并存储有效信息使用xlwt模块创建Excel最后得到Excel数据使用requests从网页上获取得到信息首先导入requests库和beautifulsoup库importrequestsfrombs4importBeautifulSoup然后调用requests.get()
python3的爬虫笔记13——Scrapy初窥 X_xxieRiemann
1、Scrapy安装在windows平台anaconda环境下，在命令窗口输入condainstallscrapy，输入确认的y后，静静等待安装完成即可。安装完成后，在窗口输入scrapyversion，能显示版本号说明能够正常使用。2、Scrapy指令输入scrapy-h可以看到指令，关于命令行，后面会再总结。Scrapy1.3.3-project:quotetutorialUsage:scra
爬虫笔记21：页面等待以及当按钮不能被点击时的处理、selenium操作多个窗口、12306扫码登录进阶的阿牛哥
一、页面等待为什么要等?（1）selenium比较慢网站打开了元素没有加载出来（2）现在的网页越来越多采用了Ajax技术，这样程序便不能确定何时某个元素完全加载出来了。如果实际页面等待时间过长导致某个dom元素还没出来，但是你的代码直接使用了这个WebElement，那么就会抛出NullPointer的异常。如何解决?（1）time.sleep(10)：Python提供的，importtime，一
爬虫笔记（二）：实战58二手房学不动了躺叭爬虫笔记
第一：给大家推荐一个爬虫的网课哈，码起来第二：今夜主题：通过xpath爬取58二手房的title信息，也就是标红的位置~第三：先分析一波title所在的位置打开按下f12打开抓包工具，即可看到网站的源码，逐步定位至房子信息的部分我们以第一个房子信息为例，找到它的title位置，最终发现它在这个位置~目前，我们就需要在网页的源码上获取到下的里的文本信息第四：想要获取某个标签下的文本信息或是属性信息，
爬虫笔记（一）：实战登录古诗文网站看到我请叫我去学java吖爬虫笔记
需求：登录古诗文网站，账号＋密码＋图形验证码第一：自己注册一个账号＋密码哈第二：图形验证码，需要一个打码平台（充钱，超能力power！）或者tesseract开源包，这两个用于自动识别图形验证码哈~我用的是超级鹰，充了1块，有1000积分，一次10积分，初学者福音hhhhh在软件ID随便填一下软件名称和说明，获取软件key然后点击首页，首页的菜单栏处有个开发文档，来到这个页面，然后找到python
爬虫笔记40之反爬系列三：复杂验证码的处理（12306图片验证码、行为验证：selenium鼠标行为链 + 算法）进阶的阿牛哥爬虫 python
一、12306图片验证码解决方案:selenium（鼠标行为链）+打码平台思路:通过selenium来加载登录页面，获取验证码图片。我就可以把验证码图片交给超级鹰打码平台进行处理。让其给我返回这张验证码正确的坐标值。拿到正确的坐标值之后去点击图片实现步骤第一步使用selenium加载登录页面第二步对页面进行保存第三步截取12306图片验证码第四步交给超级鹰打码平台进行识别返回正确的坐标值第五步根据
python+selenium爬虫笔记张航柯 python selenium 爬虫
本文只是做例子，具体网站路径麻烦你们换下，还有xpath路径也换下一、安装所需要的组件（此处采用谷歌）1、安装驱动查看你的浏览器版本，去安装对应的版本下载驱动下载驱动路径之前版本的输入这个路径下载下来解压2、安装python包pipinstall-Uselenium#-U是指定最新的selenium二、简单基本使用fromselenium.webdriverimportChromefromsele
Python 爬虫笔记1 一（反爬虫伪装） dinglangping
#!/usr/bin/envpython3#coding:utf-8importurllib.requestimportrandom#随机生成User-Agent的时候使用agentsList=["Mozilla/4.0(compatible;MSIE6.0;WindowsNT5.1;SV1;AcooBrowser;.NETCLR1.1.4322;.NETCLR2.0.50727)","Mozil
python爬虫笔记大橘杂货铺 python 爬虫笔记
文章目录day11.HTTP协议与WEB开发2.UA反爬3.referer反爬4.cookie反爬5.爬虫的请求参数6.爬取图片day2验证码与JS逆向爬虫1.获取验证码2.识别验证码day11.HTTP协议与WEB开发爬虫的根本就是模拟人向浏览器发送请求协议-版本-状态响应码客户端和服务端，都需要遵循请求和响应协议2.UA反爬request请求头中，带上user-agent参数3.referer
爬虫笔记总结（开篇）仲夏那片海爬虫爬虫笔记
服务器反爬的原因爬虫占用PV较高，浪费资源（PV是指页面访问次数）资源被批量抓走，丧失竞争能力法律灰色地带服务器常反什么样的爬虫十分低级的应届毕业生十分低级的创业公司不小心写错没人去停止的失控小爬虫成型的商业竞争对手抽风的搜索引擎反爬领域常见概念爬虫：使用任何手段，批量获取网站信息的一种方式，关键在于批量反爬虫：使用任何技术，阻止别人批量获取自己网站信息的一种方式，关键也在于批量误伤：反爬过程中，
爬虫笔记总结（验证码）仲夏那片海爬虫笔记
学习目的：了解验证码的相关知识掌握图片识别引擎的使用了解常见的打码平台掌握通过打码平台处理验证码的方法1.图片验证码1.1什么是图片验证码验证码（CAPTCHA）是“CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart”（全自动区分计算机和人类的图灵测试）的缩写，是一种区分用户是计算机还是人的公共全自动程序。1.2验证码的
网络爬虫笔记—滑动验证码识别程序汪小陈爬虫 python 开发语言大数据学习职场和发展数据分析
一、什么是滑动验证码点击之前点击之后像这种通过滑动图片，补全缺口的方式，就是滑动验证码。二、识别思路1）使用selenium库操作谷歌浏览器，打开目标网站；2）模拟操作浏览器，对网页截图，先获取全屏截图；3）根据滑动验证码的元素，获取滑动验证码不带缺口的图片和带缺口的图片；4）通过不带缺口验证码图片和带缺口验证码图片的对比，识别滑动验证码缺口的位置；5）模拟移动滑块，完成验证；三、具体实践3.1、
【爬虫笔记】关于 \u200b \xa0 \u3000等特殊字符逸笔1B 爬虫 python python 爬虫
在进行网页爬虫分析时，遇到了一些特殊字符，通过网络搜索找到了解决方法，所以利用这篇博文将遇到的问题以及解决方法记录下来，方便回顾，也希望这篇博文能够帮助到大家。\u200b\xa0\u3000等特殊字符这些特殊字符通常不在ASCII可见字符范围内，因此我们在浏览网页时看不到这些字符，但是在分析网页源码时会遇到。方法一，利用split方法处理这些字符最简单的方法是利用split方法去除。参考博文：h
Python爬虫笔记——多线程（threading）传参 Fo*(Bi) 爬虫笔记 python 多线程
参考文章：Python多线程3多线程的传参与返回值BBJG_001的博客——多线程threading库知识点补充学习网站：莫烦Python学习别人的经验：在主线程用一个变量或者直接输出就能获取或使用函数中return的值。但是在多线程中，可以这么理解，多线程之间的变量空间是互相隔绝的，所以return是不能把值返回到主进程的，只能在所在的线程使用，线程结束，值所在空间也就被释放了。所以，多线程之间
网络爬虫（Python：Selenium、Scrapy框架；爬虫与反爬虫笔记） qq742234984 爬虫 python selenium
网络爬虫（Python：Selenium、Scrapy框架；爬虫与反爬虫笔记）SeleniumWebDriver对象提供的相关方法定位元素ActionChains的基本使用selenium显示等待和隐式等待显示等待隐式等待Scrapy（异步网络爬虫框架）Scrapy框架反爬虫限制手段反爬虫的分类爬虫与反爬虫-功与防基于身份识别反爬和结局思路Headers反爬-通过User-agent字段Heade
【python爬虫】80页md笔记0基础到scrapy高手，第(5)篇：爬虫数据提取练习程序员一诺 python 爬虫 python 爬虫笔记
本文主要学习一下关于爬虫的相关前置知识和一些理论性的知识，通过本文我们能够知道什么是爬虫，都有那些分类，爬虫能干什么等，同时还会站在爬虫的角度复习一下http协议。全套python爬虫笔记地址：请移步这里共8大章，37子模块，总计5.6w字数据提取概要本阶段本文主要学习响应之后如何从响应中提取我们想要的数据，在本阶段本文中我们会讲解一些常用的方法和模块，基本上我们以后遇到的情况在掌握本阶段本文之后
python爬虫笔记_Python 爬虫学习笔记之多线程爬虫 weixin_39854681 python爬虫笔记
likeoneliketwolikethreehateonehatetwohatethree百度一下好123
Python爬虫，使用selenium爬取动态生成的网页数据 - 旧人笔记 - 旧人学习笔记 - 爬虫笔记 - 网络爬虫大白话旧人小表弟网络爬虫 python java selenium html js
什么是AJAXAJAX（AsynchronouseJavaScriptAndXML）异步JavaScript和XML，在后台与服务器进行少量数据交换，Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。传统的网页（不使用Ajax）如果需要更新内容，必须重载整个网页页面。因为传统的在传输数据格式方面，使用的是XML语法，因此叫做AJAX，其实现在数据交互
python网络爬虫笔记二肖一二三四
一、搜索淘宝商品名称和价格信息--定向爬虫importrequestsimportrefrombs4importBeautifulSoupimportbs4#获取网页内容defgetHTMLText(url):try:r=requests.get(url,timeout=30)r.raise_for_status()r.encoding=r.apparent_encodingreturnr.tex
Python爬虫笔记——爬虫基础第一课 Fo*(Bi) 爬虫笔记 python
爬虫的四个步骤0.获取数据——爬虫程序会根据我们提供的网址，向服务器发起请求，然后返回数据。1.解析数据——爬虫程序会把服务器返回的数据解析成我们能读懂的格式。2.提取数据——爬虫程序再从中提取出我们需要的数据。3.储存数据——爬虫程序把这些有用的数据保存起来。获取数据——requests库requests库可以帮我们下载网页源代码、文本、图片甚至是音频。“下载”本质上是向服务器发送请求并得到响应
Python 爬虫笔记（3） xxxz_02 python 爬虫 pycharm 1024程序员节
1、引入模块frombs4importBeautifulSoupimportreimporturllibimportsqlite3importxlwt2、定义得到一个指定的URL网页内容的函数#得到一个指定URL的网页内容defaskURL(url):head={#模拟浏览器，向像豆瓣服务器发送消息（伪装）"User-Agent":"Mozilla/5.0(WindowsNT10.0;WOW64)
获取IEEE会议论文的标题和摘要 PD我是你的真爱粉 python 网络爬虫
获取IEEE会议论文的标题和摘要–潘登同学的爬虫笔记文章目录获取IEEE会议论文的标题和摘要--潘登同学的爬虫笔记打开IEEE的高级搜索环境准备完整爬虫过程获取文章地址翻译函数获取文章标题和摘要前几天接到导师的一个任务，要我去找找IEEETransactionsonKnowledgeandDataEngineering期刊中与金融、企业有关的论文。起初我在IEEE官网不知所措，上了知网等很多论文网
Python爬虫笔记2——Requests：让HTTP服务人类 Fatsnake2 笔记 python
虽然Python的标准库中urllib2模块已经包含了平常我们使用的大多数功能，但是它的API使用起来让人感觉不好，而Requests自称“HTTPforHumans”，说明使用更简洁方便。Requests继承了urli2的所有特性。Requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动确定相应内容的编码，支持国际化的URL和POST数据自动编码。Req
python爬虫笔记----爬取中国传统色谱网的色号步月生尘
网站：http://zhongguose.com/目标：爬取所有颜色和颜色的十六进制码网站简介：记录最具有代表性的中国传统颜色及颜色的十六进制码，方便p图取色参考，里面的颜色都是最具代表的中国色。首次看一下网站的源码，发现源码里面没有首页的样式，首页里面每一个色块的样式文件里都有记录颜色的名称和十六进制码，而在代码里是通过js方式呈现的，并不是一个纯静态页面，所以，使用常规的resquest爬虫是
爬虫笔记_ 刘某某. 爬虫学习爬虫笔记
爬虫简介爬虫初始深入爬虫在使用场景中的分类通用爬虫：抓取系统重要组成部分。抓取的是一整张页面数据聚焦爬虫：是建立在通用爬虫的基础上。抓取的是页面中特定的局部内容。增量式爬虫监测网站中数据更新的情况。只会抓取网站中最新更新出来的数据。反爬机制可以通过制定相应的策略或技术手段防止爬虫进行爬取。反反爬策略可以通过制定相关策略或技术手段破解反爬机制从而可以获取门户网站中相关的数据。反爬机制：robots.
Python网络爬虫笔记12：Scrapy进阶之数据建模与翻页小薛引路 python网络爬虫笔记 python 爬虫
1数据建模通常在做项目的过程中，在items.py中进行数据建模；如果字段很少时，可以不建模1.1为什么建模定义item即提前规划好哪些字段需要抓，防止手误，因为定义好之后，在运行过程中，系统会自动检查配合注释一起可以清晰的知道要抓取哪些字段，没有定义的字段不能抓取，在目标字段少的时候可以使用字典代替使用scrapy的一些特定组件需要ltem做支持，如scrapy的ImagesPipeline管道
python爬虫笔记一：爬取豆瓣中指定的明星所有图片 bestyellow python 人工智能爬虫
从这个网址学习的：https://www.bilibili.com/read/cv10367703/------------------------------------------------------------------------https://movie.douban.com/celebrity/1011562/photos/打开页面F12进入开发者工具，查看下载的页数，以及每页最
python爬虫笔记二：爬取豆瓣中的影评 bestyellow python
从这个网址学习的：https://zhuanlan.zhihu.com/p/399300580------------------------------------------------------------------------https://movie.douban.com/subject/25728006/comments点击下一页https://movie.douban.com/s
【爬虫笔记】Python爬虫简单运用爬取代理IP 卑微阿文爬虫笔记 python tcp/ip
一、前言近些年来，网络上的爬虫越来越多，很多网站都针对爬虫进行了限制，封禁了一些不规则的请求。为了实现正常的网络爬虫任务，爬虫常用代理IP来隐藏自己的真实IP，避免被服务器封禁。本文将介绍如何使用Python爬虫来获取代理IP，以及如何在爬虫中使用代理IP。二、获取代理IP获取代理IP有两种方式：免费代理IP网站和收费代理IP服务。免费代理IP网站通常提供一些免费的代理IP，但是这些代理IP质量很
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号

【selenium爬虫】Yhen手把手带你用selenium自动化爬虫爬取海贼王动漫图片

你可能感兴趣的:(Yhen爬虫笔记)