Python 爬虫系列教程一爬取批量百度图片

Python 爬虫系列教程一爬取批量百度图片

https://blog.csdn.net/qq_40774175/article/details/81273198

很久之前就学习了Python的爬虫了,也用来做过一些项目(主要是一些课程项目),但时间比较紧,一直没有空把它写下来,这个暑假,我可能会逐渐更新Python爬虫的相关知识。

项目1:实现批量爬取百度图片

先简单的介绍下这个项目。当你需要下载大量图片的时候,或许你会去百度图片里一张张右键下载,但这样未免太麻烦了,有了这个工具,你直接运行下程序,输入你想要下载图片的关键字,然后输入你想要下载图片的数量,你就成功下载图片了!

下面给下演示程序的截图:

Python 爬虫系列教程一爬取批量百度图片_第1张图片

几秒钟后,我去C盘文件夹下,就有了30张,张天爱的图片啦!

Python 爬虫系列教程一爬取批量百度图片_第2张图片

是不是觉得,这样下载起来比较方便........

好了,言归正传,下面开始一步步教大家,怎么实现它!

1. Python的IDE,我想大家应该都有吧,我用的是pycharm,大家可以去官网上下载,这里顺带给大家推荐一个免费试用它的方法,当然,仅限于在校大学生(如果你是高中生的话,可能需要麻烦一点,去百度找注册码,大概每个月会更新一次的样子)

首先,你先到jetBrains 官网,官网链接在这!打开后。

Python 爬虫系列教程一爬取批量百度图片_第3张图片

你点击右上角的人物标志,进入账号登录页面。

之后,你在打开这个注册账号的链接:学生账号注册链接,

Python 爬虫系列教程一爬取批量百度图片_第4张图片

点击立即申请!

你会进入这个页面:

Python 爬虫系列教程一爬取批量百度图片_第5张图片

这里需要一个学校的公邮,这个公邮去哪里找呢?你可以去你所在学校的官网找找,每个在校大学生都可以申请200个学校公邮的(反正我们学校是这样),你可以搜索你们学校的邮箱系统,去查看具体怎么申请,每个学校可能不同。

申请好了以后,你在回到一开始让你进入的登录页面,登录以后,就可以免费下载使用了。

2 .安装爬虫需要的包

 (1)如果你使用的是pycharm,那么你安装包会非常的方便,在pycharm里找的Terminal 点击,输入pip install ....就可以安装包了,当然如果是你首次运行的话,可能需要你更新pip工具,这你最好去官网重新下载下pip,这样你以后会很方便,这里就不在具体讲怎么更新pip了,以后有时间在写写吧。

 (2) 依次键入pip install BeautifulSoup  

                         pip insatll requests

                         pip install  lxml 

 (3)下面将分别介绍他们的用途:

   BeautifulSoup 是用来获取一个页面里面的各个标签及里面的内容,我们主要用到它里面的find(),find_All()函数,具体用法将在后面一一介绍

  requests 是用来获取网页信息的,也就是说,我们给它一个url,它能把这个url对应的页面信息全部反馈给我们,这时候我们在用beautifulSoup里的函数对他们进行处理

lxml 是一个解析器,python里有专门的解析器,html.parser,但是lxml的解析速度优于html_parser,所以建议使用lxml

3. Python正则表达式基础

  要想提升写爬虫的能力,那么你必须学会正则表达式,它可以让你用简短的代码实现你想要的功能。

详细的知识,可以到这里去看.python 正则表达式

下面我会介绍,本次项目里使用到的技巧:

首先你先打开百度图片 ,也就是这个页面 百度图片

然后,你可以随便输入你想要查看的图片....(不好意思,我还是输入了,zhang tian ai)

Python 爬虫系列教程一爬取批量百度图片_第6张图片

 

注意:先点击右上角,切换成传统翻页版,因为这样有利于我们爬取图片!

接着,你右键检查网页源代码(如果你用的是谷歌浏览器),那么你可以在里面直接搜索 objURL 或者URL

Python 爬虫系列教程一爬取批量百度图片_第7张图片

现在我们发现了我们需要图片的url了,现在,我们要做的就是将这些信息爬取出来(网页中有objURL,hoverURL...但是我们用的是objURL,因为这个是原图),如何获取objURL?当然你可以饱览写个程序跑一遍,但是这程序写起来.....

那我们该如何用正则表达式实现呢?其实只需要一行代码.....

就是这么简单,我想你如果看了正则表达式,一定可以轻松的写出或者理解这句话。

4 . BeautifulSoup知识介绍

同样的我先给出文档链接,具体细节大家自己研究,我这里只介绍这个项目用到的知识。BeautifulSoup 文档

我们主要用到的是find()和find_All()函数:

Python 爬虫系列教程一爬取批量百度图片_第8张图片

Python 爬虫系列教程一爬取批量百度图片_第9张图片

5. requests 介绍

requests文档

requests博大精深,我们这里只不过是用了它的一个公能而已。

html = requests.get(url) 我们将url传进去,它就会得到这个url里面的信息,具体的,大家可以在python里运行试试.

6. 项目实现思路

 首先需要写一个下载图片的函数,其次还有检测图片数量的函数,还有最后的推荐函数(推荐函数,主要是根据你键入的文本,在百度图片里找到相似的内容,返回给用户,类似于百度搜索的最下面)

首先是图片下载函数:下面是部分代码

Python 爬虫系列教程一爬取批量百度图片_第10张图片

具体思路就是根据正则表达式,找到url,然后完成下载。

 

其次是推荐函数:

Python 爬虫系列教程一爬取批量百度图片_第11张图片

推荐函数,主要公能是把百度的相关搜索提示返回给用户,实现很简单,但需要注意编码的问题(关于python编码格式的问题,我觉得能写10000字,以后有空再慢慢写吧)。

还有是检测图片数量函数,它的主要思路是通过计算能翻的页数来估算总数量,比如一个页面有20张图片,那么我点下一页50次,那么就说明有1000张图片....虽然这样很傻(哈哈)

因为有些图片可能有很多张(估计要翻页10000多次),所以为了能在几秒内下载好图片,我把图片是上限设为了1020张,也就是说即使有100000张图片,我也就先告诉你只有1020张(当然你也可以把它设置为无限,可能会慢一点)

7 主函数

主函数主要是一些逻辑上的问题,为的就是让用户使用更便捷而已,具体我就不一一解释,我想大家看源码比看我写 的文字更有感觉。

之前会出现下载重复的bug,现在已经解决了。

8 源代码:

 
  1. import re

  2. import requests

  3. from urllib import error

  4. from bs4 import BeautifulSoup

  5. import os

  6.  
  7. num = 0

  8. numPicture = 0

  9. file = ''

  10. List = []

  11.  
  12.  
  13. def Find(url):

  14. global List

  15. print('正在检测图片总数,请稍等.....')

  16. t = 0

  17. i = 1

  18. s = 0

  19. while t < 1000:

  20. Url = url + str(t)

  21. try:

  22. Result = requests.get(Url, timeout=7)

  23. except BaseException:

  24. t = t + 60

  25. continue

  26. else:

  27. result = Result.text

  28. pic_url = re.findall('"objURL":"(.*?)",', result, re.S) # 先利用正则表达式找到图片url

  29. s += len(pic_url)

  30. if len(pic_url) == 0:

  31. break

  32. else:

  33. List.append(pic_url)

  34. t = t + 60

  35. return s

  36.  
  37.  
  38. def recommend(url):

  39. Re = []

  40. try:

  41. html = requests.get(url)

  42. except error.HTTPError as e:

  43. return

  44. else:

  45. html.encoding = 'utf-8'

  46. bsObj = BeautifulSoup(html.text, 'html.parser')

  47. div = bsObj.find('div', id='topRS')

  48. if div is not None:

  49. listA = div.findAll('a')

  50. for i in listA:

  51. if i is not None:

  52. Re.append(i.get_text())

  53. return Re

  54.  
  55.  
  56. def dowmloadPicture(html, keyword):

  57. global num

  58. # t =0

  59. pic_url = re.findall('"objURL":"(.*?)",', html, re.S) # 先利用正则表达式找到图片url

  60. print('找到关键词:' + keyword + '的图片,即将开始下载图片...')

  61. for each in pic_url:

  62. print('正在下载第' + str(num + 1) + '张图片,图片地址:' + str(each))

  63. try:

  64. if each is not None:

  65. pic = requests.get(each, timeout=7)

  66. else:

  67. continue

  68. except BaseException:

  69. print('错误,当前图片无法下载')

  70. continue

  71. else:

  72. string = file + r'\\' + keyword + '_' + str(num) + '.jpg'

  73. fp = open(string, 'wb')

  74. fp.write(pic.content)

  75. fp.close()

  76. num += 1

  77. if num >= numPicture:

  78. return

  79.  
  80.  
  81. if __name__ == '__main__': # 主函数入口

  82. word = input("请输入搜索关键词(可以是人名,地名等): ")

  83. #add = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%BC%A0%E5%A4%A9%E7%88%B1&pn=120'

  84. url = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + '&pn='

  85. tot = Find(url)

  86. Recommend = recommend(url) # 记录相关推荐

  87. print('经过检测%s类图片共有%d张' % (word, tot))

  88. numPicture = int(input('请输入想要下载的图片数量 '))

  89. file = input('请建立一个存储图片的文件夹,输入文件夹名称即可')

  90. y = os.path.exists(file)

  91. if y == 1:

  92. print('该文件已存在,请重新输入')

  93. file = input('请建立一个存储图片的文件夹,)输入文件夹名称即可')

  94. os.mkdir(file)

  95. else:

  96. os.mkdir(file)

  97. t = 0

  98. tmp = url

  99. while t < numPicture:

  100. try:

  101. url = tmp + str(t)

  102. result = requests.get(url, timeout=10)

  103. print(url)

  104. except error.HTTPError as e:

  105. print('网络错误,请调整网络后重试')

  106. t = t+60

  107. else:

  108. dowmloadPicture(result.text, word)

  109. t = t + 60

  110.  
  111. print('当前搜索结束,感谢使用')

  112. print('猜你喜欢')

  113. for re in Recommend:

  114. print(re, end=' ')

好了,就先写这么多。欢迎大家转载。如有问题,欢迎给我留言。

后记:最近发现我队友在看一本关于爬虫的书,看完之后,他的爬虫技术就登峰造极了,我只能触目远望了,推荐给大家这本书吧。

链接:https://pan.baidu.com/s/1IXYZW_mxIxDoEkmmrQTnNw 
提取码:c7li 
复制这段内容后打开百度网盘手机App,操作更方便哦

 

2019年4月2日  第3次更新

这次有网友想要爬取大量的图片作为训练材料。他想要300种不同的图片,每种100张,如果还是按之前的代码去运行,就需要他输入300次图片的名称,这样是非常浪费时间的。所以这里对代码进行一些改进,你只需要把你想要爬取图片的名称,编辑到一个txt文件,然后输入你需要的数量就行。

 

使用方法:

首先将你需要下载的图片名称写到一个txt文本上,文本的名字叫name即可。

按行输入,每行放一个名字。

将name.txt放入和你当前python文件同一目录下即可。

Python 爬虫系列教程一爬取批量百度图片_第12张图片

Python 爬虫系列教程一爬取批量百度图片_第13张图片

 

代码:

 
  1. import re

  2. import requests

  3. from urllib import error

  4. from bs4 import BeautifulSoup

  5. import os

  6.  
  7. num = 0

  8. numPicture = 0

  9. file = ''

  10. List = []

  11.  
  12.  
  13. def Find(url):

  14. global List

  15. print('正在检测图片总数,请稍等.....')

  16. t = 0

  17. i = 1

  18. s = 0

  19. while t < 1000:

  20. Url = url + str(t)

  21. try:

  22. Result = requests.get(Url, timeout=7)

  23. except BaseException:

  24. t = t + 60

  25. continue

  26. else:

  27. result = Result.text

  28. pic_url = re.findall('"objURL":"(.*?)",', result, re.S) # 先利用正则表达式找到图片url

  29. s += len(pic_url)

  30. if len(pic_url) == 0:

  31. break

  32. else:

  33. List.append(pic_url)

  34. t = t + 60

  35. return s

  36.  
  37.  
  38. def recommend(url):

  39. Re = []

  40. try:

  41. html = requests.get(url)

  42. except error.HTTPError as e:

  43. return

  44. else:

  45. html.encoding = 'utf-8'

  46. bsObj = BeautifulSoup(html.text, 'html.parser')

  47. div = bsObj.find('div', id='topRS')

  48. if div is not None:

  49. listA = div.findAll('a')

  50. for i in listA:

  51. if i is not None:

  52. Re.append(i.get_text())

  53. return Re

  54.  
  55.  
  56. def dowmloadPicture(html, keyword):

  57. global num

  58. # t =0

  59. pic_url = re.findall('"objURL":"(.*?)",', html, re.S) # 先利用正则表达式找到图片url

  60. print('找到关键词:' + keyword + '的图片,即将开始下载图片...')

  61. for each in pic_url:

  62. print('正在下载第' + str(num + 1) + '张图片,图片地址:' + str(each))

  63. try:

  64. if each is not None:

  65. pic = requests.get(each, timeout=7)

  66. else:

  67. continue

  68. except BaseException:

  69. print('错误,当前图片无法下载')

  70. continue

  71. else:

  72. string = file + r'\\' + keyword + '_' + str(num) + '.jpg'

  73. fp = open(string, 'wb')

  74. fp.write(pic.content)

  75. fp.close()

  76. num += 1

  77. if num >= numPicture:

  78. return

  79.  
  80.  
  81. if __name__ == '__main__': # 主函数入口

  82. tm = int(input('请输入每类图片的下载数量 '))

  83. numPicture = tm

  84. line_list = []

  85. with open('./name.txt', encoding='utf-8') as file:

  86. line_list = [k.strip() for k in file.readlines()] # 用 strip()移除末尾的空格

  87.  
  88. for word in line_list:

  89. url = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + '&pn='

  90. tot = Find(url)

  91. Recommend = recommend(url) # 记录相关推荐

  92. print('经过检测%s类图片共有%d张' % (word, tot))

  93. file = word + '文件'

  94. y = os.path.exists(file)

  95. if y == 1:

  96. print('该文件已存在,请重新输入')

  97. file = word+'文件夹2'

  98. os.mkdir(file)

  99. else:

  100. os.mkdir(file)

  101. t = 0

  102. tmp = url

  103. while t < numPicture:

  104. try:

  105. url = tmp + str(t)

  106. result = requests.get(url, timeout=10)

  107. print(url)

  108. except error.HTTPError as e:

  109. print('网络错误,请调整网络后重试')

  110. t = t + 60

  111. else:

  112. dowmloadPicture(result.text, word)

  113. t = t + 60

  114. numPicture = numPicture + tm

  115.  
  116. print('当前搜索结束,感谢使用')

 

如遇到bug或者有新的需求,可以给我留言,或者微信(15087581161)联系我(记得备注)。

 

你可能感兴趣的:(爬虫)