Python图片爬虫系列---批量下载谷歌图片Googleimagedownload

最近有些图片爬取的需求,相信很多做CV的也需要,记录一下自己遇到的坑。

1. 安装

两种方法

(1)pip 安装, 如果爬取100张一下建议选用
pip install google_image_download
(2)源码安装
git clone https://github.com/hardikvasa/google-images-download.git

进入目录下运行google-images-download即可(当然前提是运行环境能上google),案例如下:

#爬取google图片搜索的cat下100张图片
python google-images-download.py -k "cat" -l 100 
分别爬取多个关键词的图片20张并存储在制定目录
python google-images-download.py --keywords "Polar bears, baloons, Beaches" --limit 20 -o "/usr/bin/.."

但是爬取100张以上的图片会报错。。

2.解决100张一下报错的问题:

安装chromedriver ,记得对应版本号与chrome一致。chromedriver官方地址

vim google_images_download/google_images_download.py
//在第165行插入:
options.add_argument('--proxy-server=socks5://localhost:1080') #你的proxy

然后再爬取就easy了。

googleimagesdownload -k "Sexy" -l 2000 --chromedriver="./chromedriver"

参考文献:

  1. Github issues问题
  2. 解决100限制的proxy问题
  3. 官方文档用法

你可能感兴趣的:(Python图片爬虫系列---批量下载谷歌图片Googleimagedownload)