梦想橡皮擦

Python爬虫入门教程 10-100 图虫网多线程爬取

1.图虫网多线程爬取-写在前面

经历了一顿噼里啪啦的操作之后，终于我把博客写到了第10篇，后面，慢慢的会涉及到更多的爬虫模块，有人问scrapy 啥时候开始用，这个我预计要在30篇以后了吧，后面的套路依旧慢节奏的，所以莫着急了，100篇呢，预计4~5个月写完，常见的反反爬后面也会写的，还有fuck login类的内容。

2.图虫网多线程爬取-爬取图虫网

为什么要爬取这个网站，不知道哎~ 莫名奇妙的收到了，感觉图片质量不错，不是那些妖艳贱货 可以比的，所以就开始爬了，搜了一下网上有人也在爬，但是基本都是py2，py3的还没有人写，所以顺手写一篇吧。

3.图虫网多线程爬取-起始页面

https://tuchong.com/explore/
这个页面中有很多的标签，每个标签下面都有很多图片，为了和谐，我选择了一个非常好的标签花卉 你可以选择其他的，甚至，你可以把所有的都爬取下来。

https://tuchong.com/tags/%E8%8A%B1%E5%8D%89/  # 花卉编码成了  %E8%8A%B1%E5%8D%89  这个无所谓

我们这次也玩点以前没写过的，使用python中的queue，也就是队列

下面是我从别人那顺来的一些解释，基本爬虫初期也就用到这么多

1. 初始化： class Queue.Queue(maxsize) FIFO 先进先出

2. 包中的常用方法:

    - queue.qsize() 返回队列的大小
    - queue.empty() 如果队列为空，返回True,反之False
    - queue.full() 如果队列满了，返回True,反之False
    - queue.full 与 maxsize 大小对应
    - queue.get([block[, timeout]])获取队列，timeout等待时间

3. 创建一个“队列”对象
    import queue
    myqueue = queue.Queue(maxsize = 10)

4. 将一个值放入队列中
    myqueue.put(10)

5. 将一个值从队列中取出
    myqueue.get()

4.图虫网多线程爬取-开始编码

首先我们先实现主要方法的框架，我依旧是把一些核心的点，都写在注释上面

def main():
    # 声明一个队列，使用循环在里面存入100个页码
    page_queue  = Queue(100)
    for i in range(1,101):
        page_queue.put(i)


    # 采集结果(等待下载的图片地址)
    data_queue = Queue()

    # 记录线程的列表
    thread_crawl = []
    # 每次开启4个线程
    craw_list = ['采集线程1号','采集线程2号','采集线程3号','采集线程4号']
    for thread_name in craw_list:
        c_thread = ThreadCrawl(thread_name, page_queue, data_queue)
        c_thread.start()
        thread_crawl.append(c_thread)

    # 等待page_queue队列为空，也就是等待之前的操作执行完毕
    while not page_queue.empty():
        pass

if __name__ == '__main__':
    main()

代码运行之后，成功启动了4个线程，然后等待线程结束，这个地方注意，你需要把 ThreadCrawl 类补充完整

class ThreadCrawl(threading.Thread):

    def __init__(self, thread_name, page_queue, data_queue):
        # threading.Thread.__init__(self)
        # 调用父类初始化方法
        super(ThreadCrawl, self).__init__()
        self.threadName = thread_name
        self.page_queue = page_queue
        self.data_queue = data_queue

    def run(self):
        print(self.threadName + ' 启动************')

运行结果

线程已经开启，在run方法中，补充爬取数据的代码就好了,这个地方引入一个全局变量，用来标识爬取状态
CRAWL_EXIT = False

先在main方法中加入如下代码

CRAWL_EXIT = False  # 这个变量声明在这个位置
class ThreadCrawl(threading.Thread):

    def __init__(self, thread_name, page_queue, data_queue):
        # threading.Thread.__init__(self)
        # 调用父类初始化方法
        super(ThreadCrawl, self).__init__()
        self.threadName = thread_name
        self.page_queue = page_queue
        self.data_queue = data_queue

    def run(self):
        print(self.threadName + ' 启动************')
        while not CRAWL_EXIT:
            try:
                global tag, url, headers,img_format  # 把全局的值拿过来
                # 队列为空 产生异常
                page = self.page_queue.get(block=False)   # 从里面获取值
                spider_url = url_format.format(tag,page,100)   # 拼接要爬取的URL
                print(spider_url)
            except:
                break

            timeout = 4   # 合格地方是尝试获取3次，3次都失败，就跳出
            while timeout > 0:
                timeout -= 1
                try:
                    with requests.Session() as s:
                        response = s.get(spider_url, headers=headers, timeout=3)
                        json_data = response.json()
                        if json_data is not None:
                            imgs = json_data["postList"]
                            for i in imgs:
                                imgs = i["images"]
                                for img in imgs:
                                    img = img_format.format(img["user_id"],img["img_id"])
                                    self.data_queue.put(img)  # 捕获到图片链接，之后，存入一个新的队列里面，等待下一步的操作

                    break

                except Exception as e:
                    print(e)


            if timeout <= 0:
                print('time out!')
def main():
	# 代码在上面

    # 等待page_queue队列为空，也就是等待之前的操作执行完毕
    while not page_queue.empty():
        pass

    # 如果page_queue为空，采集线程退出循环
    global CRAWL_EXIT
    CRAWL_EXIT = True
	
	# 测试一下队列里面是否有值
	print(data_queue)

经过测试，data_queue 里面有数据啦！！，哈哈，下面在使用相同的操作，去下载图片就好喽

完善main方法

def main():
    # 代码在上面

    for thread in thread_crawl:
        thread.join()
        print("抓取线程结束")

    thread_image = []
    image_list = ['下载线程1号', '下载线程2号', '下载线程3号', '下载线程4号']
    for thread_name in image_list:
        Ithread = ThreadDown(thread_name, data_queue)
        Ithread.start()
        thread_image.append(Ithread)



    while not data_queue.empty():
        pass

    global DOWN_EXIT
    DOWN_EXIT = True

    for thread in thread_image:
        thread.join()
        print("下载线程结束")

还是补充一个 ThreadDown 类，这个类就是用来下载图片的。


class ThreadDown(threading.Thread):
    def __init__(self, thread_name, data_queue):
        super(ThreadDown, self).__init__()
        self.thread_name = thread_name
        self.data_queue = data_queue

    def run(self):
        print(self.thread_name + ' 启动************')
        while not DOWN_EXIT:
            try:
                img_link = self.data_queue.get(block=False)
                self.write_image(img_link)
            except Exception as e:
                pass

    def write_image(self, url):

        with requests.Session() as s:
            response = s.get(url, timeout=3)
            img = response.content   # 获取二进制流

        try:
            file = open('image/' + str(time.time())+'.jpg', 'wb')
            file.write(img)
            file.close()
            print('image/' + str(time.time())+'.jpg 图片下载完毕')

        except Exception as e:
            print(e)
            return

运行之后,等待图片下载就可以啦~~

关键注释已经添加到代码里面了,收图吧 (◕ᴗ◕✿)，这次代码回头在上传到github上因为比较简单

当你把上面的花卉修改成比如xx啥的~，就是天外飞仙了

学习用网址自留 lsswear 学习学习
Swoole4文档PHP:PHP手册-Manualshell学习教程(超详细完整)_路人甲的博客-CSDN博客_shell学习Python基础-廖雪峰的官方网站Python爬虫100例教程导航帖（已完结）_梦想橡皮擦，专栏100例写作模式先行者-CSDN博客_python爬虫100例教程蓝桥杯算法全家桶（终极完结版）_JohnnyLin-CSDN博客_蓝桥杯算法Python爬虫100例教程导航帖（
python爬虫100例教程 python爬虫实例100例子 YG亲测源码屋爬虫 python
python爬虫100例教程python爬虫实例100例子相关下载地址：https://download.csdn.net/download/dhyuan_88/31825677涉及主要知识点:web是如何交互的requests库的get、post函数的应用response对象的相关函数，属性python文件的打开，保存代码中给出了注释，并且可以直接运行哦如何安装requests库(安装好pyth
【爬虫前置知识】OB 混淆与变量名混淆特性详解梦想橡皮擦精彩技术文爬虫 python 数据分析开发语言数据挖掘
文章目录Python爬虫系列专栏OB混淆与变量名混淆特性详解简介OB混淆特性UglifyJS实现OB混淆JavaScriptObfuscator实现OB混淆Python爬虫系列专栏爬虫100例教程Python爬虫120文末提供了一个投票，大家可以选择一下想要学习的内容。Python爬虫框架选择爬虫数据清洗爬虫数据存储爬虫爬取速度优化爬虫反爬虫技术爬虫代理IP使用爬虫自动化爬虫分布式部署爬虫定时任务
CSDN 6月付费专栏榜单公布啦！精品专栏付费专栏排行榜
6月付费专栏榜单公布啦！6月销量榜Top10恭喜@雪云飞星@Inspiration666@点云侠荣登TOP3排序专栏标题作者昵称订单数1AutoSAR入门到精通系列讲解雪云飞星1682PCL学习点云侠1493C试题Inspiration6661194解决金税登录问题1185爬虫100例教程梦想橡皮擦1026RK3399平台开发入门到精通系列专栏内核笔记1017网络安全自学篇Eastmount968
十行代码集齐2000张美女图，Python爬虫120例，再上征途！进击的python君零基础python 爬虫人工智能 python 爬虫人工智能新媒体运营
Python爬虫100例教程，编写自2018-07-30到2020-10-28，将近800天，至今依旧是Python爬虫领域畅销专栏之一。但随着时间的变化，Python爬虫100例中部分抓取目标网站，地址已经失效，是时候进行迭代升级啦。2021年5月21日，升级版Python爬虫120例上线啦。更新内容如下：更新频率更快，上次800天完成100例，这次300天完成120例；更新所有目标网站；更新最
3天学完10套Python顶级教程，端午节技术人消失之谜梦想橡皮擦 IT行业分析编程语言 python 人工智能算法爬虫
端午节，擦姐粉丝群群友A：擦姐，消失去干啥了？群友B：听说擦姐去刷脸要福利去了群友C：啥课？端午节，擦姐慷(hou)慨(zhe)激(lian)昂(pi)从CSDN运营姐姐手中，要来了一波大促课程。只拿优惠价格购买课程，肯定还不够，擦姐为你还准备了如下福利：一旦你购买本文中任意课程，联系擦姐，都能拥有《爬虫100例教程》课程的一折购买资格，3.99元即可拥有100个爬虫案例。实实在在的买一赠一堆。这
10行代码集2000张美女图，Python爬虫120例，再上征途梦想橡皮擦 python java 人工智能正则表达式编程语言
《Python爬虫120例》专栏简介Python爬虫100例教程，编写自2018-07-30到2020-10-28，将近800天，至今依旧是Python爬虫领域畅销专栏之一。但随着时间的变化，Python爬虫100例中部分抓取目标网站，地址已经失效，是时候进行迭代升级啦。2021年5月21日，升级版Python爬虫120例上线啦。更新内容如下：更新频率更快，上次800天完成100例，这次300天完
如何提升付费专栏的转化？精品专栏
目录一、如何定位专栏？二、如何让专栏更有吸引力？三、如何能让专栏获得更多的流量？很多想要变现的博主很关心一个问题，如何让自己的付费文章能够更好的等到变现，其实只要学习一些转化比较好的专栏就会发现，原来这样做可能就会提升付费文章的转化。卖的比较好的专栏（可参考）爬虫100例教程https://blog.csdn.net/hihell/category_9280209.htmlESP8266Ardui
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

Python爬虫入门教程 10-100 图虫网多线程爬取

1.图虫网多线程爬取-写在前面

2.图虫网多线程爬取-爬取图虫网

3.图虫网多线程爬取-起始页面

4.图虫网多线程爬取-开始编码

你可能感兴趣的:(爬虫100例教程)