梦想橡皮擦

Python爬虫入门教程 3-100 美空网数据爬取

1.美空网数据-简介

从今天开始，我们尝试用2篇博客的内容量，搞定一个网站叫做“美空网”网址为：http://www.moko.cc/，这个网站我分析了一下，我们要爬取的图片在下面这个网址

http://www.moko.cc/post/1302075.html

然后在去分析一下，我需要找到一个图片列表页面是最好的，作为一个勤劳的爬虫coder，我找到了这个页面

http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html

列表页面被我找到了，貌似没有分页，这就简单多了，但是刚想要爬，就翻车了，我发现一个严重的问题。

http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html

我要做的是一个自动化的爬虫，但是我发现，出问题了，上面那个黄色背景的位置是啥？

ID，昵称，个性首页，这个必须要搞定。

我接下来随机的找了一些图片列表页，试图找到规律到底是啥？

http://www.moko.cc/post/978c74a0375f4edca114e87b0a45a0b5/list.html
http://www.moko.cc/post/jundayi/list.html
http://www.moko.cc/post/slavik/list.html
…

没什么问题，发现规律了

http://www.moko.cc/post/个性昵称(中文昵称是一个加密的串)/list.html

这就有点意思了，我要是能找到尽量多的昵称，不就能拼接出来我想要得所有地址了吗

开干！！！

手段，全站乱点，找入口，找切入点，找是否有API

… … 结果没找着

下面的一些备选方案

趴这个页面，发现只有 20页 http://www.moko.cc/channels/post/23/1.html

每页48个模特，20页。那么也才960人啊，完全覆盖不到尽可能多的用户。

接着又找到

http://www.moko.cc/catalog/index.html 这个页面

确认了一下眼神，以为发现问题了，结果

哎呀，还么有权限，谁有权限，可以跟我交流一下，一时激动，差点去下载他们的APP，然后进行抓包去。

上面两条路，都不好弄，接下来继续找路子。

无意中，我看到了一丝曙光

关注名单，点进去

哈哈哈，OK了，这不就是，我要找到的东西吗？

不多说了，爬虫走起，测试一下他是否有反扒机制。

我找到了一个关注的人比较多的页面，1500多个人

http://www.moko.cc/subscribe/chenhaoalex/1.html

然后又是一波分析操作

2.美空网数据- 爬虫数据存储

确定了爬虫的目标，接下来，我做了两件事情，看一下，是否对你也有帮助

确定数据存储在哪里？最后我选择了MongoDB
用正则表达式去分析网页数据

对此，我们需要安装一下MongoDB，安装的办法肯定是官网教程啦！

https://docs.mongodb.com/master/tutorial/install-mongodb-on-red-hat/

如果官方文档没有帮助你安装成功。

那么我推荐下面这篇博客

https://www.cnblogs.com/hackyo/p/7967170.html

安装MongoDB出现如下结果

恭喜你安装成功了。

接下来，你要学习的是关于mongodb用户权限的管理

http://www.cnblogs.com/shiyiwen/p/5552750.html

mongodb索引的创建

https://blog.csdn.net/salmonellavaccine/article/details/53907535

别问为啥我不重新写一遍，懒呗~~~ 况且这些资料太多了，互联网大把大把的。

一些我经常用的mongdb的命令


链接 mongo --port <端口号>

选择数据库 use admin 

展示当前数据库  db 

当前数据库授权  db.auth("用户名","密码")

查看数据库  show dbs

查看数据库中的列名  show collections 

创建列  db.createCollection("列名")

创建索引 db.col.ensureIndex({"列名字":1},{"unique":true})

展示所有索引 db.col.getIndexes()

删除索引 db.col.dropIndex("索引名字")  

查找数据  db.列名.find()

查询数据总条数  db.列名.find().count()

上面基本是我最常用的了，我们下面实际操作一把。

用Python链接MongoDB

使用 pip3 安装pymongo库

使用pymongo模块连接mongoDB数据库

一些准备工作

创建dm数据库

链接上mongodb 在终端使用命令 mongo --port 21111

[linuxboy@localhost ~]$ mongo --port 21111
MongoDB shell version v3.6.5
connecting to: mongodb://127.0.0.1:21111/
MongoDB server version: 3.6.5
>

配置用户权限：接着上面输入命令 show dbs 查看权限

权限不足

创建管理用户

db.createUser({user: "userAdmin",pwd: "123456", roles: [ { role: "userAdminAnyDatabase", db: "admin" } ] } )

授权用户

db.auth("userAdmin","123456")

查看权限

> db.auth("userAdmin","123456")
1
> show dbs
admin   0.000GB
config  0.000GB
local   0.000GB
moko    0.013GB
test    0.000GB
>

接下来创建 dm数据库<在这之前还需要创建一个读写用户>

> use dm
switched to db dm
> db
dm
> db.createUser({user: "dba",pwd: "dba", roles: [ { role: "readWrite", db: "dm" } ] } )
Successfully added user: {
	"user" : "dba",
	"roles" : [
		{
			"role" : "readWrite",
			"db" : "dm"
		}
	]
}
>

重新授权

db.auth("dba","dba")

创建一列数据

> db.createCollection("demo")
{ "ok" : 1 }
> db.collections
dm.collections
> show collections
demo
>

Python实现插入操作

import pymongo as pm  #确保你已经安装过pymongo了

 # 获取连接
client = pm.MongoClient('localhost', 21111)  # 端口号是数值型

# 连接目标数据库
db = client.dm

# 数据库用户验证
db.authenticate("dba", "dba")
post = {
        "id": "111111",
        "level": "MVP",
        "real":1,
        "profile": '111',
        'thumb':'2222',
        'nikename':'222',
        'follows':20
}

db.col.insert_one(post) # 插入单个文档

# 打印集合第1条记录
print (db.col.find_one())

编译执行

[linuxboy@bogon moocspider]$ python3 mongo.py
{'_id': ObjectId('5b15033cc3666e1e28ae5582'), 'id': '111111', 'level': 'MVP', 'real': 1, 'profile': '111', 'thumb': '2222', 'nikename': '222', 'follows': 20}
[linuxboy@bogon moocspider]$

好了，我们到现在为止，实现了mongodb的插入问题。

3.美空网数据-用Python 爬取关注对象

首先，我需要创造一个不断抓取链接的类

这个类做的事情，就是分析

http://www.moko.cc/subscribe/chenhaoalex/1.html

这个页面，总共有多少页，然后生成链接

抓取页面中的总页数为77

正则表达式如下

onfocus=\"this\.blur\(\)\">(\d*?)<

在这里，由所有的分页都一样，所以，我匹配了全部的页码，然后计算了数组中的最大值

#获取页码数组
pages = re.findall(r'onfocus=\"this\.blur\(\)\">(\d*?)<',content,re.S)   #获取总页数
page_size = 1
if pages:  #如果数组不为空
    page_size = int(max(pages))   #获取最大页数

接下来就是我们要搞定的生产者编码阶段了，我们需要打造一个不断获取连接的爬虫

简单的说就是

我们需要一个爬虫，不断的去爬取

http://www.moko.cc/subscribe/chenhaoalex/1.html 这个页面中所有的用户，并且还要爬取到总页数。

比如查看上述页面中,我们要获取的关键点如下

通过这个页面，我们要得到，这样子的一个数组，注意下面数组中有个位置【我用爬虫爬到的】这个就是关键的地方了

all_urls = [
    "http://www.moko.cc/subscribe/chenhaoalex/1.html",
    "http://www.moko.cc/subscribe/chenhaoalex/2.html",
    "http://www.moko.cc/subscribe/chenhaoalex/3.html",
    "http://www.moko.cc/subscribe/chenhaoalex/4.html",
    ......
    "http://www.moko.cc/subscribe/dde760d5dd6a4413aacb91d1b1d76721/1.html"
    "http://www.moko.cc/subscribe/3cc82db2231a4449aaa97ed8016b917a/1.html"
    "http://www.moko.cc/subscribe/d45c1e3069c24152abdc41c1fb342b8f/1.html"
    "http://www.moko.cc/subscribe/【我用爬虫爬到的】/1.html"
    
    
    ]

引入必备模块

# -*- coding: UTF-8 -*-
import requests   #网络请求模块
import random     #随机模块
import re         #正则表达式模块
import time       #时间模块
import threading  #线程模块
import pymongo as pm   #mongodb模块

接下来，我们需要准备一个通用函数模拟UserAgent做一个简单的反爬处理

class Config():
    def getHeaders(self):
        user_agent_list = [ \
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1" \
            "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", \
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6", \
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6", \
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1", \
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5", \
            "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5", \
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
            "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
            "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", \
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", \
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
            "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
            "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", \
            "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3", \
            "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", \
            "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
        ]
        UserAgent=random.choice(user_agent_list)
        headers = {'User-Agent': UserAgent}
        return headers

编写生产者的类和核心代码,Producer继承threading.Thread

#生产者
class Producer(threading.Thread):
    
    def run(self):
        print("线程启动...")
        headers = Config().getHeaders()

if __name__ == "__main__":
    p = Producer()
    p.start()

测试运行，一下，看是否可以启动

[linuxboy@bogon moocspider]$ python3 demo.py
线程启动...
{'User-Agent': 'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24'}
[linuxboy@bogon moocspider]$

如果上面的代码没有问题，接下来就是我们爬虫代码部分了，为了方便多线程之间的调用，我们还是创建一个共享变量在N个线程之间调用

# -*- coding: UTF-8 -*-
import requests
import random
import re
import time
import threading
import pymongo as pm

 # 获取连接
client = pm.MongoClient('localhost', 21111)  # 端口号是数值型

# 连接目标数据库
db = client.moko

# 数据库用户验证
db.authenticate("moko", "moko")

urls = ["http://www.moko.cc/subscribe/chenhaoalex/1.html"]
index = 0   #索引
g_lock = threading.Lock()  #初始化一个锁  



#生产者
class Producer(threading.Thread):
    
    def run(self):
        print("线程启动...")
        headers = Config().getHeaders()
        print(headers)
        global urls
        global index 
        while True:
            g_lock.acquire() 
            if len(urls)==0:
                g_lock.release() 
                continue
            page_url = urls.pop()
            g_lock.release() #使用完成之后及时把锁给释放，方便其他线程使用
            response = ""
            try:
                response = requests.get(page_url,headers=headers,timeout=5)
                
            except Exception as http:
                print("生产者异常")
                print(http)
                continue       
            content = response.text 
            
            rc = re.compile(r'')
            follows = rc.findall(content)
            print(follows)
            fo_url = []
            threading_links_2 = []
            for u in follows:   
                this_url = "http://www.moko.cc/subscribe/%s/1.html" % u 
                g_lock.acquire()
                index += 1 
                g_lock.release()
                fo_url.append({"index":index,"link":this_url})
                threading_links_2.append(this_url)
           
            g_lock.acquire()
            urls += threading_links_2
            g_lock.release()
            print(fo_url)
            
            try:
                db.text.insert_many(fo_url,ordered=False )
            except:
                continue

if __name__ == "__main__":
    p = Producer()
    p.start()

上面代码除了基本操作以外，我做了一些细小的处理

现在说明如下

fo_url.append({"index":index,"link":this_url})

这部分代码，是为了消费者使用时候，方便进行查找并且删除操作而特意改造的，增加了一个字段index作为标识

第二个部分，插入数据的时候，我进行了批量的操作使用的是insert_many函数，并且关键的地方，我增加了一个ordered=False的操作，这个地方大家可以自行研究一下，我的目的是去掉重复数据，默认情况下insert_many函数如果碰到数据重复，并且在mongodb中创建了索引创建索引的办法，大家自行翻阅文章上面，那么是无法插入的，但是这样子会插入一部分，只把重复的地方略过，非常方便。

关于pymongo的使用，大家可以参考官网手册

这个是 pymongo的官方教程

http://api.mongodb.com/python/current/api/pymongo/collection.html?highlight=insert_many#pymongo.collection.Collection.insert_many

MongoDB的手册大家也可以参考

https://docs.mongodb.com/manual/reference/method/db.collection.insertMany/

 db.text.insert_many(fo_url,ordered=False )

我们链接上MongoDB数据库，查询一下我们刚刚插入的数据


> show collections
col
links
text
> db.text
moko.text
> db.text.find()
{ "_id" : ObjectId("5b1789e0c3666e642364a70b"), "index" : 1, "link" : "http://www.moko.cc/subscribe/dde760d5dd6a4413aacb91d1b1d76721/1.html" }
{ "_id" : ObjectId("5b1789e0c3666e642364a70c"), "index" : 2, "link" : "http://www.moko.cc/subscribe/3cc82db2231a4449aaa97ed8016b917a/1.html" }
.......
{ "_id" : ObjectId("5b1789e0c3666e642364a71e"), "index" : 20, "link" : "http://www.moko.cc/subscribe/8c1e4c738e654aad85903572f9090adb/1.html" }
Type "it" for more

其实上面代码，有一个非常严重的BUG，就是当我们实际操作的时候，发现，我们每次获取到的都是我们使用this_url = "http://www.moko.cc/subscribe/%s/1.html" % u 进行拼接的结果。

也就是说，我们获取到的永远都是第1页。这个按照我们之前设计的就不符合逻辑了，

我们还要获取到分页的内容，那么这个地方需要做一个简单的判断，就是下面的逻辑了。

如果完整代码，大家不知道如何观看，可以直接翻阅到文章底部，有对应的github链接

#如果是第一页，那么需要判断一下
#print(page_url)
is_home =re.search(r'(\d*?)\.html',page_url).group(1)
if is_home == str(1):
    pages = re.findall(r'onfocus=\"this\.blur\(\)\">(\d*?)<',content,re.S)   #获取总页数
    page_size = 1
    if pages:
        page_size = int(max(pages))   #获取最大页数
        if page_size > 1:   #如果最大页数大于1，那么获取所有的页面
            url_arr = []
            threading_links_1 = []
            for page in range(2,page_size+1):
                url =  re.sub(r'(\d*?)\.html',str(page)+".html",page_url)  
                threading_links_1.append(url)
                g_lock.acquire()
                index += 1 
                g_lock.release()

                url_arr.append({ "index":index, "link": url})

            g_lock.acquire()
            urls += threading_links_1  #  URL数据添加
            g_lock.release()
            try:
                db.text.insert_many(url_arr,ordered=False )
            except Exception as e:
                print("数据库输入异常")
                print (e)
                continue
            
        else:
            pass
    else:
            pass

截止到现在为止，其实你已经实现了链接的生产者了。

我们在MongoDB中生成了一堆链接，接下来就是使用阶段了。

使用起来也是非常简单。

我先给大家看一个比较复杂的正则表达式爬虫写的好不好，正则表达式站很重要的比例哦~

divEditOperate_(?P\d*)[\"] .*>[\s\S]*?.*?(?P<级别>\w*P).*(?P<是否认证>
)?.*?
[\s\S]*?[\s\S]*?.*?)\" hidefocus=\"true\">[\s\S]*?.*?)\".*?alt=\".*?\" title=\"(?P<昵称>.*?)\" />[\s\S]*?(?P<地点>.*?) .*?(?P<粉丝数目>\d*?)

上面这个正则表达式，就是我为

http://www.moko.cc/subscribe/chenhaoalex/1.html

这个页面专门准备的。

这样子，我就可以直接获取到我想要的所有数据了。

消费者的代码如下

get_index = 0
#消费者类
class Consumer(threading.Thread):
    
    def run(self):
        headers = Config().getHeaders()

        global get_index 
        while True:
            
            g_lock.acquire() 
            get_index += 1
            g_lock.release()
            #从刚才数据存储的列里面获取一条数据，这里用到find_one_and_delete方法
            #get_index 需要声明成全局的变量
            link = db.links.find_one_and_delete({"index":get_index})
            page_url = ""
            if link:
                page_url = link["link"]
                print(page_url+">>>网页分析中...")
            else:
                continue

            response = ""
            try:
                response = requests.get(page_url,headers=headers,timeout=5)
                
            except Exception as http:
                print("消费者有异常")
                print(http)
                continue
            
            content = response.text 
            rc = re.compile(r'divEditOperate_(?P\d*)[\"] .*>[\s\S]*?.*?(?P<级别>\w*P).*(?P<是否认证>
)?.*?
[\s\S]*?[\s\S]*?.*?)\" hidefocus=\"true\">[\s\S]*?.*?)\".*?alt=\".*?\" title=\"(?P<昵称>.*?)\" />[\s\S]*?(?P<地点>.*?) .*?(?P<粉丝数目>\d*?)')
            user_info = rc.findall(content)
            print(">>>>>>>>>>>>>>>>>>>>")
            users = []
            for user in user_info:
                post = {
                    "id": user[0],
                    "level": user[1],
                    "real":user[2],
                    "profile": user[3],
                    'thumb':user[4],
                    'nikename':user[5],
                    'address':user[6],
                    'follows':user[7]
                }

                users.append(post)
            print(users)
           
            try:
                db.mkusers.insert_many(users,ordered=False )
            except Exception as e:
                print("数据库输入异常")
                print (e)
                continue

            time.sleep(1)

            print("<<<<<<<<<<<<<<<<<<<<")

当你使用python3 demo.py 编译demo之后，屏幕滚动如下结果，那么你成功了。

接下来就可以去数据库查阅数据去了。

[linuxboy@bogon moocspider]$ python3 demo.py
线程启动...
{'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3'}
http://www.moko.cc/subscribe/chenhaoalex/2.html>>>网页分析中...
['dde760d5dd6a4413aacb91d1b1d76721', '3cc82db2231a4449aaa97ed8016b917a', 'a1835464ad874eec92ccbb31841a7590', 'c9ba6a47a246494398d4e26c1e0b7e54', '902fe175e668417788a4fb5d4de7ab99', 'dcb8f11265594f17b821a6d90caf96a7', '7ea0a96621eb4ed99c9c642936559c94', 'd45c1e3069c24152abdc41c1fb342b8f', 'chenyiqiu', '798522844', 'MEERILLES', 'ddfd9e1f7dca4cffb2430caebd2494f8', 'd19cbd37c87e400e9da42e159560649b', 'ac07e7fbfde14922bb1d0246b9e4374d', '05abc72ac7bb4f738f73028fed17ac23', 'hanzhuoer', 'e12e15aaee654b8aa9f528215bc3294c', '3b6d8dc6fd814789bd484f393b5c9fa8', '83256b93a2f94f449ab75c730cb80a7b', '8c1e4c738e654aad85903572f9090adb']
[{'index': 77, 'link': 'http://www.moko.cc/subscribe/dde760d5dd6a4413aacb91d1b1d76721/1.html'}, {'index': 78, 'link': 'http://www.moko.cc/subscribe/3cc82db2231a4449aaa97ed8016b917a/1.html'}, {'index': 79, 'link': 'http://www.moko.cc/subscribe/a1835464ad874eec92ccbb31841a7590/1.html'}, {'index': 80, 'link': 'http://www.moko.cc/subscribe/c9ba6a47a246494398d4e26c1e0b7e54/1.html'}, {]
>>>>>>>>>>>>>>>>>>>>
[{'id': '3533155', 'level': 'MP', 'real': '', 'profile': 'b1a7e76455cc4ca4b81ed800ab68b308', 'thumb': 'http://img.mb.moko.cc/2018-02-17/d7db42d4-7f34-46d2-a760-c88eb90d6e0d.jpg', 'nikename': '模特九九', 'address': '大连', 'follows': '10'}, {'id': '3189865', 'level': 'VIP', 'real': '', 'profile': 'cfdf1482a9034f65a60bc6a1cf8d6a02', 'thumb': 'http://img.mb.moko.cc/2016-09-30/98c1ddd3-f9a8-4a15-a106-5d664fa7b558.jpg', 'nikename': '何应77', 'address': '杭州', 'follows': '219'}, {'id': '14886', 'level': 'VIP', 'real': '
', 'profile': 'cndp', 'thumb': 'http://img2.moko.cc/users/0/49/14886/logo/img2_des_x3_10100286.jpg', 'nikename': '多拍PGirl', 'address': '北京', 'follows': '2331'}, {'id': '3539257', 'level': 'MP', 'real': '
', 'profile': '605c8fb2824049aa841f21858a7fd142', 'thumb': 'http://img.mb.moko.cc/2018-02':

记得处理数据的时候去掉重复值

>show collections
col
links
mkusers
text
> db.mkusers.find()
{ "_id" : ObjectId("5b17931ec3666e6eff3953bc"), "id" : "3533155", "level" : "MP", "real" : "", "profile" : "b1a7e76455cc4ca4b81ed800ab68b308", "thumb" : "http://img.mb.moko.cc/2018-02-17/d7db42d4-7f34-46d2-a760-c88eb90d6e0d.jpg", "nikename" : "模特九九", "address" : "大连", "follows" : "10" }
{ "_id" : ObjectId("5b17931ec3666e6eff3953bd"), "id" : "3189865", "level" : "VIP", "real" : "", "profile" : "cfdf1482a9034f65a60bc6a1cf8d6a02", "thumb" : "http://img.mb.moko.cc/2016-09-30/98c1ddd3-f9a8-4a15-a106-5d664fa7b558.jpg", "nikename" : "何应77", "address" : "杭州", "follows" : "219" }
{ "_id" : ObjectId("5b17931ec3666e6eff3953be"), "id" : "14886", "level" : "VIP", "real" : "
", "profile" : "cndp", "thumb" : "http://img2.moko.cc/users/0/49/14886/logo/img2_des_x3_10100286.jpg", "nikename" : "多拍PGirl", "address" : "北京", "follows" : "2331" }
{ "_

最后一步，如果你想要把效率提高，修改线程就好了

if __name__ == "__main__":

    for i in range(5):
        p = Producer()
        p.start()

    for i in range(7):
        c = Consumer()
        c.start()

经过3个小时的爬取，我获取了70000多美空的用户ID，原则上，你可以获取到所有的被关注者的，不过这些数据对我们测试来说，已经足够使用。

代码github地址： https://github.com/wangdezhen/mokospider.git

你可能感兴趣的:(爬虫100例教程)

学习用网址自留 lsswear 学习学习
Swoole4文档PHP:PHP手册-Manualshell学习教程(超详细完整)_路人甲的博客-CSDN博客_shell学习Python基础-廖雪峰的官方网站Python爬虫100例教程导航帖（已完结）_梦想橡皮擦，专栏100例写作模式先行者-CSDN博客_python爬虫100例教程蓝桥杯算法全家桶（终极完结版）_JohnnyLin-CSDN博客_蓝桥杯算法Python爬虫100例教程导航帖（
python爬虫100例教程 python爬虫实例100例子 YG亲测源码屋爬虫 python
python爬虫100例教程python爬虫实例100例子相关下载地址：https://download.csdn.net/download/dhyuan_88/31825677涉及主要知识点:web是如何交互的requests库的get、post函数的应用response对象的相关函数，属性python文件的打开，保存代码中给出了注释，并且可以直接运行哦如何安装requests库(安装好pyth
【爬虫前置知识】OB 混淆与变量名混淆特性详解梦想橡皮擦精彩技术文爬虫 python 数据分析开发语言数据挖掘
文章目录Python爬虫系列专栏OB混淆与变量名混淆特性详解简介OB混淆特性UglifyJS实现OB混淆JavaScriptObfuscator实现OB混淆Python爬虫系列专栏爬虫100例教程Python爬虫120文末提供了一个投票，大家可以选择一下想要学习的内容。Python爬虫框架选择爬虫数据清洗爬虫数据存储爬虫爬取速度优化爬虫反爬虫技术爬虫代理IP使用爬虫自动化爬虫分布式部署爬虫定时任务
CSDN 6月付费专栏榜单公布啦！精品专栏付费专栏排行榜
6月付费专栏榜单公布啦！6月销量榜Top10恭喜@雪云飞星@Inspiration666@点云侠荣登TOP3排序专栏标题作者昵称订单数1AutoSAR入门到精通系列讲解雪云飞星1682PCL学习点云侠1493C试题Inspiration6661194解决金税登录问题1185爬虫100例教程梦想橡皮擦1026RK3399平台开发入门到精通系列专栏内核笔记1017网络安全自学篇Eastmount968
十行代码集齐2000张美女图，Python爬虫120例，再上征途！进击的python君零基础python 爬虫人工智能 python 爬虫人工智能新媒体运营
Python爬虫100例教程，编写自2018-07-30到2020-10-28，将近800天，至今依旧是Python爬虫领域畅销专栏之一。但随着时间的变化，Python爬虫100例中部分抓取目标网站，地址已经失效，是时候进行迭代升级啦。2021年5月21日，升级版Python爬虫120例上线啦。更新内容如下：更新频率更快，上次800天完成100例，这次300天完成120例；更新所有目标网站；更新最
3天学完10套Python顶级教程，端午节技术人消失之谜梦想橡皮擦 IT行业分析编程语言 python 人工智能算法爬虫
端午节，擦姐粉丝群群友A：擦姐，消失去干啥了？群友B：听说擦姐去刷脸要福利去了群友C：啥课？端午节，擦姐慷(hou)慨(zhe)激(lian)昂(pi)从CSDN运营姐姐手中，要来了一波大促课程。只拿优惠价格购买课程，肯定还不够，擦姐为你还准备了如下福利：一旦你购买本文中任意课程，联系擦姐，都能拥有《爬虫100例教程》课程的一折购买资格，3.99元即可拥有100个爬虫案例。实实在在的买一赠一堆。这
10行代码集2000张美女图，Python爬虫120例，再上征途梦想橡皮擦 python java 人工智能正则表达式编程语言
《Python爬虫120例》专栏简介Python爬虫100例教程，编写自2018-07-30到2020-10-28，将近800天，至今依旧是Python爬虫领域畅销专栏之一。但随着时间的变化，Python爬虫100例中部分抓取目标网站，地址已经失效，是时候进行迭代升级啦。2021年5月21日，升级版Python爬虫120例上线啦。更新内容如下：更新频率更快，上次800天完成100例，这次300天完
如何提升付费专栏的转化？精品专栏
目录一、如何定位专栏？二、如何让专栏更有吸引力？三、如何能让专栏获得更多的流量？很多想要变现的博主很关心一个问题，如何让自己的付费文章能够更好的等到变现，其实只要学习一些转化比较好的专栏就会发现，原来这样做可能就会提升付费文章的转化。卖的比较好的专栏（可参考）爬虫100例教程https://blog.csdn.net/hihell/category_9280209.htmlESP8266Ardui
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，