Cloud_Strife.

scrapy with bilibili

一、前言

在一个月前，我写了一篇scrapy杂记记录了爬取lol.qq.com获取英雄联盟数据及英雄皮肤原画的过程。第一次使用scrapy后，了解了大致的爬取流程，但在细节上（例如防ban策略，奇怪数据处理）没太在意，处于编码第一阶段（能跑就行）。

中间学了半个月的Qt5和pygame，（没学出个什么样子，了解了大致概念，翻指南能上手了），之后，看到github中早期fork了一个库，airingursb先生（大概）写的bilibili-user，深有所悟，在此先感谢他的源码及他的开源精神。

但最近一段时间，B站的网站结构有了些许的变化，我就尝试着用scrapy重写这个功能，以只修改item的方式保证这个爬虫的生命（理论上，更换item对应的xpath位置就可以应对页面元素更改）。并在此基础上增加一些防ban策略，深化对爬虫的编写能力，以及应对可能过大的数据处理任务（单纯的构造url，截止5月3日，b站已经有了323000449账号详情界面，之前的lol爬虫上千条数据就把路由器撑爆了，这次可能要应付3亿条数据）。完整代码可见bilibili-user-scrapy

二、爬虫设计全思路

1、目标网站：账户详情页

2、爬取内容:

1. uid 用户id，int
2. mid 用户id，str
3. name 用户姓名，str
4. sex 用户性别，str
5. regtime 用户注册时间，str
6. birthday 用户生日，str
7. place 用户住址，str
8. fans 用户粉丝数，int
9. attention 用户关注数，int
10. level 用户等级，int

3、技术：scrapy，splash，docker，mysql

4、难点

1. 数据库设计及数据插入
2. js页面数据的获取
3. 特殊数据的处理
4. 防ban策略

三、环境搭建

1、开发语言：python v3.6.5

2、开发语言环境：anaconda v1.6.9 （非必须，但这是一个好习惯）

3、docker安装

deepin下安装docker
其他系统安装docker

4、splash

安装方法

5、一些第三方库：

# scrapy库
conda install Scrapy
# scrapy_splash库
conda install scrapy_splash
# pymysql库（conda无法安装，迷）
pip3 install pymysql

6、mysql

MySQL安装

四、爬虫设计

只需要一个爬虫就ok了。

1、定义item

打开items.py，添加代码：

import scrapy

class BilibiliUserScrapyItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # coins = scrapy.Field()
    # friend = scrapy.Field()
    # exp = scrapy.Field()
    uid = scrapy.Field() # int id
    mid = scrapy.Field() # str id
    name = scrapy.Field()
    sex = scrapy.Field()    
    regtime = scrapy.Field()
    birthday = scrapy.Field()
    place = scrapy.Field()
    fans = scrapy.Field()    
    attention = scrapy.Field()
    level = scrapy.Field()

注释部分的内容，由于隐私不可见，暂时无法获取。

2、设计mysql数据库及表

这里不在赘述如果有mysql建表，更多mysql可见MySQL教程。

这里只需要知道我的数据库配置即可。

MYSQL_HOST = '127.0.0.1'
MYSQL_DBNAME = 'bilibili'       #数据库名字，请修改
MYSQL_USER = 'light'            #数据库账号，请修改 
MYSQL_PASSWD = '123456'         #数据库密码，请修改

MYSQL_PORT = 3306 

tablename:bilibili_user_info

3、编写pipeline

pipelines是对spider爬取到的item进行处理的过程，在这个爬虫中，我们需要对获得的数据进行转码并储存在mysql数据库中。记得将BilibiliUserScrapyPipeline添加到配置文件settings.py中。

import pymysql
from scrapy import log

from bilibili_user_scrapy import settings
from bilibili_user_scrapy.items import BilibiliUserScrapyItem

class BilibiliUserScrapyPipeline(object):
    def __init__(self):
        self.connect = pymysql.connect(
            host=settings.MYSQL_HOST,
            db=settings.MYSQL_DBNAME,
            user=settings.MYSQL_USER,
            passwd=settings.MYSQL_PASSWD,
            charset='utf8',
            use_unicode=True)
        self.cursor = self.connect.cursor()

    def process_item(self, item, spider):
        try:
            self.cursor.execute("""select * from bilibili_user_info where uid=%s""", item['uid'])
            ret = self.cursor.fetchone()
            if ret:
                self.cursor.execute(
                    """update bilibili_user_info set 
                    mid=%s,name=%s,sex=%s,
                    regtime=%s,birthday=%s,place=%s,
                    fans=%s,attention=%s,level=%s 
                    where uid=%s""",
                    (item["mid"],
                     item["name"],
                     item["sex"],
                     item["regtime"],
                     item["birthday"],
                     item["place"],
                     item["fans"],
                     item["attention"],
                     item["level"],
                     item["uid"]))
            else:
                self.cursor.execute(
                    """insert into bilibili_user_info(uid,mid,name,sex,regtime,birthday,
                    place,fans,attention,level)
                    values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)""",
                    (item['uid'],
                     item["mid"],
                     item["name"],
                     item["sex"],
                     item["regtime"],
                     item["birthday"],
                     item["place"],
                     item["fans"],
                     item["attention"],
                     item["level"]))
            self.connect.commit()
        except Exception as error:
            log.msg(error)
            print("error",error)
        return item

简单粗暴，先连接数据库，然后查询数据库，若存在则更新，不存在则插入。

4、编写spider

# -*-coding:utf-8 -*-
import pymysql
import re
import sys
import random
import time
from imp import reload
from scrapy.http import Request
from scrapy.spiders import Spider
from scrapy.selector import Selector
from scrapy_splash import SplashRequest

from bilibili_user_scrapy.items import BilibiliUserScrapyItem

reload(sys)

# 获取随机user_agent
def LoadUserAgents(uafile):
    """
    uafile : string
        path to text file of user agents, one per line
    """
    uas = []
    with open(uafile, 'rb') as uaf:
        for ua in uaf.readlines():
            if ua:
                uas.append(ua.strip()[1:-1-1])
    # random的序列随机混合方法
    random.shuffle(uas)
    return uas

ua_list = LoadUserAgents("user_agents.txt")
# 默认header
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
    'Referer': 'http://space.bilibili.com/45388',
    'Origin': 'http://space.bilibili.com',
    'Host': 'space.bilibili.com',
    'AlexaToolbar-ALX_NS_PH': 'AlexaToolbar/alx-4.0',
    'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6,ja;q=0.4',
    'Accept': 'application/json, text/javascript, */*; q=0.01',
}


# 主爬虫类
class BILIBILIUserSpider(Spider): 

    name = "bilibili_user_scrapy"

    start_urls = []
    # 截止2018/5/2日，B站注册账号数量
    start = 1
    end = 323000449

    # 构造url，根据机能分批爬取，未进行分布式爬虫    
    for i in range(2000, 100000):
        url = "https://space.bilibili.com/"+str(i)+"/#/"
        start_urls.append(url)


    def start_requests(self):
        for url in self.start_urls:
            time.sleep(1)
            # 随机headers
            headers = {'User-Agent':random.choice(ua_list),
               'Referer':'http://space.bilibili.com/'+str(random.randint(9000,10000))+'/'}
            yield SplashRequest(url=url, callback=self.parse, args={'wait':0.5},
                endpoint='render.html',splash_headers=headers,
                )

    def parse(self, response):
        # 爬虫item类
        item = BilibiliUserScrapyItem()

        #一些常规的元素抓取
        attention = response.xpath("//*[@id=\"n-gz\"]/text()").extract_first()
        fans = response.xpath("//*[@id=\"n-fs\"]/text()").extract_first()
        level = response.xpath("//*[@id=\"app\"]/div[1]/div[1]/div[2]/div[2]/div/div[2]/div[1]/a[1]/@lvl").extract_first()
        # 由于未知的原因，部分页面无法正确加载某些元素
        # 当元素为None时，将其设置为‘null’
        # 但uid特殊，必须存在，所以从response.url中截取
        uid = response.url[27:-3]
        # uid = response.xpath("//*[@id=\"page-index\"]/div[2]/div[6]/div[2]/div/div/div[1]/div[1]/span[2]/text()").extract_first()
        sex = response.xpath("//*[@id=\"h-gender\"]/@class").extract_first()

        # 小数值直接int
        item['attention'] = int(attention)
        item['level'] = int(level)

        item['birthday'] = response.xpath("//*[@id=\"page-index\"]/div[2]/div[6]/div[2]/div/div/div[2]/div[1]/span[2]/text()").extract_first()
        item['name'] = response.xpath("//*[@id=\"h-name\"]/text()").extract_first().strip()
        item['place'] = response.xpath("//*[@id=\"page-index\"]/div[2]/div[6]/div[2]/div/div/div[2]/div[2]/a/text()").extract_first()
        item['regtime'] = response.xpath("//*[@id=\"page-index\"]/div[2]/div[6]/div[2]/div/div/div[1]/div[2]/span[2]/text()").extract_first()

        item['uid'] = int(uid)
        item['mid'] = uid
        # 对性别进行处理
        if len(sex.split(" ")) == 3:
            item['sex'] = sex.split(" ")[2]
        else:
            item['sex'] = 'null'

        # 对地址进行处理
        if item['place'] is None:
            item['place'] = "null"        

        # 对fans进行处理
        if "万" in fans:
            item['fans'] = int(float(fans[:-3])*10000)
        else:
            item['fans'] = int(fans)

        # 对生日进行处理
        if item['birthday'] is None:
            item['birthday'] = "null"
        else:
            item['birthday'] = item['birthday'].strip()

        # 对注册时间进行处理
        if item['regtime'] is None:
            item['regtime'] = "null"
        else:
            item['regtime'] = item['regtime'].strip()

        # 这些项暂时无法直接从界面获取
        #item['coins'] = response.xpath("/html/body/div[1]/div/div[2]/div[3]/ul/li[1]/div/div[1]/div[2]/div[1]/a/span[2]/text()").extract_first()
        #item['friend'] = item["fans"]
        #item['exp'] = response.xpath("/html/body/div[1]/div/div[2]/div[3]/ul/li[1]/div/div[1]/div[3]/a/div/div[3]/div/text()").extract_first()

        yield item

这个爬虫的设计思路如下：
1、设置user_agents（放在第五节描述）
2、设置proxy（放在第五节描述）
3、构造url
4、获取数据
5、对特殊数据进行处理
6、返回到pipeline，再插入到数据库中

5、setting

# ip代理池
DOWNLOADER_MIDDLEWARES = {
    'bilibili_user_scrapy.middlewares.ProxyMiddleware': 543,
}

ITEM_PIPELINES = {
    'bilibili_user_scrapy.pipelines.BilibiliUserScrapyPipeline': 300,
}

# 配置mysql
MYSQL_HOST = '127.0.0.1'
MYSQL_DBNAME = 'bilibili'         #数据库名字，请修改
MYSQL_USER = 'light'             #数据库账号，请修改 
MYSQL_PASSWD = '123456'         #数据库密码，请修改

MYSQL_PORT = 3306               #数据库端口

# splash配置
SPLASH_URL = 'http://172.17.0.2:8050/'  # splash在docker下的url
# 下载中间件，
DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
# 爬虫中间件
SPIDER_MIDDLEWARES = {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'  # 去重过滤器（必须）
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage' # 使用http缓存

五、反爬虫策略

1、设置睡眠

虽然scrapy自带多线程异步处理，但是在代码中添加睡眠方法可能会有效。
#在spider文件中添加
import time
time.sleep(2)

2、设置user_agent

ua是一个网站识别用户使用终端的手段，scrapy的默认ua就是scrapy，一般网站可以直接禁止scrapy的header进行访问，在这个爬虫中，我们先构造一个默认header头，然后从ua文件中随机获得新的ua，和原先的header结合，形成新的header进行防ban访问。

3、设置referer

这个referer是header的一个属性，它意味着访问来源是什么，但这只是个辅助，并不确定是否真实（可能由于网络重定向或者其他原因，导致referer不准确），但我们可以利用改变referer的值以使得后端服务器觉得是不同的用户在访问。利用random方法构造不同的referer。

4、设置代理

这个方法可能是最有效的防ban策略，但却不容易实现。首先免费的代理不多，而且质量良莠不济，过度使用代理可能会无法正常访问（你能找到的代理早被人玩过多少次了……）。如果数据量小的话就不使用代理，前面三项做好就没什么问题，数据量大的话可以考虑购买代理（商业爬虫应该是有收费代理用的吧……）。

在scrapy中使用代理不麻烦，在middlewares.py中添加一个代理类，再将这个类添加到settings.py中就可以了。

middlewares.py文件中：

# ip代理
class ProxyMiddleware(object):
    proxies = {
        'http':'http://140.240.81.16:8888',
        'http':'http://185.107.80.44:3128',
        'http':'http://203.198.193.3:808',
        'http':'http://125.88.74.122:85',
        'http':'http://125.88.74.122:84',
        'http':'http://125.88.74.122:82',
        'http':'http://125.88.74.122:83',
        'http':'http://125.88.74.122:81',
        'http':'http://123.57.184.70:8081'
        }

    def process_request(self, request, spider):
        request.meta['proxy'] = random.choice(proxies)

settings.py文件中：

DOWNLOADER_MIDDLEWARES = {
    'bilibili_user_scrapy.middlewares.ProxyMiddleware': 543,
}

六、反思

1、实际开发时间两天，但是commit有七天，这是为什么呢？因为刚开头遇到了一个“非常低级”的错误，写代码时迷迷糊糊的，直接根据问题报告去查资料，找了很多，不得其解，觉得这可能是框架的bug，只有看源码才能解决了，然后就去干其他事了。五天后，我读了《代码整洁之道：程序员的自我修养》后重新审视这个问题，发现其实是在spider文件中错误的定义了item类型，直接定义为了默认列表类，而不是自己设置的item类。事后想到这个错误都觉得难堪，反思一下：发困的时候不要写东西，心里有事的时候要先调整好在编码。

2、在处理特殊数据的时候有些随意了，再加上未知bug，造成最后获得的数据真实有效的可能只有一半。按道理说，用户详情页面的元素应该都是一致的，但就是出现了无法获取的情况，单纯的以https://space.bilibili.com/1/#/ 和 https://space.bilibili.com/2/#/ 为例，粉丝数量的元素在xpath上位置一样，但就是无法获得正确数据，返回None。怀疑可能是splash配置的问题（毕竟这些元素都是js载入的）。

3、虽然获取数据量少，但每次获取都是进行一次http连接，所以还是没能力跑3亿条数据，这需要太多的时间，如果可以的话，可以尝试分布式爬虫。

4、下一步就是用numpy等库对获得的数十万条数据进行处理。

探索Python爬虫：获取淘宝商品详情与订单API接口的深度解析不爱搞技术的技术猿 Python 淘宝API python 爬虫开发语言
引言在数字化时代，电子商务平台的数据挖掘和分析已成为企业获取市场洞察的重要手段。淘宝，作为中国最大的电商平台之一，拥有海量的商品数据和订单信息。对于商家和市场分析师来说，如何高效、合规地获取这些数据，成为了一个迫切需要解决的问题。本文将深入探讨如何利用Python爬虫技术，通过淘宝提供的API接口，合法合规地获取商品详情和订单数据。淘宝API接口概览淘宝开放平台提供了丰富的API接口，允许开发者在
使用Python爬虫获取淘宝订单商品接口的全面指南 JelenaAPI小小爬虫 API Python python 爬虫数据库
引言淘宝作为中国最大的电商平台之一，拥有海量的商品数据和订单信息。对于开发者来说，获取淘宝订单商品接口是一个常见的需求。本文将介绍如何使用Python编写爬虫，获取淘宝订单商品信息。一、淘宝订单商品接口概览淘宝提供了多个与订单相关的API接口，以下是几个主要的接口：订单详情API接口：taobao.trade.fullinfo.get：获取订单的详细信息，包括订单状态、支付信息、物流信息等。订单批
python爬虫6个经典常用案例（完整代码）小北画画 python 爬虫开发语言人工智能 pycharm
文章目录1.抓取静态网页内容2.抓取多个网页（分页）3.使用正则表达式提取数据4.处理动态内容（使用Selenium）5.抓取带有登录认证的网页6.使用Scrapy框架Python爬虫是一种强大的工具，可以用来从网页中提取数据。以下是六个常用的Python爬虫案例，涵盖了从简单的网页抓取到更复杂的动态内容抓取。1.抓取静态网页内容目标：抓取一个静态网页的内容，并提取其中的特定信息。示例：抓取一个新
【爬虫案例】2025最新python爬虫案例！5个经典案例！（完整代码）小北画画爬虫 python 开发语言蓝桥杯职场和发展 pycharm
文章目录案例1：爬取豆瓣电影Top250案例2：爬取猫眼电影Top100案例3：爬取某吧帖子内容案例4：多线程爬取小说章节内容案例5：爬取全国高校名单—————其他案例分享—————案例1：爬取豆瓣电影Top250目标：获取豆瓣电影Top250的电影名称、评分和评价人数等信息。方法：使用requests库发送HTTP请求，BeautifulSoup库解析网页内容，csv库保存数据到CSV文件。代码
利用Java爬虫按图搜索1688商品（拍立淘）：实战案例指南数据小小爬虫 java 爬虫图搜索算法
在电商领域，按图搜索功能（如1688的“拍立淘”）为用户提供了更直观、便捷的购物体验。通过上传图片，用户可以快速找到与图片相似的商品。本文将详细介绍如何利用Java爬虫技术实现按图搜索1688商品，并获取其详情数据。一、为什么选择Java爬虫？Java作为一种广泛使用的编程语言，以其稳健性和跨平台性在企业级应用中占据重要地位。通过Java，我们可以编写爬虫程序，模拟浏览器行为，从网页中提取所需的数
使用爬虫获取按图搜索1688商品（拍立淘）案例指南数据小小爬虫爬虫图搜索算法算法
在电商领域，按图搜索功能（如1688的“拍立淘”）为用户提供了更直观、便捷的购物体验。通过上传图片，用户可以快速找到与图片相似的商品。本文将详细介绍如何利用爬虫技术实现按图搜索1688商品，并获取其详情数据。一、技术背景按图搜索功能通常依赖于图像识别技术和搜索引擎。1688的“拍立淘”功能允许用户上传图片，系统会通过图像识别技术找到与上传图片相似的商品。通过爬虫技术，我们可以模拟这一过程，获取搜索
Python爬虫教程：公司信息与财务数据抓取——财务报告、业绩数据及新闻分析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 chrome 美食信息可视化
在当今金融市场，获取公司的财务报告、业绩数据以及相关新闻是投资分析、市场监控和竞争对手研究的重要组成部分。投资者、分析师、以及公司管理层都需要这些信息来做出重要决策。通过爬虫技术，我们可以高效地抓取这些数据并进行分析。本文将介绍如何使用Python编写爬虫，抓取公司的财务报告、业绩数据和新闻。我们将使用最新的技术栈，包括requests、BeautifulSoup、Selenium、Pandas等
办公自动化—VBA将csv某列数字进行以0填充为文本再接着转Excel 一晌小贪欢 Python自动化办公 excel vba 办公自动化自动化办公 csv转Excel
目录专栏导读背景效果预览步骤完整代码总结专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础专栏：请点击——>
python urlencode编码董小宝的日常 Python python 开发语言
1、谁能告诉我python中urlopen函数data参数的作用和意义?2、怎么用python对qq登录界面写测试脚本3、如何用python写爬虫来获取网页中所有的文章以及关键词谁能告诉我python中urlopen函数data参数的作用和意义?1、urlopen函数的API：data参数data参数是可选的，如果使用，需要用bytes方法将参数转化为字节流编码，另外使用data后，请求方式就变成
使用Python爬虫获取淘宝item_search_tmall API接口数据 API快乐传递者 python 淘宝API python 爬虫开发语言
一、引言在电商运营和市场分析中，获取商品搜索数据是了解市场动态、用户需求和竞争对手的重要手段。淘宝作为国内最大的电商平台之一，提供了丰富的API接口，其中item_search_tmall接口允许开发者通过关键字搜索天猫平台上的商品信息。本文将详细介绍如何使用Python编写爬虫程序，调用淘宝的item_search_tmall接口获取商品搜索数据。二、淘宝item_search_tmall接口简
scrapyrt 部署到docker 花阴偷移 scrapy docker docker python scrapy
一.背景scrapyrt是实时抓取api框架，我们生产环境一直使用默认的python3.6.8环境，来部署的scrapyrt。但由于自动化抓取playwright至少需要python3.7以上，又因为阿里云centos8默认的python3.6.8升级后带来很多不便，现在需要将scrapyrt部署到docker中,在docker中scrapyrt基于python3.8。1.1scrapyrt官方d
Python爬虫框架Scrapy入门指南健胃消食片片片片 python 爬虫 scrapy
Scrapy是一个高效、灵活、开放的Python爬虫框架，它可以帮助开发者快速地开发出高质量的网络爬虫，而不需要太多的编码工作。以下是对Scrapy的入门指南：一、Scrapy简介Scrapy是一个用于抓取网站和提取结构化数据的应用程序框架，可用于各种有用的应用程序，如数据挖掘、信息处理或历史存档。尽管Scrapy最初是为网络抓取而设计的，但它也可用于使用API提取数据或用作通用网络爬虫。Scra
（二）使用Ajax简单实现前后端交互孤寒者爬虫必备前端技术教程 ajax 交互前后端交互
目录：每篇前言：实现效果：前端页面源码：后端页面源码：每篇前言：作者介绍：【孤寒者】—CSDN全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、CSDN原力计划作者本文已收录于爬虫必备前端技术栈专栏：《爬虫必备前端技术栈》热门专栏推荐：《Python全栈系列教程》|《爬虫从入门到精通系列教程》|
scrapy爬虫使用undetected_chromedriver登录总是失败叨叨爱码字 scrapy 爬虫
Scrapy是一个优秀的爬虫框架，但是它本身不支持直接使用undetected_chromedriver。undetected_chromedriver是一个Python库，它可以用来绕过网站对SeleniumWebDriver的检测，但是它并不是Scrapy的一部分。如果你想在Scrapy中使用undetected_chromedriver，你需要自己编写中间件来实现这个功能。这可能需要一些额外
Python网络爬虫笔记（四）——requests与BeautifulSoup 玄黄问道 Python 爬虫
一、requestsrequest是请求库，用来获取页面信息。首先记得导入库啊，这个是第三方库，py没有自带，没有安装的小伙伴可以移步我上一篇安装第三方库教程importrequests介绍几个常用的函数1>请求命令importrequestsurl='https://www.163.com'resp=requests.get(url)get用途其实跟构造函数差不多，它的参数不少，我们这里主要用到
【Python】-- 爬虫及Requests、BeautifulSoup基础 apwangzitong python 爬虫 beautifulsoup
Python作为一种简洁而强大的编程语言，凭借其丰富的库和框架，成为了数据抓取和处理的首选工具之一。Python爬虫技术，正是在这种背景下应运而生，它能够自动化地从互联网上获取大量数据，为企业和个人提供了巨大的便利。本文旨在为Python爬虫技术提供一份详尽的入门指南，适合零基础的初学者，将向您介绍爬虫的基础知识和基本工作流程，并探讨如何使用Requests库发送请求，以及利用BeautifulS
python基础入门：8.1项目1：爬虫与数据分析赵鑫亿 python基础入门 python 爬虫数据分析
Python爬虫与数据分析全流程实战：从数据采集到可视化呈现#综合案例：电商价格监控分析系统importrequestsfrombs4importBeautifulSoupimportpandasaspdimportmatplotlib.pyplotasplt#配置参数HEADERS={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)''Appl
猫眼电影爬虫和数据分析 Xechos Python python 数据分析 xpath
由于疫情关系，宅在家里。记录一下作业，猫眼电影爬虫及分析，爬取猫眼电影数据，并对爬取的数据进行分析和展示。猫眼电影爬虫基于requests库和lxml库进去猫眼电影TOP100榜电影爬取，爬取地址为：https://maoyan.com/board/4爬取的信息有：电影名字，主演名字，上映时间以及地点，猫眼评分得分，电影类型，电影时长。电影数据保存为.csv格式。表头：电影名字(title)，主演
如何使用 Python 爬虫获取猫眼电影数据：电影评分与评论分析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据分析数据挖掘
引言随着互联网的快速发展，越来越多的人开始使用各种在线平台来了解电影信息，猫眼电影作为一个非常流行的在线电影票务平台，提供了详细的电影评分、评论和票房数据。这些数据对于影迷、电影行业从业者、市场分析人员等群体来说都非常有价值。通过爬取猫眼电影平台上的数据，我们可以分析电影的市场表现、用户反馈以及电影的评分趋势。本篇博客将详细介绍如何使用Python爬虫技术获取猫眼电影平台上的电影数据，重点关注电影
在线考试数据爬虫：基于Python的实现与数据分析 Python爬虫项目 2025年爬虫实战项目爬虫 python 数据分析开发语言人工智能金融数据挖掘
引言随着互联网技术的发展和教育领域的不断创新，在线教育逐渐成为了现代学习的主流方式。在线考试作为在线教育的重要组成部分，不仅为学生提供了便捷的考试体验，还为教育平台提供了大量的用户行为数据。这些数据不仅反映了学生的学习进度和知识掌握情况，还能为平台优化教学内容、设计个性化课程和改进考试策略提供宝贵的依据。本文将介绍如何通过Python编写一个在线考试数据爬虫，自动收集在线教育平台上的考试数据，并通
一分钟教你学会Reqable 用心去追梦 java
Reqable是一款强大的跨平台HTTP开发和调试工具，适用于开发、测试、网络、安全以及爬虫等领域的专业人员。下面将用一分钟的时间带你快速了解如何使用Reqable进行基本的抓包和调试操作。安装Reqable首先，你需要访问Reqable的官方网站https://reqable.com/zh-CN/download下载适合你操作系统的版本，并按照安装向导完成安装过程。配置证书由于Reqable使用
Python爬虫：requests模块的基本使用是Dream呀 python 爬虫开发语言
学习目标：了解requests模块的介绍掌握requests的基本使用掌握response常见的属性掌握requests.text和content的区别掌握解决网页的解码问题掌握requests模块发送带headers的请求掌握requests模块发送带参数的get请求1为什么要重点学习requests模块，而不是urllibrequests的底层实现就是urllibrequests在python
python爬虫---MongoDB保存爬取的数据他是只猫学python爬虫与实践 python mongodb 数据库
python爬虫scrapy爬虫博客文章，本文章主要是补充爬虫数据的保存。scrapy爬虫流程可以参考一下博文。https://blog.csdn.net/suwuzs/article/details/118091474以下是对pipelines.py文件写入代码一、对items进行处理MyspiderPipeline这个类是对爬取的数据进行处理，对于较长的数据进行一个缩略。importpymon
正则表达式【源码解析+代码例子+图】 lllsure 正则表达式 java python 爬虫
由于正则表达式这个东西比较抽象，我推荐大家先看原理部分。在看原理部分如果有的表达式看不懂可以去下面看表，元字符这些东西还是比较好理解的。大家可以把我写的代码复制到编译器上跑一下，这样会更容易理解。一.基本介绍正则表达式就是用某一种模式去匹配字符串，筛选我们想要的字符串的一种方法。正则表达式在爬虫上有所应用，比如我们要爬取一个一个网页上的电话号码，但是网页上有很多中文、英文、时间等等，如果让我们自己
自动评估基准 | 技巧与提示人工智能
技巧与提示这是自动评估基准系列文章的第四篇，敬请关注系列文章:基础概念设计你的自动评估任务一些评估测试集技巧与提示数据污染管理通常我们会假设在互联网上公开可用的数据集是存在数据污染问题的。缓解措施有：测试集中加入哨兵字符串(canarystring)(如BigBench)，这是一种特殊的字符组合，使得模型创建者可以在训练集中查找，来表明该数据中是否包含评估。测试集采用加密或门控形式，以防被网络爬虫
Python——批量图片转PDF（GUI版本）一晌小贪欢 Python自动化办公 python pdf 开发语言 Python办公图片转PDF python-pdf
目录专栏导读1、背景介绍2、库的安装3、核心代码4、完整代码总结专栏导读欢迎来到Python办公自动化专栏—Python处理办公问题，解放您的双手️‍博客主页：请点击——>一晌小贪欢的博客主页求关注该系列文章专栏：请点击——>Python办公自动化专栏求订阅此外还有爬虫专栏：请点击——>Python爬虫基础专栏求订阅此外还有python基础专栏：请点击——>
python爬虫常用库一念& 爬虫 python 爬虫开发语言
一、网络请求库requests用途：简单高效的HTTP客户端库，适合大多数静态页面请求。特点：同步请求、API简洁、支持会话保持（Session）。示例：importrequestsresponse=requests.get("https://example.com",timeout=5)httpx用途：requests的增强版，支持HTTP/2和异步请求。特点：兼容requestsAPI、异步支
Python爬虫--伪装成浏览器余十步 python 爬虫开发语言
把爬虫伪装成浏览器1.技术原理我们不讲很官方的属于，简单的讲就是，一些论坛啊，博客啊为防止别人爬他们的文章，通常会判断是不是浏览器访问，如果不是那就屏蔽。2.实战由于urlopen()对于一些HTTP的高级功能不支持，所以，我们如果要修改报头，也就是添加header可以使用urllib.request.build_opener()进行，当然，也可以使用urllib.request.Request(
python-爬虫基础-lxml.etree(2) Aldeo Python python lxml.etree
（5）元素包含文本文本包含元素中间文本和末尾文本，例如，中间的文本为中间文本，之后的文本为元素末尾文本。root=etree.Element("root")root.text="TEXT"print(root.text)print(etree.tostring(root))#加html节点html=etree.Element("html")#加body节点body=etree.SubElement
✅毕业设计：python商品推荐系统+协同过滤推荐算法+网络爬虫 2种推荐算法计算机毕业设计大数据（附源码）✅ vx_biyesheji0004 biyesheji0001 biyesheji0005 biyesheji0004 课程设计 python 推荐算法大数据毕业设计爬虫商品推荐系统
博主介绍：✌全网粉丝10W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战6年之久，选择我们就是选择放心、选择安心毕业✌>想要获取完整文章或者源码，或者代做，拉到文章底部即可与我联系了。点击查看作者主页，了解更多项目！感兴趣的可以先收藏起来，点赞、关注不迷路，大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助同学们顺利毕业。1、毕业设计：2025年
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

scrapy with bilibili

scrapy with bilibili

一、前言

二、爬虫设计全思路

1、目标网站：账户详情页

2、爬取内容:

3、技术：scrapy，splash，docker，mysql

4、难点

三、环境搭建

1、 开发语言：python v3.6.5

2、开发语言环境：anaconda v1.6.9 （非必须，但这是一个好习惯）

3、docker安装

4、splash

5、一些第三方库：

6、mysql

四、爬虫设计

1、定义item

2、设计mysql数据库及表

3、编写pipeline

4、编写spider

5、setting

五、反爬虫策略

1、设置睡眠

2、设置user_agent

3、设置referer

4、设置代理

六、反思

你可能感兴趣的:(scrapy,爬虫)

1、开发语言：python v3.6.5