开局签到Python基础

5.scrapy中间件&分布式爬虫

文章目录

- - 1. scrapy中间件
  - - 1.1 爬虫中间件
    - 1.2下载中间件
    - 1.3 创建测试环境
    - 1.4 更换随机请求头
    - 1.5 添加随机cookie值
    - 1.6 添加代理IP
    - 1.7 集成selenium
    - 1.8 注意事项
  - 2. 去重源码
  - 3. 布隆过滤器
  - - 3.1 介绍
    - 3.2安装模块
    - 3.3 固定长度
    - 3.4 自动扩量
  - 4. 自定义去重规则
  - 5. 分布式爬虫
  - - 5.1 介绍
    - 5.2 分布式爬取案例
    - 5.3 总结

1. scrapy中间件

两大中间件:
1. 爬虫中间件: 位于爬虫与引擎之间, 只要工作是处理爬虫的输入requests和输出.(使用少)
2. 下载中间件: 位于引擎与下载器之间, 加代理头, 加头, 集成selenium.(使用多)

两个中间件都在scrapy项目的middlewares.py文件中, 使用前需要在settings.py中配置.

1.1 爬虫中间件

使用爬虫中间件需要先配置, 在使用.

# settings.py
SPIDER_MIDDLEWARES = {
    # 中间件类 : 数据(优先级)
   'cnblogs.middlewares.CnblogsSpiderMiddleware': 543,
}

# middlewares.py
class CnblogsSpiderMiddleware:
    """
    并非所有方法都需要定义。如果没有定义方法，
    scrapy 就好像蜘蛛中间件没有修改传递的对象一样
    """

    @classmethod
    def from_crawler(cls, crawler):
        # Scrapy 使用此方法来创建您的蜘蛛。
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s
	
    
    def process_spider_input(self, response, spider):
     """
     调用通过蜘蛛中间件并进入蜘蛛的每个响应。
     应该返回 None 或引发异常。
     """
        return None

    def process_spider_output(self, response, result, spider):
    """
    在处理完响应后，使用从 Spider 返回的结果调用。
    必须返回一个可迭代的 Request 或 item 对象
    """
        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):
    """
    当蜘蛛或 process_spider_input() 方法（来自其他蜘蛛中间件）引发异常时调用。
    应该返回 None 或一个可迭代的 Request 或 item 对象
    """
        pass

    def process_start_requests(self, start_requests, spider):
    """
    与蜘蛛的启动请求一起调用，与 process_spider_output() 方法类似，
    只是它没有关联的响应。必须只返回请求（而不是项目）。
    """
        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

1.2下载中间件

使用下载中间件需要先配置, 在使用.

# settings.py
DOWNLOADER_MIDDLEWARES = {
   'cnblogs.middlewares.CnblogsDownloaderMiddleware': 543,
}

class CnblogsDownloaderMiddleware:
	"""
	并非所有方法都需要定义。如果没有定义方法，
	scrapy 就好像下载器中间件不修改传递的对象一样。
	"""

    @classmethod
    def from_crawler(cls, crawler):
        # Scrapy 使用他的方法来创建你的蜘蛛
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_request(self, request, spider):
		"""
		为通过下载器中间件的每个请求调用。downloader
		中间件必须： 
		- 返回 None：继续处理此请求
         - 或返回 Response 对象 
         - 或返回 Request 对象 
         - 或引发 IgnoreRequest：将调用已安装的下载器中间件的 			    process_exception() 方法
		"""
        return None

    def process_response(self, request, response, spider):
		"""
		使用从下载器返回的响应调用。
		必须要么； 
		- 返回一个 Response 对象
         - 返回一个 Request 对象
         - 或引发 IgnoreRequest
         """
        return response
	
    def process_exception(self, request, exception, spider):
		"""
		当下载处理程序或 process_request()（来自其他下载器中间件）          引发异常时调用。
		必须： 
		- 返回无：继续处理此异常 
		- 返回响应对象：停止 process_exception() 链 
		- 返回请求对象：停止 process_exception() 链
		"""
        pass

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

1.3 创建测试环境

* 1. 创建项目

C:\Users\13600\Desktop\synchro\Project\test1
New Scrapy project 'test1', using template directory 'c:\program\python38\lib\site-packages\scrapy\templates\project', created in:
   C:\Users\13600\Desktop\synchro\Project\test1

You can start your first spider with:
   cd C:\Users\13600\Desktop\synchro\Project\test1
   scrapy genspider example example.com

* 2. 使用pycharm打开项目

* 3. 创建爬虫脚本

PS C:\Users\13600\Desktop\synchro\Project\test1> scrapy genspider cnblog www.cnblogs.com 
Created spider 'cnblog' using template 'basic' in module:
 test1.spiders.cnblog

* 4. 在项目目录下新建启动脚本文件main.py

# main.py
from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'cnblog'])

* 5. 在配置文件中配置日志级别

# settings.py
LOG_LEVEL = 'ERROR'

* 6 . 在settings.py中配置中间件参数.

# settings.py
DOWNLOADER_MIDDLEWARES = {
   'test1.middlewares.Test1DownloaderMiddleware': 543,
}

* 7. 在下载中间值中间添加测试代码

# middlewares.py
class Test1DownloaderMiddleware:
    ...
        # 请求处理
    def process_request(self, request, spider):
        print(request.url)
        return None

# settings.py中没有关闭爬虫协议, 爬取四次:
"""
http://www.cnblogs.com/robots.txt
https://www.cnblogs.com/robots.txt
http://www.cnblogs.com/
https://www.cnblogs.com/
爬虫先会爬取爬虫协议, 如果http协议的请求获取不到数据会加上s再次发生请求.
"""

* 8. 关闭遵循爬虫协议

# settings.py
ROBOTSTXT_OBEY = False

* 9. 修改爬虫脚本的类中start_urls属性, 改为https协议.

# cnblog.py

start_urls = ['https://www.cnblogs.com/']

1.4 更换随机请求头

* 1. 从request对象中headers属性中获取请求头
 获取的属性值是一个字段套列表

# middlewares.py

class Test1DownloaderMiddleware:
	...
	
    # 请求处理
    def process_request(self, request, spider):
        print(request.headers)
        print(request.headers['User-Agent'])
        return None
     """
     {	
          b'Accept': [b'text/html, application/xhtml+xml,
              application/xml;q=0.9, */*;q=0.8'], 
          b'Accept-Language': [b'en'],
          b'User-Agent': [b'Scrapy/2.6.2 (+https://scrapy.org)']
     }
     
     b'Scrapy/2.6.2 (+https://scrapy.org)'
     
     User-Agent 为 Scrapy/2.6.2 ... 直接暴露了马脚
     """

* 2.  使用fake_useragent模块随机生成User-Agent字符串.

pip install fake_useragent

# middlewares.py

class Test1DownloaderMiddleware:
    ...
    
    # 请求处理
    def process_request(self, request, spider):
        from fake_useragent import UserAgent

        request.headers['User-Agent'] = UserAgent().random
        return None

1.5 添加随机cookie值

# middlewares.py

class Test1DownloaderMiddleware:
    ...
    
    # 请求处理
    def process_request(self, request, spider):
        from random import randint
        
        # cookie池
    	cookie_list = [{'username': 'xx'}, {'username': 'oo'}, ...]
        
	    request.cookie = cookie_list[randint(0, y)]
        
        return None

1.6 添加代理IP

# middlewares.py
class Test1DownloaderMiddleware:


    # 请求处理
    def process_request(self, request, spider):
        print(request.meta) 
        # {'download_timeout': 180.0} 默认只有超时时间
        
        # 代理ip在meta属性中添加一个key为proxy的字典. 
        # (代理有问题会重试发送请求)
        request.meta['proxy'] = 'https://ip:端口'
        return None

1.7 集成selenium

流程(当次爬虫运行, 都使用同一个流浪器对象, 只是在中间件打开不同的地址):
1. 在爬虫脚本中集成selenium, 先生成一个浏览器对象,
2. 在下载中间件中请求方法使用
3. 在爬虫脚本中关闭浏览器对象

* 1. 将chromedriver.exe谷歌浏览器控制插件复制到scrapy框架的项目目录下.

* 2. 在爬虫脚本总生成浏览器对象

import scrapy


class CnblogSpider(scrapy.Spider):
    name = 'cnblog'
    allowed_domains = ['www.cnblogs.com']
    start_urls = ['https://www.cnblogs.com/']

    # 集成selenium
    from selenium import webdriver
    bro = webdriver.Chrome(executable_path='chromedriver.exe')

    # 解析数据
    def parse(self, response):
        print(response.text)

    # close方法在爬虫脚本结束时执行
    def close(self, reason):
        # 关闭浏览器对象
        self.bro.close()

* 3. 在下载中间中使用浏览器对象

class Test1DownloaderMiddleware:
	...
    
    # 请求处理
    def process_request(self, request, spider):
        spider.bro.get(request.url)
        spider.bro.implicitly_wait(10)
        # print(spider.bro.page_source)

        # 在这里获取数据需要返回response对象而不是None
        # 内置封装了一个HtmlResponse对象用于返回
        from scrapy.http import HtmlResponse
        # 这个HtmlResponse则被爬虫脚本的response接口, HtmlResponse需要的参数(url, 数据, 请求对象)
        # body的数据需要时解码在后面添加.encode('utf-8')
        response = HtmlResponse(request.url, body=spider.bro.page_source.encode('utf-8'), request=request)
        return response

1.8 注意事项

在中间件中不允许直接修改request的url属性值.
如果修改了, 会报错
AttributeError(属性错误)：Request.url 不可修改，
请改用 Request.replace() instead

2. 去重源码

scrapy内置去重功能, 已经取过的url不会再次爬取.
在配置文件settings.py中配置去重使用的类.

# from scrapy.dupefilters import RFPDupeFilter
DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'

# 去重类 继承BaseDupeFilter
class RFPDupeFilter(BaseDupeFilter):
	...
  
    def request_seen(self, request: Request) -> bool:
        # yield request, 经过一些算法, 得到fp(指纹)
        fp = self.request_fingerprint(request)
        # 如果fp在集合中则不继续爬取
        if fp in self.fingerprints:
            return True
        # 将fp添加到集合中
        self.fingerprints.add(fp)
        # 写入文件
        if self.file:
            self.file.write(fp + '\n')
        return False

request_fingerprint函数的使用

在项目目录下新建一个py文件用于测试.

from scrapy.utils.request import request_fingerprint
from scrapy import Request

# 先生成两个request对象
url_1 = Request('https://www.baidu.con/xx?name=kid&age=18')
url_2 = Request('https://www.baidu.con/xx?age=18&name=kid')

fingerprint_1 = request_fingerprint(url_1)
fingerprint_2 = request_fingerprint(url_2)

print(fingerprint_1)  # d3625990212837cb7ef7a02c4ccd8859daa24b82
print(fingerprint_2)  # d3625990212837cb7ef7a02c4ccd8859daa24b82

"""
参数顺序问题
?name=kid&age=18
?age=18&name=kid
分隔之后得到的数据会按字母排序, 计算出一个指纹(类型MD5加密)
将值拿去集合中做比较.
"""

指纹的值太长, 当爬取的数据以亿为单位的时候占用的资源就很多.

3. 布隆过滤器

3.1 介绍

bloomfilter 是一个通过多哈希函数映射在一张表的数据结构, 能快速判断一个元素是否在一个集合中,
具有姮好的空间和时效. (爬虫中常用于url去重.)

原理: bloomfilter开辟一个m位的bitArray(位数组), 开始虽有数据全部置0, 当一个元素过来时,
能过多个哈希函数(h1, h2, h3..)计算不同的哈希值, 
并通过哈希值找到对应的bitArray下标, 将里面的值0, 置为1.
关于哈希函数, 他们计算出来的值必须在[0, m] 之中.

布隆过滤器它占用空间更少并且效率更高, 但是缺点是其返回的结果是概率性的, 而不是非常准确的.
理论情况下添加到集合中的元素越多, 误报的可能性就越大.
并且, 存放在布隆过滤器的数据不容易删除.

3.2安装模块

* 1. 安装依赖的包
    pip install bitarray

* 2. 安装布隆过滤器
    pip install pybloom_live

3.3 固定长度

# BloomFilter 固定长度
from pybloom_live import BloomFilter

# 容量
bf = BloomFilter(capacity=1000)

# 测试url
url_1 = 'https://www.baidu.com'
url_2 = 'https://cnblogs.com'

# 将url添加到过滤器中
bf.add(url_1)

print(url_1 in bf)  # True
print(url_2 in bf)  # False

3.4 自动扩量

# ScalableBloomFilter 自动扩量
from pybloom_live import ScalableBloomFilter

"""
initial_capacity 初始容量
error_rate 错误率
mode 模式, ScalableBloomFilter.LARGE_SET_GROWTH 大规模增长
"""
bloom = ScalableBloomFilter(
    initial_capacity=100,
    error_rate=0.001,
    mode=ScalableBloomFilter.LARGE_SET_GROWTH
)

# 测试url
url_1 = 'https://www.baidu.com'
url_2 = 'https://cnblogs.com'

# 将url添加到bloom过滤中
bloom.add(url_1)

print(url_1 in bloom)  # True
print(url_2 in bloom)  # False

4. 自定义去重规则

* 1. 在项目下目录下新建py文件bloom

from scrapy.dupefilters import BaseDupeFilter
from pybloom_live import ScalableBloomFilter


# 自定义去重继承BaseDupeFilter,

# 模仿自定义的写法,
# 在__init__ 中生成一个布隆过滤器
# 重写request_seen方法
class CustomDeduplication(BaseDupeFilter):
    def __init__(self):
        self.bloom = ScalableBloomFilter(
            initial_capacity=100,
            error_rate=0.001,
            mode=ScalableBloomFilter.LARGE_SET_GROWTH
        )

    def request_seen(self, request):
        # 从request中获取出url
        url = request.url
        if url in self.bloom:
            return True
        self.bloom.add(url)

* 2. 配置文件中配置DUPEFILTER_CLASS属性, 使用自定义的去重类.

DUPEFILTER_CLASS = 'test1.bloom_deduplication.CustomDeduplication'

5. 分布式爬虫

5.1 介绍

把一个爬虫任务放在多太机器中取执行, 提高爬取效率.
关键: 共享队列.

原来scrapy的Scheduler维护的是本机的任务队列
(存放Request对象及其回调函数等信息),
+ 本机的去重队列(存放访问过的url地址)

所以实现分布式爬取的关键就是, 找一台专门的主机运行一个共享的队列(使用Redis)然后重写Scrapy的Scheduler到队列取Request, 并且去除重复的request请求.
总结:
1. 共享队列
2. 重写Scheduler, 让其无论去重,还是获取任务都是去访问共享队列
3. 为Scheduler定制去重规则(利用redis的集合类型)

5.2 分布式爬取案例

* 1. 创建scrapy项目
    命令: scrapy startproject cnblogs_distributed C:\Users\13600\Desktop\synchro\Project\cnblogs_distributed

New Scrapy project 'cnblogs_distributed', using template directory 'c:\program\python38\lib\site-packages\scrapy\templates\project', created in:
   C:\Users\13600\Desktop\synchro\Project\cnlogs_distributed

You can start your first spider with:
   cd C:\Users\13600\Desktop\synchro\Project\cnlogs_distributed
   scrapy genspider example example.com

C:\Users\13600\Desktop>

* 2. 使用PyCharm打开scrapy项目并创建爬虫脚本(爬虫脚本名称与项目名不能重复)
    命令: scrapy genspider cnblogs www.cnblogs.com

PS C:\Users\13600\Desktop\synchro\Project\cnlogs_distributed\cnblogs_distributed> scrapy genspider cnblogs www.cnblogs.com 
Created spider 'cnblogs' using template 'basic' in module:
 cnblogs_distributed.spiders.cnblogs
PS C:\Users\13600\Desktop\synchro\Project\cnlogs_distributed\cnblogs_distributed>

* 3. 安装scrapy_redis模块
    命令: pip install scrapy_redis

* 4. 在项目目录下创建运行爬虫脚本主程序main.py

# main.py
from scrapy.cmdline import execute

execute(['scrapy', 'crawl', 'cnblogs'])

* 5. 修改爬虫配置文件

# 不遵循爬虫协议
ROBOTSTXT_OBEY = False

# 展示错误日志
LOG_LEVEL = 'ERROR'

# 全局USER_AGENT
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' \             'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.134                  Safari/537.36       Edg/103.0.1264.71'

# 分布式爬虫的配置

# redis的连接(不写默认也是使用这个)
# REDIS_HOST = 'localhost'  # 主机名
# REDIS_PORT = 6379  # 端口

# 使用scrapy-redis的去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 使用scrapy-redis的Scheduler
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 持久化的可以配置，也可以不配置
ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline': 299
}

* 6. 在item.py中创建item对象.

# item.py
class CnblogsItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    article_url = scrapy.Field()
    summary = scrapy.Field()
    content = scrapy.Field()

* 7. 爬虫脚本程序

import scrapy
from scrapy import Request
# 使用RedisSpider
from scrapy_redis.spiders import RedisSpider

# 继承 RedisSpider
class CnblogsSpider(RedisSpider):
    name = 'cnblogs'
    allowed_domains = ['www.cnblogs.com']
    # 指定Redis中集合的key名,  key=存放不重复request字符串的集合
    redis_key = 'myspider:start_urls'

    def parse(self, response):
        # 获取item对象
        from items import CnblogsItem
        item = CnblogsItem()
        # 获取所有的article标签
        article_list = response.css('article.post-item')

        # 遍历article标签
        for article in article_list:
            # 获取标签
            title = article.css('a.post-item-title::text').extract_first()
            item['title'] = title

            # 获取文章链接
            article_url = article.css('a.post-item-title::attr(href)').extract_first()
            item['article_url'] = article_url

            # 获取文章摘要
            summary = article.css('p.post-item-summary::text')[-1].extract().strip()
            item['summary'] = summary

            yield Request(article_url, callback=self.parse_detail, meta={'item': item})

    def parse_detail(self, response, **kwargs):
        # 从response中获取出item对象
        item = response.meta.get('item')

        # 获取到html标签的文档, 不然下载再来就是没有排版的文字.
        content = response.css('#cnblogs_post_body').extract_first()
        item['content'] = content

        # 将数据返回
        yield item

redis_key = 'myspider:start_urls' 多个机器使用一个起始地址,
往redis中写入起始地址后放入, 三台机器谁先抢到地址, 谁就先执行任务,爬取这个地址
之后返回一堆地址放入起始地址中, 三台机器再抢, 抢到一个执行一个...

* 8. 在scrapy的__init__.py下将项目路径添加到环境变量中

# __init__.py
import os
import sys
# 将项目路径添加到环境变量中
BASE_PATH = os.path.dirname(__file__)
sys.path.append(BASE_PATH)

* 9. 启动程序
     默认使用本地的redis, 无须配置
     模拟三台机器运行分布式爬虫, 开三个终端, 启动三个爬虫程序
     一个进程算一台机器.
     
     命令: scrapy crawl cnblogs

* 10. 往redis中写入起始地址
127.0.0.1:6379> lpush myspider:start_urls https://www.cnblogs.com/

启动之后开始爬取数据(信息没有展示到print函数展示到终端, 直接查看数据即可.)

5.3 总结

* 1. pip3 install scrapy-redis
* 2. 原来继承Spider，现在继承RedisSpider
* 3. 不能写start_urls = ['https:/www.cnblogs.com/']
    需要写redis_key = 'myspider:start_urls'
* 4. setting中配置↓

# redis的连接
# 主机名
REDIS_HOST = 'localhost' 
# 端口
REDIS_PORT = 6379           

# 使用scrapy-redis的去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 使用scrapy-redis的Scheduler
# 分布式爬虫的配置

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 持久化的可以配置，也可以不配置
ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline': 299
}

* 5. 使用cmd命令启动scrapy项目, 将项目地址添加到环境变量中, 否则, scrapy中的模块也能提示找不到.

# scrapy项目的__init__.py
import os
import sys
# 将项目路径添加到环境变量中
BASE_PATH = os.path.dirname(__file__)
sys.path.append(BASE_PATH)

* 6. redis中为myspider:start_urls插入一个起始地址
lpush myspider:start_urls https://www.cnblogs.com/

————————————————
文章的段落全是代码块包裹的, 留言是为了避免文章提示质量低.
文章的段落全是代码块包裹的, 留言是为了避免文章提示质量低.
文章的段落全是代码块包裹的, 留言是为了避免文章提示质量低.
文章的段落全是代码块包裹的, 留言是为了避免文章提示质量低.
文章的段落全是代码块包裹的, 留言是为了避免文章提示质量低.
文章的段落全是代码块包裹的, 留言是为了避免文章提示质量低.
文章的段落全是代码块包裹的, 留言是为了避免文章提示质量低.
文章的段落全是代码块包裹的, 留言是为了避免文章提示质量低.
文章的段落全是代码块包裹的, 留言是为了避免文章提示质量低.
文章的段落全是代码块包裹的, 留言是为了避免文章提示质量低.
————————————————

你可能感兴趣的:(9.,爬虫,爬虫,scrapy,中间件)

Redux-thunk：10行代码重构异步控制权止观止 #React 核心原理深度剖析 react redux react-thunk 状态管理前端
redux-thunk作为Redux生态中最精简的异步处理中间件，其核心价值源于对“函数型Action”的设计突破。这种范式通过将传统的静态Action对象转化为动态可执行函数，为Redux的单向数据流注入了异步控制能力，成为中小型项目异步管理的首选方案。⚙️一、核心设计：函数型Action（ActionasFunction）传统ReduxAction本质是携带{type,payload}的静态数
【C# in .NET】9. 探秘委托：函数抽象的底层机制阿蒙Armon C#in .NET c#.net java
探秘委托：函数抽象的底层机制在C#的类型系统中，委托（Delegate）作为函数的抽象容器，架起了面向对象与函数式编程的桥梁。它不仅是事件驱动编程的核心，更是LINQ、异步编程等现代C#特性的基础。与类和结构体相比，委托的底层实现融合了引用类型的内存管理与函数指针的调用特性，涉及CLR对方法调度的深度优化。本文将从IL指令解析到JIT编译细节，全面揭示委托的本质机制，带你理解这一特殊类型如何在.N
scrapy 一定要自定义USER_AGENT 魔童转世
原因是因为有的网站设置的是不允许爬虫请求，而srapy默认请求是带着一个标识告诉网站我就是爬虫，网站当然不允许爬去了偶然间在一个网站上看到的内容并且也跳过坑USER_AGENT='Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/65.0.3325.181Safari/537.36'
Redis 深度解析：从核心原理到生产实践 Pasregret 缓存 redis 数据库缓存
Redis深度解析：从核心原理到生产实践一、Redis核心定位与数据结构1.核心能力矩阵深度解析Redis作为高性能内存数据库，核心能力覆盖缓存、数据存储、消息中间件等场景，其设计哲学围绕速度优先、内存高效、功能丰富展开：内存存储特性纯内存操作：基于内存寻址的O(1)复杂度数据操作，单节点QPS可达10万+持久化方案：RDB（快照）与AOF（日志）双模式，支持数据持久化与故障恢复单线程模型：基于事
网络爬虫：技术原理、应用场景与合法使用全攻略程序小武 python爬虫入门爬虫网络
爬虫是什么？网络爬虫（WebScraping或WebCrawling）是一种通过自动化方式从网站上抓取公开数据的程序。它通过模拟用户在浏览器中浏览网页的过程，访问网页、提取信息，并将数据保存到本地系统中。爬虫技术广泛应用于搜索引擎、数据收集、市场分析、信息聚合等多个领域。爬虫能做什么？数据收集爬虫可以高效地从互联网上的大量网站收集信息。比如，抓取新闻网站上的文章内容、商品电商平台的价格与库存数据、
解决Python爬虫访问HTTPS资源时Cookie超时问题
一、问题背景：Cookie15秒就失效了？很多互联网图片站为了防止盗链，会把图片地址放在HTTPS接口里，并且给访问者下发一个带Path=/的Cookie，有效期极短（15s～60s）。常规Requests脚本在下载第二张图时就会401或403。本文以某壁纸站https://example-pics.com为例，演示如何：自动化获取并刷新Cookie；在下载高并发图片时维持Cookie活性；把方案
python网络爬虫(第一章/共三章：网络爬虫库、robots.txt规则（防止犯法）、查看获取网页源代码)
python网络爬虫(第一章/共三章：网络爬虫库、robots.txt规则（防止犯法）、查看获取网页源代码)学习python网络爬虫的完整路径：（第一章即此篇文章）（第二章）python网络爬虫(第二章/共三章：安装浏览器驱动，驱动浏览器加载网页、批量下载资源)-CSDN博客https://blog.csdn.net/2302_78022640/article/details/149431071?
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
消息中间件巡检搬砖小常消息中间件运维笔记 RocketMQ kafka 中间件巡检运维
除资源使用情况外，消息中间件RocketMQ、kafka还可以巡检哪些？一、RocketMQ巡检1、检查broker写入耗时是否有压力2、检查brokerbusy的数量与频率3、主题发送TPS、发送错误率巡检4、从节点消费情况检查5、集群各broker消息流转情况巡检二、Kafka巡检1、检查是否有分区发生ISR频繁扩张收缩2、检查分区leader选举值是否处于正常水平3、检查controller
AIGC工具与软件开发流程的深度集成方案 Irene-HQ 软件开发测试 AIGC 测试工具 github AIGC 程序人生面试
一、代码开发环节集成路径‌环境配置标准化‌安装AIGC工具包并配置环境变量（如设置AIGC_TOOL_PATH），确保团队开发环境一致‌。在IDE插件市场安装Copilot等工具，实现编码时实时建议调用‌。‌人机协作新模式‌‌需求解析‌：上传PRD文档，AI自动提取业务规则生成类结构（如支付模块的PaymentService雏形）‌。‌代码补全‌：输入注释//JWT验证中间件，生成OAuth2.0
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
requests的使用
一·概念requests作为爬虫的基础库，在我们快速爬取和反爬破解中起到很重要的作用，其中的知识点大概有以下几个方面：二·内容一，request：1-requests.get…get请求获取数据2-requests.post…post请求获取数据二，response:1-response.text.响应体str类型2-response.encoding从HTTPheader中获取响应内容的编码方式
Python爬虫实战：利用最新技术爬取B站直播数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 html 百度
1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
基于Python的智能公示信息监控爬虫系统开发实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言音视频搜索引擎 scrapy
摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
上位机知识篇---Linux中的文件挂载 Atticus-Orion 上位机操作篇 linux 运维网络文件挂载
文章目录前言1.挂载的基本概念文件系统挂载点设备文件2.挂载的命令挂载文件系统示例卸载文件系统示例3.挂载的常用选项示例4.自动挂载（/etc/fstab文件）示例使用UUID挂载5.挂载网络文件系统（NFS）挂载NFS示例6.挂载ISO文件挂载ISO文件示例7.查看已挂载的文件系统8.挂载的注意事项9.挂载的常见问题挂载失败卸载失败10.总结前言在Linux系统中，文件挂载是指将一个文件系统（如
windows exe爬虫：exe抓包程序猿阿三爬虫项目实战 exe抓包
不论任何爬虫，抓包是获取数据最直接和最方便的方式，这章节我们一起看一下windowsexe是如何拦截数据的。用mitmproxy/Charles/Fiddler或Wireshark拦截它的HTTP/HTTPS/TCP流量。如果是HTTPS，安装并信任代理的根证书。由于exe大部分可能走的是自定义应用层协议。在不知情所拦截应用使用的流量时，所以建议用Wireshark。本文利用python代码，实现
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
【ceph】坏盘更换，osd的具体操作向往风的男子 ceph ceph
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
jmeter 性能测试步骤是什么？
1.测试计划2.线程组-设置线程数3.HTTP请求（替换参数）4.用户参数/CSV数据文件设置参数、消息体数据5.集合点（同步定时器）-设置模拟用户数和超时时间6.响应断言（检查点）7.断言结果8.监听器-察看结果树9.监听器-聚合报告10.场景监控、运行10.1配置监听器参数10.2登录服务器启动agent服务jmeter性能测试实战（零基础入门到精通）即学即上手！
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
爬虫技术：从基础到高级，探索数据抓取的奥秘
一、基础爬虫：揭开数据抓取的神秘面纱对于初学者来说，基础爬虫是入门的起点。基础爬虫的目标通常是静态网页，这些网页的内容在加载时就已经确定，不需要与服务器进行交互。通过简单的HTTP请求和HTML解析，就可以获取到网页中的数据。在基础爬虫中，最核心的技术是HTML解析。HTML是网页的结构语言，它定义了网页的布局和内容。爬虫程序需要通过解析HTML，找到其中的文本、图片、链接等元素。常用的HTML解
Spring Boot 整合 RabbitMQ 蹦跑的蜗牛 Springboot spring boot rabbitmq
SpringBoot整合RabbitMQ一、概述：RabbitMQ是什么？你可以把RabbitMQ想象成一个「快递中转站」。比如你在网上买了一本书，卖家（生产者）把包裹（消息）交给快递站（RabbitMQ），快递站根据包裹上的地址（规则）把包裹分给不同的快递员（消费者），最后送到你家（业务系统）。RabbitMQ是一个专门用来「传递消息」的软件（专业叫「消息中间件」），它能让不同的程序、不同的电脑
rdkafka线程过多_我是如何处理大并发量订单处理的 KafKa部署总结 weixin_39574928 rdkafka线程过多
今天要介绍的是消息中间件KafKa，应该说是一个很牛的中间件吧，背靠Apache与很多有名的中间件搭配起来用效果更好哦，为什么不用RabbitMQ，因为公司需要它。网上已经有很多怎么用和用到哪的内容，但结果很多人都倒在了入门第一步环境都搭不起来，可谓是从了解到放弃，所以在此特记录如何在linux环境搭建，windows中配置一样，只是启动运行bat文件。想要用它就先必须了解它能做什么及能做到什么程
使用 Docker 搭建 Python（Flask/CUDA AI）开发环境——AI教你学Docker
使用Docker搭建Python（Flask/CUDAAI）开发环境及常用中间件配置详解本指南适用于用Docker快速搭建Python（FlaskWeb应用或包含CUDA的AI开发环境）开发环境，并集成常用中间件服务如MySQL、Redis、Kafka。适合个人开发、本地测试和小团队协作。一、项目目录结构建议project-root/├──app/#Python应用源码目录│├──Dockerfi
Python 入门手札：从 0 到会--第三天Python的基本数据类型之容器类型 dict ，set，frozenset 趁早折枝 Python 入门手札：从 0 到会 python 哈希算法数据结构
目录一、集合类型-set&&frozenset1.基本概念2.集合的创建3.集合常用操作4.集合之间的操作5.集合的比较6.集合更新操作（只能用于set，frozenset不支持）7.不可变集合：frozenset8.集合运算符与方法的非运算符版本9.集合和字典的关系二、字典（dict）1.映射类型2.字典的键（key）3.字典的创建4.字典的常见操作5.字典视图对象6.常见字典方法7.字典的排序
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Python生态全景图：8大主流框架优缺点及选型指南 Sammyyyyy python 开发语言 django fastapi flask
引言：Python的“万能”生态Python为何能成为当今最流行的编程语言之一？答案并非其语法本身，而在于其强大且多样化的框架生态。这个生态系统如同一片繁荣的大陆，覆盖了从Web后端到人工智能的几乎所有技术领域，让开发者能用一种语言胜任多种截然不同的任务。本文将化作一张“技术地图”，快速带你游览Python在Web开发、数据科学和网络爬虫三大领域的8个标志性框架。我们的目标是迅速掌握它们的精髓，让
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi