MXuDong

Python爬虫scrapy框架的源代码分析

scrapy框架流程图

推荐三个网址：官方1.5版本：https://doc.scrapy.org/en/latest/topics/architecture.html点击打开链接

官方0.24版本（中文）：https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/architecture.html点击打开链接

scrapy中文网1.5版本：http://www.scrapyd.cn/doc/137.html点击打开链接

图十分的重要

创建项目与配置环境后各部分组件：

上图主要是关于各个组件的作用！

下面是部分组件的详情：

首先主要是项目写代码部分：

项目名.py(eg:baidu.py)

项目一百度——eg:baidu.py

# -*- coding: utf-8 -*-
import scrapy

# scrapy: 是一个基于异步+多线程的方式运行爬虫的框架，内部的函数都是以回调的形式执行的，不能手动调用。


class BaiduSpider(scrapy.Spider):
    # name: 自定义的爬虫名称，运行爬虫的时候就通过这个name的值运行的。name的值是唯一的。
    name = 'baidu'

    # allowed_domains：允许访问的网站的域名。没有设置的无法访问。
    allowed_domains = ['baidu.com', 'qq.com', 'zhihu.com']

    # start_urls：指定爬虫的起始url，爬虫启动之后，Engine就会从start_urls提取第一个url，然后将url构造成一个Request对象，交给调度器。
    start_urls = ['https://www.baidu.com/', 'http://news.baidu.com/']

    # parse()函数是在start_urls中的url请求成功以后，自动回调parse()函数。
    def parse(self, response):
        print('请求的url：', response.url)
        print('状态码：', response.status)
        print('返回的内容：', response.body)

项目二小说——eg:novel.py

# -*- coding: utf-8 -*-
import scrapy
from NovelSpider.items import NovelspiderItem


class NovelSpider(scrapy.Spider):
    name = 'novel'
    allowed_domains = ['readnovel.com']
    start_urls = ['https://www.readnovel.com/rank/hotsales/']
    number = 2

    # headers = {
    #     'Host':'',
    #     'Referer':'',
    #     'Cookie':''
    # }

    def parse(self, response):
        self.number += 1
        # 解析response对象
        all_divs = response.xpath('//div[@class="book-mid-info"]')

        # all_a: 保存的是Selector对象。该对象可以继续调用xpath()函数。
        # print(all_a)
        # xpath()返回的是
        for div in all_divs:
            # extract_first(默认值)：尝试获取第一个元素，获取失败会采用默认值。
            # href = a.xpath('@href').extract_first(default='')
            # title = a.xpath('text()').extract_first(default='')

            href = div.xpath('.//h4/a/@href').extract_first(default='')

            detail_url = 'https://www.readnovel.com' + href

            title = div.xpath('.//h4/a/text()').extract_first(default='')
            author = div.xpath('.//p[@class="author"]/a[contains(@class, "name")]/text()').extract_first('')

            # meta参数，可以向回调函数parse_detail_page传递参数。
            # 将每一个详情页的请求对象，yield到调度器的队列中，等待被执行。
            yield scrapy.Request(url=detail_url, callback=self.parse_detail_page, meta={'title': title, 'author': author}, dont_filter=False)

            # novel = NovelspiderItem()
            # novel["url"] = href
            # novel["title"] = title
            # novel["author"] = author
            #
            # print(href, title, author)

            # yield novel

        # 获取下一页的连接，然后构造一个请求对象，将这个request对象yield到调度器的队列中。
        if self.number <= 3:
            next_href = 'https://www.readnovel.com/rank/hotsales?pageNum={}'.format(self.number)
            yield scrapy.Request(url=next_href, callback=self.parse)

    def parse_detail_page(self, response):
        # response.meta获取字典中的键值对。

        book_img = response.xpath('//a[@id="bookImg"]/img/@src').extract_first('').strip()
        book_img = 'https:'+book_img


        novel = NovelspiderItem()
        # print('---', response.url, response.meta['title'], response.meta['author'])
        novel['url'] = response.url
        novel['title'] = response.meta['title']
        novel['author'] = response.meta['author']

        # 需要下载的图片地址，需要是一个列表
        # 如果不下载，只是将地址保存在数据库中，不需要设置列表
        novel['img_url'] = [book_img]

        # 需要下载的文件地址，需要是一个列表
        # 如果不下载，只是将地址保存在数据库中，不需要设置列表
        # novel['file_url'] = [file_url]

        yield novel

settings.py:主要是设置配置文件:

可以设置自定义配置也可以设置源代码中的操作同时也可以设置是否执行源代码操作还是自定义的操作，settings.py是一个字典！

# -*- coding: utf-8 -*-

# Scrapy settings for TestSpider project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://doc.scrapy.org/en/latest/topics/settings.html
#     https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://doc.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = 'TestSpider'

SPIDER_MODULES = ['TestSpider.spiders']
NEWSPIDER_MODULE = 'TestSpider.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'TestSpider (+http://www.yourdomain.com)'

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'

# Obey robots.txt rules
# Scrapy框架默认遵守 robots.txt 协议规则，robots规定了一个网站中，哪些地址可以请求，哪些地址不能请求。
# 默认是True，设置为False不遵守这个协议。
ROBOTSTXT_OBEY = False


# Configure maximum concurrent requests performed by Scrapy (default: 16)
# 配置scrapy的请求连接数，默认会同时并发16个请求。
# CONCURRENT_REQUESTS = 10

# Configure a delay for requests for the same website (default: 0)
# See https://doc.scrapy.org/en/latest/topics/settings.html#download-delay
# See also autothrottle settings and docs

# 下载延时，请求和请求之间的间隔，降低爬取速度，default: 0
# DOWNLOAD_DELAY = 3


# CONCURRENT_REQUESTS_PER_DOMAIN：针对网站(主域名)设置的最大请求并发数。
# CONCURRENT_REQUESTS_PER_IP：某一个IP的最大请求并发数。
# The download delay setting will honor only one of:
# CONCURRENT_REQUESTS_PER_DOMAIN = 16
# CONCURRENT_REQUESTS_PER_IP = 16


# Disable cookies (enabled by default)
# 是否启用Cookie的配置，默认是可以使用Cookie的。主要是针对一些网站是禁用Cookie的。
# COOKIES_ENABLED = False

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False


# Override the default request headers:

# 配置默认的请求头Headers.
# DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
#   'Accept-Language': 'en',
# }


# Enable or disable spider middlewares
# See https://doc.scrapy.org/en/latest/topics/spider-middleware.html

# 配置自定义爬虫中间件，scrapy也默认启用了一些爬虫中间件，可以在这个配置中关闭。
# SPIDER_MIDDLEWARES = {
#    'TestSpider.middlewares.TestspiderSpiderMiddleware': 543,
# }


# 下载中间件，配置自定义的中间件或者取消Scrapy默认启用的中间件。
# Enable or disable downloader middlewares
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html
# DOWNLOADER_MIDDLEWARES = {
#    'TestSpider.middlewares.TestspiderDownloaderMiddleware': 543,
# }


# Enable or disable extensions
# See https://doc.scrapy.org/en/latest/topics/extensions.html
# EXTENSIONS = {
#    'scrapy.extensions.telnet.TelnetConsole': None,
# }


# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html

# 配置自定义的PIPELINES，或者取消PIPELINES默认启用的中间件。
# ITEM_PIPELINES = {
#    'TestSpider.pipelines.TestspiderPipeline': 300,
# }


# 限速配置
# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html

# 是否开启自动限速
# AUTOTHROTTLE_ENABLED = True


# The initial download delay
# 配置初始url的下载延时
# AUTOTHROTTLE_START_DELAY = 5


# The maximum download delay to be set in case of high latencies
# 配置最大请求时间
# AUTOTHROTTLE_MAX_DELAY = 60


# 配置请求和请求之间的下载间隔，单位是秒
# The average number of requests Scrapy should be sending in parallel to
# each remote server
# AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0


# Enable showing throttling stats for every response received:
# AUTOTHROTTLE_DEBUG = False


# 关于Http缓存的配置，默认是不启用。
# 对于同一个页面的请求进行数据的缓存，如果后续还有相同的请求，直接从缓存中进行获取。
# Enable and configure HTTP caching (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html#httpcache-middleware-settings
#HTTPCACHE_ENABLED = True
#HTTPCACHE_EXPIRATION_SECS = 0
#HTTPCACHE_DIR = 'httpcache'
#HTTPCACHE_IGNORE_HTTP_CODES = []
#HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

scrapy爬虫框架部件示意图源代码位置：

调度器组件schedule.py源代码：

depefilters.py源代码（去重作用）：

useragent.py源代码（类比后面的中间件解析）：

中间件middlewares.py组件的源码以及自定义（自定义useragent下载中间件和代理ip）

middlewares.py主要是对请求进行处理可以参考流程图

注意：useragent也可以直接放在settings.py中更可以放在自己的代码里直接使用如下图：

在settings.py中配置（默认首先使用自己配置的：1.直接设置（如火狐浏览器），2.随机一个）：

直接在代码里使用：

from fake_useragent import UserAgent
 ua = UserAgent()
    headers = {
        'User-Agent': ua.random,
        }

# -*- coding: utf-8 -*-

# Define here the models for your spider middleware
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/spider-middleware.html

from scrapy import signals
from fake_useragent import UserAgent
import requests, logging


class NovelspiderSpiderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the spider middleware does not modify the
    # passed objects.
    def __init__(self):
        self.logger = logging.getLogger('NovelspiderSpiderMiddleware')

    @classmethod
    def from_crawler(cls, crawler):

        print('from_crawler 开始执行了')

        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_spider_input(self, response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.

        # 对应的是流程图中的第6步，在response对象交给Spider爬虫进行解析前，可以对response进行处理。
        # 只能返回None或者抛出一个异常。。。

        # print('process_spider_input 开始执行了')
        self.logger.debug('process_spider_input 开始执行了')

        # if item['id'] in set():
        #     raise DropItem()

        # Should return None or raise an exception.
        return None

    def process_spider_output(self, response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.

        # 对应流程图中的第7步，可以从response返回的结果中，对后续的item和request进行处理。
        # 必须返回Request或者Item对象

        # print('process_spider_output 开始执行了')
        self.logger.debug('process_spider_output 开始执行了')

        # Must return an iterable of Request, dict or Item objects.
        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.

        # Should return either None or an iterable of Response, dict
        # or Item objects.
        pass

    def process_start_requests(self, start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn’t have a response associated.

        print('process_start_requests  开始执行了')

        # Must return only requests (not items).
        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        print('spider_opened 开始执行了')
        spider.logger.info('Spider opened: %s' % spider.name)



# DownloaderMiddleware: 可以在请求被发起之前对Request进行处理，设置代理IP或者是请求头中的一些字段。
class NovelspiderDownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request, 继续执行后续中间件的process_request()，直到将request交给downloader下载器进行下载；

        # - or return a Response object，如果返回Response对象，后续的中间件以及downloader下载器都不在执行，而是将Response对象返回给引擎。引擎将它交给Spider进行解析。

        # - or return a Request object，一般不会返回Request对象，将这个对象又存入了调度器，调度器会对返回的request进行重新调度。

        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        return None

    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object，继续执行后续中间件的process_response()函数，最终返回给引擎；
        # - return a Request object，终止中间件的执行，会重新调度这个request;
        # - or raise IgnoreRequest
        return response

    def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.

        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)


class UserAgentMiddlewares(object):
    """
    自定义一个UserAgent的下载中间件。
    """
    def __init__(self, user_agent_type):
        self.ua = UserAgent()
        self.user_agent_type = user_agent_type

    @classmethod
    def from_crawler(cls, crawler):
        obj = cls(
            user_agent_type=crawler.settings.get('USER_AEGNT_TYPE', 'random')
        )
        return obj

    def get_user_agent(self):
        # getattr()：通过self.ua调用self.user_agent_type
        user_agent = getattr(self.ua, self.user_agent_type)
        return user_agent

    def get_proxy(self):
        #自己开启代理池
        return requests.get('http://localhost:5010/get/').text

    def process_request(self, request, spider):
        # 设置随机的User-Agent
        request.headers.setdefault(b'User-Agent', self.get_user_agent())
        # 设置代理IP
        request['proxy'] = 'http://' + self.get_proxy()
        return None

下载图片源码：

如果自定义保存图片，在pipeline中设置如下代码（注意：settings配置）

from scrapy.http import Request
#导入源码ImagesPipelines,继承
from scrapy.pipelines.images import ImagesPipeline


class CustomImagesPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        # 从item中获取要下载图片的url，根据url构造Request()对象，并返回该对象
        image_url = item['img_url'][0]
        yield Request(image_url, meta={'item': item})

    def file_path(self, request, response=None, info=None):
        # 用来自定义图片的下载路径
        item = request.meta['item']
        url = item['img_url'][0].split('/')[5]
        return '%s.jpg'%url

    def item_completed(self, results, item, info):
        # 图片下载完成后，返回的结果results
        print(results)
        return item
#注意：如果后面还需要用到item，则必须返回（return），供后面可以使用

保存文件（主要：文档，下载文档等，注意：类比图片的保存！）源码：

如果自定义保存文件，需要在pipelines.py中设置如下代码(注意：settings.py的配置)：

from scrapy.http import Request

#导入源码的FilePipeline,继承
from scrapy.pipelines.files import FilesPipeline

class CustomFilesPipeline(FilesPipeline):
    def get_media_requests(self, item, info):
        
            download_url = item['download_url'][0]
            download_url = download_url.replace("'",'')
            print(download_url)
            yield Request(download_url, meta={'item':item})

    def file_path(self, request, response=None, info=None):
        item = request.meta['item']
       #创建sort_name文件，在里面保存novel_name文件
        return '%s/%s' % (item['sort'],item['novel_name'])
      

    def item_completed(self, results, item, info):
        print(results)
        return item

组件middlewares.py详解与自定义中间件（已备注和含有自定义）：

# -*- coding: utf-8 -*-

# Define here the models for your spider middleware
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/spider-middleware.html

from scrapy import signals
from fake_useragent import UserAgent
import requests, logging


class NovelspiderSpiderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the spider middleware does not modify the
    # passed objects.
    def __init__(self):
        self.logger = logging.getLogger('NovelspiderSpiderMiddleware')

    @classmethod
    def from_crawler(cls, crawler):

        print('from_crawler 开始执行了')

        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_spider_input(self, response, spider):
        # Called for each response that goes through the spider
        # middleware and into the spider.

        # 对应的是流程图中的第6步，在response对象交给Spider爬虫进行解析前，可以对response进行处理。
        # 只能返回None或者抛出一个异常。。。

        # print('process_spider_input 开始执行了')
        self.logger.debug('process_spider_input 开始执行了')

        # if item['id'] in set():
        #     raise DropItem()

        # Should return None or raise an exception.
        return None

    def process_spider_output(self, response, result, spider):
        # Called with the results returned from the Spider, after
        # it has processed the response.

        # 对应流程图中的第7步，可以从response返回的结果中，对后续的item和request进行处理。
        # 必须返回Request或者Item对象

        # print('process_spider_output 开始执行了')
        self.logger.debug('process_spider_output 开始执行了')

        # Must return an iterable of Request, dict or Item objects.
        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):
        # Called when a spider or process_spider_input() method
        # (from other spider middleware) raises an exception.

        # Should return either None or an iterable of Response, dict
        # or Item objects.
        pass

    def process_start_requests(self, start_requests, spider):
        # Called with the start requests of the spider, and works
        # similarly to the process_spider_output() method, except
        # that it doesn’t have a response associated.

        print('process_start_requests  开始执行了')

        # Must return only requests (not items).
        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        print('spider_opened 开始执行了')
        spider.logger.info('Spider opened: %s' % spider.name)



# DownloaderMiddleware: 可以在请求被发起之前对Request进行处理，设置代理IP或者是请求头中的一些字段。
class NovelspiderDownloaderMiddleware(object):
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_request(self, request, spider):
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request, 继续执行后续中间件的process_request()，直到将request交给downloader下载器进行下载；

        # - or return a Response object，如果返回Response对象，后续的中间件以及downloader下载器都不在执行，而是将Response对象返回给引擎。引擎将它交给Spider进行解析。

        # - or return a Request object，一般不会返回Request对象，将这个对象又存入了调度器，调度器会对返回的request进行重新调度。

        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        return None

    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object，继续执行后续中间件的process_response()函数，最终返回给引擎；
        # - return a Request object，终止中间件的执行，会重新调度这个request;
        # - or raise IgnoreRequest
        return response

    def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.

        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)
#######################################################################################
#以下自定义部分：
class UserAgentMiddlewares(object):
    """
    自定义一个UserAgent的下载中间件。
    """
    def __init__(self, user_agent_type):
        self.ua = UserAgent()
        self.user_agent_type = user_agent_type

    @classmethod
    def from_crawler(cls, crawler):
        obj = cls(
            user_agent_type=crawler.settings.get('USER_AEGNT_TYPE', 'random')
        )
        return obj

    def get_user_agent(self):
        # getattr()：通过self.ua调用self.user_agent_type
        user_agent = getattr(self.ua, self.user_agent_type)
        return user_agent

    def get_proxy(self):
        return requests.get('http://localhost:5010/get/').text

    def process_request(self, request, spider):
        # 设置随机的User-Agent
        request.headers.setdefault(b'User-Agent', self.get_user_agent())
        # 设置代理IP
        request['proxy'] = 'http://' + self.get_proxy()
        return None

linux-LAMP搭建 Theshaye linux系统服务器 linux apache
LAMP1.架构描述LAMP是一个C/S架构的平台：web客户端基于tcp/ip协议，发出http请求，服务端进行回应，用户的请求可能是动态的也可能是静态的。web服务器通过用户发送的url后缀判断动静态请求：静态请求web服务器直接处理静态请求web服务器转发给后台应用服务器去处理：(CGI)php运行的后台程序apache与php所处环境不同决定其通讯方式不同：安装在同一台服务器，就默认使用系
10 种超好用的 MyBatis 写法，同事都说好用！肥肥技术宅 java mybatis java 开发语言
用来循环容器的标签forEach,查看例子foreach元素的属性主要有item，index，collection，open，separator，close。item：集合中元素迭代时的别名，index：集合中元素迭代时的索引open：常用语where语句中，表示以什么开始，比如以'('开始separator：表示在每次进行迭代时的分隔符，close常用语where语句中，表示以什么结束，在使用f
i9 9880h参数配置 m0_51380603 cpu
英特尔似乎为i9-9880H使用了“两杯咖啡”，因为该CoffeeLakeCPU具有16MB的超大缓存大小，是AMD的两倍。与往常一样，现代Zen2CPU具有更高的内存支持频率–DDR4-3200MHz；LPDDR4-4266MHz与DDR4-2666，适用于Intel的LPDDR3-2133。选i99880h这些点很重要!看完你就知道了https://list.jd.com/list.html?
i7 12800hx和i9 11980hk差距 m0_52331396 cpu cpu
酷睿i9-11980HK采用了8核16线程设计，其基准频率为2.6GHz，最大频率为5.0GHz，并拥有24MB的三级缓存，同时集成锐炬IrisXeUHD核显并支持处理器超频，在连接性方面，i9-11980HK支持PCIe4.0、Thunderbolt4、Wi-Fi6/6E技术。其TDP范围在45-65W之间。笔记本cpu选i911980hk还是i712800hx这些点很重要http://www.
Python 实现车牌识别菜狗小测试 Python技术专栏 python 计算机视觉 opencv
一、车牌识别的基本原理车牌识别主要包括以下几个步骤：图像采集：通过摄像头或其他图像采集设备获取包含车牌的图像。图像预处理：对采集到的图像进行灰度化、滤波、增强等操作，以提高图像的质量和清晰度，便于后续的处理。车牌定位：从预处理后的图像中找出车牌的位置。这可以通过一些特征提取和机器学习算法来实现，例如基于颜色特征、边缘特征等方法来定位车牌区域。字符分割：将定位到的车牌区域中的字符分割开，以便对每个字
docker——入门介绍、组件介绍、安装与启动、镜像相关命令、容器相关命令、应用部署山上有个车 docker docker 容器运维
文章目录一、入门介绍什么是虚拟化名词解释什么是Dockerdocker的优点容器与虚拟机比较二、组件介绍三、安装与启动安装docker所需依赖换yum源安装docker查看docker版本启动docker关闭dockerdocker开机启动查看docker详细信息四、镜像相关命令镜像加速五、容器相关命令六、应用部署部署mysql部署redis运行nginx一、入门介绍什么是虚拟化在计算机中，虚拟化
深入解析Vue3响应式系统：从Proxy实现到依赖收集的核心原理荆州克莱面试题汇总与解析 spring cloud spring boot spring 技术 css3
深入解析Vue3响应式系统：从Proxy实现到依赖收集的核心原理响应式系统的基本原理作为一个热门的JavaScript框架，Vue在3.x版本中引入了基于Proxy的响应式系统。这个系统的核心思想是利用Proxy对象拦截对数据的访问和修改，从而实现数据的自动更新。当我们改变一个被代理的对象时，相关的视图会自动更新，无需手动干预。这一创新的设计让Vue3在性能和开发体验上都有了大幅度的改进。如何实现
什么是安全情报？ huaqiwangan 安全
一、从情报的类型上来看可以分为：资产情报、事件情报、漏洞情报和威胁情报。注意，我们常说的威胁情报，并不完全等同于安全情报。四大类信息1.资产情报：主要用于确认企业自身的资产e.g.企业自身的数据SOC、SIEM数据日志、告警等。资产情报如何搜集？主要来自于企业的SOC(SecurityOperationCenter),SIEM(SecurityInformationandEventManageme
@JsonCreator 注解 huang_hai_an java ajax javascript
@JsonCreator注解是Jackson库中用于指定如何从JSON数据创建Java对象实例的一个重要工具。它允许你定义一个静态方法（通常是构造函数或静态工厂方法），Jackson在反序列化时会调用这个方法来生成对象实例。@JsonCreator注解可以应用于方法、构造函数或注解类型，并且可以通过mode()属性指定不同的工作模式。@JsonCreator注解的组成部分@Target:指定该注解
数学与机器学习：共舞于智能时代的双璧每天五分钟玩转人工智能机器学习人工智能
随着人工智能的崛起，机器学习作为其核心技术之一，正引领着新一轮的科技革命。而在这场革命中，数学以其深邃的理论和精妙的工具，为机器学习提供了坚实的支撑。数学与机器学习之间的关系，如同琴瑟和鸣，共同编织出智能时代的华美乐章。数学，作为自然科学的皇后，以其严谨的逻辑和精确的推理，为机器学习提供了坚实的理论基础。机器学习算法的设计、优化和应用，都离不开数学的支持。无论是线性代数、概率统计，还是微积分、最优
IndexSearcher nickname_oo 搜索 lucene IndexSearcher
一、关于lucene的IndexSearcher单市里，对于索引的实时搜索Lucene版本:3.0一般情况下,lucene的IndexSearcher都要写成单实例,因为每次创建IndexSearcher对象的时候,它都需要把索引文件加载进来,如果访问量比较大,而索引也比较大,那就很容易造成内存溢出!但是如果仅仅按照一般的单实例来写的话,如果更新了索引,那么在不重启服务的情况下,Searcher对
JDK 8 Update 321 for Linux (aarch64) 下载仓库何盼思Kit
JDK8Update321forLinux(aarch64)下载仓库JDK8Update321forLinuxaarch64下载仓库JDK8Update321forLinux(aarch64)下载仓库项目地址:https://gitcode.com/open-source-toolkit/0d9e1资源文件介绍本仓库提供了一个资源文件的下载，文件名为jdk-8u321-linux-aarch64.
检索工具—IndexSearcher 类千里兵峰 lucene2.4 lucene Apache 应用服务器浏览器工作
IndexSearcher类继承自Searcher基类，是Lucene中最重要的一个检索用类。IndexSearcher类时最重要的就是要告诉它索引存放的路径，只有这样，检索工具才可以定位索引，从而完成查找的任务。以下是IndexSearcher的所有构造函数：publicIndexSearcher(Stringpath)throwsIOException{this(IndexReader.ope
论云原生架构及其应用一休哥助手架构软考系统架构师云原生架构 perl
一、引言随着云计算技术的发展，企业在应用开发和运维中逐步向云端迁移，从传统单体架构向云原生架构演进。云原生架构（CloudNativeArchitecture）是一种利用云计算的本质特性设计的架构，其核心理念是利用微服务、容器编排、自动化运维等技术手段，以支持应用的高扩展性、稳定性和快速部署。云原生架构的核心设计原则包括服务化、韧性、可观测性和自动化，这些原则为云端应用的高效运行奠定了坚实的基础。
ESP32内存管理详解：从基础到进阶又吹风_Bassy ESP32 内存管理 PSRAM DRAM FLASH
最近在学习ESP32，下面整理了一些存储和内存相关知识点。ESP32作为一款功能强大的物联网芯片，广泛应用于各种嵌入式开发场景。有效管理ESP32的内存资源，对于提升应用性能和系统稳定性至关重要。本文将系统性地介绍ESP32的内存架构、存储硬件知识、内存分配机制、常见内存问题及解决方案，帮助新手开发者全面掌握ESP32的内存管理。一、内存系统概览1.1ESP32内存架构ESP32的内存架构复杂而灵
色度采样（4:4:4、4:2:2、4:2:0、4:1:1）详解又吹风_Bassy 视频压缩技术图像处理色度采样 YUV颜色空间视频编码标准
色度采样（4:4:4、4:2:2、4:2:0、4:1:1）详解色度采样概述色度采样（ChromaSubsampling）是一种在图像和视频处理中，通过减少色度分量（U、V）的采样量来压缩数据的技术。它利用了人眼对亮度（Luma，Y）比色度（Chroma，U/V）更加敏感的特性，从而在不明显影响视觉效果的前提下，显著降低数据量。在YUV颜色空间中，Y表示亮度，U和V表示色度分量。通过减少U和V的采样
Qt调用FFmpeg库实时播放UDP组播视频流 daqinzl qt ffmpeg 流媒体 qt ffmpeg udp组播流
基于以下参考链接，通过改进实现实时播放UDP组播视频流https://blog.csdn.net/u012532263/article/details/102736700源码在windows（qt-opensource-windows-x86-5.12.9.exe）、ubuntu20.04.6(x64)(qt-opensource-linux-x64-5.12.12.run)、以及针对arm64的
Solon Cloud Gateway 开发：熟悉 Completable 响应式接口组合缺一 Solon Java Framework gateway solon java reactor
Solon-Rx（约2Kb）是基于reactive-streams封装的RxJava极简版（约2Mb左右）。目前仅一个接口Completable，意为：可完成的发布者。使用场景及接口：接口说明Completable作为返回类型Completable::complete()构建完成发布者Completable::error(cause)构建异常发布者Completable::create(（emit
Solon2 接口开发: 熟悉 Gateway 组合缺一 Solon Java Framework gateway java solon
Gateway是Solon框架的特殊控制器（也是Handler的一个实现类）。它通过注册收集之后，在局部范围内提供：二级路由、拦截、过滤、融断、异常处理等功能，并统一到网关处理。另一个作用：可以为同一批接口安排多个网关，进而定制不同的协议效果。1、定义2个组件API_0@Component(tag="api")publicclassAPI_0{@MappingpublicResultexec(){
Solon Cloud Gateway 开发：熟悉 ExContext 及相关接口组合缺一 Solon Java Framework gateway solon java 后端
分布式网关的主要工作是路由及数据交换，在定义时，会经常用到：接口说明RouteFilterFactory路由过滤器工厂RoutePredicateFactory路由检测器工厂CloudGatewayFilter分布式网关过滤器ExFilter交换过滤器ExPredicate交换检测器ExContext交换上下文ExFilter应用场景CloudGatewayFilterextendsExFilte
计算机毕业设计ssm旅游景点推荐系统02d989（附源码）新手必备毕设程序源码课程设计
项目运行环境配置：Jdk1.8+Tomcat7.0+Mysql+HBuilderX（Webstorm也行）+Eclispe（IntelliJIDEA,Eclispe,MyEclispe,Sts都支持）。项目技术：ssm+mybatis+Maven+mysql5.7或8.0等等组成，B/S模式+Maven管理等等。环境需要1.运行环境：最好是javajdk1.8，我们在这个平台上运行的。其他版本理论
终于明白什么是威胁情报国安护卫信息安全威胁情报
威胁情报初探什么是威胁情报，其实安全圈一直在使用着它们，漏洞库、指纹库、IP信誉库，它们都是威胁情报的一部分。情报就是线索，威胁情报就是为了还原已发生的攻击和预测未发生的攻击所需要的一切线索。“所谓的威胁情报就是帮助我们发现威胁，并进行处置的相应知识。这种知识就是我们所说的威胁情报”。威胁情报有啥用？互联网安全曾经历经了流氓互殴，侠客对决、黑社会火并等等阶段，现在已经形成了攻击者有组织有预谋，防御
RiskCloud-基于Markov算法精准的FTA、 JSA、FMEA软件资讯过客视点算法
这个美美的“花蝴蝶”是什么?样式规整、图案美化、脉络清晰、让人眼前一亮!由上海歌略软件科技有限公司自主研发打造,RiskCloud世界领先的企业级整体风险管理解决方案大作!“BowTie领结图”接下来,就让我们携手一起走进RiskCloud-BowTie领结图,一起领略她的风采吧!风险管理领结图介绍20世纪90年代末,领结图作为一种独特的安全管理工具,开始在国外石油化工领域得到较为广泛的应用。基于
为什么要做源代码防泄露广陵之北数据安全源码加密解密网络安全漏洞
使你疲倦的不是远方的群山，而是你鞋里的一粒石子。让企业恐惧的不是强大的对手，而是自己的商业机密变成了对方手里的底牌——机密到底是怎样泄漏的？离职高峰潜伏的风险年底将至，企业开始渐渐进入一年中的跳槽高峰期。最近一份调查显示：85%的职员可以轻松地下载“有竞争力”的资料和信息，然后带到下一份工作中。尽管大部分工作者可以从现在的公司下载资料，但只有32%会为了增加在下一份工作中的竞争力而“出卖”资料。超
Spring Cloud Gateway 动态路由加载：使用 Nacos 实现动态路由配置 Takumilovexu 微服务 java spring cloud 开发语言
文章目录背景介绍代码实现关键步骤解析总结在微服务架构中，路由配置的动态更新是非常重要的环节。通过动态路由，我们可以在不重启服务的情况下，灵活地增加、修改或删除路由配置。今天，我将分享如何在SpringCloudGateway中使用Nacos实现动态路由配置的实现方法。背景介绍在日常开发中，经常遇到运行时动态管理路由配置的需求。传统方式通常需要重启网关服务，这显然不够优雅且效率较低。为了解决这个问题
什么是iPaaS？谷云科技RestCloud iPaaS 混合集成平台数字化转型
一、iPaaS简介iPaaS，即集成平台即服务（IntegrationPlatformasaService），是一种基于云计算的自助服务模型，它为企业提供了一种标准化的应用程序集成方式。能够促进开发、执行和治理集成流程，连接本地和云基础的流程、服务、应用和数据。iPaaS的核心价值在于使技术专业人员甚至非技术人员能够快速构建集成流程，实现企业内部数据的互联互通。二、企业集成方式的演变随着企业信息化
【车牌识别】卷积神经网络CNN车牌识别【含 GUI Matlab源码 2638期】 Matlab仿真科研站 matlab
欢迎来到Matlab仿真科研站博客之家✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：Matlab仿真科研站博客之家代码获取方式：扫描文章底部QQ二维码⛳️座右铭：行百里者，半于九十；路漫漫其修远兮，吾将上下而求索。⛄更多Matlab图像处理（仿真科研站版）仿真内容点击Matlab图像处理（仿真科研站版）⛄一、CNN车牌识别简介1车牌定位1.
【Linux】---Samba服务 Jackson~Y linux 运维服务器
Samba服务1.SMB协议：SMB(ServerMessageBlock)协议是微软和英特尔联合制定的协议，主要作为微软网络的通信协议(可以将它看作局域网中的文件和打印共享协议)。SMB协议工作于会话层表示层和一小部分的应用层，它使用了NetBIOS的应用程序接口(API)。另外，它是一个开放性的协议，允许协议扩展(这使得它变得庞大而复杂)。为了让Windows和Linux计算机之间能相互访问，
如何修改被添加到git中的文件，但是又不想将修改提交？
场景例如多人工程中，.vscode/settings.json被管理者提交到了git中，但是我本地又有自己想修改的配置，如果直接修改git就会检测到，然后不小心就commit了。解决方案使用gitupdate-index--assume-unchanged命令来忽略本地对.vscode/settings.json的修改：gitupdate-index--assume-unchanged.vscod
补齐漏洞/补天漏洞挖掘-零开始攻防自学黑客小媚子漏洞情报补天
补齐漏洞/补天漏洞挖掘-零开始攻防自学不久前，补天漏洞响应平台宣布，推出了全新的补天漏洞情报服务，将发动补天平台已注册的36000多名白帽子提供漏洞信息，经过安全专家分析研判脱敏处理后，加工成漏洞情报推送给行业客户。补天掌门人白健在接受雷锋网在内的媒体采访时表示，除了BAT级的大厂有钱有人专门建立自己的SRC外，他认为，其他厂商不应该耗费大量财力和人力来构建专门的漏洞情报搜集和分析部门。为什么补天
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s