Aaron_liu1

scrapy框架的介绍与基本应用

1. scrapy的概念及工作流程

1.1 概念及安装
scrapy是基于异步模块twisted的爬虫框架，集成了爬虫项目中通用性较高的部分功能，具备高性能的数据解析，请求发送，持久化存储，全站数据爬取，中间件，分布式等
环境的安装：

  - mac、linum：pip install scrapy
  - windows:
      - a. pip3 install wheel
      - b. 下载twisted文件，下载地址：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
      - c. 进入下载目录，执行 pip install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl
   - Twisted:就是一个异步的架构。被作用在了scrapy中。
   - 安装报错：需要更换另一个版本的twisted文件进行安装即可。
       - d. pip install pywin32
       - e. pip install scrapy
   - 测试：cmd中scrapy按下回车，如果没有报错说明安装成功。

1.2 scrapy的组件及工作流程

引擎(Scrapy)：
驱动整个系统的运行,处理其他组件的数据流，触发事务(框架核心)；
调度器(Scheduler)：
接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址；
下载器(Downloader)：
接收调度器经引擎发送的下载请求，完成从网络获取数据的任务(Scrapy下载器是建立在twisted这个高效的异步模型上的)；
爬虫(Spiders)：
处理主要的业务，决定爬取的内容，发送地址url给到引擎，接收下载器获取的数据，主要定制部分；
项目管道(Pipeline)：
负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据，也是主要定制的组件；
中间件(Middlewares)：
下载器中间件可扩展发送请求过程的规则，如添加ip代理，ua池等，
爬虫中间件可修改响应，基本无用处。

1.3 使用流程

创建项目：
scrapy startproject testproject
创建爬虫：
cd testproject
scrapy gen testspider "www.test.com"
spider代码写入获取数据：
pipline代码写入保存数据：
数据建模Item写入获取的信息： 
运行代码：
scrapy crawl testspider

1.4 定制组件案例

下载器中间件：
设置ua池及ip代理池

import random
import requests
import base64
import json
# UA池
class UserAgentDownloadMiddleware(object):
    USER_AGENT = [
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36",
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36",
        "Mozilla/5.0 (X11; Linux i686; rv:64.0) Gecko/20100101 Firefox/64.0",
        "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:64.0) Gecko/20100101 Firefox/64.0",
        "Mozilla/5.0 (X11; Linux i586; rv:63.0) Gecko/20100101 Firefox/63.0",
        "Mozilla/5.0 (Windows NT 6.2; WOW64; rv:63.0) Gecko/20100101 Firefox/63.0"
    ]
    def process_request(self,request,spider):
        user_agent=random.choice(self.USER_AGENT)
        request.headers['User-Agent']=user_agent

# IP proxy池
class IpPoxyDownloadMiddleware(object):
    # 开放代理
    PROXIES = [
    "178.44.170.152:8080", "110.44.113.182:8080",
    "209.126.124.73:8888", "84.42.79.243:8080",
    "117.97.31.180:8080", "103.76.199.166:8080"]
    def process_request(self, request, spider):
    	proxy=random.choice(self.PROXIES)
        request.meta['proxy']=proxy

    # 独享代理
     PROXIES_URL=""
    def process_request(self, request, spider):
        proxy = '121.199.6.124:16816'
        user_password = ""
        request.meta['proxy'] = proxy
        # bytes
        b64_user_password = base64.b64encode(user_password.encode('utf-8'))
        # 设置认证
        request.headers['Prox-Authorzation'] = 'Basic' + b64_user_password.decode('utf-8')

    def process_request(self,request,spider):
        pass
    def process_response(self,request,response,spider):
        pass
    def get_proxy(self):
        response=requests.get(self.PROXIES_URL)
        text=response.text
        result=json.loads(text)
        data=result['data'][0]

使用selenium修改下载中间件处理ajax数据，也可通过selenium登录获取cookie：

from selenium import webdriver
import time
from scrapy.http.response.html import HtmlResponse
class SeleniumDownloadMiddleware(object):
	def __init__(self):
	    # 实例化driver对象
		self.driver=webdriver.Chrome(executable_path=r"")

	def process_request(self,request,spider):
		# 对起始url发起请求
		self.driver.get(request.url)
		time.sleep(1)
		try:
			while True:
				showmore=self.driver.find_element_by_class_name('show-more')
				showmore.click()
				time.sleep(0.3)
				if not showmore:
					break
		except:
			pass
		# 获取源代码
		source=self.driver.page_source
		# 返回selenium请求后的响应
		response=HtmlResponse(url=self.driver.current_url,body=source,request=request,encoding='utf-8')
		return response

Item pipline：
存储方式：

import pymysql
# mysql同步存储
class JianshuSpiderPipeline(object):
    def __init__(self):
        dbparams={
     
            'host':'172.0.0.1',
            'port':3306,
            'user':'root',
            'password':'123456',
            'charset':'utf8'
        }
        # 创建一个连接对象
        self.conn=pymysql.connect(**dbparams)
        # 获取游标
        self.cursor=self.conn.cursor()
        self._sql=None

    def process_item(self, item, spider):
    	# 执行sql语句
        self.cursor.execute(self.sql,(item['title'],item['content'],
item['author'],item['avatar'],item['pub_time'],item['origin_url'],item['article']))
		# 确认
        self.conn.commit()
        return item
    # 魔法方法，构建sql语句
    @property
    def sql(self):
        if not self._sql:
            self._sql="""
            insert into article(id,title,content,author,avatar,pub_time,
            origin_url,article_id) values(null,%s,%s,%s,%s,%s,%s,%s)
            """
            return self._sql
        return self._sql

from pymysql import cursors
from twisted.enterprise import adbapi
# mysql异步存储
class JianshuTwsitedSpiderPipeline(object):
    def __init__(self):
        dbparams={
     
            'host':'172.0.0.1',
            'port':3306,
            'user':'root',
            'password':'123456',
            'charset':'utf8',
            'cursorclass':cursors.DictCursor
        }
        # 创建连接池
        self.dbpool=adbapi.ConnectionPool('pymysql',**dbparams)
        self._sql=None

    @property
    def sql(self):
        if not self._sql:
            self._sql="""
            insert into article(id,title,content,author,avatar,pub_time,
            origin_url,article_id) values(null,%s,%s,%s,%s,%s,%s,%s)
            """
            return self._sql
        return self._sql

    def process_item(self,item,spider):
        # 启动连接池，异步插入sql语句
        defer=self.dbpool.runInteraction(self.insert_item,item)
        defer.addErrback(self.handler_error,item,spider)

    def insert_item(self,cursor,item):
        cursor.execute(self.spl,(item['title'],item['content'],
item['author'],item['avatar'],item['pub_time'],item['origin_url'],item['article']))

    def handler_error(self,error,item,spider):
        print("="*10+'error'+"="*10)
        print(error)
        print("=" * 10 + 'error' + "=" * 10)

# 以json格式存储数据
from scrapy.exporters import JsonLinesItemExporter
class BossSpiderPipeline(object):
    def __init__(self,):
        self.fp=open('boss.json','wb')
        # 实例化一个写入对象 
        self.exporter=JsonLinesItemExporter(self.fp,ensure_ascii=False,encoding='utf-8')

    def process_item(self, item, spider):
    	# 写入字典格式的数据
        self.exporter.export_item(item)
        return item

    def close_spider(self,spider):
        self.fp.close()

大文件存储：
from urllib import request
import os
from scrapy.pipelines.images import ImagesPipeline
from bmw_img import settings

class BmwImgPipeline(object):
    def __init__(self):
        # 构建图片保存的路径
        self.path=os.path.join(os.path.dirname(os.path.dirname(__file__)),'images')
        if not os.path.exists(self.path):
            os.mkdir(self.path)
    def process_item(self, item, spider):
        category=item['category']
        urls=item['urls']
        # 构建分类保存路径
        category_path=os.path.join(self.path,category)
        if not os.path.exists(category_path):
            os.mkdir(category_path)
        for url in urls:
            image_name=url.split('_')[-1]
            # 下载保存在本地
            request.urlretrieve(url,os.path.join(category_path,image_name))
        return item

# 重写下载规则，实现分类保存图片
from . import settings
from scrapy.pipelines.images import ImagesPipeline
import os
import re

# 继承图片下载的pipline
class ZcoolPicturePipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        """获取item并绑定在request上传递给file_path方法"""
        # 获取所有请求
        media_requests=super(ZcoolPicturePipeline, self).get_media_requests(item,info)
        for media_request in media_requests:
            # 将item绑定给request
            media_request.item=item
        return media_requests

    def file_path(self, request, response=None, info=None):
        """重构保存路径，实现分类存储"""
        # 原始pipline的存储路径
        origin_path=super(ZcoolPicturePipeline,self).file_path(request,response,info)
        title=request.item.get('title')
        # 去掉文件夹中不允许存在的字符
        title=re.sub(r'[\\/:\*\?"<>\|]',"",title)
        save_path=os.path.join(settings.IMAGES_STORE,title)
        if not os.path.exists(save_path):
            os.mkdir(save_path)
        # 去除原始存储路径得到文件名称
        image_name=origin_path.replace("full/",'')
        save_path=os.path.join(save_path,image_name)

2.crawl spider及分布式组件spider redis的使用流程

2.1 crawl的使用案例

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from ..items import ZcoolPictureItem

class ZcoolSpider(CrawlSpider):
    name = 'zcool'
    allowed_domains = ['www.zcool.com.cn']
    start_urls = ['https://www.zcool.com.cn/discover/0!0!0!0!0!!!!-1!0!1']
    # 自动匹配出需要请求的url
    rules = (
        Rule(LinkExtractor(allow=r'.+0!0!0!0!0!!!!-1!0!\d+/'), follow=True),
        Rule(LinkExtractor(allow=r'.+/work/.+html'),callback='parse_detail',follow=False)
    )
    # 提取数据
    def parse_detail(self,response):
        title=response.xpath("//div[@class='details-contitle-box']/h2//text()").getall()
        title=''.join(title).strip()
        img_url=response.xpath("//div[@class='photo-information-content']/img/@src").getall()
        item=ZcoolPictureItem(title=title,img_url=img_url)
        yield item

2.2 分布式爬虫介绍
需要搭建一个分布式的机群，让后让机群中的每一台电脑执行同一组程序，让其对同一组资源进行联合且分布的数据爬取。
实现方式：scrapy+redis（scrapy结合着scrapy-redis组件）
原生的scrapy框架因为无法共享调度器与管道所以不能实现分布式；
如何实现分布式：使用scrapy-redis组件即可，给原生的scrapy框架提供共享的管道和调度器；
实现流程：
导包：from scrapy_redis.spiders import RedisCrawlSpider
修改当前爬虫类的父类为：RedisCrawlSpider
将start_url替换成redis_keys的属性，属性值为任意字符串
redis_key = ‘xxx’：表示的是可以被共享的调度器队列的名称，最终是需要将起始的url手动放置到redis_key表示的队列中
对settings.py进行配置：

指定调度器：
# 增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy-redis组件自己的调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据
SCHEDULER_PERSIST = True
指定管道：
ITEM_PIPELINES = {
     
            'scrapy_redis.pipelines.RedisPipeline': 400
        }
特点：该种管道只可以将item写入redis
指定redis：
        REDIS_HOST = 'redis服务的ip地址'
        REDIS_PORT = 6379

配置redis的配置文件（redis.window.conf）：

解除默认绑定
56行：#bind 127.0.0.1
关闭保护模式
75行：protected-mode no
启动redis服务和客户端
执行scrapy工程（不要在配置文件中加入LOG_LEVEL）
程序会停留在listening位置：等待起始的url加入
向redis_key表示的队列中添加起始url
需要在redis的客户端执行如下指令：（调度器队列是存在于redis中）
lpush sunQueue http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1

2.3 分布式实现案例

爬虫部分：
# -*- coding: utf-8 -*-
import scrapy
from ..items import LianjiaItem
import copy
# crawlspider继承RedisCrawlSpider
from scrapy_redis.spiders import RedisSpider

class LjSpiderSpider(RedisSpider):
    name = 'lj_spider'
    allowed_domains = ['www.lianjia.com']
    # 分布式需要修改为redis_key作为起始钥匙
    redis_key= 'lj'

    def parse(self, response):
        """获取到每个城市的url"""
        item = LianjiaItem()
        pro_list = response.xpath("//div[@class='city_province']")
        for pro in pro_list:
            item['provience']= pro.xpath("./div/text()").get()
            cities=pro.xpath("./ul//li//a")
            for city in cities:
                city_name=city.xpath("./text()").get()
                city_url=city.xpath("./@href").get()
                # print(item['provience'],item['city_name'],city_url)
                item['city_name']=city_name
                # print(city_dict)
                # 发起get请求，meta参数需深拷贝防止数据被冲掉
                yield scrapy.Request(url=city_url+"zufang",callback=self.get_area_url,meta={
     'item':copy.deepcopy(item)},dont_filter=True)

    def get_area_url(self,response):
        """获取每个城市每个区的url"""
        item=response.meta.get('item')
        # print(item)
        area_list=response.xpath("//div[@class='filter']//ul[2]/li")[1:]
        for area in area_list:
            item['area_name']=area.xpath("./a/text()").get()
            # area_name = area.xpath("./a/text()").get()
            area_url=area.xpath("./a/@href").get()
            url=response.urljoin(area_url)
        	yield item
设置部分：
# 修改调度器，确保request能够共享
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 使所有爬虫共享相同的去重指纹
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 设置redis为item pipeline，redis数据库作为数据存储的库
ITEM_PIPELINES = {
     
      'scrapy_redis.pipelines.RedisPipeline': 300
}
# 保证所有进入对列的数据不被清理，可实现断点续爬
SCHEDULER_PERSIST = True
# 设置连接redis信息
REDIS_HOST = ''
REDIS_PORT = 6379

3.scrapy_splash js模拟执行组件及爬虫管理工具scrapyd的使用

3.1 splash的应用
作用：scrapy-splash能够模拟浏览器加载js，并返回js运⾏后的数据
安装流程：
使用docker进行安装：splash-dockerfile=>拉取镜像:sudo docker pull scrapinghub/splash=>验证：前台： sudo docker run -p 8050:8050 scrapinghub/splash 后台： sudo docker run -d -p 8050:8050 scrapinghub/splash=>访问查看http://127.0.0.1:8050
配置：

# 渲染服务的url 
SPLASH_URL = 'http://127.0.0.1:8050' 
# 下载器中间件 
DOWNLOADER_MIDDLEWARES = {
      
'scrapy_splash.SplashCookiesMiddleware': 723, 
'scrapy_splash.SplashMiddleware': 725, 
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMi ddleware': 810, }
# 去重过滤器 
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter' 
# 使⽤Splash的Http缓存 
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage' 
# Obey robots.txt rules 
ROBOTSTXT_OBEY = False
使用案例：
import scrapy 
from scrapy_splash import SplashRequest 
# 使⽤scrapy_splash包提供的r equest对象 
class WithSplashSpider(scrapy.Spider): 
	name = 'with_splash' 
	allowed_domains = ['baidu.com'] 
	start_urls = ['https://www.baidu.com/s?wd=13161933309'] 
	def start_requests(self): 
		yield SplashRequest(self.start_urls[0], callback=self.parse_splash, args={
     'wait': 10}, endpoint='render.html') # 使⽤splash服务 的固定参数 
		def parse_splash(self, response): 
			with open('with_splash.html', 'w') as f: 
				f.write(response.body.decode())

3.2 scrapyd部署scrapy项⽬
介绍：scrapyd是⼀个⽤于部署和运⾏scrapy爬⾍的程序，它允许你通过JSON API 来部署爬⾍项⽬和控制爬⾍运⾏，scrapyd是⼀个守护进程，监听爬⾍的运⾏和请求，然后启动进程来执⾏它们。

安装：
scrapyd服务端: pip install scrapyd scrapyd
客户端: pip install scrapyd-client
启动：sudo scrapyd
访问：127.0.0.1：6800

部署：
在项目目录下找出scrapy.cfg文件
下载终端命令：curl命令

部署爬虫，爬虫根目录下执行：scrapyd-deploy 部署名 -p 项⽬名称
启动项⽬： 
curl http://localhost:6800/schedule.json -d project=project_name -d spider=spider_name
关闭爬⾍： 
curl http://localhost:6800/cancel.json -d project=project_name -d job=jobid
列出项⽬：
curl http://localhost:6800/listprojects.json 
列出爬⾍：
curl http://localhost:6800/listspiders.json?project=myspider
列出job：
curl http://localhost:6800/listjobs.json?project=myspider 
终⽌爬⾍（该功能会有延时或不能终⽌爬⾍的情况，此时 可⽤kill -9杀进程的⽅式中⽌）:
curl http://localhost:6800/cancel.json -d project=myspider -d job=tencent

使用requests模块控制：

import requests 
# 启动爬⾍ 
url = 'http://localhost:6800/schedule.json' 
data = {
      
	'project': 项⽬名, 
	'spider': 爬⾍名, }
resp = requests.post(url, data=data) 

# 停⽌爬⾍ 
url = 'http://localhost:6800/cancel.json' 
data = {
      
	'project': 项⽬名, 
	'job': 启动爬⾍时返回的jobid, }
resp = requests.post(url, data=data)

3.3 Gerapy部署scrapy项目

安装Gerapy
pip install gerapy
初始化gerapy
gerapy init
初始化数据库
gerapy migrate
默认使用的是SQlite数据库
运行gerapy服务
gerapy runserver
访问Gerapy管理界面
http://127.0.0.1:8000

部署项目：
可直接将scrapy中的项目添加进去或者手动将爬虫文件移动到初始化包下的project文件夹

在Mac M1/M2芯片上完美安装DeepCTR库：避坑指南与实战验证 ku_code_ku 机器学习 macos 推荐算法推荐系统
让推荐算法在AppleSilicon上全速运行概述作为推荐系统领域的最经常用的明星库，DeepCTR集成了CTR预估、多任务学习等前沿模型实现。但在AppleSilicon架构的Mac设备上，安装过程常因ARM架构适配、依赖库版本冲突等问题受阻。本文通过20+次环境搭建实测，总结出最稳定的安装方案。关键版本说明（2024年验证）组件推荐版本注意事项Python3.10.x向下兼容至3.7，但3.1
探索NebulaGraph：一个开源分布式图数据库的技术解析一休哥助手数据库分布式系统开源分布式数据库
1.介绍NebulaGraph的定位和用途NebulaGraph是一款开源的分布式图数据库，专注于存储和处理大规模图数据。它的主要定位是为了解决图数据存储和分析的问题，能够处理节点和边数量巨大、结构复杂的图结构数据。NebulaGraph被设计用来应对各种领域的图数据挑战，包括社交网络分析、推荐系统、网络安全监测等。无论是从数据量还是计算复杂度上，NebulaGraph都能够应对各种挑战，为用户提
数据库数值函数详解 web安全工具库数据库 oracle jvm
各类资料学习下载合集https://pan.quark.cn/s/8c91ccb5a474数值函数是数据库中用于处理数值数据的函数，可以用于执行各种数学运算、统计计算等。数值函数在数据分析及处理时非常重要，能够帮助我们进行数据的聚合、计算和转换。在本篇博客中，我们将详细介绍常用的数据库数值函数，并通过Python和SQLite进行示例，帮助您理解和应用这些函数。1.数值函数的基本概念数值函数是用于
Python中Requests的Cookies的简单使用北条苒茗殇 python 开发语言 Requests
概述Python的Requests库中有一个cookies，是用于管理HTTPCookie的工具，可以像字典一样操作Cookie，支持自动处理作用域（域名、路径）和持久化，cookies是一个RequestsCookieJar的类型。一、概念1.作用自动存储服务器返回的Cookie根据请求域名和路径进行自动发送匹配的Cookie支持手动添加、修改、删除Cookie2.RequestsCookieJ
Pytest基础使用北条苒茗殇 pytest
概述Pytest是Python里的一个强大的测试框架，灵活易用，可以进行功能，自动化测试使用，可以与Requests，Selenium等进行结合使用，同时可以生成Html的报告。一、Pytest的基本使用在未指定Pytest的配置文件时，会对以下文件进行执行：test_*.py，如：test_1.py*_test.py，如：1_test.py会对以下的类和函数进行执行：类：以Test_开头的类，如
Visual Studio Code官网下载地址及使用技巧（含常用的拓展插件推荐） ITCTCSDN vscode ide 编辑器
VisualStudioCode（简称“VSCode”）是Microsoft于2015年4月发布的可运行于MacOS、Windows和Linux之上的跨平台源代码编辑器，它具有对JavaScript，TypeScript和Node.js的内置支持，并具有丰富的其他语言（例如C++，C＃，Java，Python，PHP，Go）和运行时（例如.NET和Unity）扩展的生态系统。VisualStudi
python中rmdir和rmtree的用法 Gin387 python
shutil.rmtree()是Python中shutil模块提供的一个函数，用于递归删除整个目录树（包括子目录和所有文件）。os.rmdir()（只能删除空目录）不同，shutil.rmtree()可以强制删除非空目录importshutil#删除指定目录及其所有内容shutil.rmtree('path/to/directory')
构建 Python 插件架构：打造灵活可扩展的模块化应用全栈探索者chen python python 架构开发语言学习机器学习程序人生插件
构建Python插件架构：打造灵活可扩展的模块化应用前言在现代软件开发中，单一的代码库往往难以满足不断变化的业务需求和多样化的扩展场景。如何设计一个应用，使其既能保持核心功能的稳定，又能轻松集成第三方功能、模块或定制化扩展？答案就是——插件架构。通过插件架构，你可以让应用具备极高的灵活性，支持动态加载、无缝扩展以及解耦维护。本文将深入探讨如何在Python中设计和构建一个插件架构。从核心概念、模块
31天Python入门——第11天:挑战一口气把闭包·装饰器讲明白安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录1.闭包扩展知识:闭包的自由变量是如何存储的2.装饰器装饰器的应用场景3.补充练习1.闭包闭包是指在一个函数内部定义的函数，并且这个内部函数可以访问外部函数的变量、参数.换句话说，闭包是一个包含了函数及其相关引用环境的组合体.在Python中，当一个函数返回了内部函数的引用时，这个内部函数可以访问并操作外部函数的局部变量，它就创建了一个闭包,即使外部函数已经执行完毕，它
opencv python rgb转yuv_OpenCV之色彩空间与色彩空间转换 xiao fei opencv python rgb转yuv
python代码：importcv2ascvsrc=cv.imread("test.jpg")cv.namedWindow("rgb",cv.WINDOW_AUTOSIZE)cv.imshow("rgb",src)#RGBtoHSVhsv=cv.cvtColor(src,cv.COLOR_BGR2HSV)cv.imshow("hsv",hsv)#RGBtoYUVyuv=cv.cvtColor(sr
【AI大模型】搭建本地大模型GPT-NeoX：详细步骤及常见问题处理 qzw1210 gpt 人工智能深度学习
搭建本地大模型GPT-NeoX：详细步骤及常见问题处理GPT-NeoX是一个开源的大型语言模型框架，由EleutherAI开发，可用于训练和部署类似GPT-3的大型语言模型。本指南将详细介绍如何在本地环境中搭建GPT-NeoX，并解决过程中可能遇到的常见问题。1.系统要求1.1硬件要求1.2软件要求操作系统:Linux(推荐Ubuntu20.04或更高版本)CUDA:11.2或更高版本Python
python 列表倒序输出小琳爱分享 python python
python列表倒序输出#使用reverseli1=[1,6,4,3,7,9]li2=['a','m','s','g']li1.reverse()li2.reverse()print(li1,li2)#利用list切片li1=[1,6,4,3,7,9]li2=['a','m','s','g']print(li1[::-1])print(li2[::-1])#利用算法进行转换，这里需要用到深层cop
python怎么输出倒序 hakesashou python基础知识 python java 服务器
python怎么输出倒序？下面给大家介绍四种方法：创建测试列表>>> lst = [1,2,3,4,5,6]方法1：>>> lst.reverse() #reverse()反转>>> lst[6, 5, 4, 3, 2, 1]方法2：>>> lst1 = [i for i in reversed(lst)] #reversed只适用于与序列(列表、元组、字符串)>>> lst1[6, 5, 4,
我与DeepSeek读《大型网站技术架构》- 总结诺亚凹凸曼架构
文章目录读后感一、总结二、反思三、创新四、展望当代大型网站架构一、架构分层模型二、关键组件与技术选型三、架构演进策略四、架构突破口读后感一、总结架构演化优先于设计大型网站架构不是预先设计的产物，而是通过反复迭代和试错演化形成的。技术选型的核心动机是对业务需求的深刻理解，而非盲目模仿。典型案例包括淘宝架构因业务爆发力被迫转型为分布式系统。开放与协作的价值互联网的开放生态通过API经济（如淘宝Open
chatgpt赋能python：Python怎么倒序列表 aijinglingchat ChatGpt python chatgpt 人工智能计算机
Python怎么倒序列表列表是Python中最常用的数据结构之一，但在实际使用时，有时需要将列表进行倒序排列。Python提供了多种方法来实现这个需求，本文将简要介绍这些方法以及它们的使用场景。方法1：使用reverse()函数使用列表的reverse()方法是Python中最简单直接的方法来倒序列表。该方法会将原列表倒置。lst=[1,2,3,4,5]lst.reverse()print(lst
“统计视角看世界”专栏阅读引导赛卡统计视角看世界信息可视化数据分析
根据文章主题和逻辑关系，我为您设计以下阅读引导方案：1.六西格玛基础2.帕累托图3.直方图4.散点图基础5.散点图高阶6.多变量可视化7.密度图进阶8.回归分析配套文字说明：入门基石（必读）《1.六西格玛遇上Python》→方法论总纲，建议优先精读基础三剑客（可并行）├─《2.帕累托图》→重点数据排序与决策├─《3.直方图》→数据分布核心工具└─《4.散点图》→数据探索第一视角高阶应用链（递进学习
自定义mavlink 生成wireshark wlua插件错误（已解决） JasonComing 问题收集 wireshark wlua mavlink
进入正题python3-mpymavlink.tools.mavgen--lang=WLua--wire-protocol=2.0--output=output/developmessage_definitions/v1.0/development.xml编译WLUA的时候遇到一些问题1.ERROR:SCHEMASV:SCHEMAV_CVC_ENUMERATION_VALID3765:0:ERRO
吐血整理 python最全习题100道（含答案）持续更新题目，建议收藏！ Bejpse 面试学习路线阿里巴巴 python 开发语言 pycharm redis java-ee
最近为了提升python水平，在网上找到了python习题，然后根据自己对于python的掌握，整理出来了答案，如果小伙伴们有更好的实现方式，可以下面留言大家一起讨论哦~已知一个字符串为“hello_world_yoyo”,如何得到一个队列[“hello”,”world”,”yoyo”]test=‘hello_world_yoyo’使用split函数，分割字符串，并且将数据转换成列表类型print
2024年第五届MathorCup数学应用挑战赛--大数据竞赛思路、代码更新中..... 宇哥预测优化代码学习 1024程序员节
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️研赛及概况一、竞赛背景与目的二、组织机构与参赛对象三、竞赛时间与流程四、竞赛要求与规则五、奖项设置与奖励六、研究文档撰写建议七、参考资料与资源1找程序网站推荐2公式编辑器、流程图、论文排版324年研赛资源下载4思路、Python、Matlab代码分享......⛳
如何设计一个高可用的 Seata 集群？码农技术栈 java spring boot spring cloud 微服务架构 spring
——从零搭建永不宕机的分布式事务协调系统一、为什么需要高可用Seata集群？在分布式系统中，事务协调器TC是全局事务的“大脑”。一旦TC单点故障：灾难性后果：所有进行中的全局事务将卡死，业务完全不可用数据不一致风险：已提交的事务可能无法完成最终提交或回滚因此，构建高可用Seata集群是生产环境的必选项！二、Seata高可用架构设计核心要点1.TC集群化部署多节点部署：至少部署3个TC实例（奇数节点
SpringCloud框架下的注册中心比较：Eureka与Consul的实战解析耶耶Norsea 网络杂烩 spring cloud
摘要在探讨SpringCloud框架中的两种注册中心之前，有必要回顾单体架构与分布式架构的特点。单体架构将所有业务功能集成在一个项目中，优点是架构简单、部署成本低，但耦合度高。分布式架构则根据业务功能对系统进行拆分，每个模块作为独立服务开发，降低了服务间的耦合，便于升级和扩展，然而其复杂性增加，运维、监控和部署难度也随之提高。关键词SpringCloud,注册中心,单体架构,分布式架构,服务拆分一
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
Spring Cloud Config 快速介绍与实例 oscar999 Spring Boot实战开发大全 Spring Boot Cloud Config
SpringCloudConfig是什么？SpringCloudConfig是一个用于分布式系统的配置管理工具，提供集中化的外部配置支持。它适用于微服务架构，能够将各个服务的配置集中存储在服务端（如Git仓库），客户端按需动态获取配置，解决了配置分散、环境切换复杂等问题。SpringCloudConfig核心概念ConfigServer：配置中心服务端，统一管理配置，支持Git、本地文件等存储方式
Seata分布式事务框架及四种模式原理解析 Cloud_. 分布式 seata java Seata-AX Seata-AT
一、Seata核心概念Seata（SimpleExtensibleAutonomousTransactionArchitecture）是阿里开源的分布式事务解决方案，核心思想是通过事务协调器（TC）统一管理全局事务分支的状态，协调资源管理器（RM）和事务管理器（TM）完成事务的提交与回滚。核心组件：TC(TransactionCoordinator)：全局事务协调者，维护全局事务状态，驱动分支事务
Spring Boot 整合 RabbitMQ：注解声明队列与交换机详解 Cloud_. java-rabbitmq spring boot rabbitmq MQ 消息队列
RabbitMQ作为一款高性能的消息中间件，在分布式系统中广泛应用。SpringBoot通过spring-boot-starter-amqp提供了对RabbitMQ的无缝集成，开发者可以借助注解快速声明队列、交换机及绑定规则，极大简化了配置流程。本文将通过代码示例和原理分析，详细介绍如何用注解实现RabbitMQ的集成，并深入解析交换机的作用与类型。一、环境准备1.添加依赖在pom.xml中引入S
Python 用户账户(创建用户账户) 钢铁男儿 Python 从入门到精通 python sqlite 数据库
Web应用程序的核心是让任何用户都能够注册账户并能够使用它，不管用户身处何方。在本章中，你将创建一些表单，让用户能够添加主题和条目，以及编辑既有的条目。你还将学习Django如何防范对基于表单的网页发起的常见攻击，这让你无需花太多时间考虑确保应用程序安全的问题。然后，我们将实现一个用户身份验证系统。你将创建一个注册页面，供用户创建账户，并让有些页面只能供已登录的用户访问。接下来，我们将修改一些视图
使用欧拉法数值求解微分方程的 Python 实现神经网络15044 python 深度学习算法 python 开发语言
编写函数y=Eular(x,h)，使用欧拉法数值求解微分方程初值为函数Eular(x,h)中Cx为计算结束时微分方程x的值，h为计算步长再编写脚本，通过调用函数分别以不同步长(例如h=1.0，h=0.5，h=0.25)计算y(3)，并分析步长和误差之间的关系。以下是使用欧拉法数值求解微分方程的Python实现。假设我们要求解的微分方程是dydx=f(x,y)\frac{dy}{dx}=f(x,y)
使用AirtableLoader轻松加载数据到Python bavDHAUO python 开发语言
在现代软件开发中，数据的管理与使用非常关键。Airtable作为一种灵活的数据库应用，提供了简便且强大的数据处理方式。而通过使用AirtableLoader这种工具，可以轻松地将Airtable中的数据加载到Python项目中进行处理。技术背景介绍Airtable是一款集电子表格和数据库功能于一体的工具，它以其简单易用、强大的扩展性而受到众多开发者的喜爱。AirtableLoader是一个文档加载
【Python工具】Jupyter Notebook常用快捷键清平乐的技术博客 Python高级应用由浅入深学Python jupyter ide python
1.JupyterNotebook的启动与停止环境为Windows10系统首先win+R进入命令提示符cmd，用cd命令切换到工作目录，键入命令jupyternotebook2.JupyterNotebook常用快捷键2.1模式切换当前cell侧边为蓝色时，表示此时为命令模式，按Enter切换为编辑模式当前cell侧边为绿色时，表示此时为编辑模式，按Esc切换为命令模式2.2命令模式快捷键H：显示
云原生工程师必修课：如何揪出“假忙真闲”的应用元凶 YAMLMaster 面试题 kubernetes 运维开发 devops
Tagamanent,Spain引言这是一个再经典不过的面试题了，希望大家能学到精髓。开始介绍在分布式系统和高并发场景中，高负载（HighLoad）与低使用率（LowUtilization）的共存矛盾是运维和开发者的常见挑战。这种问题往往隐蔽性强，传统监控指标难以直接定位根因。本文从系统层、应用层、架构层多维度拆解，提供一套完整的排查与优化方法论。核心概念厘清•负载（Load）：系统当前待处理任务
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

scrapy框架的介绍与基本应用

1. scrapy的概念及工作流程

2.crawl spider及分布式组件spider redis的使用流程

3.scrapy_splash js模拟执行组件及爬虫管理工具scrapyd的使用

你可能感兴趣的:(python,分布式)