跟着上帝去流浪

python爬虫Scrapy框架的基本结构讲解

文章目录

- 环境的安装
- 创建工程(在cmd中执行)
- scrapy的数据解析
- scrapy的持久化存储
- 基于Spider父类进行全站数据的爬取
- CrawlSpider
- scrapy五大核心组件
- scrapy的请求传参
- 提升scrpy爬取数据的效率
- scrapy的中间件
- 专门存储二进制的管道
- 分布式

pySpider(不用这个)
什么是框架？
就是一个具有很强通用性且集成了很多功能的项目模板(可以被应用在各种需求中)
scrapy集成好的功能：
- 高性能的数据解析操作:(xpath 不是etree中的那个xpath)
- 高性能的数据下载(请求和下载基于异步)
- 高性能的持久化存储(以前都用的with open 现在可以用高性能的！管道！来存储)
中间件
- 拦截请求和响应(获取头信息等原始信息)
全栈数据爬取操作(一个页码对应的所有数据进行爬取)
分布式(搭建分布式集群对同一数据源进行联合且分布步的爬取每一个分布(机器)还可以基于scrapy进行异步的爬取)
- 只能用redis(数据库)
请求传参的机制(适用在深度爬取中从首页跳到详情页在到详情页中的详情页在到…)
在scrapy中可以合理的应用selenium(可以爬取动态加载的数据如果你没法解决的话)

环境的安装

1.pip3 install wheel
2.下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
3.pip3 install pywin32
4.pip3 install scrapy

创建工程(在cmd中执行)

scrapy startproject firstBlood(创建一个名称为firstBlood的工程)
cd ProNmae(工程文件夹 firstBllod)
scrapy genspider spiderName(爬虫文件名称) [www.xxx.com(随意的url](http://www.xxx.com(随意的url) 可以后面更改):创建爬虫文件
执行:scrapy crawl spiderName(爬虫文件名称)
settings:
- 不遵从robots协议
- 进行UA伪装
- LOG_LEVEL = ‘ERROR’# 控制台输出报错信息
- LOG_FLE = ‘aa.txt’# 存到文件中

scrapy的数据解析

extract():列表是有多个列表元素
extract_first():列表是只有单个

scrapy的持久化存储

基于终端指令:
- 只可以将parse方法的返回值存储到磁盘文件中(不能存到数据库中)
```
    # spiderName 是你的执行文件名
```
- scrapy crawl spiderName -o 文件名.csv(文件后缀有要求只能是.excel .json .csv 不能是txt)
基于管道的持久化存储: pipelines.py
编码流程:
- 1.数据解析(爬虫类)
- 2.在items.py的类中定义相关的属性
- 3.将解析的数据存储封装到item类型的对象中要访问属性的话应该是实例化对象[‘属性名’]的方式去调用因为该类的父类有
  
  特殊的双下方法(getitem(self, key),setitem(self, key, value),getattr(self, name),getattribute(self, name))
- 4.将item对象提交给管道 yield item(爬虫类)
- 5.在管道类中的process_item(每次被调用接收一个)负责接收item对象,然后对item进行任意形式的持久化存储
- 6.在配置文件中开启管道
细节补充：
管道文件中的一个管道类标识将数据存储到某一种形式的平台中。
如果管道文件(pipelines)文件中定义了多个管道类，爬虫类提交的item会

给到优先级最高的管道类数值越低优先级越高。(只会提交一个管道除非有return item)
在process_item方法的实现中的return item的操作表示将item传递给下一个即将被执行的管道类
```
   我们要通过这个return来保证所有的管道类都能接受到item
```

基于Spider父类进行全站数据的爬取

全站数据的爬取：
- 全站数据的爬取：将所有页码对应的页面数据进行爬取
- 手动请求的发送(get):
  - yield scrapy.Rqurst(url,callback)
- 对yield的总结：
  - 向管道提交item的时候：yield item（要用)
  - 手动请求发送：yield scrapy.Request(url,callbak)
- 手动发起post请求：
  - yield scrapy.FormRquest(url,formdata,callback):formdata是一个字典里面是请求参数
  - 一般post请求是结合着模拟登陆的scrapy是进行大数量的数据进行爬取一般不用post请求，post请求还是request来做的好

CrawlSpider

基于scrapy进行全站数据爬取的一种新的技术手段
CrawlSpider就是Spider的一个子类(子类有父类的方法，并且还可以派生出自己的方法)
- 链接提取器：LinkExtractor
- 规则解析器：Rule
使用流程：
- 新建一个工程
- cd 工程中
- 新建一个爬虫文件：scrapy genspider -t crawl spiderName www.xxx.com

# 爬虫类
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from sunCrawlPro.items import SuncrawlproItem,Detail_item

class SunSpider(CrawlSpider):
    name = 'sun'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1&page=1']
    # 实例化了一个链接提取器对象
    # 作用：根据指定规则(allow='正则表达式')进行指定链接的提取
    # 只会提取出链接 不会提取出字符串
    # 如果是False的话则只会提取当前页前后的两个页面链接，而不是目前页所看到的所有链接
    # 获取页码的链接
    # 如果follow=True：将链接提取器，继续作用到链接提取器提取到的，链接所对应的，页面中
    # 比如：我对首页发起提取，follow=True 我提取到了页面源码中的页码链接然后我继续对页码链接中的页码继续进行提取符合规则的链接，也就是对首页提取页码就会提取出1,2,3,4,5然后对第二页提取页码提取出2,3,4,5,6然后对第三页提取页码提取出4,5,6,7，这样 虽然会有大量重复的链接，但是这些重复的链接都被调度器过滤掉了所以根本不用担心
    link = LinkExtractor(allow=r'id=1&page=\d+')
    # 获取新闻详情页的链接 正则中如果要将符号转移成字符串的话要加\
    # 拿到新闻详情页的链接后，对链接发起请求，然后在对响应数据进行解析出自己想要的数据来
    # ！！！一定要注意？和.这些都要转移成字符串的
    link_detail = LinkExtractor(allow=r'index\?id=\d+')
    # 所有的规则解析都要放在这个rules里面，可以放多个Rule(规则解析器)
    rules = (
        # 三个参数 一个类的实例化，将link作用到了Rule构造方法的参数1中
        # 作用:用于解析页面源码数据的，里面有回调函数callback
        # Rule可以对链接发送请求有几个链接发几次请求
        # 对链接发起请求，可以执行回调
        # 只要有一个页码链接的规则解析器就可以进行对页码链接页数的详情页中的详情页中的符合规则的数据进行爬取，好像是将页码链接的url放入调读器中了，然后爬详情页数据的那个规则解析器爬完首页后，还会继续爬调度器中的url看看调度器中的其他url，对其发起请求看看它里面还有没有符合需求的数据(所以只要一个规则解析器解析出页码，在来规则解析器来解析其他数据就可以实现随着页码变多对不同页码的数据进行爬取！！！NB)
        Rule(link, callback='parse_item', follow=False),
        Rule(link_detail, callback='parse_detail', follow=False),
    )

    def parse_item(self, response):
        # 如果打印response的话就是响应的链接
        # 如果对response进行.xpath解析的话就是响应的html源码数据
        # 此时的response就是页面源码对应的数据，同时还包括了链接
        # <200 http://wz.sun0769.com/political/index/politicsNewest?id=1&page=4>
        li_list = response.xpath('/html/body/div[2]/div[3]/ul[2]/li')
        for li in li_list:
            # !!!!xpath中不能出现tbody标签会为空 将tbody去掉
            num = li.xpath('./span[1]/text()').extract_first()
            title = li.xpath('./span[3]/a/text()').extract_first()
            item = SuncrawlproItem()
            item['title'] = title
            item['num'] = num
            yield item
    def parse_detail(self,response):
        content = response.xpath('/html/body/div[3]/div[2]/div[2]/div[2]/pre/text()').extract_first()
        num = response.xpath('/html/body/div[3]/div[2]/div[2]/div[1]/span[4]/text()').extract_first().split(':')[-1]
        item = Detail_item()
        item['content'] = content
        item['num'] = num

        yield item

# 管道类
class SuncrawlproPipeline(object):
    def process_item(self, item, spider):
        # 我们要做数据汇总，可以在 第一个Rule里面请求传参来解决
        # 或者说学数据分析用共同的标示位
        # 也可以放在数据库中进行合并 group by
        # 如果没有标示位可以设置标示位，如果不能设置标示位，就可以crawlspider结合request进行请求传参
        # 获取提交过来的item的类名(item是实例化的他有实例化的类)
        if item.__class__.__name__ =='Detail_item':
            content = item['content']
            num = item['num']
            print(item)
        else:
            title = item['title']
            num = item['num']
            print(item)
        return item
# item实例化类
import scrapy

class SuncrawlproItem(scrapy.Item):
    # define the fields for your item here like:
    num = scrapy.Field()
    title = scrapy.Field()
class Detail_item(scrapy.Item):
    content = scrapy.Field()
    num = scrapy.Field()

scrapy五大核心组件

爬虫(Spiders)
- 爬虫是主要干活的(进行数据解析和决定请求那个url)，用于从特定的网页中提取自己所需要的信息，即所谓的实体(Item)。用户也可以从中提取出链接来上Scrapy继续抓取下一个页面(就是首页中的详情页中的详情页…)
引擎(Scrapy)
- 用来处理整个系统的数据流，
- 触发事务(框架核心)
  - 通过数据流来判断后，自动进行对对象进行实例化并且调用实例化对象的方法
调度器(Scheduler)
- 用来接收引擎发送过来的请求(将请求url封装好最先发过来)，先过滤掉重复的url后在，压如队列中，并在引擎再次请求的时候返回，可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列，由它来决定下一个要抓取得网址是什么，(队列是先进先出的串行并不是异步)
下载器(Downloader)
- 用于下载网页内容，并且将网页内容返回给蜘蛛(Scrapy下载器是建立在Twisted这个高效的异步模型上的)
管道(Pipeline)
- 负责抓取爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息、当页面被爬虫解析后封装成实体(Item)，之后实体将被发送到项目管道，并经过几个特定的次序处理数据(保存数据到Mysql 或者本地文件夹或者Rieds)

scrapy的请求传参

作用：实现深度爬取
使用场景：如果使用scrapy爬取的数据没有存在同一张页面中(爬取首页中的详情页中的详情页的数据之类的)
传递item：yield scrapy.Request(url,callback,meta) meta是个字典
接受item：response.meta

提升scrpy爬取数据的效率

# 最大并发量设为100
CONCURRENT_REQUESTS = 100
# 打印的日志信息登记为REROR只打印报错信息
LOG_LEVEL = 'ERROR'
# 禁用cookie(scrapy 是自动捕获cookie的)
COOKIES_ENABLED = False
# 禁用重试
RETRY_ENABLED = False
# 设置下载超时时间：(超过3秒就不在进行接收response响应了)
DOWNLOAD_TIMEOUT = 3

scrapy的中间件

爬虫中间件
下载中间件(***)：处于引擎和下载器中间

作用：批量拦截所有的请求和响应
- 为什么拦截请求？
  - 篡改请求的头信息(UA伪装等)
  - 修改请求对应的ip(代理ip)

# 中间件中拦截请求方法
# 只拦截正常请求(不能拦截所有的请求)
def process_request(self, request, spider):
    # spider：
    # request：为拦截的正常的请求，也就是经过过滤器筛选后的请求
    # 进行UA伪装
    request.headers['User-Agent'] = random.choice(user_agent_list)
    # 代理IP
    # 可以构建IP池  然后随机拿取ip
    # request.meta['proxy'] = 'http://222.185.77.12:8118'
    return None

* 为什么拦截响应
  * 篡改响应数据，篡改响应对象

# 中间件中的 拦截响应方法
# 参数：
# request：拦截到的请求对象(一个请求对象对应唯一的一个响应对象)由请求对象确定响应对象
# response：拦截到所有的响应对象(1+5+n)
# spider：爬虫类实例化的对象，可以实现爬虫类和中间件类(当前类，也有管道类)的数据交互
def process_response(self, request, response, spider):
    # 爬虫类中的name属性
    # spider.name
    # 我们要拦截到5个板块对应的响应对象，将其替换成5个符合去需求的新的响应对象(有动态加载的数据)进行返回到爬虫类中进行后续解析
    # 1.找出5个板块对应的5个不符合需求的响应对象
    # 因为每个请求对象对应唯一的响应对象，所以我们可以通过请求对象(发送的url)来获取对应的不符合需求的响应对象
    if request.url in spider.model_urls:
        # 5个请求对象对应的响应对象
        # request = request 就是新的响应对象对应的请求对象(就是5个板块对应的请求对象这个值不用变)
        # url: 响应对象对应的请求对象对应的url(就是5大板块对应的请求对象的url)
        # body: 满足需求的响应数据 就是包含ajax数据的整张页面源码数据(可以通过selenium中的page_source获取)
        bro = spider.bro
        bro.get(request.url)
        page_text = bro.page_source # 包含了动态加载的新闻数据，可见即可的
        new_response = HtmlResponse(url=request.url,body=page_text,encoding='utf-8',request=request)
        return new_response
    # 返回(1+n)的响应对象 它们满足需求
    else:return response

selenium在scrapy中的使用流程
- 在爬虫类中定义一个bro属性，就是实例化的浏览器对象
- 在爬虫类中重写父类的一个closed(self,spider)!!!重写父类的方法必须加spider!!!
- 在中间件中进行浏览器自动化的操作
- 可以可见即可得的获取ajax数据后返回给爬虫类进行解析

专门存储二进制的管道

# 爬虫类
import scrapy
from imgPro.items import ImgproItem
class ImgSpider(scrapy.Spider):
    name = 'img'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['http://sc.chinaz.com/tupian/siwameinvtupian.html']
    def parse(self, response):
        div_list = response.xpath('//*[@id="container"]/div')
        for div in div_list:
            img_scr = div.xpath('./div/a/img/@src2').extract_first()
            item = ImgproItem()
            item['img_src'] = img_scr
            yield item

# 管道类
import scrapy
from scrapy.pipelines.images import ImagesPipeline
class ImgproPipeline(ImagesPipeline):
    # 是用来对媒体资源进行请求(数据下载),参数item就是接受到的爬虫类提交的item对象
    def get_media_requests(self, item, info):
        yield scrapy.Request(item['img_src'])
    # 指明数据存储的路径(名称 也就是图片的名字)
    def file_path(self, request, response=None, info=None):
        return request.url.split('/')[-1]
    # 如果还有下一个管道类则 将item传递给下一个即将被执行的管道类
    def item_completed(self, results, item, info):
        return item
# setting.py 中加上
# 图片存储文件夹的名称+路径
IMAGES_STORE = './imgLibs'

分布式

概念：需要搭建一个分布式的机群，然后在机群的每一台电脑中执行同一组程序，让其对一个网站的数据进行联合分布爬取。
原生的scrapy框架是不可以实现分布式的为什么呢？
- 1.调度器不可以被共享
- 2.管道不能共享，数据不能汇总
如何实现分布式
- scrapy+scarpy_redis实现分布式
scrapy-redis组件的作用是什么？
- 提供可以被共享的调度器和管道
- 特性：数据只可以存储到redis数据库中

分布式的实现流程：
- pip install scrapy-redis
- 创建工程
- cd 到工程目录中
- 创建爬虫文件(a.创建基于Spider的爬虫文件 b.创建CrawlSpider的爬虫文件)
- 修改爬虫类
  - 导包：**from **scrapy_redis.spiders **import **RedisCrawlSpider
  - 修改当前爬虫类的父类为RedisCrawlSpider
  - 删除allowed_domains和start_urls
  - 添加一个新属性：redis_key = **‘fbsQueue’****，**表示的是可以被共享的调度器队列的名称
  - 编写爬虫类的常规操作
- settings配置文件的配置
  - UA伪装
  - Rbots协议改为False
  - 开启管道
    - ITEM_PIPELINES = {
  ’scrapy_redis.pipelines.RedisPipeline’:400

** ** }

加入settings配置文件中
# 增加了一个去重容器类的配置，作用使用Redis的set集合来存储请求的指纹数据，从而实现请求去重的持久化（也就是用的scrapy_redis封装好的过滤器,毕竟调度器都是scrapy_redis共享的了)
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
# 使用scrapy-redis组件自己的调度器
SCHEDULER = 'scrapy_redis.scheduler.Scheduler'
# 配置调度器是否要持久化，也就是说当爬虫结束了，要不要清空Redis中请求队列和去重指纹的set。如果是True，就表示要持久化存储，就不清空数据，否则清空数据。(就是可以实现增量式已经爬过的数据下次在爬的时候就不会爬了只会爬新的数据)
SCHEDULER_PERSIST = True

  * 指定redis数据库
    * REDIS_HOST = 'redis服务器的ip地址' #本机192.168.1.2 就会存到本机的redis数据库中了，其他机器的redis服务器中就没有数据相当于帮忙干活
    * REDIS_PORT = 6379
  * 对redis的配置文件进行配置
    * 关闭默认绑定：56行 # bind 127.0.0.1
    * 关闭保护模式：75行  protected-mode no
  * 启动redis数据库服务端(带配置文件启动)
    * redis-server.exe redis.windows.conf
  * 启动redis数据库客户端
    * redis-cli
  * 启动程序：
    * scrapy runspider xxx.py(爬虫文件名)
  * 向调度器队列中扔如一个起始的url：
    * 队列是存在于redis中的
    * 在开启的redis的客户端中输入：lpush 你设置的redis_key的值 起始url
  *

Python 爬虫：一文掌握 SVG 映射反爬虫数据知道 2025年爬虫和逆向教程 python 爬虫 microsoft 爬虫逆向数据采集
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.SVG概述1.1SVG的优点1.1映射反爬虫的原理2.SVG映射反爬虫的示例3.应对SVG映射反爬虫的方法3.1解析SVG图像3.2处理自定义字体3.3使用OCR技术3.4动态生成SVG的处理4.实战案例4.1使用SVG映射显示价格4.2解析SVG文件并提取其中的内容和属性4.3模拟交互行为4.4使用无头浏览器4.5某网站使用SVG实现动态验
leetcode-sql数据库面试题冲刺（高频SQL五十题）我想吃烤肉肉 sql 测试面试数据库 leetcode sql
题目：1633.各赛事的用户注册率用户表：Users±------------±--------+|ColumnName|Type|±------------±--------+|user_id|int||user_name|varchar|±------------±--------+user_id是该表的主键(具有唯一值的列)。该表中的每行包括用户ID和用户名。注册表：Register±---
Python处理CSV文件的12个高效技巧宇宙大豹发 python 开发语言
今天，我们的Python之旅，目标是那片由逗号分隔的宝藏——CSV文件。别看它简单，掌握这些技巧，你的数据处理能力将直线上升，轻松驾驭千行万列的数据海洋。让我们一起，用Python的魔力，让CSV舞动起来吧！1.初次见面，你好，CSV！安装pandas，是这场冒险的起点。它，是Python数据分析的瑞士军刀。pipinstallpandas导入我们的英雄——pandas，并亲切地叫它pd。impo
Python初学者第一天小熊h python初学者 python编译 python语言 python python基础 python初学者
目录一、问答题（1）什么是硬件？什么是软件？（2）比特是什么？字节是什么？（3）内存和存储设备最主要的区别是什么？（4）解释语言和编译语言之间的区别是什么？（5）操作系统的主要任务是什么？（6）可以使用两种模式运行Python。解释这两种模式。（7）找出下面代码中的错误（8）列举代码当中四种异常错误，说明错误原因（9）下面哪些标识符是有效的？哪些是Python关键字？（10）如何使用Python编
Python 潮流周刊#93：为什么“if not list”比len()快2倍？（摘要） python
本周刊由Python猫出品，精心筛选国内外的250+信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进Python技术，并增长职业和副业的收入。分享了12篇文章，12个开源项目以下是本期摘要：文章&教程①为什么Python中'ifnotlist'比len()快2倍？②掌握Python单体代码库③Python3.14尾调用解释器的性能④Py
Java：AI 浪潮中的隐形支柱 —— 探秘 Java 在人工智能领域的独特地位琢磨先生David 人工智能
引言在人工智能技术席卷全球的今天，当人们谈论AI开发时，Python、R语言、C++等工具总是最先被提及。然而在这个充满创新的领域，有一个"老兵"正悄然发挥着不可替代的作用——自1995年诞生至今的Java语言，凭借其独特的工程化基因，正在构建起AI世界的底层基础设施。本文将揭示Java如何在大数据、机器学习、企业级AI系统等领域持续创造价值。一、Java的AI基因解码跨平台优势的现代意义"一次编
python笔记1 lu_32 python
1.计算面积与周长：r=8s=r*rprint("面积是")print(s)z=r+r+r+rprint("周长是")print(z)#面积是#64#周长是#322.输入圆的半径，计算出圆的面积和周长：r=input("请输入半径：")r=float(r)s=3.14*r*rprint("圆的面积：",s)r=input("请输入圆的半径")r=int(r)s=3.14*r*rprint("圆的半
String类型为什么不可变 27xixi java高频 java
在大多数编程语言（如Java、Python、C#等）中，String类型被设计为不可变（Immutable），这意味着一旦一个字符串对象被创建，它的值就不能被修改。以下是这一设计的原因及具体表现：一、不可变性的表现直接修改字符串会创建新对象Stringstr="Hello";str=str+"World";//实际是创建了一个新字符串对象，而非修改原对象原字符串“Hello”未被修改，而是生成了新
Flet 项目常见问题解决方案龙香令Beatrice
Flet项目常见问题解决方案fletFletenablesdeveloperstoeasilybuildrealtimeweb,mobileanddesktopappsinPython.Nofrontendexperiencerequired.项目地址:https://gitcode.com/gh_mirrors/fl/flet1.项目基础介绍和主要编程语言Flet是一个开源框架，允许开发者在Py
Flet 框架教程樊贝路Strawberry
Flet框架教程fletFletenablesdeveloperstoeasilybuildrealtimeweb,mobileanddesktopappsinPython.Nofrontendexperiencerequired.项目地址:https://gitcode.com/gh_mirrors/fl/flet1.项目介绍Flet是一个框架，它允许开发者使用Python轻松构建实时的Web、
Python字符串 DDD小小小宇宙 python 开发语言
字符串1.程序中需要加上双引号或者双引号来表示字符串2.字符串可以存放任意数量的字符，无法修改的数据容器字符串运算：加法：多个字符串按照次序合并为一个字符串在实际使用的时候，数字和字符串的加法通常需要将数字的类型转换成str乘法：1个字符串乘以n，可以得到n个复制的字符串例子：输入一个字符，使用该字符打印一个3层的金字塔x=input(':')print(""+x)print(""+x+x+x)p
Python入门指南：从简介到安装小团团0 开发语言 python
Python简介Python是一种高级编程语言，由荷兰程序员GuidovanRossum于1989年圣诞节期间开始设计，并于1991年发布了第一个公开发行版。Python的命名源于英国喜剧团体MontyPython，Guido以此表达对该喜剧团体的喜爱。Python的特点主要体现在以下几个方面：解释型语言：Python是一种解释型语言，这意味着在开发过程中无需编译，可以直接运行源代码。交互式语言：
系统架构设计师——架构风格庄隐 #系统架构设计师系统架构架构系统架构设计师
概述软件体系结构风格是指在软件架构设计中，针对特定应用领域所采用的一套惯用模式，这些模式定义了系统的组织方式。以下是对软件体系结构风格的详细解析：1.体系结构风格的概念目的：简化设计过程，提高设计的重用性和可维护性。特点：每种风格都有其特定的适用范围和优势，适用于不同的应用场景和需求。2.词汇表构件：系统中的基本功能单元，如客户端、服务器、数据库等。连接件：用于构件间交互的桥梁，如管道、总线、过滤
LLMs之Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插一个处女座的程序猿 NLP/LLMs 精选(人工智能)-中级 Colossal-AI LLaMA-2 大语言模型自然语言处理
LLMs之Colossal-LLaMA-2：源码解读(train.py文件)基于给定数据集实现持续预训练LLaMA-2—解析命令行参数→初始化配置(分布式训练环境colossalai+训练日志+加速插件)→数据预处理(初始化分词器+数据处理器+数据加载器)→模型训练(初始化模型/优化器/学习率调度器/梯度检查点/Flash-Attention/设置数据类型/是否加载预训练模型/从上一次训练点继续训
跟着黑马学MySQL基础篇笔记(4)-多表查询小杜不吃糖 mysql 笔记
37.多表查询-多表关系介绍多表关系概述项目开发中，在进行数据库表结构设计时，会根据业务需求及业务模块之间的关系，分析并设计表结构，由于业务之间相互关联，所以各个表结构之间也存在着各种联系，基本上分为三种：一对多（多对一）多对多一对一一对多（多对一）案例：部门与员工的关系关系：一个部门对应多个员工，一个员工对应一个部门实现：在多的一方建立外键，指向一的一方的主键多对多案例：学生与课程的关系一个学生
如何在飞牛云NAS快速使用Docker打造稳定安全的本地网站并对外可见 gkfkfhk docker 安全 eureka
文章目录前言1.Docker下载源设置2.Docker下载WordPress3.Docker部署Mysql数据库4.WordPress参数设置5.飞牛云安装Cpolar工具6.固定Cpolar公网地址7.修改WordPress配置文件8.公网域名访问WordPress前言本文主要介绍如何在飞牛云NAS上利用Docker快速搭建并优化WordPress站点的技巧，并且了解了如何借助cpolar实现内
Python扑克牌小游戏 Small踢倒coffee_氕氘氚笔记经验分享
1.游戏规则概述玩家人数：3人牌数：一副扑克牌，共54张（包括大小王）发牌：每人17张牌，剩余3张作为底牌出牌规则：玩家依次出牌，必须出比上家更大的牌型，或者选择不出胜利条件：先出完手中牌的玩家获胜2.游戏框架设计2.1牌型定义classCard:def__init__(self,suit,rank):self.suit=suit#花色：♠,♥,♣,♦self.rank=rank#牌面：3,4,5
探索Pydoll：基于Python的无驱动浏览器自动化新星几道之旅人工智能智能体及数字员工 python 自动化人工智能
在当今Web自动化与数据抓取领域，基于Chromium的工具层出不穷，但大多数方案依赖WebDriver或额外的浏览器插件。Pydoll作为一款新兴的Python库，以无驱动架构和原生异步支持迅速成为开发者关注的焦点。本文将从技术原理、核心功能、应用场景及实战案例多角度解析这一工具。一、Pydoll项目概览Pydoll由开发者thalissonvs等团队维护，旨在通过Python实现对Chromi
python opencv轮廓检测_python opencv中的不规则形状检测和测量 weixin_39584529 python opencv轮廓检测
正如我在评论中提到的那样,对于这个问题,分水岭似乎是一个很好的方法.但是当你回答时,定义标记的前景和背景是困难的部分！我的想法是使用形态梯度沿着冰晶获得良好的边缘并从那里开始工作;形态梯度似乎很有效.importnumpyasnpimportcv2img=cv2.imread('image.png')blur=cv2.GaussianBlur(img,(7,7),2)h,w=img.shape[:
【DuodooTEKr】基于Python+OCR+DeepSeek的英国购物小票识别系统开发实战邹工拆解甲方需求风吟九宵 Odoo18开源 Duodoo开源人工智能物联网制造开源 python
作者：Odoo技术开发/资深信息化负责人日期：2025年3月11日本方案从甲方信息化负责人视角，分析梳理现状，并给出代码开发案例。一、行业现状与痛点分析1.英国零售业数字化现状根据英国零售协会（BRC）2023年度报告显示：英国年均纸质小票签发量达78亿张87%的企业仍采用人工录入方式处理小票数据零售业每年因小票管理产生的直接成本超12亿英镑2.传统小票管理痛点数据孤岛问题：门店POS系统、财务系
用Python打造AI玩家：挑战2048，谁与争锋穿梭的编织者人工智能 python
文章目录一、创作背景二、效果图三、准备工作1.安装Chrome和ChromeDriver2.安装Python库四、代码说明‌1.init_driver函数‌2.play_2048函数‌五、完整代码六、改进版本七、主要模块八、核心算法分析1.棋盘状态获取2.位置权重系统3.连续性评估4.单调性评估5.移动模拟系统九、评估系统1.评估标准2.决策机制十、性能优化1.延迟控制2.错误处理十一、完整代码编
Python爬虫相关内容猫猫头有亿点炸 python 爬虫开发语言
一、打开源代码的方式鉴于时间过很久后我们可能会忘记的源代码位置所以写下以下文章便于实时查看:一般有两种方法打开源代码:第一是f12第二右键查看网页源代码二、特殊情况第三种情况当你用爬虫爬取内容的时候可能用xpath还是匹配不到任何结果因为页面可能会自动刷新所以使用xpath的时候匹配不到任何内容查找源代码的示例图片三、解决办法这个时候你可以先->f12(笔记本电脑fn+f12)再->ctrl+sh
OnionArch：构建高效.NET Core应用的洋葱架构模板樊慈宜Diane
OnionArch：构建高效.NETCore应用的洋葱架构模板项目地址:https://gitcode.com/gh_mirrors/on/OnionArch项目介绍OnionArch是一个基于.NETCore的演示应用程序，采用了经典的洋葱架构（OnionArchitecture）。洋葱架构是一种分层架构模式，通过将核心业务逻辑与外部依赖（如数据库、UI等）分离，使得应用程序更加模块化、可维护和
Git的详细使用方法 QMT量化交易 Python git
Git是一个分布式版本控制系统，用于跟踪和管理代码的变更。以下是Git的详细使用方法：1.安装GitWindows：从Git官网下载安装包。Linux（Ubuntu/Debian）sudoaptinstallgitmacOS：使用Homebrew。brewinstallgit验证安装git--version2.配置用户信息首次使用首次使用时，Git前需配置全局用户名和邮箱：gitconfig--g
CESM1.2.1移植使用说明 ༊.枕星＇听光.ঌ 人工智能 linux
文章目录概述环境配置cesm1_2_1配置部分环境软件压缩包改变CLM陆面模式结果文件的输出变量、特征值及频率小结概述记录用户如何在Linux系统上移植CESM1.2.1模型，并且使用CLM4.5模式创建并单点模拟算例I_2000_CLM45。环境配置1.更新系统软件源2.更新系统安装软件安装git、make、python等。3.安装MPI(openmpi4.1.5)//下载并解压进入文件夹wge
vs2019 Qt C++中调用python代码路奇怪 Visual Studio qt c++
目录1.添加依赖库，.lib，include2.修改python.h文件3.环境搭建好了下面是测试代码部分4.如果按照面上走可能会出现的问题：5.Qt+vs+python6.说一下这里调py的主要步骤借鉴几位大佬（吐槽一下各种坑啊）混合编程之——C++调用python2.7&python3.5-CSDN博客c++调用python(复杂版)_c++调用python复杂库-CSDN博客环境配置：1.添
python 基于混合式推荐算法的学术论文投稿系统 mosquito_lover1 python 知识图谱
基于混合式推荐算法的学术论文投稿系统是一个结合多种推荐技术（如基于内容的推荐、协同过滤、知识图谱等）来为研究者推荐合适期刊或会议投稿的系统。以下是实现该系统的关键步骤和Python代码示例。系统设计思路1.数据收集与预处理：-收集论文数据（标题、摘要、关键词、作者信息等）。-收集期刊/会议数据（领域、主题、影响因子、投稿要求等）。-对文本数据进行预处理（分词、去停用词、向量化等）。2.推荐算法设计
llm数据存储基础设施 galileo2016 人工智能
链接:https://i68.ltd/notes/posts/20250310-llm-db/infinity专为LLM应用程序构建的AI原生数据库，可提供对密集向量、稀疏向量、张量（多向量）和全文的快速混合搜索项目仓库:https://github.com/infiniflow/infinity关键特性令人难以置信的快在百万级矢量数据集上实现0.1毫秒查询延迟和15K+QPS在33M文档的全文搜
python hack库_这里有123个黑客必备的Python工具！ weixin_39637571 python hack库
123个Python渗透测试工具，当然不仅于渗透~如果你想参与漏洞研究、逆向工程和渗透，我建议你时候用Python语言。Python已经有很多完善可用的库，我将在这里把他们列出来。这个清单里的工具大部分都是Python写成的，一部分是现有C库的Python绑定，这些库在Python中都可以简单使用。一些强力工具(pentestframeworks、bluetoothsmashers、webappl
Windows下工作组架构和域架构 weixin_33728708 数据库系统架构
工作组架构的网络工作组架构网络也被称为对等网络（peertopeer）域架构网络工作组架构网络域架构网络网络内每台计算机地位平等，资源和管理分散在各个计算机上网络内分为域控制器和成员服务器，如果有多台域控制器，则域控制器之间地位平等每台计算机都有一个本地安全账户管理器（SecurityAccountsManager,SAM）数据库，存储本地账户域内计算机共享一个集中的目录数据库（Directory
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

python爬虫Scrapy框架的基本结构讲解

文章目录

环境的安装

创建工程(在cmd中执行)

scrapy的数据解析

scrapy的持久化存储

基于Spider父类进行全站数据的爬取

CrawlSpider

scrapy五大核心组件

scrapy的请求传参

提升scrpy爬取数据的效率

scrapy的中间件

专门存储二进制的管道

分布式

你可能感兴趣的:(#,Python-爬虫,分布式,数据库,python,爬虫,pycharm)