Mn猿

6.scrapy数据持久化

scrapy数据持久化

爬取到的数据想要进行保存的话，首先要对数据进行格式化话，这样数据格式统一才方便进行保存

1. 数据格式化

1.1 item.py

在我们创建的爬虫项目中item.py这个文件就是负责进行格式化数据的

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#=
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


# 这里我们可以创建多个class,每个对象中的字段就是我们要格式化的数据
# 当然一个对象也可以有多个字段,但只能是scrapy.Field()

# 特殊的字典结构 可以在scrapy中传递数据
class Spider1Item(scrapy.Item):
    # Field 字段
  	# 就是类似于产生一个类似字典格式的数据 拥有字典的一些属性
  	# 字段默认为空
  	# 我们可以通过实例化 像着键赋值 但是如果没有写这个键 就不能赋值 但是字典可以
    name = scrapy.Field()
    age = scrapy.Field()
    gender = scrapy.Field()

在爬虫文件中的应用

# -*- coding: utf-8 -*-
import scrapy
from ..items import Spider1Item # 导入类


class BaiduSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['douban.com']
    start_urls = ['https://movie.douban.com/top250?start=0&filter=']

    def parse(self, response):
        # 实例化一个item对象
        item = Spider1Item()
        # 将提取到的数据封装
        item['title'] = response.css('div.hd>a>span::text')
        # 当yield的是一个item对象,就会触发pipeline中的process_item方法
        yield item

1.2 多个Item处理

# item.py 

class SpiderItem1(scrapy.Item):
	pass

class SpiderItem2(scrapy.Item):
	pass

class SpiderItem3(scrapy.Item):
	pass


# pipelines.py
# 注意导入路径从当前项目开始
from spider1.spider1.items import Spider1Item, Spider2Item, Spider3Item,

def process_item(self, item, spider):
  # 使用isinstance然后通过if判断方式进行items类别筛选

  if isinstance(item,  Spider1Item):
    pass
  elif isinstance(item,  Spider2Item):
    pass
  elif isinstance(item,  Spider3Item):
    pass
  return item

2. 数据持久化

在项目中pipeline.py文件就是专门用来对接收到的item对象进行数据持久化的，在本文件中，一个Pipeline类就对

应一种数据持久化的方案，比如你可以将数据保存成csv文件，你可以写一个pipeline类，你要保存到mysql数据

库，你也可以写一个类，一般比较重要有价值的数据都会进行多种形式的持久化。因为这些类中的方法都是一样

的，只不过方法的功能不同，这里我们就举一个pipeline类，进行剖析。

2.1 pipeline方法解读

# 在pipeline类中，可以写这5个方法，可以少，但不可以多。有就执行，没有的话就不执行
# 通常情况下默认只有一个process_item(self, item, spider):方法

class Spider1Pipeline:
    def __init__(self):
        print('实例化一个对象')
        pass

    def process_item(self, item, spider):
        # 当爬虫文件中回调函数每yield一个item对象时会自动调用一次这个方法
        # 对item对象中的数据进行持久化操作
        d = dict(item)
        print(d)
        return item

    @classmethod
    def from_crawler(cls, crawler):
        # 先会检测是否存在这个方法，存在就调用，不存在的话就会直接实例化对象
        print('正在执行from_crawler方法')
        return cls()

    def open_spider(self, spider):
        # 爬虫开启时会自动调用的方法
        print('爬虫{}开启'.format(spider.name))

    def close_spider(self, spider):
        # 爬虫结束时会自动调用的方法
        print('爬虫{}关闭'.format(spider.name))

2.1.1 from_crawler(cls, crawler)

当爬虫开始的时候，先会检测Spider1Pipeline类中是否有 from_crawler方法，通过hasattr（反射）检测，如果

有那么就会Spider1Pipeline.Spider1Pipeline（）这个方法，这个方法会返回当前类的一个实例化对象，那么

crawler有什么用呢？他可以通过crawler.settings.get ( "名字" ) 取到配置文件中的内容, 比如中配置文件中取到连

接的数据库的配置信息, 然后封装到当前对象中, 在其他方法中应用。注意这里的settings是一个对象，

是settings.py这个文件实例化形成的对象，在爬虫启动时，存在放在当前内存中。

# settings.py 
# HOST ='127.0.0.1'
# PORT = 3306


@classmethod
def from_crawler(cls, crawler):
    # 先会检测是否存在这个方法，存在就调用，不存在的话就会直接实例化对象
    print('正在执行from_crawler方法')
    
    # cls().host = crawler.settings.get ( "HOST" )
    # cls().port = crawler.settings.get ( "PORT" )
    
    return cls()

如果在当前类中没有from_crawler(cls, crawler)方法，那么就会直接实例化对象。

2.1.2 _ _init _ _ ( self )

这个方法就没什么特别的啦,就是当实例化对象时会自动调用该方法,通常用来接收从配置文件中的获得的数据，

然后进行封装。

    def __init__(self):
        print('实例化一个对象')
        pass

2.1.3 open_spider(self,spider)

当pipeline类实例化一个对象之后就会自动调用该方法，而且这个方法是在爬虫开启之前执行的方法，如果你想针

对你的爬虫做一下开始爬取之前的自定义的话，可以写在这个方法中，比如连接数据库，或者打开文件，因为在整

个爬虫的过程中这个方法只会执行一次，但是千万不要忘记在爬虫执行完毕后关闭文件或者断开数据库的连接。

如果你在process_item这个方法中连接数据库或者打开文件的话会造成重复连接数据库或打开文件。

    def open_spider(self, spider):
        print('爬虫{}开启'.format(spider.name))
        # 打开文件
        self.f = open('douban.csv', 'w', encoding='utf-8')

2.1.4 process_item(self, item, spider)

item: 爬虫文件中 yield 的对象
spider: 当前运行的爬虫

    def process_item(self, item, spider):
        d = dict(item)
        # 将数据写入文件
        self.f.write(','.join(d.values()) + '\n')
        print('{}正在执行中....'.format(spider.name))
        return item

为这么要 return item ?

因为如果 pipelines.py 中有多个类对爬取的数据进行持久化, 那么就回涉及到 item 对象的传递, 这里的return item

就是将item 对象传递给下一个 pipeline类中的 process_item 方法, 进行数据的持久化操作。

如果不写 return item 或者 return 空，传递不会被打断，只不过下一级的 process_item 接收的 item 对象是

None ，如果你想终止传递的话需要在 process_item 抛出一个异常。

from scrapy.exceptions import DropItem

raise DropItem()

2.1.5 close_spider(self,spider)

当爬虫运行结束的时候,会自动调用该函数一般用来关闭文件或者断开与数据库的连接。

	def close_spider(self, spider):
        # 关闭文件
        self.f.close()
        print('爬虫{}关闭'.format(spider.name))

2.2 数据保存的格式

2.2.1 保存到文件

class Spider1Pipeline:
    def __init__(self):
        print('实例化一个对象')
       

    @classmethod
    def from_crawler(cls, crawler):
        print('正在执行from_crawler方法')
        obj = cls()
        return obj

    def open_spider(self, spider):
        print('爬虫{}开启'.format(spider.name))
        # 爬虫开启前创建文件
        self.f = open('douban.csv', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        d = dict(item)
        # 将数据写入文件
        self.f.write(','.join(d.values()) + '\n')
        print('{}正在执行中....'.format(spider.name))
        return item

    def close_spider(self, spider):
        print('爬虫{}关闭'.format(spider.name))
        # 关闭文件
        self.f.close()

2.2.2 保存到数据库

class Spider2Pipeline:
    def __init__(self, db, cur):
        print('实例化一个对象')
        # 封装数据库, 游标
        self.db = db
        self.cur = cur

    @classmethod
    def from_crawler(cls, crawler):
        print('正在执行from_crawler方法')
        # 从配置文件中获取 HOST, USER, PASSWORD, DATABASE
        host = crawler.settings.get('HOST')
        user = crawler.settings.get('USER')
        password = crawler.settings.get('PASSWORD')
        database = crawler.settings.get('DATABASE')
    	# 利用pymysql连接mysql数据库
        db = pymysql.connect(host=host, user=user, password=password,
                             database=database, )
        # 创建一个游标
        cur = db.cursor()
        # 把数据库和游标封装到当前对象中
        obj = cls(db, cur)
        return obj

    def open_spider(self, spider):
        print('爬虫{}开启'.format(spider.name))
        # 连接数据库

    def process_item(self, item, spider):
        d = dict(item)
 		# 将数据通过游标cur写入连接的数据库中
        self.cur.execute('insert into movies_info (title,comment_num,score) values(%s,%s,%s)', list(d.values()))
        print('{}正在执行中....'.format(spider.name))
        return item

    def close_spider(self, spider):
        # 提交数据到数据库
        self.db.commit()
        # 关闭数据库连接
        self.db.close()
        print('爬虫{}关闭'.format(spider.name))

2.2.3 ImagesPipeline

scrapy专门封装了一个下载图片的 ImagesPipeline ，使用 ImagesPipeline for图像文件的优点是，您可以配

置一些额外的功能，例如生成缩略图和根据图像大小过滤图像。

有时候可能会采集图片资源，Scrapy帮我们实现了图片管道文件，很方便保存图片：

# spider爬虫文件

class VmgirlsSpider(scrapy.Spider):
  name = 'vmgirls'
  allowed_domains = ['vmgirls.com']
  start_urls = ['https://www.vmgirls.com/12985.html']

  def parse(self, response: scrapy.Selector):
    item = PictureItem()
    item['title'] = response.css('h1::text').extract_first()
    item['img_s'] = response.css('.post-content img::attr(data-src)').extract()
    print(item['img_s'])
    yield item

重点：

get_media_requests() 是用来发送请求的，需要传入图片的网址。
file_path() 是用来指定保存的文件的名字。
item_completed () 当请求完成后进行的操作

除了编写图片管道文件，还要在配置环境中激活，以及指定图片的存储位置

# settings.py

# 图片存储的路径
IMAGES_STORE = './images'

class DownloadPicturePipeline(ImagesPipeline):
    
  def get_media_requests(self, item, info):
    for image_url in item['img_src']:
        # 获取图片的url,并发请求
        yield scrapy.Request(image_url, meta={'filename': item['title']})
    
  def file_path(self, request, response=None, info=None):
    # 重命名，若不重写这函数，图片名为哈希
    # 获取图片的文件名
    filename = request.meta.get('filename')
    # 获取图片url中的文件名字
    image_guid = request.url.split('/')[-1]
    # request 对象请求到的图片的保存名字
    return os.path.join(filename, image_guid)

  def item_completed(self, results, item, info):
        # 最小的操作单位
        # 图片下载完成之后做的一些操作
        # true 下载成功

        # results 结构是什么东西
        # l = [
        #     (True, {'url': 'http://pic1.win4000.com/mobile/2020-05-25/5ecb68ff747b7_130_170.jpg',
        #             'path': '清纯金发美女高清手机壁纸\\5ecb68ff747b7_130_170.jpg',
        #             'checksum': 'f68c281392671dfb3a949811caad6435'}),
        #     (True, {'url': 'http://pic1.win4000.com/mobile/2020-05-25/5ecb69003d850_130_170.jpg',
        #             'path': '清纯金发美女高清手机壁纸\\5ecb69003d850_130_170.jpg',
        #             'checksum': 'd29a0f4d30f689d0742802e50d2b26cf'}),
        #     ]
    # 保存图片下载的路径
    image_paths = [x['path'] for ok, x in results if ok]
    if not image_paths:
        raise DropItem("Item contains no images")
    item['image_paths'] = image_paths
    return item

3. 关于pipeline

3.1 注册

pipeline ( 管道 ) , 首先你要想应用你写的管道 , 在运行爬虫之前要在 settings.py 中注册。

# settings.py line:68

ITEM_PIPELINES = {
   'spider1.pipelines.Spider1Pipeline': 299,
   'spider1.pipelines.Spider2Pipeline': 300,
}

# 可以注册多个管道, 数值小的优先级高,先执行,一般放在上面

3.2 执行流程

检测pipeline类中是否存在 from_crawler (cls, crawler) 方法
- 有就执行
- 否则就 _ _ init _ _ (self) 实例化对象
调用 open_spider(self, spider) 方法
执行爬虫文件遇到 yield item 反复执行 process_item(self, item, spider)
当爬虫执行完毕的话调用 close_spider(self, spider) 方法

如果存在多个pipeline类，会按照注册的优先级在第一个pipeline执行完 from_crawler (cls, crawler) 方法后

依次执行其他 pipeline类中的 from_crawler (cls, crawler) 方法，然后依次执行 open_spider(self, spider)

再依次执行 process_item(self, item, spider)。但是 close_spider(self, spider) 方法则是优先级低的先执行。

注意：pipeline默认是全局的，无论是那个爬虫文件都会走所有的 pipeline ，如果你想对某个爬虫文件自定义

的话，可以通过 spider.name == 'xxx' , 做选择。

3. 数据去重

当我们的item对象中可能存在重复时，这个时候我们就需要对item对象进行检测是否存在重复。

这里我的思路是：在管道中维护一个列表，每次接收到item对象时先检测是否已经存在我们维护的列表中。

# 爬虫程序重新启动一次,过滤就会再来一次
# 爬虫结束之前把去重结果保存一次（写到一个临时文件）,下次启动时,把去重结果加载一遍
# 不需要保存过的结果,重新再保存一次

# 维护这个列表
filter_set = []


class Qd04EnglishPipeline(object):
    def __init__(self):
        self.f = open('eng.csv', mode='w', encoding='utf-8', newline="")
        self.csv_write = csv.writer(self.f)

    # 结果去重
     def process_item(self, item, spider):
         """需要保存的数据与已经保存的数据有没有重复的
         读取文件,然后再判断文件里面的内容
         """
         d = dict(item)
         h = hashlib.md5(json.dumps(d).encode()).hexdigest()
         if h not in filter_set:
             # 如果这个结果是第一次出现,就先保存,并且记录下来
             filter_set.append(h)
             self.csv_write.writerow(d.values())
             return item

这里简单提一下，最好不要将item对象直接放到列表，如果每个item对象中封装很多字段或者有很多item对象，

那么这个列表中就会有很多内容，当数据内容非常多是，判断就会占用很多的内存空间，这样每次都要查询的话，

会很浪费时间，降低效率。所以我们采用摘要算法，对item对象进行摘要，对象摘要的结果是一个字符串，而且

相同的对象摘要出来的字符串是一样的。所以我们可以摘要之后才放到列表中。

摘要算法就是通过摘要函数对任意长度的数据 data 计算出固定长度的摘要，目的是为了发现原始数据是否被人篡

改过。摘要算法之所以能指出数据是否被篡改过，就是因为摘要函数是一个单向函数，计算哈希很容易，但通过

digest反推 data 却非常困难。而且，对原始数据做一个bit的修改，都会导致计算出的摘要完全不同。

如果你想详细了解摘要算法可以自行百度。

示例：

import hashlib
import json

md5 = hashlib.md5()
d = {'name':'asd'}
d_str = json.dumps(d)
md5.update(d_str.encode())

h = md5.hexdigest()
print(h) # h就是对象摘要出来的结果

4. 小结

希望你看完本文章能够对scrapy框架中的 item.py文件和pipeline.py文件，以及数据多种方式的持久化，数据的

去重能够有自己的认识，并熟练掌握，其中保存到数据库这个是必须要会的，公司里面都是把数据保存到数据库。

InfluxDB 3 Core 持久化机制深度解析：高可靠实时数据引擎的设计哲学与工业实践梦想画家数据库 InfluxDB 分层持久化架构
本文深入拆解InfluxDB3Core的数据持久化架构，涵盖写入流程、故障恢复、存储引擎设计，并结合物联网、金融监控等场景分析其高可靠性实现逻辑。通过对比传统时序数据库架构与性能实测数据，揭示新一代引擎如何平衡实时性与数据安全性，为大规模时序数据处理提供生产级保障。一、持久化核心机制：从写入到落盘的全链路保护1.分层持久化架构InfluxDB3Core采用三级数据保护策略：写入请求→内存缓冲区(V
Docker 入门教程（七）：容器数据卷千233 Docker（for科研er）docker java eureka
文章目录Docker入门教程（七）：容器数据卷一、为什么需要数据卷？二、三种挂载方式示例：MySQL数据持久化三、数据卷容器模式（旧式技术）Docker入门教程（七）：容器数据卷一、为什么需要数据卷？容器默认的写层具有两个关键缺点：不持久：容器一旦被删除，数据也随之丢失不可共享：每个容器的数据互相隔离为了解决这个问题，Docker提供了数据卷（Volume）机制，将数据从容器中解耦出来，形成独立、
MyBatis 简介 hweiyu00 技术栈杂谈 mybatis
MyBatis简介MyBatis是一款优秀的持久层框架，它支持定制化SQL、存储过程以及高级映射，能够帮助开发者将Java对象与数据库表进行灵活映射，简化数据持久化操作。以下从多个维度详细介绍MyBatis：一、核心定位与优势轻量级框架：相比Hibernate等全自动ORM框架，MyBatis更“轻”，开发者需手动编写SQL语句，灵活性更高，便于优化性能。ORM映射功能：通过XML或注解方式，将J
我的世界1.20.1forge模组开发进阶教程——序列化（1） lemon_sjdk java 我的世界 mc forge模组开发序列化
mc的序列化在《Minecraft》（MC）中，序列化指将游戏数据（如方块、实体、玩家状态等）转换为可存储或传输的格式。这是游戏运行、存档保存和网络通信的关键技术。以下是Minecraft中常见的序列化方式及其用途：一、序列化在Minecraft中的作用存档数据持久化将玩家建筑、地图、物品栏等数据保存到硬盘（如.minecraft/saves中的区域文件）。网络传输服务器与客户端同步方块更新、实体
Docker 从入门到精通：运维工程师的容器化生存指南大模型大数据攻城狮运维 docker 容器 k8s 运维面试 dockerfile 虚拟化
目录第1章：Docker是什么？为什么它能改变运维的游戏规则？第2章：Docker安装与环境准备第3章：Docker常用命令入门第4章：Dockerfile的初探第5章：Docker网络的那些事儿第6章：数据持久化：让容器数据不“失忆”第7章：DockerCompose：多容器的“交响乐指挥家”第8章：进阶命令与运维技巧第9章：Docker与CI/CD：让部署快如闪电第10章：容器监控：让你的Do
一招搞定自动化！手把手教你用Docker部署n8n工作流神器
摘要本文详解如何通过两条Docker命令快速搭建n8n自动化工作流平台，揭秘数据持久化的关键配置，助你轻松实现跨平台自动化操作，文末附赠实践小贴士。命令全解析1.数据存储奠基者dockervolumecreaten8n_data创建名为n8n_data的持久化存储卷用于保存工作流配置、密钥等关键数据️避免容器销毁时数据丢失（重要安全措施）2.容器启动魔法师dockerrun-it--rm--nam
Python爬虫短视频平台数据抓取：抓取视频和评论技术方案数据狐（DataFox） 2025年爬虫实战项目 python 爬虫开发语言
一、摘要本方案提供完整的Python爬虫实现流程，涵盖短视频平台(以抖音为例)的视频与评论数据采集技术，包含环境配置、核心代码实现及反爬优化策略。通过模拟浏览器操作、API接口分析及数据持久化处理，实现高效合规的数据采集。二、引言短视频平台数据具有巨大商业价值，但直接爬取面临动态渲染、加密参数等反爬机制挑战。本方案采用混合技术路线，结合网页解析与移动端API分析，平衡效率与成功率。三、环境配置基础
Redis网络通信模块深度解析：单线程Reactor到多线程IO的架构演进
一、核心架构：单线程Reactor模型Redis网络模块采用经典Reactor模式，核心流程如下：voidaeMain(aeEventLoop*eventLoop){while(!eventLoop->stop){//前置钩子（集群心跳/数据持久化）if(eventLoop->beforesleep)eventLoop->beforesleep(eventLoop);//事件分派：I/O复用+定时
MongoDB框架零基础入门码农研究僧 Python 100天精通全栈 mongodb nosql 数据库
目录前言1.安装配置2.关启配置3.基本概念4.基本操作4.1创建集合4.2删除集合4.3插入文档4.4更新文档4.5删除文档4.6查询文档前言先科普讲解一下NoSQL（notonlysql）本身NoSQL非关系型数据库就具备了ACID（原子性、一致性、持久性、隔离性）数据持久化一般还是要使用关系型数据库，内存的数据库使用检索MongoDB是C++编写，一个基于分布式文件存储的开源数据库系统。将其
Python 文件操作与 wc 工具的重构：从文件对象到输入重定向的全面指南面朝大海，春不暖，花不开 Python基础 python 重构开发语言
文章大纲引言在编程世界中，文件操作是一项基础且至关重要的技能。无论是读取配置文件、处理日志，还是实现数据持久化，文件操作都扮演着核心角色。Python作为一门简洁而强大的语言，提供了直观的文件处理接口，其中open函数和文件对象是开发者最常使用的工具。通过这些工具，我们可以轻松实现文件的读写操作。本文将深入探讨Python文件操作的各个方面，从open函数的基本用法到文件对象的操作方法，再到资源管
java:实现投票系统（附带源码） Katie。 Java 实战项目 java 开发语言
1.项目背景详细介绍在现代信息化社会中，投票系统是民主决策、在线调查、用户反馈、选举活动等场景中不可或缺的核心组件。从最简单的“一人一票”在线问卷，到复杂的分布式选举、盲签名投票、区块链防篡改投票等，投票系统的设计安全性、可扩展性、并发性能与数据一致性都提出了高要求。本项目以纯Java技术栈实现一个基础的在线投票系统，适合作为技术博客教程或课堂案例，从前端展示、后端API、数据持久化、业务逻辑，到
Python 爬虫入门：从数据爬取到转存 MySQL 数据库覃炳文20230322027 数据库 python 爬虫
前言在本篇博客中，我们将介绍一个基础的Python爬虫项目，包括使用requests和BeautifulSoup进行网页数据爬取，并将获取的数据存储到MySQL数据库中。该项目适合初学者了解网络爬虫的基本流程以及如何将数据持久化存储。一、项目目标学习使用requests发起HTTP请求获取网页内容。使用BeautifulSoup解析HTML页面并提取数据。将提取的数据保存到MySQL数据库中。掌握
MQ常见问题梳理 javazhangwy RocketMQ rocketmq
MQ如何保证消息不丢失哪些环节可能导致消息丢失生产者向主节点发送消息主节点向从节点同步消息MQ数据持久化消费者消费消息生产者发送消息如何保证不丢失生产者发送消息丢失的原因是因为网络的不稳定性。RocketMQ通过同步和异步发送消息机制来保证发送消息的安全性。同步：消息最安全，但是效率很低。异步：消息安全和效率之间比较均衡，但会加大客户端的负担。因为消息发送后还要维护回调上下文，网络IO和内存负担会
Docker高级管理--容器通信技术与数据持久化别骂我h docker 容器运维
第一节：容器通信技术一：Docker容器的网络模式当项目大规模使用Docker时，容器通信的问题也就产生了。要解决容器通信问题，必须先了解很多关于网络的知识。Docker的网络模式非常丰富，可以满足不同容器的通信要求，下表列出了这些网络模式的主要信息。网络模式创建此种网络模式的关键选项简单说明host模式--networkhost容器直接使用宿主主机的网络栈，没有独立的网络命名空间，网络性能高，但
《仿盒马》app开发技术分享-- 商品搜索页（搜索记录&商品搜索）（38） typescript
技术栈Appgalleryconnect开发准备上一节我们新建了商品搜索页，实现了顶部的搜索bar以及下方的推荐搜索列表，这一节我们要新增一个商品搜索记录列表，以及输入内容之后搜索出对应商品的功能，我们还需要保证搜索内容的唯一性，以及搜索记录的本地数据持久化和搜索记录列表的删除功能分析商品搜索记录列表，我们可以通过保存输入的搜索内容到用户首选项中实现。商品搜索通过输入的名称与云数据库的商品名称匹配
InnoDB Cluster 与 NDB Cluster 对比及部署指南中国lanwp mysql
InnoDBCluster与NDBCluster对比及部署指南一、核心区别对比特性InnoDBClusterNDBCluster存储引擎InnoDBNDB(内存优先)架构设计基于GroupReplication分布式架构(数据节点+管理节点+SQL节点)一致性模型最终一致性/强一致性强一致性数据持久化磁盘存储为主内存存储为主，定期快照适用场景通用OLTP高吞吐实时处理扩展性垂直扩展为主水平线性扩展
requarks/wiki docker 部署 wikidocker
requarks/wiki一个由Node.js+Vue.js构建的wiki系统，它开箱即用、界面美观、支持多语言（包括中文）、功能齐全，提供了包括评论、Markdown编辑器、图片上传、标签、全局搜索、协同编辑、编辑历史、用户管理、谷歌分析等功能，同时支持高度自定义。适用于构建个人博客和团队内部的知识分享平台。Docker一键部署借用docker.1ms.run做个镜像加速，数据持久化使用卷模式，
Spring Boot + MyBatis + Vue：全栈开发的高级实践与案例分析代码老y spring boot mybatis vue.js
一、项目概述假设我们需要开发一个在线教育平台，用户可以通过该平台浏览课程、购买课程和查看学习进度。以下是项目的基本需求：用户管理：用户可以注册、登录和注销。课程管理：管理员可以添加、编辑、删除和查看课程。订单管理：用户可以购买课程，查看订单状态。学习进度管理：用户可以查看自己的学习进度。数据持久化：所有数据需要持久化存储到数据库中。前端交互：提供友好的用户界面，支持课程浏览、购买和学习进度管理。二
Docker安装Nacos (超详细) Moguidongdong docker 容器运维
前言安装之前你需要准备一个mysql，当前安装方式是将数据持久化到数据库中的，这里的部署是单机模式正文1.拉取nacos-server镜像dockerdockerpullnacos/nacos-serverPS：这是拉取最新的nacos版本，如果需要拉取别的版本可以加：版本号（如：dockerpullnacos/nacos-server:v2.2.0）2.启动nacos并复制文件到宿主机，关闭容器
【java】乐观锁的实现和注意细节 CC大煊技术方案 java 数据库
文章目录1.前言乐观锁vs.悲观锁：基本概念对比使用场景及优势简述2.基于版本号的乐观锁实现代码示例注意事项3.基于CAS机制的乐观锁实现核心思想代码示例关键点说明4.框架中的乐观锁实践MyBatis中基于版本号的乐观锁实现示例代码JPA（Hibernate）中的乐观锁@Version注解关键点与底层原理示例代码5.乐观锁使用中的注意细节并发冲突后的重试机制与失败处理事务管理中的注意事项数据持久化
Python Shelve 模块详解：高效处理大文件的持久化字典
文章大纲：引言在Python开发中，数据的持久化存储是一个常见需求。shelve模块作为Python标准库的一部分，提供了一种简单而高效的方式，将字典数据持久化存储到磁盘上。与普通字典不同，shelve允许开发者在不占用大量内存的情况下处理大规模数据集，非常适合大文件的存储与管理。它的操作方式类似于字典，但数据存储在磁盘文件中，而非内存中，具有独特的优势。本文将通过一个地址簿管理的具体示例，深入探
TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能 TiDB 社区干货传送门 tidb hbase 架构数据库大数据
作者：数据源的TiDB学习之路原文来源：https://tidb.net/blog/c687d474第一章：HBase的历史使命与技术瓶颈1.1HBase的核心价值与经典场景作为Hadoop生态的核心组件，HBase凭借LSM-Tree存储引擎和Region分片机制，在2010年代成为海量数据存储的标杆。其典型场景包括：日志流处理：支持Kafka每日TB级数据持久化，写入吞吐达百万级QPS（如某头
Redis 持久化机制详解：RDB、AOF 原理与面试最佳实践（AOF篇） Yrrr1 从0到1学会Redis redis 面试数据库职场和发展
在上一章我们深入学习了Redis中重要的数据持久化机制——RDB（RedisDatabase），了解了其通过周期性快照将数据以二进制文件形式保存到磁盘的原理，包括触发条件、文件结构以及优缺点等核心内容。Redis持久化机制详解：RDB、AOF原理与面试最佳实践（RDB篇）目录什么是AOF持久化？AOF的基本工作原理命令追加（Append）文件写入（Write）文件同步（Fsync）文件重写（Rew
Jetpack 架构组件 -＞ ViewModel 消失的旧时光-1943 jetpack 架构 android jetPack
在Android开发中，ViewModel是Jetpack架构组件的核心部分，用于以生命周期感知的方式管理和存储UI相关的数据。其主要目的是解决以下痛点：核心作用数据持久化：在配置更改（如屏幕旋转）时保留数据生命周期感知：避免内存泄漏，自动清理资源UI与数据分离：遵循关注点分离原则（SeparationofConcerns）数据共享：在Fragment之间共享数据基本使用步骤1.添加依赖在buil
MyBatis与JPA有哪些不同？ java1234_小锋 java java 开发语言
大家好，我是锋哥。今天分享关于【MyBatis与JPA有哪些不同？】面试题。希望对大家有帮助；MyBatis与JPA有哪些不同？超硬核AI学习资料，现在永久免费了！MyBatis和JPA（JavaPersistenceAPI）是两种常用于Java应用中的数据持久化框架，它们有着不同的设计理念和实现方式。下面是它们的主要区别：抽象层次：MyBatis：MyBatis是一个半自动化的持久化框架，开发者
90%的鸿蒙开发者都会踩坑！数据持久化失败的5大雷区及备忘录应用实战 harmonyos
摘要在鸿蒙应用开发中，数据持久化失败是高频痛点。本文通过一个备忘录应用实例，结合真实开发场景，分析权限缺失、路径错误、存储不足等五大常见问题的解决方案，并提供完整可运行的代码实现与避坑技巧。描述想象你开发了一款备忘录App，用户反馈保存的内容经常丢失。经排查，发现不同设备上因权限、存储空间等问题导致数据持久化失败。下面通过一个轻量级备忘录功能，演示如何规避这些“坑”。题解答案：五大问题解决方案问题
【C语言】银行账户管理系统丨源码+解析 C语言小火车编程入门 C语言 c语言 c++算法课程设计
系统功能说明1.核心功能模块账户管理：创建/删除账户，自动生成唯一账号资金操作：存款/取款/转账（含余额校验）账户服务：余额查询/密码修改/交易记录查询数据持久化：文件存储所有账户信息2.关键技术实现3.数据结构设计字段类型说明accountIDchar[20]唯一账户标识namechar[50]客户姓名passwordchar[20]加密密码balancedouble账户余额transactio
数据库管理系统（DBMS）的系统性概述步行cgn 数据库数据库服务器 oracle
一、DBMS核心定义数据库管理系统（DatabaseManagementSystem）是创建、管理、维护数据库的软件系统。它充当用户/应用程序与底层数据库之间的中介，提供系统化的数据管理能力。️二、DBMS的核心目标数据持久化：确保数据长期安全存储。数据抽象：对用户隐藏物理存储细节（如文件位置、数据结构）。数据共享：支持多用户并发访问。数据一致性：通过约束、事务等机制保障逻辑正确性。数据安全：通过
千万级日活大数据平台设计方案暴躁哥大数据设计方案
千万级日活大数据平台设计方案本文详细介绍如何设计一个支持千万级日活用户的大数据平台，包括数据采集、存储、计算和应用层的完整解决方案。1.系统架构概览1.1整体架构数据采集层：负责数据收集和预处理数据存储层：负责数据持久化和管理数据计算层：负责数据分析和处理数据应用层：负责数据展示和服务1.2技术选型原则高可用性：系统7*24小时稳定运行高扩展性：支持水平扩展高性能：满足实时和离线计算需求高可靠性：
【附源码】C语言的学生管理系统完整实现方案
一个基于C语言的学生管理系统完整实现方案，结合了结构体、链表、文件存储、菜单驱动等核心技术。系统支持管理员/学生双角色权限、数据持久化存储及完整增删改查功能，代码附详细注释说明。一、系统设计概述1.核心数据结构typedefstructStudent{charid[20];//学号[6,9](@ref)charname[50];//姓名chargender[10];//性别intage;//年龄f
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><