MXuDong

Python中scrapy爬虫框架的数据保存方式（包含：图片、文件的下载）

注意：1、settings.py中ITEM_PIPELINES中数字代表执行顺序（范围是1-1000），参数需要提前配置在settings.py中（也可以直接放在函数中，这里主要是放在settings.py中），同时settings.py需要配置开启

2、 process_item() 从spider中yield过来的item，都要执行这个函数。会被多次调用

3、return item：如果后面还有操作需要用到item，那么在当前操作结束后必须return item供后面的操作使用！

一、scrapy自带的保存方式（图片，文档的下载）

需要在settings.py中配置：主要是开启

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {

    # 启用scrapy自带的图片下载ImagesPipeline（None：为关闭）
    'scrapy.pipelines.images.ImagesPipeline': None,

    # 启用scrapy自带的文件下载FilesPipeline
    # 'scrapy.pipelines.files.FilesPipeline': 2

    # 如果采用自定义的CustomImagesPipeline，需要将自带的ImagesPipeline设置为None。如下面的小说封面的下载和内容Mongodb的存储
    'NovelSpider.pipelines.CustomImagesPipeline': 1,
    'NovelSpider.pipelines.MongoPipeline': 2,
}

附加处理图片的示例代码：（主要是通过做的result结果查看数据！！）

如果需要这样的操作就就在settings.py中开启（示例代码是文章列表的图片！）

from scrapy.pipelines.images import ImagesPipeline
class JobbolePipeline(object):
    def process_item(self, item, spider):
        return item


# 定义处理图片的Pipeline
class ImagePipeline(ImagesPipeline):
    def item_completed(self, results, item, info):
        print('---',results)
        return item
        # 如果图片能够下载成功，说明这个文章是有图片的。如果results中不存在path路径，说明是没有图片的。
        # [(True, {'path': ''})]
        # if results:
        #     try:
        #         img_path = results[0][1]['path']
        #     except Exception as e:
        #         print('img_path获取异常，',e)
        #         img_path = '没有图片'
        # else:
        #     img_path = '没有图片'

        # 判断完成，需要将变量img_path重新保存到item中。

二、保存Json数据格式

直接使用cmd命令行（进入scrapy虚拟环境才行）：scrapy crawl 项目名 -o 文件名.json -s FEED_EXPORT_ENCIDING=utf-8

自定义Json保存：

import json


class JsonPipeline(object):
    def __init__(self):
        self.file = open('文件名.json', 'wb')

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line.encode('utf-8'))
        return item

    # def close_spider(self, spider):
    #     self.file.close()

在settings.py中配置：

ITEM_PIPELINES = {
    #'NovelSpider.pipelines.NovelspiderPipeline': 300,
    'NovelSpider.pipelines.JsonPipeline': 300,
    # 'NovelSpider.pipelines.MongoPipeline': 301,

    # 启用scrapy自带的图片下载ImagesPipeline
    #'scrapy.pipelines.images.ImagesPipeline': None,

    # 启用scrapy自带的文件下载FilesPipeline
    # 'scrapy.pipelines.files.FilesPipeline': None

    # 如果采用自定义的CustomImagesPipeline，需要将自带的ImagesPipeline设置为None。
    #'NovelSpider.pipelines.CustomImagesPipeline': 1,
    #'NovelSpider.pipelines.MongoPipeline': 2,
}

三、保存到Mongodb数据库

现在sesttings.py中配置，如图：

MONGOCLIENT = 'localhost'
#连接是的参数，novel为数据库的名（自己定义）
DB = 'novel'

class MongoPipeline(object):
    def __init__(self, client, db):
        self.client = pymongo.MongoClient(client)
        self.db = self.client[db]

    # from_crawler()作用就是从settings.py中读取相关配置，然后可以将读取结果保存在类中使用。
    @classmethod
    def from_crawler(cls, crawler):
        # 创建当前类的对象，并传递两个参数。
        obj = cls(
            client=crawler.settings.get('MONGOCLIENT', 'localhost'),
            db=crawler.settings.get('DB', 'test')
        )
        return obj

    def process_item(self, item, spider):
        #novel数据库名，保存方式是更新式（url字段更新），另一种存入方式覆盖式：self.db['数据库名'].insert_one(item)
        self.db['novel'].update_one({'url': item['url']}, {'$set': dict(item)}, True)
        # return item(如果后面还需要item就必须return)

配置settings.py文件：

ITEM_PIPELINES = {
    #'NovelSpider.pipelines.NovelspiderPipeline': 300,
    #'NovelSpider.pipelines.JsonPipeline': 300,
    'NovelSpider.pipelines.MongoPipeline': 301,

    # 启用scrapy自带的图片下载ImagesPipeline
    #'scrapy.pipelines.images.ImagesPipeline': None,

    # 启用scrapy自带的文件下载FilesPipeline
    # 'scrapy.pipelines.files.FilesPipeline': None

    # 如果采用自定义的CustomImagesPipeline，需要将自带的ImagesPipeline设置为None。
    #'NovelSpider.pipelines.CustomImagesPipeline': 1,
    #'NovelSpider.pipelines.MongoPipeline': 2,
}

简单的方法：（省略了settings.py的配置Mongodb的参数和调用读取配置！），还是需要配置settings.py中的ITEM_PIPELINES如上述代码！

import pymongo

class JobsPipeline(object):
    def process_item(self, item, spider):
        # 参数1 {'zmmc': item['zmmc']}: 用于查询表中是否已经存在zmmc对应的documents文档。
        # 参数3 True: 更新(True)还是插入(False, insert_one())
        # 参数2 要保存或者更新的数据
        #示例代码“zmcc”字段，仅做参考！！！数据库名是job
        self.db['job'].update_one({'zmmc': item['zmmc']}, {'$set': dict(item)}, True)
        return item

    def open_spider(self, spider):
        self.client = pymongo.MongoClient('localhost')
        self.db = self.client['jobs']

四、保存到MySQL数据库

注意：MySQL数据库会出现异步写入，用来提高写入速度防止出现写入阻塞！

首先在MySQL数据库中创建对应的表，注意字段的设计！

导入:

import pymysql

#BolePipeline：自定义的！
class BolePipeline(object):
    def __init__(self):
        self.db = None
        self.cursor = None   
    
    def process_item(self, item, spider):
        #数据库的名字和密码自己知道！！！bole是数据库的名字
        self.db = pymysql.connect(host='localhost', user='root', passwd='123456', db='bole')
        self.cursor = self.db.cursor()
        #由于可能报错所以在这重复拿了一下item中的数据，存在了data的字典中
        data = {
            "list_sort":item['list_sort'],
            "article_sort":item['article_sort'],
            "title":item['title'],
            "article_url":item['article_url'],
            "zan":item['zan'],
            "content": item['content']
        }
        #注意：MySQL数据库命令语句
        insert_sql = "INSERT INTO bole (list_sort, article_sort, title, article_url,zan, content) VALUES (%s,%s,%s,%s,%s,%s)"
        try:
            self.cursor.execute(insert_sql, (data['list_sort'], data['article_sort'], data['title'], data['article_url'],data['zan'], data['content']))
            self.db.commit()
        except Exception as e:
            print('问题数据跳过！.......',e)
            self.db.rollback()
        self.cursor.close()
        self.db.close()
        return item

在settings.py中配置：

ITEM_PIPELINES = {
    #'NovelSpider.pipelines.NovelspiderPipeline': 300,
    #'NovelSpider.pipelines.JsonPipeline': 300,
    #'NovelSpider.pipelines.MongoPipeline': 301,
    'NovelSpider.pipelines.BolePipeline': 301,
    # 启用scrapy自带的图片下载ImagesPipeline 
    #'scrapy.pipelines.images.ImagesPipeline': None, 
    # 启用scrapy自带的文件下载FilesPipeline 
    # 'scrapy.pipelines.files.FilesPipeline': None 
    # 如果采用自定义的CustomImagesPipeline，需要将自带的ImagesPipeline设置为None。 
    #'NovelSpider.pipelines.CustomImagesPipeline': 1, 
    #'NovelSpider.pipelines.MongoPipeline': 2,
}

简单方式：最后在settings.py中配置！

import pymysql

class HongxiuPipeline(object):
    #示例代码是保存小说信息
    # process_item() 从spider中yield过来的item， 都要执行这个函数。会被多次调用
    def process_item(self, item, spider):  
        insert_sql = "INSERT INTO hx(title, author, tags, total_word_num, keep_num, click_num, info) VALUES (%s, %s, %s, %s, %s, %s, %s)"
        self.cursor.execute(insert_sql, (item['title'], item['author'], item['tags'], item['total_word_num'], item['keep_num'], item['click_num'], item['info']))
        self.connect.commit()

    # open_spider()和close_spider()：只在爬虫被打开和关闭时，执行一次。
    def open_spider(self, spider):
        self.connect = pymysql.connect(
            host='localhost',
            user='root',
            port=3306,
            passwd='123456',
            db='hongxiu',
            charset='utf8'
        )
        self.cursor = self.connect.cursor()

    def close_spider(self, spider):
        self.cursor.close()
        self.connect.close()

五、保存Excel中（.csv格式）

cmd命令直接保存（注意：必须进入scrapy虚拟环境中！保存后表格中有空行！）：

scrapy crawl 项目名 -o 文件名.csv -s FEED_EXPORT_ENCIDING=utf-8

自定义创建表格（以保存招聘信息为例）：

#excel保存
class Excel(object):
    #def __init__(self):
        #self.row = 1

    def creat_excel(self):
        # 1.创建workbook对象
        book = xlwt.Workbook(encoding='utf-8')
        # 2.创建选项卡
        # 此处选项卡名字为：职位简介
        sheet = book.add_sheet('职位简介')
        # 3.添加头
        # 第一个参数是行，第二个参数是列，第三个参数是列的字段名
        sheet.write(0, 0, '职位名称')
        sheet.write(0, 1, '工作地点')
        sheet.write(0, 2, '公司月薪')
        sheet.write(0, 3, '职位要求')

        return book, sheet



class PythonjobPipeline(object):
    print("---------开始保存！！")
    def __init__(self):
        self.row = 1
        obj = Excel()
        self.book, self.sheet = obj.creat_excel()

    def process_item(self, item, spider):
        self.sheet.write(self.row, 0, item['title'])
        print(item['title'])
        self.sheet.write(self.row, 1, item['addr'])
        self.sheet.write(self.row, 2, item['money'])
        self.sheet.write(self.row, 3, item['company_detail'])

        self.row += 1
        self.close_file(item)

    def close_file(self,item):
        self.book.save('职位简介.xls')
        return item

在settings.py中配置

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    'scrapy.pipelines.files.FilesPipeline': None,
    'pythonjob.pipelines.PythonjobPipeline': 300,
   
}

六、自定义下载图片和文档并保存

首先：在settings.py中设置参数

# 配置图片的保存目录
IMAGES_STORE = 'pics'
# 在ImagesPipeline进行下载图片是，配置图片对应的Item字段
IMAGES_URLS_FIELD = 'pic_src'

FILES_STORE = 'novel'

FILES_URLS_FIELD = 'download_url'

图片下载保存：

导入：

from scrapy.http import Request
from scrapy.pipelines.images import ImagesPipeline

class CustomImagesPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        # 从item中获取要下载图片的url，根据url构造Request()对象，并返回该对象
        image_url = item['img_url'][0]
        yield Request(image_url, meta={'item': item})

    def file_path(self, request, response=None, info=None):
        # 用来自定义图片的下载路径
        item = request.meta['item']
        url = item['img_url'][0].split('/')[5]
        return '%s.jpg'%url

    def item_completed(self, results, item, info):
        # 图片下载完成后，返回的结果results
        print(results)
        return item

settings.py中配置

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
    # 'NovelSpider.pipelines.NovelspiderPipeline': 300,
   
    # 启用scrapy自带的图片下载ImagesPipeline
    'scrapy.pipelines.images.ImagesPipeline': None,

    # 启用scrapy自带的文件下载FilesPipeline
    # 'scrapy.pipelines.files.FilesPipeline':None,

    # 如果采用自定义的CustomImagesPipeline，需要将自带的ImagesPipeline设置为None。
    'NovelSpider.pipelines.CustomImagesPipeline': 1,
}

文件的下载保存（类比图片的下载保存）

#图片++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
class CustomImagesPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        # 从items中获取要下载图片的url, 根据url构造Requeset()对象, 并返回该对象
        # sort_title = item['sort_title']
        try:
            image_url = item['pic_src'][0]
            yield Request(image_url, meta={'item': item})
        except:
            image_url = 'https://www.qisuu.la/modules/article/images/nocover.jpg'
        yield Request(image_url, meta={'item': item})

    def file_path(self, request, response=None, info=None):
        item = request.meta['item']
        return '{}/{}.jpg'.format(item['sort'], item['novel_name'])

    def item_completed(self, results, item, info):

        print(results)
        return item

#文本++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
class CustomFilesPipeline(FilesPipeline):
    def get_media_requests(self, item, info):

            download_url = item['download_url'][0]
            download_url = download_url.replace("'",'')
            print(download_url)
            yield Request(download_url, meta={'item':item})

    def file_path(self, request, response=None, info=None):
        item = request.meta['item']
       #创建sort_name文件，在里面保存novel_name文件
        return '%s/%s' % (item['sort'],item['novel_name'])

    def item_completed(self, results, item, info):
        print(results)
        return item

配置settings.py:

# Configure item pipelines
# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html
ITEM_PIPELINES = {
   # 'qishutest.pipelines.QishutestPipeline': 300,
# 启用scrapy自带的图片下载ImagesPipeline
    'scrapy.pipelines.images.QishutestPipeline': None,

    # 启用scrapy自带的文件下载FilesPipeline
    'scrapy.pipelines.files.FilesPipeline': None,

    # 如果采用自定义的CustomImagesPipeline，需要将自带的ImagesPipeline设置为None。
    'qishutest.pipelines.CustomImagesPipeline':1,
    'qishutest.pipelines.CustomFilesPipeline':2,
}

JavaScript BOM（浏览器对象模型）与 `setTimeout` 函数：控制浏览器行为的利器人才程序员杂谈 javascript 开发语言 ecmascript firefox html5 jquery safari
文章目录JavaScriptBOM（浏览器对象模型）与`setTimeout`函数：控制浏览器行为的利器⏳什么是BOM？`setTimeout`函数：实现延时操作⏳基本语法：示例：基本使用`setTimeout`返回值：定时器ID示例：取消定时器`setTimeout`的实际应用`setTimeout`的注意事项⚠️小结：BOM与`setTimeout`的妙用JavaScriptBOM（浏览器对象
android——Livedata、StateFlow、ShareFlow和Channel的介绍和使用 wy313622821 kotlin -java android
目录一、LiveData介绍二、StateFlow介绍三、ShareFlow介绍四、Channel介绍小结一、LiveData介绍LiveData是一种在Android开发中用于观察数据变化的组件。它可以被观察者注册并在数据变化时通知观察者，从而实现数据的实时更新。LiveData具有生命周期感知能力，它会自动管理观察者的生命周期，确保观察者只会在活动状态下接收数据更新。示例代码classMyVi
小结：路由引入问题 flying robot HCIA/HCIP 笔记
在华为路由器中，路由引入（RouteRedistribution）是实现不同路由协议间通信的关键技术。通过路由引入，可以将一种路由协议学习到的路由信息分发到另一种协议中，实现多协议网络的互通。以下是华为路由器不同协议间路由引入的总结：默认优先级直接连接路由（Direct）:0OSPF:10IS-IS:15静态路由（Static）:60RIP:100OSPFASE（OSPFAutonomousSys
QQ登录测试用例履刑者tanking 测试用例
引言在当今数字化时代，即时通讯软件已成为人们日常生活与工作中不可或缺的一部分。QQ，作为中国最受欢迎的即时通讯平台之一，其登录功能的稳定性、安全性和用户体验直接关系到用户的满意度与信任度。因此，对QQ登录功能进行全面的测试显得尤为重要。以下为具体的测试用例。测试用例小结以上为QQ登录的测试用例
SR-IOV虚拟出来的网卡如何被VPP(DPDK)接管小湿哥 VPP Network vpp SR-IOV vt-d 虚拟化
目录引言SR-IOV简介网卡支持配置步骤1.修改BiosenableSR-IOV2.修改启动参数3.设置vf网卡mac地址，权限4.切换网卡驱动5.启动VPP小结引言在只有一张网卡的情况下，这个网卡不能既被VPP(DPDK)接管，同时被操作系统所使用。这个时候一般只能通过创建虚拟机，在虚拟机中运行VPP(DPDK)接管virtio的虚拟网卡。最近才发现了SR-IOV技术，可以在PCI层面虚拟网卡，
C语言声明与定义 _陈浩阳_ c语言笔记 c语言开发语言后端
C语言声明与定义1前言2声明与定义2.1变量2.2函数3小结1前言本人编写该文章主要是为了顽固已学过的C语言知识。如有错误还请读者指出。2声明与定义（1）C语言属于解释式语言，在使用某种代表特殊含义的标示符运算时，必须使用C语言的关键字声明或定义。使编译器可知该标识符所代表的含义，以便做一些检查转换。（2）在C语言中(C99标准)声明标识符时，声明可声明多次而编译器不会为其分配存储空间。目的是为了
冬训周报（四） HL0614SC 算法蓝桥杯
一、补题天梯赛训练补题-CSDN博客蓝桥杯训练补题-CSDN博客二、算法本周主要是蓝桥杯的一个训练，这其中对于搜索和二分的算法居多，对于搜索而言，简单的搜索可能还不成问题，但稍微一复杂写起来还是有些吃力的；另外还有二分，二分的关键就在于check函数，这要求对题目理解足够透彻，同时二分还要注意左右端点的值以及答案记录。三、小结本周是寒假训练的最后一周，这周进行了三次的蓝桥杯训练，对于OI的赛制感觉
c#上位机开发学习 csdn-唯一 C#初学上位机开发 c#串口通信
c#上位机开发学习一倒计时器少年去游荡，中年想掘藏，老年做和尚所用控件：**timer：**时间控制，此控件被启动后可以按照一定的时间间隔来运行，可以自行设定时间间隔。通过timer.start()或timer.stop()启动或停止。comboBoxprogressBar小结：诸如comboBox，它在窗口显示的数值可以通过comboBox.text=“123123”这样的语句来改变。而prog
Xline中区间树实现小结 rust
TableofContents实现区间树的起因区间树实现简介插入/删除查询重叠操作使用SafeRust实现区间树问题Rc>i.线程安全问题其他智能指针i.Arc>?ii.QCell数组模拟指针总结01、实现区间树的起因在Xline最近的一次重构中，我们发现有两个在关键路径上的数据结构SpeculativePool和UncommittedPool导致了性能瓶颈。这两个数据结构用于在CURP中进行冲突
利用Redis发布订阅模式、SSE实现分布式实时站内信系统 weixin_38515820 Java redis redis 分布式 java
文章目录前言一、SSE是什么？二、单机与集群的站内信实现方式有何区别？三、Redis发布、订阅模式有何特点？四、代码演示1.数据模型小结2.引入依赖3.配置RedissonClient4.编写RestController用于测试5.编写用户消息订阅逻辑6.实现消息的发布7.实现广播消息的订阅8.个人与团队消息的订阅8.效果演示总结前言站内信功能在各大系统中被广泛应用，本文结合工作的实际场景，使用j
小结：策略路由（Policy-based Routing，PBR） flying robot HCIA/HCIP 笔记
在华为设备上，策略路由（Policy-basedRouting，PBR）允许你根据流量的各种特征（如源IP、目标IP、源端口、目的端口、协议类型等）来选择流量的转发路径。华为的策略路由配置与其他厂商相似，但也有其独特的命令和配置方式。策略路由的基本概念策略路由通过路由策略（RoutePolicy）来配置，结合访问控制列表（ACL）或流量匹配条件，指定特定流量如何通过不同的出接口或下一跳转发。华为策
ctf命令执行漏洞绕过方式小结 _小飒 ctf学习
测试环境：本地：Win10phpstudy8.1kali2020.2外网：单位提供的linux靶机一、命令分隔符%0a–换行符，%0d–回车符，;–连续指令&&–|–||–二、空格%09$IFS$9${IFS}三、读文件(1)more:一页一页的显示档案内容(2)less:与more类似，但是比more更好的是，他可以[pgdn][pgup]翻页(3)head:查看头几行(4)tac:从最后一行开
基于Selenium实现简单的任务流程操作一个有女朋友的程序员小工具 selenium java 责任链模式
文章目录概要技术介绍SeleniumWebDriverManager开始编码先导入对应的依赖初始化WebDriver建立流程链创建抽象节点初始化流程使用Selenium小结概要前段时间同事让我帮他老婆写一个可以自动操作浏览器办理业务的小程序，一开始是想着在网上找一找有没有的RPA软件（公司里用过金智维RPA，感觉自己比较熟悉），但是莫得找到，就只能自己用Java试一试了这里我选择Selenium来
【分布式理论12】事务协调者高可用：分布式选举算法 roman_日积跬步-终至千里分布式架构分布式算法
文章目录一、分布式系统中事务协调的问题二、分布式选举算法1.Bully算法2.Raft算法3.ZAB算法三、小结与比较一、分布式系统中事务协调的问题在分布式系统中，常常有多个节点（应用）共同处理不同的事务和资源。前文【分布式理论9】分布式协同：分布式系统进程互斥与互斥算法【分布式理论10】分布式协同：分布式互斥算法最佳实现：分布式锁的原理与实现【分布式理论11】分布式协同之分布式事务中介绍了分布式
Python 基础-循环赔罪 Python 系统学习 python windows 服务器
目录简介breakcontinue小结简介要计算1+2+3，我们可以直接写表达式：>>>1+2+36要计算1+2+3+...+10，勉强也能写出来。但是，要计算1+2+3+...+10000，直接写表达式就不可能了。为了让计算机能计算成千上万次的重复运算，我们就需要循环语句。Python的循环有两种，一种是for...in循环，依次把list或tuple中的每个元素迭代出来，看例子：names=[
Python 函数-递归函数赔罪 Python 系统学习算法 python 青少年编程
目录练习小结在函数内部，可以调用其他函数。如果一个函数在内部调用自身本身，这个函数就是递归函数。举个例子，我们来计算阶乘n!=1x2x3x...xn，用函数fact(n)表示，可以看出：fact(n)=n!=1×2×3×⋅⋅⋅×(n−1)×n=(n−1)!×n=fact(n−1)×n所以，fact(n)可以表示为nxfact(n-1)，只有n=1时需要特殊处理。于是，fact(n)用递归的方式写出
linux sudo -i 参数,Linux系统中su、sudo、sudo su、sudo -i命令的用法和区别小结 PixelPuzzlist linux sudo -i 参数
在Linux系统软件中，因为root的权限过大，一般状况也不应用它。只能在一些独特状况下能选用登陆root实行管理方法每日任务，一般状况下临时性应用root权限多选用su和sudo命令。su命令就是说切换用户的专用工具，如何了解呢？例如人们以一般用户tom登陆的，但是加上用户每日任务，实行useradd，tom用户沒有这一权限，而这一权限刚好由root所有着。解决方案没法有2个，一是撤出tom用户
小结：引入外部路由，汇总，特殊区域总结 flying robot HCIA/HCIP 笔记
在华为路由器（主要指企业级路由器，例如NE、AR系列）上，涉及外部路由引入、路由汇总以及特殊区域（如Stub、TotallyStub、NSSA等）的配置与应用，主要包括以下几个方面：1.引入外部路由外部路由主要指非OSPF、非IS-IS等协议的路由，例如BGP、静态路由、直连路由等，需要通过特定方法引入内部路由协议，如OSPF或IS-IS。1.1在OSPF中引入外部路由可以通过import-rou
Python 函数-调用函数赔罪 Python 系统学习 python 开发语言
目录抽象调用函数数据类型转换练习小结我们知道圆的面积计算公式为：S=πr2当我们知道半径r的值时，就可以根据公式计算出面积。假设我们需要计算3个不同大小的圆的面积：r1=12.34r2=9.08r3=73.1s1=3.14*r1*r1s2=3.14*r2*r2s3=3.14*r3*r3当代码出现有规律的重复的时候，你就需要当心了，每次写3.14*x*x不仅很麻烦，而且，如果要把3.14改成3.14
python正则表达式必知必会的基础豆子前端 python基础 python 正则表达式
文章目录正则表达式re.match()和re.search()SRE_Matchobjectre.match()re.search()（重点）re.flags小结re.sub()re.split()re.findall()re.fullmatch()re.compile()小结方法分类注意细节正则表达式网站参考资料正则表达式本文主要讲的是正则表达式在python中的简单使用，只介绍关键的几个方法函
python量化交易策略实例_Day 80 量化投资与Python——项目案例 weixin_39964660 python量化交易策略实例
数据分析项目案例股票分析小结：需求：使用tushare包获取某股票的历史行情数据。输出该股票所有收盘比开盘上涨3%以上的日期。输出该股票所有开盘比前日收盘跌幅超过2%的日期。#需求四：假如我从2010年1月1日开始，每月第一个交易日买入1手股票，每年最后一个交易日卖出所有股票，到今天为止，我的收益如何？需求一：使用tushare包获取某股票的历史行情数据。#获取行情df=ts.get_k_data
使用 python框架FastAPI搭配Nacos 构建网关服务 xiaohu9606 python fastapi 数据库
文章目录概要整体架构流程技术细节小结概要本文将详细介绍如何使用FastAPI构建一个功能强大的网关服务，该网关服务能够处理认证、路由转发和日志记录等功能。我们将基于提供的代码文件进行分析，并对代码进行必要的优化和补充。整体架构流程数据库模型(base.py)fromtypingimportListfromsqlalchemyimportor_fromsqlalchemy.excimportSQLA
爬虫快速上手之正则表达式总结 Athena945 python 正则表达式正则表达式 python
目录一、正则表达式二、查找相关方法三、re.Match类的使用四、re.compile()方法的使用五、正则修饰符六、标点符号的特殊意义七、字母的特殊含义八、正则替换九、贪婪模式和非贪婪模式十、正则表达式小结一、正则表达式1、概念正则表达式是一个特殊的字符序列，通常被用来检索、替换那些符合某个模式（规则）的文本；在python中需要通过正则表达式对字符串进行匹配的时候，可以使用re模块实现全部的正
Android系统开机时间优化-实践篇（一）漫步的傻瓜 Android系统启动时间优化 android linux
Android系统开机时间优化目录背景正文优化内容小结产品功能：高清大屏、多路摄像头、蓝牙、WIFI、4G无线网络、收音机、语音识别等等。背景主芯片是多核处理器，高版本Android系统，启动时间相比android4.x的十几秒慢很多。优化前的状态:处理前已被优化的内容有：裁剪多余的原生apk和资源文件、部分耗时动作等,并修改log输出等级。这种情况下，启动时间，想比原生系统有较大改善，但不够理想
【SpringBoot4】如何理解SpringBoot的约定大于配置纵横千里，捭阖四方 spring家族一个项目征服Java spring java 后端
今天我们来谈谈SpringBoot到底给我们带来了什么以及如何做的。目录1.指导思想：约定大于配置2.SpringBoot的依赖管理3.小结1.指导思想：约定大于配置Spring的优势是帮助我们管理Bean类，并且集成大量的组件，例如连接数据库、网络通信、甚至Tomcat都可以，但是我们在使用Spring的时候还需要写大量的配置文件，例如定义谁依赖谁等等。当我们的业务代码比较多的时候，这个配置简直
25 架构能力 susemm 软件架构实践（第4版）架构 java 微服务软件架构
文章目录第25章架构能力25.1个人能力：架构师的职责、技能和知识职责技能知识那经验方面呢？25.2软件架构组织的能力25.3成为更优秀的架构师接受指导指导他人25.4小结25.5扩展阅读25.6问题讨论第25章架构能力人生苦短，学海无涯。——杰弗里・乔叟（GeoffreyChaucer）如果软件架构值得去做，那肯定值得做好。大多数关于架构的文献都集中在技术方面。这并不奇怪，因为它是一门深奥的技术
第2节课：深度学习基础python代码 Lips611 李哥深度学习 python 深度学习神经网络
目录编译环境：代码：文件：ds_0.py小结：python声明不需要定义，整型和浮点型都是直接给予值，字符串的[-2]代表是列表倒数的某值;同一列表里面可以有各种类型的变量;哈希表的键值对在打印时是调用字典[key]，然后输出对应的value文件：judge_0.py小结：python相对于c语言，是将（）换成空格和“：”，与此同时判断语句if和else的缩进不同对应着不同层次的判定条件，约等于“
优先级队列 PriorityQueue 模拟实现 a添砖Java java 开发语言
文章目录概要整体架构流程小结概要优先级队列实际是小堆,根据不同的比较方法实现小堆,也可以根据自己的需要重写比较方法,从而实现自己想要的优先级队列,获取想要的数据,接下来将会用整数模拟实现一个优先级队列;这里我的优先是优先获取最小的元素,保证出队的永远是现存的数据里最小的;整体架构流程packagedom.bite;importjava.util.Arrays;publicclassPriority
/etc/profile, ~/.bash_profile, ~/.bashrc, ~/.profile小结美好的点滴瞬间 1024程序员节
一、概念理解【profile】从概念上来说，profile一般指"个人资料"，这个一般是跟用户相关的，因此，/etc/profile,~/.profile,~/.bash_profile这三个都是跟登录相关的。【bashrc】我特意查了一下，这里的rc通常指runcommands，也有些是说runcontrol，我个人觉得runcontrol更准确。【~/】这个是指当前登录用户下的个人配置【/et
Spring注解篇：@ResponseBody详解！喵手 Springboot spring java
全文目录：开篇语前言摘要概述源码解析使用案例分享应用场景案例代码分析使用场景优缺点分析测试用例优缺点分析核心类方法介绍测试用例测试用例分析使用场景优缺点分析测试用例小结总结文末开篇语哈喽，各位小伙伴们，你们好呀，我是喵手。运营社区：C站/掘金/腾讯云/阿里云/华为云/51CTO；欢迎大家常来逛逛今天我要给大家分享一些自己日常学习到的一些知识点，并以文字的形式跟大家一起交流，互相学习，一个人虽可
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr