ZHOUXIN0426

Scrapy框架的基本组成及功能使用

1.什么是scrapy？

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。框架的本质就是集成各种功能、具有很强通用性的项目模板。

2.安装

　　Linux：

pip3 install scrapy

　　Windows：===》见Twisted安装

a. pip3 install wheel

b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

c. 进入下载目录，执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

d. pip3 install pywin32

e. pip3 install scrapy

      3.基础使用===》相关命令都是在命令行执行 
    

      　　3.1.创建项目：scrapy startproject 项目名称 
    

       　　3.2.创建爬虫应用程序： 
     

       　　　　　　cd project_name（进入项目目录） 
     

       　　　　　　scrapy genspider 应用名称 爬取网页的起始url （例如：scrapy genspider qiubai www.qiushibaike.com） 
     

       　　　　　　在步骤2执行完毕后，会在项目的spiders中生成一个应用名的py爬虫文件 
     

       　　3.3.设置修改settings.py配置文件相关配置 
     

       　　3.4.执行爬虫程序：scrapy crawl  应用名称 
     

       　　3.5.执行输出指定格式进行存储：将爬取到的数据写入不同格式的文件中进行存储 
          　　  scrapy crawl qiubai -o qiubai.json
    　　  scrapy crawl qiubai -o qiubai.xml
    　　  scrapy crawl qiubai -o qiubai.csv 
     

         
     

       项目基本结构和各个目录的意义 
     
 
        1 project_name/
 2    scrapy.cfg：
 3    project_name/
 4        __init__.py
 5        items.py
 6        pipelines.py
 7        settings.py
 8        spiders/
 9            __init__.py
　　　　　　　　 应用名称.py
10 
11 scrapy.cfg   项目的主配置信息。（真正爬虫相关的配置信息在settings.py文件中）
12 items.py     设置数据存储模板，用于结构化数据，如：Django的Model
13 pipelines    数据持久化处理
14 settings.py  配置文件，如：递归的层数、并发数，延迟下载等
15 spiders      爬虫目录，如：创建文件，编写爬虫解析规则 
      
 
执行完创建应用命令后，打开文件会显示出如下页面
 
        1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 
 4 class QiubaiSpider(scrapy.Spider):
 5     name = 'qiubai' #应用名称
 6     #允许爬取的域名（如果遇到非该域名的url则爬取不到数据）
 7     allowed_domains = ['https://www.qiushibaike.com/']
 8     #起始爬取的url
 9     start_urls = ['https://www.qiushibaike.com/']
10 
11      #访问起始URL并获取结果后的回调函数，该函数的response参数就是向起始的url发送请求后，获取的响应对象.该函数返回值必须为可迭代对象或者NUll 
12      def parse(self, response):
13         print(response.text) #获取字符串类型的响应内容
14         print(response.content)#获取字节类型的相应内容 
      
 
修改settings相关配置
 
       修改内容及其结果如下：
19行：USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36' #伪装请求载体身份

22行：ROBOTSTXT_OBEY = False  #可以忽略或者不遵守robots协议 ==》防君子不防小人协议 需要改为False，不需要遵守协议 
      
 
 
scrapy对糗事百科进行爬取
 
        1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 
 4 class QiubaiSpider(scrapy.Spider):
 5     name = 'qiubai'
 6     allowed_domains = ['https://www.qiushibaike.com/']
 7     start_urls = ['https://www.qiushibaike.com/']
 8 
 9     def parse(self, response):
10         #xpath为response中的方法，可以将xpath表达式直接作用于该函数中
11         odiv = response.xpath('//div[@id="content-left"]/div')
12         content_list = [] #用于存储解析到的数据
13         for div in odiv:
14             #xpath函数返回的为列表，列表中存放的数据为Selector类型的数据。我们解析到的内容被封装在了Selector对象中，需要调用extract()函数将解析的内容从Selecor中取出。
15             author = div.xpath('.//div[@class="author clearfix"]/a/h2/text()')[0].extract()
16             content=div.xpath('.//div[@class="content"]/span/text()')[0].extract()
17 
18             #将解析到的内容封装到字典中
19             dic={
20                 '作者':author,
21                 '内容':content
22             }
23             #将数据存储到content_list这个列表中
24             content_list.append(dic)
25 
26         return content_list 
      
 
执行爬虫程序并保存文件
执行输出指定格式进行存储：将爬取到的数据写入不同格式的文件中进行存储
    scrapy crawl qiubai -o qiubai.json
    scrapy crawl qiubai -o qiubai.xml
    scrapy crawl qiubai -o qiubai.csv


二.scrapy持久化操作：将爬取到糗百数据存储写入到文本文件中进行存储 
        1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 
 4 
 5 class QiubaiSpider(scrapy.Spider):
 6     name = 'qiubai'
 7     allowed_domains = ['https://www.qiushibaike.com/']
 8     start_urls = ['https://www.qiushibaike.com/']
 9 
10     def parse(self, response):
11         #xpath为response中的方法，可以将xpath表达式直接作用于该函数中
12         odiv = response.xpath('//div[@id="content-left"]/div')
13         with open('./data.txt', 'w') as fp:
14             for div in odiv:
15                  #xpath函数返回的为列表，列表中存放的数据为Selector类型的数据。我们解析到的内容被封装在了Selector对象中，需要调用extract()函数将解析的内容从Selecor中取出。
16                  author = div.xpath('.//div[@class="author clearfix"]/a/h2/text()')[0].extract()
17                  content=div.xpath('.//div[@class="content"]/span/text()')[0].extract()
18                  #持久化存储爬取到的内容
19                  fp.write(author + ':' + content + '\n') 
      
 
注意：上述代码表示的持久化操作是我们自己通过IO操作将数据进行的文件存储。在scrapy框架中已经为我们专门集成好了高效、便捷的持久化操作功能，我们直接使用即可。要想使用scrapy的持久化操作功能，我们首先来认识如下两个文件：
items.py：数据结构模板文件。定义数据属性。
 pipelines.py：管道文件。接收数据（items），进行持久化操作。
持久化流程：
 1.爬虫文件爬取到数据后，需要将数据封装到items对象中。
 2.使用yield关键字将items对象提交给pipelines管道进行持久化操作。
 3.settings.py配置文件中开启管道
 
三.小试牛刀：将糗事百科首页中的段子和作者数据爬取下来，然后进行持久化存储
 
        1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 from secondblood.items import SecondbloodItem
 4 
 5 class QiubaidemoSpider(scrapy.Spider):
 6     name = 'qiubaiDemo'
 7     allowed_domains = ['www.qiushibaike.com']
 8     start_urls = ['http://www.qiushibaike.com/']
 9 
10     def parse(self, response):
11         odiv = response.xpath('//div[@id="content-left"]/div')
12         for div in odiv:
13             # xpath函数返回的为列表，列表中存放的数据为Selector类型的数据。我们解析到的内容被封装在了Selector对象中，需要调用extract()函数将解析的内容从Selecor中取出。
14             author = div.xpath('.//div[@class="author clearfix"]//h2/text()').extract_first()
15             author = author.strip('\n')#过滤空行
16             content = div.xpath('.//div[@class="content"]/span/text()').extract_first()
17             content = content.strip('\n')#过滤空行
18 
19             #将解析到的数据封装至items对象中
20             item = SecondbloodItem()
21             item['author'] = author
22             item['content'] = content
23 
24             yield item#提交item到管道文件（pipelines.py） 
      
 
items.py
 
       1 import scrapy
2 
3 
4 class SecondbloodItem(scrapy.Item):
5     # define the fields for your item here like:
6     # name = scrapy.Field()
7     author = scrapy.Field() #存储作者
8     content = scrapy.Field() #存储段子内容 
      
 
管道文件：pipelines.py
 
        1 # -*- coding: utf-8 -*-
 2 
 3 # Define your item pipelines here
 4 #
 5 # Don't forget to add your pipeline to the ITEM_PIPELINES setting
 6 # See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html
 7 
 8 
 9 class SecondbloodPipeline(object):
10     #构造方法
11     def __init__(self):
12         self.fp = None  #定义一个文件描述符属性
13 　　#下列都是在重写父类的方法：
14     #开始爬虫时，执行一次
15     def open_spider(self,spider):
16         print('爬虫开始')
17         self.fp = open('./data.txt', 'w')
18 
19 　　 #因为该方法会被执行调用多次，所以文件的开启和关闭操作写在了另外两个只会各自执行一次的方法中。
20     def process_item(self, item, spider):
21         #将爬虫程序提交的item进行持久化存储
22         self.fp.write(item['author'] + ':' + item['content'] + '\n')
23         return item
24 
25     #结束爬虫时，执行一次
26     def close_spider(self,spider):
27         self.fp.close()
28         print('爬虫结束') 
      
 
配置文件：settings.py
 
       #开启管道
ITEM_PIPELINES = {
    'secondblood.pipelines.SecondbloodPipeline': 300, #300表示为优先级，值越小优先级越高
} 
      
 
Scrapy递归爬取多页数据：
　   需求：将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储
 
        1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 from qiushibaike.items import QiushibaikeItem
 4 # scrapy.http import Request
 5 class QiushiSpider(scrapy.Spider):
 6     name = 'qiushi'
 7     allowed_domains = ['www.qiushibaike.com']
 8     start_urls = ['https://www.qiushibaike.com/text/']
 9 
10     #爬取多页
11     pageNum = 1 #起始页码
12     url = 'https://www.qiushibaike.com/text/page/%s/' #每页的url
13 
14     def parse(self, response):
15         div_list=response.xpath('//*[@id="content-left"]/div')
16         for div in div_list:
17             #//*[@id="qiushi_tag_120996995"]/div[1]/a[2]/h2
18             author=div.xpath('.//div[@class="author clearfix"]//h2/text()').extract_first()
19             author=author.strip('\n')
20             content=div.xpath('.//div[@class="content"]/span/text()').extract_first()
21             content=content.strip('\n')
22             item=QiushibaikeItem()
23             item['author']=author
24             item['content']=content
25 
26             yield item #提交item到管道进行持久化
27 
28          #爬取所有页码数据
29         if self.pageNum <= 13: #一共爬取13页（共13页）
30             self.pageNum += 1
31             url = format(self.url % self.pageNum)
32 
33             #递归爬取数据：callback参数的值为回调函数（将url请求后，得到的相应数据继续进行parse解析），递归调用parse函数
34             yield scrapy.Request(url=url,callback=self.parse) 
      
 
scrapy组件
 
 
 
        引擎(Scrapy)
用来处理整个系统的数据流处理, 触发事务(框架核心)
调度器(Scheduler)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
下载器(Downloader)
用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
爬虫(Spiders)
爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
项目管道(Pipeline)
负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。
　　　　 * 解释：引擎首先会将爬虫文件中的起始url获取，并且提交到调度器中。如果需要从url中下载数据，则调度器会将url通过引擎提交给下载器，下载器根据url去下载指定内容（响应体）。下载好的数据会通过引擎移交给爬虫文件，爬虫文件可以将下载的数据进行指定格式的解析。如果解析出的数据需要进行持久化存储，则爬虫文件会将解析好的数据通过引擎移交给管道进行持久化存储。　　　　　
　
面试题：如果最终需要将爬取到的数据值一份存储到磁盘文件，一份存储到数据库中，则应该如何操作scrapy？　　
答：管道文件中的代码为：　　
 
        1 #该类为管道类，该类中的process_item方法是用来实现持久化存储操作的。
 2 class DoublekillPipeline(object):
 3 
 4     def process_item(self, item, spider):
 5         #持久化操作代码 （方式1：写入磁盘文件）
 6         return item
 7 
 8 #如果想实现另一种形式的持久化操作，则可以再定制一个管道类：
 9 class DoublekillPipeline_db(object):
10 
11     def process_item(self, item, spider):
12         #持久化操作代码 （方式1：写入数据库）
13         return item 
      
 
在settings.py开启管道操作代码为：
 
       1 #下列结构为字典，字典中的键值表示的是即将被启用执行的管道文件和其执行的优先级。
2 ITEM_PIPELINES = {
3    'doublekill.pipelines.DoublekillPipeline': 300,
4     'doublekill.pipelines.DoublekillPipeline_db': 200,
5 }
6 
7 #上述代码中，字典中的两组键值分别表示会执行管道文件中对应的两个管道类中的process_item方法，实现两种不同形式的持久化操作。 
      
 
五.Scrapy发起post请求：
 　　- 问题：在之前代码中，我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送，但是起始url的确是进行了请求的发送，那这是如何实现的呢？
　 　- 解答：其实是因为爬虫文件中的爬虫类继承到了Spider父类中的start_requests（self）这个方法，该方法就可以对start_urls列表中的url发起请求：
 
           def start_requests(self):
        for u in self.start_urls:
           yield scrapy.Request(url=u,callback=self.parse) 
      
　　【注意】该方法默认的实现，是对起始的url发起get请求，如果想发起post请求，则需要子类重写该方法。
　　- 重写start_requests方法，让其发起post请求：
 
 
       def start_requests(self):
        #请求的url
        post_url = 'http://fanyi.baidu.com/sug'
        # 表单数据
        formdata = {
            'kw': 'wolf',
        }
        # 发送post请求
        yield scrapy.FormRequest(url=post_url, formdata=formdata, callback=self.parse) 
      
 

         
     

转载于:https://www.cnblogs.com/Roc-Atlantis/p/9719896.html

python基于rsa的数字签名实现_OpenSSL和Python实现RSA Key数字签名和验证 weixin_39658019
OpenSSL和Python实现RSAKey数字签名和验证，基于非对称算法的RSAKey主要有两个用途，数字签名和验证(私钥签名，公钥验证)，以及非对称加解密(公钥加密，私钥解密)。本文提供一个基于OpenSSL命令行和Python的数字签名和验证过程的例子，另外会另起一篇使用OpenSSL和Python进行非对称加解密的例子。1.OpenSSL实现数字签名和验证1.1生成私钥生成2048bit的
python实现linux账号管理_linux——用户管理文强孙
1.用户基本概述1.什么是用户?用户指的是能够正常登录Linux或Windows系统(可以理解为你租了房子，能够正常入驻)F:那Linux与Windows系统的用户有什么区别?Q:本质都是登陆系统，只不过Linux支持多个用户同时登陆。F:难道Windows就不算多用户操作系统吗?Q:其实不是，在Windows系统中可以创建多个用户，但不允许同一时刻多个用户登陆系统，但Linux系统则允许同一时刻
如何指定复制自查询的列潮易 scikit-learn
如何指定复制自查询的列在Python中，我们可以使用pandas库来处理和处理数据。假设我们有一个DataFrame，其中包含一列"check_query"，我们想要复制这个列到一个新的列"new_column"，并且只保留指定的几列。以下是详细步骤和代码示例：```pythonimportpandasaspd#创建一个示例DataFramedf=pd.DataFrame({'A':[1,2,3]
EdDSA (Edwards-curve Digital Signature Algorithm)算法详解及python实现闲人编程密码学与信息安全算法 python 开发语言密码学加密解密 EDDSA
目录第一部分：EdDSA算法概述1.1什么是EdDSA？1.2EdDSA的数学原理1.3应用场景第二部分：EdDSA签名生成与验证流程2.1签名生成流程2.2签名验证流程第三部分：Python实现：EdDSA签名生成3.1安装依赖3.2EdDSA签名生成的Python实现3.3代码解释第四部分：Python实现：EdDSA签名验证4.1EdDSA签名验证的Python实现4.2代码解释第五部分：案
AES加密解密CBC模式与ECB模式_aes cbc加解密全栈_XzJ python 开发语言
一、概要AES（AdvancedEncryptionStandard）是一种对称加密算法，广泛应用于信息安全领域。AES支持多种密钥长度，包括128比特、192比特和256比特。在AES加密和解密中，同一个密钥用于两个过程。下面是一个简单的Python实例，演示如何使用AES加密和解密文本。这里使用的是Python标准库中的cryptography模块，确保你已经安装该模块：pipinstallc
SQLite Delete 语句详解 wjs2024 开发语言
SQLiteDelete语句详解SQLite是一种轻量级的数据库管理系统，广泛应用于移动设备、嵌入式系统和服务器端应用。在数据库管理中，删除数据是一项基本操作。SQLite提供了强大的删除功能，本文将详细介绍SQLite的Delete语句及其用法。1.Delete语句概述Delete语句用于从SQLite数据库中删除记录。其基本语法如下：DELETEFROMtable_nameWHEREcondi
在 Python 中执行 BASH 命令——在同一进程中潮易 python bash chrome
在Python中执行BASH命令——在同一进程中在Python中执行BASH命令，可以使用`os.system()`或`subprocess`模块。以下是两种方法的详细步骤：方法一：使用`os.system()````pythonimportos#执行一个bash命令，例如显示当前目录下的所有文件command="ls"output=os.system(command)print("Command
Python 爬虫实战：全球公司财报数据抓取与财务健康分析西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，数据已成为企业决策、投资分析和市场研究的关键要素。公司财报数据作为企业经营状况的重要反映，对于投资者、分析师以及企业管理者来说具有极高的价值。通过获取和分析全球公司的财报数据，我们可以深入了解企业的财务健康状况，为投资决策提供有力支持。本文将详细介绍如何使用Python爬虫技术抓取全球公司财报数据，并进行财务健康分析。二、爬虫环境搭建在开始爬取数据之前，我们需要先搭建好P
大数据学习（82）-数仓详解 viperrrrrrr 大数据学习数仓
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、什么是数据仓库数据仓库（下文以“数仓”称），顾名思义，存放数据的仓库，它集合了各个业务系统的数据，以金融业为例，数仓包含了贷款业务、CRM、存款业务等数据。用于企业做数据分析、出报告、做决策；在有些公司也作为各业务系统的数据来源。从逻辑上理解，数据库和数仓没有区别，都是通过数据
Linux的权限巷子里的童年ya linux 运维服务器 centos
基本权限与归属读取：允许查看内容-readr写入：允许修改内容-writew可执行：允许运行和切换-excutex1、对于文本文件：r读取权限：cat、less、grep、head、tailw写入权限：vim、>、>>x可执行权限：Shell与Python\Go2、对于目录：r读取权限：ls命令查看目录内容w写入权限：能够创建、删除、修改等目录的内容x执行权限：能够cd切换到此目录下（进入此目录）
Java项目设计文档：架构、模块与实现策略详解体制教科书
本文还有配套的精品资源，点击获取简介：Java项目设计文档是项目规划、实施和维护的重要指导工具，包含系统架构、模块划分、接口定义、类设计、数据库设计、异常处理、测试计划、性能优化以及部署运维等方面。本设计文档集合对于理解Java项目的架构设计和提升项目开发质量具有极高的参考价值。1.项目背景阐述在当今数字化转型的大潮中，企业对于IT系统的依赖日益加重。项目背景阐述这一章，将为您揭示本次项目的发起缘
Python 学习笔记1 - 认识Python Scora_liu Python 学习笔记 python
一、什么是Python1989年圣诞节期间，荷兰数学和计算机科学研究学会的GuidovanRossum（吉多.范罗苏姆）决心开发一个新的解释程序，作为ABC语言的替代品。这门ABC语言的替代语言被取名为Python,命名来自Guido爱看的的电视剧MontyPython'sFlyingCircus（蟒蛇马戏团）。二、什么是Python（⭐⭐）Python是一门解释型语言。计算机不能识别任何除了机器
YashanDB yasrman恢复数据库
本文内容来自YashanDB官网，原文内容请见https://doc.yashandb.com/yashandb/23.3/zh/%E6%95%B0%E6%8D%AE%...操作说明执行恢复操作的数据库版本需与生成备份集的数据库版本完全一致。恢复语法详细说明请参考工具手册yasrman。分布式部署模式下，需要保证待恢复的集群部署状态与备份前节点部署状态一致，包括节点类型、节点监听IP、节点个数、节
【赵渝强老师】达梦数据库的逻辑存储结构数据库信创
达梦数据库由硬盘上的文件组成，而要读写数据需要通过达梦实例来完成。那么，达梦数据库是如何存储数据的呢？要搞清楚这个问题，就需要理解什么是达梦数据库的存储结构。达梦数据库的存储结构是由逻辑存储结构和物理存储结构组成。一般来说数据库无论是关系型数据库，还是NoSQL数据库在存储结构上，都是通过逻辑存储结构来管理物理存储结构。视频讲解如下：https://www.bilibili.com/video/B
从零开始学AI——1 人工智能
前言最近总算有想法回到学习上来，这次就拿AI开刀吧。本系列叫从零开始学AI不是骗人的，我对AI的了解几乎就是道听途说，所以起了这么一个标题，希望学完从0变1（？此外，我应该不会特别关注代码实现上的内容，因为我对python也是一窍不通。本笔记为学习周志华老师《机器学习》（西瓜书）的个人学习记录，内容基于个人理解进行整理和再阐述。由于理解可能存在偏差，欢迎指正。引用模块说明：在笔记中，我会使用引用模
Python 正则表达式超详细解析：从基础到精通 2201_75491841 python 正则表达式开发语言
Python正则表达式超详细解析：从基础到精通一、引言在Python编程的广阔领域中，文本处理占据着极为重要的地位。而正则表达式，作为Python处理文本的强大工具，能够帮助开发者高效地完成诸如查找、替换、提取特定模式字符串等复杂任务。无论是在数据清洗、网页爬虫，还是日志分析、自然语言处理等应用场景中，正则表达式都展现出了无可比拟的优势。本文将深入且全面地剖析Python正则表达式，从最基础的概念
Python如何实现粒子效果如烟雾、火焰、雨滴等. openwin_top python编程示例系列二 python 开发语言
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位在Panda3D中实现粒子效果主要依赖于其内置的粒子系统。这个系统允许开发者创建各种动态的视觉效果，如烟雾、火焰、雨滴等。下面我将详细介绍如何在Panda3D中添加一个简单的粒子效果。步骤1:准备粒
YashanDB巡检数据库
巡检在YashanDB中为一个单独的后台线程，该线程类似于巡逻小队，不断地监控数据库的运行状况。当发生严重错误时，收集诊断数据存储在自动诊断存储库中，并且触发相应的修复手段或者限制损坏及中断。巡检主要包含如下内容：监控数据库文件发生严重错误时触发健康检查监控同步备库（最大保护模式）文件监控YashanDB的后台文件都存储着重要的信息，部分文件丢失可能导致数据库无法正常使用。此外，用户不可以手动改动
YashanDB健康检查数据库
YashanDB提供健康检查框架，用于数据库运行诊断检查。健康检查也称为检查器，检查数据库的各个组件，如检测文件损坏、数据块损坏、redo日志损坏等，并生成一份报告，记录发现的错误以及错误带来的影响。可以通过如下两种方式运行健康检查：反应式——故障诊断架构自动运行健康检查以响应严重错误。手动——使用内置高级包手动运行健康检查。如有需要，可以通过定义JOB定期运行健康检查。健康检查执行的结果将存储在
常见的数据库操作语言DDL、DML、DQL和DCL 失败尽是常态Z MySQL基础学习数据库 sql mysql
DDL、DML、DQL和DCL是常见的数据库操作语言，分别代表数据定义语言、数据操纵语言、数据查询语言和数据控制语言。1、数据定义语言（DDL）用于在数据库中创建、修改或删除表、视图、索引、序列等对象。常见的DDL命令有CREATE、ALTER和DROP等。2、数据操纵语言（DML）用于在数据库中对表进行插入、更新、删除等操作。常见的DML命令有INSERT、UPDATE和DELETE等。3、数据
Python中的机制：全局解释锁和回收机制林十一npc Python语言 python 开发语言
Python中的机制：全局解释锁和回收机制一、全局解释锁GIL1.基础原理全局解释锁：是CPython中引入的一种机制，确保同一时刻保持一个线程执行Python的字节码。锁的粒度：GIL是全局唯一的锁，线程在执行Pyhton代码前必须要获取GIL,执行完毕后进行释放。线程切换：CPython解释器通过固定间隔（如python字节码指令或遇到I/O操作），释放GIL,触发线程切换。底层实现GIL的实
一篇文章，彻底理解数据库操作语言：DDL、DML、DCL、TCL Java布道者 oracle 数据库 sql
最近与开发和运维讨论数据库账号及赋权问题时，发现大家对DDL和DML两个概念并不了解。于是写一篇文章，系统的整理一下在数据库领域中的DDL、DML、DQL、DCL的使用及区别。通常，数据库SQL语言共分为四大类：数据定义语言DDL，数据操作语言DML，数据查询语言DQL，数据控制语言DCL。再加上事务控制语言TCL，一个共5个。下面，我们就详细了解一下它们。数据定义语言DDLDDL（DataDef
大模型的应用与微调：如何调用 LLM？从 OpenAI API 到本地部署晴天彩虹雨 AI 大模型 ai 语言模型 gpt 人工智能
本篇文章将详细介绍如何调用大语言模型（LLM），涵盖OpenAIAPI、DeepSeek、Manus、通义千问等模型的调用方式，并探讨如何在本地部署LLM进行推理。1.调用OpenAIAPI（GPT系列）OpenAI提供了RESTfulAPI供开发者调用GPT系列模型。示例：使用Python调用OpenAIAPIimportopenaiopenai.api_key="your_api_key"re
MySQL中处理JSON数据小村学长毕业设计 mysql json 数据库
MySQL中处理JSON数据已成为大数据分析领域的一个新方向，这一功能自MySQL5.7版本引入以来，为数据库管理系统在处理非结构化数据方面提供了强大的支持。以下是对MySQL中处理JSON数据的详细探讨，包括其引入的背景、特性、函数与操作符、性能优化以及在大数据分析中的应用等方面。一、JSON数据类型引入的背景随着大数据技术的迅猛发展和普及，数据量的爆炸性增长对数据处理能力提出了前所未有的挑战。
python实现简易任务管理器 Roc-xb python 服务器 linux
本章教程，主要利用python实现一个简单的任务管理器，可以快速结束任务进程。目录一、实例代码二、效果演示一、实例代码#!/usr/bin/python#-*-coding:UTF-8-*-"""@author:Roc-xb"""#encoding:utf-8importsubprocessdefexecute_cmd(command):subprocess.run('chcp65001',she
SQLServer : DDL,DML,DQL,DCL的区别 SJ15630070060 Sql Server sqlserver 数据库
01、DDL（DataDefinitionLanguages）语句：即数据库定义语句，用来创建数据库中的表、索引、视图、存储过程、触发器等对象。SQLServerDLL语法是指SQLServer数据库定义域发的语法规则集合，主要包括创建、修改和删除数据库对象的语句。常用的语句关键字有：【createtable创建表】、【altertable修改表】、【droptable删除表】、【truncate
MySQL数据库中DDL 、DML 、DQL 、DCL 分别是什么超爱西西鸭 MySQL数据库数据库 mysql sql 运维
目录：一、DDL语句二、DML语句三、DQL语句四、DCL语句在MySQL数据库中，DDL、DML、DQL、DCL分别代表不同的语言类别，用于执行不同的数据库操作。一、DDL语句DDL（DataDefinitionLanguage）语句：数据定义语言，主要是进行定义/改变表的结构、数据类型、表之间的链接等操作。如创建、修改或删除表、视图、索引等。常用的语句关键字CREATE、DROP、ALTER、
数据库开发必备：深入理解DDL、DML、DQL和DCL 平凡程序猿~ 数据库数据库开发 oracle 数据库
文章目录一、数据库操作分类概述1.DDL（数据定义语言）2.DML（数据操作语言）3.DQL（数据查询语言）4.DCL（数据控制语言）二、DDL：数据定义语言1.DDL-数据库操作2.DDL-表操作三、DML：数据操作语言1.DML-添加数据2.DML-修改数据3.DML-删除数据四、DQL：数据查询语言1.DQL-基本查询2.DQL-条件查询3.DQL-聚合函数4.DQL-分组查询5.DQL-排
Python 学习第五册深度学习第1章什么是深度学习 weixin_38135241 python 学习深度学习人工智能
----用教授的方式学习。目录1.1人工智能、机器学习与深度学习1.1.1人工智能1.1.2机器学习1.1.3从数据中学习表示1.1.4深度学习之“深度”1.1.5用三张图理解深度学习的工作原理1.2深度学习之前：机器学习简史1.2.1概率建模1.2.2核方法1.2.3决策树、随机森林与梯度提升机1.2.4深度学习有何不同什么是深度学习？1.1人工智能、机器学习与深度学习三者关系：1.1.1人工智
MySQL 奇幻之旅：从基础探秘到高级应用魔法进阶的华夫饼进大厂 mysql 数据库
MySQL奇幻之旅：从基础探秘到高级应用魔法在数据库的神秘世界里，MySQL宛如一座蕴藏无尽宝藏的城堡，我怀揣着探索的热情与求知的渴望，踏上了这趟扣人心弦的学习征程。一、MySQL基础：城堡基石的雕琢（一）数据库与表的操作：构建数据的栖息之所数据库创建与管理：绘制数据城堡的蓝图：犹如精心绘制城堡的设计图，我熟练掌握了使用CREATEDATABASE语句创建数据库的魔法咒语，像CREATEDATAB
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

Scrapy框架的基本组成及功能使用

你可能感兴趣的:(python,爬虫,数据库)