polyhedronx

python实战笔记之（13）：Scrapy基本用法实例讲解

Scrapy是一个非常强大的异步爬虫框架，它已经给我们写好了许许多多的组件，使用Scrapy我们只用关心爬虫的逻辑就好了。本文通过一个简单的项目了解一下Scrapy的爬取流程，对Scrapy的基本用法也有一个大体的了解。

一、目标站点分析

Scrapy提供了一个官方抓取网站：http://quotes.toscrape.com，主要列出了一些名人名言，相应的作者和标签信息。

下拉到底点击“Next” 会进行翻页，URL变为“http://quotes.toscrape.com/page/2/”，这是一个最简单的GET请求实例，通过改变链接的名称就可以进行翻页了，网页结构也非常简单，没有任何的反爬虫措施，所以就选用这一个站点作为Scrapy的入门实例。

二、流程框架

1.抓取第一页

请求第一页的URL并得到源代码，进行下一步的分析。

2.获取内容和下一页链接

分析源代码，提取首页内容，获取下一页链接等待进一步提取。

3.翻页爬取

请求下一页信息，分析内容并请求下一页链接。

4.保存爬取结果

将爬取结果保存为特定格式，如文本、数据库。

三、Scrapy实战

1.首先cd到项目目录下，输入“scrapy startproject quotetutorial”，即项目名为quotetutorial。

2.按照提示，首先“cd quotetutorial”，接着用genspider创建一个spider：“scrapy genspider quotes quotes.toscrape.com”，其中“quotes”为spider名称，“quotes quotes.toscrape.com”是要爬取的URL。

现在我们就完成了spider的创建，实际上就是为我们创建了一个“quotes.py”文件，文件内容如下：

# -*- coding: utf-8 -*-
import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    allowed_domains = ["quotes.toscrape.com"]
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        pass

除此之外，我们可以看到还有以下文件：

其中，“scrapy.cfg”为配置文件；“items.py”是用来保存数据的数据结构；“middlewares.py”是在爬取过程中定义的一些中间件，可以用来处理Request，Response以及Exceptions等操作，也可以用来修改Request, Response等相关的配置；“pipelines.py”即项目管道，可以用来输出一些items；另外，最重要的就是“settings.py”，里面定义了许多配置信息。最主要的运行代码是在“quotes.py”里面。

首先在命令行运行一下“scrapy crawl quotes”，回车之后控制台输出了一些调试信息。可以看出，它和普通的爬虫不太一样，Scrapy提供了很多额外的输出。

E:\PycharmProjects\quotetutorial>scrapy crawl quotes
2018-09-06 20:24:23 [scrapy.utils.log] INFO: Scrapy 1.3.3 started (bot: quotetutorial)
2018-09-06 20:24:23 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'quotetutorial', 'NEWSPIDER_MODULE': 'quotetutorial.spiders', 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['quotetutorial.spiders']}
2018-09-06 20:24:24 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2018-09-06 20:24:25 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-09-06 20:24:25 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-09-06 20:24:26 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-09-06 20:24:26 [scrapy.core.engine] INFO: Spider opened
2018-09-06 20:24:26 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-09-06 20:24:26 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-09-06 20:24:27 [scrapy.core.engine] DEBUG: Crawled (404)  (referer: None)
2018-09-06 20:24:28 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)
2018-09-06 20:24:28 [scrapy.core.engine] INFO: Closing spider (finished)
2018-09-06 20:24:28 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 444,
 'downloader/request_count': 2,
 'downloader/request_method_count/GET': 2,
 'downloader/response_bytes': 2701,
 'downloader/response_count': 2,
 'downloader/response_status_count/200': 1,
 'downloader/response_status_count/404': 1,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2018, 9, 6, 12, 24, 28, 276209),
 'log_count/DEBUG': 3,
 'log_count/INFO': 7,
 'response_received_count': 2,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2018, 9, 6, 12, 24, 26, 236622)}
2018-09-06 20:24:28 [scrapy.core.engine] INFO: Spider closed (finished)

E:\PycharmProjects\quotetutorial>

这么看这个爬虫似乎没有输出我们想要的那种信息，将“quotes.py”文件改写之后再运行：

# -*- coding: utf-8 -*-
import scrapy


class QuotesSpider(scrapy.Spider):
    name = "quotes"
    allowed_domains = ["quotes.toscrape.com"]
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        print(response.text)

上面文件中的parse方法，是请求文件之后默认调用的一个方法，我们在这里可以打印出请求的响应内容。

parse方法实际上就是一个默认的回调，在爬虫启动的时候会首先请求start_urls里的链接，然后会自动调用parse方法进行解析。

3.接下来，我们看一下该怎么抓取这个网页。

网页结构很简单，看下图便一目了然。class="text"包含了句子内容，class="author"包含了作者信息，class="tags"包含了标签信息，它们都包含在class="quote"的一个div标签里。

借助Scrapy提供的“items.py”定义统一的数据结构，指定一些字段之类的，将爬取到的结果作为一个个整体存下来。根据提示更改文件如下：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class QuoteItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    text = scrapy.Field()
    author = scrapy.Field()
    tags = scrapy.Field()

接下来在parse方法里面写一下解析的方法：

def parse(self, response):
    quotes = response.css('.quote')
    for quote in quotes:
        text = quote.css('.text::text').extract_first()
        author = quote.css('.author::text').extract_first()
        tags = quote.css('.tags .tag::text').extract()

解析方法和pyquery非常相似，“.text”指的是标签的class，“::text”是Scrapy特有的语法结构，表示输出标签里面的文本内容，“extract_first()”方法表示获取第一个内容，而“extract”会把所有结果都找出来（类似于find和findall）。

Scrapy还为我们提供了一个非常强大的工具--shell，直接输入“scrapy shell quotes.toscrape.com”就可以进入命令行交互模式：

E:\PycharmProjects\quotetutorial>scrapy shell quotes.toscrape.com
2018-09-06 21:02:36 [scrapy.utils.log] INFO: Scrapy 1.3.3 started (bot: quotetutorial)
2018-09-06 21:02:36 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'quotetutorial', 'DUPEFILTER_CLASS': 'scrapy.dupefilt
ers.BaseDupeFilter', 'LOGSTATS_INTERVAL': 0, 'NEWSPIDER_MODULE': 'quotetutorial.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES':
['quotetutorial.spiders']}
2018-09-06 21:02:36 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole']
2018-09-06 21:02:37 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-09-06 21:02:37 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-09-06 21:02:37 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-09-06 21:02:37 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-09-06 21:02:37 [scrapy.core.engine] INFO: Spider opened
2018-09-06 21:02:39 [scrapy.core.engine] DEBUG: Crawled (404)  (referer: None)
2018-09-06 21:02:39 [scrapy.core.engine] DEBUG: Crawled (200)  (referer: None)
2018-09-06 21:02:48 [traitlets] DEBUG: Using default logger
2018-09-06 21:02:48 [traitlets] DEBUG: Using default logger
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    
[s]   item       {}
[s]   request    
[s]   response   <200 http://quotes.toscrape.com>
[s]   settings   
[s]   spider     
[s] Useful shortcuts:
[s]   fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)
[s]   fetch(req)                  Fetch a scrapy.Request and update local objects
[s]   shelp()           Shell help (print this help)
[s]   view(response)    View response in a browser
In [1]:

在此模式可以进行一些相应的调试，比如输入“response”就会有一个输出结果：

In [1]: response
Out[1]: <200 http://quotes.toscrape.com>

同样地，我们可以查看“response.css('.quote')”的输出：

In [2]: quotes = response.css('.quote')

In [3]: quotes
Out[3]: 
[,
 ,
 ,
 ,
 ,
 ,
 ,
 ,
 ,
 ]

输出结果是list类型，里面的内容是Selector选择器，查看第一个结果：

In [4]: quotes[0]
Out[4]:

继续使用css选择器选择class为text的部分，可以看到结果也是一个list，内容只有一个，也是一个Selector。

In [5]: quotes[0].css('.text')
Out[5]: []

使用“::text”会有什么不同呢？让我们来看一下：

In [6]: quotes[0].css('.text::text')
Out[6]: []

可以看到，不同之处是里面的data变成了字符串格式的数据，而不带“::text”获取到的是整个标签的内容。

再加上extract()会发生什么呢？

In [7]: quotes[0].css('.text::text').extract()
Out[7]: ['“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”']

返回的依然是list，长度为1，内容是一个字符串。如果去掉“::text”，则返回的是内容为标签的list，如下。也就是说，使用extract()，是把原来Selector中的data单独提取了出来。

In [8]: quotes[0].css('.text').extract()
Out[8]: ['“The world as we have created it is a process of our thinking. It cannot be changed wi
thout changing our thinking.”']

我们再继续修改一下，使用extract_first()。可以想到，使用extract_first()获取到的应该是原来list中的第一个值，也就是说，现在返回的应该是一个字符串，而不再是一个列表了。

In [9]: quotes[0].css('.text::text').extract_first()
Out[9]: '“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”'

上面选取的是class为text的标签，里面只有一个元素，所以用extract()获取到的list里面也只有一个元素，而class为tags的标签就不一样了，里面包含了可能不止一个元素，如下，我们获取到的就是一个包含了多个元素的list。使用extract_fist()依然可以获取list中的第一个元素。

In [10]: quotes[0].css('.tags .tag::text').extract()
Out[10]: ['change', 'deep-thoughts', 'thinking', 'world']

In [11]: quotes[0].css('.tags .tag::text').extract_first()
Out[11]: 'change'

综上，我们就可以理解了extract_first()和extract()的不同之处，一个是返回第一个结果，一个是返回列表形式的内容。以后我们在做单个结果的解析时，可以使用extract_first()，多个使用extract()就好了。

接下来调用一下我们刚才定义的items，将提取出的网页信息存储到item，然后调用yield方法将item生成出来。

def parse(self, response):
    quotes = response.css('.quote')
    for quote in quotes:
        item = QuoteItem()
        text = quote.css('.text::text').extract_first()
        author = quote.css('.author::text').extract_first()
        tags = quote.css('.tags .tag::text').extract()
        item['text'] = text
        item['author'] = author
        item['tags'] = tags
        yield item

重新运行一下爬虫（在命令行输入“scrapy crawl quotes”）就能看到输出了提取出的一些信息：

4.翻页并爬取其它页面信息

由于网页的请求方式非常简单，比如第二页就是“http://quotes.toscrape.com/page/2/”，请求其它页只要将“2”替换成对应数字即可。在页面底端点击“Next”也可以切换到下一页，这是因为“Next”对应着下一页的超链接，同样地，我们可以从网页源代码中提取出这个超链接。

根据分析将parse方法修改如下：

def parse(self, response):
    quotes = response.css('.quote')
    for quote in quotes:
        item = QuoteItem()
        text = quote.css('.text::text').extract_first()
        author = quote.css('.author::text').extract_first()
        tags = quote.css('.tags .tag::text').extract()
        item['text'] = text
        item['author'] = author
        item['tags'] = tags
        yield item
    
    next = response.css('.pager .next a::attr(href)').extract_first()
    url = response.urljoin(next)
    yield scrapy.Request(url=url, callback=self.parse)

其中，urljoin方法是为了拼凑出完整的url，因为我们获取到的“next”只是类似于“/page/3/”这样。最后生成一个Request，第一个参数就是要请求的url，第二个参数“callback”是回调函数的意思，也就是请求之后得到的response由谁来处理，这里我们还是调用parse，因为parse方法就是用来处理索引页的，这就相当于完成了一个递归的调用，可以一直不断地获取下一页的链接并对访问得到的信息进行处理。

再次重新运行程序，可以看到输出了10页的内容，这是因为该网站只有10页内容。

5.下面我们把抓取到的信息进行保存。

保存信息也很简单，在原来的命令后面增加“-o 文件名称.json”，爬取完成后就会生成一个“quotes.json”文件，把获取到的信息保存成了标准的json格式。

scrapy crawl quotes -o quotes.json

数据不仅可以保存成json格式，Scrapy还提供了其它存储格式，比如“jl”格式，在命令行输入如下命令就可以得到jl格式文件。相比于json格式，它没有了最前面和最后面的的大括号，每条数据独占一行。

scrapy crawl quotes -o quotes.jl

或者保存成csv格式：

scrapy crawl quotes -o quotes.csv

它还支持xml：

scrapy crawl quotes -o quotes.xml

此外它还支持“pickle”和“marshal”等格式，此处就不一一列举了。

Scrapy同时提供了一种远程ftp的保存方式，可以将爬取结果通过ftp的形式进行保存，例如：

scrapy crawl quotes -o ftp://user:[email protected]/path/quotes.csv

6.在保存之前还需要做一些item的相应的处理，因为在解析完之后，有一些item可能不是我们想要的，或者我们想把item保存到数据库里面，就需要借助Scrapy的Pipeline工具。

如下，在“pipelines.py”里我们写了两个pipeline，第一个TextPipeline类是对item进行一些处理，这里实现的功能是长度限制，如果text长度大于50，则舍弃后面的部分，并用省略号代替。在item的text不存在时，DropItem抛出异常。MongoPipeline类是用来将数据保存到MongoDB数据库，其中，类方法from_crawler用来从settings里面拿到配置信息，当然，我们同时需要在“settings.py”文件里面添加配置信息。open_spider方法是在爬虫刚要启动时需要执行的操作，在这里进行pymongo的一些初始化操作。复写process_item方法，将数据写入数据库。最后close_spider方法将MongoDB的连接关闭。

注意：要想让pipeline生效，需要在settings里面指定pipeline。后面的序号300和400这样，代表pipeline运行的优先级顺序，序号越小表示优先级越高，会优先进行调用。

# pipelines.py

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
import pymongo
from scrapy.exceptions import DropItem


class TextPipeline(object):
    
    def __init__(self):
        self.limit = 50
        
    def process_item(self, item, spider):
        if item['text']:
            if len(item['text']) > self.limit:
                item['text'] = item['text'][0:self.limit].rstrip() + '...'
            return item
        else:
            return DropItem('Missing Text')


class MongoPipeline(object):
    
    def __init__(self, mongo_uri, mongo_db):
        self.mongo_uri = mongo_uri
        self.mongo_db = mongo_db
    
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            mongo_uri=crawler.settings.get('MONGO_URI'),
            mongo_db=crawler.settings.get('MONGO_DB')
        )
    
    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.mongo_uri)
        self.db = self.client[self.mongo_db]
        
    def process_item(self, item, spider):
        name = item.__class__.__name__
        self.db['quotes'].insert(dict(item))
        return item
    
    def close_spider(self, spider):
        self.client.close()

# settings.py

MONGO_URI = 'localhost'
MONGO_DB = 'quotestutorial'

ITEM_PIPELINES = {
	'quotetutorial.pipelines.TextPipeline': 300,
	'quotetutorial.pipelines.MongoPipeline': 400,
}

搞好之后我们可以再次运行一下程序（命令行输入“scrapy crawl quotes”），可以看到输出的text过长的话，后面就被省略号代替了，同时数据也被存入了MongoDB数据库。

如果运行过程中出现了下面这种错误，是因为MongoDB服务器没有开启，解决方法就是在CMD中cd到mongodb/bin目录下，执行命令 mongod --dbpath "e:\mongodb\data"（将路径换成你的mongodb安装路径）就可以了，注意不要把命令窗口关闭，然后就可以进行MongoDB数据库的相关操作了。

pymongo.errors.ServerSelectionTimeoutError: localhost:27017: [WinError 10061] 由于目标计算机积极拒绝，无法连接。

你可能感兴趣的:(python)

Python实现图像（边缘）锐化：梯度锐化、Roberts 算子、Laplace算子、Sobel算子的详细方法闲人编程 python python 计算机视觉人工智能 Sobel Laplace Roberts 锐化
目录Python实现图像（边缘）锐化：梯度锐化、Roberts算子、Laplace算子、Sobel算子的详细方法引言一、图像锐化的基本原理1.1什么是图像锐化？1.2边缘检测的基本概念二、常用的图像锐化算法2.1梯度锐化2.1.1实现步骤2.2Roberts算子2.2.1实现步骤2.3Laplace算子2.3.1实现步骤2.4Sobel算子2.4.1实现步骤三、Python实现图像锐化3.1导入必
QT +MYSQL+PYTHON,完成一个数据库表的增删改查 laocooon523857886 QT Python 数据库 qt mysql
ui_form.py#-*-coding:utf-8-*-##################################################################################FormgeneratedfromreadingUIfile'form.ui'####Createdby:QtUserInterfaceCompilerversion6.8.1#
【上市公司文本分析】Python正则表达式从非结构化文本数据中提取结构化信息——以从上市公司高管简历中提取毕业院校信息为例 Ryo_Yuki #上市公司文本分析 Python python 正则表达式
从CSMAR中可以获取上市公司高管的简历文本信息，虽然是非结构化的，但是隐约可以从中发现一些规律，例如毕业院校很多出现在毕业于、就读于等词语之后，专业很多出现在大学名之后，但这些又不是绝对的，也会有其他一些规则。下方代码是我基于我的300多条示例数据（如果需要练习，可以评论邮箱），经过反复修改正则表达式规则去编制的，能够做到节约85%左右的人工工作量，但无法保证绝对精确。对于其他非结构化但又有规律
python中全局变量和局部变量详解_Python局部变量与全局变量区别原理解析 weixin_39998795
1、局部变量name="YangLi"defchange_name(name):print("beforechange:",name)name="你好"print("afterchange",name)change_name(name)print("在外面看看name改了么?",name)输出：beforechange:YangLiafterchange你好在外面看看name改了么?YangLi2
python中全局变量的使用 weixin_33737774 python
python中在module定义的变量可以认为是全局变量，而对于全局变量的赋值有个地方需要注意。test.py--------------------------------------------------importsysusername="muzizongheng"password="xxxx"defLogin(u,p):username=upassword=pprint("usernam
C++和Python实现SQL Server数据库导出数据到S3并导入Redshift数据仓库 weixin_30777913 c++python 数据库数据仓库 sqlserver
用C++实现高性能数据处理，Python实现操作Redshift导入数据文件。在VisualStudio2022中用C++和ODBCAPI导出SQLServer数据库中张表中的所有表的数据为CSV文件格式的数据流，用逗号作为分隔符，用双引号包裹每个数据，字符串类型的数据去掉前后的空格，数据中如果包含双引号，则将一个双引号替换为两个双引号，创建gzip压缩文件，输出数据流写入到gzip压缩文件包中的
scikit-learn基本功能和示例代码 weixin_30777913 深度学习机器学习 python scikit-learn
scikit-learn（简称sklearn）是一个广泛使用的Python机器学习库，提供了丰富的工具和算法，涵盖了数据预处理、模型训练、评估和优化等多个方面。scikit-learn是一个功能强大的机器学习库，涵盖了数据预处理、分类、回归、聚类、降维、模型选择与评估等多个方面。通过上述代码示例，您可以快速上手并使用scikit-learn进行机器学习任务。以下是对scikit-learn主要功能
python 字符串分割方法_Python字符串分割方法总结不胖的羊 python 字符串分割方法
Python中字符串分割的常用方法是直接调用字符串的str.split方法，但是其只能指定一种分隔符，如果想指定多个分隔符拆分字符串需要用到re.split方法(正则表达式的split方法)。str.split字符串的split方法函数原型如下，其中sep为指定的分隔符，maxsplit为最大分割次数：1str.split(sep=None,maxsplit=-1)默认情况下，不指定分隔符时则以空
你们要的python圣诞树坏柠 python python pycharm 开发语言
圣诞节要到了，不给对象画一颗圣诞树吗？那就用python画一颗圣诞树吧#-*-codeing=utf-8-*-#@Time:2021/12/1410:35#@Author:1#@File:圣诞树.py.py#@Softestr:PyCharmimportturtleimporttimeimportrandomturtle.screensize(700,600,"thistle3")turtle.
Python怎么使用全局变量？怎么使用全局变量字典？许墨の小蝴蝶 python
在Python中，全局变量是指在函数外部定义的变量，它们可以在整个程序中被访问。要在一个函数内部使用或修改全局变量，你需要遵循一些规则。###定义全局变量首先，在函数外部定义一个全局变量：```pythonglobal_var=10```###在函数内部读取全局变量如果只是想在函数内部读取全局变量的值，直接使用变量名即可：```pythondefread_global():print(global
Python 实现定时任务的八种方案爱摸鱼的菜鸟码农 python 开发语言后端
在日常工作中，我们常常会用到需要周期性执行的任务，一种方式是采用Linux系统自带的crond结合命令行实现。另外一种方式是直接使用Python。接下里整理的是常见的Python定时任务的实现方式。目录利用whileTrue:+sleep()实现定时任务使用Timeloop库运行定时任务利用threading.Timer实现定时任务利用内置模块sched实现定时任务利用调度模块schedule实现
APS_Schedule 我养的小猫 Python python
前言大家应该都知道在编程语言中，定时任务是常用的一种调度形式，在Python中也涌现了非常多的调度模块，本文将简要介绍APScheduler的基本使用方法。一、APScheduler介绍APScheduler是基于Quartz的一个python定时任务框架，实现了Quartz的所有功能，使用起来十分方便。提供了基于日期、固定时间间隔以及crontab类型的任务，并且可以持久化任务。APSchedu
度量年报中MD&A部分的信息含量的Python代码 Xiaorui~ 文本分析会计学 python pandas 开发语言
研究需求：度量年报中管理层讨论与分析部分的信息含量的代码，环境为python3，可更改年报的选取时间。代码实现：首先，需要安装tika和pandas库，tika用于解析PDF文件，pandas用于数据处理。可以使用以下命令进行安装：!pipinstalltika!pipinstallpandas然后，需要下载年报的PDF文件，并将其放置在指定路径下。接下来，可以使用以下代码对管理层讨论与分析部分进
python 定时任务框架 assless python 自动化相关 python 定时任务 APSchedule 自动化测试
python定时任务框架如果想实现自定义定时任务框架，可以看看下面转载的文章写的很详细传送门=>APScheduler定时框架
（基础）Python实现定时任务的八种方案详解程序员-不秃头的阿焕 python 开发语言后端
在日常工作中，我们常常会用到需要周期性执行的任务，我们可以用Python直接实现这一功能。今天我们来学习一下这些基本的操作，有需要了解更多关于python相关知识的，免费领取资源的，请点击这个链接。目录利用whileTrue:+sleep()实现定时任务使用Timeloop库运行定时任务利用threading.Timer实现定时任务利用内置模块sched实现定时任务利用调度模块schedule实现
anaconda 安装后找不到prompt 刘凑华 prompt python 开发语言
解决方法，用cmd进入anaconda的安装目录，然后输入如下命令python .\Lib\_nsis.py mkmenus
Qutebrowser：Python程序员的浏览器利器东方佑量子变法 python
引言在日常工作中，我们常常会遇到一些重复性的操作，比如每天打开固定的几个网页，或者需要频繁地对网页进行截图。如果你是一位Python开发者，并且希望有一种更高效的方式来处理这些任务，那么今天介绍的Qutebrowser绝对会让你眼前一亮。Qutebrowser是一个基于Python和PyQt开发的键盘驱动浏览器，它不仅支持Vim风格的快捷键操作，还允许用户通过编写Python脚本来扩展其功能。接下
Python GUI编程(Tkinter框架) chunyublog python 开发语言
1.Tkinter是什么？Tkinter是Python的标准GUI（图形用户界面）库，它是Python的Tcl/TkGUI工具包的包装器。Tkinter允许Python程序员快速创建GUI应用程序，而无需深入了解底层的图形绘制细节。2.安装TkinterTkinter通常已经预装在Python中，所以不需要额外安装。你可以在Python环境中直接导入它：Importtkinterastk不过，在某
python、JAVA等多种语言演示免费获取股票数据（实时数据、历史数据、CDMA、KDJ等指标数据）配有股票数据API接口说明文档说明 Eumenides_max python java 数据库股票API接口股票数据接口
近一两年来，股票量化分析逐渐受到广泛关注。而作为这一领域的初学者，首先需要面对的挑战就是如何获取全面且准确的股票数据。因为无论是实时交易数据、历史交易记录、财务数据还是基本面信息，这些数据都是我们进行量化分析时不可或缺的宝贵资源。我们的核心任务是从这些数据中挖掘出有价值的信息，为我们的投资策略提供有力的支持。在寻找数据的过程中，我尝试了多种途径，包括自编网易股票页面爬虫、申万行业数据爬虫，以及同花
找不到Anaconda prompt终端 AI小白（入门版） prompt python 开发语言
想打开anacondaprompt时发现文件夹和开始菜单里都找不到问题原因因为anaconda还没有初始化，在安装anaconda的过程中，有一行是否要添加anaconda到菜单目录中，由于没有勾选，导致没有菜单部分的初始化，故找不到。问题解决打开cmd，进入anaconda的安装路径，输入命令。python.\Lib\_nsis.pymkmenus然后会发现菜单目录就有了anaconda终端。
selenium+pytest自动化脚本生成报告乱码问题 xiaobawang001 selenium pytest 自动化
在运行pytest生成报告的时候，中文会显示为？如下图尝试多种修改conftest的编码格式后，未能成功，最终直接修改python路径\Lib\site-packages\pytest_html内的html_report.py将这句head=html.head(html.meta(charset="utf-8"),html.title(self.title),html_css)修改为：head=h
MacOS系统搭建Appium自动化测试环境 xiangzhihong8 前端 macos appium
一、Appium简介1.1什么是APPiumAPPium是一个开源测试自动化框架，适用于原生、混合或移动Web应用程序的自动化测试工具。APPium使用WebDriver协议驱动iOS、Android等应用程序。APPium具有如下特点：支持多平台（Android、iOS等）。支持多语言（python、java、ruby、js、c#等)。APPium是跨平台的，可以用在OSX，Windows以及L
vscode+Python便携版简易制作可以直接复制到u盘再看我把你喝掉笔记 python vscode visual studio code 编辑器
引言对于vscode和Python的爱好者，一直被复杂的开发环境所困扰，于是迫切需要一个可以将vscode和Python放置在u盘中可以不受运行环境的影响运行在不同电脑的便携方案。通过百度初步检索发现：吾爱破解论坛提供了一种需要修改pipe.exe源文件的制作方法，csdn网提供个一种通过设置bat批处理来实现便携化的方案。上述两种方案，操作相对复杂，需要一定的计算机知识，很不方便。对此提出一种更
用bash脚本激活python虚拟环境这个人很懒，还没有设置昵称... bash bash
bash脚本内容：#!/bin/bashcondaactivatenamefasta=$1echo$fasta$1就是接受的用户在命令行输入的变量，echo就是打印该变量激活办法：bash-irun.sh参考链接：https://zhuanlan.zhihu.com/p/422365954if语句判断路径是否存在：result=$1if[-f"$result"];thenmkdir$resultf
R 调用 python weixin_33971205 python json java
上一篇说了python使用rpy2调用R，这里介绍R如何调用python。R的强项在于统计方面，尤其是专业的统计分析，统计检验以及作图功能十分强大，但是在通用性方面，就远不如Python了，比如python可以做web，可以开发GUI，可以爬虫，甚至可以开发游戏，这些R其实也不是完全不行，但是在易用性方面实在是难以与Python相匹敌。所以如果要是能将R与Python相结合，充分发挥二者的优势，那
chatgpt赋能python：Python怎么安装到U盘 vacvefito ChatGpt chatgpt 人工智能计算机
Python怎么安装到U盘在日常的编程工作中，Python是一门十分常用的编程语言。而有时候并非每个人都愿意在电脑上安装Python，或者在外出时需要借助一台非自己的电脑来进行Python编程。因此，将Python安装到U盘成为一个方便实用的选择。为什么要将Python安装到U盘将Python安装到U盘可以让我们在不同设备上进行Python编程，而不用担心设备内是否已经安装了Python。这样可以
chatgpt赋能python：在U盘上安装Python开发环境教程 tulingtest ChatGpt chatgpt python 开发语言计算机
在U盘上安装Python开发环境教程如果你是一位Python开发人员，那么你肯定知道，为了成功地开发和运行Python程序，需要安装Python开发环境。然而，对于很多人来说，它们的工作地点可能不支持安装软件，或者他们需要在多个设备上使用Python开发环境。针对这些情况，将Python开发环境安装到U盘上就成了必要的。优点使用U盘上Python开发环境的好处如下：灵活性：可以在任何地方使用Pyt
centOS安装python3 梦中生花 centos linux python
centOS(7.7.64)安装python3.7.2centos7自带版本是python2.7先查看系统python的位置whereispythonpython2.7默认安装是在/usr/bin目录中cd/usr/bin#切换到/usr/binllpython*#查看python文件及其软连接从下图中我们可以看到：python指向python2，python2指向python2.7我们要删除py
chatgpt赋能python：如何在U盘上下载安装Python？ sc17332889342 ChatGpt chatgpt python 开发语言计算机
如何在U盘上下载安装Python？随着Python语言在全球范围内的流行和广泛使用，越来越多的程序员、工程师和开发者需要从不同的设备上去下载Python，以便在其电脑上使用。然而，在某些环境下，电脑或工作站的管理权限受限，因此无法自由安装和使用Python。那么，如何在没有管理员权限和完整安装包的情况下，在U盘上下载并安装Python呢？步骤1：下载Python安装程序在任何电脑上都可以下载Pyt
PowerShell 激活 activate 命令切换Python虚拟环境南七小僧网站开发 AI技术产品经理人工智能 python 开发语言
使用如下命令可以创建新的conda环境:condacreate-nenvname然后使用如下命令就可以激活虚拟环境:#winactivateenvname#linuxsourceactivateenvname但是在日常使用过程中,发现存在一个问题,windows激活虚拟环境的命令在cmd中可以正常使用,但是在powershell中使用就存在一些问题,总之无法正常运行.使用如下方法解决:1.安装如下
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option