白巧克力x

Python爬虫——Scrapy通用爬虫

大家好，我是霖hero

除了钱，大家还比较喜欢什么？当然是全能、万能和通用的人或事物啦，例如：全能、什么都会的员工、万能钥匙、通用爬虫等等。今天我们学习Scrapy通用爬虫，利用Scrapy通用爬虫来获取美食杰网站。

Scrapy通用爬虫

创建Scrapy项目

Spider爬虫模板

CrawlSpider

创建crawl模板爬虫

定义rules规则

定义字段

提取数据

通用配置抽取

配置文件quotes.json

rules.py规则文件

启动爬虫run.py

spider爬虫初始化及获取配置

控制翻页数

实战演练

修改rules.py规则

修改quotes.json配置

修改next.py翻页

结果展示

Scrapy通用爬虫

创建Scrapy项目

Scrapy爬虫和Scrapy通用爬虫都是通过以下执行命令来创建Scrapy项目，没什么不同，命令如下所示：

Scrapy startproject Scrapy项目名

Spider爬虫模板

在创建spider爬虫前，我们先看看有什么可用的爬虫模板，执行命令如下所示：

scrapy genspider -l

运行结果如下图所示：

其中：

basic是我们之前创建Spider的时候，默认使用的爬虫模板，也就是普通的爬虫模板；
crawl模板是最常用于抓取常规网站的爬虫模板，通过指定一些爬取规则来实现页面的提取，很多情况下这个模板的爬取就足够通用；
csvfeed模板是Scrapy最简单的爬虫模板，主要用于解析 CSV 文件，它是以行为单位来进行迭代，每迭代一行调用一次 parse_row() 方法；
xmlfeed模板主要用于处理RSS订阅信息，RSS是一种信息聚合技术，可以让信息的发布和共享更为高效和便捷。

接下来我们主要是讲解最常用的爬虫模板——crawl模板，其他模板我们会在往后的文章里讲解，敬请期待！！！

CrawlSpider

在使用crawl模板前，我们先要了解一下CrawlSpider。

CrawlSpider是Scrapy提供的一个通用Spider，继承自Spider类，除了拥有Spider类的所有方法和属性，它还提供了rules属性和parse_start_url()方法。

其中：

rules是包含一个或多个Rule对象的列表，我们可以指定一些爬取规则来实现页面的提取；
parse_start_url()是一个可重写的方法，当start_urls里对应的Request得到的Response时，该方法被调用。

创建crawl模板爬虫

crawl模板的通用爬虫通过执行以下命令来创建，以Quotes to Scrape网站为例子，该网站是一个著名作家名言的网站，命令如下所示：

scrapy genspider -t 模板类型 <爬虫名字> <允许爬取的域名>
scrapy genspider -t crawl quotes quotes.toscrape.com

当然，我们可以把命令中的crawl改为xmlfeed或者csvfeed，这样就会生成其他类型的爬虫，成功创建后，在spiders文件夹中多了一个quotes.py文件，该文件正是我们创建的spider爬虫，其内容如下所示：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class QuotesSpider(CrawlSpider):
    name = 'quotes'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/']

    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        item = {}
        #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
        #item['name'] = response.xpath('//div[@id="name"]').get()
        #item['description'] = response.xpath('//div[@id="description"]').get()
        return item

其中：

class QuotesSpider()是自定义spider类，继承自CrawlSpider
name是定义此爬虫名称的字符串，每个项目唯一的名字，用来区分不同的Spider，启动爬虫时使用scrapy crawl +该爬虫名字；
allowed_domains是允许爬取的域名，防止爬虫爬到其他网站；
start_urls是最开始爬取的url；
rules是爬取规则属性，是一个包含多个Rule对象的列表，该Rule主要用来确定当前页面中的哪些链接需要继续爬取、哪些页面的爬取结果需要哪个方法来解析等。
parse_item()方法是负责解析返回响应、提取数据或进一步生成要处理的请求。

注意：不能修改这个方法的名字，且不能定义parse()方法！！！

在创建Crawl模板的Spider爬虫时，Rule中只展示了最常用的参数，其完整参数如下所示：

Rule(LinkExtractor(allow=r'Items/', deny=(), allowed_domains=(), deny_domains=(), restrict_xpaths=()), callback='parse_item', follow=True, cb_kwargs=None, process_links=None, process_request=None)

Rule常见的参数如下：

LinkExtractor是一个链接提取对象，它定义了如何从每个已爬取的页面中提取链接并用于生成一个requests对象；
callback是一个可调用对象或字符，和之前定义requests的callback作用一样，
指定链接提取器提取的每个链接交给哪个解析函数去处理；
follow是一个布尔值，它指定是否从使用此规则提取的每个响应中跟踪链接，当callback为None时，follow默认为True，否则为False；
cb_kwargs是字典，其包含了传递给回调用函数的参数；
process_links指定处理函数，从LinkExtractor中获取到链接列表时，该函数将会被调用，主要用于过滤url；
process_request指定哪个函数将会被调用，该规则提取到每个request时都会调用该函数，主要用于过滤request。

LinkExtractor常用的参数如下：

allow：满足括号中正则表达式的URL会被提取，如果为空，则全部匹配；
deny：满足括号中正则表达式的URL不会被提取，优先级高于allow；
allow_domains：会被提取的链接的domains；
deny_domains：不会被提取的链接的domains；
restrict_xpaths：使用xpath表达式来规则URL地址的范围。

定义rules规则

定义rules规则，也就是确定被提取的URL链接及其范围。

首先我们定义翻页的rules规则，进入名人名言网站并打开开发者工具，如下图所示：

由图可知，翻页的URL存放在

Rule(LinkExtractor(allow=r'/page/\d+', restrict_xpaths='//li[@class="next"]'),follow=True),

由于我们在翻页的页面中，没有需要提取的数据，所以这里没有callback参数，所以需要加上follow=True。

由图可以知，

rules = (
    Rule(LinkExtractor(allow=r'/author/\w+',restrict_xpaths='/html/body/div[1]/div[2]/div[1]'), callback='parse_item'),
)

由于在链接提取对象有我们需要提前的数据，所以这里需要写callback参数，不需要写follow参数。

定义字段

在提取数据之前，我们先在items.py文件中定义字段，具体代码如下所示：

import scrapy

class Test2Item(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()

作为演示，我们只定义一个字段提取作者名，感兴趣的小伙伴可以定义多个字段提取不同的数据。

提取数据

定义了rules规则后，我们接下来尝试在parse_item()方法中提取响应的数据，具体代码如下所示：

from test2.items import Test2Item
def parse_item(self, response):
    item = Test2Item()
    item['name']=response.xpath('//h3[@class="author-title"]/text()').extract_first()
    return item

首先我们导入Test2Item，实例化Test2Item，作为演示，我们只提取作者名，感兴趣的可以提取其他数据。

Item Loader模块

提取响应数据，我们还可以使用Item Loader模块，其模块提供了一种便捷的机制来帮助我们方便的提取Item数据，让我们的数据提取变得更加规则化，其语法规则为：

变量名=ItemLoader(item={}, response=())
变量名.add_选择器('数据字段名', '选择器规则')
return 变量名.load_item()

其中：

item是对象；
response是网页的响应数据；
add_选择器：其可以为add_xpath、add_css、add_value()

上面的提取数据代码可以修改为如下代码，具体代码如下所示：

from test2.items import Test2Item
from scrapy.loader import ItemLoader
def parse_item(self, response):
	loader=ItemLoader(item=Test2Item(),response=response)
    loader.add_xpath('name','//h3[@class="author-title"]/text()')
    return loader.load_item()

首先我们导入Test2Item和ItemLoader模块，并实例化ItemLoader和Test2Item，最后通过return loader.load_item()将数据返回给引擎。

这种提取方法比较规则化，我们可以把一些参数和规则单独提取出来做成配置文件或者存储到数据库，及可实现可配置化。

在settings.py文件中启动引擎，并在pipelines.py文件中打印输出，运行结果如下：

通用配置抽取

有人可能说，就这？就一个Rule规则就实现了通用？等等，别急！！！

在我们爬虫代码中，很多代码都是重复的，例如变量、方法名几乎都是一致的，那么我们可以把完全不同的地方抽离出来，做成可配置文件。

我们新建一个crawl通用爬虫，执行代码如下所示：

scrapy genspider -t crawl currency quotes.toscrape.com

在刚才创建的crawl通用爬虫中，我们来思考一下哪些数据可以抽离出来做成可配置文件？没错，里面所有东西都可以做成配置文件。

配置文件quotes.json

首先我们创建一个名为configs的文件夹来存放我们的配置文件，然后创建名为quotes.json的文件来把刚才创建的crawl通用爬虫里面的内容都写入在文件中，具体代码如下所示：

{
  "settings": {
    "USER_AGENT":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36"
  },
    
  "spider":"currency",
  "allowed_domains": ["quotes.toscrape.com"],
  "start_urls": ["http://quotes.toscrape.com/"],
  "rules": "quotes_rule",
  
   "item": {
    "class": "Test2Item",
    "loader": "ItemLoader",
    "attrs": {
      "name": [
        {
          "method": "xpath",
          "args": [
            "/html/body/div[1]/div[2]/h3/text()"
          ]
        }
      ]
    }
  }
}

首先我们把settings.py文件中的User-Agent配置先写入到文件中，再把爬虫名、爬虫爬取的网站域名、最先爬取的URL链接以及rules规则写入到文件中，最后把提取数据的方法写入到文件中，其中：

item：保存抓取数据的容器；
class：是我们items.py文件中的类，用来定义数据字段；
loader：是填充容器的机制，也就是上面所讲的规范提取数据的ItemLoader模块；
attrs：表示提取数据内容；
name：是items.py文件中，定义的字段，也就是我们要提取的作者名字；
method：数据提取的方法，我们这里选用了xpath提取；
args：表示提取数据的规则、表达式；

rules.py规则文件

有人可能问，rules规则这么简单？当然，rules不会那么简单，这里我们新建一个rules.py文件来存放Rule规则，具体代码如下所示：

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import Rule

rules = {
        'quotes_rule':(Rule(LinkExtractor(allow=r'/author/\w+',restrict_xpaths='/html/body/div[1]/div[2]/div[1]'), callback='parse_item'),
 Rule(LinkExtractor(allow=r'/page/\d+', restrict_xpaths='//li[@class="next"]'),follow=True),)
}

这里我们把rules规则已字典的形式来保存，以便我们获取rules里面的值。

我们创建了配置文件，当然要把配置的文件读取出来了，所以我们新建了一个名为Read_configs.py的文件来读取数据，具体代码如下所示：

from os.path import realpath,dirname
import json
def get_config(name):
    path = dirname(realpath(__file__)) + '/configs/' + name + '.json'
    with open(path, 'r', encoding='utf-8')as f:
        return json.loads(f.read())

启动爬虫run.py

创建读取文件后，接下来要创建一个启动Spider爬虫的文件，我们把它命名为run.py，具体代码如下所示：

import sys
from scrapy.utils.project import get_project_settings
from test2.Read_configs import get_config
from scrapy.crawler import CrawlerProcess

def run():
    name=sys.argv[1]
    custom_settings=get_config(name)
    spider=custom_settings.get('spider','currency')
    project_settings=get_project_settings()
    settings=dict(project_settings.copy())
    settings.update(custom_settings.get('settings'))
    process=CrawlerProcess(settings)
    process.crawl(spider,**{'name':name})
    process.start()

if __name__=='__main__':
    run()

首先我们导入一些模块和库，再获取命令行的参数并赋值为name，通过刚才在Read_configs.py所创建的get_config()将配置文件quotes.json读取保存下来，再通过get()方法把Spider爬虫名获取下来并存放在spider变量中，通过get_project_settings()方法来获取Scrapy项目中的settings.py配置并调用dict()方法把配置变为字典的格式保存在settings变量中，再调用update()方法更新custom_settings变量的数据内容，最后实例化CrawlerProcess，并调用crawl()和start()方法启动爬虫。

spider爬虫初始化及获取配置

在启动爬虫前，首先我们要初始化爬虫数据并通过parse_item()方法获取属性配置，具体代码如下所示：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from test2.Read_configs import get_config
from test2.rules import rules
from test2 import next
from test2.items import Test2Item
from scrapy.loader import ItemLoader
class CurrencySpider(CrawlSpider):
    name = 'currency'

    def __init__(self,name,*args,**kwargs):
        config=get_config(name)
        self.config=config
        self.allowed_domains=config.get('allowed_domains')
        self.start_urls=config.get('start_urls')
        self.rules=rules.get(config.get('rules'))
        super(CurrencySpider, self).__init__(*args,**kwargs)
        
    def parse_item(self, response):
        item=self.config.get('item')
        cls=eval(item.get('class'))()
        loader=eval(item.get('loader'))(cls,response=response)
        for key,value in item.get('attrs').items():
            for extractor in value:
                if extractor.get('method')=='xpath':
                    loader.add_xpath(key,*extractor.get('args'))
		return loader.load_item()

首先我们重新定义init()方法，把allowed_domains、start_urls和rules等属性赋予值，再通过编写parse_item方法来动态获取属性配置从而提取数据，首先使用get()方法来获取item配置信息，在使用eval()方法来获取返回get()中的值。最后通过for循环来获取数据并返回给引擎。

这里我们的pipeline.py文件只是简单地打印数据，其内容如下：

class Test2Pipeline:
    def process_item(self, item, spider):
        print(item)

最后执行以下命令来运行爬虫：

run.py quotes

运行结果如下所示：

控制翻页数

那么问题来了，假如翻页数有几千页呢，我们不可能每次都要从第一页爬到最后一页的吧，怎样要提取指定页面的数据呢

这时，我们的start_urls可以在quotes.json文件中改为：

  "start_urls": {
    "type": "dynamic",
    "method": "next",
    "args": [
      1,2
    ]
  },

其中，type是start_urls类型，method是调用的方法，args是开始页和结束页的页码，大家可以根据需求来获取想要的页面。

注意把rules.py文件中以下代码删除，要不然不能实现爬取指定页数：

Rule(LinkExtractor(allow=r'/page/\d+', restrict_xpaths='//li[@class="next"]'),follow=True),)

除了修改start_urls，我们还需要创建实现method调用的方法，这里我们上面我们定义的方法是next，所以我们新建一个next.py文件，其具体代码为：

def next(start,end):
    for page in range(start,end+1):
        yield 'https://www.meishij.net/fenlei/xiafancai/p'+str(page)+'/'

再在currency.py文件中加以下代码来获取start_urls的值：

from test2 import next
start_urls=config.get('start_urls')
self.start_urls=list(eval('next.'+start_urls.get('method'))(*start_urls.get('args',[])))

这样我们就实现了指定页面的爬取。

这样，一个scrapy通用爬虫就做好了，对了，为了防止大家弄乱了文件位置，导致程序报错，贴心的我们把项目目录截图了下来，如下图所示：

那么贴心，赶紧评论、点赞加收藏走一波。

当我们想用刚才创建的通用爬虫时，只要修改quotes.json、next.py、rules.py中的部分代码即可。

有人可能觉得，我靠，弄一个Scrapy通用爬虫要写那么多.py文件，我还是老老实实写Scrapy普通的爬虫算了。

接下来我们通过实战演练，展示写了一个Scrapy通用爬虫对以后的网站爬取有多么地方便。

实战演练

现在我们来实战测试一下Scrapy通用爬虫的方便性，测试的网站为美食杰的下饭菜。

修改rules.py规则

我们先修改rules规则：

我们先进入美食杰网站并打开开发者模式，如下图所示：

由图可知，

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import Rule
rules = {
        'quotes_rule':(Rule(LinkExtractor(allow=r'https://www.meishij.net/zuofa/\w+\.html',restrict_xpaths='//div[@class="list_s2"]'), callback='parse_item'),)
}

修改quotes.json配置

点击具体做法的URL链接并打开开发者模式，如下图所示：

菜品名存放在

//h1[@class="recipe_title"]/text()

那么我们quotes.json文件中的args改为如下代码：

 "attrs": {
      "name": [
        {
          "method": "xpath",
          "args": [
            "//h1[@class=\"recipe_title\"]/text()"
          ]
        }
      ]
    }

因为不同的网站，其域名也不一样，所以我们要将域名修改为美食杰的域名，其代码修改为如下代码：

"allowed_domains": ["www.meishij.net"],

修改next.py翻页

首先经过简单的查找，美食杰的下饭菜前几页的URL链接为：

https://www.meishij.net/fenlei/xiafancai/p1/
https://www.meishij.net/fenlei/xiafancai/p2/
https://www.meishij.net/fenlei/xiafancai/p3/

很明显链接最后面的数字是翻页的重要参数，所以我们可以把next.py文件修改为：

def next(start,end):
    for page in range(start,end+1):
        yield 'https://www.meishij.net/fenlei/xiafancai/p'+str(page)+'/'

好了，全部代码已经修改完毕了。

结果展示

从结果上看，我们只是简单地修改了Scrapy项目中的一些代码，就实现了对其他网站的数据爬虫，你们懂的，赶紧把文章点赞收藏做一个Scrapy通用爬虫来方便自己以后爬取一些简单网站的数据。

好了，Scrapy通用爬虫就讲解到这里了，感谢观看！！！

你可能感兴趣的:(Python爬虫,python,爬虫,通用爬虫)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他