typedef_dawy

Python爬虫学习（三）之Scrapy框架

最近在各个平台上学习python爬虫技术，林林总总接触到了三大类型的爬虫技术——【1】利用urllib3实现，【2】使用Requests库实现，【3】使用Scrapy框架实现。

虽然是按照以上的顺序进行学习的，但是在学习scrapy的过程中问题比较多，所以先从它开始。Python爬虫学习（一）之简单实现、Python爬虫学习（二）之Requests库将先添加至@TO-DO list里。

对于Scrapy的学习采取了阅读文档然后直接上手一个小项目的方式。这个项目的任务是爬取豆瓣电影 Top 250，把250部电影的名字、封面图以及评价数爬下来并储存至文件中。

文章目录

一、简介
二、安装以及新建项目
三、爬虫逻辑编码
四、总结

一、简介

Scrapy is a fast high-level web crawling and web scraping framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and automated testing.（https://docs.scrapy.org/）

Scrapy 是高级的、高速的网络爬虫框架，它被应用于爬取网站以及从中提取结构化数据。Scrapy框架应用广泛，适用于从数据挖掘到监控以及自动化测试等场景。

Scrapy架构图

Scrapy Engine(引擎)：用来处理整个系统的数据传递，调度框架的各个部分，类似电脑的cpu。是整个系统的核心部分。
Scheduler(调度器)：用来接受引擎发过来的Request请求, 压入队列中, 并在引擎再次求的时候返回。
Downloader(下载器)：用于引擎发过来的Request请求对应的网页内容, 并将获取到的Responses返回给Spider。
Item Pipeline(管道):负责处理Spider中获取的实体，对数据进行处理，将数据输出至文件或数据库。
Middlewares(下载器中间件):主要用于处理Scrapy引擎与下载器之间的请求及响应。
SpiderMiddlewares(爬虫中间件)：主要用于处理Spider的Responses和Requests

从Scrapy的架构图可以看出，这是一个系统化、高集成的爬虫框架。它免去了我们在许多爬取的具体细节上的编码过程，而让我们专注于我们最终的目的。个人认为Scrapy是我接触的这三种爬虫中集成度、自定义程度最高的实现方式。

二、安装以及新建项目

安装Scrapy
因为电脑上安装了PyPI，因此采取了最简便的安装方式：
在cmd中输入pip install scrapy，等待流程结束即可。
在cmd中输入pip show scrapy后如果显示版本号等信息就表示安装成功了。
新建项目
cmd进到所需目录，然后输入scrapy startproject [-projectname]，其中projectname为项目名称。系统会返回如下代码：

随后按照提示输入cd doubanmovie和
scrapy genspider [spidername] [url](其中spidername是爬虫的名字，url是起始页码)，一个基本的爬虫项目就建立成功了。

将文件夹导入PyCharm中，项目结构如下图所示：

其中，各个文件的功能如下：

_init_.py：将该目录标识为一个模块，当其它文件导入改文件夹时，会先执行其中的代码。通常将初始化代码至于其中。
douban.py：最重要的部分，用于定义爬虫的行为，如数据处理、自动翻页、自动鉴权等。
items.py：类似与一个容器，用于定义你所需数据。可以把它比购物清单，你要买什么事先可以在这里声明。
middlewares.py（中间件）：即Scrapy中下载器中间件的实现，用于处理Scrapy引擎与下载器之间的请求及响应。
pipelines.py：用于处理从系统中流出的数据，如识别、储存方式等。
settings.py：系统绝大部分的预置参数设置。

三、爬虫逻辑编码

经过上面的步骤，一个系统缺省的爬虫创建完毕。但是缺省的爬虫只是一个空壳，它不会完成任何实际的任务。我们还需要对它进行编码，让它能够满足我们的需求。

第一步：确定需求

我们创建爬虫的目的是获取网页上的信息，在本项目中我们是要获取250部电影的序号、（中文）名称、图片地址以及评论数，最后按照顺序将他们输出到一个文本文件中。

第二步：设置容器（items.py）

从第一步我们确定了需要①序号、②电影名、③图片地址、④评价数这四个数据。因此，我们先打开items.py文件，定义这四个属性。代码如下：

class DoubanmovieItem(scrapy.Item):
    # define the fields for your item here:
    em = scrapy.Field()        #序号
    title = scrapy.Field()     #标题
    img = scrapy.Field()	   #图片路径
    comment = scrapy.Field()   #评论数

第三步：编写爬虫逻辑（douban.py）

在编写爬虫逻辑之前，我们必须先要明白网页上的信息是如何存放的，以及在python中如何解析和定位我们所下载的网页。网页解析有几种方法，Beautiful Soup、Xpath等。BeautifulSoup我放在之前的文章中，这里主要采用Xpath方法来解析并定位网页信息。

了解XPath

XPath 是一门在 XML 文档中查找信息的语言。因为HTML也是一种XML语言，因此Xpath当然可以应用于html页面。

基本语法：

1. 选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式：

表达式	描述
nodename	选取此节点的所有子节点
/	从根节点选取
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置
.	选取当前节点
…	选取当前节点的父节点
@	选取属性

更高级的XPath语法可以去参考网上内容。

2.定位资源

在了解过XPath后，我们就可以在网页上精确地定位各类资源的位置了。

先打开豆瓣电影Top250网站，页面空白处右键，选择“检查”。定位到每部电影的列表项处，应该是下面界面：

我们可以按照XPath语法，确定各项资源的路径。

如果xpath路径不太会写或者想节省时间，我们可以在浏览器的“检查”界面中，右键需要选取的资源，在“复制”子菜单中选择“复制XPath路径”。这样我们就可以方便地找到资源对应的XPath路径了。

确定item中元素的XPath路径

这一步主要任务是赋予每个在前面item.py中定义的变量对应在HTML中的路径。我们打开douban.py文件，可以看见系统已经自动生成了类似于下面的代码框架：

# -*- coding: utf-8 -*-
import scrapy
from lxml import etree
from doubanmovie.items import DoubanmovieItem


class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['movie.douban.com/top250']
    start_urls = ['http://movie.douban.com/top250']

    def parse(self, response):
      pass

自动生成的代码中：
‘parse’函数的response参数是downloader模块传来的,里面包含了下载器下载下来的内容。我们就是在这里对这些内容进行操作。

name变量是表示这个爬虫的名称；
allowed_domains定义了爬虫爬取的范围，不属于这个域名下的页面不会被爬取；
start_urls定义了爬虫起始页面，爬虫从这个页面开始爬取。
在这里我们将allowed_domains设置为 ‘movie.douban.com/top250’，即从Top250的第一页开始。

设置好后，我们用一个变量接收response的文本数据。在这个过程中，response.text返回的是网页内容的字符串，因此，我们利用lxml包中的etree方法将response.text返回的字符串转换为带节点的html格式。

这是etree.HTML方法的说明：

HTML(text, parser=None, base_url=None)
Parses an HTML document from a string constant. Returns the root node (or the result returned by a parser target). This function can be used to embed “HTML literals” in Python code.

具体的代码如下：

    def parse(self, response):
        # print(response.text.encode('unco'))
        html_text = etree.HTML(response.text)
        li_list = html_text.xpath("//ol[@class='grid_view']/li")
        for li in li_list:
            item = DoubanmovieItem()
            # em = title = img = comment
            item['em'] = li.xpath(".//em/text()")[0]
            item['title'] = li.xpath(".//span[@class='title']/text()")[0]
            item['img'] = li.xpath(".//img/@src")[0]
            item['comment'] = li.xpath(".//div[@class='star']/span/text()")[-1]
            # yield返回当前电影的数据
            # print("--item--", item)
            yield item

【注】这里必须使用yield而不能使用return，因为框架必须获得每次爬取的item，这样最后才能拼接成一个完整的结果。

第四步：设置自动翻页

首先我们必须知道下一页的链接，它有可能是利用现有的链接进行拼接，因此我们要针对具体情况来分析。

我们在“后页”按钮上右键检查，可以看到后页的链接是本页链接加上一个"?start=XX&filter="。这样我们就可以得到下一页的链接：next_page = html_text.xpath("//span[@class='next']/a/@href")[0]

在知道下一页链接后，我们要手动发送请求,让爬虫去解析下一页的数据：

if self.next_page:
   # 手动发送请求,让爬虫去解析下一页的数据
   yield scrapy.Request('http://movie.douban.com/top250' + self.next_page,callback=self.parse,dont_filter=True)

【注意】scrapy.Request的参数中，dont_filter=True表示取消地址过滤。在我运行过程中，如果不加这个参数，爬虫在爬取下一页时，将会报
DEBUG: Filtered offsite request to ‘movie.douban.com’: 。

起初每次爬虫爬取完第一页后，就报这个错误，并且爬虫也停止爬取。因为提示不是ERROR，所以我并没有特别注意它，后来在网上一搜，发现这个是因为过滤器把下一页给过滤了，所以才导致爬完第一页就暂停了。

解决办法也很简单，就是在调用scrapy.Request时，加上dont_filter=True参数。

最后是douban.py的完整代码：

#douban.py
# -*- coding: utf-8 -*-
import scrapy
from lxml import etree
from doubanmovie.items import DoubanmovieItem

class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['movie.douban.com/top250']
    start_urls = ['http://movie.douban.com/top250']
    next_page = ''

    def parse(self, response):
        # print(response.text.encode('unco'))
        html_text = etree.HTML(response.text)
        li_list = html_text.xpath("//ol[@class='grid_view']/li")
        for li in li_list:
            item = DoubanmovieItem()
            # em = title = img = comment
            item['em'] = li.xpath(".//em/text()")[0]
            item['title'] = li.xpath(".//span[@class='title']/text()")[0]
            item['img'] = li.xpath(".//img/@src")[0]
            item['comment'] = li.xpath(".//div[@class='star']/span/text()")[-1]
            # yield返回当前电影的数据
            yield item

        # 获取后页超链接的值 （xpath返回的是list）
        self.next_page = html_text.xpath("//span[@class='next']/a/@href")[0]
        print("--next_page--:" + self.next_page)

        if self.next_page:
            # 手动发送请求,让爬虫去解析下一页的数据
            yield scrapy.Request('http://movie.douban.com/top250' + self.next_page, callback=self.parse,dont_filter=True)

第五步：设置输出方式

我们把爬虫逻辑编写好后，爬虫就可以按照我们的要求工作。但是我们通常需要把爬虫爬取的结果进行处理或保存，就像炼油厂把石油炼制后，要将石油装桶一样。这个步骤我们需要在pipelines.py中完成。

在官方文档中是这样描述pipelines.py用途的：

Typical uses of item pipelines are:

cleansing HTML data

validating scraped data (checking that the items contain certain fields)

checking for duplicates (and dropping them)

storing the scraped item in a database

item pipelines的常规用途为：

清理HTML数据

验证说爬取到的数据（确认items包含指定域）

验证数据重复性（并移除重复数据）

将爬取到的项目存入数据库

我们打开项目中的pipelines.py文件，可以发现在类下面有process_item(self, item, spider)方法，这个方法将会被每一个pipeline组建调用。其中item参数为（本次）爬取到的项，spider参数为当前爬虫。

在本项目中，我准备将每部电影的序号、标题、封面链接以及评论数依次写入一个文本文档，并将文本文档的名称设置为“豆瓣Top250”加上当前日期。

我们首先要引入time包，之后再获取当前时间并与“豆瓣Top250”拼接起来，最后再将item中的每个项目依次写入文件中。注意，write方法默认是不会换行的，数据将会紧接着之前的数据写入，因此我们要在每一部电影最好写入一个换行符“\n”。

这部分完整代码如下：

#pipelines.py
import time

class DoubanmoviePipeline(object):
    def process_item(self, item, spider):
        now = time.strftime('%Y-%m-%d', time.localtime())
        fileName = '豆瓣250' + now + '.txt'
        with open(fileName, 'a', encoding='utf-8') as fp:
            fp.write(item['em']+': ')
            fp.write(item['title']+' ')
            fp.write(item['img']+' ')
            fp.write(item['comment'])
            fp.write('\n')
        return item

第六步：相关设置

至此，我们已经几乎完成了一个爬虫的定义，我们最后要做的就是对爬虫进行最后的设置。设置主要有三部分：1，设置user-agent，让爬虫能够伪装成正常的访问请求；2，打开pipelines通道；3，选择是否遵循robots协议。

1. 设置user-agent

有些网站为了减少网站负担或其它原因，会设置反爬措施。如果监测到本次访问是非人类正常访问，可能会禁止本次访问或者设置真人验证。避免反爬的最基本的措施是设置一个普通的user-agent，这样让网站认为这次访问是由一个普通浏览器发出的。

打开“settings.py”，在里面找到DEFAULT_REQUEST_HEADERS字段，取消其注释状态，把它改为：

DEFAULT_REQUEST_HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/82.0.4080.0 ' \
                  'Safari/537.36 Edg/82.0.453.2',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8,en-US;q=0.7',
    'Cookie': 'bid="HgstQtgjnX8"; ap_v=0,6.0',
}

里面’User-Agent’是必须的，其余可选。

2. 打开pipeline通道

我们设置了pipelines.py后，还必须在settings.py中将ITEM_PIPELINES进行如下修改：

ITEM_PIPELINES = {
    'myproject.pipelines.PricePipeline': 300
}

这样我们在pipelines.py中设置的操作才能实现。这个设置项的具体意义可以参考文档

3. 选择是否遵守robots协议

robots协议是网站在其根目录下放置的一个文本文件，其中规定了爬虫可以爬取的范围。一般来说，如果爬虫爬取速度与人类访问的速度没有特别大的差异的情况下，可以把这种爬虫视作人类行为。此时，我们可以选择不遵守robots规则。但如果爬虫是有商业目的或可能对网站造成过大的访问量，此时我们应该遵循网址的robots声明。如果不遵循robots声明可能会有法律风险。

我们在settings.py文件中的ROBOTSTXT_OBEY字段可以设置是否遵守网站robots协议，此项默认是False，即不遵守。

四、总结

本文首先简单介绍了Scrapy及其框架结构，随后安装配置Scrapy，最后针对豆瓣Top250网站进行实践。包含了user_agent伪装、pipeline输出、Xpath介绍以及自动翻页等特点，按照这个流程可以对一些基本的网站进行爬取。之后会继续对IP伪装、自动登陆、验证码绕过等特性进行学习。

写这篇文章的目的是为了记录学习Scrapy框架的过程中的感想以及一些要点，目前来说还是处于入门阶段，对Scrapy的使用也是十分基础的。欢迎各位大佬提出意见与建议，也欢迎像我一样的初学者共同学习进步。

Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
【无标题】Python学习心得 w180316 python
在当今数字化的时代，编程已经成为不可或缺的技能。我选择学习Python语言，是被它的简洁、高效和广泛的应用场景所吸引。经过一段时间的学习，我有了许多深刻的体会和感悟。Python语言给我的第一印象就是简洁易懂。它的语法相对简单，结构清晰，不像一些其他编程语言那样有复杂的规则和晦涩的符号。这使得初学者能够更快地入门，减少了学习门槛和压力。比如，在Python中，变量的定义不需要明确指定数据类型，而是
Python：列表切片允许“后边小于左边”吗？
目录1问题2测试3欢迎纠错4论文写作/Python学习智能体1问题在Python中，列表切片允许“后边小于左边”吗？2测试在Python中，列表切片允许“后边小于左边”，此时会返回一个空列表，不会报错。例如：lst=[1,2,3,4,5]print(lst[3:1])#输出：[] 这是因为，当切片的结束索引小于开始索引，且步长为默认的1（正数）时，Python认为没有符合条件的元素，
Python vars() 函数：探索对象的内部程序员喵哥 Python python 开发语言
更多Python学习内容：ipengtao.comPython是一门具有强大而灵活的编程语言，可以访问和探索对象的内部属性。vars()函数是Python标准库中的一个强大工具，它可以获取对象的属性和属性值，并以字典的形式返回它们。在本文中，将深入研究vars()函数，探讨它的用途、示例和适用场景。前言在Python中，对象是一切。对象可以是数字、字符串、列表、字典、函数、类实例等等。每个对象都可
python学习试题（选择，问答，代码等）爱莉希雅&&& python 学习开发语言
python选择题（1）以下哪个是合法的Python变量名？[email protected]答案：B（2）表达式True+2的结果是？A.TrueB.3C.2D.TypeError答案：B（3）以下哪个表达式会引发错误？A."1"+"2"B.[1,2]+[3,4]C.(1,2)+(3,4)D.{1,2}+{3,4}答案：D（4）以下哪个是将字符串转换为整数的正确方法？A.str
python 元类的继承_Python学习_13_继承和元类五伤先生 python 元类的继承
继承继承的含义就是子类继承父类的命名空间，子类中可以调用父类的属性和方法，由于命名空间的查找方式，当子类中定义和父类同名属性或者方法时，子类的实例调用的是子类中的属性，而不是父类，这就形成了python中的多态：defSuperClass:defa_method:passdefSubClass(SuperClass):defa_method:passobj=SubClass()obj.a_meth
Python元类基础知识示例深度剖析，从新手小白成为Python编程高手只存在于虚拟的King python 开发语言深度学习学习经验分享计算机网络程序人生
文章目录引言一、什么是元类？二、元类的工作原理三、如何定义元类四、元类的应用场景五、元类的注意事项六、结论关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包+项目源码合集①Python工具包②Python实战案例③Python小游戏源码五、面试资料六、Python兼职渠道引言Python是一种强大的编程语言，一部
Python学习打卡：day09 胜天半子祁厅 Python python 学习开发语言
day9笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day964、字典课后习题65、5类数据容器的总结对比数据容器分类数据容器特点对比66、数据容器的通用操作遍历统计len、max和min转换list(容器)、tuple(容器)、str(容器)、set(容器)排序容器通用功能总览67、拓展——字符串的大小比较ASCII码表字符串比较68、函数
Python学习打卡：day02
day2笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day28、字符串的三种定义方式字符串在Python中有多种定义形式字符串的引号嵌套9、字符串的拼接10、字符串格式化11、格式化的精度控制12、字符串格式化的方式213、对表达式进行格式化14、字符串格式化的课后练习题15、数据输入（input语句）input语句（函数）input语句获取
新手必看的python学习心得 2401_89815407 python 开发语言
Python学习心得：从入门到实践的体会Python作为一门简洁高效的编程语言，其学习过程充满趣味与挑战。通过系统学习与实践，总结出以下关键经验与感悟。Python新手常见代码问题及解决方法Python作为一门易学易用的编程语言，吸引了大量初学者。然而新手在学习过程中常会遇到一些典型问题。以下是常见问题及解决方案。缩进错误Python使用缩进区分代码块，新手容易混淆缩进方式或忘记缩进。正确做法是统
Python学习笔记2-垃圾回收机制 Carrie_Lei Python python 学习笔记
Python的垃圾回收机制是自动管理内存的系统，用于回收不再使用的内存，以避免内存泄漏和优化内存使用。Python使用引用计数（ReferenceCounting）和垃圾回收（GarbageCollection）两种方式来管理内存。1.引用计数(ReferenceCounting)引用计数是Python内存管理的基础机制。每个对象都维护一个引用计数器，记录有多少个引用指向该对象。当一个新的引用指向
AI编程基础：学习Python是进入AI领域的必经之路（文末含学习路线与知识推荐） Clf丶忆笙 AI 人工智能开发全栈教程学习 python 人工智能 ai
文章目录Python市场行情：AI开发的首选语言为什么学习Python对AI至关重要AI开发所需的Python知识体系Python编程基础科学计算与数据处理机器学习与深度学习性能优化与并行计算Python学习路线推荐阶段一：Python编程基础（1-2个月）阶段二：科学计算与数据处理（1-2个月）阶段三：机器学习基础（2-3个月）阶段四：深度学习与AI专项（3-6个月）阶段五：进阶与专项深化（持续
python学习之路 - python的文件操作
目录一、python文件操作1、文件的编码a、概念b、编码分类2、文件的读取a、打开文件a、读取文件字节c、读取文件行d、for循环的读取3、文件的关闭4、文件的写入5、文件的追加6、文件操作综合a、案例一：读取字符个数b、案例二：复制文件一、python文件操作1、文件的编码a、概念计算机只能识别0和1，所以需要用编码技术将内容翻译成0和1b、编码分类UTF-8除非有特殊要求，否则一般都用此编码
Python：数学，排列组合，可重复的组合。好开心啊没烦恼数学 python 数据分析数据挖掘开发语言
目录1示例代码2欢迎纠错3论文写作/Python学习智能体1示例代码直接上代码。deftest1():"""有“a/b/c/d/e”五个字符用以组成八位字符串，可完全重复如“aaaaaaaa”，也可部分重复如“aaaabcde”。将“aaaabcde”和“bcdeaaaa”、“bacadaea”视作一种组合。问：这样的组合一共有多少种？""""""问题定性：可重复的组合。首先是个组合问题，因为
易语言数据分析小实例：数人头。用到：易数据库好开心啊没烦恼易语言数据分析数据库数据挖掘开发语言
目录（不如Python方便，已弃用易语言，但以“易语言”为工具的朋友可作参考。已测试通过。）------0需求1直接操作Excel表2易语言实现2.1导库2.2处理小插曲3欢迎纠错4论文写作/Python学习智能体------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内
【Python学习】可视化图表-使用matplotlib绘制不同种类散点图西攻城狮北 Python实用案例 python 学习 matplotlib 可视化图形
一、引言在数据可视化领域，散点图是一种极其强大的工具，它能够直观地展示变量之间的关系、数据分布的模式以及潜在的聚类情况等。通过散点图，我们可以轻松地发现数据中的异常值、相关性以及其他隐藏的特征。Python的matplotlib库提供了丰富而灵活的功能，可以帮助我们绘制出各种类型的散点图，以满足不同的数据分析和展示需求。本文将深入探讨如何使用matplotlib绘制多种类型的散点图，并提供详细的代
数据分析案例-全球表面温度数据可视化与统计分析艾派森数据分析信息可视化 python 数据分析数据挖掘
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍
python学习记录14 彤银浦学习 python
1.字符串的编码和解码不同的计算机之间在信道中传输的信息本质上是二进制数据，因此当你有一串文本需要传输给另外一台电脑时，则需要将这串文本编译为二进制类型的数据。python中的二进制数据类型称为byte类型。将字符串的str类型转变为byte类型称为字符串的编码，将byte类型转变为str类型称为字符串的解码。字符串的编码用到的是encode的方法，语法格式为：string.encode(enco
Python学习打卡：day13 胜天半子祁厅 Python python 学习 java
day13笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day1397、初识对象98、类的成员方法类的定义和使用成员变量和成员方法成员方法的定义语法99、类和对象在程序中通过类来描述基于类创建对象100、构造方法课后练习101、魔术方法\_\_str\_\_字符串方法\_\_lt\_\_小于符号比较方法\_\_le\_\_小于等于比较符号方法\
python学习笔记（深度学习）天水幼麟 python 学习笔记
文章目录1、概述2、学习内容2.1、pytorch常见语法2.1.1、sum2.1.2、广播机制2.1.3、张量1、概述本篇博客用来记录，在深度学习过程中，常用的python语法内容2、学习内容2.1、pytorch常见语法2.1.1、sum在PyTorch中，torch.sum()是一个非常常用的函数，用于对张量（Tensor）进行求和操作。它的核心作用是沿着指定的维度对张量元素进行累加，支持灵
Python学习之——装饰器 selfsongs Python 学习记录 python 学习开发语言
Python学习之——装饰器参考基础闭包概念装饰器系统自带的装饰器@property@staticmethod@classmethod自定义装饰器函数的装饰器无参数有参数类的装饰器无参数有参数@functools.wraps装饰器类装饰器实现单例模式参考python装饰器的4种类型：函数装饰函数、函数装饰类、类装饰函数、类装饰类9.4定义一个带参数的装饰器Python–在装饰器中获取原始函数参数基
Python学习Day42 m0_64472246 python打卡学习 python
学习来源：@浙大疏锦行defhandle_result(result):"""处理计算结果的回调函数"""print(f"计算结果是:{result}")defcalculate(a,b,callback):"""这个函数接受两个数值和一个回调函数，用于处理计算结果。执行计算并调用回调函数"""result=a+bcallback(result)calculate(3,5,handle_resul
Python学习Day33 m0_64472246 python打卡学习 python
学习来源：浙大疏锦行一、PyTorch和CUDA的安装：给电脑装“超级计算器”通俗解释PyTorch：是一个专门用于深度学习的“工具箱”，类似程序员的“智能积木”，能快速搭建神经网络。CUDA：是NVIDIA显卡的“加速引擎”，相当于给电脑的显卡装了一个“超级计算器”，让它能快速计算复杂的数学问题（如图像识别、数据训练）。安装逻辑：先装CUDA（显卡的“计算器驱动”），再装PyTorch（用这个计
Python学习Day29 m0_64472246 python打卡学习学习
学习来源：@浙大疏锦行类装饰器是Python中用于动态修改或增强类定义的高级工具，其核心在于接收一个类作为输入并返回一个新类，从而在不修改原始类代码的前提下扩展功能。以下是类装饰器的系统解析：一、类装饰器的核心机制基本结构类装饰器是一个高阶函数，接收类参数cls，通过继承或直接修改返回新类：defclass_decorator(cls):classWrappedClass(cls):#继承原始类d
Python学习Day10 m0_64472246 python打卡学习 python
学习来源：@浙大疏锦行知识点：数据集的划分机器学习模型建模的三行代码机器学习模型分类问题的评估对心脏病数据集采用机器学习模型建模和评估importpandasaspdfile_path="heart.csv"data=pd.read_csv(file_path)data.info()data.isnull().sum()#划分训练集和测试机fromsklearn.model_selectionim
Python学习Day14 m0_64472246 python 学习开发语言
学习来源：@浙大疏锦行SHAP（SHapleyAdditiveexPlanations）库是一个用于解释机器学习模型预测结果的开源Python库。**一、核心概念**1.**Shapley值***它来源于合作博弈论。在机器学习模型解释的语境下，可以这样理解：对于一个模型的预测结果，每个特征都看作是一个“玩家”，模型的输出是这些“玩家”合作的结果。Shapley值表示每个特征对预测结果的平均边际贡献
Python学习Day34 m0_64472246 python打卡学习 python
学习来源：@浙大疏锦行优化耗时：importtorchimporttorch.nnasnnimporttorch.optimasoptimfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportMinMaxScalerimpo
Python学习—10大高阶调试方法！第⑦颗VC小铁树 python 学习数据库开发语言数据分析 ipython
在Python开发过程中，调试是一项核心技能。无论是初级开发者还是资深工程师，掌握高效的调试技巧都能显著提升开发效率。本文将介绍10个实用的调试方法，帮助开发者更有效地定位和解决问题。包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】！1、Python内置调试器pdb的应用Python的内置调试器pdb是一个功能强大的调试工具。它能够在程序执行过程中设置断点，检查变量状态，并支持单步
Python学习Day40 m0_64472246 python打卡学习 python
学习来源：@浙大疏锦行importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorchvisionimportdatasets,transformsfromtorch.utils.dataimportDataLoaderimportmatplotlib.pyplotaspltimportnumpyasnp##设置中文字体支持plt.rcP
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found