叫我阿柒啊

Scrapy入门到放弃04：下载器中间件，让爬虫更完美

前言

MiddleWare，顾名思义，中间件。主要处理请求（例如添加代理IP、添加请求头等）和处理响应

本篇文章主要讲述下载器中间件的概念，以及如何使用中间件和自定义中间件。

MiddleWare分类

依旧是那张熟悉的架构图。

从图中看，中间件主要分为两类：

Downloader MiddleWare：下载器中间件
Spider MiddleWare：Spider中间件

本篇文主要介绍下载器中间件，先看官方的定义：

下载器中间件是介于Scrapy的request/response处理的钩子框架。是用于全局修改Scrapy request和response的一个轻量、底层的系统。

作用

如架构图中所描述的一样，下载器中间件位于engine和下载器之间。engine将未处理的请求发送给下载器的时候，会经过下载器中间件，这时候在中间件里可以包装请求，例如修改请求头信息(设置UA、cookie等)和添加代理IP。

当下载器将网站的响应发送给engine的时候，也会经过下载器中间件，这里我们就可以对响应内容进行处理。

内置下载器中间件

Scrapy内置了很多下载器中间件供开发者使用。当我们启动一个Scrapy爬虫时，Scrapy会自动帮助我们启用这些中间件。如图：

图中就是在启动Scrapy程序时控制台打印的日志信息，我们发现Scrapy帮我们启用了很多下载器中间件和Spider中间件。

这里，先看看这些内置的中间件是如何发挥作用的？

RetryMiddleware

其实，这些内置中间件是和settings中的配置配套使用的。这里就拿RetryMiddleware为例。它的作用主要是：当请求失败时，可以根据RETRY_ENABLED和RETRY_TIMES配置来启用重试策略以及决定重试次数。就酱！！

那么问题又来了，这么多中间件，我去哪里找这个settings配置和中间件的对应关系啊？？

这里我的方法有两种：

去官方文档，上篇文章有链接
看源码注释，在scrapy包下的都有中间件对应的py文件

注释里面写的明明白白，代码中获取的参数也一览无余。

自定义中间件

有时候，内置的中间件满足不了自己的需求，所以我们就要自力更生，自定义中间件。所有的中间件都在middlewares.py中进行定义。

我们打开middlewares.py,发现里面已经自动生成了一个下载器中间件和Spider中间件。

先看自生成的下载器中间件模板：

可以看到里面主要有五个方法：

from_crawler：类方法，用于初始化中间件
process_request：每个request通过下载中间件时，都会调用该方法，对应架构图步骤4
process_response：处理下载器返回的响应内容，对应架构图步骤7
process_exception：当下载器或者处理请求异常时，调用此方法
spider_opened：内置的信号量回调方法，这里先不关注，先不关注！

这里主要关注3，顺带了解一下4、5。

process_request()

此方法有两个参数：

request：spider发起的需要处理的request
spider：该request对应的spider，暂定信号量细讲这个对象

def process_request(self, request, spider):
        # Called for each request that goes through the downloader middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        return None

这里主要是为了让大家看注释，看注释的目的是为了告诉大家：此方法必须返回值。

None：基本上用的都是这个返回值。表示这个请求可以进去下一个中间件进行处理了。
request：停止调用process_request方法，并重新将request放回队列重新调度
response：不会调用其他的 process_request，直接返回response，执行process_response。

还有一个是raise抛出异常，其实基本上返回值都用None，其他的目前可以仅做了解，有兴趣的可以自己探索一下。

process_response()

此方法有三个参数：

request：response所对应的request
response：被处理的response
spider：response所对应的spider

def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response

一样是看注释，返回值有两个：

response：下载器返回的响应内容，在各个中间件的process_response处理
request：停止调用process_response方法，响应不会到达spider，并重新将request放回队列重新调度

这里记住，只要return response就行。

process_exception()

def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.

        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass

此方法就是当上面两个方法抛出异常的时候就会进入此方法，返回值有三个，意思和上面的差不多，用None就行。

启用和禁用中间件

自定义的中间件，有时候会和内置中间件功能重复，也担心功能上互相覆盖。所以这里我们可以选择，在配置中关掉内置中间件。

我个人比较喜欢自定义User-Agent中间件，但是Scrapy内置UserAgentMiddleware中间件，这就冲突了。如果内置中间件执行优先级低，后执行的话，则内置的UA就会覆盖自定义的UA。所以，我们需要关掉这个内置中UA中间件。

DOWNLOADER_MIDDLEWARES参数用来设置下载器中间件。其中，Key为中间件路径，Value为中间件执行优先级，数字越小，越先执行，当Value为None时，表示禁用。

# settings.py
DOWNLOADER_MIDDLEWARES = {
    # 禁用默认的useragent插件
    'scrapy.downloadermiddleware.useragent.UserAgentMiddleware': None,
    # 启用自定义的中间件
    'ScrapyDemo.middlewares.VideospiderDownloaderMiddleware': 543,
}

这样，内置的UA中间件则被禁用。

调用优先级

其次我们要明确的是：中间件是链式调用，一个请求会根据中间件的优先级，先后经过每个中间件，响应也是。

上面也说了，每个中间件都会设置一个执行优先级，数字越小越先执行。例如中间件1的优先级设置为200，中间件2的优先级设置为300。

当spider发起一个请求时，request会先经过中间件1的process_request进行处理，然后到达中间件2的此方法进行处理，当经过所有的中间件的此方法处理之后，最后到达下载器进行网站请求，然后返回响应内容。

process_response就是逆序处理，先到达中间件2的此方法，再到达中间件1，最后响应返回spider中，由开发者处理。

实践

这里我们自定义一个下载器中间件，来添加User-Agent。

自定义中间件

在middlewares.py中定义一个中间件：

class CustomUserAgentMiddleWare(object):

    def process_request(self, request, spider):
        request.headers['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
        return None

    def process_response(self, request, response, spider):
        print(request.headers['User-Agent'])
        return response

启用中间件

为了直观，我们不修改settings.py全局配置，依旧使用代码内局部配置。

import scrapy

class DouLuoDaLuSpider(scrapy.Spider):
    name = 'DouLuoDaLu'
    allowed_domains = ['v.qq.com']
    start_urls = ['https://v.qq.com/detail/m/m441e3rjq9kwpsc.html']

    custom_settings = {
        'DOWNLOADER_MIDDLEWARES': {
            # 禁用默认的useragent插件
            'scrapy.downloadermiddleware.useragent.UserAgentMiddleware': None,
            # 启用自定义的中间件
            'ScrapyDemo.middlewares.CustomUserAgentMiddleWare': 400
        }
    }


    def parse(self, response):
        pass

这里首先禁用了默认的UA中间件，然后启用了自定义的UA中间件。并且我在最后一行打上断点，Debug看UA是否设置成功。

测试结果

Debug模式启动程序，这里先把自定义的UA中间件禁用。

如图，request的UA是Scrapy。我们将注释去掉，启动UA中间件，再次启动程序测试。

如图，request的UA已经变成我在中间件中设置的UA了。

设置代理IP

依旧是在process_request方法中设置代理IP。

代码如下：

request.meta["proxy"] = 'http://ip:port'

结语

下载器中间件主要的功能还是包装请求，我个人自定义下载器中间件都是用来动态设置UA和实时检测更换代理IP。至于其他的场景需求，内置的下载器中间件基本上够用。

当然，不去学习下载器中间件这一块的知识同样可以开发Scrapy爬虫，但是下载器中间件会让你的爬虫更加完美。

本来想把下载器中间件和Spider中间件写在一篇中，但是知识点太碎，不好排版，而且还容易混淆，所以Spider中间件就留在下一篇写，期待下一次相遇。

95后小程序员，写的都是日常工作中的亲身实践，置身于初学者的角度从0写到1，详细且认真。文章会在公众号 [入门到放弃之路] 首发，期待你的关注。

你可能感兴趣的:(Scrapy,爬虫,scrapy,下载器中间件,downloader,middlewares)

大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
Python 爬虫实战：从喜马拉雅爬取有声书播放量，挖掘热门音频内容西攻城狮北 python 爬虫音视频实战案例
目录引言一、项目背景与需求分析1.1喜马拉雅平台的特点1.2数据爬取目标二、技术选型与工具准备2.1技术选型2.2工具准备三、爬取有声书播放量数据3.1获取音频列表3.2获取音频详情四、数据存储五、数据处理与分析5.1数据清洗5.2数据分析六、可视化展示七、总结与展望引言喜马拉雅作为国内知名的音频分享平台，拥有海量的有声书、广播剧、音乐等内容。通过爬取喜马拉雅上的有声书播放量数据，我们可以分析哪些
8年测试老鸟整理，软件测试定位bug方法+定位案例，不要再走弯路了 2401_89693697 bug
前言1、问题bug定位技巧首先，作为开发也好，测试也好，定位问题有一个总的思路，而这个思路是和数据的走向一致的。大致是这样：用户层面问题->Web页面/软件界面->中间件->后端服务->代码->数据库以下都以Web页面举例说明。用户层面问题指的是用户自己的环境问题或者操作问题，比如环境不通，或者操作不正确。这种问题一般不是bug，当然，如果要考虑构建更加健壮的软件，那么可以根据实际情况来决定要不要
通过爬虫方式实现视频号助手发布视频 sh_moranliunian 蜘蛛侠 python 网络协议爬虫网络爬虫后端
1、将真实的cookie贴到解压后目录中cookie.txt文件里，修改python代码里的user_agent和video_path,cover_path等变量的值，最后运行python脚本即可；2、运行之前根据import提示安装一些常见依赖，比如requests等；3、2025年1月份最新版；代码如下：importjsonimporttimeimportrequestsimportosimp
腾讯面试：大厂必问消息队列场景面试题消息队列腾讯面试问题
今天，我将那些大厂必问的消息队列的场景问题为大家整理出来,本文将跟大家一起来探讨如何回答这些问题。为什么要使用消息队列？保证消息有序，一个topic只能有一个partition吗？(消息顺序)业务突然增长，导致消息消费不过来怎么办？(消息积压)生产者收到写入成功响应后消息一定不会丢失吗？(消息丢失)高并发场景下怎么保证消息不会重复消费？(重复消费)如何保证消息的可靠性？各大消息队列中间件对比及使用
Python 库的记录 weixin_40895135 python
GitHub-jobbole/awesome-python-cn:Python资源大全中文版，内容包括：Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等环境管理管理Python版本和环境的工具p–非常简单的交互式python版本管理工具。pyenv–简单的Python版本管理工具。Vex–可以在虚拟环境中执行命令。vir
企业技术架构图 iteye_14949 企业架构图技术架构图
发布一企业技术架构图，供大家参考。该技术架构图是本人根据多年企业技术架构经验而制定，是企业技术的总架构图，希望对CTO们有所借鉴。简单说明：1.中间件基础运行环境是经过统一规划的以WebLogic、JBOSS为主的集群环境2.企业集成平台是以基础业务应用为基础服务于上层平台和基础业务应用的高度集成平台3.数据中心是企业公共数据的集中管理比如用户数据、企业编码，可以通过数据集成平台或服务集成平台分发
Python抖音爬虫 yzx991013 python基础学习 python 爬虫开发语言
代码：#导入自动化模块的安装：需要安装pipinstallDrissionPagefromDrissionPageimportChromiumPage#导入时间转换模块fromdatetimeimportdatetime#导入csv模块，用于操作CSV文件importcsv#导入格式化输出模块frompprintimportpprint#使用with语句管理文件资源，自动关闭文件withopen(
rocketmq python 某个队列不消费_RocketMQ消息发送常见错误与解决方案 weixin_39849479 rocketmq python 某个队列不消费
点击上方“中间件兴趣圈”，选择“设为星标”做积极的人，越努力越幸运！本文将结合自己使用RocketMQ的经验，对消息发送常见的问题进行分享，基本会遵循出现问题，分析问题、解决问题。1、Norouteinfoofthistopic无法找到路由信息，其完整的错误堆栈信息如下：而且很多读者朋友会说Broker端开启了自动创建主题也会出现上述问题。RocketMQ的路由寻找流程如下图所示：上面的核心关键点
03、爬虫数据解析-bs4解析/xpath解析奔向sj 爬虫学习爬虫
一、bs4解析使用bs4解析，需要了解一些html的知识，了解其中一些标签。安装：pipinstallbs4导入：frombs4importBeautifulSoup1、使用方式1、把页面源代码交给BeautifulSoup进行处理，生成bs对象2、从bs对象中查找数据（1）find(标签，属性=值)：找第一个（2）findall(标签，属性=值)：找全部的2、实战：拿到上海菜价网蔬菜价格1、思路
【日常运维】mongoDB学习-入门介绍-其强大之处以及用武之地向往风的男子运维日常 DBA mongodb
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》暂未更新《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》运维日常《l
python websocket爬虫_python爬虫----爬取阿里数据银行websocket接口 weixin_39722917 python websocket爬虫
业务需求：爬取阿里品牌数据银行的自定义模块==>>>人群透视==>>>查看报告==>>数据最终获取页面：页面获取情况如下：绿色的就是我们需要模拟的请求，红色朝下的就是请求对应的数据，通过rid参数来找寻对应请求和数据，这个rid和时间戳很类似，没错这就是一个13位的时间戳，和随机数组合而成的：randomID=str(int(time.time()*1000))+str(self.count).z
python3简单爬虫 (爬取各个网站上的图片)_Python简单爬取图片实例神楽坂有木 python3简单爬虫 (爬取各个网站上的图片)
都知道Python的语法很简单易上手，也很适合拿来做爬虫等等，这里就简单讲解一下爬虫入门——简单地爬取下载网站图片。效果就像这样自动爬取下载图片到本地：代码：其实很简单，我们直接看下整体的代码：#coding=utf-8importurllibimportredefgetHtml(url):page=urllib.urlopen(url)html=page.read()returnhtmldefg
消息队列篇--通信协议篇--STOMP（STOMP特点、格式及示例，WebSocket上使用STOMP，消息队列上使用STOMP等） weisian151 消息队列篇 websocket 网络协议
STOMP（SimpleTextOrientedMessagingProtocol，简单面向文本的消息传递协议）是一种轻量级、基于文本的协议，旨在为消息代理（消息队列）和客户端之间的通信（websocket）提供一种简单的接口。它通常运行在TCP或WebSocket之上，并广泛用于实现发布/订阅、点对点消息传递等模式。STOMP提供了一种简单的机制来发送和接收消息，适用于各种消息中间件系统，如Ac
使用Python爬虫获取1688店铺所有商品信息的完整指南不会玩技术的技术girl Python API python 爬虫开发语言
在当今的电商时代，获取电商平台的商品信息对于市场分析、竞争对手研究以及数据挖掘等任务至关重要。1688作为中国领先的B2B电商平台，拥有海量的商品和商家数据。通过Python爬虫技术结合1688的API接口，我们可以高效地获取店铺的所有商品信息。本文将详细介绍如何实现这一目标。一、1688API接口简介1688开放平台提供了丰富的API接口，允许开发者通过合法的方式获取商品信息、店铺信息等数据。其
Python爬虫系列：爬取小说并写入txt文件_python爬虫爬取小说保存txt 2301_82244158 程序员 python 爬虫开发语言
哈喽，哈喽~都说手机自带的浏览器是看小说最好的一个APP，不须要下载任何软件，直接百度就ok了。但是小编还是想说，如果没有网，度娘还是度娘吗？能把小说下载成一个**.txt文件看**不是更香吗？这能难倒小编吗？坚决不能滴。于是乎，自己动手丰衣足食，Python就是万能的好吧。概要：程序语言：python第三方库：requests，parsel最后Python崛起并且风靡，因为优点多、应用领域广、被
Python爬虫获取custom-1688自定义API操作接口不会玩技术的技术girl Python API 1688API python 爬虫开发语言
一、引言在电子商务领域，1688作为国内领先的B2B平台，提供了丰富的API接口，允许开发者获取商品信息、店铺信息等。其中，custom接口允许开发者进行自定义操作，获取特定的数据。本文将详细介绍如何使用Python调用1688的custom接口，并对获取到的数据进行分析和应用。二、准备工作注册1688开放平台账号访问1688开放平台官网，注册一个账号并完成相关认证。这是获取API接口权限的前提。
python 自动填表单不用webdriver_用python-webdriver实现自动填表 weixin_39747293 python 自动填表单不用webdriver
在日常工作中常常需要重复填写某些表单，如果人工完成，费时费力，而且网络延迟令人十分崩溃。如果能够用程序实现自动填表，效率可以提高一倍以上，并且能够移植到多台计算机，进一步提高工作效率。webdriver是python的selenium库中的一个自动化测试工具，它能完全模拟浏览器的操作，无需处理复杂的request、post，对爬虫初学者十分友好。一、环境配置python3.6+selenium库+
scrapy六 SSSCAESAR
目录设置代理ip设置随机的请求头(u-a)scrapy集成seleniumRedisNoSQL和SQL数据库的比较Redis特性设置代理ip代理的作用：突破自身的IP访问限制隐藏自身真实的ip如何获取ip：付费代理代理ip的匿名度：透明服务器知道这次使用了代理也知道真实的ip匿名服务器知道使用了代理不知道真实的ip高匿不知道使用了代理也不知道真实的ipclassIPProxyDownloaderM
网络协议&爬虫简介 SSSCAESAR
文章目录端口通讯协议http网络模型http的请求和响应爬虫介绍爬虫的用处企业获取数据的方式端口指TCP/IP协议中的端口，端口号的范围从0到65535，比如用于浏览网页服务的80端口，用于FTP服务的21端口。面向连接服务TCP协议和无连接服务UDP协议使用16bits端口号来表示和区别网络中的不同应用程序，网络层协议IP使用特定的协议号（TCP6，UDP17）来表示和区别传输层协议。分为3大类
进阶之路：从传统编程到AI大模型与Prompt驱动的爬虫技术大模型老炮人工智能 prompt 爬虫语言模型大模型学习 AI大模型
前言爬虫相信很多人都对此有所了解，它主要依靠编写代码实现对网页结构的解析，通过模拟浏览器行为获取目标数据！随着人工智能技术的发展，LLM大模型的出现为爬虫技术带来了新的思路。与传统的编程模式不同，使用AI大模型+prompt可以显著提高程序员的编程效率。通过结合人工智能和自然语言处理技术，开发者可以更加高效地编写爬虫代码，并实现对网页内容的智能解析和提取。前置内容下面我将通过爬取豆瓣电影top25
正在更新丨豆瓣电影详细数据的采集与可视化分析（scrapy+mysql+matplotlib+flask） Want595 Python数据分析 scrapy mysql matplotlib
文章目录豆瓣电影详细数据的采集与可视化分析（scrapy+mysql+matplotlib+flask）写在前面数据采集0.注意事项1.创建Scrapy项目`douban2025`2.用`PyCharm`打开项目3.创建爬虫脚本`douban.py`4.修改`items.py`的代码5.修改`pipelines.py`代码6.修改`settings.py`代码7.启动`douban2025`项目8
11. Scrapy爬虫的监控与日志管理：确保稳定运行杨胜增 scrapy 爬虫
11.Scrapy爬虫的监控与日志管理：确保稳定运行在进行大规模的爬虫部署时，如何高效地监控爬虫的运行状态，及时发现并解决潜在问题，变得至关重要。Scrapy提供了灵活的日志管理功能，同时也可以与外部工具集成，实现爬虫的实时监控与告警。本篇文章将探讨如何使用Scrapy内置的日志功能来追踪爬虫的状态、调试问题，并通过集成外部监控工具来提高爬虫的稳定性和可维护性。11.1Scrapy内置日志功能Sc
全网最全！Python爬虫requests库教程(附案例)_python requests(2) 2401_84009549 程序员 python 爬虫开发语言
requests.delete(“http://httpbin.org/delete”)#DELETE请求requests.head(“http://httpbin.org/get”)#HEAD请求requests.options(“http://httpbin.org/get”)#OPTIONS请求##2.使用Request发送GET请求HTTP中最常见的请求之一就是GET请求，下面首先来详细了
Python爬虫保姆级入门教程大模型贰贰 python 爬虫 python爬虫 python零基础 python入门
01前言Python非常适合用来开发网页爬虫，理由如下：1、抓取网页本身的接口相比其他静态编程语言，如java，c#，c++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这时我们需要模
常见的反爬机制及应对策略极客点儿 #网络爬虫 Python 爬虫反爬
1.Headers:从用户的headers进行反爬是最常见的反爬策略,Headers是一种最常见的反爬机制Headers是一种区分浏览器行为和机器行为中最简单的方法，还有一些网站会对Referer（上级链接）进行检测从而实现爬虫。相应的解决措施：通过审查元素或者开发者工具获取相应的headers然后把相应的headers传输给python的requests，这样就能很好地绕过。2.IP限制一些网站
【Python3爬虫】Scrapy入门教程 TM0831 Python3爬虫 Python3 网络爬虫
Python版本：3.5系统：Windows一、准备工作需要先安装几个库（pip，lxml，pywin32，Twisted，pyOpenSSL），这些都比较容易，如果使用的是Pycharm，就可以更方便的安装模块，在settings里可以选择版本进行下载。如果在命令行模式下输入pip-V出现'pip'不是内部或外部命令，也不是可运行的程序或批处理文件，先确保自己在环境变量中配置E:\Python3
Python 爬虫中的反爬策略及详细应对方法 winner8881 python 爬虫开发语言
在构建Python爬虫的过程中，网站为了保护自身资源和用户体验，常常会采取一系列反爬策略来限制或阻止自动化程序的访问。了解这些策略对于设计更智能、更合规的爬虫至关重要。以下是详细的反爬措施及其应对方法：1.User-Agent检测策略描述：许多网站会检查HTTP请求头中的User-Agent字段，以判断请求是否来自浏览器。如果发现是来自非标准用户代理（如Python默认的requests库），可能
反爬技术详解：守护数据的网络之盾 MySheep. 爬虫文章爬虫 python
随着互联网的快速发展，网络爬虫技术在数据采集和分析领域的应用越来越广泛。然而，爬虫行为也对网站服务器的稳定性、数据隐私及商业利益造成了威胁。为了应对这些挑战，反爬技术应运而生。本篇文章将详细介绍反爬技术的概念、常用方法以及实际应用场景。一、反爬技术的意义反爬技术旨在保护网站数据免遭未经授权的访问，同时维护服务器的性能与正常用户体验。通过阻止恶意爬虫的访问，网站可以：保护敏感数据：防止数据被非法采集
Python 简单爬虫教程 ANTennaaa Python python
就是突然想玩一下这里是一个下载网页内图片的例子环境Python3.7需首先安装pipinstalllxml-ihttps://mirrors.aliyun.com/pypi/simple#fromurllib.requestimporturlretrieve#第一种方法importrequests#第二种方法frombs4importBeautifulSoup'''Ifthetargetdirec
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他