零基础写python爬虫之urllib2使用指南

前面说到了urllib2的简单入门，下面整理了一部分urllib2的使用细节。

1.Proxy 的设置

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。
如果想在程序中明确控制 Proxy 而不受环境变量的影响，可以使用代理。
新建test14来实现一个简单的代理Demo：

复制代码代码如下:

 
 import urllib2  
  
 enable_proxy = True  
  
 proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})  
  
 null_proxy_handler = urllib2.ProxyHandler({})  
  
 if enable_proxy:  
  
     opener = urllib2.build_opener(proxy_handler)  
  
 else:  
  
     opener = urllib2.build_opener(null_proxy_handler)  
  
 urllib2.install_opener(opener)

这里要注意的一个细节，使用 urllib2.install_opener() 会设置 urllib2 的全局 opener 。
这样后面的使用会很方便，但不能做更细致的控制，比如想在程序中使用两个不同的 Proxy 设置等。
比较好的做法是不使用 install_opener 去更改全局的设置，而只是直接调用 opener 的 open 方法代替全局的 urlopen 方法。

2.Timeout 设置

在老版 Python 中（Python2.6前），urllib2 的 API 并没有暴露 Timeout 的设置，要设置 Timeout 值，只能更改 Socket 的全局 Timeout 值。

复制代码代码如下:

 
 import urllib2  
  
 import socket  
  
 socket.setdefaulttimeout(10) # 10 秒钟后超时  
  
 urllib2.socket.setdefaulttimeout(10) # 另一种方式

在 Python 2.6 以后，超时可以通过 urllib2.urlopen() 的 timeout 参数直接设置。

复制代码代码如下:

 
 import urllib2  
  
 response = urllib2.urlopen('http://www.google.com', timeout=10)

3.在 HTTP Request 中加入特定的 Header

要加入 header，需要使用 Request 对象：

复制代码代码如下:

 
 import urllib2  
  
 request = urllib2.Request('http://www.baidu.com/')  
  
 request.add_header('User-Agent', 'fake-client')  
  
 response = urllib2.urlopen(request)  
  
 print response.read()

对有些 header 要特别留意，服务器会针对这些 header 做检查
User-Agent : 有些服务器或 Proxy 会通过该值来判断是否是浏览器发出的请求
Content-Type : 在使用 REST 接口时，服务器会检查该值，用来确定 HTTP Body 中的内容该怎样解析。常见的取值有：
application/xml ：在 XML RPC，如 RESTful/SOAP 调用时使用
application/json ：在 JSON RPC 调用时使用
application/x-www-form-urlencoded ：浏览器提交 Web 表单时使用
在使用服务器提供的 RESTful 或 SOAP 服务时， Content-Type 设置错误会导致服务器拒绝服务

4.Redirect

urllib2 默认情况下会针对 HTTP 3XX 返回码自动进行 redirect 动作，无需人工配置。要检测是否发生了 redirect 动作，只要检查一下 Response 的 URL 和 Request 的 URL 是否一致就可以了。

复制代码代码如下:

 
 import urllib2  
  
 my_url = 'http://www.google.cn'  
  
 response = urllib2.urlopen(my_url)  
  
 redirected = response.geturl() == my_url  
  
 print redirected  
  
 my_url = 'http://rrurl.cn/b1UZuP'  
  
 response = urllib2.urlopen(my_url)  
  
 redirected = response.geturl() == my_url  
  
 print redirected

如果不想自动 redirect，除了使用更低层次的 httplib 库之外，还可以自定义HTTPRedirectHandler 类。

复制代码代码如下:

 
 import urllib2  
  
 class RedirectHandler(urllib2.HTTPRedirectHandler):  
  
     def http_error_301(self, req, fp, code, msg, headers):  
  
         print "301"  
  
         pass  
  
     def http_error_302(self, req, fp, code, msg, headers):  
  
         print "303"  
  
         pass   
  
 opener = urllib2.build_opener(RedirectHandler)  
  
 opener.open('http://rrurl.cn/b1UZuP')

5.Cookie

urllib2 对 Cookie 的处理也是自动的。如果需要得到某个 Cookie 项的值，可以这么做：

复制代码代码如下:

 
 import urllib2  
  
 import cookielib  
  
 cookie = cookielib.CookieJar()  
  
 opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))  
  
 response = opener.open('http://www.baidu.com')  
  
 for item in cookie:  
  
     print 'Name = '+item.name  
  
     print 'Value = '+item.value

运行之后就会输出访问百度的Cookie值：

6.使用 HTTP 的 PUT 和 DELETE 方法

urllib2 只支持 HTTP 的 GET 和 POST 方法，如果要使用 HTTP PUT 和 DELETE ，只能使用比较低层的 httplib 库。虽然如此，我们还是能通过下面的方式，使 urllib2 能够发出 PUT 或DELETE 的请求：

复制代码代码如下:

 
 import urllib2  
  
 request = urllib2.Request(uri, data=data)  
  
 request.get_method = lambda: 'PUT' # or 'DELETE'  
  
 response = urllib2.urlopen(request)

7.得到 HTTP 的返回码

对于 200 OK 来说，只要使用 urlopen 返回的 response 对象的 getcode() 方法就可以得到 HTTP 的返回码。但对其它返回码来说，urlopen 会抛出异常。这时候，就要检查异常对象的 code 属性了：

复制代码代码如下:

 
 import urllib2  
  
 try:  
  
     response = urllib2.urlopen('http://bbs.csdn.net/why')  
  
 except urllib2.HTTPError, e:  
  
     print e.code

8.Debug Log

使用 urllib2 时，可以通过下面的方法把 debug Log 打开，这样收发包的内容就会在屏幕上打印出来，方便调试，有时可以省去抓包的工作

复制代码代码如下:

 
 import urllib2  
  
 httpHandler = urllib2.HTTPHandler(debuglevel=1)  
  
 httpsHandler = urllib2.HTTPSHandler(debuglevel=1)  
  
 opener = urllib2.build_opener(httpHandler, httpsHandler)  
  
 urllib2.install_opener(opener)  
  
 response = urllib2.urlopen('http://www.google.com')

这样就可以看到传输的数据包内容了：

9.表单的处理

登录必要填表，表单怎么填？
首先利用工具截取所要填表的内容。
比如我一般用firefox+httpfox插件来看看自己到底发送了些什么包。
以verycd为例，先找到自己发的POST请求，以及POST表单项。
可以看到verycd的话需要填username,password,continueURI,fk,login_submit这几项，其中fk是随机生成的（其实不太随机，看上去像是把epoch时间经过简单的编码生成的），需要从网页获取，也就是说得先访问一次网页，用正则表达式等工具截取返回数据中的fk项。continueURI顾名思义可以随便写，login_submit是固定的，这从源码可以看出。还有username，password那就很显然了：

复制代码代码如下:

 
 # -*- coding: utf-8 -*-  
  
 import urllib  
  
 import urllib2  
  
 postdata=urllib.urlencode({  
  
     'username':'汪小光',  
  
     'password':'why888',  
  
     'continueURI':'http://www.verycd.com/',  
  
     'fk':'',  
  
     'login_submit':'登录'  
  
 })  
  
 req = urllib2.Request(  
  
     url = 'http://secure.verycd.com/signin',  
  
     data = postdata  
  
 )  
  
 result = urllib2.urlopen(req)  
  
 print result.read()

10.伪装成浏览器访问

某些网站反感爬虫的到访，于是对爬虫一律拒绝请求
这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现

复制代码代码如下:

 
 #…  
  
 headers = {  
  
     'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'  
  
 }  
  
 req = urllib2.Request(  
  
     url = 'http://secure.verycd.com/signin/*/http://www.verycd.com/',  
  
     data = postdata,  
  
     headers = headers  
  
 )  
  
 #...

11.对付"反盗链"

某些站点有所谓的反盗链设置，其实说穿了很简单，
就是检查你发送请求的header里面，referer站点是不是他自己，
所以我们只需要像把headers的referer改成该网站即可，以cnbeta为例：
#...
headers = {
'Referer':'http://www.cnbeta.com/articles'
}
#...
headers是一个dict数据结构，你可以放入任何想要的header，来做一些伪装。
例如，有些网站喜欢读取header中的X-Forwarded-For来看看人家的真实IP，可以直接把X-Forwarde-For改了。

golang工程组件篇轻量级认证机制jwt之HS、RS. ES、ED签名与验证 SMILY12138 golang 开发语言后端
JWT（JSONWebToken）是一种轻量级的认证机制，它可以用于身份验证和授权。在JWT中，令牌被加密并使用数字签名进行保护，以确保其完整性和安全性。在本文中，我们将介绍如何在Golang中使用HS、RS.ES、ED签名算法对JWT进行签名和验证。HS签名与验证HS（HMAC-SHA）是一种对称加密算法，它需要一个共享密钥来进行加解密操作。在JWT中，我们可以使用HS256、HS384和HS5
golang工程组件篇轻量级认证机制jwt之HS、RS. ES、ED签名密钥生成 SMILY12138 golang 开发语言后端
在使用JWT（JSONWebToken）进行身份验证时，我们需要使用签名算法对令牌进行加密。在JWT中，常用的签名算法有HS、RS、ES和ED等。本文将介绍这些签名算法的基本概念以及如何在Golang中生成相应的密钥。HS签名算法HS（HMAC-SHA）是一种对称加密算法，它需要一个共享密钥来进行加解密操作。在JWT中，我们可以使用HS256、HS384和HS512三种不同长度的哈希值作为加密算法
MySQL基础知识洛洛呀。 mysql 数据库
通用语法：1.语句可以单行或多行书写，以分号结尾2.MySQL数据库的SQL语句不区分大小写，关键字建议写大写3.注释：单行注释：--注释内容或#注释内容(MySQL特有)多行注释：/*注释内容*/DDL语法：1.查询SHOWDATABASES;2.创建CREATEDATABASE数据库名称;3.判断后创建数据库CREATEDATABASEIFNOTEXISTS数据库名称4.删除4.1删除数据库：
Python从0到100（六十一）：机器学习实战-实现客户细分是Dream呀 python 机器学习开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
基于Qt5.14.2和mingw的Qt源码学习（五） — 事件循环之windows事件循环基础和控制台中的事件循环 coding-hwz 通过Qt源码学习C++和OOP #事件循环 windows c++
基于Qt5.14.2和mingw的Qt源码学习（五）—事件循环之windows事件循环基础和控制台中的事件循环一、QEvent1、Q_GADGET2、spontaneous()3、accept()和ignore()二、QEventLoop1、ProcessEventsFlags2、exec（1）QAtomicIntegera.loadAcquirestoreReleaseb.loadRelaxed
为什么选择 HTNN 这款网络产品？ envoy
我们（蚂蚁网络基础设施团队）推出了一款新的网络产品，基于Istio和Envoy开发：https://github.com/mosn/htnn。基于Envoy的网关多如繁星，HTNN这个新轮子优势在哪？推广一个开源项目其实就是推广一种理念。几年前APISIX在推广时，主打的是更好的性能。HTNN主打的也是“快”，但不仅仅是数据面执行性能之快，更主要的是研发效率之快。无论是什么时候，又快又好地推出新功
linux-磁盘io性能指标！ xiao-xiang linux linux 服务器运维
一.引文：平时查看或者监控磁盘io时，基本上都是用的现成的工具/脚本，对其了解的还是很浅，特参考一些资料整理了下，留个随笔。二.磁盘I/O性能指标:磁盘I/O是Unix/Linux系统管理中一个非常重要的组成部分。磁盘I/O性能监控的指标主要包括：1：每秒I/O数（IOPS或tps）对于磁盘来说，一次磁盘的连续读或者连续写称为一次磁盘I/O,磁盘的IOPS就是每秒磁盘连续读次数和连续写次数之和。当
对于编程零基础，第一个语言是 Python 的人有什么建议？ cda2024 python 开发语言
在当今数字化时代，编程已成为一项必备技能。无论你是想成为一名专业的软件开发人员，还是希望在数据分析、人工智能等领域有所建树，掌握一门编程语言都是至关重要的第一步。对于许多初学者来说，Python是一个理想的选择。它不仅语法简洁易懂，而且拥有强大的社区支持和丰富的库资源。那么，对于编程零基础且选择Python作为第一门语言的人，有哪些实用的建议呢？1.建立正确的学习心态1.1持之以恒学习编程并不是一
【QT进阶】Qt线程与并发之线程和并发的简单介绍不吃~香菜 QT进阶 qt 开发语言线程并发
往期回顾：【QT进阶】Qthttp编程之实现websocketserver服务器端-CSDN博客【QT进阶】Qthttp编程之实现websocketclient客户端-CSDN博客【QT进阶】Qt线程与并发之创建线程的三种方法(超详细介绍)-CSDN博客【QT进阶】Qt线程与并发之线程和并发的简单介绍一、什么是线程和并发主要是做一个简单的补充说明1、线程线程是程序执行的最小单元，是操作系统能够进行
java.lang.NoClassDefFoundError 报错解决 GeniuswongAir java 开发语言
找不到Class的报错原因有很多种，无非是文件路径、包名、AndroidManifest.xml配置、缓存、等等。我这个的原因是，在Kotlin包里面导入了一个java写的Activity，导致不找到Class。解决：（加上这个配置就好了）android{sourceSets{main{java.srcDirs+='src/main/kotlin'}}FATALEXCEPTION:mainProc
Kafka 生产者中的ack的配置欧阳冰轩 Kafka kafka 分布式
在同步发送的前提下，⽣产者在获得集群返回的ack之前会⼀直阻塞。那么集群什么时候返回ack呢？此时ack有3个配置：1.ack=0kafka-cluster不需要任何的broker收到消息，就⽴即返回ack给⽣产者，最容易丢消息的，效率是最⾼的2.ack=1（默认）：多副本之间的leader已经收到消息，并把消息写⼊到本地的log中，才会返回ack给⽣产者，性能和安全性是最均衡的3.ack=-1/
excel波士顿矩阵怎么做_Excel2013采用散点图气泡图Powerview三种方案轻松制做波士顿矩阵.docx... weixin_39885803 excel波士顿矩阵怎么做
Excel2013采用散点图气泡图Powerview三种方案轻松制做波士顿矩阵Excel2013采用散点图气泡图Powerview三种方案轻松制作波士顿矩阵波士顿矩阵是图形化分析非常好的工具。找遍网络，没有找到一个轻松简单制作波士顿矩阵的方法，基本上都是用比较老的EXCEL版本制作，无法让散点图的各个点的标签显示为该点的名称(标签列的文字)，要做都要采用很复杂的转换，或手工添加，或启用VBA宏写代
termux使用教程python-Termux折腾记--进阶之python库使用 weixin_37988176
sshdTermux超级终端折腾记Termux超级终端的牛x之处我就不在这里描述了。这次讲的是如何在android手机上安装python的各种科学库和图形库。Jupyter是这次介绍的重点对象，先卖个关子，不忙介绍它。1.Termux超级终端下载Termux的下载链接极其介绍见我的其他博文2.安装python这一步只是作为一个提示，因为现在你不管是装Linux终端还是linux完整发行版，pyth
精通Python (21) 码商行者人工智能 python 人工智能
Python语言进阶之并发编程Python中实现并发编程的三种方案：多线程、多进程和异步I/O。并发编程的好处在于可以提升程序的执行效率以及改善用户体验；坏处在于并发的程序不容易开发和调试，同时对其他程序来说它并不友好。一，多线程Python中提供了Thread类并辅以Lock、Condition、Event、Semaphore和Barrier。Python中有GIL来防止多个线程同时执行本地字节
汇编基础语法及其示例怪怪879 汇编
1.汇编指令1.1汇编指令的基本格式{}{s},,{}{cpsr影响位},,注：第一操作寄存器只能是寄存器，不能写数值第二操作数可以写寄存器名，也可以写#一个数值汇编不区分大小写操作数可以是一个寄存器，也可以是一个立即数立即数：能够经过编码后保存到指令空间中直接当作指令一部分去执行的数据。一个32位指令空间中预留了12位空间保存当前操作数，可以通过某一个规则对操作数进行处理，将处理后数值放在这12
双目视觉之获取三维坐标（立体校正、Q矩阵与三角测量原理）乐平要加油啊 YOLO+双目视觉计算机视觉 opencv
前言双目视觉是一种模拟人类立体视觉的计算机视觉技术，它通过两个相机从不同的角度拍摄同一个场景，然后利用三角测量原理，计算出场景中物体的三维坐标信息。这种技术在机器人导航、自动驾驶、物体跟踪、三维重建等领域有广泛的应用。获取三维坐标是双目视觉的核心任务之一。通过对左右相机拍摄的图像进行特征匹配和视差计算，我们可以得到场景中每个像素点的视差值。视差值表示了同一个物体在左右图像中的位置差异，它与物体距离
题海拾贝：P2085 最小函数值 <但凡. 题海拾贝算法 c++数据结构
Hello大家好！很高兴我们又见面啦！给生活添点passion，开始今天的编程之路！我的博客：#includetypedeflonglongLL;usingnamespacestd;constintN=1e4+10;LLA[N],B[N],C[N];structnode{LLnum;//值LLi;//第i个方程式LLj;//代入的值//重载运算符写结构体里面不能typedefbooloperato
Python数据分析之共享单车及建模探索(CLV建模、可视化) weixin_46205203 笔记 python 数据分析数据建模
Python数据分析之共享单车及建模探索(CLV建模、可视化)开发环境4.3【开发平台及环境】Windons10教育版Python3.7IntelliJIDEA2018.2.1/PyCharmGoogeChrome数据清洗分析模块pandas，numpy可视化模块matplotlib上期原创：Python数据分析之智联招聘职位分析完整项目（数据爬取,数据分析,数据可视化）链接:https://bl
xgboost在spark集群使用指南一颗小草333 算法 mapreduce spark 数据挖掘
简介XGBoost是一个优化的分布式梯度增强库，具有高效、灵活和可移植性。在梯度增强框架下实现了机器学习算法。XGBoost提供了一种并行树增强(也称为GBDT、GBM)，可以快速、准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop、SGE、MPI)上运行，可以解决数十亿个示例的训练问题。xgb相对于gbt所做的改进：1.2.3.XGBoost可以使用R、python、java
webpack 学习从零到亿过程光头程序员 webpack 学习前端
webpack学习从零到亿过程适合小白从零到一搭建一个项目，虽然没有效果的截图但是知道跟随这个步骤流程走下去，你就会成功掌握打包的原理！我们先初始化一个node项目npminit安装webpack包npminstallwebpackwebpack-cli--save-dev写webpack配置文件config/webpack.dev.config.js安装了pathnpmipath-s-d并新建了
探索光之奥秘：Ray Optics - 一个强大的光学模拟工具缪昱锨Hunter
探索光之奥秘：RayOptics-一个强大的光学模拟工具ray-opticsAwebappforcreatingandsimulating2Dgeometricopticalscenes,withagalleryof(interactive)demos.项目地址:https://gitcode.com/gh_mirrors/ra/ray-optics在这个链接中，你将发现一个开源项目——，它是一个
数据结构与算法之哈希表: LeetCode 217. 存在重复元素 (Ts版) Wang's Blog Data Structure and Algorithms leetcode 算法
存在重复元素https://leetcode.cn/problems/contains-duplicate/description/描述给你一个整数数组nums。如果任一值在数组中出现至少两次，返回true；如果数组中每个元素互不相同，返回false示例1输入：nums=[1,2,3,1]输出：true解释：元素1在下标0和3出现示例2输入：nums=[1,2,3,4]输出：false解释：所有元
设计模式之访问者模式详解（Visitor Pattern） Missy Peng 设计模式
最复杂的设计模式，并且使用频率不高，《设计模式》的作者评价为：大多情况下，你不需要使用访问者模式，但是一旦需要使用它时，那就真的需要使用了。访问者模式是一种将数据操作和数据结构分离的设计模式。（觉得太抽象，可以看下面的例子）。模式的定义与特点访问者（Visitor）模式的定义：将作用于某种数据结构中的各元素的操作分离出来封装成独立的类，使其在不改变数据结构的前提下可以添加作用于这些元素的新的操作，
计算机毕业设计之基于PythonBOSS直聘招聘数据可视化系统的设计与实现 wx—bishe58 信息可视化数据分析数据挖掘 rnn 人工智能课程设计 python
本文主要介绍了基于PythonBOSS直聘招聘数据可视化系统的设计与实现。随着互联网的普及，BOSS直聘招聘网站成为了企业和求职者的重要交流平台。然而，大量的招聘信息给用户带来了信息过载的问题。为了解决这一问题，本文提出了一种基于PythonBOSS直聘招聘数据可视化系统的设计与实现方法。首先，本文采用爬虫技术收集了拉勾BOSS直聘招聘网站上的大量招聘信息。然后，利用爬虫优化算法对爬取到的数据进行
Java基础——函数（方法） AYANGIJ java 开发语言 intellij-idea
函数的出现在目前为止的开发实现中，我们的代码都在main方法中，从上到下进行编写。在此模式下，程序结构会随着功能复杂度的增加而越来越复杂。在代码中会有不连续的出现重复性代码，无法用循环解决。为了简化代码以及程序的结构，把这些不连续的重复性代码提取出来，封装为一个方法（函数），并且为之取名。在需要用到该方法（函数）代码的位置去调用该方法（函数）。方法（函数）初步出现，函数出现之后，有一些显而易见的好
JAVAEE框架技术之14SSM综合案例产品管理CRUD teayear 毕业设计项目 java-ee java spring
SSM综合案例一、课程目标1.【掌握】SSM整合2.【√】学习Lombok使用3.【理解】Layui页面书写（备注：其他前端技术也可以）4.【理解】理解SSM综合案例表的结构5.【掌握】产品管理二、SSM整合Spring+SpringMVC+Mybatis–>SSMSpring+Struts2+Hibernate-->SSH2.1简单整合在学习springmvc时我们发现，springmvc也会像
C语言——指针进阶 xb1132 c语言开发语言
前言：在对C语言指针进行初步入门之后，我们对指针——也就是地址有了基本的了解，如果还有对指针这部分知识不理解的同学可以看一下我写的关于指针入门的文章C语言——指针入门。1.数组指针1.1数组指针的概念这里为大家引入两个名词，数组指针和指针数组，这两个名词有什么区别呢？在指针入门阶段我们已经了解到，指针数组就是一个数组，一个存放指针类型元素的数组，而数组指针，顾名思义，它就是一个指针，一个指向数组的
归并排序（Ologn）及其应用（求逆序对）+例题（后续仍有补充）万般算法皆思想
这几天一直在看lrj紫书的归并排序部分，刚开始连递归都看不懂，，现在已经完全理解了，写这个bolg就是为了记录一下板子，方便以后进行记忆唤醒。之后陆续还会学习补充树状数组和线段树，这三者其实都是二分思想的应用，最关键的不是记住这个板子，而是能够理解其中的思想。归并排序又是分治法的一种应用，分为分和治两部分。分即为根据递归，将数组一直划分到只剩两个元素的时候，这个时候问题就很简单了，而治又是从两个元
Python爬虫实战：解析京东商品信息（附部分源码）是有头发的程序猿 API API接口 python 爬虫开发语言
在信息爆炸的今天，网络爬虫（WebScraping）作为一种自动获取网页内容的技术，已经成为数据采集的重要手段。Python，因其简洁的语法和强大的库支持，成为编写爬虫的首选语言之一。本文将通过一个实战案例，展示如何使用Python编写爬虫，以京东商品页面为例，解析商品信息。环境准备在开始编写爬虫之前，需要准备以下环境和工具：Python3.x网络请求库：requestsHTML解析库：Beaut
【算法学习】分治法应用—归并排序 _Huazzi 算法学习笔记算法学习排序算法 C++分治法
归并排序是分治思想的运用。文章目录基本思想：分治之美核心算法✂️分治流程：️过程演示⌛分步实现⌨️完整代码性能分析❓常见问题优化建议基本思想：分治之美将待排序元素分成大小大致相同的2个子集合，分别对2个子集合进行排序，最终将排好序的子集合合并成为所要求的排好序的集合。归并排序（MergeSort）是分治思想的经典应用。其核心理念是：分解：将复杂的大问题分割成简单的小问题解决：逐步解决小问题合并：将
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

零基础写python爬虫之urllib2使用指南

你可能感兴趣的:(零基础写python爬虫之urllib2使用指南)