tonydandelion2014

Python爬虫开发

开发爬虫的步骤
- - 1确定目标
  - 2分析目标形成抓取策略
  - 1URL格式
  - 2数据格式
  - 3网页编码
  - 3编写代码
  - 4执行爬虫
常用的Python网页下载器主要包括两种
- urllib2的使用方法
  - 1将url传入到urllib2urlopenurl这样就会直接得到一个网页的数据这是最简洁的方法
  - 2添加datahttp header
  - 3添加特殊的情景处理器
  - 4对付反盗链
  - 5urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy假如一个网站它会检测某一段时间某个IP 的访问次数如果访问次数过多它会禁止你的访问所以你可以设置一些代理服务器来帮助你做工作每隔一段时间换一个代理网站君都不知道是谁在访问
  - 6Timeout 设置
  - 7使用 HTTP 的 PUT 和 DELETE 方法
网页解析器
- 1种类
- 2安装beautifulsoup4
- 3使用BeautifulSoup
URLError异常处理
cookie的使用
- 1获取cookie保存到变量
- 2将cookie保存到文件
- 3从文件中获取Cookie并访问
- 4一个用cookie模拟登陆的实例
- 5openeropen方法和urlopen用POST方法比较
Python的正则表达式
- 1正则表达式是对字符串操作的一种逻辑公式就是用事先定义好的一些特定字符及这些特定字符的组合组成一个规则字符串这个规则字符串用来表达对字符串的一种过滤逻辑
- 2正则表达式相关注解
  - 1数量词的贪婪模式与非贪婪模式
  - 2反斜杠问题
- 3Python的re模块
  - 1rematchpattern string flags 必须从开头匹配正则
  - 2researchpattern string flags 全文搜索正则
  - 3resplitpattern string maxsplit 分割正则
  - 4refindallpattern string flags 以列表返回所有正则
  - 5refinditerpattern string flags 以迭代器返回所有
  - 6resubpattern repl string count 替换正则
  - 7resubnpattern repl string count 替换并统计次数正则
- 3Python的模块的另一种使用方法

开发爬虫的步骤

1、确定目标

2、分析目标，形成抓取策略

1)、URL格式

2)、数据格式

3)、网页编码

3、编写代码

4、执行爬虫

常用的Python网页下载器主要包括两种：

urllib2：这是Python的官方基础模块
requests：这是一个更强大的第三方包

urllib2的使用方法：

1)、将url传入到urllib2.urlopen(url)，这样就会直接得到一个网页的数据,这是最简洁的方法。

import urllib2
#直接请求
response = urllib2.urlopen('http://www.baidu.com')

#利用response的getcode()方法来获取状态码，如果是200就表示成功
print response.getcode()

#读取内容
cont = response.read()

2)、添加data、http header

#使用request方法做请求更为合理，符合网络请求的逻辑。
import urllib2
request = urllib2.Request(url) #生成Request对象
request.add_data('a','1') #添加数据
request.add_header('User-Agent','Mozilla/5.0') #添加http的header，将爬虫伪装成Mozilla浏览器
response = urllib2.urlopen(request) #发送请求获取结果
#也可以这样做
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
values = {'username' : 'cqc',  'password' : 'XXXX' }  
headers = { 'User-Agent' : user_agent }  #添加http的header，将爬虫伪装成Mozilla浏览器
data = urllib.urlencode(values)  
request = urllib2.Request(url, data, headers) #将用户信息和header信拼装进request
response = urllib2.urlopen(request)  
page = response.read()

#POST和GET数据传送
#POST方法
>>> import urllib
>>> import urllib2
>>> valuse = {'username':'[email protected]','password':'123'}
>>> data = urllib.urlencode(valuse) #准备账号密码
>>> url = "http://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn" #准备url
>>> request = urllib2.Request(url,data) #生成request 在把data传进去之前，我们要先使用urllib的urlencode方法生成有账户密码等信息的data
>>> response = urllib2.urlopen(request) #获取response 
>>> print response.read()

#urlopen用POST方法传账户密码的逻辑顺序：账号密码信息存到一个dict（valuse）里面 ---> 用urllib的urlencode方法把dict（valuse）里面的账户、密码信息封装到data里面 ---> 用urllib2的Request以目标url和data为参数生成一个request ---> 调用urllib2的urlopen方法以request为参数获得response

#GET方法
>>> values = {}
>>> valuse['username'] = '[email protected]'
>>> valuse['password'] = '123'
>>> data = urllib.urlencode(valuse)
>>> url = "http://passport.csdn.net/account/login"
>>> geturl = url + '?' + data
>>> print geturl
http://passport.csdn.net/account/login?username=123%40qq.com&password=123
>>> request = urllib2.Request(geturl)
>>> response = urllib2.urlopen(request)

urlopen(url, data, timeout)
第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。
第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
第一个参数URL是必须要传送的，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。

3)、添加特殊的情景处理器

#需要cookie才能访问的网页：HTTPCookieProcessor
#需要代理才能访问的网页：ProxyHandler
#使用Https加密协议访问的网页：HTTPSHandler
#有页面跳转的网页：HTTPRedirectHandler
import utllib2, cookielib
#创建cookie容器
cj = cookielib.CookieJar()

'''创建1个opener，HTTPCookieProcessor()以cj为参数是一个cookie处理器，生成一个Handler，再将这个Handler传给urllib2的build_opener()函数来生成一个opener对象'''
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

# 给urllib2openner
urllib2.install_opener(opner)

#使用带有cookie的urllib2访问网页
response = urllib2.urlopen("http://www.baidu.com/")

4)、对付反盗链

对付”反盗链”的方式，对付防盗链，服务器会识别headers中的referer是不是它自己，如果不是，有的服务器不会响应，所以我们还可以在headers中加入referer

>>>headers = {'Referer': 'http://www.zhihu.com/articles', 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'}
headers = {'Referer': 'http://www.zhihu.com/articles', 'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'}

5)、urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。假如一个网站它会检测某一段时间某个IP 的访问次数，如果访问次数过多，它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作，每隔一段时间换一个代理，网站君都不知道是谁在访问。

import urllib2
enable_proxy = True
proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})
null_proxy_handler = urllib2.ProxyHandler({})
if enable_proxy:
    opener = urllib2.build_opener(proxy_handler)
else:
    opener = urllib2.build_opener(null_proxy_handler)
urllib2.install_opener(opener)

6)、Timeout 设置

urlopen方法了，第三个参数就是timeout的设置，可以设置等待多久超时，为了解决一些网站实在响应过慢而造成的影响。

import urllib2
response = urllib2.urlopen('http://www.baidu.com', timeout=10)
response = urllib2.urlopen('http://www.baidu.com',data,10)

7)、使用 HTTP 的 PUT 和 DELETE 方法

http协议有六种请求方法，get,head,put,delete,post,options，我们有时候需要用到PUT方式或者DELETE方式请求

***PUT：这个方法比较少见。HTML表单也不支持这个。本质上来讲， PUT和POST极为相似，都是向服务器发送数据，但它们之间有一个重要区别，PUT通常指定了资源的存放位置，而POST则没有，POST的数据存放位置由服务器自己决定。
DELETE：删除某一个资源。基本上这个也很少见，不过还是有一些地方比如amazon的S3云服务里面就用的这个方法来删除资源。*

如果要使用 HTTP PUT 和 DELETE ，只能使用比较低层的 httplib 库。虽然如此，我们还是能通过下面的方式，使 urllib2 能够发出 PUT 或DELETE 的请求，不过用的次数的确是少，在这里提一下。

import urllib2
request = urllib2.Request(url,data)
request.get_method = lambda: 'PUT' # or 'DELET'
response = urllib2.urlopen(request)

8)、使用DebugLog
可以通过下面的方法把 Debug Log 打开，这样收发包的内容就会在屏幕上打印出来，方便调试，这个也不太常用，仅提一下

import urllib2
httpHandler = urllib2.HTTPHandler(debuglevel=1)
httpsHandler = urllib2.HTTPSHandler(debuglevel=1)
opener = urllib2.build_opener(httpHandler, httpsHandler)
urllib2.install_opener(opener)
response = urllib2.urlopen('http://www.baidu.com')

网页解析器

1、种类

1)、模糊匹配：正则表达式
2)、结构化解析：html.parser、Beautiful Soup、lxml
结构化解析—DOM(Document Object Model)树是W3C组织官方定义的解析网页的接口

2、安装beautifulsoup4

在C:\Python27\Scripts目录下打开Dos窗口，确认pip.exe文件是存在的情况下，输入：
pip install beautifulsoup4
完成安装

3、使用BeautifulSoup

1）、由Html网页创建beautifulsoup对象
2）、搜索节点find_all、find：
3）、访问节点名称、属性、文字

from bs4 import BeautifulSoup
#根据HTML网页创建BeautifulSoup对象
soup = BeautifulSoup(
                    html_doc,            #Html文档字符串
                    'html.parser'        #Html解析器
                    from_encoding='utf-8'#Html文档的编码
                    )
#搜索节点（find_all，find）
#方法：find_all(name, attrs, string)
#查找所有标签为a的节点
soup.find_all('a')

#查找所有标签为a，链接符合/view/123.html形式的节点
soup.find_all('a',herf='/view/123.html')
#利用正则表达式来模糊匹配
soup.find_all('a',href=re.compile(r'/view/\d+\.html'))

#查找所有标签为div,class为abc，文字为Python的节点,因为Python是有class关键字的，所以用class_代表html中的class
soup.find_all('div', class_='abc',string='Python')

#访问得到的节点
#获取查找到的节点的标签名
node.name

#获取查找到的a节点的href属性。
node['href']

#获取查找到的a节点的链接文字
node.get_txt()

实例源码

#coding:utf-8
from bs4 import BeautifulSoup
import sys
import re

type = sys.getfilesystemencoding()

html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title"><b>The Dormouse's story</b></p> <p class="story">Once upon a time there were three little sisters; and their names were <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>, <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>; and they lived at the bottom of a well.</p> <p class="story">...</p> """
soup = BeautifulSoup(html_doc, 'html.parser', from_encoding='utf-8')

print '获取所有的链接'.decode('UTF-8').encode(type)
links = soup.find_all('a')
for link in links:
    print link.name, link['href'], link.get_text()

print '获取lacie的链接'.decode('UTF-8').encode(type)
link_node = soup.find('a', href='http://example.com/lacie')
print link_node.name, link_node['href'], link_node.get_text()

print '正则匹配'.decode('UTF-8').encode(type)
link_node = soup.find('a', href=re.compile(r"ill"))
print link_node.name, link_node['href'], link_node.get_text()

print '获取P段落文字'.decode('UTF-8').encode(type)
#因为Python是有class关键字的，所以用class_代表html中的class
p_node = soup.find('p', class_='title')
print p_node.name, p_node.get_text()

URLError异常处理

首先解释下URLError可能产生的原因：
1、网络无连接，即本机无法上网
2、连接不到特定的服务器
3、服务器不存在

import urllib2 
request = urllib2.Request('http://www.xxdsafasdxx.com/')
try:
    response = urllib2.urlopen(request)
    print response.getcode()
except urllib2.URLError as err:
    print 'Error is '+str(err)

输出

Error is <urlopen error [Errno 10060] >

HTTP状态码表示HTTP协议所返回的响应的状态。下面将状态码归结如下：
100：继续客户端应当继续发送请求。客户端应当继续发送请求的剩余部分，或者如果请求已经完成，忽略这个响应。
101：转换协议在发送完这个响应最后的空行后，服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。
102：继续处理由WebDAV（RFC 2518）扩展的状态码，代表处理将被继续执行。
200：请求成功处理方式：获得响应的内容，进行处理
201：请求完成，结果是创建了新资源。新创建资源的URI可在响应的实体中得到处理方式：爬虫中不会遇到
202：请求被接受，但处理尚未完成处理方式：阻塞等待
204：服务器端已经实现了请求，但是没有返回新的信息。如果客户是用户代理，则无须为此更新自身的文档视图。处理方式：丢弃
300：该状态码不被HTTP/1.0的应用程序直接使用，只是作为3XX类型回应的默认解释。存在多个可用的被请求资源。处理方式：若程序中能够处理，则进行进一步处理，如果程序中不能处理，则丢弃
301：请求到的资源都会分配一个永久的URL，这样就可以在将来通过该URL来访问此资源处理方式：重定向到分配的URL
302：请求到的资源在一个不同的URL处临时保存处理方式：重定向到临时的URL
304：请求的资源未更新处理方式：丢弃
400：非法请求处理方式：丢弃
401：未授权处理方式：丢弃
403：禁止处理方式：丢弃
404：没有找到处理方式：丢弃
500：服务器内部错误服务器遇到了一个未曾预料的状况，导致了它无法完成对请求的处理。一般来说，这个问题都会在服务器端的源代码出现错误时出现。
501：服务器无法识别服务器不支持当前请求所需要的某个功能。当服务器无法识别请求的方法，并且无法支持其对任何资源的请求。
502：错误网关作为网关或者代理工作的服务器尝试执行请求时，从上游服务器接收到无效的响应。
503：服务出错由于临时的服务器维护或者过载，服务器当前无法处理请求。这个状况是临时的，并且将在一段时间以后恢复。

HTTPError实例产生后会有一个code属性，这就是是服务器发送的相关错误号。
因为urllib2可以为你处理重定向，也就是3开头的代号可以被处理，并且100-299范围的号码指示成功，所以你只能看到400-599的错误号码。

req = urllib2.Request('http://blog.csdn.net/cqcre')
try:
    urllib2.urlopen(req)
except urllib2.HTTPError, e:
    print e.code
    print e.reason

输出：

403
Forbidden

HTTPError的父类是URLError，根据编程经验，父类的异常应当写到子类异常的后面，如果子类捕获不到，那么可以捕获父类的异常，所以上述的代码可以这么改写

import urllib2
req = urllib2.Request('http://blog.csdn.net/cqcre')
try:
    urllib2.urlopen(req)
except urllib2.HTTPError, e:
    print e.code
except urllib2.URLError, e:
    print e.reason
else:
    print "OK"

cookie的使用

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）

比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。

当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。在前面，我们都是使用的默认的opener，也就是urlopen。它是一个特殊的opener，可以理解成opener的一个特殊实例，传入的参数仅仅是url，data，timeout。

如果我们需要用到Cookie，只用这个opener是不能达到目的的，所以我们需要创建更一般的opener来实现对Cookie的设置。

cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。Cookielib模块非常强大，我们可以利用本模块的
类的对象来捕获cookie并在后续连接请求时重新发送，比如可以实现模拟登录功能。该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

它们的关系：CookieJar —-派生—->FiCookieJarleCookieJar —-派生—–>MozillaCookieJar和LWPCookieJar

1)、获取cookie保存到变量

import urllib2
import cookielib

cookie = cookielib.CookieJar() #声明一个CookieJar对象实例来保存cookie

handler=urllib2.HTTPCookieProcessor(cookie) #利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器

opener = urllib2.build_opener(handler) #通过handler来构建opener

response = opener.open('http://www.baidu.com') #此处的open方法同urllib2的urlopen方法，也可以传入request

for item in cookie:
    print 'Name = '+item.name
    print 'Value = '+item.value

输出

Name = BAIDUID
Value = 3CDE78A0F326492D542AE1C3FE209D68:FG=1
Name = BIDUPSID
Value = 3CDE78A0F326492D542AE1C3FE209D68
Name = H_PS_PSSID
Value = 18881_19719_1443_19671_19721_19781_17948_19803_19806_19558_19808_18559_15466_12397_10632
Name = PSTM
Value = 1461513550
Name = BDSVRTM
Value = 0
Name = BD_HOME
Value = 0

2)、将cookie保存到文件

使用FileCookieJar的子类MozillaCookieJar来实现Cookie的保存

import urllib2
filename = 'cookie.txt' #设置保存cookie的文件，同级目录下的cookie.txt

cookie = cookielib.MozillaCookieJar(filename) #声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件

handler = urllib2.HTTPCookieProcessor(cookie) #利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器

opener = urllib2.build_opener(handler) #通过handler来构建opener，和上面的那句话可以合并来写，opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

response = opener.open('http://www.baidu.com') #创建一个请求，原理同urllib2的urlopen

cookie.save(ignore_discard=True, ignore_expires=True) #保存到cookie文件中

关于最后save方法的两个参数在此说明一下：
ignore_discard的意思是即使cookies将被丢弃也将它保存下来，
ignore_expires的意思是如果在该文件中cookies已经存在，则覆盖原文件写入，
我们将这两个全部设置为True。运行之后，cookies将被保存到cookie.txt文件中。

3)、从文件中获取Cookie并访问

以后要访问一个网站的话，可以从文件中把cookie读取出来再访问网站。

import urllib2

cookie = cookielib.MozillaCookieJar() #创建MozillaCookieJar实例对象，为保存取出来的cookie做准备

cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True) #调用cookie的load方法，从文件中读取cookie内容到变量

request = urllib2.Request("http://www.baidu.com") #创建请求的request 

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) #利用urllib2的build_opener方法创建一个opener

response = opener.open(request)

print response.read()

4)、一个用cookie模拟登陆的实例

import urllib
import urllib2
import cookielib

filename = 'cookie.txt'

cookie = cookielib.MozillaCookieJar(filename) #声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie)) #在这里openner已经拥有了cookiie属性了

postdata = urllib.urlencode({
            'stuid':'201200131012',
            'pwd':'23342321'
        }) #录入账号密码等信息

loginUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login' #登录教务系统的URL

result = opener.open(loginUrl,postdata) #模拟登录，并把cookie保存到变量

cookie.save(ignore_discard=True, ignore_expires=True) #保存cookie到cookie.txt中

gradeUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre' #利用cookie请求访问另一个网址，此网址是成绩查询网址

result = opener.open(gradeUrl) #请求访问成绩查询网址

print result.read()

5)、opener.open方法和urlopen用POST方法比较

#opener.open方法传递账号密码的逻辑顺序：将账户密码等信息存到一个dict（postdata）里面 ---> 利用opener.open方法以登录url和dict（postdata）为参数得到一个result ---> print result.read()


#urlopen用POST方法传账户密码的逻辑顺序：账号密码信息存到一个dict（valuse）里面 ---> 用urllib的urlencode方法把dict（valuse）里面的账户、密码信息封装到data里面 ---> 用urllib2的Request以目标url和data为参数生成一个request ---> 调用urllib2的urlopen方法以request为参数获得response ---> response.read()

Python的正则表达式

1、正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

*正则表达式的大致匹配过程是：
1.依次拿出表达式和文本中的字符比较，
2.如果每一个字符都能匹配，则匹配成功；一旦有匹配不成功的字符则匹配失败。
3.如果表达式中有量词或边界，这个过程会稍微有一些不同。*

2、正则表达式相关注解

（1）数量词的贪婪模式与非贪婪模式

正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪的则相反，总是尝试匹配尽可能少的字符。例如：正则表达式”ab*”如果用于查找”abbbc”，将找到”abbb”。而如果使用非贪婪的数量词”ab*?”，将找到”a”。

注：我们一般使用非贪婪模式来提取。

（2）反斜杠问题

与大多数编程语言相同，正则表达式里使用”\”作为转义字符，这就可能造成反斜杠困扰。假如你需要匹配文本中的字符”\”，那么使用编程语言表示的正则表达式里将需要4个反斜杠”\\”：前两个和后两个分别用于在编程语言里转义成反斜杠，转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。

Python里的原生字符串很好地解决了这个问题，这个例子中的正则表达式可以使用r”\”表示。同样，匹配一个数字的”\d”可以写成r”\d”。有了原生字符串，妈妈也不用担心是不是漏写了反斜杠，写出来的表达式也更直观勒。

3、Python的re模块

#返回pattern对象
re.compile(string[,flag])  
#以下为匹配所用函数
re.match(pattern, string[, flags])
re.search(pattern, string[, flags])
re.split(pattern, string[, maxsplit])
re.findall(pattern, string[, flags])
re.finditer(pattern, string[, flags])
re.sub(pattern, repl, string[, count])
re.subn(pattern, repl, string[, count])

pattern可以理解为一个匹配模式，利用re.compile方法就可以获得一个pattern,例如：

pattern = re.compile(r'Hello') #注意hello前面的r的意思是“原生字符串”

在参数中我们传入了原生字符串对象，通过compile方法编译生成一个pattern对象，然后我们利用这个对象来进行进一步的匹配。re.compile(string[,flag])，另外一个参数flag是匹配模式，取值可以使用按位或运算符’|’表示同时生效，比如re.I | re.M。可选值有：

 • re.I(全拼：IGNORECASE): 忽略大小写（括号内是完整写法，下同）
 • re.M(全拼：MULTILINE): 多行模式，改变'^'和'$'的行为（参见上图） • re.S(全拼：DOTALL): 点任意匹配模式，改变'.'的行为 • re.L(全拼：LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定 \w表示任意字母或数字 \d表示任意数字 • re.U(全拼：UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性 • re.X(全拼：VERBOSE): 详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释。

注：以下七个方法中的flags同样是代表匹配模式的意思，如果在pattern生成时已经指明了flags，那么在下面的方法中就不需要传入这个参数了

（1）re.match(pattern, string[, flags]) #必须从开头匹配正则

match匹配必须从目标字符串的开头就开始匹配，如果开头不是目标字符串

# -*- coding: utf-8 -*-
''' Created on 2016年4月25日 @author: Tony '''
#导入re模块
import re

# 将正则表达式编译成Pattern对象，注意hello前面的r的意思是“原生字符串”
pattern = re.compile(r'helo')

# 使用re.match匹配文本，获得匹配结果，无法匹配时将返回None
result1 = re.match(pattern,'hello')
result2 = re.match(pattern,'helloo CQC!')
result3 = re.match(pattern,'helo CQC!')
result4 = re.match(pattern,'hello CQC!')

#如果1匹配成功
if result1:
    # 使用Match获得分组信息
    print result1.group()
else:
    print '1匹配失败！'


#如果2匹配成功
if result2:
    # 使用Match获得分组信息
    print result2.group()
else:
    print '2匹配失败！'


#如果3匹配成功
if result3:
    # 使用Match获得分组信息
    print result3.group()
else:
    print '3匹配失败！'

#如果4匹配成功
if result4:
    # 使用Match获得分组信息
    print result4.group()
else:
    print '4匹配失败！'

运行结果：

hello
hello
3匹配失败！
hello

match对象的的属性和方法，Match对象是一次匹配的结果，包含了很多关于此次匹配的信息，可以使用Match提供的可读属性或方法来获取这些信息。

属性：
1.string: 匹配时使用的文本。
2.re: 匹配时使用的Pattern对象。
3.pos: 文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
4.endpos: 文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。
5.lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组，将为None。
6.lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组，将为None。
方法：
1.group([group1, …]):
获得一个或多个分组截获的字符串；指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名；编号0代表整个匹配的子串；不填写参数时，返回group(0)；没有截获字符串的组返回None；截获了多次的组返回最后一次截获的子串。
2.groups([default]):
以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代，默认为None。
3.groupdict([default]):
返回以有别名的组的别名为键、以该组截获的子串为值的字典，没有别名的组不包含在内。default含义同上。
4.start([group]):
返回指定的组截获的子串在string中的起始索引（子串第一个字符的索引）。group默认值为0。
5.end([group]):
返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1）。group默认值为0。
6.span([group]):
返回(start(group), end(group))。
7.expand(template):
将匹配到的分组代入template中然后返回。template中可以使用\id或\g、\g引用分组，但不能使用编号0。\id与\g是等价的；但\10将被认为是第10个分组，如果你想表达\1之后是字符’0’，只能使用\g0。

举个例子：

# -*- coding: utf-8 -*-
#一个简单的match实例

import re
# 匹配如下内容：单词+空格+单词+任意字符
m = re.match(r'(\w+) (\w+)(?P<sign>.*)', 'hello world!')

print "m.string:", m.string
print "m.re:", m.re
print "m.pos:", m.pos
print "m.endpos:", m.endpos
print "m.lastindex:", m.lastindex
print "m.lastgroup:", m.lastgroup
print "m.group():", m.group()
print "m.group(1,2):", m.group(1, 2)
print "m.groups():", m.groups()
print "m.groupdict():", m.groupdict()
print "m.start(2):", m.start(2)
print "m.end(2):", m.end(2)
print "m.span(2):", m.span(2)
print r"m.expand(r'\g \g\g'):", m.expand(r'\2 \1\3')

### output ###
# m.string: hello world!
# m.re: 
# m.pos: 0
# m.endpos: 12
# m.lastindex: 3
# m.lastgroup: sign
# m.group(1,2): ('hello', 'world')
# m.groups(): ('hello', 'world', '!')
# m.groupdict(): {'sign': '!'}
# m.start(2): 6
# m.end(2): 11
# m.span(2): (6, 11)
# m.expand(r'\2 \1\3'): world hello!

（2）re.search(pattern, string[, flags]) #全文搜索正则

search方法与match方法极其类似，区别在于match()函数只检测re是不是在string的开始位置匹配，search()会扫描整个string查找匹配，match（）只有在0位置匹配成功的话才有返回，如果不是开始位置匹配成功的话，match()就返回None。同样，search方法的返回对象同样match()返回对象的方法和属性。我们用一个例子感受一下

import re

# 将正则表达式编译成Pattern对象
pattern = re.compile(r'world')
# 使用search()查找匹配的子串，不存在能匹配的子串时将返回None
# 这个例子中使用match()无法成功匹配
match = re.search(pattern,'hello world!')
if match:
    # 使用Match获得分组信息
    print match.group()
### 输出 ###
# world

（3）re.split(pattern, string[, maxsplit]) #分割正则

按照能够匹配的子串将string分割后返回列表。maxsplit用于指定最大分割次数，不指定将全部分割。我们通过下面的例子感受一下。

import re

pattern = re.compile(r'\s+') #\s是空格的意思
print re.split(pattern,'one1 tw o2three3fo ur4')

### 输出 ###
# ['one', 'two', 'three', 'four', '']

（4）re.findall(pattern, string[, flags]) //以列表返回所有正则

搜索string，以列表形式返回全部能匹配的子串。我们通过这个例子来感受一下

>>> pattern = re.compile(r'\d+')
>>> print re.findall(pattern,'one1two2three3four4')
['1', '2', '3', '4']

（5）re.finditer(pattern, string[, flags]) //以迭代器返回所有

搜索string，返回一个顺序访问每一个匹配结果（Match对象）的迭代器。我们通过下面的例子来感受一下

>>> pattern = re.compile(r'\d+')
>>> for m in re.finditer(pattern,'one1two2three3four4'):
    print m.group() 
1
2
3 
4

（6）re.sub(pattern, repl, string[, count]) //替换正则

使用repl替换string中每一个匹配到了的子串后返回替换后的字符串。
当repl是一个字符串时，可以使用\id或\g、\g引用分组，但不能使用编号0。
当repl是一个方法时，这个方法应当只接受一个参数（Match对象），并返回一个字符串用于替换（返回的字符串中不能再引用分组）。
count用于指定最多替换次数，不指定时全部替换。

>>> import re
>>> pattern = re.compile(r'(\w+) (\w+)')
>>> s = 'i say,hello worlrd!'
#下面这句话是先按照pattern匹配s，得到group(1)：say i和group(2)：worlrd hello,然后用（r'\2 \1'）来替换匹配到的内容，替换的结果就是前后互换。
>>> print re.sub(pattern,r'\2 \1',s) #\1、\2等表示查找里面各个括号对应的匹配内容，也就是具体搜索到的内容，这里是将\2 和\1互换位置
say i,worlrd hello!
>>> def func(m):
    return m.group(1).title()+' '+m.group(2).title()
>>> print re.sub(pattern,func,s)
I Say,Hello Worlrd!

（7）re.subn(pattern, repl, string[, count]) //替换并统计次数正则

返回 (sub(repl, string[, count]), 替换次数)。
也就是说，使用subn时，会返回替换的次数。

>>> pattern = re.compile(r'(\w+) (\w+)')
>>> s = 'i say,hello world'
>>> print re.subn(pattern,r'\2 \1',s)
('say i,world hello', 2)
>>> def funccopy(m):
    return m.group(1).title()+' '+m.group(2).title()

>>> print re.subn(pattern,funccopy(),s)
('I Say,Hello World', 2)

3、Python的模块的另一种使用方法

可以通过pattern.match，pattern.search调用，这样调用便不用将pattern作为第一个参数传入了，大家想怎样调用皆可。

 match(string[, pos[, endpos]]) | re.match(pattern, string[, flags])
 search(string[, pos[, endpos]]) | re.search(pattern, string[, flags])
 split(string[, maxsplit]) | re.split(pattern, string[, maxsplit])
 findall(string[, pos[, endpos]]) | re.findall(pattern, string[, flags])
 finditer(string[, pos[, endpos]]) | re.finditer(pattern, string[, flags])
 sub(repl, string[, count]) | re.sub(pattern, repl, string[, count])
 subn(repl, string[, count]) |re.sub(pattern, repl, string[, count])

#举例说明
>>> pattern = re.compile(r'(\w+) (\w+)')
>>> s = 'i say,hello world'
>>> print pattern.subn(r'\2 \1',s)
('say i,world hello', 2)
#或者
>>> pattern = re.compile(r'\d+')
>>> s = 'one1two2three3four4'
>>> print pattern.split(s)
['one', 'two', 'three', 'four', '']

内容整理自了此链接

你可能感兴趣的:(Python爬虫开发)

【小黑送书—第十八期】＞＞让工作自动化起来！无所不能的Python(文末送书） 2401_84302628 程序员自动化 python 运维
随着我国企业数字化和信息化的深入，企业对办公自动化的效率和灵活性要求越来越高。Python作为一种开源的软件应用开发方式，通过提供强大丰富的库文件包，极大地简化了应用开发过程，降低了技术门槛。Python开发有哪些优势、挑战以及实践方法呢？一、Python是办公自动化的重要工具在我们的日常工作中，有不少工作是重复的，例如不少办公文档的处理工作等，这些重复工作如果用Python来实现办公自动化，效率
2024年网络安全最全让工作自动化起来！无所不能的Python(1) 2401_84281638 程序员自动化 python 运维
1.3.2多攒代码71.3.3学会并且精通代码调试81.3.4伤其五指不如断其一指8第2章Python的工作环境102.1Python工作环境的构成102.1.1Python的核心软件102.1.2Anaconda112.1.3IDE工具122.2安装过程中的常见问题122.3Python中的两种解释器132.4包的安装202.4.1在线安装202.4.2离线安装212.5Pycharm中的解释器
【Python进阶】5步掌握Pandas数据结构，你真的学会了吗？墨瑾轩 Python入门~精通 python pandas 数据结构
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣5步掌握Pandas数据结构，你真的学会了吗？引言❓亲爱的小伙伴们，你们有没有遇到过这样的情况：在处理结构化数据时，总是觉得Python内置的列表和字典不够灵活？别担心，今天我们就来一场“Pandas数据结构大挑战”，手把手教你如何使用Pandas的两大核心数
Python3 搭建本地 PyPi 源极客点儿 #Python python pip
搭建本地PyPi源的方式有很多，也有很多软件，较常用就是在官方PyPi中自带的pypiserver包。1.安装pypiserverpipinstallpypiserver2.启动pypiserverpypi-server3.上传Python包将我们打包好的Python包放到~/packages目录下，tar和whl都可以。4.远程上传Python包创建~/.pypirc文件，添加如下内容：[dis
Python从0到100（六十一）：机器学习实战-实现客户细分是Dream呀 python 机器学习开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python数据获取：从基础到实践，一场数据探索之旅傻啦嘿哟关于python那些事儿 python oracle 开发语言
目录一、引言二、理解数据获取的基本概念三、使用Python进行网络数据抓取3.1基础工具：requests库3.2解析HTML：BeautifulSoup库3.3实战案例：抓取网页新闻列表四、从文件中读取数据4.1使用pandas读取CSV文件4.2读取Excel文件五、数据库数据访问六、数据清洗与预处理6.1处理缺失值6.2处理异常值6.3处理重复值6.4数据格式化与编码6.5数据标准化与归一化
使用Python进行高并发压测：技术指南与实战案例傻啦嘿哟关于python那些事儿 python 开发语言
目录一、引言二、压测基础知识压测的目的与类型压测工具的选择三、使用Python进行压测Python压测框架的选择压测脚本的编写压测的执行与监控四、实战案例分析案例背景介绍压测计划制定压测实施过程结果分析与优化建议五、常见问题与解决方案六、总结一、引言在软件开发过程中，性能测试是确保软件系统质量的关键环节之一。高并发压测作为性能测试的一种重要形式，通过模拟大量用户同时访问系统，以检验系统在极限负载下
python 获取windows管理员权限天涯望小楼 python 开发语言
Python,Windows相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shelPython获取Windows管理员权限在Windows操作系统中，有时我们需要运行一些需要管理员权限的任务，例如修改系统设置、安装软件等。在Python中，我们可以通过一些方法来获取管理
python可执行程序必须以管理员_Python实现管理员权限运行CMD指令 weixin_39977488
一、subprocess.PopenPython执行cmd指令属于外部调用，subprocess.Popen方法即可，实现如下：#!/usr/bin/python3#coding:utf-8importsubprocessdefcommand(cmd,timeout=1800000):try:sp=subprocess.Popen(cmd,shell=True,stdout=subprocess.
搭建python本地源 weixin_34234829 python 开发工具
1.安装pip工具[root@tongc-yum162~]#wgethttps://files.pythonhosted.org/packages/d3/3e/1d74cdcb393b68ab9ee18d78c11ae6df8447099f55fe86ee842f9c5b166c/setuptools-40.0.0.zip[root@tongc-yum162~]#cdsetuptools-40.0
解决python -m pip install --upgrade pip更新失败 svygh123 python pip 开发语言
C:\Users\Administrator>python-mpipinstall--upgradepipLookinginindexes:https://pypi.tuna.tsinghua.edu.cn/simpleCollectingpipERROR:HTTPerror403whilegettinghttps://pypi.tuna.tsinghua.edu.cn/packages/8a/6
搭建自定义的Python pip源教程代码编织匠人 python pip 开发语言 Python
在Python开发过程中，我们经常使用pip来安装各种Python包和库。pip是Python的包管理工具，它可以从互联网上下载并安装Python包。默认情况下，pip使用官方的Python包源，但有时我们需要搭建自己的pip源，以便在内部网络或特定环境中使用。本教程将向您展示如何在Python环境下搭建属于自己的pip源。我们将使用pip的配置文件来指定自定义源的URL，并演示如何测试和使用自定
windows基于face_recognition实现人脸识别 Python小萝卜计算机视觉 python 人脸识别 python face_recogni
环境搭建pipinstallopencv-python--user-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallopencv-contrib-python--user-ihttps://pypi.tuna.tsinghua.edu.cn/simplepipinstallcmake--user-ihttps://pypi.tuna.tsing
Python计算离差与标准计分 Mr数据杨 Python 数据分析师 python 数据分析开发语言
离差和标准计分是统计学和数据分析中的重要概念，广泛应用于各类数据集的处理和分析过程中。掌握离差和标准计分有助于理解数据的分布情况，评估数据在群体中的相对位置，尤其在处理大规模数据或数据分析时非常重要。本教程将通过详细解释离差与标准计分的概念，并结合实际示例，帮助读者在编程环境下应用这些知识。离差与标准计分不仅在统计学中有理论意义，在实际工作场景中，比如教育测评、金融分析、科研实验等领域，也能帮助数
振动分析-7-轴承数据库之时频域连续小波变换CWT 皮皮冰燃振动分析振动分析
Python-凯斯西储大学（CWRU）轴承数据解读与分类处理滚动轴承发生故障时，其振动信号往往具有非线性、非平稳性特点。相比传统的时域和频域分析方法，在处理非线性、非平稳信号时，时频分析方法更加有效。时频分析方法采用时域和频域的二维联合表示，可以实现非平稳信号局部特性的精确描述，具有时域和频域等传统方法无法比拟的优势，已经被广泛地应用于机械故障诊断领域。常用的时频分析方法有：（1）傅里叶变换（Fo
【Python】Linux/CentOS安装Python3 qilei2010 Python python
不到100买了个1年的X里云服务器后，欲安装Python3练手。但网络上安装方法五花八门，经我实践，此法最妥，特记于此。1.说明1.1系统自带Python2的处理CentOS7自带Python2，不要轻易卸载和删除，很多其它软件依赖自带的python2。此方法较为稳妥，将安装后的python3做了软链接，方便使用，也不影响python2的存在。只是以后使用Python3时，命令是python3yo
如何利用virtualenv和python命令创建Python虚拟环境满天点点星辰随手杂记 python virtualenv linux
一、引言创建Python虚拟环境可以利用多种方法来实现，如：Anaconda3、Miniconda、virtualenv以及python自带的命令(python-m)进行创建。Anaconda3、Miniconda创建python虚拟环境时，主机必须要接入互联网远程channel中取下下载需要的包才可以创建，如果不连接互联网的话，创建python虚拟环境时，需要只下载环境需在的包，然后再把包导入到
使用Python打开和执行BAT文件的简单指南 JmLei Win python
使用Python打开和执行BAT文件的简单指南在现代计算机中，批处理文件（.bat或.cmd文件）是一种强大的工具，可以有效地执行一系列命令，这些命令可以由操作系统直接运行。在某些情况下，我们希望通过Python程序来调用和执行这些批处理文件。本篇文章将详细介绍如何用Python打开和执行BAT文件，并提供代码示例。什么是BAT文件？BAT文件是一种文本文件，通常含有Windows命令行中的一系列
Python 接收标准输入 python输入法控制台文件
在Python中，可以绑定sys.stdin和死循环实现无限接收标准输入的能力。具体示例代码如下：main.py:importjsonimportsysdefparse_line(line:str)->(bool,str):try:d=json.loads(line)except:returnFalse,"failedtoloadsfromcontent"if"prompt"notind:retu
python-jenkins api详解小测. jenkins python 运维
最近在将小程序自动化整合到平台，主要借助的是jenkins；本文主要讲解一下jenkins常用的api1获取jenkins链接importjenkinsbase_config={'url':'jenkins_url','username':'admin','password':'123456'}jenkins_server=jenkins.Jenkins(**self.base_config)2创
请问Python怎么安装vlfeat？ cda2024 python 开发语言
在当今数据驱动的时代，图像处理和计算机视觉成为了许多前沿应用的核心技术之一。作为一门强大的编程语言，Python在这些领域中扮演着极其重要的角色。而vlfeat是一个广泛使用的计算机视觉库，它提供了许多经典的计算机视觉算法实现，如SIFT、HOG等。本文将详细介绍如何在Python中安装和使用vlfeat，帮助你在项目中高效地集成这些强大的工具。什么是vlfeat？vlfeat是一个开源的计算机视
对于编程零基础，第一个语言是 Python 的人有什么建议？ cda2024 python 开发语言
在当今数字化时代，编程已成为一项必备技能。无论你是想成为一名专业的软件开发人员，还是希望在数据分析、人工智能等领域有所建树，掌握一门编程语言都是至关重要的第一步。对于许多初学者来说，Python是一个理想的选择。它不仅语法简洁易懂，而且拥有强大的社区支持和丰富的库资源。那么，对于编程零基础且选择Python作为第一门语言的人，有哪些实用的建议呢？1.建立正确的学习心态1.1持之以恒学习编程并不是一
Python已正确安装Numpy但无法调用？——探索背后的奥秘 cda2024 python numpy 开发语言
在Python编程的世界里，Numpy作为一款重要的科学计算库，其高效的数据处理能力深受广大开发者喜爱。然而，有时候我们明明已经成功安装了Numpy库，却在尝试导入时遇到种种问题，例如常见的ModuleNotFoundError或ImportError错误信息。这不仅令人困惑，甚至会中断我们的开发进度。那么，问题究竟出在哪里呢？本文将深入探讨这一现象背后的原因，并提出有效的解决方案。一、理解Num
Python 获取管理员权限一台电脑可以让你哭吗 Python python 开发语言
方法一：使用ctypes库调用系统APIPython中的【ctypes】库允许我们调用操作系统的动态链接库函数，来获取管理员权限。importctypesimportsysdefis_admin():try:returnctypes.windll.shell32.IsUserAnAdmin()except:returnFalseifnotis_admin():ctypes.windll.shell
深度学习篇---Anaconda&LabelImg Ronin-Lotus 深度学习篇深度学习人工智能学习 python 程序人生机器学习计算机视觉
文章目录前言第一部分：Anaconda是什么？1.简介2.特点（1）包管理器Conda（2）环境管理（3）预装包（4）跨平台（5）社区支持3.安装WindowsLinux3.基本命令（1）conda--version（2）condaupdateconda（3）condacreate--namemyenvpython=3.6（4）condaactivatemyenv（5）condadeactivat
python 清华pip镜像源报HTTP error 403 weixin_41934979 python pip 开发语言
报错信息ERROR:HTTPerror403whilegettinghttps://mirrors.tuna.tsinghua.edu.cn/pypi/web/packages/52/79/a64937a2185b91a96cc5406e3ea58120980c725543d047e112fb3084a972/fake_useragent-2.0.0-py3-none-any.whl(fromht
Python如何声明以管理员方式运行？ cda2024 python 开发语言
Python作为一门高级编程语言，以其简洁优雅的语法和丰富的库支持，在数据科学、网络爬虫、自动化脚本等领域有着广泛的应用。但在实际开发过程中，有时会遇到需要获取较高权限才能完成的任务，比如访问某些系统文件夹或者执行一些系统级别的操作。这时，就需要我们让Python程序以管理员身份运行了。那么，Python是如何做到这一点的呢？本文将带您深入了解Python声明以管理员方式运行的方法，并通过实际案例
python mysql库的三个库mysqlclient mysql-connector-python pymysql如何选择，他们之间的区别 zhangfeng1133 数据库 python mysql
三者的区别1.mysqlclient特点：是一个用于Python的MySQL数据库驱动程序，用于与MySQL数据库进行交互。依赖于MySQL的本地库，因此在安装时需要确保系统上已安装了必要的依赖项，如libmysqlclient-dev等。性能较好，但安装过程可能较为复杂，尤其是在某些操作系统上。安装：直接使用pip安装可能会遇到各种问题，如缺少依赖项、编译失败等。可以尝试使用预编译的二进制文件（
C动态库的生成与在Python和QT中的调用方法琳琳简单点 python 开发语言 qt c++c语言
目录一、动态库生成1）C语言生成动态库2）c++类生成动态库二、动态库调用1）Python调用DLL2）QT调用DLL三、存在的一些问题1）python调用封装了类的DLL可能调用不成功2）DLL格式不匹配的问题四、总结动态库文件在程序开发中运用很常见，但C和C++代码生成动态库文件，以及在使用时均存在一些差异，本文对两者的差异进行了讲解，并通过具体的实例加以说明。实例均在Windows系统下进行
python链接hbase模块_Python连接Hbase weixin_40001395 python链接hbase模块
1、安装Hbase库pipinstallhappybase2、连接Hbase2.1、查看Hbase配置image.png2.2、使用happyhase连接hbaseimporthappybase#注意protocol和transport这两个参数，需要和hbase启动命令中的相同，否则会报错connection=happybase.Connection('qa-cdh-001',port=9090
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam