SongpingWang

python爬虫

一、入门

1.1 直接访问网址

python 3.x 包含(urllib+urllib2),并命名为urllib
urllib3不包含urllib2
(python2.x环境下)

import urllib2
req = urllib2.Request("http://www.baidu.com")
res = urllib2.urlopen(req)
print(res.read())

(python3.x环境下)

from urllib import request
req = request.Request("https://www.baidu.com")  #设置url地址
      #设置url地址 http则是直接获取源代码，https则会加密内容少
res = request.urlopen(req)              #处理浏览器返回的对象
print(res.read().decode("utf-8"))
print("方法属性:",dir(res))             #方法属性
print("访问网址:",res.url)              #访问网址
print("状态码：200访问成功",res.code)    #状态码：200访问成功

1.2 包装成函数访问网址

(python2.x环境下)

import urllib2
import random

def get_html(url):              #获取网页内容
    USER_AGENTS = []            #浏览器(末尾附浏览器)
    proxies = []                #代理IP(末尾附IP)
    req = urllib2.Request(url)  #设置url地址
    req.add_header('User-Agent',random.choice(USER_AGENTS))             #随机选取浏览器
    proxy_support=urllib2.ProxyHandler({"http":random.choice(proxies)}) #随机选取IP地址

    opener=urllib2.build_opener(proxy_support) #获取网站访问的对象
    urllib2.install_opener(opener)

    res = urllib2.urlopen(req)                #处理浏览器返回的对象
    html = res.read()
    return html

url = "https://www.douban.com/"               #需要浏览的网页
douban = get_html(url)

二、正则表达式

2.1 一般匹配案例
import re

pattern = re.compile("hello")
res1 = re.match(pattern,"hello123")      #以hello中h开头匹配完的为true
res2 = re.match(pattern,"hello QQ")
res3 = re.match(pattern,"hello ")
res4 = re.match(pattern,"hell")

print (res1)
print (res2)
print (res3)
print (res4)
>>>
<_sre.SRE_Match object at 0x025860C8>
<_sre.SRE_Match object at 0x025862F8>
<_sre.SRE_Match object at 0x02586678>
None

reg = re.compile("^he")             # ^ 开头符
reg1 = re.compile("jack$")          # $ 结尾附
print re.search(reg,"he is jack")
print re.search(reg1,"he is jack")
>>>
<_sre.SRE_Match object at 0x027866E8>
<_sre.SRE_Match object at 0x027866E8>

reg = re.compile("[a-z]\d[a-z]{2}")   #是否存在2个匹配项，用过的不能再用
print re.search(reg,"a3sd3f3asd3")

reg = re.compile("\d{2,4}")           #存在连续的2或者3或者4个数字
print re.search(reg,"a322647986")

reg = re.compile("\d{2}[a-z]\d{3}")   #存在连续的2个数字+1个字母+3个数字
print re.search(reg,"23k2346456")

reg = re.compile("\d+")               #一个或者以上的数字
print re.search(reg,"32")

reg = re.compile("\d{11}")            #连续11个数字
print re.search(reg,"134556633421231")

email = re.compile("\w+@\w+\.com")    #匹配邮箱
print re.search(email,"[email protected]")
常用的正则表达式
1.  手机：/^0?1[3|4|5|8][0-9]\d{8}$/
2.  固话：/^0[\d]{2,3}-[\d]{7,8}$/
3.  电子邮箱：/^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$/
    /^[a-z\d]+(\.[a-z\d]+)*@([\da-z](-[\da-z])?)+(\.{1,2}[a-z]+)+$/
4.  用户名：/^[a-z0-9_-]{3,16}$/
5.  密码：/^[a-z0-9_-]{6,18}$/
6.  URL：/^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/
2.2 Python Re模块
以下为匹配所用函数
re.match(pattern, string[, flags])
re.search(pattern, string[, flags])
re.split(pattern, string[, maxsplit])
re.findall(pattern, string[, flags])
re.finditer(pattern, string[, flags])
re.sub(pattern, repl, string[, count])
re.subn(pattern, repl, string[, count])
2.3 flag参数

参数flag是匹配模式，取值可以使用按位或运算符’|’表示同时生效，比如re.I | re.M。可选值有：
re.I: 忽略大小写
re.M: 多行模式，改变'^'和'$'的行为
re.S: 点任意匹配模式，改变'.'的行为
re.L: 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定
re.U: 使预定字符类 \w \W \b \B \s \S \d \D 取决 于unicode定义的字符属性
re.X: 详细模式。这个模式下正则表达式可以是多行，忽略空白字符，并可以加入注释
2.4 正则匹配符

字符描述

^ 匹配输入字符串的开始位置。

$ 匹配输入字符串的结束位置。$ 也匹配 ‘\n’ 或 ‘\r’ 之前的位置。

* 匹配前面的子表达式零次或多次。zo* 能匹配 “z” 以及 “zoo”。等价于{0,}。

+ 匹配前面的子表达式一次或多次。’zo+’ 能匹配 “zo” 以及 “zoo”。等价于 {1,}。

? 匹配前面的子表达式零次或一次。”do(es)?” 可以匹配 “do” 或 “does” 。等价于 {0,1}。

\ 匹配符：例如，’n’ 匹配字符 “n”。’\n’ 匹配一个换行符。序列 ‘\’ 匹配 “\” 而 “(” 则匹配 “(“。

x、y 匹配 x 或 y。例如，’z\food’ 能匹配 “z” 或 “food”。’(z\f)ood’ 则匹配 “zood” 或 “food”。

[xyz] 字符集合。匹配所包含的任意一个字符。例如， ‘[abc]’ 可以匹配 “plain” 中的 ‘a’。

[^xyz] 负值字符集合。匹配未包含的任意字符。例如， ‘[^abc]’ 可以匹配 “plain” 中的’p’、’l’、’i’、’n’。

[a-z] 字符范围。匹配指定范围内的任意字符。例如，’[a-z]’ 可以匹配 ‘a’ 到 ‘z’ 范围内的任意小写字母字符。

[^a-z] 负值字符范围。匹配任何不在指定范围内的任意字符。例如，’[^a-z]’ 可以匹配任何不在 ‘a’ 到 ‘z’ 范围内的任意字符。

\b 匹配一个单词边界，也就是指单词和空格间的位置。

\B 匹配非单词边界。

\cx 匹配由 x 指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 ‘c’ 字符。

\d 匹配一个数字字符。等价于 [0-9]。

\D 匹配一个非数字字符。等价于 [^0-9]。

\f 匹配一个换页符。等价于 \x0c 和 \cL。

\n 匹配一个换行符。等价于 \x0a 和 \cJ。

\r 匹配一个回车符。等价于 \x0d 和 \cM。

\s 匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。

\t 匹配一个制表符。等价于 \x09 和 \cI。

\v 匹配一个垂直制表符。等价于 \x0b 和 \cK。

\w 匹配字母、数字、下划线。等价于’[A-Za-z0-9_]’。

\W 匹配非字母、数字、下划线。等价于 ‘[^A-Za-z0-9_]’。

\xn 匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，’\x41’ 匹配 “A”。’\x041’ 则等价于 ‘\x04’ & “1”。正则表达式中可以使用 ASCII 编码。

字符簇 描述

[[:alpha:]] 任何字母

[[:digit:]] 任何数字

[[:alnum:]] 任何字母和数字

[[:space:]] 任何空白字符

[[:upper:]] 任何大写字母

[[:lower:]] 任何小写字母

[[:punct:]] 任何标点符号

[[:xdigit:]] 任何16进制的数字，相当于[0-9a-fA-F]

2.5 正则表达式

对网页进行正则表达式截取数据
 # 不用的信息  .*？替换，
 # 获取的信息 （.*？）替换
reg = re.compile(r'.*?
                 r'
                 r'(.*?).*?'
                 r'(.*?).*?'
                 r'(.*?)',re.S)       #re.S匹配多行
案例1：获取51job职位信息（python2.x环境）
import urllib2
import random
import re
import chardet
import xlwt

def get_html(url):         #获取网页内容
    USER_AGENTS = []       #浏览器(末尾附浏览器)
    proxies = []           #代理IP(末尾附IP)
    req = urllib2.Request(url)                   #设置url地址
    req.add_header('User-Agent',random.choice(USER_AGENTS))             #随机选取浏览器
    proxy_support=urllib2.ProxyHandler({"http":random.choice(proxies)}) #随机选取IP地址

    opener=urllib2.build_opener(proxy_support)   #获取网站访问的对象
    urllib2.install_opener(opener)

    res = urllib2.urlopen(req)                   #处理浏览器返回的对象
    html = res.read()
    return html

def get_Datalist(page_number,jobname):
    # 网址分析
    URL = "https://search.51job.com/list/020000,000000,0000,00,9,99,"\
           +str(jobname)+",2,"+str(page_number)+".html?lang=c&stype=&postchannel\
           =0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=\
           99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=\
           9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="
    html = get_html(URL)                      # 传入需要分析网页
    code = chardet.detect(html)["encoding"]   # 获取网页编码
    html = html.decode(code).encode("utf-8")  # 解编码，转成utf-8编码
    # 设置正则表达式
    reg = re.compile(r'.*?
                     r'
                     r'(.*?).*?'
                     r'(.*?).*?'
                     r'(.*?)', re.S)
    result = re.findall(reg, html)
    return result

datalist = []                                   #全局数据列表

 #向全局变量添加数据
def solve_data(page_number,jobname):
    global datalist
    for k in range(int(page_number)):           #设置页数，循环获取
        data = get_Datalist(k+1,jobname)
        for i in data:
            datalist.append(i)

def save_Excel(jobname,filename):               #设置存储函数
    book = xlwt.Workbook(encoding="utf-8")      #创建工作簿
    sheet = book.add_sheet("51job"+str(jobname)+"职位信息")
    col = ('职位名','公司名','工作地点','薪资','发布时间')
    for i in range(len(col)):
        sheet.write(0,i,col[i])
    for i in range(len(datalist)):               #控制行
        for j in range(len(datalist[i])):        #控制列
            sheet.write(i+1,j,datalist[i][j])
    book.save(u'51job'+filename+u'职位信息.xls')

def save_Txt(filename):                          #存储文本文件
    for i in range(0, len(datalist)):
        data = datalist[i]
        with open(u'51job'+filename+u'职位信息.csv','a') as f:   #打开（创建）文本
            f.write(data[0]+'\t'+data[1]+'\t'+data[2]+'\t'+data[3]+'\t'+data[4]+'\n')
            f.close()

def main(jobname,page_number,filename):
    solve_data(page_number,jobname)
    save_Excel(jobname,filename)
    save_Txt(filename)

main("C++","2",u"C++语言职业")    #爬取职业，爬取多少页码，保存文件名
（python3）环境，请点击

字符	描述
^	匹配输入字符串的开始位置。
$	匹配输入字符串的结束位置。$ 也匹配 ‘\n’ 或 ‘\r’ 之前的位置。
*	匹配前面的子表达式零次或多次。zo* 能匹配 “z” 以及 “zoo”。等价于{0,}。
+	匹配前面的子表达式一次或多次。’zo+’ 能匹配 “zo” 以及 “zoo”。等价于 {1,}。
?	匹配前面的子表达式零次或一次。”do(es)?” 可以匹配 “do” 或 “does” 。等价于 {0,1}。
\	匹配符：例如，’n’ 匹配字符 “n”。’\n’ 匹配一个换行符。序列 ‘\’ 匹配 “\” 而 “(” 则匹配 “(“。
x、y	匹配 x 或 y。例如，’z\food’ 能匹配 “z” 或 “food”。’(z\f)ood’ 则匹配 “zood” 或 “food”。
[xyz]	字符集合。匹配所包含的任意一个字符。例如， ‘[abc]’ 可以匹配 “plain” 中的 ‘a’。
[^xyz]	负值字符集合。匹配未包含的任意字符。例如， ‘[^abc]’ 可以匹配 “plain” 中的’p’、’l’、’i’、’n’。
[a-z]	字符范围。匹配指定范围内的任意字符。例如，’[a-z]’ 可以匹配 ‘a’ 到 ‘z’ 范围内的任意小写字母字符。
[^a-z]	负值字符范围。匹配任何不在指定范围内的任意字符。例如，’[^a-z]’ 可以匹配任何不在 ‘a’ 到 ‘z’ 范围内的任意字符。
\b	匹配一个单词边界，也就是指单词和空格间的位置。
\B	匹配非单词边界。
\cx	匹配由 x 指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 ‘c’ 字符。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\f	匹配一个换页符。等价于 \x0c 和 \cL。
\n	匹配一个换行符。等价于 \x0a 和 \cJ。
\r	匹配一个回车符。等价于 \x0d 和 \cM。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t	匹配一个制表符。等价于 \x09 和 \cI。
\v	匹配一个垂直制表符。等价于 \x0b 和 \cK。
\w	匹配字母、数字、下划线。等价于’[A-Za-z0-9_]’。
\W	匹配非字母、数字、下划线。等价于 ‘[^A-Za-z0-9_]’。
\xn	匹配 n，其中 n 为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如，’\x41’ 匹配 “A”。’\x041’ 则等价于 ‘\x04’ & “1”。正则表达式中可以使用 ASCII 编码。

字符簇	描述
[[:alpha:]]	任何字母
[[:digit:]]	任何数字
[[:alnum:]]	任何字母和数字
[[:space:]]	任何空白字符
[[:upper:]]	任何大写字母
[[:lower:]]	任何小写字母
[[:punct:]]	任何标点符号
[[:xdigit:]]	任何16进制的数字，相当于[0-9a-fA-F]

三、利用requests及beautiful soup爬取数据

3.1 requests

requests是Python一个HTTP客户端库
◆下载及使用
在C:\Python27\Scripts目录下输入cmd,执行pip install requests
或者：win+R输入cmd，执行cd C:\Python27\Scripts pip install requests
◆发送请求

(1)requests.get(url,params = None,**kwargs)
    url:请求网址
    params:字典型请求参数
    kwargs:其他参数
    例子：response = response.get('http://www.baidu.com')

(2) requests.post(url,data = None,json = None,**keargs)
    例子：response = requests.post('http://http bin.org/post')

URls 中传递参数

    r.text或r.content 获取相应内容。requests()会自动将内容转码
        Unicode字体都会无缝转码。替代了urllib2的urllib2.open().read()功能
    r.encoding来获取或设置网页编码

import requests
r = requests.get("http://www.baidu.com",\
headers{'User-Aagent':'Mozilla/5.0','content-type':'text/html:charset = utf-8'}
print(r.url)
print(r.text)
print(r.encoding)

示例：
import requests
import random

USER_AGENTS = []                                #浏览器（末尾附浏览器）
proxies1 = {'HTTPS':'139.224.80.139:3128 ',
            'HTTPS':'122.72.18.34:80 ',
            'HTTPS':'120.76.231.27:3128',
            'HTTPS':'118.212.137.135:31288'}    #自动随机取IP

get = requests.get("http://www.baidu.com",
                   headers={"USER_AGENT":random.choice(USER_AGENTS)},
                   proxies=proxies1)
print(get)
>>>
200]>

3.2、Beautiful Soup

Python内置HTML
安装并导入     easy install beautifulsoup4
              pip install beautifulsoup4
              from bs4 import BeautifulSoup

parse：解析器（html.parse、lxml、html5lib等）

解析器	使用方法	优势	劣势
Python 标准库	BeautifulSoup(markup, “html.parser”)	Python内置标准库执行速度适中文档容错能力强	Python 2.7.3 or 3.2.2)前的版本中文档容错能力差
lxml HTML 解析器	BeautifulSoup(markup, “lxml”)	速度快文档容错能力强	需要安装C语言库
lxml XML 解析器	BeautifulSoup(markup, [“lxml”, “xml”]) BeautifulSoup(markup, “xml”)	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, “html5lib”)	最好的容错性以浏览器的方式解析文档生成HTML5格式的文档	速度慢不依

四大对象种类
    (1) BeautifulSoup 将复杂的HTML文档转换成一个复杂的树状结构，
        每个节点都是Python对象，所有对象可以归纳为4种
        -Tag        #标签两个属性：
                    name(输出的值为标签本身名字)
                    attrs（把标签所有属性放在一个字典内）
        -NavigableString
        -BeautifulSoup
        -Comment

    (2) NavigableString:获取标签内部的文字
        soup.标签名.string
        import resquests
        from bs4 import BeautifulSoup
        r = resquests.get("http://www.baidu.com",headers = {'User-Agent':'Mozilla/5.0})
        soup = BeautifulSoup(r.txt,"html.parser")
        print soup.prettify()
        print soup.script.parent    
        print soup.title.string     
    (3) Comment对象，是一个特殊类型的 NavigableString 对象，输出内容不包括注释符号
    (4) 常用方法
        #搜索当前Tag的所有tag子节点，判断是否符合过滤器条件
        1、find_all(name=None,attrs ={},recursive=True,text=None,limt=None,**kwargs)
        #……第一个tag子节点……
        2、find(name= None ,attrs = {},recursive = True ,text = None ,**kwargs)
        movieQuote = movieLi.find('span',attrs = {'class':'inq'})
        3直接子节点：content .children
        4所有子孙节点：descendants
        获取文本;   string 
        父节点：parent.parents（迭代器）
        兄弟节点：.next_string .previous_sibling 加s同上
        下一个与上一个要解析的元素：.next_elements previous_elements

from bs4 import BeautifulSoup

html = \"""
    The Dormouse's story
    
    " name="dromouse">The Dormouse's story
    ">Once upon a time there were three little sisters; and their names were
    //example.com/elsie" class="sister" id="link1">,
    //example.com/lacie" class="sister" id="link2">Lacie and
    //example.com/tillie" class="sister" id="link3">Tillie;
    and they lived at the bottom of a well.
    ">...
"""
soup = BeautifulSoup(html,"html.parser")
print(soup.title)              #获取标签
print(soup.title.string)       #/soup.title.get_text()
print(soup.title.text)

print(soup.title.parent)       #获取父元素
p_children = soup.p.children   #获取子元素
for i in soup.p:               #遍历输出
    print(i)

print(soup.find('p'))          #查找第一个'p'
print(soup.find_all('p'))      #查找所有的'p'

print("第一个整个a元素：",soup.a)
print("元素a的名字：",soup.a.name)
print("元素a的属性：",soup.a.attrs)
print("元素a的id：",soup.a['id'])    #字典输出/soup.a.get('id')

print(soup.find_all("a",{'class':"sister"}))

3.3 豆瓣爬虫案例

案例：豆瓣电影Top250

▶ 分析地址
url="https://movie.douban.com/top250?start="+str(P_num)+"&filter="

https://movie.douban.com/top250?start=0&filter=
https://movie.douban.com/top250?start=25&filter=

▶ 编写代码
 （1）创建getHymlTest(url,sterRow)函数
 #根据地址和开始页码获取对于页面的文本内容
 （2）设置datalist全局变量保存电影信息
 （3）创建getData(html)函数，根据传入的文本进行解析获取所需的数据
 （4）创建saveData(savePath)将数据保存到文件名为savepath的excel中
 （5）创建主程序：设置地址、0循环到250，获取url的文本信息，并从中获取需要的数据存入datalist，
      之后调用保存excel的方法。
 （6）调用主函数

def getHtml(page_num):
    USER_AGENTS = []                              # 浏览器(末尾附浏览器)
    proxies = [{"HTTP": "117.63.78.64:6666"},
               {"HTTPS": "222.185.22.108:6666"}]  # 代理IP（临时的）
    url = "http://www.xx"+str(page_num)+"xx.com"  # 想要爬取的网页
    r = requests.get(url,
                     headers={"User-Agent":random.choice(USER_AGENTS)},
                     proxies=random.choice(proxies))
    code = chardet.detect(r.content)["encoding"]
    return r.content.decode(code)

爬取图像案例：
1、项目中创建photos文件夹（用于存放图片）
2、获取地址
3、获取网页图片列表所在ul
    images = oSoup.find('ul',attrs = {'class':'poster-col3 clearfix'})
4、获取列表所有img标签
5、创建文件夹，准备存储图片  #关于创建文件夹    http://www.runoob.com/python/os.file.methods.html
    if not os.path.isdir('photos'):
        os.mkdir('photos')
    os.chdir(os.path.join(os.getcwd(),'photos'))
6、为图片设置文件名，并存储图片
    exname = img['src'][-3:]
    image_name = str(x)+'.'exname
    urllib.request.urlretrieve(img['src'],image_name)

附：浏览器（USER_AGENTS）

USER_AGENTS = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/531.21.8 (KHTML, like Gecko) Version/4.0.4 Safari/531.21.10",
    "Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US) AppleWebKit/533.17.8 (KHTML, like Gecko) Version/5.0.1 Safari/533.17.8",
    "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533.19.4 (KHTML, like Gecko) Version/5.0.2 Safari/533.18.5",
    "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-GB; rv:1.9.1.17) Gecko/20110123 (like Firefox/3.x) SeaMonkey/2.0.12",
    "Mozilla/5.0 (Windows NT 5.2; rv:10.0.1) Gecko/20100101 Firefox/10.0.1 SeaMonkey/2.7.1",
    "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_5_8; en-US) AppleWebKit/532.8 (KHTML, like Gecko) Chrome/4.0.302.2 Safari/532.8",
    "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_4; en-US) AppleWebKit/534.3 (KHTML, like Gecko) Chrome/6.0.464.0 Safari/534.3",
    "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_5; en-US) AppleWebKit/534.13 (KHTML, like Gecko) Chrome/9.0.597.15 Safari/534.13",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_2) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.186 Safari/535.1",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_6_8) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.54 Safari/535.2",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_6_8) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.36 Safari/535.7",
    "Mozilla/5.0 (Macintosh; U; Mac OS X Mach-O; en-US; rv:2.0a) Gecko/20040614 Firefox/3.0.0 ",
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.0.3) Gecko/2008092414 Firefox/3.0.3",
    "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.5; en-US; rv:1.9.1) Gecko/20090624 Firefox/3.5",
    "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10.6; en-US; rv:1.9.2.14) Gecko/20110218 AlexaToolbar/alxf-2.0 Firefox/3.6.14",
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X 10.5; en-US; rv:1.9.2.15) Gecko/20110303 Firefox/3.6.15",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
    "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
    "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
    "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
    "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
    "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
    "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
    "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
    "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
    "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 LBBROWSER",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
    "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 360SE)",
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
    "Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5",
    "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre",
    "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
    "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36",
    ]

附：IP地址(临时的）获取更多 IP 你可以访问：西刺代理IP

proxies = ["123.138.89.1339:999",
           "101.132.122.230:3128",
           "222.186.12.102:57624"]

你可能感兴趣的:(python基础及相关)

Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

3.3 豆瓣爬虫案例

案例：豆瓣电影Top250

python爬虫

一、入门

1.1 直接访问网址

1.2 包装成函数访问网址

二、正则表达式

2.1 一般匹配案例

常用的正则表达式

2.2 Python Re模块

2.3 flag参数

2.4 正则匹配符

2.5 正则表达式

案例1：获取51job职位信息（`python2.x`环境）

（`python3`）环境，请点击

三、利用requests及beautiful soup爬取数据

3.1 requests

URls 中传递参数

3.2、Beautiful Soup

附：浏览器（USER_AGENTS）

附：IP地址(临时的）获取更多 IP 你可以访问：西刺代理IP

你可能感兴趣的:(python基础及相关)

python爬虫

一、入门

1.1 直接访问网址

1.2 包装成函数访问网址

二、正则表达式

2.1 一般匹配案例

常用的正则表达式

2.2 Python Re模块

2.3 flag参数

2.4 正则匹配符

2.5 正则表达式

案例1：获取51job职位信息（python2.x环境）

（python3）环境，请点击

三、利用requests及beautiful soup爬取数据

3.1 requests

URls 中传递参数

3.2、Beautiful Soup

3.3 豆瓣爬虫案例

案例：豆瓣电影Top250

附：浏览器（USER_AGENTS）

附：IP地址(临时的）获取更多 IP 你可以访问：西刺代理IP

你可能感兴趣的:(python基础及相关)

案例1：获取51job职位信息（`python2.x`环境）

（`python3`）环境，请点击