qq_58647543

《Python网络爬虫与信息提取》笔记1

一、网络爬虫之规则：Requests库

1. request()方法

2. 其他方法

3. 爬取网页的通用代码框架

4. 实例

5. 网络爬虫的“盗亦有道”

二、网络爬虫之提取

1.Beautiful Soup库

2. 信息组织与提取方法

3. 实例：中国大学排名定向爬虫

4、正则表达式入门

5.实例：当当网比价定向爬虫

实例：股票数据定向爬虫

三、Scrapy爬虫框架

Scrapy爬虫框架介绍

实例：Scrapy获取上交所和深交所所有股票的名称和交易信息

一、网络爬虫之规则：Requests库

爬取网页的最好的第三方库，简单简洁，更多信息可访问http://www.python-requests.org

安装方法：Anaconda中已经包含了这个库，如果要安装，使用命令：pip install requests

requests的7个主要方法：

方法说明HTTP协议方法

requests.request()构造一个请求，支撑以下各方法的基础方法

requests.get()获取html网页的主要方法，对应于http的getGET

request.head()获取html网页头信息的方法，对应于http的headHEAD

request.post()向html网页提交post请求的方法，对应于http的postPOST

request.put()向html网页提交put请求的方法，对应于http的putPUT

request.patch()向html网页提交局部修改请求，对应于http的patchPATCH

request.delete()向html提交删除请求，对应于http的deleteDELETE

HTTP对资源的操作：

方法说明

GET请求获取URL位置的资源

HEAD请求获取URL位置资源的响应消息报告，即获得该资源的头部信息

POST请求向URL位置的资源后附加新的数据

PUT请求向URL位置存储一个资源，覆盖原URL位置的资源

PATCH请求局部更新URL位置的资源，覆盖原URL位置的资源

DELETE请求删除URL位置存储的资源

1. request()方法

def request(method, url, **kwargs):

"""Constructs and sends a :class:`Request `.

:param method: 请求方式，对应GET/HEAD/POST/PUT/PATCH/delete/OPTIONS,OPTIONS获取服务器参数，使用较少.

:param url: 访问链接.

:**kwargs: 控制访问的参数，均为可选项

:param params: 字典或者字节序列，作为参数增加到url中.可以将一些键值对增加到url中，服务器根据参数返回资源.

kv = {'key1':'value1', 'key2':'value2'}

r = requests.request('GET', "http://www.python123.io/ws", params=kv)

print(r.url) #https://www.python123.io/ws?key1=value1&key2=value2

:param data: 字典，字节序列或文件对象，作为request的内容.

r = requests.request('POST', "http://www.python123.io/ws", data=kv)

body = '主体内容'

r = requests.request('POST', "http://www.python123.io/ws", data=body)

:param json: json格式的数据，作为request的内容，向服务器提交.

r = requests.request('POST', "http://www.python123.io/ws", json=kv)

:param headers: 字典，http定制头，模拟浏览器的访问.

hd = {'user-agent' : 'Chrome/10'}

r = requests.request('POST', "http://www.python123.io/ws", headers = hd)

:param cookies: 字典或CookieJar，Request中的cookie

:param files: 字典类型，传输文件.

fs = {'file' : open('data.xls', 'rb')}

r = requests.request('POST', "http://www.python123.io/ws", files=fs)

:param auth: 元组，支持http认证功能.

:param timeout: 设定的超时时间，秒为单位，超时后产生timeout异常

:param allow_redirects: bool, 重定向开关，默认为True.

:type allow_redirects: bool

:param proxies: 字典类型，设定访问代理服务器，可以增加登录认证.

proxy = {'http': 'http://127.0.0.1:1080',

'https': 'https://127.0.0.1:1080'}

r = requests.request('POST', "http://www.python123.io/ws", proxies = proxy)

:param verify: bool, 默认为True, 认证SSL证书开关.

:param stream: bool, 默认为True, 获取内容立即下载开关.

:param cert: 本地SSL证书路径.

:return: :class:`Response ` object

:rtype: requests.Response

"""

函数返回Response对象，Response对象的属性如下：

属性说明

r.status_codehttp请求的返回状态，200表示连接成功，404表示失败

t.texthttp响应内容的字符串形式，即url的页面内容

r.encoding

从http header中猜测的响应内容的编码方式。

如果header中不存在charset，则认为编码为ISO-8859-1,这个编码不能解析中文

r.apparent_encoding

从内容中分析出的响应内容编码方式（备选编码方式）。

从网页内容中推断编码方式，更加准确一些，当encoding不能解析正确编码方式时，采用这个

r.contenthttp响应内容的二进制形式

使用流程：获取response对象->检测状态码->获取内容

2. 其他方法

get()等方法只是对requests()方法做了封装，可以被request()方法替代

def get(url, params=None, **kwargs):

"""Sends a GET request.

url: 拟获取页面的url链接.

params: url中的额外参数，字典或字节流格式，可选.

**kwargs: 12个控制访问的参数.

"""

return request('get', url, params=params, **kwargs)

def head(url, **kwargs):

r"""Sends a HEAD request.

url: 拟获取页面的url链接.

**kwargs: 13个控制访问的参数.

"""

return request('head', url, **kwargs)

def post(url, data=None, json=None, **kwargs):

r"""Sends a POST request.

url/data/json，**kwargs: 11个控制访问的参数.

"""

return request('post', url, data=data, json=json, **kwargs)

def put(url, data=None, **kwargs):

r"""Sends a PUT request.

url/data，**kwargs: 12个控制访问的参数.

"""

return request('put', url, data=data, **kwargs)

def patch(url, data=None, **kwargs):

r"""Sends a PATCH request.

url/data，**kwargs: 12个控制访问的参数.

"""

return request('patch', url, data=data, **kwargs)

def delete(url, **kwargs):

r"""Sends a DELETE request.

url，**kwargs: 13个控制访问的参数.

"""

return request('delete', url, **kwargs)

3. 爬取网页的通用代码框架

网络连接有风险，异常处理很重要

异常说明

requests.ConnectionError网络连接异常，如DNS查询失败、拒绝连接等

requests.HTTPErrorHTTP错误异常

requests.URLRequiredURL缺失异常

requests.TooManyRedirects超过最大重定向次数，产生重定向异常

requests.ConnectTimeout连接远程服务器超时异常

requests.Timeout请求URL超时，产生异常

通用框架：

import requests

def getHTMLText(url):

try:

r = requests.get(url, timeout=30)

r.raise_for_status() #如果状态不是200，引发异常

r.encoding = r.apparent_encoding

return r.text

except:

return "产生异常"

if __name__ == "__main__":

url = "http://www.baidu.com"

print(getHTMLText(url))

4. 实例

实例1：京东商品页面的爬取

import requests

url = "https://item.jd.com/6685410.html"

try:

r = requests.get(url, timeout=30)

r.raise_for_status() # 如果状态不是200，引发异常

r.encoding = r.apparent_encoding

print(r.text[0:1000])

except:

print("爬取失败")

实例2：亚马逊商品页面的爬取。通过headers字段是代码模拟浏览器向http提交请求。

import requests

url = "https://www.amazon.cn/dp/B07DBZZPQL/ref=cngwdyfloorv2_recs_0?pf_rd_p=4940946c-0b2b-498c-9e03-31cf7dae70ec&pf_rd_s=desktop-2&pf_rd_t=36701&pf_rd_i=desktop&pf_rd_m=A1AJ19PSB66TGU&pf_rd_r=YENXHWZT81QNMXW27C8B&pf_rd_r=YENXHWZT81QNMXW27C8B&pf_rd_p=4940946c-0b2b-498c-9e03-31cf7dae70ec"

try:

kv = {'user-agent' : 'Mozilla/5.0'}

r = requests.get(url, headers=kv)

r.raise_for_status() # 如果状态不是200，引发异常

r.encoding = r.apparent_encoding

print(r.text[1000:2000])

except:

print("爬取失败")

实例3：百度360搜索关键字提交

百度关键词接口：http://www.baidu.com/s?wd=keyword

360关键词接口：http://www.so.com/s?q=keywork

import requests

keyword = 'python'

url = "http://www.baidu.com/s"

try:

kv = {'wd' : keyword}

r = requests.get(url, params=kv)

r.raise_for_status()

print(r.request.url)

print(len(r.text))

except:

print("爬取失败")

实例4：网络图片的爬取和存储

网络图片的连接格式：http://www.example.com/picture.jpg ,获取的图片为二进制格式

import requests

import os

url = "http://image.ngchina.com.cn/2018/1127/20181127013714400.jpg"

root = "D://pics//"

path = root + url.split('/')[-1]

try:

if not os.path.exists(root):

os.mkdir(root)

if not os.path.exists(path):

r = requests.get(url)

with open(path, 'wb') as f:

f.write(r.content)

f.close()

print("文件保存成功")

else:

print("文件已经存在")

except:

print("爬取失败")

实例5：IP地址的归属地自动查询

查询IP的链接格式：http://www.ip138.com/ips138.asp?ip=ipaddress

import requests

url = "http://www.ip138.com/ips138.asp?ip="

try:

r = requests.get(url + '202.204.80.112')

r.raise_for_status()

r.encoding = r.apparent_encoding

print(r.text[-2500:-1500])

except:

print("爬取失败")

5. 网络爬虫的“盗亦有道”

1. 网络爬虫引发的问题

网络爬虫的尺寸

小规模，数据量小，爬取速度不敏感，Requests库

中规模，数据规模较大，爬取速度敏感，Scrapy库大规模，搜索引擎，爬取速度关键，定制开发

爬取网页，玩转网页爬取网站，爬取系列网站爬取全网

（1）骚扰问题：受限于编程水平和目的，网络爬虫将会为web服务器带来巨大的资源开销。

（2）法律风险：服务器上的数据有产权归属，网络爬虫获取数据后牟利将会带来法律风险

（3）隐私泄露：网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私

2. 网络爬虫的限制

（1）来源审查：判断User-Agent进行限制

检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问。

（2）发布公告：Robots

Robots协议：

Robots Exclusion Standard 网络爬虫排除标准

作用：告知所有爬虫网站的爬取策略，要求爬虫遵守。

形式：在网站的根目录下的robots.txt文件

使用：自动或人工识别robots.txt，再进行内容爬取，协议可以不遵守，但可能存在法律风险

类人类行为可不遵守，如写小程序一天访问几次服务器

二、网络爬虫之提取

1.Beautiful Soup库

Beautiful Soup库是解析、遍历、维护“标签树”的功能库。

解析器有：html.parser, lxml, xml, html5lib

格式化显示：soup.prettify()，自动为标签间添加换行符。bs4将读入的文件或者字符串转换为"utf-8"。

BeautifulSoup类的基本元素

基本元素说明

Tag标签，最基本的信息组织单元，分别用<>和表明开头和结尾

Name标签的名字，

的名字是'p'，格式:.name

Attributes标签的属性，字典的组织形式，格式：.attrs

NavigableString标签内非属性字符串，<>...中的字符串，格式：.string

Comment标签内字符串的注释部分，一种特殊的Comment类型

标签树的遍历

属性说明

下行.contents子节点列表，将所有儿子节点存入列表

.children子节点的迭代类型，与.contents类似，用于循环遍历儿子节点

.descendants子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

上行.parent节点的父亲标签

.parents节点先辈标签的迭代类型，用于循环遍历先辈节点

平行.next_sibling返回按照HTML文本顺序的下一个平行节点标签

.previous_sibling返回按照HTML文本顺序的上一个平行节点标签

.next_siblings迭代类型，返回按照HTML文本顺序的后续所有平行节点标签

.previous_siblings迭代类型，返回按照HTML文本顺序的前续所有平行节点标签

2. 信息组织与提取方法

信息标记的形式：

实例：

比较：

XML最早的通用信息标记语言，可扩展性好，但是繁琐Internet上的信息交互与传递

JSON信息有类型，适合程序处理，较XML简洁移动应用云端和节点的信息通信，无注释

YAML信息无类型，文本信息比例最高，可读性好各类系统配置文件有注释易读

信息提取的一般方法：

（1）完整解析信息的标记形式，再提取关键信息。XML,JSON,YAML

需要标记解析器，如bs4库的标签树遍历，优点是信息解析准确，缺点是提取过程繁琐

（2）无视标记信息，直接搜索关键信息。搜索

使用对信息的文本查找函数即可。优点是提取过程简洁，速度快，缺点是提取信息的准确性与信息内容直接相关。

融合方法：完整形式解析+搜索，提取关键信息，需要标记解析器及文本查找函数。

实例：提取HTML所有URL链接

思路：1）搜索到所有标签，

2）解析标签格式，提取href后的链接内容

url = "http://python123.io/ws/demo.html"

r = requests.get(url)

demo = r.text

soup = BeautifulSoup(demo, "html.parser")

for link in soup.find_all('a'):

print(link.get('href'))

--------------out---------------

http://www.icourse163.org/course/BIT-268001

http://www.icourse163.org/course/BIT-1001870001

bs4库中HTML内容的查找方法：

<>.find_all(self, name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)

#返回一个列表类型，存储查找的结果

name:对标签名称的检索字符串

attrs:对标签属性值的检索字符串，可标注属性检索

recursive：是否对子孙全部搜索，默认为True

string: <>...中字符串区域的检索字符串

soup.find_all('a')

soup.find_all(['a','b'])

soup.find_all(True) #返回所有标签

soup.find_all('p', 'course') #所有属性是course的p标签

soup.find_all(id='link1') #查找包含属性id='link1'的标签

简写形式：

(..) 等价于 .find_all(..)

3. 实例：中国大学排名定向爬虫

功能：爬取http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html网站上的大学排名信息，输出排名，学校及总分

步骤：1）从网络上获取大学排名网页信息：getHTMLText()

2）提取网页内容中信息到合适的数据结构（关键，二维结构）:fillUnivList()

3）利用数据结构展示并输出结果:printUnivList

import requests

import bs4

from bs4 import BeautifulSoup

def getHTMLText(url):

try:

r = requests.get(url, timeout = 30)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return ""

def fillUnivList(ulist, html):

soup = BeautifulSoup(html, 'html.parser')

for tr in soup.find('tbody').children:

if isinstance(tr, bs4.element.Tag):

tds = tr.find_all('td')

ulist.append([tds[0].string,tds[1].string,tds[3].string])

def printUnivList(ulist, num):

tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"

print(tplt.format("排名", "学校名称", "总分", chr(12288)))

for i in range(num):

u = ulist[i]

print(tplt.format(u[0], u[1], u[2], chr(12288)))

def main():

uinfo = []

url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'

html = getHTMLText(url)

fillUnivList(uinfo, html)

printUnivList(uinfo, 3)

if __name__ == "__main__":

main()

'''out

排名　　　学校名称　　　总分

1 　　　清华大学　　　 95.9

2 　　　北京大学　　　 82.6

3 　　　浙江大学　　　 80

'''

4、正则表达式入门

regular expression :用来简洁表达一组字符串的表达式。

编译：将符合正则表达式语法的字符串转换成正则表达式特征：p = re.compile( regex ), 特征可以表达一组字符串

常用操作符

操作符说明实例

.表示任何单个字符

[ ]字符集，对单个字符给出取值范围[abc]，表示a,b,c，[a-z]表示a到z的单个字符

[^ ]非字符集，对单个字符给出排除范围[^abc]表示非a或b或c的单个字符

*前一个字符0次或无限次扩展abc*表示ab,abc,abccccc等

+表示前一个字符一次或无限次扩展abc+表示abc,abcc,abccc等

?前一个字符0次或1次扩展abc?表示ab,abc

|左右表达式任取其一abc|def表示abc、def

{m}扩展前一个字符m次ab{2}c表示abbc

{m,n}扩展前一个字符m至n次（含n）ab{1,2}c表示abc,abbc

^匹配字符串开头^abc表示abc且在一个字符串的开头

$匹配字符串结尾abc$表示abc且在一个字符串结尾

()分组标记，内部只能使用|操作符(abc)表示abc,(abc|def)表示abc,def

\d数字，等价于[0-9]

\w单词字符，等价于[A-Za-z0-9_]

经典正则表达式实例：

正则表达式内容

^[A-Za-z]+$由26个字母组成的字符串

^[A-Za-z0-9]+$由26个字母和数字组成的字符串

^-?\d+$整数形式字符串

^[0-9]*[1-9][0-9]*$正整数形式字符串

[1-9]\d{5}中国境内邮政编码

[\u4e00-\u9fa5]匹配中文字符

\d{3}-\d{8}|\d{4}-\d{7}国内电话号码：010-68913536

(([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5]).){3}([1-9]?\d|1\d{2}|2[0-4]\d|25[0-5])IP地址

正则表达式的类型

raw string类型（原生字符串类型,不包含转义符的类型）：r'text'，如r'\d{3}-\d{8}|\d{4}-\d{7}'

string类型，将\理解为转义符，使用更繁琐：如'\\d{3}-\\d{8}|\\d{4}-\\d{7}'

当正则表达式包含转义字符，使用raw string类型

Re库主要功能函数：

函数说明

re.search(pattern,string,flags=0)在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象

re.match(pattern,string,flags=0)从一个字符串的的开始位置起匹配正则表达式，返回match对象

re.findall(pattern,string,flags=0)搜索字符串，以列表类型返回全部能匹配的字符串

re.split(pattern,string,maxsplit=0,flags=0)将一个字符串按照正则表达式匹配结果进行分割，返回列表类型

re.finditer(pattern,string,flags=0)搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象

re.sub(pattern,repl,string,count=0,flags=0)在一个字符串中替换所有匹配正则表达式的字串，返回替换后的字符串

Re库的另一种等价用法

# 函数式用法：一次性操作

rst = re.search(r'[1-9]\d{5}', 'BIT 100081')

# 面向对象用法：编译后的多次操作

pat = re.compile(r'[1-9]\d{5}')

rst = pat.search('BIT 100081')

# 真正的正则表达式

regex = re.compile(pattern, flags = 0)

Re库的match对象

属性说明方法说明

.string待匹配文本.group(0)获得匹配后的字符串

.re匹配时使用的pattern对象（正则表达式）.start()匹配字符串在原始字符串的开始位置

.pos正则表达式搜索文本的开始位置.end()匹配字符串在原始字符串的结束位置

.endpos正则表达式搜索文本的结束位置.span()返回(.start(), .end())

贪婪匹配和最小匹配：

Re库默认采用贪婪匹配，即输出匹配最长的字串。

# 贪婪匹配

match = re.search(r'PY.*N', 'PYANBNCNDN')

# 最小匹配

match = re.search(r'PY.*?N', 'PYANBNCNDN')

最小匹配操作符

操作符说明

*?前一个字符0次或无限次扩展，最小匹配

+?前一个字符1次或无限次扩展，最小匹配

前一个字符0次或1次扩展，最小匹配

{m,n}?扩展一个字符m至n次(含n)，最小匹配

5.实例：当当网比价定向爬虫

目的：获取淘宝搜索页面信息，提取其中的商品名称和价格

难点：淘宝的搜索接口

技术路线：request - BeautifulSoup

程序结构设计： 1）提交商品搜索请求，循环获取页面

2）对于每个页面，提取商品名称和价格信息

3）将信息输出到屏幕上

import requests

from bs4 import BeautifulSoup

import csv

def getHTMLText(url):

try:

r = requests.get(url, timeout = 30)

r.raise_for_status()

r.encoding = r.apparent_encoding

return r.text

except:

return("")

def parsePage(ilt, html):

try:

soup = BeautifulSoup(html, 'html.parser')

div_tag = soup.find(name='div', attrs={'dd_name':"普通商品区域"})

li_tag = div_tag.find_all(name='li')

for each_goods_li in li_tag:

price = each_goods_li.find(name = 'span', attrs={'class':"price_n"}).string[1:]

name = each_goods_li.find(name='a', attrs={'dd_name': r"单品标题"}).attrs['title']

ilt.append([price,name])

except:

print("")

def printGoodsList(ilt):

tplt = "{:4}\t{:8}\t{:16}"

print(tplt.format("序号","价格", "商品名称"))

count = 0

for g in ilt:

count += 1

print(tplt.format(count, g[0], g[1]))

def saveGoods(ilt):

if(len(ilt) != 0):

headers = ["序号","价格", "商品名称"]

with open('goods.csv','w',encoding='utf-8') as f:

f_csv = csv.writer(f)

f_csv.writerow(headers)

for i in range(len(ilt)):

row = [i+1,ilt[i][0],ilt[i][1]]

f_csv.writerow(row)

def main():

goods = '书包'

depth = 3

start_url = 'http://search.dangdang.com/?key=' + goods + '&page_index='

infoList = []

for i in range(depth):

try:

url = start_url + str(i+1)

html = getHTMLText(url)

parsePage(infoList, html)

except:

continue

printGoodsList(infoList)

saveGoods(infoList)

if __name__ == "__main__":

main()

实例：股票数据定向爬虫

目标：获取上交所和深交所所有股票的名称和交易信息

输出：保存到文件中

候选网站: 1)新浪股票：http://finance.sina.com.cn/stock/ (可能js生成，不太合适)

2)百度股票：https://gupiao.baidu.com/stock/

选取原则：股票信息存在于HTML页面中，非js代码生成，没有Robots协议限制。

程序设计结构：1）从东方财富网获取股票列表

2）根据股票列表逐个到百度股票获取个股信息

3）将结果存储到文件

import requests

from bs4 import BeautifulSoup

import traceback

import re

def getHTMLText(url, code='utf-8'):

try:

r = requests.get(url, timeout = 30)

r.raise_for_status()

r.encoding = code

return r.text

except:

return("")

def getStockList(lst, stockURL):

html = getHTMLText(stockURL, 'GB2312')

soup = BeautifulSoup(html, 'html.parser')

a = soup.find_all('a')

for i in a:

try:

href = i.attrs['href']

lst.append(re.findall(r'[s][hz]\d{6}', href)[0])

except:

continue

def getStockInfo(lst, stockURL, fpath):

count = 0

for stock in lst:

url = stockURL + stock + '.html'

html = getHTMLText(url)

try:

if html == "":

continue

infoDict = {}

soup = BeautifulSoup(html, 'html.parser')

stockInfo = soup.find('div', attrs={ 'class':"stock-bets"})

name = stockInfo.find_all(attrs={ 'class':"bets-name"})[0]

infoDict.update({'股票名称':name.text.split()[0]})

keyList = stockInfo.find_all('dt')

valueList = stockInfo.find_all('dd')

for i in range(len(keyList)):

key = keyList[i].text

value = valueList[i].text

infoDict[key] = value

with open(fpath, 'a', encoding='utf-8') as f:

f.write(str(infoDict) + '\n')

count += 1

print('\r当前速度：{:.2f}%'.format(count*100/len(lst)), end='')

except:

#traceback.print_exc()

count += 1

print('\r当前速度：{:.2f}%'.format(count * 100 / len(lst)), end='')

continue

def main():

stock_list_url = 'http://quote.eastmoney.com/stocklist.html'

stock_info_url = 'https://gupiao.baidu.com/stock/'

output_file = 'D://BaiduStockInfo.txt'

slist = []

getStockList(slist,stock_list_url)

getStockInfo(slist,stock_info_url,output_file)

if __name__ == '__main__':

main()

三、Scrapy爬虫框架

Scrapy爬虫框架介绍

scrapy不是一个简单的函数功能库，而是一个爬虫框架: 5+2结构

框架解析：

使用模块功能

不需要用户修改Engine框架核心，控制所有模块之间的数据流；根据条件触发事件。

Downloader根据请求下载网页

Scheduler对所有爬取请求进行调度管理

需要用户修改Downloader Middleware

实施Engine、Scheduer和Downloader之间进行用户可配置的控制

修改、丢弃、新增请求或响应

Spider

解析Downloader返回的响应（Response）

产生爬取项，产生额外的爬取请求

Item Piplines

以流水线方式处理Spider产生的爬取项

操作包括：清理，检验，查重，存储数据

Spider Middleware对请求和爬取项再处理

Requests VS Scrapy

相同点不同点选择

1)页面请求和爬取两个重要技术路线；

2)可用性好，文档丰富，入门简单；

3)都没有处理js、提交表单、应对验证码等功能（可扩展）。RequestsScrapy

1)非常小的需求：requests库

2)不太小：Scrapy,持续，周期爬取信息，积累形成库

3)定制程度很高：自搭框架，requests>Scrapy

页面级爬虫网站级爬虫

功能库框架

并发性考虑不足，性能较差并发性好，性能较高

重点在于页面下载重点在于爬虫结构

定制灵活一般定制灵活，深度定制困难

上手十分简单入门稍难

常用命令：

命令说明格式

startproject创建一个新工程scrapy startproject[dir]

genspider创建一个爬虫scrapy genspider [options]

settings获得爬虫配置信息scrapy settings [options]

crawl运行一个爬虫scrapy crawl

list列出工程中所有爬虫scrapy list

shell启动URL调试命令行scrapy shell [url]

步骤：

1）建立一个Scrapy爬虫工程：scrapy startproject python123demo

2）在工程中产生一个Scrapy爬虫：scrapy genspider demo python123.io

3）配置产生的spider爬虫demp.py

简化版

import scrapy

class DemoSpider(scrapy.Spider):

name = 'demo'

#allowed_domains = ['python123.io']

start_urls = ['http://python123.io/ws/demo.html']

def parse(self, response):

fname = response.url.split('/')[-1]

with open(fname, 'wb') as f:

f.write(response.body)

self.log("Save file %s." % fname)

完整版：

import scrapy

class DemoSpider(scrapy.Spider):

name = 'demo'

def start_requests(self):

urls = [

'http://python123.io/ws/demo.html'

]

for url in urls:

yield scrapy.Request(url=url, callback=self.parse)

def parse(self, response):

fname = response.url.split('/')[-1]

with open(fname, 'wb') as f:

f.write(response.body)

self.log("Save file %s." % fname)

4）运行爬虫，获取网页：scrapy crawl demo

使用步骤:

1) 创建一个工程和Spider模板

数据类型：

Request类

Response类

Item类

2) 编写Spider

3) 编写Item Pipleline

4）优化配置策略

1）Request类

class scrapy.http.Request(): 表示一个http请求，由Spider生成，由Downloader执行

属性或方法说明

.urlRequest对应的请求的URL地址

.method对应的请求方法，'Get'，‘POST’等

.headers字典类型请求风格头

.body请求内容主体，字符串风格

.meta用户添加的扩展信息，在Scrapy内部模块间传递信息使用

.copy()复制该请求

2）Response类

class. scrapy.http.Response():表示一个http响应。由Downloader生成，由Spider处理

属性或方法说明

.urlResponse对应的URL地址

.statusHTTP状态码，默认是200

.headersResponse对应的头信息

.bodyResponse 对应的内容信息，字符串类型

.flags一组标记

.request产生Response类型对应的Request对象

.copy()复制该响应

3）Item类

class scrapy.item.Item(): Item对象表示一个从HTML中提取的信息内容，由Spider生成，由Item Pipeline处理。类似字典类型，可以按照字典类型操作

Scrapy爬虫支持多种HTML信息提取方法：Beautiful Soup, lxml, re, XPath Selector, CSS Selector

实例：Scrapy获取上交所和深交所所有股票的名称和交易信息

百度股票：https://gupiao.baidu.com/stock/

单个股票：https://gupiao.baidu.com/stock/sz002439

东方财富网：http://quote.eastmoney.com/stocklist.html

1）建立工程和spider模板

>scrapy startproject BaiduStocks

>cd BaiduStocks

>scrapy genspider stocks baidu.com

>修改spiders/stocks.py文件

2）编写spider

>配置stocks.py文件

>修改对返回页面的处理

>修改对新增URL爬取请求的处理

3）编写Pipelines

>配置pipelines.py文件

>d定义对爬取项的处理类

>配置ITEM_PIPLINES选项

stocks.py

# -*- coding: utf-8 -*-

import scrapy

import re

class StocksSpider(scrapy.Spider):

name = 'stocks'

start_urls = ['http://quote.eastmoney.com/stocklist.html']

def parse(self, response):

for href in response.css('a::attr(href)').extract():

try:

stock = re.findall(r"[s][hz]\d{6}", href)[0]

url = "https://gupiao.baidu.com/stock/"+ stock + '.html'

yield scrapy.Request(url, callback=self.parse_stock)

except:

continue

def parse_stock(self, response):

infoDict = {}

stockInfo = response.css('.stock-bets')

name = stockInfo.css('.bets-name').extract()[0]

keyList = stockInfo.css('dt').extract()

valueList = stockInfo.css('dd').extract()

for i in range(len(keyList)):

key = re.findall(r'>.*

try:

val = re.findall(r'\d+\.?.*

except:

val = '--'

infoDict[key] = val

infoDict.update({'股票名称': re.findall('\s.*\(',name)[0].split()[0] +

re.findall('\>.*\<',name)[0][1:-1]})

yield infoDict

pipelines.py, 修改settings.py中的内容，关联BaidustocksInfoPipline

class BaidustocksInfoPipline(object):

def open_spider(self, spider):

self.f = open('BaiduStockInfo.txt', 'w')

def close_spide(self, spider):

self.f.close()

def process_item(self, item, spider):

try:

line = str(dict(item)) + '\n'

self.f.write(line)

except:

pass

return item

你可能感兴趣的:(python,python,爬虫)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include