阿言教编程

Python网络爬虫简单入门

预备知识
学习者需要预先掌握Python的数字类型、字符串类型、分支、循环、函数、列表类型、字典类型、文件和第三方库使用等概念和编程方法。
Python爬虫基本流程

a. 发送请求

使用http库向目标站点发起请求，即发送一个Request，Request包含：请求头、请求体等。

Request模块缺陷：不能执行JS 和CSS 代码。

b. 获取响应内容

如果requests的内容存在于目标服务器上，那么服务器会返回请求内容。

Response包含：html、Json字符串、图片，视频等。

c. 解析内容

对用户而言，就是寻找自己需要的信息。对于Python爬虫而言，就是利用正则表达式或者其他库提取目标信息。

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据:以wb的方式写入文件

d. 保存数据

解析得到的数据可以多种形式，如文本，音频，视频保存在本地。

数据库（MySQL，Mongdb、Redis）

文件

Requests库入门
Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库。

3.1 Requests库安装和测试
安装：

Win平台：以“管理员身份运行cmd”，执行 pip install requests

测试：

3.2 Requests库的7个主要方法
方法说明
requests.request() 构造一个请求，支撑一下个方法的基础方法。
requests.get() 获取HTML网页的主要方法，对应HTTP的GET
requests.head() 获取HTML网页投信息的方法，对应HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法，对应HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法，对应HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求，对应HTTP的PATCH
requests.delete() 向HTML网页提交删除请求，对应HTTP的DELETE
带可选参数的请求方式：

requests.request(method,url,**kwargs)

method:请求方式，对应get/put/post等7种

url：获取页面的url链接

**kwargs：控制访问的参数，均为可选项，共以下13个

params：字典或字节系列，作为参数增加到url中

kv = {‘key1’:‘value1’,‘key2’:‘value2’}
r = requests.request(‘GET’,‘http://python123.io/ws’,params=kv)
print(r.url)
https://python123.io/ws?key1=value1&key2=value2
data：字典、字节系列或文件对象，作为requests的内容

kv = {‘key1’:‘value1’,‘key2’:‘value2’}
r = requests.request(‘POST’,‘http://python123.io/ws’,data=kv)
body = ‘主题内容’
r = requests.request(‘POST’,‘http:///python123.io/ws’,data=body)
json：JSON格式的数据，作为equests的内容

kv = {‘key1’:‘value1’,‘key2’:‘value2’}
r = requests.request(‘POST’,‘http://python123.io/ws’,json=kv)
headers：字典，HTTP定制头

hd = {‘user-agent’:‘Chrome/10’}
r = requests.request(‘POST’,‘http://www.baidu.com’,headers=hd)
cookies：字典或cookieJar，Request中的cookie

files：字典类型，传输文件

f = {‘file’:open(’/root/po.sh’,‘rb’)}
r = requests.request(‘POST’,‘http://python123.io/ws’,file=f)
timeout:设置超时时间，秒为单位。

r = requests.request(‘GET’,‘http://python123.io/ws’,timeout=30)
proxies:字典类型，设置访问代理服务器，可以增加登录验证。

pxs = {‘http’:‘http://user:[email protected]:1234’,
… ‘https’:‘https://10.10.10.3:1234’}

r = requests.request(‘GET’,‘http://www.baidu.com’,proxies=pxs)
allow_redirects:True/False,默认为True，重定向开关

stream：True/False,默认为True，获取内容立即下载开关

verify：rue/False,默认为True，认证SSL证书开关

Cert：本地SSL证书路径

auth：元组类型，支持HTTP认证功能

3.3 Requests库的get()方法

3.4 Requests的Response对象
Response对象包含服务器返回的所有信息，也包含请求的Request信息

Response对象的属性

3.5 理解Response的编码

注意：编码为ISO-8859-1不支持编译中文，需要设置 r = encoding=“utf-8”

3.6 理解Requests库的异常
Requests库支持常见的6种连接异常

注意：网络连接有风险。异常处理很重要。raise_for_status()如果不等于200则产生异常requests.HTTPError。

3.7 爬取网页的通用代码框架
import requests
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return “产生异常”

if name == “main”:
url = “http://www.baidu.com”
print(getHTMLText(url))
4. 网络爬虫的“盗亦有道”：Robots协议
robots是网站跟爬虫间的协议，robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。

网络爬虫的尺寸：

4.1 网络爬虫引发的问题
a. 网络爬虫的“性能”骚扰

web默认接受人类访问，由于网络爬虫的频繁访问会给服务器带来巨大的额资源开销。

b. 网络爬虫的法律风险

服务器上的数据有产权归属，网络爬虫获取数据牟利将带来法律风险

c. 网络爬虫的隐私泄露

网络爬虫可能具备突破简单控制访问的能力，获取被保护的数据从而泄露个人隐私。

4.2 网络爬虫限制
a. 来源审查：判断User-Agent进行限制

检查来访HTTP协议头的user-agent域，只响应浏览器或友好爬虫的访问

b. 发布公告：Robots协议

告知所有爬虫网站的爬取策略，要求遵守Robots协议

4.3 真实的Robots协议案例
京东的Robots协议：

https://www.jd.com/robots.txt

#注释，*代表所有，/代表根目录

4.4 robots协议的遵守方式
对robots协议的理解

自动或人工识别roboes.txt,z再进行内容爬取。

robots协议是建议但非约束性，网络爬虫可以补遵守，但存在法律风险。

原则：人类行为可以补参考robots协议，比如正常阅览网站，或者较少爬取网站频率。

Requests库网络爬虫实战
5.1 京东商品页面爬取
目标页面地址：https://item.jd.com/5089267.html

实例代码：

import requests
url = ‘https://item.jd.com/5089267.html’
try:
r = requests.get(url)
r.raise_for_status()
r.encoding =r.apparent_encoding
print(r.text[:1000])
except:
print(“爬取失败”)
结果：

5.2 当当网商品页面爬取
目标页面地址：http://product.dangdang.com/26487763.html

代码：

import requests
url = ‘http://product.dangdang.com/26487763.html’
try:
r = requests.get(url)
r.raise_for_status()
r.encoding =r.apparent_encoding
print(r.text[:1000])
except IOError as e:
print(str(e))
出现报错：

HTTPConnectionPool(host=‘127.0.0.1’, port=80): Max retries exceeded with url: /26487763.html (Caused by NewConnectionError(’: Failed to establish a new connection: [Errno 111] Connection refused’,))

报错原因：当当网拒绝不合理的浏览器访问。

查看初识的http请求头：

print(r.request.headers)

代码改进：构造合理的HTTP请求头

import requests
url = ‘http://product.dangdang.com/26487763.html’
try:
kv = {‘user-agent’:‘Mozilla/5.0’}
r = requests.get(url,headers=kv)
r.raise_for_status()
r.encoding =r.apparent_encoding
print(r.text[:1000])
except IOError as e:
print(str(e))
结果正常爬取：

5.3 百度360搜索引擎关键词提交
百度关键词接口：http://www.baidu.com/s?wd=keyword

代码实现：

import requests
keyword = “python”
try:
kv = {‘wd’:keyword}
r = requests.get(“http://www.baidu.com/s”,params=kv)
print(r.request.url)
r.raise_for_status()
print(len(r.text))
except IOError as e:
print(str(e))
执行结果：

360关键词接口：

http://www.so.com/s?q=keyword

代码实现：

import requests
keyword = “Linux”
try:
kv = {‘q’:keyword}
r = requests.get(“http://www.so.com/s”,params=kv)
print(r.request.url)
r.raise_for_status()
print(len(r.text))
except IOError as e:
print(str(e))
执行结果：

5.4 网络图片爬取和存储
网络图片链接的格式：

http://FQDN/picture.jpg

校花网：http://www.xiaohuar.com

选择一个图片地址：http://www.xiaohuar.com/d/file/20141116030511162.jpg

实现代码：

import requests
import os
url = “http://www.xiaohuar.com/d/file/20141116030511162.jpg”
dir = “D://pics//”
path = dir + url.split(’/’)[-1] #设置图片保存路径并以原图名名字命名
try:
if not os.path.exists(dir):
os.mkdir(dir)
if not os.path.exists(path):
r = requests.get(url)
with open(path,‘wb’) as f:
f.write(r.content)
f.close()
print(“文件保存成功”)
else:
print(“文件已存在”)
except IOError as e:
print(str(e))
查看图片已经存在：

5.5 ip地址归属地查询

ip地址归属地查询网站接口：http://www.ip138.com/ips138.asp?ip=

实现代码：

import requests
url = “http://www.ip38.com/ip.php?ip=”
try:
r = requests.get(url+‘104.193.88.77’)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(r.text)
except IOError as e:
print(str(e))
5.5 有道翻译翻译表单提交
打开有道翻译，在开发者模式依次单击“Network”按钮和“XHR”按钮，找到翻译数据：

import requests
import json

def get_translate_date(word=None):
url = “http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule”
#post参数需要放在请求实体里，构建一个新字典
form_data = {‘i’: word,
‘from’: ‘AUTO’,
‘to’: ‘AUTO’,
‘smartresult’: ‘dict’,
‘client’: ‘fanyideskweb’,
‘salt’: ‘15569272902260’,
‘sign’: ‘b2781ea3e179798436b2afb674ebd223’,
‘ts’: ‘1556927290226’,
‘bv’: ‘94d71a52069585850d26a662e1bcef22’,
‘doctype’: ‘json’,
‘version’: ‘2.1’,
‘keyfrom’: ‘fanyi.web’,
‘action’: ‘FY_BY_REALTlME’
}
#请求表单数据
response = requests.post(url,data=form_data)
#将JSON格式字符串转字典
content = json.loads(response.text)
#打印翻译后的数据
print(content[‘translateResult’][0][0][‘tgt’])

if name == ‘main’:
word = input(“请输入你要翻译的文字：”)
get_translate_date(word)
执行结果：

6 Beautiful Soup库入门
6.1 简介
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析“标签树”等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。
6.2 Beautiful Soup安装
目前,Beautiful Soup的最新版本是4.x版本，之前的版本已经停止开发，这里推荐使用pip来安装，安装命令如下：
pip install beautifulsoup4

验证安装：
from bs4 import BeautifulSoup
soup = BeautifulSoup(‘

Hello

’,‘html.parser’)
print(soup.p.string)
执行结果如下：
Hello
注意：这里虽然安装的是beautifulsoup4这个包，但是引入的时候却是bs4，因为这个包源代码本身的库文件名称就是bs4，所以安装完成后，这个库文件就被移入到本机Python3的lib库里，识别到的库文件就叫作bs4。
因此，包本身的名称和我们使用时导入包名称并不一定是一致的。
6.3 BeautifulSoup库解析器

解析器

使用方法

条件

bs4的HTML解析器

BeautifulSoup(mk,‘html.parser’)

安装bs4库

lxml的HTML解析器

BeautifulSoup(mk,‘lxml’)

pip install lxml

lxml的XML解析器

BeautifulSoup(mk,‘xml’)

pip install lxml

html5lib的解析器

BeautifulSoup(mk,‘htmlslib’)

pip install html5lib

如果使用lxml,在初始化BeautifulSoup时，把第二个参数改为lxml即可：
from bs4 import BeautifulSoup
soup = BeautifulSoup(‘

Hello

’,‘lxml’)
print(soup.p.string)
6.4 BeautifulSoup的基本用法
BeautifulSoup类的基本元素

基本元素

说明

Tag

标签，基本信息组织单元，分别用<>和标明开头和结尾

Name

标签的名字，

的名字是‘p’，格式：.name

Attributes

标签的属性，字典形式组织，格式：.attrs

NavigableString

标签内非属性字符串，<>…<>中字符串，格式：.string

Comment

标签内字符串的注释部分，一种特殊的Comment类型

实例展示BeautifulSoup的基本用法：

from bs4 import BeautifulSoup
import requests
r = requests.get(“http://python123.io/ws/demo.html”)
demo = r.text
demo
‘This is a python demo page\r\n\r\n

The demo python introduces several python courses.
\r\n
Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:\r\nBasic Python and Advanced Python.
\r\n’

soup = BeautifulSoup(demo,“html.parser”)
soup.title #获取标题

This is a python demo page >>> soup.a #获取a标签 Basic Python >>> soup.title.string 'This is a python demo page' >>> soup.prettify() #输出html标准格式内容 '\n \n \n This is a python demo page\n \n \n \n

\n \n The demo python introduces several python courses.\n \n

\n Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:\n \n Basic Python\n \n and\n \n Advanced Python\n \n .\n

\n \n' >>> soup.a.name #每个都有自己的名字，通过.name获取 'a' >>> soup.p.name 'p' >>> tag = soup.a >>> tag.attrs {'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'} >>> tag.attrs['class'] ['py1'] >>> tag.attrs['href'] 'http://www.icourse163.org/course/BIT-268001' >>> type(tag.attrs)

标签树的下行遍历

标签树的上行遍历：遍历所有先辈节点，包括soup本身

标签树的平行遍历：同一个父节点的各节点间

实例演示：
from bs4 import BeautifulSoup
import requests
demo = requests.get(“http://python123.io/ws/demo.html”).text
soup = BeautifulSoup(demo,“html.parser”)
#标签树的上行遍历
print(“遍历儿子节点：\n”)
for child in soup.body.children:
print(child)

print(“遍历子孙节点：\n”)
for child1 in soup.body.descendants:
print(child1)

print(soup.title.parent)
print(soup.html.parent)
for parent in soup.a.parents:
if parent is None:
print(parent)
else:
print(parent.name)
#标签树的平行遍历
print(soup.a.next_sibling)
print(soup.a.next_sibling.next_sibling)
print(soup.a.previous_sibling)
7 正则表达式
正则表达式是处理字符串的强大工具，它有自己特定的语法结构，实现字符串的检索、替换、匹配验证都可以。对于爬虫来说，

从HTML里提取想要的信息非常方便。python的re库提供了整个正则表达式的实现

7.1 案例引入
这里介绍一个正则表达式测试工具http://tool.oschina.net/regex，输入待匹配的文本，然选择常用的正则表达式，得到相应的匹配结果，

适合新手入门。这里输入：

hello,my phone is 18898566588 and email is [email protected], and wen is https://www.cnblogs.com/wenwei-blog/

点击“匹配Email地址”，即可匹配出网址。

7.2 常用正则表达式匹配规则
‘.’ 匹配所有字符串，除\n以外
‘-’ 表示范围[0-9]
‘’ 匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 *。
‘+’ 匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 +
‘^’ 匹配字符串开头
‘$’ 匹配字符串结尾 re
‘’ 转义字符，使后一个字符改变原来的意思，如果字符串中有字符需要匹配，可以*或者字符集[] re.findall(r’3*’,'3ds’)结[‘3*’]
‘’ 匹配前面的字符0次或多次 re.findall("ab",“cabc3abcbbac”)结果：[‘ab’, ‘ab’, ‘a’]
‘?’ 匹配前一个字符串0次或1次 re.findall(‘ab?’,‘abcabcabcadf’)结果[‘ab’, ‘ab’, ‘ab’, ‘a’]
‘{m}’ 匹配前一个字符m次 re.findall(‘cb{1}’,‘bchbchcbfbcbb’)结果[‘cb’, ‘cb’]
‘{n,m}’ 匹配前一个字符n到m次 re.findall(‘cb{2,3}’,‘bchbchcbfbcbb’)结果[‘cbb’]
‘\d’ 匹配数字，等于[0-9] re.findall(’\d’,‘电话:10086’)结果[‘1’, ‘0’, ‘0’, ‘8’, ‘6’]
‘\D’ 匹配非数字，等于[^0-9] re.findall(’\D’,‘电话:10086’)结果[‘电’, ‘话’, ‘:’]
‘\w’ 匹配字母和数字，等于[A-Za-z0-9] re.findall(’\w’,‘alex123,./;;;’)结果[‘a’, ‘l’, ‘e’, ‘x’, ‘1’, ‘2’, ‘3’]
‘\W’ 匹配非英文字母和数字,等于[^A-Za-z0-9] re.findall(’\W’,‘alex123,./;;;’)结果[’,’, ‘.’, ‘/’, ‘;’, ‘;’, ‘;’]
‘\s’ 匹配空白字符 re.findall(’\s’,‘3ds \t\n’)结果[’ ‘, ‘\t’, ‘\n’]
‘\S’ 匹配非空白字符 re.findall(’\s’,'3ds \t\n’)结果[‘3’, ‘’, ‘d’, ‘s’]
‘\A’ 匹配字符串开头
‘\Z’ 匹配字符串结尾
\t 匹配衣蛾制表符
‘\b’ 匹配单词的词首和词尾，单词被定义为一个字母数字序列，因此词尾是用空白符或非字母数字符来表示的
‘\B’ 与\b相反，只在当前位置不在单词边界时匹配
‘(?P…)’ 分组，除了原有编号外在指定一个额外的别名 re.search("(?P[0-9]{4})(?P[0-9]{2})(?P[0-9]{8})",“371481199306143242”).groupdict(“city”) 结果{‘province’: ‘3714’, ‘city’: ‘81’, ‘birthday’: ‘19930614’}
[] 是定义匹配的字符范围。比如 [a-zA-Z0-9] 表示相应位置的字符要匹配英文字符和数字。[\s]表示空格或者号。
常用的re函数：
[^…] 不在[]中的字符，比如[^abc]匹配除了a、b、c之外的字符。
. 具有贪婪的性质，首先匹配到不能匹配为止，根据后面的正则表达式，会进行回溯。
.？满足条件的情况只匹配一次，即懒惰匹配。
7.3 常用匹配方法属性函数
方法/属性
作用
re.match(pattern, string, flags=0)
从字符串的起始位置匹配，如果起始位置匹配不成功的话，match()就返回none
re.search(pattern, string, flags=0)
扫描整个字符串并返回第一个成功的匹配
re.findall(pattern, string, flags=0)
找到RE匹配的所有字符串，并把他们作为一个列表返回
re.finditer(pattern, string, flags=0)
找到RE匹配的所有字符串，并把他们作为一个迭代器返回
re.sub(pattern, repl, string, count=0, flags=0)
替换匹配到的字符串
函数参数说明：
pattern:匹配的正则表达式
string：要匹配的字符串
flags：标记为，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。
repl：替换的字符串，也可作为一个函数
count：模式匹配后替换的最大次数，默认0表示替换所有匹配
例子1：
#!/usr/bin/python3
import re
#替换
phone = ‘18898537584 #这是我的电话号码’
print(‘我的电话号码:’,re.sub(’#.’,’’,phone)) #去掉注释
print(re.sub(’\D’,’’,phone))
#search
ip_addr = re.search(’(\d{3}.){1,3}\d{1,3}.\d{1,3}’,os.popen(‘ifconfig’).read())
print(ip_addr)
#match

a = re.match(’\d+’,‘2ewrer666dad3123df45’)
print(a.group())
2
获取匹配的函数：

方法/属性

作用

group(num=0)

匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。

groups()

返回包含所有小组字符串的元组，从1到所含的小组

groupdict()

返回以有别名的组的别名为键、以该组截获的子串为值的字典

start()

返回匹配开始的位置

end()

返回匹配结束的位置

span()

返回一个元组包含匹配（开始，结束）的位置

re模块中分组的作用？
（1）判断是否匹配（2）灵活提取匹配到各个分组的值。

import re
print(re.search(r’(\d+)-([a-z])’,‘34324-dfsdfs777-hhh’).group(0)) #返回整体
34324-d

print(re.search(r’(\d+)-([a-z])’,‘34324-dfsdfs777-hhh’).group(1)) #返回第一组
34324

print(re.search(r’(\d+)-([a-z])’,‘34324-dfsdfs777-hhh’).group(2)) #获取第二组
d

print(re.search(r’(\d+)-([a-z])’,‘34324-dfsdfs777-hhh’).group(3)) #不存在。报错“no such group”
Traceback (most recent call last):
File “”, line 1, in
IndexError: no such group

7.4 re.compile 函数
compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象。语法格式：
re.compile(pattern[, flags])
参数：
pattern : 一个字符串形式的正则表达式
flags : 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：
re.I 忽略大小写
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性，忽略空格和 # 后面的注释
常用的是re.I和re.S

import re
pattern = re.compile(’\d+’,re.S) #用于匹配至少一个数字
res = re.findall(pattern,“my phone is 18898566588”)
print(res)
[‘18898566588’]
7.5 爬取猫眼电影TOP排行
利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容。requests比urllib使用更加方便。
抓取目标
提取猫眼电影TOP的电影名称、时间、评分、图片等信息。提取的站点URL为https://maoyan.com/board/4
提取结果已文件形式保存下来。
URL提取分析
打开站点https://maoyan.com/board/4，直接点击第二页和第三页，观察URL的内容产生的变化。
第二页：https://maoyan.com/board/4?offset=10
第三页：https://maoyan.com/board/4?offset=20
总结出规律，唯一变化的是offset=x，如果想获取top100电影，只需分开请求10次，offset参数分别设置为0、10、20…90即可。
源码分析和正则提取
打开网页按F12查看页面源码，可以看到，一部电影信息对应的源代码是一个dd节点，首先需要提取排名信息，排名信息在class为board-index的i节点内，这里使用懒惰匹配提取i节点内的信息，正则表达式为：

.*?board-index.*?>(.*?) 随后提取电影图片，可以看到后面有a节点，其内部有两个img节点，经过检查后发现，第二个img节点的data-src属性是图片的链接。这里提取第二个img节点的data-src属性，正则表达式改写如下：

.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?) 再提取主演、发布时间、评分等内容时，都是同样的原理。最后，正则表达式写为：

.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?).*?releasetime.*?>(.*?).*?integer.*?>(.*?).*?fraction.*?>(.*?).*?

![在这里插入图片描述](https://img-blog.csdnimg.cn/64e4d8a5c85149cfab5bd909110afc96.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA6Zi_6KiA5pWZ57yW56iL,size_20,color_FFFFFF,t_70,g_se,x_16)

注意：这里不要在Element选项卡中直接查看源码，因为那里的源码可能经过JavaScript操作而与原始请求不通，而是需要从NetWork选项卡部分查看原始请求得到的源码。

代码整合

import json
import requests
from requests.exceptions import RequestException #引入异常
import re
import time
def get_one_page(url):
try:
response = requests.get(url)
if response.status_code == 200: #由状态码判断返回结果
return response.text #返回网页内容
return None
except RequestException:
return None

def parse_one_page(html):
pattern = re.compile(’

. ?board-index.?>(\d+). ?data-src="(.?)". ?name"> + '.?>(. ?).?star">(. ?)

.?releasetime">(. ?)’
+ '.?integer">(. ?).?fraction">(. ?).?’, re.S) #compile函数表示一个方法对象，re.s匹配多行
items = re.findall(pattern, html) #以列表形式返回全部能匹配的字符串。
for item in items: #将结果以字典形式返回键值对
yield { #把这个方法变成一个生成器
‘index’: item[0],
‘image’: item[1],
‘title’: item[2],
‘actor’: item[3].strip()[3:],
‘time’: item[4].strip()[5:],
‘score’: item[5] + item[6] #将评分整数和小数结合起来
}

def write_to_file(content):
with open(‘result.txt’, ‘a’, encoding=‘utf-8’) as f: #将结果写入文件
f.write(json.dumps(content, ensure_ascii=False) + ‘\n’)

def main(offset):
url = ‘http://maoyan.com/board/4?offset=’ + str(offset)
html = get_one_page(url)
for item in parse_one_page(html):
print(item)
write_to_file(item)

if name == ‘main’:
for i in range(10):
main(offset=i * 10)
time.sleep(1)
8 Scrapy框架
Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。
其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下

Scrapy主要包括了以下组件：

引擎(Scrapy)
用来处理整个系统的数据流处理, 触发事务(框架核心)
调度器(Scheduler)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
下载器(Downloader)
用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
爬虫(Spiders)
爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
项目管道(Pipeline)
负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。
下载器中间件(Downloader Middlewares)
位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。
爬虫中间件(Spider Middlewares)
介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。
调度中间件(Scheduler Middewares)
介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。
Scrapy运行流程大概如下：

引擎从调度器中取出一个链接(URL)用于接下来的抓取
引擎把URL封装成一个请求(Request)传给下载器
下载器把资源下载下来，并封装成应答包(Response)
爬虫解析Response
解析出实体（Item）,则交给实体管道进行进一步的处理
解析出的是链接（URL）,则把URL交给调度器等待抓取
scrapy常用命令

scrapy startproject <爬虫名称> 创建爬虫名称（唯一）

scrapy genspider<爬虫项目名称> 创建爬虫项目名称

scrapy list 列出所有爬虫名称

scrapy crawl <爬虫名称> 运行爬虫

8.1 scrapy爬虫项目一：爬取豆瓣电影TOP250
爬取目标：电影排名、电影名称、电影评分、电影评论数

创建爬虫项目和爬虫

scrapy startproject DoubanMovieTop

cd DoubanMovieTop

scrapy genspider douban

修改默认“user-agent”和reboots为True

修改settings.py文件以下参数：

USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36’
ROBOTSTXT_OBEY = False
Item使用简单的class定义语法以及Field对象来声明。

写入下列代码声明Item

import scrapy
class DoubanmovietopItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
#排名
ranking = scrapy.Field()
#电影名称
movie_name = scrapy.Field()
#评分
score = scrapy.Field()
#评论人数
score_num = scrapy.Field()
分析网页源码抓取所需信息
import scrapy
from DoubanMovieTop.items import DoubanmovietopItem

class DoubanSpider(scrapy.Spider):
name = ‘douban’
#allowed_domains = [‘movie.douban.com’]
def start_requests(self):
start_urls = ‘https://movie.douban.com/top250’
yield scrapy.Request(start_urls)

def parse(self, response):
    item = DoubanmovietopItem()
    movies = response.xpath('//ol[@class="grid_view"]/li')
    for movie in movies:
        item['ranking'] = movie.xpath('.//div[@class="pic"]/em/text()').extract()[0]
        item['movie_name'] = movie.xpath('.//div[@class="hd"]/a/span[1]/text()').extract()[0]
        item['score'] = movie.xpath('.//div[@class="star"]/span[@class="rating_num"]/text()').extract()[0]
        item['score_num'] = movie.xpath('.//div[@class="star"]/span/text()').re(r'(\d+)人评价')[0]  #Selector也有一种.re()
        yield item
    next_url = response.xpath('//span[@class="next"]/a/@href').extract()
    if next_url:
        next_url = 'https://movie.douban.com/top250' + next_url[0]
        yield scrapy.Request(next_url)

运行爬虫写入文件中
哈喽您好！如果你对Python感兴趣的话，加一下我们的學习q群哦475577165，领取學习资料以及源码喲
scrapy crawl douban -o douban.csv
使用wps打开excel表格查看抓取结果

你可能感兴趣的:(爬虫技术,程序员,Python技术,python,爬虫,开发语言)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Java大厂面试实录：谢飞机的电商场景技术问答（Spring Cloud、MyBatis、Redis、Kafka、AI等）
Java大厂面试实录：谢飞机的电商场景技术问答（SpringCloud、MyBatis、Redis、Kafka、AI等）本文模拟知名互联网大厂Java后端岗位面试流程，以电商业务为主线，由严肃面试官与“水货”程序员谢飞机展开有趣的对话，涵盖SpringCloud、MyBatis、Redis、Kafka、SpringSecurity、AI等热门技术栈，并附详细解析，助力求职者备战大厂面试。故事设定谢
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
C#中的设计模式：构建更加优雅的代码 Envyᥫᩣᩚ c#开发语言
C#在面向对象编程（OOP）方面的强大支持，我们可以探讨“C#中的设计模式”。这不仅有助于理解如何更好地组织代码，还能提高代码的可维护性和可扩展性。引言设计模式是软件工程中经过实践验证的解决方案模板，它们提供了一种标准化的方法来解决常见的开发问题。对于使用C#进行开发的程序员来说，理解和应用这些模式可以帮助创建结构良好、易于维护和扩展的应用程序。本文将介绍几种常用的设计模式，并展示如何用C#实现它
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&