weixin_30767921

Python网络爬虫入门篇

1. 预备知识

学习者需要预先掌握Python的数字类型、字符串类型、分支、循环、函数、列表类型、字典类型、文件和第三方库使用等概念和编程方法。

Python入门篇：https://www.cnblogs.com/wenwei-blog/p/10592541.html

2. Python爬虫基本流程

a. 发送请求

使用http库向目标站点发起请求，即发送一个Request，Request包含：请求头、请求体等。

Request模块缺陷：不能执行JS 和CSS 代码。

b. 获取响应内容

如果requests的内容存在于目标服务器上，那么服务器会返回请求内容。

Response包含：html、Json字符串、图片，视频等。

c. 解析内容

对用户而言，就是寻找自己需要的信息。对于Python爬虫而言，就是利用正则表达式或者其他库提取目标信息。

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据:以wb的方式写入文件

d. 保存数据

解析得到的数据可以多种形式，如文本，音频，视频保存在本地。

数据库（MySQL，Mongdb、Redis）

文件

3. Requests库入门

Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库。

3.1 Requests库安装和测试

安装：

Win平台：以“管理员身份运行cmd”，执行 pip install requests

测试：

3.2 Requests库的7个主要方法

方法	说明
requests.request()	构造一个请求，支撑一下个方法的基础方法。
requests.get()	获取HTML网页的主要方法，对应HTTP的GET
requests.head()	获取HTML网页投信息的方法，对应HTTP的HEAD
requests.post()	向HTML网页提交POST请求的方法，对应HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应HTTP的PUT
requests.patch()	向HTML网页提交局部修改请求，对应HTTP的PATCH
requests.delete()	向HTML网页提交删除请求，对应HTTP的DELETE

带可选参数的请求方式：

requests.request(method,url,**kwargs)

method:请求方式，对应get/put/post等7种

url：获取页面的url链接

**kwargs：控制访问的参数，均为可选项，共以下13个

params：字典或字节系列，作为参数增加到url中

>>> kv = {'key1':'value1','key2':'value2'}
>>> r = requests.request('GET','http://python123.io/ws',params=kv)
>>> print(r.url)
https://python123.io/ws?key1=value1&key2=value2

data：字典、字节系列或文件对象，作为requests的内容

>>> kv = {'key1':'value1','key2':'value2'}
>>> r = requests.request('POST','http://python123.io/ws',data=kv)
>>> body = '主题内容'
>>> r = requests.request('POST','http:///python123.io/ws',data=body)

json：JSON格式的数据，作为equests的内容

>>> kv = {'key1':'value1','key2':'value2'}
>>> r = requests.request('POST','http://python123.io/ws',json=kv)

headers：字典，HTTP定制头

>>> hd = {'user-agent':'Chrome/10'}
>>> r = requests.request('POST','http://www.baidu.com',headers=hd)

cookies：字典或cookieJar，Request中的cookie

files：字典类型，传输文件

>>> f = {'file':open('/root/po.sh','rb')}
>>> r = requests.request('POST','http://python123.io/ws',file=f)

timeout:设置超时时间，秒为单位。

>>> r = requests.request('GET','http://python123.io/ws',timeout=30)

proxies:字典类型，设置访问代理服务器，可以增加登录验证。

>>> pxs = {'http':'http://user:[email protected]:1234',
... 'https':'https://10.10.10.3:1234'}
>>> r = requests.request('GET','http://www.baidu.com',proxies=pxs)

allow_redirects:True/False,默认为True，重定向开关

stream：True/False,默认为True，获取内容立即下载开关

verify：rue/False,默认为True，认证SSL证书开关

Cert：本地SSL证书路径

auth：元组类型，支持HTTP认证功能

3.3 Requests库的get()方法

3.4 Requests的Response对象

Response对象包含服务器返回的所有信息，也包含请求的Request信息

Response对象的属性

3.5 理解Response的编码

注意：编码为ISO-8859-1不支持编译中文，需要设置 r = encoding="utf-8"

3.6 理解Requests库的异常

Requests库支持常见的6种连接异常

注意：网络连接有风险。异常处理很重要。raise_for_status()如果不等于200则产生异常requests.HTTPError。

3.7 爬取网页的通用代码框架

import requests
def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__ == "__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

4. 网络爬虫的“盗亦有道”：Robots协议

robots是网站跟爬虫间的协议，robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。

网络爬虫的尺寸：

4.1 网络爬虫引发的问题

a. 网络爬虫的“性能”骚扰

web默认接受人类访问，由于网络爬虫的频繁访问会给服务器带来巨大的额资源开销。

b. 网络爬虫的法律风险

服务器上的数据有产权归属，网络爬虫获取数据牟利将带来法律风险

c. 网络爬虫的隐私泄露

网络爬虫可能具备突破简单控制访问的能力，获取被保护的数据从而泄露个人隐私。

4.2 网络爬虫限制

a. 来源审查：判断User-Agent进行限制

检查来访HTTP协议头的user-agent域，只响应浏览器或友好爬虫的访问

b. 发布公告：Robots协议

告知所有爬虫网站的爬取策略，要求遵守Robots协议

4.3 真实的Robots协议案例

京东的Robots协议：

https://www.jd.com/robots.txt

#注释，*代表所有，/代表根目录

4.4 robots协议的遵守方式

对robots协议的理解

自动或人工识别roboes.txt,z再进行内容爬取。

robots协议是建议但非约束性，网络爬虫可以补遵守，但存在法律风险。

原则：人类行为可以补参考robots协议，比如正常阅览网站，或者较少爬取网站频率。

5. Requests库网络爬虫实战

5.1 京东商品页面爬取

目标页面地址：https://item.jd.com/5089267.html

实例代码：

import requests
url = 'https://item.jd.com/5089267.html'
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding =r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")

结果：

5.2 当当网商品页面爬取

目标页面地址：http://product.dangdang.com/26487763.html

代码：

import requests
url = 'http://product.dangdang.com/26487763.html'
try:
    r = requests.get(url)
    r.raise_for_status()
    r.encoding =r.apparent_encoding
    print(r.text[:1000])
except IOError as e:
    print(str(e))

出现报错：

HTTPConnectionPool(host='127.0.0.1', port=80): Max retries exceeded with url: /26487763.html (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

报错原因：当当网拒绝不合理的浏览器访问。

查看初识的http请求头：

print(r.request.headers)

代码改进：构造合理的HTTP请求头

import requests
url = 'http://product.dangdang.com/26487763.html'
try:
    kv = {'user-agent':'Mozilla/5.0'}
    r = requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding =r.apparent_encoding
    print(r.text[:1000])
except IOError as e:
    print(str(e))

结果正常爬取：

5.3 百度360搜索引擎关键词提交

百度关键词接口：http://www.baidu.com/s?wd=keyword

代码实现：

import requests
keyword = "python"
try:
    kv = {'wd':keyword}
    r = requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except IOError as e:
    print(str(e))

执行结果：

360关键词接口：

http://www.so.com/s?q=keyword

代码实现：

import requests
keyword = "Linux"
try:
    kv = {'q':keyword}
    r = requests.get("http://www.so.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except IOError as e:
    print(str(e))

执行结果：

5.4 网络图片爬取和存储

网络图片链接的格式：

http://FQDN/picture.jpg

校花网：http://www.xiaohuar.com

选择一个图片地址：http://www.xiaohuar.com/d/file/20141116030511162.jpg

实现代码：

import requests
import os
url = "http://www.xiaohuar.com/d/file/20141116030511162.jpg"
dir = "D://pics//"
path = dir + url.split('/')[-1] #设置图片保存路径并以原图名名字命名
try:
    if not os.path.exists(dir):
        os.mkdir(dir)
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path,'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件已存在")
except IOError as e:
    print(str(e))

查看图片已经存在：

5.5 ip地址归属地查询

ip地址归属地查询网站接口：http://www.ip138.com/ips138.asp?ip=

实现代码：

import requests
url = "http://www.ip38.com/ip.php?ip="
try:
    r = requests.get(url+'104.193.88.77')
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text)
except IOError as e:
    print(str(e))

5.5 有道翻译翻译表单提交

打开有道翻译，在开发者模式依次单击“Network”按钮和“XHR”按钮，找到翻译数据：

import requests
import json

def get_translate_date(word=None):
    url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"
    #post参数需要放在请求实体里，构建一个新字典
    form_data = {'i': word,
                 'from': 'AUTO',
                 'to': 'AUTO',
                 'smartresult': 'dict',
                 'client': 'fanyideskweb',
                 'salt': '15569272902260',
                 'sign': 'b2781ea3e179798436b2afb674ebd223',
                 'ts': '1556927290226',
                 'bv': '94d71a52069585850d26a662e1bcef22',
                 'doctype': 'json',
                 'version': '2.1',
                 'keyfrom': 'fanyi.web',
                 'action': 'FY_BY_REALTlME'
                 }
    #请求表单数据
    response = requests.post(url,data=form_data)
    #将JSON格式字符串转字典
    content = json.loads(response.text)
    #打印翻译后的数据
    print(content['translateResult'][0][0]['tgt'])

if __name__ == '__main__':
    word = input("请输入你要翻译的文字：")
    get_translate_date(word)

执行结果：

6 Beautiful Soup库入门

6.1 简介

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析“标签树”等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

6.2 Beautiful Soup安装

目前,Beautiful Soup的最新版本是4.x版本，之前的版本已经停止开发，这里推荐使用pip来安装，安装命令如下：

pip install beautifulsoup4

验证安装：

from bs4 import BeautifulSoup

soup = BeautifulSoup('

Hello

','html.parser')

print(soup.p.string)

执行结果如下：

Hello

注意：这里虽然安装的是beautifulsoup4这个包，但是引入的时候却是bs4，因为这个包源代码本身的库文件名称就是bs4，所以安装完成后，这个库文件就被移入到本机Python3的lib库里，识别到的库文件就叫作bs4。

因此，包本身的名称和我们使用时导入包名称并不一定是一致的。

6.3 BeautifulSoup库解析器

解析器	使用方法	条件
bs4的HTML解析器	BeautifulSoup(mk,'html.parser')	安装bs4库
lxml的HTML解析器	BeautifulSoup(mk,'lxml')	pip install lxml
lxml的XML解析器	BeautifulSoup(mk,'xml')	pip install lxml
html5lib的解析器	BeautifulSoup(mk,'htmlslib')	pip install html5lib

如果使用lxml,在初始化BeautifulSoup时，把第二个参数改为lxml即可：

from bs4 import BeautifulSoup
soup = BeautifulSoup('Hello','lxml')
print(soup.p.string)

6.4 BeautifulSoup的基本用法

BeautifulSoup类的基本元素

基本元素	说明
Tag	标签，基本信息组织单元，分别用<>和标明开头和结尾
Name	标签的名字，的名字是‘p’，格式：.name
Attributes	标签的属性，字典形式组织，格式：.attrs
NavigableString	标签内非属性字符串，<>...<>中字符串，格式：.string
Comment	标签内字符串的注释部分，一种特殊的Comment类型

实例展示BeautifulSoup的基本用法：

>>> from bs4 import BeautifulSoup
>>> import requests
>>> r = requests.get("http://python123.io/ws/demo.html")
>>> demo = r.text
>>> demo
'This is a python demo page\r\n\r\nThe demo python introduces several python courses.
\r\nPython is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:\r\nBasic Python and Advanced Python.
\r\n'
>>> soup = BeautifulSoup(demo,"html.parser")
>>> soup.title #获取标题
This <span style="color:#0000ff;">is</span> a python demo page
>>> soup.a #获取a标签
class="py1" href="http://www.icourse163.org/course/BIT-268001" id="link1">Basic Python
>>> soup.title.string
'This is a python demo page'
>>> soup.prettify() #输出html标准格式内容
'\n \n \n This is a python demo page\n \n \n \n \n \n The demo python introduces several python courses.\n \n 
\n \n Python is a wonderful general-purpose programming language. You can learn Python from novice to professional by tracking the following courses:\n \n Basic Python\n \n and\n \n Advanced Python\n \n .\n 
\n \n'
>>> soup.a.name #每个都有自己的名字，通过.name获取
'a'
>>> soup.p.name
'p'
>>> tag = soup.a
>>> tag.attrs
{'href': 'http://www.icourse163.org/course/BIT-268001', 'class': ['py1'], 'id': 'link1'}
>>> tag.attrs['class']
['py1']
>>> tag.attrs['href']
'http://www.icourse163.org/course/BIT-268001'
>>> type(tag.attrs)
<class 'dict'>
>>> type(tag)
<class 'bs4.element.Tag'>
>>>

6.5 标签树的遍历

标签树的下行遍历

标签树的上行遍历：遍历所有先辈节点，包括soup本身

标签树的平行遍历：同一个父节点的各节点间

实例演示：

from bs4 import BeautifulSoup
import requests
demo = requests.get("http://python123.io/ws/demo.html").text
soup = BeautifulSoup(demo,"html.parser")
#标签树的上行遍历
print("遍历儿子节点：\n")
for child in soup.body.children:
 print(child)
 
print("遍历子孙节点：\n")
for child1 in soup.body.descendants:
 print(child1)
 
print(soup.title.parent)
print(soup.html.parent)
for parent in soup.a.parents:
 if parent is None:
 print(parent)
 else:
 print(parent.name)
#标签树的平行遍历
print(soup.a.next_sibling)
print(soup.a.next_sibling.next_sibling)
print(soup.a.previous_sibling)

7 正则表达式

正则表达式是处理字符串的强大工具，它有自己特定的语法结构，实现字符串的检索、替换、匹配验证都可以。对于爬虫来说，

从HTML里提取想要的信息非常方便。python的re库提供了整个正则表达式的实现

7.1 案例引入

这里介绍一个正则表达式测试工具http://tool.oschina.net/regex，输入待匹配的文本，然选择常用的正则表达式，得到相应的匹配结果，

适合新手入门。这里输入：

hello,my phone is 18898566588 and email is [email protected], and wen is https://www.cnblogs.com/wenwei-blog/

点击“匹配Email地址”，即可匹配出网址。

7.2 常用正则表达式匹配规则

'.' 匹配所有字符串，除\n以外

‘-’ 表示范围[0-9]

'*' 匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 \*。

'+' 匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 \+

'^' 匹配字符串开头

‘$’ 匹配字符串结尾 re

'\' 转义字符，使后一个字符改变原来的意思，如果字符串中有字符*需要匹配，可以\*或者字符集[*] re.findall(r'3\*','3*ds')结['3*']

'*' 匹配前面的字符0次或多次 re.findall("ab*","cabc3abcbbac")结果：['ab', 'ab', 'a']

‘?’ 匹配前一个字符串0次或1次 re.findall('ab?','abcabcabcadf')结果['ab', 'ab', 'ab', 'a']

'{m}' 匹配前一个字符m次 re.findall('cb{1}','bchbchcbfbcbb')结果['cb', 'cb']

'{n,m}' 匹配前一个字符n到m次 re.findall('cb{2,3}','bchbchcbfbcbb')结果['cbb']

'\d' 匹配数字，等于[0-9] re.findall('\d','电话:10086')结果['1', '0', '0', '8', '6']

'\D' 匹配非数字，等于[^0-9] re.findall('\D','电话:10086')结果['电', '话', ':']

'\w' 匹配字母和数字，等于[A-Za-z0-9] re.findall('\w','alex123,./;;;')结果['a', 'l', 'e', 'x', '1', '2', '3']

'\W' 匹配非英文字母和数字,等于[^A-Za-z0-9] re.findall('\W','alex123,./;;;')结果[',', '.', '/', ';', ';', ';']

'\s' 匹配空白字符 re.findall('\s','3*ds \t\n')结果[' ', '\t', '\n']

'\S' 匹配非空白字符 re.findall('\s','3*ds \t\n')结果['3', '*', 'd', 's']

'\A' 匹配字符串开头

'\Z' 匹配字符串结尾

\t 匹配衣蛾制表符

'\b' 匹配单词的词首和词尾，单词被定义为一个字母数字序列，因此词尾是用空白符或非字母数字符来表示的

'\B' 与\b相反，只在当前位置不在单词边界时匹配

'(?P...)' 分组，除了原有编号外在指定一个额外的别名 re.search("(?P[0-9]{4})(?P[0-9]{2})(?P[0-9]{8})","371481199306143242").groupdict("city") 结果{'province': '3714', 'city': '81', 'birthday': '19930614'}

[] 是定义匹配的字符范围。比如 [a-zA-Z0-9] 表示相应位置的字符要匹配英文字符和数字。[\s*]表示空格或者*号。

常用的re函数：

[^...] 不在[]中的字符，比如[^abc]匹配除了a、b、c之外的字符。

.* 具有贪婪的性质，首先匹配到不能匹配为止，根据后面的正则表达式，会进行回溯。
.*？满足条件的情况只匹配一次，即懒惰匹配。

7.3 常用匹配方法属性函数

方法/属性	作用
re.match(pattern, string, flags=0)	从字符串的起始位置匹配，如果起始位置匹配不成功的话，match()就返回none
re.search(pattern, string, flags=0)	扫描整个字符串并返回第一个成功的匹配
re.findall(pattern, string, flags=0)	找到RE匹配的所有字符串，并把他们作为一个列表返回
re.finditer(pattern, string, flags=0)	找到RE匹配的所有字符串，并把他们作为一个迭代器返回
re.sub(pattern, repl, string, count=0, flags=0)	替换匹配到的字符串

函数参数说明：

pattern:匹配的正则表达式

string：要匹配的字符串

flags：标记为，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

repl：替换的字符串，也可作为一个函数

count：模式匹配后替换的最大次数，默认0表示替换所有匹配

例子1：

#!/usr/bin/python3
import re
#替换
phone = '18898537584 #这是我的电话号码'
print('我的电话号码:',re.sub('#.*','',phone)) #去掉注释
print(re.sub('\D','',phone))
#search
ip_addr = re.search('(\d{3}\.){1,3}\d{1,3}\.\d{1,3}',os.popen('ifconfig').read())
print(ip_addr)
#match
>>> a = re.match('\d+','2ewrer666dad3123df45')
>>> print(a.group())
2

获取匹配的函数：

方法/属性	作用
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回包含所有小组字符串的元组，从1到所含的小组
groupdict()	返回以有别名的组的别名为键、以该组截获的子串为值的字典
start()	返回匹配开始的位置
end()	返回匹配结束的位置
span()	返回一个元组包含匹配（开始，结束）的位置

re模块中分组的作用？

（1）判断是否匹配（2）灵活提取匹配到各个分组的值。

>>> import re
>>> print(re.search(r'(\d+)-([a-z])','34324-dfsdfs777-hhh').group(0)) #返回整体
34324-d
>>> print(re.search(r'(\d+)-([a-z])','34324-dfsdfs777-hhh').group(1))  #返回第一组
34324
>>> print(re.search(r'(\d+)-([a-z])','34324-dfsdfs777-hhh').group(2))  #获取第二组
d
>>> print(re.search(r'(\d+)-([a-z])','34324-dfsdfs777-hhh').group(3))  #不存在。报错“no such group”
Traceback (most recent call last):
File "", line 1, in 
IndexError: no such group

7.4 re.compile 函数

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象。语法格式：
re.compile(pattern[, flags])
参数：
pattern : 一个字符串形式的正则表达式
flags : 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：
re.I 忽略大小写
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性，忽略空格和 # 后面的注释
常用的是re.I和re.S

>>> import re
>>> pattern = re.compile('\d+',re.S)  #用于匹配至少一个数字
>>> res = re.findall(pattern,"my phone is 18898566588")
>>> print(res)
['18898566588']

7.5 爬取猫眼电影TOP排行

利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容。requests比urllib使用更加方便。

抓取目标

提取猫眼电影TOP的电影名称、时间、评分、图片等信息。提取的站点URL为 https://maoyan.com/board/4

提取结果已文件形式保存下来。

URL提取分析

打开站点https://maoyan.com/board/4，直接点击第二页和第三页，观察URL的内容产生的变化。

第二页：https://maoyan.com/board/4?offset=10

第三页：https://maoyan.com/board/4?offset=20

总结出规律，唯一变化的是offset=x，如果想获取top100电影，只需分开请求10次，offset参数分别设置为0、10、20...90即可。

源码分析和正则提取

打开网页按F12查看页面源码，可以看到，一部电影信息对应的源代码是一个dd节点，首先需要提取排名信息，排名信息在class为board-index的i节点内，这里使用懒惰匹配提取i节点内的信息，正则表达式为：

.*?board-index.*?>(.*?)

随后提取电影图片，可以看到后面有a节点，其内部有两个img节点，经过检查后发现，第二个img节点的data-src属性是图片的链接。这里提取第二个img节点的data-src属性，正则表达式改写如下：

.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?)

再提取主演、发布时间、评分等内容时，都是同样的原理。最后，正则表达式写为：

.*?board-index.*?>(.*?).*?data-src="(.*?)".*?name.*?a.*?>(.*?).*?star.*?>(.*?)

.*?releasetime.*?>(.*?)

.*?integer.*?>(.*?).*?fraction.*?>(.*?)

.*?

注意：这里不要在Element选项卡中直接查看源码，因为那里的源码可能经过JavaScript操作而与原始请求不通，而是需要从NetWork选项卡部分查看原始请求得到的源码。

代码整合

import json
import requests
from requests.exceptions import RequestException #引入异常
import re
import time
def get_one_page(url):
    try:
        response = requests.get(url)
        if response.status_code == 200: #由状态码判断返回结果
            return response.text #返回网页内容
        return None
    except RequestException:
        return None

def parse_one_page(html):
    pattern = re.compile('.*?board-index.*?>(\d+).*?data-src="(.*?)".*?name">'
                         + '.*?>(.*?).*?star">(.*?)
.*?releasetime">(.*?)'
                         + '.*?integer">(.*?).*?fraction">(.*?).*?', re.S) #compile函数表示一个方法对象，re.s匹配多行
    items = re.findall(pattern, html) #以列表形式返回全部能匹配的字符串。
    for item in items:  #将结果以字典形式返回键值对
        yield {   #把这个方法变成一个生成器
            'index': item[0],
            'image': item[1],
            'title': item[2],
            'actor': item[3].strip()[3:],
            'time': item[4].strip()[5:],
            'score': item[5] + item[6]  #将评分整数和小数结合起来
        }

def write_to_file(content):
    with open('result.txt', 'a', encoding='utf-8') as f:  #将结果写入文件
        f.write(json.dumps(content, ensure_ascii=False) + '\n')

def main(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset)
    html = get_one_page(url)
    for item in parse_one_page(html):
        print(item)
        write_to_file(item)

if __name__ == '__main__':
    for i in range(10):
        main(offset=i * 10)
        time.sleep(1)

8 Scrapy框架

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。
其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下

Scrapy主要包括了以下组件：

引擎(Scrapy)
用来处理整个系统的数据流处理, 触发事务(框架核心)
调度器(Scheduler)
用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址
下载器(Downloader)
用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)
爬虫(Spiders)
爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面
项目管道(Pipeline)
负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。
下载器中间件(Downloader Middlewares)
位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应。
爬虫中间件(Spider Middlewares)
介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出。
调度中间件(Scheduler Middewares)
介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应。

Scrapy运行流程大概如下：

引擎从调度器中取出一个链接(URL)用于接下来的抓取
引擎把URL封装成一个请求(Request)传给下载器
下载器把资源下载下来，并封装成应答包(Response)
爬虫解析Response
解析出实体（Item）,则交给实体管道进行进一步的处理
解析出的是链接（URL）,则把URL交给调度器等待抓取

scrapy常用命令

scrapy startproject <爬虫名称> 创建爬虫名称（唯一）

scrapy genspider<爬虫项目名称> 创建爬虫项目名称

scrapy list 列出所有爬虫名称

scrapy crawl <爬虫名称> 运行爬虫

8.1 scrapy爬虫项目一：爬取豆瓣电影TOP250

爬取目标：电影排名、电影名称、电影评分、电影评论数

创建爬虫项目和爬虫

scrapy startproject DoubanMovieTop

cd DoubanMovieTop

scrapy genspider douban

修改默认“user-agent”和reboots为True

修改settings.py文件以下参数：

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'

ROBOTSTXT_OBEY = False

Item使用简单的class定义语法以及Field对象来声明。

写入下列代码声明Item

import scrapy
class DoubanmovietopItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    #排名
    ranking = scrapy.Field()
    #电影名称
    movie_name = scrapy.Field()
    #评分
    score = scrapy.Field()
    #评论人数
    score_num = scrapy.Field()

分析网页源码抓取所需信息

# -*- coding: utf-8 -*-
import scrapy
from DoubanMovieTop.items import DoubanmovietopItem

class DoubanSpider(scrapy.Spider):
    name = 'douban'
    #allowed_domains = ['movie.douban.com']
    def start_requests(self):
        start_urls = 'https://movie.douban.com/top250'
        yield scrapy.Request(start_urls)

    def parse(self, response):
        item = DoubanmovietopItem()
        movies = response.xpath('//ol[@class="grid_view"]/li')
        for movie in movies:
            item['ranking'] = movie.xpath('.//div[@class="pic"]/em/text()').extract()[0]
            item['movie_name'] = movie.xpath('.//div[@class="hd"]/a/span[1]/text()').extract()[0]
            item['score'] = movie.xpath('.//div[@class="star"]/span[@class="rating_num"]/text()').extract()[0]
            item['score_num'] = movie.xpath('.//div[@class="star"]/span/text()').re(r'(\d+)人评价')[0]  #Selector也有一种.re()
            yield item
        next_url = response.xpath('//span[@class="next"]/a/@href').extract()
        if next_url:
            next_url = 'https://movie.douban.com/top250' + next_url[0]
            yield scrapy.Request(next_url)

运行爬虫写入文件中

scrapy crawl douban -o douban.csv

使用wps打开excel表格查看抓取结果

转载于:https://www.cnblogs.com/wenwei-blog/p/10435602.html

你可能感兴趣的:(Python网络爬虫入门篇)

C#零基础入门篇（13.List＜T＞的基本特性） think__deeply c#list 开发语言 visualstudio
在C#中，`List`是一个非常常用且功能强大的泛型集合类，属于`System.Collections.Generic`命名空间。它提供了动态数组的功能，允许开发者存储、管理和操作一组相同类型的元素。以下是关于`List`的详细讲解，包括其特性、常用方法和使用场景。---###1.**`List`的基本特性**-**泛型集合**：`List`是一个泛型类，使用类型参数`T`来指定存储的元素类型。这
Axure RP 入门教程 Johnny-Zhuang
总结了下学校软工课上用的PPT上的内容以及网上一些教程内容。看完基本入门AxureRP了。第一次学感觉还是蛮有用的。图片发不出来。。附上软件下载地址以及PPT地址：http://pan.baidu.com/s/1i3sZxy9入门篇第一章介绍以工具栏工具(widgets)绘制示意图(Wireframe)第二章流程图（FlowDiagrams）撰写网页说明(PageNotes)第三章高级交互设计（R
观察者（IntersectionObserver API）的基本使用（入门篇） Hope° 笔记 js 前端 javascript
用法可以参考https://developer.mozilla.org/zh-CN/docs/Web/API/IntersectionObserver介绍一般情况下监听可视区域或者几个元素的相对可视区域状态都不是很容易，传统方式也特别消耗性能，此时就可以使用到IntersectionObserver。操作操作为监听一个列表的首尾是否进入视窗。定义一个newIntersectionObserver（
Verilog学习方法—基础入门篇（一）博览鸿蒙 FPGA fpga开发
前言：在FPGA开发中，VerilogHDL（硬件描述语言）是工程师必须掌握的一项基础技能。它不仅用于描述数字电路，还广泛应用于FPGA的逻辑设计与验证。对于初学者来说，掌握Verilog的核心概念和基本语法，是深入FPGA开发的第一步。本篇文章将从Verilog基础入门的角度，帮助你快速建立学习框架，逐步掌握Verilog的使用方法。1.了解Verilog的基本概念1.1什么是Verilog？V
Python从入门到精通系列专栏文章导航站 hacker707 Python从入门到精通 python 开发语言
Python从入门到精通系列专栏文章导航站专栏导读Part1✨零基础入门篇专栏导读本文是Python从入门到精通的文章导航站。专栏分为零基础入门篇、模块篇、网络爬虫篇、Web开发篇、办公自动化篇、数据分析篇…为了方便专栏订阅者更方便的阅读专栏文章，点击链接即可跳转到具体文章，欢迎订阅持续更新…专栏限时一个月(5.8~6.8)重磅福利专栏订阅者再邀请10人订阅即可获得清华大学出版社书单图书任选一本(
Python零基础入门篇 - 07 - Python 的脚本结构 PDD工程师 python 开发语言
✌作者简介：渴望力量的哈士奇，大家可以叫我哈士奇。(我真的养了一只哈士奇)个人主页：渴望力量的哈士奇主页如果文章知识点有错误的地方，请指正！和大家一起学习，一起进步如果感觉博主的文章还不错的话，还请不吝关注、点赞、收藏三连支持一下博主哦人生格言：优于别人,并不高贵,真正的高贵应该是优于过去的自己。系列专栏::Python全栈系列-[更新中]➡️➡️➡️【本文在该系列】网安之路系列网安之路踩坑篇网安
2024年Python最新Python零基础入门篇 - 07 - Python 的脚本结构 2401_84585155 程序员 python 开发语言前端
脚本的编码格式是什么编码格式？常用的头部注释国内常用"#coding:utf-8"：定义coding规则告诉系统脚本是何种编码格式目前很少使用"#!/usr/bin/envpython":定义python解释器的指定执行路径[WIN系统不生效]python的导入[模块(类库)的引入]1.导入的是什么？导入的是将python中的一些功能函数挡在当前脚本中使用不导入的功能在当前脚本中无法被直接使用（除
解析Python网络爬虫：核心技术、Scrapy框架、分布式爬虫（期末重点题目）一口酪 python scrapy
第一章网络爬虫又称网页蜘蛛或（网络机器人）网络爬虫能够按照一定的（规则），自动请求万维网站并提取网络数据爬虫是手动请求万维网网站且提取网页数据的程序。（×）爬虫爬取的是网站后台的数据。（×）通用爬虫用于将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。（√）简答题：简述通用爬虫和聚焦爬虫。1.通用爬虫又称全网爬虫，主要用于将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。聚焦网络爬
# C零基础入门篇(10.结构体（Struct）详细说明) think__deeply 开发语言 visualstudio c#
##一、结构体概述结构体（Struct）是C#中的一种值类型（ValueType），用于封装一组相关的数据。它类似于类（Class），但具有以下特点：1.**值类型**：结构体是值类型，存储在栈内存中。当创建结构体实例时，会直接分配内存空间。与类（引用类型）不同，结构体的赋值会创建数据的副本，而不是引用。2.**轻量级**：结构体通常用于表示简单的数据结构，例如坐标点、日期等，适合存储少量数据。3
〖Python零基础入门篇(61)〗- Python 中的迭代器哈哥撩编程 #① -零基础入门篇 Python全栈白宝书 python 迭代器
>【易编橙·终身成长社群，相遇已是上上签！】-点击跳转～<哈哥撩编程（视频号、抖音、B站同名）图书作者：程序员职场效能宝典博客专家：全国博客之星第四名超级个体：COC上海社区主理人特约讲师：谷歌亚马逊分享嘉宾科技博主：极星会首批签约作者大家好,我是哈哥，
【AI深度学习基础】Pandas完全指南入门篇：数据处理的瑞士军刀（含完整代码） arbboter 人工智能人工智能深度学习 pandas 数据处理数据分析数据清洗数据分析效率提升
Pandas系列文章导航入门篇进阶篇终极篇一、引言在大数据与AI驱动的时代，数据预处理和分析是深度学习与机器学习的基石。Pandas作为Python生态中最强大的数据处理库，以其灵活的数据结构（如DataFrame和Series）和丰富的功能（数据清洗、转换、聚合等），成为数据科学家和工程师的核心工具。Pandas以Series（一维标签数组）和DataFrame（二维表格）为核心数据结构，提供高
费曼学习法12 - 告别 Excel！用 Python Pandas 开启数据分析高效之路 (Pandas 入门篇) 修昔底德 Python费曼学习法学习 excel python 人工智能 pandas
第一篇：告别Excel！用PythonPandas开启数据分析高效之路(Pandas入门篇)开篇提问：想象一下，你是一位数据侦探，手头有一堆案件线索（数据）。你的目标是从这些线索中找出真相，发现数据背后的秘密。如果你的工具箱里只有一把普通的放大镜（Excel），处理少量简单的数据还行，但面对海量复杂的数据，是不是感觉有点力不从心，效率低下？是时候升级你的装备了！PythonPandas就是你数据分
Python网络爬虫技术：现代应用、对抗策略与伦理边界自学不成才 python 爬虫开发语言
版权声明：本文仅供学术研究和技术探讨使用。在实践中应用本文技术时，请遵守相关法律法规、网站使用条款和道德准则。作者不对读者使用本文内容产生的任何后果负责。未经授权，请勿转载或用于商业用途。引言随着互联网数据量呈指数级增长，网络爬虫技术在数据采集、市场分析、学术研究等领域扮演着越来越重要的角色。Python凭借其简洁的语法和丰富的库生态，已成为网络爬虫开发的首选语言。然而，当今网络环境下，爬虫开发者
Python网络爬虫：从原理到实践的全面解析九月 linux python 网络爬虫爬虫
1.什么是Python爬虫？Python网络爬虫是一种通过Python编写的自动化程序，用于从互联网上的网页、数据库或服务器中提取结构化数据。其核心功能是模拟人类浏览网页的行为，按照预设规则遍历目标网站，抓取文本、图片、链接等信息。爬虫也被称为“网页蜘蛛”或“网络机器人”，广泛应用于搜索引擎索引构建、数据挖掘等领域。2.Python爬虫的运作机制爬虫的工作流程可分为以下步骤：发送请求：通过HTTP
Python网络爬虫：从原理到实践的全面解析九月 python 爬虫开发语言网络爬虫
在信息爆炸的时代，Python网络爬虫已成为获取和分析网络数据的核心技术。它不仅能够自动化采集海量网页信息，还能通过数据挖掘创造商业价值。本文将系统讲解Python爬虫的核心概念、技术实现、应用场景及法律边界，为读者构建完整的知识框架。一、什么是Python网络爬虫？Python网络爬虫是一种自动化脚本程序，通过模拟浏览器行为访问网页，按照预设规则抓取目标数据。其核心原理是：发送HTTP请求：向目
2024 最新计算机视觉学习路线（入门篇）_计算机视觉课程主线 m0_60721823 计算机视觉学习人工智能
Python是机器学习项目中最流行的编程语言之一，因为与Java和C++等其他编程语言相比，它简单易读。Python附带了许多可以加快开发速度的库，其中一些重要的库是OpenCV、TensorFlow、PyTorch等，它们专门用于图像处理相关任务。本文旨在向初学者介绍这一领域，为他们提供有关涉及图像的机器学习应用程序背后概念的基本知识，并从高层次的角度深入了解这些库如何在底层协同工作，以便他们在
ITE Super IO入门篇 YOYO--小天嵌入式硬件
接触BIOS以来算起来已经有四年了，想着将自己所学的知识记录起来，这样也方便他人学习。这是我的第一篇博客，从SIO开始吧！简介SIO应用在台式机比较多，主要用来做电源管理，如上电时序控制；外围接口扩充，如串口、并口；还有温度、电压监控、智能风扇等。SIO是一个半可定制化的芯片，怎么说是半可定制化呢？比如上电时序，这一部分就是固化好的，而可定制化部分则是逻辑设备（LogicDevice）部分。接入电
【论文投稿】Python 网络爬虫：探秘网页数据抓取的奇妙世界 m0_74825172 面试学习路线阿里巴巴 python 爬虫 microsoft
目录前言一、Python——网络爬虫的绝佳拍档二、网络爬虫基础：揭开神秘面纱（一）工作原理：步步为营的数据狩猎（二）分类：各显神通的爬虫家族三、Python网络爬虫核心库深度剖析（一）requests：畅通无阻的网络交互（二）BeautifulSoup：解析网页的艺术大师（三）Scrapy：构建爬虫帝国的框架四、实战演练：从新手到高手的蜕变五、挑战与应对：在荆棘中前行六、结语：无限可能的爬虫之旅前
Python网络爬虫与数据采集实战——网络爬虫的基本流程 m0_51274464 面试学习路线阿里巴巴 python 爬虫开发语言
网络爬虫（WebScraper）是用于自动化地从互联网上抓取信息的程序。它广泛应用于搜索引擎、数据采集、市场分析等领域。本文将详细探讨网络爬虫的基本流程，包括URL提取、HTTP请求与响应、数据解析与存储，以及一个实际的爬虫示例。文章不仅关注基础概念，更会深入到实际开发中遇到的技术难点和最新的技术解决方案。1.URL提取URL提取是网络爬虫中最基础的步骤之一，爬虫首先需要从目标网站中提取出需要抓取
Cadence PCB宝典【目录】硬小二 #《Cadence PCB宝典》硬件开发
《总目录》欢迎大家来到《CadencePCB宝典》该专栏包括【入门篇】【提升篇】【技巧篇】【疑难篇】四个部分，以供大家参考。大家直接点击大纲中的蓝色标题即可轻松传送。一：CadencePCB设计【入门篇】这部分以一个简单的测试工装的PCB设计为例，共计3篇文章，帮助新人1小时快速入门。学习目标：能够使用CadenceAllegro开始项目开发。【AllegroPCB设计快速入门专
python网络爬虫——爬取新发地农产品数据张謹礧 python网络爬虫 python 爬虫开发语言
这段代码是一个爬取新发地蔬菜价格信息的程序，它使用了多线程来加快数据获取和解析的速度。具体的步骤如下：导入所需的库：json、requests、threading和pandas。初始化一些变量，包括页数、商品总列表以及存放json数据的列表。定义了一个函数url_parse()，用于发送请求并解析网页数据。函数使用requests.post()方法发送POST请求，获取商品信息，并将其保存到jso
Python 网络爬虫入门全知道安年CJ Python python 爬虫开发语言运维 php 服务器
一、引言在当今数字化时代，网络上的数据量呈爆炸式增长。无论是进行数据分析、市场调研，还是开发智能应用，获取网络数据都变得极为重要。而Python网络爬虫就是一把打开网络数据宝库的利器。它能够自动地从网页中抓取我们需要的信息，为后续的数据处理和分析提供丰富的素材。本博客将带领大家逐步走进Python网络爬虫的精彩世界。二、网络爬虫基础概念（一）什么是网络爬虫网络爬虫，也称为网页蜘蛛，是一种按照一定的
容器基础_搭建Docker-Ce版本(入门篇) 琼歌云服 docker
一、介绍基于docker-ce的一些常见命令二、步骤1、确定服务器版本uname-r说明：保证系统内核版本>=3.102、移除旧版本sudoyumremovedockerdocker-commondocker-selinuxdocker-engine3、安装docker的依赖包sudoyuminstall-yyum-utilsdevice-mapper-persistent-datalvm24、下
Spring Boot从入门到精通：一站式掌握企业级开发一位卑微的码农 spring boot 后端 java
前言SpringBoot作为Java领域最流行的微服务框架，凭借其约定优于配置的理念和快速启动的特性，极大简化了Spring应用的初始搭建和开发过程。本文将带你从零开始系统学习SpringBoot，最终实现精通级应用开发，涵盖核心原理、实战技巧及性能优化。一、SpringBoot入门篇1.SpringBoot简介核心优势：自动配置、内嵌服务器（Tomcat/Jetty）、Starter依赖简化适用
《从新手到高手：SEO 优化全方位指南》-查词人蜘蛛池蜘蛛池.中国 seo 前端百度 sequoiadb
基础入门篇了解SEO基本概念：SEO即搜索引擎优化，是通过优化网站结构、内容、链接等，提升网站在搜索引擎结果页面中排名的技术和方法。需熟悉搜索引擎的工作原理，包括网页抓取、索引建立和排序机制，同时掌握关键词、标题标签、元描述、外链、内链、锚文本等核心术语12.明确SEO的重要性：SEO能为网站带来自然搜索流量，这种流量质量高、稳定性强。通过优化网站，可在搜索引擎结果页获得更高排名，吸引更多潜在客户
C# 零基础入门篇（2. `while` 和 `for` 循环的详细对比） think__deeply c#visualstudio 开发语言
在C#编程中，`while`和`for`是两种常用的循环结构。它们都可以用于重复执行一段代码，但在使用场景、语法结构以及控制方式上有所不同。本文将详细对比这两种循环结构，帮助你更好地理解它们的区别和使用场景。#####`while`循环`while`循环是一种条件循环，只要指定的条件为`true`，循环就会一直执行。它通常用于不确定循环次数的情况。###`for`循环`for`循环是一种计数循环，
软件测试工程师学习笔记2 - 入门篇拾肆0423 软件测试工程师学习笔记学习单元测试功能测试集成测试测试工具
软件测试工程师学习笔记-2入门必读2.测试设计1）目标2）知识点1.等价类划分--解决穷举2.边界值分析法--解决边界问题3.判定表法--解决多条件依赖关系问题入门必读基础入门目标五天结束，能独立完成功能测试过程。2.测试设计40%占比1）目标能对穷举场景设计测试点能对限定边界规则设计测试点能对多条件依赖关系进行设计测试点能对项目业务进行设计测试点2）知识点测试方法及对应场景1.等价类划分–解决穷
深度学习入门篇--来瞻仰卷积神经网络的鼻祖LeNet 智算学术深度学习图像分类篇深度学习
B站视频讲解:深度学习入门篇:使用pytorch搭建LeNet网络并代码详解实战前言大家在学习神经网络的时候肯定会有这样的感受,有很多的文章和视频,有的文章也很好,但是总是不成体系,总是学起来东一榔锤,西一棒槌的,在这种情况下,我会给大家更新深度学习系列的技术文章,轮椅级持续更新技术干货,别问为什么是轮椅级,因为保姆级已经过时了!前置基础知识储备:python/pytorch/神经网络基础知识概念
【PostgreSQL】入门篇——在不同操作系统上安装 PostgreSQL m0_74825526 postgresql 数据库
PostgreSQL在Windows、macOS和Linux（以Ubuntu为例）的安装步骤，以及可能出现的问题和解决办法。一、在Windows上安装PostgreSQL1.下载PostgreSQL安装程序访问PostgreSQL官方网站：PostgreSQLDownloads点击“Downloadtheinstaller”链接，下载适合您系统的安装程序（通常是.exe文件）。2.运行安装程序双击
Python网络爬虫项目开发实战：如何解决验证码处理好知识传播者 Python实例开发实战 python 爬虫开发语言验证码处理网络爬虫
注意：本文的下载教程，与以下文章的思路有相同点，也有不同点，最终目标只是让读者从多维度去熟练掌握本知识点。下载教程：Python网络爬虫项目开发实战_验证码处理_编程案例解析实例详解课程教程.pdf一、验证码处理的简介在Python网络爬虫项目开发实战中，验证码处理是一个常见的挑战，因为许多网站为了防止自动化脚本滥用和保护用户账户安全，会采用验证码机制来验证请求的合法性。以下是验证码处理的简介，包
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http