哈士奇说喵

致力于打造最详细的Requests使用（不定期补充）

Python 2.7
IDE Pycharm 5.0.3
Requests 2.10

是时候静心下来好好研究一下Requests了

安装方法

我这里只说在Pycharm+Anaconda2下怎么添加requests包，至于如何在Pycharm下安装Anaconda2，请看@zhusleep 和@木子岚的回答
然后安装大概是这样的，简单快捷，不用pip，不用easy install，anaconda2就是那么强大，吼吼吼

使用案例

获取Github的公共时间线，网址是https://github.com/timeline.json
如果你打开这个链接，那么应该是这样的

ok，在没有遇到Requests之前我们是怎么处理的呢
当然是用urllib2，urllib啦

import urllib2
url='https://github.com/timeline.json'
req=urllib2.Request(url)
response = urllib2.urlopen(req)
html = response.read()
print html

报错了

难道是代码问题？
再试

import urllib2
url='http://www.bing.com'
req=urllib2.Request(url)
response = urllib2.urlopen(req)
html = response.read()
print html

一切正常，能抓到内容，这是为什么？

难道网页是动态的？那我换selenium来抓

from selenium import webdriver
url='https://github.com/timeline.json'#Github时间线
#driver = webdriver.Firefox()
driver = webdriver.PhantomJS(executable_path='phantomjs.exe')
driver.get(url)
pre = driver.find_element_by_xpath('//body/pre')
print pre.text

成功抓取，所以说，到底是什么问题呢，是不是动态网页搞得鬼呢。。。下次知道了我再补充。

补充一

首先对410 gone做个介绍

410 gone 过时
请求资源在源服务器上不再可得并且也没有转发地址可用。此条件被认为是永久的。具有链接编辑能力的客户端应该在用户确认后删除请求URI的引用。如果服务器不知道或不容易去确定条件是否是永久的，那么此404（没有发现）状态响应将被代替利用。响应是可缓存的，除非另外申明。410响应主要的目的是为了web维护任务，这通过告诉接收者资源已经不可得了并且告诉接收者服务器拥有者已经把那个资源的远程连接给移除了。对有时间限制的，推销性的服务，和对不再继续工作在服务器站点人员的资源，这个事件（410响应）是非常普遍的。它不需要把所有长久不可得的资源标记为“gone”或者保持任意长时间—这需要服务器拥有者自己的判断

对url = 'https://github.com/timeline.json'网页，其实urllib2并没有处理出错，状态410，之后我用requests来测试状态也是如此

import requests,os,time
url = 'https://github.com/timeline.json'
start = time.clock()
html = requests.get(url,allow_redirects=True)
end = time.clock()
print html.status_code
print html.text

结果

410
{"message":"Hello there, wayfaring stranger. If you’re reading this then you probably didn’t see our blog post a couple of years back announcing that this API would go away: http://git.io/17AROg Fear not, you should be able to get what you need from the shiny new Events API instead.","documentation_url":"https://developer.github.com/v3/activity/events/#list-public-events"}

但对于requests能抓到东西urllib2表示不服，但是我仍然不清楚requests为什么能抓到东西而且这个网址的确能在浏览器打开，github真是个神奇的地方，下次知道了再进行补充

静态网页和动态网页补充

传统爬虫利用的是静态下载方式，静态下载的优势是下载过程快，但是页面只是一个枯燥的html，因此页面链接分析中获取的只是< a >标签的href属性或者高手可以自己分析js，form之类的标签捕获一些链接。在python中可以利用urllib2模块或requests模块实现功能。动态爬虫在web2.0时代则有特殊的优势，由于网页会使用javascript处理，网页内容通过Ajax异步获取。所以，动态爬虫需要分析经过javascript处理和ajax获取内容后的页面。目前简单的解决方法是通过基于webkit的模块直接处理。PYQT4、Splinter和Selenium这三个模块都可以达到目的。对于爬虫而言，浏览器界面是不需要的，因此使用一个headless browser是非常划算的，HtmlUnit和phantomjs都是可以使用的headless browser。

正题时间

采用requests抓取

import requests
url='https://github.com/timeline.json'
html=requests.get(url)
print html.text

成功抓取如下

{"message":"Hello there, wayfaring stranger. If you’re reading this then you probably didn’t see our blog post a couple of years back announcing that this API would go away: http://git.io/17AROg Fear not, you should be able to get what you need from the shiny new Events API instead.","documentation_url":"https://developer.github.com/v3/activity/events/#list-public-events"}

Requests会自动解码来自服务器的内容。大多数unicode字符集都能被无缝地解码。请求发出后，Requests会基于HTTP头部对响应的编码作出有根据的推测。当你访问r.text 之时，Requests会使用其推测的文本编码。

感觉requests非常的简便和易读，感觉和selenium差不多，直接来个get(url)就完事了，之后抓到的直接用.text打印。

二进制响应（对于非文本）

若是对文本进行操作，返回的还是str类型，和上述的并没有什么卵区别。

import requests
url='https://github.com/timeline.json'
html_content = requests.get(url).content
print type(html_content)
print html_content

<type 'str'>
{"message":"Hello there, wayfaring stranger. If you’re reading this then you probably didn’t see our blog post a couple of years back announcing that this API would go away: http://git.io/17AROg Fear not, you should be able to get what you need from the shiny new Events API instead.","documentation_url":"https://developer.github.com/v3/activity/events/#list-public-events"}

如果是对图像进行操作请看
我们导入PIL模块的Image，还有StringIO来读，试试，测试网站是一个猫奴网站网址http://placekitten.com/500/700，网页打开后应该是这样的。

StringIO介绍（乱入）
因为文件对象和StringIO大部分的方法都是一样的，比如read, readline, readlines, write, writelines都是有的，这样，StringIO就可以非常方便的作为”内存文件对象”。

首先我们用传统的urllib2进行抓取试试，

import urllib2
from PIL import Image
from StringIO import StringIO
url = 'http://placekitten.com/500/700'
req = urllib2.Request(url)
response = urllib2.urlopen(req)
html = response.read()
print type(html)
print html
i = Image.open(StringIO(html))
i.show()

<type 'str'>
���� JFIF      �� ;CREATOR: gd-jpeg v1.0 (using IJG JPEG v62), quality = 65
�� C ......省略n乱码

使用的效果如图

然后我们使用requests，content来抓取。

from PIL import Image
from StringIO import StringIO
import requests
url = 'http://placekitten.com/500/700'
html_content = requests.get(url).content#<type 'str'>
html_text = requests.get(url).text#<type 'unicode'>
print type(html_content)
print html_content
print type(html_text)
print html_text
i = Image.open(StringIO(html_content))
i.show()

<type 'str'>
���� JFIF      �� ;CREATOR: gd-jpeg v1.0 (using IJG JPEG v62), quality = 65
�� C ......省略n乱码
<type 'unicode'>
���� JFIF      �� ;CREATOR: gd-jpeg v1.0 (using IJG JPEG v62), quality = 65
�� C ......省略n乱码

效果和上述的一样，可以成功运行，但是，如果将str流换成这样

i = Image.open(StringIO((html_text)))

显然会报错，可以参考@青南的小世界 –requests的content与text导致lxml的解析问题

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-3: ordinal not in range(128)

req.text返回的是Unicode型的数据，使用req.content返回的是bytes型的数据。也就是说，在使用req.content的时候，已经自带了将源代码转化成比特数组，然后再将比特数组转化成一个比特对象。

响应json内容

Requests中也有一个内置的JSON解码器，助你处理JSON数据

import requests
url='https://github.com/timeline.json'
html_json = requests.get(url).json()
print type(html_json)
print html_json

返回的是一个dict类型

'dict'>
{
u'documentation_url': u'https://developer.github.com/v3/activity/events/#list-public-events', 

u'message': u'Hello there, wayfaring stranger. If you\u2019re reading this then you probably didn\u2019t see our blog post a couple of years back announcing that this API would go away: http://git.io/17AROg Fear not, you should be able to get what you need from the shiny new Events API instead.'}

不了解json的可以看下大概是个啥

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于ECMAScript的一个子集。 JSON采用完全独立于语言的文本格式，但是也使用了类似于C语言家族的习惯（包括C、C++、C#、Java、JavaScript、Perl、Python等）。这些特性使JSON成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成(一般用于提升网络传输速率)。

OK，这里和Python中的字典并没有什么实质性区别，就当做轻量级字典结构来处理吧

查看所有键、值、（键，值）对：dict.keys()、dict.values()、dict.items()；返回值的类型为列表

import requests
url='https://github.com/timeline.json'
html_json = requests.get(url).json()
print type(html_json)
print html_json.keys()
for key in html_json:#遍历字典，默认为键
    print key
for values in html_json.values():
    print values

'dict'>
#--------------------------------#
[u'documentation_url', u'message']
#--------------------------------#
documentation_url
message
#--------------------------------#
https://developer.github.com/v3/activity/events/#list-public-events
Hello there, wayfaring stranger. If you’re reading this then you probably didn’t see our blog post a couple of years back announcing that this API would go away: http://git.io/17AROg Fear not, you should be able to get what you need from the shiny new Events API instead.

好吧，又跑题了。。。。

定制请求头

如果你想为请求添加HTTP头部，只要简单地传递一个 dict 给 headers 参数就可以了。

这里需要导入json，凡是和字典有关的，应该想到json，不然我上面写那么多json干啥。。。

import requests,json
url = 'https://api.github.com/some/endpoint'
payload = {'some': 'data'}
headers = {'content-type': 'application/json'}
html_json = requests.post(url,data=json.dumps(payload),headers=headers)
print html_json
print html_json.text

<Response [404]>
{"message":"Not Found","documentation_url":"https://developer.github.com/v3"}

so，WTF，为什么模拟实验不成功呢@逆向行驶–Python Requests-学习笔记(4)-定制请求头和POST ，404错误，指定的网页不存在啊喂，换了个网址，这个http://httpbin.org/post

import requests,json
url = 'http://httpbin.org/post'
payload = {'some': 'data'}
headers = {'content-type': 'application/json'}
html_json = requests.post(url,data=json.dumps(payload),headers=headers)
print html_json
print html_json.text

200]>
{
  "args": {}, 
  "data": "{\"some\": \"data\"}", 
  "files": {}, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "16", 
    #增加了Content-Type
    "Content-Type": "application/json", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.10.0"
  }, 
  #增加了json
  "json": {
    "some": "data"
  }, 

  "origin": "221.212.116.44", 
  "url": "http://httpbin.org/post"
}

增加Form

form 标签：用于创建 HTML 表单。

import requests,json
url = 'http://httpbin.org/post'
payload = {'key1': 'values1','key2': 'values2'}
html_json = requests.post(url,data=payload)
print html_json
print html_json.text

结果就是

200]>
{
  "args": {}, 
  "data": "", 
  "files": {}, 
  #增加了表单
  "form": {
    "key1": "values1", 
    "key2": "values2"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "25", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.10.0"
  }, 
  "json": null, 
  "origin": "221.212.116.44", 
  "url": "http://httpbin.org/post"
}

POST一个多部分编码(Multipart-Encoded)的文件

这里我添加了一个以前写的记录在txt文件中的一段话

import requests,json
url = 'http://httpbin.org/post'
files = {'file':open('Inception.txt','rb')}
html_file = requests.post(url,files=files)
print html_file
print html_file.text

<Response [200]>
{
  "args": {}, 
  "data": "", 
  "files": {
    "file": "\r\n-------------------------------------\u6211\u662f\u5206\u5272\u7ebf-----------------------------------------\r\nInception .............此处省略n个"
  }, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "32796", 
    "Content-Type": "multipart/form-data; boundary=a4ba16fec9054637b7cb6f264013988b", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.10.0"
  }, 
  "json": null, 
  "origin": "221.212.116.44", 
  "url": "http://httpbin.org/post"
}

既然刚学了json，那我就把它用json保存下来，然后再用字典查询的方法，看看能不能把上传的file是不是本地的file
再上述程序下添加：

print html_file.json()
print html_file.json()['files']['file']#字典取value的结构

结果就是

{u'files': {u'file': u'\r\n-------------------------------------\u6211\u662f\u5206\u5272\u7ebf---------.........省略n个
-------------------------------------我是分割线-----------------------------------------
Inception 情节逻辑完全解析 （有不明白地方的进，没看过的别进）...省略n个字符

所以证明了，我上传成功了，只是被编码为unicode而已，而print自带将unicode转为utf-8的，so，验证成功，推荐个转码小工具编码转换工具

另一个题外话

当我自己写一个新的txt（测试那个txt是机器写的），像这样，再上传，在抓下来，发现已经被bsae64编码了，

import requests,json
url = 'http://httpbin.org/post'
files = {'file':open('post_file.txt','rb')}
html_file = requests.post(url,files=files)
print html_file.text
print html_file.json()['files']['file']

结果是这样的

{
  "args": {}, 
  "data": "", 
  "files": {
    "file": "data:application/octet-stream;base64,1eLKx9K7uPay4srUo6ENCnRoaXMgaXMgYSB0ZXN0o6E="
  }, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "181", 
    "Content-Type": "multipart/form-data; boundary=6cd3e994e14d428e9df61d7e1aade15e", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.10.0"
  }, 
  "json": null, 
  "origin": "221.212.116.44", 
  "url": "http://httpbin.org/post"
}

data:application/octet-stream;base64,1eLKx9K7uPay4srUo6ENCnRoaXMgaXMgYSB0ZXN0o6E=

并未如我所愿，直接打印出我上传的txt中的文件，而是还需要在解码，先看看内容是不是我想要的，上小工具Base64在线编码解码 UTF-8

OK，说明的确是我想要的，只是被编码了而已，那就尝试自己解码

print base64.b64decode('1eLKx9K7uPay4srUo6ENCnRoaXMgaXMgYSB0ZXN0o6E=')

结果是

����һ�����ԣ�
this is a test��

so ，WTF，又出什么幺蛾子！！

说好的base64解码呢！！！怎么中文和感叹号又是乱码！难道和我写入txt时候编码有关。。。神烦编码。。。

再进行测试

import base64
s = '1eLKx9K7uPay4srUo6ENCnRoaXMgaXMgYSB0ZXN0o6E='
h ='这是一个测试！this is a test!'
f = base64.b64encode(h)
print f
print base64.b64decode(f)

输出

6L+Z5piv5LiA5Liq5rWL6K+V77yBdGhpcyBpcyBhIHRlc3Qh
这是一个测试！this is a test!

这就可行？？
再放到那个工具下看看

好吧，我感觉自己受到了侮辱不弄了，下次知道再说

补充二

上述出现乱码的问题出在我编辑txt文件时候采用的ANSI编码

多亏[Python爬虫] 中文编码问题：raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题的启发，我才看到原来是这样，所以我就把文件保存格式转化成utf-8，问题顺利解决，而且都不用进行base64解码

import requests

url = 'http://httpbin.org/post'
files = {'file':open('post_file.txt','rb')}
html_file = requests.post(url,files=files)
print html_file.text
print html_file.json()['files']['file']

运行结果如下

{
  "args": {}, 
  "data": "", 
  "files": {
    "file": "\ufeff\u8fd9\u662f\u4e00\u4e2a\u6d4b\u8bd5!\r\nthis is a test!"
  }, 
  "form": {}, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "188", 
    "Content-Type": "multipart/form-data; boundary=c95fbf7e4012470792ca6db843c0b3d1", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.10.0"
  }, 
  "json": null, 
  "origin": "183.248.200.49", 
  "url": "http://httpbin.org/post"
}

这是一个测试!
this is a test!

我们可以看到files添加部分变成了

\ufeff\u8fd9\u662f\u4e00\u4e2a\u6d4b\u8bd5!\r\nthis is a test!

这是典型的unicode啊，而print unicode码是直接进行utf-8转化的，验证想法；

print type(html_file.json()['files']['file'])

果然

<type 'unicode'>

就是字典的操作而已啦。。。。

import requests
url = 'http://httpbin.org/get'

html = requests.get(url)
print html.status_code
print html.headers
print html.headers.get('Content-Length')
print html.headers['Content-Length']#采用字典形式

200
{'Content-Length': '239', 'Server': 'nginx', 'Connection': 'keep-alive', 'Access-Control-Allow-Credentials': 'true', 'Date': 'Sun, 24 Jul 2016 09:05:02 GMT', 'Access-Control-Allow-Origin': '*', 'Content-Type': 'application/json'}
239
239

如果返回404，那就是无法get到网页了，也可以用这个模拟一下

import requests
url = 'http://httpbin.org/status/404'
html = requests.get(url)
print html.status_code

访问Cookies

获取cookies，以自己学校的教务处为例

import requests
url ='http://yjsymis.hrbeu.edu.cn/gsmis/Image.do'
html = requests.get(url)
print html.cookies['JSESSIONID']

因为采取的是验证码的cookies，所以每次都不一样

2D5E260E4BB9C58E9CD21792F42D14BA

要想发送你的cookies到服务器，可以使用 cookies 参数:

import requests
url = 'http://httpbin.org/cookies'
html = requests.get(url)
cookies = dict(cookies_new = 'new one')
html_cookies = requests.get(url,cookies=cookies)
print html_cookies.text

{
  "cookies": {
    "cookies_new": "new one"
  }
}

补充三：处理登录和cookie

cookie简介：使用cookie跟踪用户是否已登录状态信息，一旦网站验证了你的登录权限，它就会将他们保存在你的浏览器的cookie中，里面通常包含一个服务器生成的令牌，登录有效时限和状态跟踪信息。

首先是三个页面，正常来说，我们进行操作的是登录页面

http://pythonscraping.com/pages/cookies/login.html

但是，如果采用post填充表格的话，其实可以省去登录页面，一个post加上登录所需的账号密码即可进行填充表单。

登陆后欢迎页面是(直接输入网址因为没有登录信息所以显示未登录状态)

http://pythonscraping.com/pages/cookies/welcome.php

最后利用刚才登录好的cookies，再获取登录简介后的页面

http://pythonscraping.com/pages/cookies/profile.php

完整操作如下

import requests

url = 'http://pythonscraping.com/pages/cookies/welcome.php'
#构造表单params
params = {'username': 'mrlevo', 'password': 'password'}
#先进行提交表单，填充账号密码
r = requests.post('http://pythonscraping.com/pages/cookies/welcome.php',params) 
#在利用登录后的cookies进行get内容操作
r = requests.get('http://pythonscraping.com/pages/cookies/profile.php',cookies = r.cookies)
print r.text

IDE输出结果

Hey mrlevo! Looks like you're still logged into the site!

所出现的效果和自己手动操作浏览器是一样的，但是简略了很多。

如果刚开始就不需要cookies而且网站比较复杂，它会暗自调整cookie时候，采用session函数进行解决，他能持续跟踪会话信息，比如cookie，header，甚至运行HTTP协议的信息，比如HTTPAdapter

例子如下，效果同上

import requests

url = 'http://pythonscraping.com/pages/cookies/welcome.php'
#构造表单params
params = {'username': 'mrlevo', 'password': 'password'}
#先进行提交表单，填充账号密码
r = requests.Session().post(url,params)
#在利用登录后的cookies进行get内容操作
r = requests.Session().get('http://pythonscraping.com/pages/cookies/profile.php',cookies = r.cookies)
print r.text

补充四：HTTP基本接入认证

在cookie出现之前，处理网站登录最常用的方法是用HTTP基本接入认证，测试网址采用Python网络数据采集[美]Ryan Mitchell这本书采用的例子

http://pythonscraping.com/pages/auth/login.php

出现的效果是这样的，需要进行用户名的登录验证

import requests
from requests.auth import AuthBase
from requests.auth import HTTPBasicAuth

url = 'http://pythonscraping.com/pages/auth/login.php'
auth = HTTPBasicAuth('mrlevo','password')
r = requests.post(url = url,auth = auth)
print r.text

在IDE中输出效果是

<p>Hello mrlevo.p><p>You entered password as your password.p>

重定向，请求历史与超时

首先使用自己的图书馆登录系统来试验一下。

import requests
url = 'http://lib.hrbeu.edu.cn/'
html = requests.get(url)
print html.status_code
print html.history

200
[]

第二个返回了空列表，导演，这和网上的写的不一样啊。
原来，还有这么一段话，并不是所有网页都会处理重定向的，例子中用了Github，我抖机灵的以为，所有网页都会和例子中的一样。。下面是正经例子

import requests
url = 'http://github.com'
html = requests.get(url)
print html.status_code
print html.history

标准答案

200
[301]>]

使用GET或OPTIONS时，Requests会自动处理位置重定向。Github将所有的HTTP请求重定向到HTTPS。可以使用响应对象的 history 方法来追踪重定向。

老老实实抄原话

Response.history 是一个:class:Request 对象的列表，为了完成请求而创建了这些对象。这个对象列表按照从最老到最近的请求进行排序。如果你使用的是GET或OPTIONS，那么你可以通过 allow_redirects 参数禁用重定向处理:

import requests
url = 'http://github.com'
html = requests.get(url,allow_redirects=False)
print html.status_code
print html.history

301
[]

顺便说一下301错误
301代表永久性转移(Permanently Moved)，301重定向是网页更改地址后对搜索引擎友好的最好方法，只要不是暂时搬移的情况，都建议使用301来做转址。

如果你使用的是POST，PUT，PATCH，DELETE或HEAD，你也可以启用重定向:

顺便说下重定向是啥-from 百度百科

import requests
url = 'http://github.com'
html = requests.get(url,allow_redirects=True)
print html.status_code
print html.url
print html.history

200
https://github.com/
[]

超时这个反而是最好理解的，如果在timeout时间还未做出响应，那就抛出错误，你时间设置的越短，响应需要越快才能不报错，也是对时间的有效利用和防止一直不断获取

import requests
url = 'http://github.com'
html = requests.get(url,allow_redirects=True,timeout=1)
print html.status_code

时间设置短一点的话，

import requests
url = 'http://github.com'
html = requests.get(url,allow_redirects=True,timeout=0.1)
print html.status_code

抛出如下错误

requests.exceptions.ConnectTimeout: HTTPConnectionPool(host='github.com', port=80): Max retries exceeded with url: / (Caused by ConnectTimeoutError(0x0000000003584550>, 'Connection to github.com timed out. (connect timeout=0.1)'))

timeout 仅对连接过程有效，与响应体的下载无关。

也就是说，你如果requests一个图片网站，图片下载并不和timeout时间有关，而是和连接到图片网址的时间有关

错误与异常

遇到网络问题（如：DNS查询失败、拒绝连接等）时，Requests会抛出一个ConnectionError 异常。

比如说，我们来访问谷歌

import requests
url = 'http://google.com'
html = requests.get(url,allow_redirects=True)
print html.status_code

很放心的抛出了ConnectionError

ConnectionError: HTTPConnectionPool(host='google.com', port=80): Max retries exceeded with url: / (Caused by NewConnectionError('0x0000000003328550>: Failed to establish a new connection: [Errno 10060] ',))

遇到罕见的无效HTTP响应时，Requests则会抛出一个 HTTPError 异常。

这个等我遇到了我再放上例子

若请求超时，则抛出一个 Timeout 异常。若请求超过了设定的最大重定向次数，则会抛出一个 TooManyRedirects 异常。所有Requests显式抛出的异常都继承自 requests.exceptions.RequestException 。

Requests的一些编码问题

在尝试用Requests+BeautifulSoup进行练习的时候发现，其解码方式和urllib2有点区别。
比如说，我采集网易主页http://www.163.com/网易采用的是gbk编码方式，使用urllib2时候，我们一般进行decode处理
就像这样

import urllib2
url='http://www.163.com'
html_url = urllib2.urlopen(urllib2.Request(url))
print html_url.read().decode('gbk')

来达到编码转换的目的，而requests则不是，刚开始我想当然的以为可以这样进行编码解码，其实不然，需要这样

html.encoding = 'gbk'

来规定编码方式，完整如下

import requests
from bs4 import BeautifulSoup
url='http://www.163.com'
html = requests.get(url)
html.encoding = 'gbk'
bs = BeautifulSoup(html.text,'lxml')
print bs.prettify()

（这里编码查看建议使用360浏览器，点击页面，右键，编码，就可以看到编码格式，当然你可以看打开检查元素查看，其余的功能还是谷歌和firefox强一些，所以说，我现在有四个浏览器，各取所需吧，并不是说谷歌和firefox最好，只是某些方面）

值得注意的是，当页面是utf-8编码的时候，以http://www.feng.com/为例，采用urllib2不需要进行解码操作，本身IDE编码格式就是utf-8，但是，requests则仍要进行编码规定，（具体原因我还不是很清楚，下次补充），不然会乱码，那是相当的乱，不忍直视的乱，像这样↓

只要改这个就可以了

html.encoding = 'utf-8'

其余不变（url当然得换），就可以输出中文操作，哎，又涨了点姿势

更新

1.于2016.7.24 18:12第一次撰写
2.于2016.7.25 10:25第二次撰写
3.于2016.7.27 14:13第三次撰写
4.于2016.7.28 11:02第四次撰写
5.于2016.8.31 14:18第五次撰写

致谢

Python网络数据采集[美]Ryan Mitchell
原–Python Requests快速入门
转–Python Requests快速入门
转–HTTP Get，Post请求详解
转–python模块之StringIO使用示例
@青南的小世界 –requests的content与text导致lxml的解析问题
@mmc2015–python的【字典dict】：创建、访问、更新、删除；查看键、值、键值对；遍历；排序
@我们都是从菜鸟开始–HTML table、form表单标签的介绍
@廖雪峰–base64
@上帝在云端–python爬虫 - Urllib库及cookie的使用
@百度百科–网页重定向
@Eastmount–[Python爬虫] 中文编码问题：raw_input输入、文件读取、变量比较等str、unicode、utf-8转换问题
A&Q–使用requests库抓取页面的时候的编码问题

你可能感兴趣的:(Python基础)

Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
python基础——元组【特点，创建，常见操作方法：index，len，count】愚润泽 python入门基础 python 开发语言学习方法笔记经验分享
前言：上一篇文章python基础——列表讲解了关于列表的先关知识，还介绍了很多列表的常见操作方法，这篇文章我们就基于上篇文章带大家认识的有关序列的知识，继续讲解python中另一种常见的数据容器——元组：1，元组的特点2，元组的定义3，元组的常见操作方法个人简介：努力学习ing个人专栏：C语言入门基础以及python入门基础CSDN主页愚润求学每日鸡汤：日日行不怕千万里，时时做不惧千万事文章目录一
Python基础之字符串、数字类型和列表（二） Hao想睡觉 python 开发语言
Python基础之字符串、数字类型和列表（二）文章目录Python基础之字符串、数字类型和列表（二）1、常见的字符串API2、数字类型2.1整数(int)2.2浮点数(float)2.3布尔类型(bool)2.4复数类型(complex)3、列表3.1、列表创建3.2、列表运算3.3列表索引（访问）习题1、常见的字符串API方法的调用语法对象.方法名(参数)是"的"的意思常见API详见文档示例te
走进python~python基础语法-变量 Cccc吃吃吃 python 开发语言算法
目录文章目录前言一、认识变量变量是什么？二、创建变量1.变量的语法（1）定义变量2.使用变量三、变量的类型（1）整数（int）（2）浮点数（小数）float（3）字符串（string）什么是字符？（4）补充（5）布尔（bool）（6）其他四、变量类型的意义五、变量动态类型特征总结前言本章详细介绍python基础语法中的变量，包含变量的使用、变量的类型、变量类型的意义、以及变量动态类型特征。一、认识
Python 课课练 (八)：函数课后练习题 Amo Xiang Python3入门与进阶 python lambda 函数
目录一、函数课后练习题练习前置知识ChapterOne:开启Python之旅ChapterTwo:Python语言基础、运算符与表达式、程序的控制结构合集ChapterThree:Python序列之字符串操作详解ChapterFour:Python序列之列表、元组操作详解合集超详细的Python基础语句总结(多实例、视频讲解持续更新)一、函数课后练习题(1)关于函数的介绍与特点说法错误的是()？A
python基础题目练习19 码卡巴卡bug python 算法数据结构
说反话-加强版给定一句英语，要求你编写程序，将句中所有单词的顺序颠倒输出。输入格式：测试输入包含一个测试用例，在一行内给出总长度不超过500000的字符串。字符串由若干单词和若干空格组成，其中单词是由英文字母（大小写有区分）组成的字符串，单词之间用若干个空格分开。输出格式：每个测试用例的输出占一行，输出倒序后的句子，并且保证单词间只有1个空格。输入样例：HelloWorldHereICome输出样
【自学笔记】Python的基础知识点总览-持续更新 Long_poem Python python 笔记开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Python基础知识总览1.Python简介2.安装与环境配置3.基本语法3.1变量与数据类型3.2控制结构3.3函数与模块3.4文件操作4.面向对象编程（OOP）5.异常处理6.高级特性7.标准库与第三方库8.实践项目总结Python基础知识总览1.Python简介解释型语言：Python是一种解释型、高级编程、通用型编程语
Python计算机二级编程题真题及考点总结【纯干货】 python二级小助手全国python二级考试 python 开发语言 pip 笔记经验分享
Python计算机二级编程题真题及考点总结【纯干货】一、前言相较于各类Python基础教程和二级经验分享类文章，个人认为如果只是想要考取计算机二级证书的话，最快且有效的方法应是在明晰考纲的前提下有针对性的进行学习，达到以最短时间考取证书的目的。因此除真题外，本篇重点在于总结Python二级考试中的编程题(占60分)的考查内容及知识点总结，让Python小白能在一周内掌握绝大多数编程题的解题方法，顺
PyTorch 学习路线 gorgor在码农 #python入门基础 python pytorch
学习PyTorch需要结合理论理解和实践编码，逐步掌握其核心功能和实际应用。以下是分阶段的学习路径和资源推荐，适合从入门到进阶：1.基础知识准备前提条件Python基础：熟悉Python语法（变量、函数、类、模块等）。数学基础：了解线性代数、微积分、概率论（深度学习的基础）。机器学习基础：理解神经网络、损失函数、优化器（如梯度下降）等概念。学习资源Python入门：Python官方教程机器学习基础
Python基础：流程控制 ༺༎九ྎ༒刺ྏ༣༎༻ python linux 开发语言
3.1条件3.1.1if语句在Python中，可以使用if语句对条件进行判断，然后根据不同的结果（True或者False）执行不同的代码。Python中的if语句可以细分为三种形式：if语句、ifelse语句和ifelifelse语句。if判断条件1:执行语句1……elif判断条件2:执行语句2……elif判断条件3:执行语句3……else:执行语句4……3.2循环3.1.1for语句words=
Python基础：Python简明知识框架若北辰 Python实战练习 python 开发语言
Python是一种高级编程语言，以其简单易学、强大的功能和广泛的应用领域而著称。以下是Python的主要知识框架：一、基础知识语法基础变量与数据类型：整数、浮点数、字符串、布尔值运算符：算术运算符、比较运算符、逻辑运算符、赋值运算符控制结构：条件语句（if,elif,else）、循环（for,while）函数与作用域：定义函数、参数、返回值、局部与全局变量数据结构列表（List）：可变序列，支持索
Python基础教程学习笔记第九章魔法方法，特性，迭代器只想开始 python
文章目录一，构造函数：\_\_init\_\_二，重写普通方法和特殊的构造函数拓展三，元素访问注意五，函数property5.1property特性5.2静态方法和类方法5.3\_\_getattr__、\_\_setattr__等方法注意六，迭代器iter6.1迭代器协议七，生成器7.1简单生成器7.2递归式生成器注意7.3通用生成器7.4生成器的方法拓展：7.5模拟生成器一，构造函数：__in
《Python基础教程》第2-4章笔记：列表和元组、字符串、字典 WalkingComputer python 笔记开发语言教程入门
《Python基础教程》第1章笔记https://blog.csdn.net/holeer/article/details/143052930目录第2章列表和元组2.1序列概述2.2通用的序列操作2.3列表：Python的主力2.3.1函数list2.3.2基本的列表操作2.3.3列表方法2.4元组：不可修改的序列第3章使用字符串3.2设置字符串的格式：精简版3.3设置字符串的格式：完整版3.3.
Python入门实战：Python基础语法详解 AI智能涌现深度研究 Python入门实战大数据人工智能语言模型 Java Python React 架构设计
1.背景介绍Python是一种高级的、通用的、解释型的编程语言，由GuidovanRossum于1991年创建。Python的设计目标是让代码更简洁、易读和易于维护。Python的语法结构简洁，易于学习和使用，因此成为了许多程序员的首选编程语言。Python的核心概念包括变量、数据类型、条件语句、循环、函数、类和模块等。在本文中，我们将详细介绍这些概念，并提供相应的代码实例和解释。2.核心概念与联
《Python基础教程》第7章笔记：进一步抽象（面向对象编程） WalkingComputer python 笔记开发语言面向对象教程入门
《Python基础教程》第1章笔记https://blog.csdn.net/holeer/article/details/143052930目录第7章进一步抽象7.1对象魔法7.2类7.2.1类到底是什么7.2.2创建自定义类7.2.4再谈隐藏7.2.5类的命名空间7.2.6指定超类7.2.7深入探讨继承7.2.8多个超类7.2.9接口和内省7.2.10抽象基类7.3关于面向对象设计的一些思考第
Python从0到100（十八）：面向对象编程应用是Dream呀 python 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
Python 实战 | 使用正则表达式从文本中提取指标企研数据 Python教学 python 正则表达式开发语言
更多内容点击查看Python实战|使用正则表达式从文本中提取指标Python教学专栏，旨在为初学者提供系统、全面的Python编程学习体验。通过逐步讲解Python基础语言和编程逻辑，结合实操案例，让小白也能轻松搞懂Python！>>>点击此处查看往期Python教学内容本文目录一、引言二、原理概念三、实现过程四、总结本文共6471个字，阅读大约需要17分钟，欢迎指正！Part1引言正则表达式（R
Python 基础（五）：基础语句 AI自学kuke-v Python教学 python 开发语言
在前几期我们讲了：Python基础（一）：基础常识Python基础（二）：变量与数据类型Python基础（三）：入门必备知识的思考与对之前内容的总结Python基础（四）：运算符与优先级这些内容后我们会开始将一些基础的题目来巩固学习的内容，这一期，我们讲基础语句。1条件语句在进行逻辑判断时，我们需要用到条件语句，Python提供了if、elif、else来进行逻辑判断。格式如下所示：if判断条件1
python常见面试题基础篇 (一) 航叔啦
Python基础篇1：为什么学习Python家里有在这个IT圈子里面，也想让我接触这个圈子，然后给我建议学的Python，然后自己通过百度和向有学过Python的同学了解了Python，Python这门语言，入门比较简单，它简单易学，生态圈比较强大，涉及的地方比较多，特别是在人工智能，和数据分析这方面。在未来我觉得是往自动化，人工智能这方面发展的，所以学习了Python2：通过什么途径学习Pyth
python正确的布尔值_Python小课笔记--Python基础：布尔值和空值处理处黑 python正确的布尔值
截图来自Python小课文|仟樱雪在Python小课-1--4节中，已经学习了：基础模块--数据--数据类型(整数、字符串，浮点数)，基础模块--变量，基础模块--函数(input函数、print函数，len函数，type函数，转换函数)。基础模块--控制流(条件判断)本节将继续学习本节继续学习：基础篇--数据截图来自Python小课一.基础知识：数据类型中的布尔值、空值1、布尔值：True还有F
【数据分析之道-NumPy(二)】多种方式创建数组_创建一个3行4列的二维数组(1) 2401_84159839 程序员数据分析 numpy 数据挖掘
专栏导读✍作者简介：i阿极，CSDNPython领域新星创作者，专注于分享python领域知识。✍本文录入于《数据分析之道》，本专栏针对大学生、初级数据分析工程师精心打造，对python基础知识点逐一击破，不断学习，提升自我。✍订阅后，可以阅读《数据分析之道》中全部文章内容，包含python基础语法、数据结构和文件操作，科学计算，实现文件内容操作，实现数据可视化等等。✍还可以订阅进阶篇《数据分析之
Python基础（字符串与列表）练习羡江007 python 开发语言
###题干#做一个简单的用户信息管理系统：#提示用户依次输入姓名，年龄和爱好#并且在输入完成之后，一次性将用户输入的数据展示出来'''user_name=input('请输入您的姓名：')user_age=input('请输入您的年龄：')user_hobby=input('请输入您的爱好：')print(f'以下是您的信息：\n姓名：{user_name}\n年龄：{user_age}\n爱好：
python代码示例-python 示例代码1 编程大乐趣
第一章python基础一在此不再赘述为什么学习python这门编程，网上搜索一箩筐。我在此仅说一句python的好，用了你就会爱上它。本python示例代码1000+带你由浅入深的了解python基础知识，基本语法，基本编程技巧，脚本编写到项目编写。本书所有示例代码在Ubuntu16.04+Python3.5.2+pycharm下运行成功。示例1：HelloWorld程序1、在解释器下编写程序2、
php程序员如何3天完成python学习大0马浓 php python 学习
作为PHP程序员，你已具备编程思维和逻辑能力，3天内掌握Python基础语法和核心特性是完全可行的。关键在于利用已有编程经验进行知识迁移，同时聚焦Python独有的特性。以下是‌高强度学习路径‌（每日6-8小时）：‌Day1：基础语法迁移（6小时）‌‌目标：掌握与PHP相似的基础语法，突破关键差异点‌‌变量与数据类型（1小时）‌动态类型：Python无需声明类型（age=25vsPHP的$age=
Python基础语法7-模块与包安迪小宝 python python 开发语言
Python通过模块（module）和包（package）来实现代码的组织和复用，使得开发者可以将功能拆分到不同的文件中，提高代码的可读性和可维护性。本文将介绍如何导入模块、使用内置模块、自定义模块以及管理第三方库。1.导入模块Python提供了多种方式导入模块：1.1import语句最常见的方式是使用import语句导入整个模块：importmathprint(math.sqrt(16))#输出
学习自动化脚本的路线学自动化的小白学习自动化运维
学习自动化脚本是一个涉及多个方面的过程，以下是一个建议的学习路线，可以帮助你系统地掌握自动化脚本编写的技能：一、编程语言基础Python基础：首先，你需要掌握Python的基本语法和编程概念，包括变量、数据类型、循环、条件语句、函数、类等。Python是一种易于上手且功能强大的编程语言，非常适合用于自动化脚本编写。开发环境搭建：熟悉常用的Python开发环境，如PyCharm、VisualStud
【Python爬虫(96)】从0到1：打造爬虫驱动的数据分析平台奔跑吧邓邓子 Python爬虫 python 爬虫数据分析开发语言平台
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、平台搭建基础1.1明确平台目标与定位1.2技术选型依据二、数据
Python基础教程之Matplotlib-基础绘图粒子jiang Python教程 python matplotlib
最近想自学一些数据可视化相关的工具，首先想到了Python，于是自己写一些文章，把学习成果和问题贴出来，方便自己后续查询。之前有断断续续学习过一些Python的基础语法，所以直接从Matplotlib开始，后续应该会继续更新其他相关信息。目前用的开发工具是jupyternotebook，对Python感兴趣的小伙伴也可以在评论区交流起来。>>>Matplotlibbasicusage>>>导入模块
【Python爬虫(95)】Python爬虫进阶：构建大型垂直领域爬虫系统奔跑吧邓邓子 Python爬虫 python 爬虫开发语言垂直领域系统
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、项目需求分析1.1确定垂直领域1.2业务需求分析1.3用户需求
【Python爬虫(86)】元宇宙浪潮下，Python爬虫能否乘风破浪？奔跑吧邓邓子 Python爬虫 python 爬虫开发语言元宇宙
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、元宇宙：概念与架构的深度剖析1.1元宇宙概念溯源1.2元宇宙架
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><