sevieryang

爬虫笔记整理2 - 基本库的使用总结

3.1 使用urllib

to be continued

3.2 使用requests(重点)

Requests库学习

一、requests介绍

基于urllib3的一个爬虫库，目前最完善，简单，稳定，好用的库

二、requests用法

1、get、head、options、delete等

r = requests.get('http://httpbin.org/') # head, option等
print(r.text)

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://httpbin.org/get", params=payload)
print(r.text）

payload = {'key1': 'value1', 'key2': ['value2', 'value3']}
r = requests.get('http://httpbin.org/get', params=payload)
print(r.text)

2、post

headers = {
    'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
    'Referer': r'http://httpbin.org',
    'Connection': 'keep-alive'
}
data = {
	    'key1': 'value1',
	    'key2': 'value2'
	}
url = 'http://httpbin.org/post'
r = requests.post(url, data=data, headers=headers)
print(r.text)

print(r.json())

#支持json
import json
r = requests.post(url, data=json.dumps(data), headers=headers) 
# 字符串转json： json.loads(string)
# dump和load 都是操作文件

3、编码

r.content 返回的是bytes，需要自己根据需求进行编码转换
r.text 是根据判断的编码转换后的str

判断方法如下：

requests.adapters模块下 HTTPAdapter 类中的 build_response 方法：
response.encoding = get_encoding_from_headers(response.headers)
跳转到requests.utils模块的 get_encoding_from_headers 方法:

content_type = headers.get(‘content-type’) # 值为：text/html
if ‘text’ in content_type:
return ‘ISO-8859-1’
所以结论是这个 ISO-8859-1 的意义就是r.text的默认编码
如果response.encoding为None，就使用 chardet.detect(self.content)[‘encoding’] 判断出编码，一般是 utf-8

r = requests.get('http://www.baidu.com')
print(r.encoding)

content = r.content
print(content)
print(content.decode('utf-8'))

print(r.text)
text = r.text
print(text.encode('raw_unicode_escape').decode('utf-8'))
print(text.encode('iso-8859-1').decode('utf-8'))
print(text.encode(r.encoding).decode('utf-8')) # 有可能为None，这样不保险

编码解码参数errors：

默认的参数就是strict，代表遇到非法字符时抛出异常；
如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?取代非法字符；
如果设置为xmlcharrefreplace，则使用XML的字符引用。
s = ‘我是测试中文abc123’
print(s.encode(‘ascii’, ‘ignore’))
print(s.encode(‘ascii’, ‘replace’))
print(s.encode(‘ascii’, ‘xmlcharrefreplace’))

s = ‘我是测试中文abc123’
s_ascii = s.encode(‘ascii’, ‘xmlcharrefreplace’)
print(s_ascii.decode(‘ascii’))
from common.util import xmlchar_2_cn
print(xmlchar_2_cn(s_ascii.decode(‘ascii’)))

4、响应状态码

r = requests.get('http://httpbin.org/') # head, option等
if r.status_code == requests.codes.ok:
if r.status_code == 200:
	print('成功')
else:
	print('失败')

5、 cookie

path区分大小写，应与浏览器中的地址栏的输入一致

path不可读，只可写

path不可更改，试图更改，其实是新写另一个cookie

path和domain都有继承性，子目录可以读父目录的cookie，二级域名也能读取一级域名的cookie
jar = RequestsCookieJar()
jar.set(‘tasty_cookie’, ‘yum’, domain=‘httpbin.org’, path=’/cookies’)
jar.set(‘gross_cookie’, ‘blech’, domain=‘httpbin.org’, path=’/elsewhere’)
jar.set(‘root_cookie’, ‘root’, path=’/’)
jar.set(‘default_cookie’, ‘default’)
url = ‘http://httpbin.org/cookies’
r = requests.get(url, cookies=jar)
print(r.text)

6、重定向

r = requests.get('http://github.com', allow_redirects=False)
print(r.status_code)

7、超时

r = requests.get('http://httpbin.org/', timeout=0.001)
print(r.status_code)

8、代理

proxies = {'http': '127.0.0.1:8888'}
r = requests.get('http://httpbin.org/', proxies=proxies)
print(r.status_code)

9、https

出现SSLError(“bad handshake: Error([(‘SSL routines’, ‘tls_process_server_certificate’, ‘certificate verify failed’)],)”,)错误
r = requests.get(‘https://www.alipay.com’, verify=False)
print(r.status_code)

10、一般更多使用session，不直接使用request.get()

s = requests.session()
r = s.get('http://httpbin.org/')
print(r.status_code)

11、多线程

'''
    多线程
'''
import threading

from time import ctime

def request_httpbin(num=0, url='http://httpbin.org/'):
    print('第 %s 次请求 开始， %s' % (num, ctime()))
    r = requests.get('http://httpbin.org/')
    print('第 %s 次请求 结束， %s' % (num, ctime()))

if __name__ == '__main__':
    threads = []
    for i in range(1, 101):
        t = threading.Thread(target=request_httpbin, args=(i,))
        threads.append(t)

    for t in threads:
        t.start()

    for t in threads:
        t.join()

12、使用gevent实现并发

'''
使用gevent实现并发
'''
import requests
import gevent
import urllib3
urllib3.disable_warnings()
import time
from gevent import monkey
monkey.patch_all()

urls = [
    'https://docs.python.org/2.7/library/index.html',
    'https://docs.python.org/2.7/library/dl.html',
    'http://www.iciba.com/partial',
    'http://2489843.blog.51cto.com/2479843/1407808',
    'http://blog.csdn.net/woshiaotian/article/details/61027814',
    'https://docs.python.org/2.7/library/unix.html',
    'http://2489843.blog.51cto.com/2479843/1386820',
    'http://www.bazhuayu.com/tutorial/extract_loop_url.aspx?t=0',
]

def method1():
    t1 = time.time()
    for url in urls:
        res = requests.get(url, verify=False)

    t2 = time.time()
    print('method1', t2 - t1)

def method2():
    jobs = [gevent.spawn(requests.get, url, verify=False) for url in urls]
    t1 = time.time()
    gevent.joinall(jobs)
    t2 = time.time()
    print('method2', t2 - t1)

if __name__ == '__main__':
    method1()
    method2()

三、grequests库用法

是一个基于request和gevent的库

import time
import requests
import grequests
import urllib3
urllib3.disable_warnings()

urls = [
    'https://docs.python.org/2.7/library/index.html',
    'https://docs.python.org/2.7/library/dl.html',
    'http://www.iciba.com/partial',
    'http://2489843.blog.51cto.com/2479843/1407808',
    'http://blog.csdn.net/woshiaotian/article/details/61027814',
    'https://docs.python.org/2.7/library/unix.html',
    'http://2489843.blog.51cto.com/2479843/1386820',
    'http://www.bazhuayu.com/tutorial/extract_loop_url.aspx?t=0',
]

def method1():
    t1 = time.time()
    for url in urls:
        res = requests.get(url, verify=False)

    t2 = time.time()
    print('method1', t2 - t1)

def method2():
    tasks = [grequests.get(u) for u in urls]
    t1 = time.time()
    res = grequests.map(tasks, size=3)
    t2 = time.time()
    print('method2', t2 - t1)

def method3():
    tasks = [grequests.get(u) for u in urls]
    t1 = time.time()
    res = grequests.map(tasks, size=8)
    t2 = time.time()
    print('method3', t2 - t1)

def method4():
    tasks = [grequests.get(u, callback=response_handle) for u in urls]
    t1 = time.time()
    res = grequests.map(tasks, size=8)
    t2 = time.time()
    print('method3', t2 - t1)

def response_handle(r, *args, **kwargs):
    print(r.url)

if __name__ == '__main__':
    method1()
    method2()
    method3()
    method4()

课堂笔记：

1、2个列表的遍历合并

建议使用 zip
li6 = [(x, y) for x, y in zip(li1, li2)]

2、request 中的 method

必须大写！！

3、requests库中

get 方法 是发送 get请求
post 方法 是 发送post请求

response.text ： 获取响应的str
response.content：  获取响应的 bytes
response.url  :  获取响应的 url地址
response.json() :  如果 response的返回值是 json字符串 那么调用 json() 即可直接得到 字典对象

4、 requests库 get 请求

传递url参数
通过 ？
url = 'http://www.baidu.com/s?word=python'
response = requests.get(url)

通过 params参数
url = 'http://www.baidu.com/s'
params = {
    'word': 'python'
}
response = requests.get(url, params=params)

不同的情况使用不同的方式：
？    ：  固定值、参数个数很少
params： 参数值是动态传入的、参数个数比较多

5、 requests库的 post 方法

参数
data:  提交form表单， http传递的数据是  key=value&key1=value1 的格式

json: 提交json字符串

两者不能同时存在！！！！！！！

但是  post 的参数 和  url参数是可以共存的！！！

6、requests 库 post请求的参数

必须：
url ：  网页地址

常用：
params：  url参数
data：   form表单参数    和其他 请求体 相斥
json：  json字符串参数   和其他 请求体 相斥
headers：  请求头的字典
proxies： 设置代理  {'http': '127.0.0.1:8888', 'https': '127.0.0.1:8888'}
verify:  当访问 https 网站，是否效验服务器的证书， 一般都设置为 False

不常用
cookies：  手动指定 cookie 对象
files：   文件参数  和其他 请求体 相斥
allow_redirects：  布尔型， 是否自动跳转, 对应 3XX 状态码

不使用的：
auth：  http验证，不使用
timeout： 超时时间
stream：  是流模式还是立即下载
cert：  证书文件所在位置

7、 301和302 状态码

通知 客户端， 当前url的功能已经转移到另一个url
这个url会在
response的 headers中的 Location 指出

如果是手动处理的话：
1、访问 url1
2、服务器返回 response， 状态码是 302
3、提取 response 的 headers 中的 Location 中的value ， 得到下一个 url2
4、继续访问 url2
5、如果 返回值依然是 302或301，那么重复第3、4步
6、直到返回的 状态是 200 或其他 4XX 或 5XX


浏览器会自动获取这个 location， 并且再次发起 访问
requests库，通过设置  allow_redirects = True， 也会自动处理 302和301

也就是说：
使用requests库时，只要设置了  allow_redirects = True ， 那么所有的 301和302 都会自动处理
那么不管是连续多少个 302
我们只需要处理2个对象
https://passport.lagou.com/grantServiceTicket/grant.html	302
http://www.lagou.com/?action=grantST&ticket=ST-9e5ceab760454b76900302173ba57d84	302
https://www.lagou.com/?action=grantST&ticket=ST-9e5ceab760454b76900302173ba57d84	302
http://www.lagou.com/	302
https://www.lagou.com/	200
1、 第一个 302 的 url， 需要我们手动发起访问
    response = reqeusts.get('https://passport.lagou.com/grantServiceTicket/grant.html')
2、我们得到的 response 是 最后一个 非 3XX 的状态码的 响应
    即 得到的是 https://www.lagou.com/	200  这个请求的 response


注意： 302和301 都只会出现 get 请求

8、 response 的字符集

response.encoding  获取，也可以设置
response.content # 得到 bytes
response.text # 得到 文本 ,  这个文本其实就是通过 response.content.decode(response.encoding) 获取的

如果 response.text  出现乱码
解决方案：
通过手动设置 response.encoding = 'utf-8'
一般都可以解决， 还有部分需要设置为 gbk ：  response.encoding = 'gbk'

可以查看 html 页面中的

里面的 charset

9、 debug 调试

step over:  单步执行， 指定当前行， 断点行移动下一行代码上
step into:  单步进入， 进入当前行的第一个未执行的函数
step out:   单步退出， 退出当前函数，回到调用该函数的代码行
Resume Program：  执行整个程序到下一个断点

10、在 pycharm中调试时，碰到如下代码块：

    def decode(self, *args, **kwargs): # real signature unknown
        """
        Decode the bytes using the codec registered for encoding.

          encoding
            The encoding with which to decode the bytes.
          errors
            The error handling scheme to use for the handling of decoding errors.
            The default is 'strict' meaning that decoding errors raise a
            UnicodeDecodeError. Other possible values are 'ignore' and 'replace'
            as well as any other name registered with codecs.register_error that
            can handle UnicodeDecodeErrors.
        """
        pass

就表明该函数是 由  C语言 实现的！
而当前我们看到的函数、参数、文档注释、pass 都是由  pycharm 根据 C语言 中  decode 函数的  文档注释，
模拟展示出来的，真实的python代码中是没有这个函数的！！！

11、 response 的 encoding 是由什么决定的？

查看 requests 的  utils.py 模块中 get_encoding_from_headers  函数
4 种情况
1、判断response 的headers中 是否有 content-type  ，
    如果不存在，那么返回 None
如果存在，那么继续往下判断：
2、 如果 content-type 中是类似这样： application/json;charset=UTF-8
    那么返回 charset的 value： UTF-8
3、response的headers 中 存在 content-type，但是value中没有 charset，包含 text
    那么返回 iso-8859-1
4、上述都不满足，返回 None

4种情况，但是只有3种结果：
1、None :  调用 chardet.detect(self.content)['encoding']  猜测 编码集
2、headers中的content-type中指定的 charset
3、iso-8859-1

12、chardet.detect(self.content)[‘encoding’]

根据 self.content 中的bytes ， 判断 最适合的 编码集
根据一些规则，直接进行 字符集的匹配， 如果匹配对应的规则，则返回 字符集， 什么规则都不匹配
那么就进行转码尝试， 不报错的即选择

13、代理错误：

requests.exceptions.ProxyError: HTTPConnectionPool(host='127.0.0.1', port=8888): Max retries exceeded with url:

原因：程序开启了代理设置，但是对应的代理IP和端口并没有开启
解决：1、不使用代理
      2、开启对应的代理软件

14、警告信息：

InsecureRequestWarning: Unverified HTTPS request is being made. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings

InsecureRequestWarning)

解决：
import urllib3

urllib3.disable_warnings()

项目：登录GitHub

1、登录 github
登录首页：https://github.com/login
实现 github的登录，

补充题：
搜索指定的 项目名， 譬如 cpython


注意：没有账号的都去注册一个
    注册地址： https://github.com/join?source=login

    账号： mumuloveshine
    密码： mumu2018

“”"第2章request库

request的简单实用
request的深入使用

“”"

# 2.1. request的简单实用

# 1. request的简单实用
"""1. request的简单实用
why学request
request库是基于urllib3的一个爬虫库，目前最完善，简单，稳定，好用的库
requests的底层实现就是urllib
requests在python2 和python3中通用，方法完全一样
requests简单易用
Requests能够自动帮助我们解压(gzip压缩的等)网页内容


如何学？
中文API: http://docs.python-requests.org/zh_CN/latest/index.html
英文API: http://docs.python-requests.org/en/master/

快速上手：http://docs.python-requests.org/zh_CN/latest/user/quickstart.html#id2

"""

# 2.response.text 和response.content的区别
"""
response.text 和response.content的区别?
response.text
类型：str
解码类型： 根据HTTP 头部对响应的编码作出有根据的推测，推测的文本编码
如何修改编码方式：response.encoding=”gbk”

response.content
类型：bytes
解码类型： 没有指定
如何修改编码方式：response.content.deocde(“utf8”)

更推荐使用response.content.deocde()的方式获取响应的html页面




import requests
response = requests.get('http://www.baidu.com')
# print(response)
# 
# print(response.text)

# requests按照哪种编码的？
# print(response.encoding) # ISO-8859-1

#然后用text解码，失败
# 那么我们按照指定的编码方式解码
#
response.encoding = 'utf-8'
print(response.encoding)
# print(response.text)

# print(response.content) # 区别返回结果二进制 bytes类型（因为原汁原味，更已操作，推荐）
print(response.content.decode()) # 返回结果bytes类型
# decode默认不写，是utf-8

#总结 requests中解决编解码的方法
# - response.content.decode()
# - response.content.decode("gbk")
# - response.text

"""

# 3.实例应用，保存图片到本地

"""实例应用，保存图片到本地：
import requests

url = 'http://docs.python-requests.org/en/master/_static/requests-sidebar.png'

response = requests.get(url)
# 文件名，打开方式，写二进制
with open('pic.jpg','wb') as f:
    f.write(response.content)
# 写入的时二进制用content
"""

# 4. 判断请求是否成功？

"""判断请求是否成功？
import requests

response = requests.get('https://www.baidu.com')
# status_code = response.status_code
# print(response.status_code)
# 200 请求成功
# 如果不是200，请求失败
# 200请求某个url地址，响应成功，而不是我们想要访问的url地址，eg.比如我们请求一个登陆之后才能访问，200但不代表我们成功

# 所以判断请求是否成功？
assert response.status_code == 200 # 断言，假设它是200，成功没问题
assert response.status_code == 300 # 断言，假设它是300，失败

# 所以定义一个方法，专门判断请求是否陈宫，后续讲到
"""

# 5. 响应头
"""响应头

import requests

response = requests.get('https://www.baidu.com')

# 关注响应头，只关注set-cookie这一块
# print(response.headers)

# {'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform',
#  'Connection': 'Keep-Alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/h
# tml', 'Date': 'Sun, 02 Dec 2018 16:32:41 GMT', 'Last-Modified': 'Mon, 23 Jan 201
# 7 13:23:51 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', ' \
#                                                               ''Set-Cookie': '
# BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'ch
# unked'}
"""

# 6. 请求头
"""请求头，引出如何发送带header的请求

import requests

response = requests.get('https://www.baidu.com')

print(response.request.url)

print(response.url)

# 服务器定义到另一个url地址的时候

print(response.request.headers)
# {'User-Agent': 'python-requests/2.20.1', 'Accept-Encoding': 'gzip, deflate', 'Ac
# cept': '*/*', 'Connection': 'keep-alive'}
# 这是默认的请求头，肯定有问题，判断出来是怕从

# 还有一个问题：我们response返回的内容只有一点，但html源码里面的代码很多，问题时是因为我们没有设置user-agent，没有模拟浏览器
# 所以服务器知道我们不是一个正规的刘篮球或者不是浏览器

"""

# 7. 发送带header的请求
"""发送带header的请求，如何模拟？

# why，上一个问题解决了。真正做到欺骗浏览器，获取和浏览器一直的内容

import requests

# 通常我们只需要添加一个user-agent就行了，如果还不行，我们就得加上cookie，大部分情况都是可以的
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
response = requests.get('https://www.baidu.com',headers = headers)
print(response.content.decode())

# 注意内容看上去是有很多空格，其实是有 \n \r换行 空格 \t制表符的
"""

# 8. 发送带参数的请求
"""发送带参数的请求

import requests
# url = 'https://www.baidu.com/s?' # 加不加问好无所谓，request起到的作用其实就是拼接
# headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
# kw = {'wd':'美国'}
# response = requests.get(url, headers = headers, params = kw)# 最后参数设置指定顺序，
# print(response.status_code)
# print(response.url)

url = 'https://www.baidu.com/s?wd={}'.format('美国')  # 加不加问好无所谓，request起到的作用其实就是拼接
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
response = requests.get(url, headers = headers)# 最后参数设置指定顺序，
print(response.status_code)
print(response.url)

# 注意：url是有专门的编码解码，用站长工具—— http://tool.chinaz.com/Tools/urlencode.aspx
# https://www.baidu.com/s?wd=美国  对应 https://www.baidu.com/s?wd=%E7%BE%8E%E5%9B%BD

"""

# 实例应用 1、获取新浪首页，查看response.text 和response.content.decode()的区别
"""
# 实例应用 1、获取新浪首页，查看response.text 和response.content.decode()的区别

import requests
url = 'https://www.sina.com.cn'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
r = requests.get(url, headers = headers)
print(r.text)
print('*'*1000)
print(r.content.decode())
# print(r.status_code)
"""

# 实例应用2、实现任意贴吧的爬虫，保存网页到本地
"""实例应用2、实现任意贴吧的爬虫，保存网页到本地

import requests

# 自己的老方法
# url = 'https://tieba.baidu.com'
# # url = 'https://www.tieba.baidu.com' # 奇怪，加www就搞不定
# headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
# r = requests.get(url, headers = headers)
# print('*'*1000)
# print(r.content.decode())
# print(r.status_code)


# 1.构造url列表
# 2.遍历，发送请求，获取响应
# 3.保存



# 定义个类
class TiebaSpider:
    # 传一个参数过来，目的就是实例化tiebaspider时候，给它传参数
    def __init__(self, tieba_name):
        # 第一页的url地址放到这里来，需要输入的参数格式化
        # self.url_temp = 'https://tieba.baidu.com/f?kw=公务员&pn={}'
        self.tieba_name = tieba_name
        self.url_temp = 'https://tieba.baidu.com/f?kw='+tieba_name+'&ie=utf-8&pn={}'
        self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}


    def get_url_list(self):
        url_list = []
        for i in range(1000):
            url_list.append(self.url_temp.format(i*50)) # 第一页是0   50
        return url_list

    # 发送请求，获取响应；单独作为一个方法
    # url
    def parse_url(self,url):
        response = requests.get(url, headers = self.headers)
        return response.content.decode()

    # 页码数，没有，就需要我们传一个参数
    def save_html(self,html_str, page_num):

        # 需要名字不一样
        file_path = '{}-第{}页.html'.format(self.tieba_name,page_num)
        with open(file_path, 'w',encoding='utf-8') as f:
            f.write(html_str)
            # ascii codec can't encode characters in ordinal not in range，需要加encoding = utf-8

# 实现主要逻辑
    def run(self):
        url_list = self.get_url_list()
        # 遍历，获取响应
        for url in url_list:
            html_str = self.parse_url(url)
            # 保存
            page_num = url_list.index(url)+1 # 页码数
            self.save_html(html_str, page_num)


# 第一个问题：main的右半边没有了
if __name__ == '__main__':
    tieba_spider1 = TiebaSpider('lol')
    tieba_spider1.run()
    
    
# 通俗的理解__name__ == '__main__'：假如你叫小明.py，在朋友眼中，你是小明(__name__ == '小明')；在你自己眼中，你是你自己(__name__ == '__main__')。
# 
# if __name__ == '__main__'的意思是：当.py文件被直接运行时，if __name__ == '__main__'之下的代码块将被运行；当.py文件以模块形式被导入时，if __name__ == '__main__'之下的代码块不被运行。
"""


# 2.2 request的深入使用
"""2.2 request的深入使用

1 发送post请求
2 使用代理
3 处理 cookies session

"""

# 1. 发送post请求 概念
"""2.1 发送post请求 概念
哪些地方我们会用到POST请求：

1. 登录注册（ POST 比 GET 更安全）

2. 需要传输大文本内容的时候（ POST 请求对数据长度没有要求）


所以同样的，我们的爬虫也需要在这两个地方回去模拟浏览器发送post请求

"""
# 发送post请求，实例应用
"""发送post请求，实例应用

eg. 百度翻译

区别：有from data:
query=hello

response是：
{"error":0,"msg":"success","lan":"en"}

接触到json数据，json数据如何格式化？

1. atom : pretty-json
https://segmentfault.com/a/1190000008141401
2. notepad++
3. 在线json格式化
4. pycharm格式化，需要专门建一个json文件



from data:

from: en
to: zh
query: hello
simple_means_flag: 3
sign: 54706.276099
token: f7a1bf54c701f8883f2223b3142f550f

对比

from: en
to: zh
query: kiss
transtype: translang
simple_means_flag: 3
sign: 479956.242149
token: f7a1bf54c701f8883f2223b3142f550f

"""

# 实例应用：通过百度翻译，实现一个翻译工具
"""实例应用：通过百度翻译，实现一个翻译工具

import requests
url = 'https://fanyi.baidu.com/v2transapi'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
data = {
    'to':' zh',
    'query': 'kiss',
    'transtype': 'translang',
    'simple_means_flag': '3',
    'sign': '479956.242149',   # 分析后是用js生成的
    'token': 'f7a1bf54c701f8883f2223b3142f550f' # crtl+f 在elements中
}
# 注意：变字典的过程中学到了快捷键的设置

# to: zh
# query: kiss
# transtype: translang
# simple_means_flag: 3
# sign: 479956.242149
# token: f7a1bf54c701f8883f2223b3142f550f
# v2transapi	v2transapi	v2transapi	v2transapi	v2transapi	v2transapi	v2transapi


r = requests.post(url, headers = headers, data = data)
print(r.content.decode())
# {"error":997,"from":null,"to":" zh","query":"kiss"}

# 怎么办？有error了，这条路走不通


"""

# 高级改进
"""高级改进
import requests, json, sys # 复习一下命令行参数

# print(sys.argv)
# ['D:/TOTAL 1 PYTHON/PYCHARM/REXUE/craw_study_total/craw_heima/day1note.py']


query_string = sys.argv[1]
# 列表
# ['D:/TOTAL 1 PYTHON/PYCHARM/REXUE/craw_study_total/craw_heima/day1note.py']

url = 'https://fanyi.baidu.com/basetrans'
headers = {'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1'}
data = {
    # 'query': '人生苦短，我用python',
    'query': query_string,
    'from': 'zh',
    'to': 'en'
}

r = requests.post(url, headers = headers, data = data)
# print(r.content.decode())

# 注意：范了两次错： 掉了user-agent，没有写成json格式

# 然后我们要把结果取出来

dict_ret = json.loads(r.content.decode())
ret = dict_ret['trans'][0]['dst']     # 首先，是字典，其次是列表，最后再是字典
print('result is :', ret)

{"errno":0,"from":"zh","to":"en","trans":[{"dst":"Life is short, I use Python","
prefixWrap":0,"src":"\\u4eba\\u751f\\u82e6\\u77ed\\uff0c\\u6211\\u7528python","relation
":[],"result":[[0,"Life is short, I use Python",["0|27"],[],["0|27"],["0|27"]]]}
],"dict":[],"keywords":[{"means":["life is but a span"],"word":"\\u4eba\\u751f\\u82
e6\\u77ed"},{"means":["\\u5de8\\u86c7\\uff0c\\u5927\\u87d2"],"word":"python"}]}


转义字符报错问题：
https://blog.csdn.net/u011242657/article/details/64437612


# 如果我们还想批量翻译？
# 相当于在终端里面实现了一个翻译工具

# 如果我们还想不用手动输出中文英文？
# 发一次语言检测......作业

"""

# 2 使用代理

# 问题：为什么爬虫需要使用代理？
"""问题：为什么爬虫需要使用代理？

因为 爬虫每秒钟访问很多次 ？

淘宝 京东 为什么访问很多次？ip不同，服务器不把我们当为爬虫

1. 让服务器以为不是同一个客户端在请求：保证单位时间爬取更多又不会被判定为爬虫

2. 防止我们的真实地址被泄露，防止被追究：爬虫是灰色产业

如果我们不用代理，爬到数据进行数据分析，别人会跟踪到你的ip
新浪查到哪个大厦很多人访问它的ip，知道爬虫班又开始了

不开GPS也可以定位自己地址，因为ip的关系（不是全部原因）

高匿IP能够更好的隐瞒

# 米扑代理： https://proxy.mimvp.com/ ok

https://proxy.coderbusy.com/ 码农很忙（2018.12.3访问不了）

"""

# 代理举例
"""

# 代理帮助我们发送请求，接收响应
# 代理包含虚拟一个IP地址（寄信人），服务器就是收信人

# nginx：反向代理，我们不知道最终的服务器的细节；安全一些，别人攻击不到服务器
# :正向代理，我们非常知道最终服务器比如说是google

# 添加proxy,就是个字典


# 用米扑代理： https://proxy.mimvp.com/ ok
import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
proxies = {
    'http':'117.191.11.106'
}
r = requests.get('http://www.baidu.com', proxies = proxies, headers = headers)
print(r.status_code)

# 使用代理ip
# 检查ip的可用性

# 后续还得自己深入学习..........


### 使用代理ip 注意：
# - 准备一堆的ip地址，组成ip池，随机选择一个ip来时用
#
# - 如何随机选择代理ip，让使用次数较少的ip地址有更大的可能性被用到
#   - {"ip":ip,"times":0}
#   - [{},{},{},{},{}],对这个ip的列表进行排序，按照使用次数进行排序
#   - 选择使用次数较少的10个ip，从中随机选择一个
#
# - 检查ip的可用性
#   - 可以使用requests添加超时参数，判断ip地址的质量
#   - 在线代理ip质量检测的网站


"""

# 3. 处理 cookies session

#1.  cookie和session区别：
"""
cookie和session区别：

cookie数据存放在客户的浏览器上，session数据放在服务器上。
cookie不是很安全，别人可以分析存放在本地的cookie并进行cookie欺骗。
session会在一定时间内保存在服务器上。当访问增多，会比较占用你服务器的性能。
单个cookie保存的数据不能超过4K，很多浏览器都限制一个站点最多保存20个cookie。

"""

#2.  爬虫处理cookie和session
"""
爬虫处理cookie和session

带上cookie、session的好处：
	能够请求到登录之后的页面

带上cookie、session的弊端：
	一套cookie和session往往和一个用户对应
	请求太快，请求次数太多，容易被服务器识别为爬虫

不需要cookie的时候尽量不去使用cookie
    
但是为了获取登录之后的页面，我们必须发送带有cookies的请求

"""

#3. 携带cookie请求
"""
### 携带cookie请求
- 携带一堆cookie进行请求，把cookie组成cookie池
"""

### 使用requests提供的session类来请求登陆之后的网站的思路
"""
### 使用requests提供的session类来请求登陆之后的网站的思路
- 实例化session
- 先使用session发送请求，登录对网站，把cookie保存在session中
- 再使用session请求登陆之后才能访问的网站，session能够自动的携带登录成功时保存在其中的cookie，进行请求
"""
### 不发送post请求，使用cookie获取登录后的页面
"""
### 不发送post请求，使用cookie获取登录后的页面
- cookie过期时间很长的网站
- 在cookie过期之前能够拿到所有的数据，比较麻烦
- 配合其他程序一起使用，其他程序专门获取cookie，当前程序专门请求页面

"""

#4. 获取登录后的页面的三种方式
"""
### 获取登录后的页面的三种方式
- 实例化session，使用session发送post请求，在使用他获取登陆后的页面
- headers中添加cookie键，值为cookie字符串
- 在请求方法中添加cookies参数，接收字典形式的cookie。字典形式的cookie中的键是cookie的name对应的值，值是cookie的value对应的值

"""

#5. 应用：使用session登录人人网
"""应用：使用session登录人人网

整个就在讨论，如果用session，用cookies会怎么样？还没实验完

import requests

session = requests.session()
post_url = "https://mail.163.com"
post_data = {"email":"[email protected]", "password":"252324"}
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"
}
#使用session发送post请求，cookie保存在其中
session.post(post_url,data=post_data,headers=headers)

#在使用session进行请求登陆之后才能访问的地址
r = session.get("https://mail.163.com/js6/main.jsp?sid=mBqaFyITkEFIcBaESITTzkFuAjkGqPbk&df=mail163_letter",headers=headers)

#保存页面
with open("1631.html","w",encoding="utf-8") as f:
    f.write(r.content.decode())

3.3 正则表达式

to be continued

3.4 抓取猫眼电影的排行

to be continued

你可能感兴趣的:(爬虫=框架=)

Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
利用LangChain的StackExchange组件实现智能问答系统 nseejrukjhad langchain microsoft 数据库 python
利用LangChain的StackExchange组件实现智能问答系统引言在当今的软件开发世界中，StackOverflow已经成为程序员解决问题的首选平台之一。而LangChain作为一个强大的AI应用开发框架，提供了StackExchange组件，使我们能够轻松地将StackOverflow的海量知识库集成到我们的应用中。本文将详细介绍如何使用LangChain的StackExchange组件
node.js学习小猿L node.js node.js 学习 vim
node.js学习实操及笔记温故node.js，node.js学习实操过程及笔记~node.js学习视频node.js官网node.js中文网实操笔记githubcsdn笔记为什么学node.js可以让别人访问我们编写的网页为后续的框架学习打下基础，三大框架vuereactangular离不开node.jsnode.js是什么官网：node.js是一个开源的、跨平台的运行JavaScript的运行
自我意识徐立华
----读帕克.帕尔默《教学勇气》（P18----19）5.铸造我们的学科帕克.帕尔默说学科知识对我们的自身认同和外部世界有启发意义。学科会铸造我们。“在我们与学科的命题概念和学科的生活框架相遇之前，自我意识知识处于潜伏状态，通过回想学科是怎样唤醒自我意识，我们就可以找回教学心灵。”《教学勇气》（P18）我们的自我意识像冰山表面下无限延伸的冰层，常常处于潜伏状态。但是在我们对所教授的学科进行深入思
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
基于CODESYS的多轴运动控制程序框架：逻辑与运动控制分离，快速开发灵活操作 GPJnCrbBdl python 开发语言
基于codesys开发的多轴运动控制程序框架，将逻辑与运动控制分离，将单轴控制封装成功能块，对该功能块的操作包含了所有的单轴控制（归零、点动、相对定位、绝对定位、设置当前位置、伺服模式切换等等）。程序框架由主程序按照状态调用分归零模式、手动模式、自动模式、故障模式，程序状态的跳转都已完成，只需要根据不同的工艺要求完成所需的动作即可。变量的声明、地址的规划都严格按照C++的标准定义，能帮助开发者快速
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
SpringBlade dict-biz/list 接口 SQL 注入漏洞文章永久免费只为良心 oracle 数据库
SpringBladedict-biz/list接口SQL注入漏洞POC:构造请求包查看返回包你的网址/api/blade-system/dict-biz/list?updatexml(1,concat(0x7e,md5(1),0x7e),1)=1漏洞概述在SpringBlade框架中，如果dict-biz/list接口的后台处理逻辑没有正确地对用户输入进行过滤或参数化查询（PreparedSta
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
ArrayList 源码解析程序猿进阶 Java基础 ArrayList List java 面试性能优化架构设计 idea
ArrayList是Java集合框架中的一个动态数组实现，提供了可变大小的数组功能。它继承自AbstractList并实现了List接口，是顺序容器，即元素存放的数据与放进去的顺序相同，允许放入null元素，底层通过数组实现。除该类未实现同步外，其余跟Vector大致相同。每个ArrayList都有一个容量capacity，表示底层数组的实际大小，容器内存储元素的个数不能多于当前容量。当向容器中添
Java爬虫框架（一）--架构设计狼图腾-狼之传说 java 框架 java 任务 html解析器存储电子商务
一、架构图那里搜网络爬虫框架主要针对电子商务网站进行数据爬取，分析，存储，索引。爬虫：爬虫负责爬取，解析，处理电子商务网站的网页的内容数据库：存储商品信息索引：商品的全文搜索索引Task队列：需要爬取的网页列表Visited表：已经爬取过的网页列表爬虫监控平台：web平台可以启动，停止爬虫，管理爬虫，task队列，visited表。二、爬虫1.流程1)Scheduler启动爬虫器，TaskMast
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
Spring MVC 全面指南：从入门到精通的详细解析一杯梅子酱技术栈学习 spring mvc java
引言：SpringMVC，作为Spring框架的一个重要模块，为构建Web应用提供了强大的功能和灵活性。无论是初学者还是有一定经验的开发者，掌握SpringMVC都将显著提升你的Web开发技能。本文旨在为初学者提供一个全面且易于理解的学习路径，通过详细的知识点分析和实际案例，帮助你快速上手SpringMVC，让学习过程既深刻又高效。一、SpringMVC简介1.1什么是SpringMVC？Spri
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
00. 这里整理了最全的爬虫框架（Java + Python）有一只柴犬爬虫系列爬虫 java python
目录1、前言2、什么是网络爬虫3、常见的爬虫框架3.1、java框架3.1.1、WebMagic3.1.2、Jsoup3.1.3、HttpClient3.1.4、Crawler4j3.1.5、HtmlUnit3.1.6、Selenium3.2、Python框架3.2.1、Scrapy3.2.2、BeautifulSoup+Requests3.2.3、Selenium3.2.4、PyQuery3.2
今天是总结薛帅
今天来个最后一天的总结。为什么要学习写作技巧呢？就如同建房子，如果想要住的安全、舒服，我们要先打地基，建房子的框架，这样才能随意的装修。那么我们要怎么建好才能建好写作的地基呢？1走直路，少弯路01利他：能够给别人带来价值。02吸引：吸住读者的眼球。03打动：打动人心，引起共鸣。04说服：用数据说话。05刻意：通过有意识的训练。06修改：好的文章至上修改10遍。07模仿：10万+的文章必有成功的道理
Python 课程10-单元测试可愛小吉 Python教學 python 单元测试开发语言 TDD unittest
前言在现代软件开发中，单元测试已成为一种必不可少的实践。通过测试，我们可以确保每个功能模块在开发和修改过程中按预期工作，从而减少软件缺陷，提高代码质量。而测试驱动开发（TDD）则进一步将测试作为开发的核心部分，先编写测试，再编写代码，以测试为指导开发出更稳定、更可靠的代码。Python提供了强大的unittest模块，它是Python标准库的一部分，专门用于编写和执行单元测试。与其他测试框架相比，
MyBatis 详解阿贾克斯的黎明 java mybatis
目录目录一、MyBatis是什么二、为什么使用MyBatis（一）灵活性高（二）性能优化（三）易于维护三、怎么用MyBatis（一）添加依赖（二）配置MyBatis（三）创建实体类和接口（四）使用MyBatis一、MyBatis是什么MyBatis是一个优秀的持久层框架，它支持自定义SQL、存储过程以及高级映射。MyBatis免除了几乎所有的JDBC代码以及设置参数和获取结果集的工作。它可以通过简
【自动化测试】UI自动化的分类、如何选择合适的自动化测试工具以及其中appium的设计理念、引擎和引擎如何工作 Lossya ui 自动化测试工具自动化测试 appium
引言UI自动化测试主要针对软件的用户界面进行测试，以确保用户界面元素的交互和功能符合预期文章目录引言一、UI自动化的分类1.1基于代码的自动化测试1.2基于录制/回放的自动化测试1.3基于框架的自动化测试1.4按测试对象分类1.5按测试层次分类1.6按测试执行方式分类1.7按测试目的分类二、如何选择合适的自动化测试工具2.1项目需求分析2.2工具特性评估2.3成本考虑2.4团队技能2.5试用和评估
python爬取微信小程序数据,python爬取小程序数据 2301_81900439 前端
大家好，小编来为大家解答以下问题，python爬取微信小程序数据，python爬取小程序数据，现在让我们一起来看看吧！Python爬虫系列之微信小程序实战基于Scrapy爬虫框架实现对微信小程序数据的爬取首先，你得需要安装抓包工具，这里推荐使用Charles，至于怎么使用后期有时间我会出一个事例最重要的步骤之一就是分析接口，理清楚每一个接口功能，然后连接起来形成接口串思路,再通过Spider的回调
字节二面 Redstone Monstrosity 前端面试
1.假设你是正在面试前端开发工程师的候选人，面试官让你详细说出你上一段实习过程的收获和感悟。在上一段实习过程中，我获得了宝贵的实践经验和深刻的行业洞察，以下是我的主要收获和感悟：一、专业技能提升框架应用熟练度：通过实际项目，我深入掌握了React、Vue等前端框架的使用，不仅提升了编码效率，还学会了如何根据项目需求选择合适的框架。问题解决能力：在实习期间，我遇到了许多预料之外的技术难题。通过查阅文
【Golang】实现 Excel 文件下载功能 RumIV Golang golang excel 开发语言
在当今的网络应用开发中，提供数据导出功能是一项常见的需求。Excel作为一种广泛使用的电子表格格式，通常是数据导出的首选格式之一。在本教程中，我们将学习如何使用Go语言和GinWeb框架来创建一个Excel文件，并允许用户通过HTTP请求下载该文件。准备工作在开始之前，请确保您的开发环境中已经安装了Go语言和相关的开发工具。此外，您还需要安装GinWeb框架和excelize包，这两个包都将用于我
golang 实现文件上传下载 wangwei830 go
Gin框架上传下载上传（支持批量上传）httpRouter.POST("/upload",func(ctx*gin.Context){forms,err:=ctx.MultipartForm()iferr!=nil{fmt.Println("error",err)}files:=forms.File["fileName"]for_,v:=rangefiles{iferr:=ctx.SaveUplo
【Java】已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException 屿小夏 java 开发语言
文章目录一、分析问题背景问题背景描述出现问题的场景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException在使用Spring框架进行开发时，数据源的配置和使用是非常关键的一环。然而，有时候我们可能会遇到org.springframewo
SpringBoot和SpringMVC是什么关系?SpringBoot替代SpringMVC了吗? 瑞金彭于晏 spring boot 后端 java MVC spring 数据库
SpringBoot和SpringMVC都是SpringFramework生态系统中的一部分，但它们各自扮演着不同的角色和提供不同的功能集。理解它们之间的关系，首先需要了解SpringFramework本身。SpringFrameworkSpringFramework是一个全面的、开源的应用程序开发框架，它提供了广泛的功能来支持企业应用开发的几乎所有方面。SpringFramework的核心特性之
探索Zebra4J：构建高效企业级Web应用的微服务框架叶准鑫Natalie
探索Zebra4J：构建高效企业级Web应用的微服务框架ZebraZebra4J/Zebra4Js基于SpringBoot的JavaWeb/Nodejs框架项目地址:https://gitcode.com/gh_mirrors/zebra/Zebra项目介绍在当今快速发展的技术环境中，构建高效、可扩展的企业级Web应用是每个开发团队的追求。Zebra4J作为一款基于SpringBoot的全新微服务
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
大模型训练数据库Common Crawl WindyChanChan 数据集语言模型数据库
CommonCrawl介绍‌‌CommonCrawl是一个非营利组织，致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。CommonCrawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据，并将其上传到‌CommonCrawl基金会的数据仓库中。该项目从2008年开始，至今已经积累了大量的原始网页数据、元数据和文本提取数据。这些数据
Python精选200Tips：121-125 AnFany Python200+Tips python 开发语言
Spendyourtimeonself-improvement121Requests-简化的HTTP请求处理发送GET请求发送POST请求发送PUT请求发送DELETE请求会话管理处理超时文件上传122BeautifulSoup-网页解析和抓取解析HTML和XML文档查找单个标签查找多个标签使用CSS选择器查找标签提取文本修改文档内容删除标签处理XML文档123Scrapy-强大的网络爬虫框架示例
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

爬虫笔记整理2 - 基本库的使用总结

3.1 使用urllib

3.2 使用requests(重点)

一、requests介绍

二、requests用法

1、get、head、options、delete等

2、post

3、编码

4、响应状态码

5、 cookie

6、重定向

7、超时

8、代理

9、https

10、一般更多使用session，不直接使用request.get()

11、多线程

12、使用gevent实现并发

三、grequests库用法

课堂笔记：

1、2个列表的遍历合并

2、request 中的 method

3、requests库中

4、 requests库 get 请求

5、 requests库的 post 方法

6、requests 库 post请求的参数

7、 301和302 状态码

8、 response 的 字符集

9、 debug 调试

10、在 pycharm中 调试时，碰到如下代码块：

11、 response 的 encoding 是由什么决定的？

12、chardet.detect(self.content)[‘encoding’]

13、代理错误：

14、警告信息：

项目：登录GitHub

3.3 正则表达式

3.4 抓取猫眼电影的排行

你可能感兴趣的:(爬虫=框架=)

8、 response 的字符集

10、在 pycharm中调试时，碰到如下代码块：