唐僧不爱八戒

python3的urllib3和requests

urllib

Py2.x：

Urllib库
Urllin2库
Py3.x：

Urllib库
变化：

在Pytho2.x中使用import urllib2——-对应的，在Python3.x中会使用import urllib.request，urllib.error。
在Pytho2.x中使用import urllib——-对应的，在Python3.x中会使用import urllib.request，urllib.error，urllib.parse。
在Pytho2.x中使用import urlparse——-对应的，在Python3.x中会使用import urllib.parse。
在Pytho2.x中使用import urlopen——-对应的，在Python3.x中会使用import urllib.request.urlopen。
在Pytho2.x中使用import urlencode——-对应的，在Python3.x中会使用import urllib.parse.urlencode。
在Pytho2.x中使用import urllib.quote——-对应的，在Python3.x中会使用import urllib.request.quote。
在Pytho2.x中使用cookielib.CookieJar——-对应的，在Python3.x中会使用http.CookieJar。
在Pytho2.x中使用urllib2.Request——-对应的，在Python3.x中会使用urllib.request.Request.

1.基本方法

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

- url: 需要打开的网址

- data：Post提交的数据

- timeout：设置网站的访问超时时间

直接用urllib.request模块的urlopen（）获取页面，page的数据格式为bytes类型，需要decode（）解码，转换成str类型。

from urllib import request
response = request.urlopen(r'http://python.org/') #  HTTPResponse类型
page = response.read()
page = page.decode('utf-8')

urlopen返回对象提供方法：

- read() , readline() ,readlines() , fileno() , close() ：对HTTPResponse类型数据进行操作

- info()：返回HTTPMessage对象，表示远程服务器返回的头信息

- getcode()：返回Http状态码。如果是http请求，200请求成功完成;404网址未找到

- geturl()：返回请求的url

2.使用Request

`urllib.request.Request`(url, data=None, headers={}, method=None)

使用request（）来包装请求，再通过urlopen（）获取页面。

url = r'http://www.lagou.com/zhaopin/Python/?labelWords=label'
headers = {
    'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
    'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',
    'Connection': 'keep-alive'
}
req = request.Request(url, headers=headers)
page = request.urlopen(req).read()
page = page.decode('utf-8')

用来包装头部的数据：

- User-Agent ：这个头部可以携带如下几条信息：浏览器名和版本号、操作系统名和版本号、默认语言

- Referer：可以用来防止盗链，有一些网站图片显示来源http://***.com，就是检查Referer来鉴定的

- Connection：表示连接状态，记录Session的状态。

3.Post数据

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

urlopen（）的data参数默认为None，当data参数不为空的时候，urlopen（）提交方式为Post。

from urllib import request, parse
url = r'http://www.lagou.com/jobs/positionAjax.json?'
headers = {
    'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
    'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',
    'Connection': 'keep-alive'
}
data = {
    'first': 'true',
    'pn': 1,
    'kd': 'Python'
}
data = parse.urlencode(data).encode('utf-8')
req = request.Request(url, headers=headers, data=data)
page = request.urlopen(req).read()
page = page.decode('utf-8')

`urllib.parse.urlencode`(query, doseq=False, safe='', encoding=None, errors=None)

urlencode（）主要作用就是将url附上要提交的数据。

data = {
    'first': 'true',
    'pn': 1,
    'kd': 'Python'
}
data = parse.urlencode(data).encode('utf-8')

经过urlencode（）转换后的data数据为?first=true?pn=1?kd=Python，最后提交的url为

http://www.lagou.com/jobs/positionAjax.json?first=true?pn=1?kd=Python

Post的数据必须是bytes或者iterable of bytes，不能是str，因此需要进行encode（）编码

page = request.urlopen(req, data=data).read()

当然，也可以把data的数据封装在urlopen（）参数中

4.异常处理

def get_page(url):
    headers = {
        'User-Agent': r'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                    r'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
        'Referer': r'http://www.lagou.com/zhaopin/Python/?labelWords=label',
        'Connection': 'keep-alive'
    }
    data = {
        'first': 'true',
        'pn': 1,
        'kd': 'Python'
    }
    data = parse.urlencode(data).encode('utf-8')
    req = request.Request(url, headers=headers)
    try:
        page = request.urlopen(req, data=data).read()
        page = page.decode('utf-8')
    except error.HTTPError as e:
        print(e.code())
        print(e.read().decode('utf-8'))
    return page

5、使用代理

`urllib.request.ProxyHandler`(proxies=None)

当需要抓取的网站设置了访问限制，这时就需要用到代理来抓取数据。

data = {
        'first': 'true',
        'pn': 1,
        'kd': 'Python'
    }
proxy = request.ProxyHandler({'http': '5.22.195.215:80'})  # 设置proxy
opener = request.build_opener(proxy)  # 挂载opener
request.install_opener(opener)  # 安装opener
data = parse.urlencode(data).encode('utf-8')
page = opener.open(url, data).read()
page = page.decode('utf-8')
return page

5、使用cookie

urllib.request.HTTPCookieProcessor()

爬取的网页涉及登录信息。访问每一个互联网页面，都是通过HTTP协议进行的，而HTTP协议是一个无状态协议，所谓的无状态协议即无法维持会话之间的状态。


import urllib.request
import urllib.parse
import urllib.error
import http.cookiejar
 
url='http://bbs.chinaunix.net/member.php?mod=logging&action=login&loginsubmit=yes&loginhash=La2A2'
data={
    'username':'zhanghao',
    'password':'mima',
}
postdata=urllib.parse.urlencode(data).encode('utf8')
header={
    'User-Agent':'Mozilla/5.0 (X11; Fedora; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
 
request=urllib.request.Request(url,postdata,headers=header)
#使用http.cookiejar.CookieJar()创建CookieJar对象
cjar=http.cookiejar.CookieJar()
#使用HTTPCookieProcessor创建cookie处理器，并以其为参数构建opener对象
cookie=urllib.request.HTTPCookieProcessor(cjar)
opener=urllib.request.build_opener(cookie)
#将opener安装为全局
urllib.request.install_opener(opener)

urllib3的使用：

生成请求(request)：

　　　首先，你必须导入urllib3模块：

　　　然后你需要一个PoolManager实例来生成请求,由该实例对象处理与线程池的连接以及线程安全的所有细节，不需要任何人为操作：

　　　通过request()方法创建一个请求：

　　　request()方法返回一个HTTPResponse对象。

　　　你还可以通过request()方法向请求(request)中添加一些其他信息，如：

　　　请求(request)中的数据项(request data)可包括：

Headers:

　　　在request()方法中，可以定义一个字典类型(dictionary),并作为headers参数传入：

Query parameters:

　　　对于GET、HEAD和DELETE请求，可以简单的通过定义一个字典类型作为fields参数传入即可：

　　　对于POST和PUT请求(request),需要手动对传入数据进行编码，然后加在URL之后：

Form data:

　　　对于PUT和POST请求(request),urllib3会自动将字典类型的field参数编码成表格类型.

JSON:

　　　在发起请求时,可以通过定义body 参数并定义headers的Content-Type参数来发送一个已经过编译的JSON数据：

Files & binary data:

　　　使用multipart/form-data编码方式上传文件,可以使用和传入Form data数据一样的方法进行,并将文件定义为一个元组的形式　　　　　(file_name,file_data):

　　　文件名(filename)的定义不是严格要求的,但是推荐使用,以使得表现得更像浏览器。同时，还可以向元组中再增加一个数据来定义文件的　MIME类型：

　　　如果是发送原始二进制数据，只要将其定义为body参数即可。同时，建议对header的Content-Type参数进行设置：

Timeout :

　　　使用timeout，可以控制请求的运行时间。在一些简单的应用中，可以将timeout参数设置为一个浮点数：

　　　要进行更精细的控制，可以使用Timeout实例，将连接的timeout和读的timeout分开设置：

　　　如果想让所有的request都遵循一个timeout，可以将timeout参数定义在PoolManager中：

　　　或者

　　　当在具体的request中再次定义timeout时，会覆盖PoolManager层面上的timeout。

请求重试(retrying requests):

　　　Urllib3 可以自动重试幂等请求，原理和handles redirect一样。可以通过设置retries参数对重试进行控制。Urllib3默认进行3次请求重　　试，并进行3次方向改变。

　　　给retries参数定义一个整型来改变请求重试的次数：

　　　关闭请求重试(retrying request)及重定向(redirect)只要将retries定义为False即可：

　　　关闭重定向(redirect)但保持重试(retrying request),将redirect参数定义为False即可：

　　　要进行更精细的控制，可以使用retry实例，通过该实例可以对请求的重试进行更精细的控制。

　　　例如，进行3次请求重试，但是只进行2次重定向：

　　　如果想让所有请求都遵循一个retry策略，可以在PoolManager中定义retry参数：

　　　或者

　　　当在具体的request中再次定义retry时，会覆盖 PoolManager层面上的retry。

requests

requests是使用Apache2 licensed 许可证的HTTP库。

用python编写。

比urllib2模块更简洁。

Request支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动响应内容的编码，支持国际化的URL和POST数据自动编码。

在python内置模块的基础上进行了高度的封装，从而使得python进行网络请求时，变得人性化，使用Requests可以轻而易举的完成浏览器可有的任何操作。

现代，国际化，友好。

requests会自动实现持久连接keep-alive

# HTTP请求类型
# get类型
r = requests.get('https://github.com/timeline.json')
# post类型
r = requests.post("http://m.ctrip.com/post")
# put类型
r = requests.put("http://m.ctrip.com/put")
# delete类型
r = requests.delete("http://m.ctrip.com/delete")
# head类型
r = requests.head("http://m.ctrip.com/head")
# options类型
r = requests.options("http://m.ctrip.com/get")

# 获取响应内容
print(r.content) #以字节的方式去显示，中文显示为字符
print(r.text) #以文本的方式去显示

#URL传递参数
payload = {'keyword': '香港', 'salecityid': '2'}
r = requests.get("http://m.ctrip.com/webapp/tourvisa/visa_list", params=payload) 
print（r.url） #示例为http://m.ctrip.com/webapp/tourvisa/visa_list?salecityid=2&keyword=香港

#获取/修改网页编码
r = requests.get('https://github.com/timeline.json')
print （r.encoding）


#json处理
r = requests.get('https://github.com/timeline.json')
print（r.json()） # 需要先import json    

# 定制请求头
url = 'http://m.ctrip.com'
headers = {'User-Agent' : 'Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 4 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Mobile Safari/535.19'}
r = requests.post(url, headers=headers)
print （r.request.headers)

#复杂post请求
url = 'http://m.ctrip.com'
payload = {'some': 'data'}
r = requests.post(url, data=json.dumps(payload)) #如果传递的payload是string而不是dict，需要先调用dumps方法格式化一下

# post多部分编码文件
url = 'http://m.ctrip.com'
files = {'file': open('report.xls', 'rb')}
r = requests.post(url, files=files)

# 响应状态码
r = requests.get('http://m.ctrip.com')
print(r.status_code)
    
# 响应头
r = requests.get('http://m.ctrip.com')
print (r.headers)
print (r.headers['Content-Type'])
print (r.headers.get('content-type')) #访问响应头部分内容的两种方式
    
# Cookies
url = 'http://example.com/some/cookie/setting/url'
r = requests.get(url)
r.cookies['example_cookie_name']    #读取cookies
    
url = 'http://m.ctrip.com/cookies'
cookies = dict(cookies_are='working')
r = requests.get(url, cookies=cookies) #发送cookies

#设置超时时间
r = requests.get('http://m.ctrip.com', timeout=0.001)

#设置访问代理
proxies = {
           "http": "http://10.10.1.10:3128",
           "https": "http://10.10.1.100:4444",
          }
r = requests.get('http://m.ctrip.com', proxies=proxies)


#如果代理需要用户名和密码，则需要这样：
proxies = {
    "http": "http://user:[email protected]:3128/",
}

json请求：

#! /usr/bin/python3
import requests
import json


class url_request():
    def __init__(self):
        ''' init '''

if __name__ == '__main__':
    heard = {'Content-Type': 'application/json'}
    payload = {'CountryName': '中国',
               'ProvinceName': '四川省',
               'L1CityName': 'chengdu',
               'L2CityName': 'yibing',
               'TownName': '',
               'Longitude': '107.33393',
               'Latitude': '33.157131',
               'Language': 'CN'}
    r = requests.post("http://www.xxxxxx.com/CityLocation/json/LBSLocateCity", heards=heard, data=payload)
    data = r.json()
    if r.status_code!=200:
        print('LBSLocateCity API Error' + str(r.status_code))
    print(data['CityEntities'][0]['CityID'])  # 打印返回json中的某个key的value
    print(data['ResponseStatus']['Ack'])
    print(json.dump(data, indent=4, sort_keys=True, ensure_ascii=False))  # 树形打印json，ensure_ascii必须设为False否则中文会显示为unicode

Xml请求：

#! /usr/bin/python3
import requests

class url_request():
    def __init__(self):
        """init"""

if __name__ == '__main__':
    heards = {'Content-type': 'text/xml'}
    XML = 'WeChatJSTicket.JobWS.Job.JobRefreshTicket,WeChatJSTicket.JobWSRUN1127.0.0.11false'
    url = 'http://jobws.push.mobile.xxxxxxxx.com/RefreshWeiXInTokenJob/RefreshService.asmx'
    r = requests.post(url=url, heards=heards, data=XML)
    data = r.text
    print(data)

状态异常处理

import requests

URL = 'http://ip.taobao.com/service/getIpInfo.php'  # 淘宝IP地址库API
try:
    r = requests.get(URL, params={'ip': '8.8.8.8'}, timeout=1)
    r.raise_for_status()  # 如果响应状态码不是 200，就主动抛出异常
except requests.RequestException as e:
    print(e)
else:
    result = r.json()
    print(type(result), result, sep='\n')

上传文件

使用request模块，也可以上传文件，文件的类型会自动进行处理：

import requests
 
url = 'http://127.0.0.1:8080/upload'
files = {'file': open('/home/rxf/test.jpg', 'rb')}
#files = {'file': ('report.jpg', open('/home/lyb/sjzl.mpg', 'rb'))}     #显式的设置文件名
 
r = requests.post(url, files=files)
print(r.text)

request更加方便的是，可以把字符串当作文件进行上传：

import requests
 
url = 'http://127.0.0.1:8080/upload'
files = {'file': ('test.txt', b'Hello Requests.')}     #必需显式的设置文件名
 
r = requests.post(url, files=files)
print(r.text)

基本身份认证(HTTP Basic Auth)

import requests
from requests.auth import HTTPBasicAuth
 
r = requests.get('https://httpbin.org/hidden-basic-auth/user/passwd', auth=HTTPBasicAuth('user', 'passwd'))
# r = requests.get('https://httpbin.org/hidden-basic-auth/user/passwd', auth=('user', 'passwd'))    # 简写
print(r.json())

另一种非常流行的HTTP身份认证形式是摘要式身份认证，Requests对它的支持也是开箱即可用的:

requests.get(URL, auth=HTTPDigestAuth('user', 'pass'))

Cookies与会话对象

如果某个响应中包含一些Cookie，你可以快速访问它们：

import requests
 
r = requests.get('http://www.google.com.hk/')
print(r.cookies['NID'])
print(tuple(r.cookies))

要想发送你的cookies到服务器，可以使用 cookies 参数：

import requests
 
url = 'http://httpbin.org/cookies'
cookies = {'testCookies_1': 'Hello_Python3', 'testCookies_2': 'Hello_Requests'}
# 在Cookie Version 0中规定空格、方括号、圆括号、等于号、逗号、双引号、斜杠、问号、@，冒号，分号等特殊符号都不能作为Cookie的内容。
r = requests.get(url, cookies=cookies)
print(r.json())

会话对象让你能够跨请求保持某些参数，最方便的是在同一个Session实例发出的所有请求之间保持cookies，且这些都是自动处理的，甚是方便。

import requests
 
headers = {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
           'Accept-Encoding': 'gzip, deflate, compress',
           'Accept-Language': 'en-us;q=0.5,en;q=0.3',
           'Cache-Control': 'max-age=0',
           'Connection': 'keep-alive',
           'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0'}
 
s = requests.Session()
s.headers.update(headers)
# s.auth = ('superuser', '123')
s.get('https://www.kuaipan.cn/account_login.htm')
 
_URL = 'http://www.kuaipan.cn/index.php'
s.post(_URL, params={'ac':'account', 'op':'login'},
       data={'username':'****@foxmail.com', 'userpwd':'********', 'isajax':'yes'})
r = s.get(_URL, params={'ac':'zone', 'op':'taskdetail'})
print(r.json())
s.get(_URL, params={'ac':'common', 'op':'usersign'})

默认requests请求失败后不会重试，但是我们跑case时难免遇到一些网络,服务重启，外部原因导致case失败，我们可以在Session实例上附加HTTPAdapaters 参数，增加失败重试次数。

request_retry = requests.adapatrs.HTTPAdapaters(max_retries=3）

self.session.mount('https://',request_retry)  
self.session.mount('http://',request_retry)

1：保持请求之间的Cookies，我们可以这样做。

import requests
self.session = requests.Session()
self.session.get(login_url) # 可以保持登录态

2：请求时，会加上headers，一般我们会写成这样

self.session.get(url, params, headers=headers)

唯一不便的是之后的代码每次都需要这么写，代码显得臃肿，所以我们可以这样:

#在构造函数中，这样设置是全局的。

# 设置请求头
self.s = requests.Session()
self.s.headers = {'balabala'}

# 移除服务器验证
self.s.verify = False

# 设置代理
self.s.proxies={'aa'}

# 如果后续headers有改变，再次赋值就可以了。
self.s.get(url, params, headers=new_headers)

你可能感兴趣的:(python)

构建我们的Python代码库依赖图 openwin_top python编程示例系列二 python 开发语言
构建我们的Python代码库依赖图作者：GeorgeFarcasiu,NoahKim,JaconBrugh,JiahaoLi,HudsonRiverTrading引言与我们在高频交易的根基保持一致，HudsonRiverTrading（HRT）行动迅速。与任何工程指标一样，速度有其权衡。在过去的五年中，由于一种通常更重视“足够好”而非“完美”的工程文化，一个鼓励团队间代码共享的协作工作环境，以及一
python 重构 Python 代码隔壁小红馆 python cpython python面试 python cpython
将for循环转换为list/dictionary/set表达式我们在时经常遇到的一个情况是，创建一个值的集合。比如我们创建一个列表，然后迭代地用值填充它，这里我们想创建一个立方数字的列表。大多数语言的标准方法如下：cubes=[]foriinrange(20):cubes.append(i**3)在Python中，我们可以使用列表表达式，生成需要的数据。就可以将代码简化为一行，省去定义列表，然后再
python代码重构技巧_Python代码重构指南，老师Bryan Beecham完结 weixin_39916479 python代码重构技巧
本套课程由BryanBeecham，全球知名敏捷开发教练主讲的：Python代码重构指南。重构是软件改进的核心，它使软件拥有更好的结构和性能，也使代码更易于理解、修改和扩展。尽管重构并不是新事物，但是软件开发人员仍然会苦恼于如何正确地进行重构。随着敏捷运动的发展，DevOps之类的概念不断追求高质量和精心设计的代码，以实现更快的部署和反馈。不过，现有的很多关于重构的教程都基于Java语言，关于Py
python读取excel数字数据是object类型_Python使用反射实现Excel与对象之间的转换 weixin_39638859
Python使用反射实现Excel与对象之间的转换代码在最下方，伸手党直接滚动到最后场景需要从Excel中加载到内存中，转换为class对象执行操作环境Python3.8openpyxl==3.0.5前置知识反射(仅介绍这个帮助类用到的几个反射方法)setattr、getattrclassPerson():name=Nonedef__init__(self,name):self.name=name
python语言对代码的块结构不敏感_浅谈python（二）--python代码规范初夏之菡
对于每一门语言来说，都有自己的编码规则，编程时是不可以违背这些准则的，一旦不遵守这个准则，程序就会报错无法执行，本节将介绍下python的一些编码规则。1、代码缩进与冒号首先介绍下代码缩进有什么用处，代码缩进是指通过在一行代码的前输入若干空格或者制表符来表示行与行之间的层次关系，每一种编程语言一般都需要代码缩进进行规范程序代码的层次结构，让代码清晰易于解读。对于其它的语言来说，代码缩进作为一种良好
Python编码系列—Python代码重构：提升代码质量学步_技术 Python编码 python 重构开发语言
欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。探索专栏：学步_技术的首页——持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。技术导航：人工智能：深入探讨人工智能领域核心技术。自动驾驶：分享自动
【python】函数重构划过手的泪滴t python 每日一练云计算运维 python 重构服务器开发语言每日一练运维
函数重构函数重构pycharm函数重构步骤函数重构练习函数重构函数重构是指对现有函数进行修改和优化的过程。重构的目的是改善代码的可读性、可维护性和灵活性，同时保持其功能不变。函数重构通常包括以下步骤：理解函数的功能和目的。了解函数的作用和期望结果，确定重构的目标。检查函数的代码质量。查看函数的代码是否清晰、简洁、可读，有无可改进之处。提取重复的代码。如果函数中有重复的代码块，可以将其提取为单独的函
Python入门实战：Python的代码重构 AI智能涌现深度研究 DeepSeek R1 &大数据AI人工智能大数据人工智能语言模型 AI LLM Java Python 架构设计
1.背景介绍Python是一种基于社区发展、易用性、生态系统完善、可扩展性强、性能卓越等特点的高级编程语言。作为一门解释型语言，它具有高效率、简洁语法、丰富的库函数、跨平台能力和多种开发范式等优点。但随着项目不断迭代更新，代码量逐渐增加，导致代码结构混乱、缺乏模块化设计、重复逻辑过多、命名不规范等问题。如何有效地组织、管理和维护代码、提升代码质量、更好地实现功能，是一个技术人的日常工作。如何进行代
python提取excel数据批量生成固定格式的word文件的问题鱼弦【HOT】技术热谈 excel word
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）使用Python从Excel中提取数据并生成固定格式的Word文档1.介绍本项目旨在介绍如何使用Python从Excel中提取数据并生成固定格式的Word文档
python 使用microsoft-Florence-2-base进行图片描述生成哦里哦里哦里给 AI 大语言模型实战 python microsoft 开发语言
目录一、Florence-2简介二、代码实践三、多语言模型一、Florence-2简介Florence-2是一个先进的视觉基础模型，采用基于提示（prompt）的方式，处理广泛的视觉和视觉-语言任务。Florence-2能够解析简单的文本提示，执行如图像描述、物体检测和分割等任务。该模型利用FLD-5B数据集，该数据集包含54亿个注释，涵盖1.26亿张图像，用于掌握多任务学习。模型的序列到序列架构
从0到1构建AI深度学习视频分析系统--基于YOLO 目标检测的动作序列检查系统：（2）消息队列与消息中间件 shiter 人工智能系统解决方案与技术架构人工智能深度学习音视频
文章大纲原始视频队列Python内存视频缓存优化方案（4GB以内）一、核心参数设计二、内存管理实现三、性能优化策略四、内存占用验证五、高级优化技巧六、部署建议检测结果队列YOLO检测结果队列技术方案一、技术选型矩阵二、核心实现代码三、性能优化策略四、可视化方案对比五、部署建议逻辑判定队列时间片图论时间序列大模型引入参考文献原始视频队列想要在单机内存中缓存1-5分钟的视频片段，python技术栈的话
python openai 网络连接报错哦里哦里哦里给 AI 大语言模型实战 python ai
目录一、问题:网络连接报错二、解决办法一、问题:网络连接报错File"/opt/anaconda3/envs/openaitest/lib/python3.8/site-packages/openai/_base_client.py",line1024,in_requestraiseAPIConnectionError(request=request)fromerroropenai.APIConn
Python--操作系统进行交互【OS库】 ~请叫我小祸害~ python 开发语言
在Python中，os是一个内置的标准库，用于与操作系统进行交互。它提供了许多函数和方法，用于执行与操作系统相关的任务，例如文件类操作和目录操作、进程管理、环境变量访问等。接下来我给大家列举一下比较常用的文件操作方法：代码示例⬇⬇⬇⬇⬇⬇⬇：1、os.getcwd():返回当前工作目录的路径。importos#返回当前工作目录current_dir=os.getcwd()print("当前工作目录
10 个极其有用的 Python 自动化脚本 python
在现代职场中，重复性和耗时的任务常常占据大量时间，影响工作效率。Python作为一种高效、易用的编程语言，提供了丰富的库和工具，能够帮助打工人自动化处理日常任务，提升工作效率。以下是十个必备的Python自动化脚本：一、文件批量重命名脚本在日常工作中，可能需要对大量文件进行重命名操作。手动操作既耗时又容易出错。使用Python脚本，可以实现文件的批量重命名，提高效率。importosdefbatc
python内存泄露 weixin_39810989 内存泄漏 python malloc
定位工具及使用1.tracemalloc可以通过创建快照的方式记录当前的内存占用情况。从而可以比较快照与快照之间的内存占用差异。可以获取内存块的回溯，定位到内存占用最多的文件和代码行。osgeo.cn/cpython/library/tracemalloc.html2.pympler可以创建快照（summaries）进行内存块占用对比frompympler.classtrackerimportCl
python selenium 点击按钮_Python Selenium等待用户单击按钮 Shu Wang python selenium 点击按钮
语境：>我的脚本使用seleniumwebdriver启动到网站>用户填写网站上的一些东西>用户将点击一个按钮,弹出确认()dialogbox询问用户“你想提交数据吗”我的本意：我的脚本会等到用户点击按钮.一旦检测到用户点击了该按钮,我的脚本就会获得一个元素的值,然后(不知何故)在dialogbox上单击OK.题：如何等待用户点击按钮？然后如何在dialogbox上单击“确定”？补充说明：使用：c
python:内存泄漏测试 weixin_34163741 python
#测试内存泄露#importgc#gc.enable()#gc.set_debug(gc.DEBUG_LEAK)#gc.collect()#start=len(gc.garbage)#printaDict[CMD]self._funcmap[aDict[CMD]](aCur,self,aDict)#gc.collect()#end=len(gc.garbage)#ifstart!=end:#pri
第十二届蓝桥杯真题Python组卡片阿于阿于蓝桥杯模拟/真题
卡片本题总分：5分【问题描述】小蓝有很多数字卡片，每张卡片上都是数字0到9小蓝准备用这些卡片来拼一些数，他想从1开始拼出正整数，每拼一个，就保存起来，卡片就不能用来拼其它数了。小蓝想知道自己能从1拼到多少。例如，当小蓝有30张卡片，其中0到9各3张，则小蓝可以拼出1到10,但是拼11时卡片1已经只有一张了，不够拼出11现在小蓝手里有0到9的卡片各2021张，共20210张，请问小蓝可以从1拼到多少
Python第二十三课：自监督学习 | 无标注数据的觉醒程之编 Python全栈通关秘籍 python 开发语言人工智能机器学习
本节目标理解自监督学习的核心范式与优势掌握对比学习（ContrastiveLearning）框架实现图像掩码自编码器（MaskedAutoencoder）开发实战项目：亿级参数模型轻量化探索数据增强的创造性艺术一、自监督学习基础（AI的拼图游戏）1.核心思想解析学习范式数据需求生活比喻监督学习海量标注数据老师逐题批改作业无监督学习纯无标签数据自学杂乱笔记自监督学习自动生成伪标签玩拼图游戏（根据碎片
新手村：数据预处理-异常值检测方法嘉羽很烦机器学习机器学习
机器学习中异常值检测方法一、前置条件知识领域要求编程基础Python基础（变量、循环、函数）、JupyterNotebook或PyCharm使用。统计学基础理解均值、中位数、标准差、四分位数、正态分布、Z-score等概念。机器学习基础熟悉监督/无监督学习、分类、聚类、回归等基本概念。数据预处理数据清洗、特征缩放（标准化/归一化）、数据可视化（Matplotlib/Seaborn）。二、渐进式学习
python ==module 'datetime' has no attribute 'strptime' NO如果 python python
示例：datetime.datetime.strptime(string,"%Y-%m-%d%H:%M:%S")换成时分秒格式，数据库存储为datetime格式
在Python中如何检测和解决内存泄漏问题 python资深爱好者 python jvm
在Python中，内存泄漏通常不是像在一些低级语言（如C或C++）中那样常见，因为Python的内存管理（包括自动垃圾回收）相对高级且自动化。然而，在长时间运行的应用程序中，特别是在使用大量循环、大型数据结构或外部库时，仍然可能出现内存泄漏。以下是在Python中检测和解决内存泄漏的一些方法：1.使用内存分析工具a.objgraphobjgraph是一个用于分析Python对象图的库，可以帮助你识
Python在数据处理中的应用：从入门到精通程之编 python 信息可视化开发语言
活动发起人@小虚竹想对你说：这是一个以写作博客为目的的创作活动，旨在鼓励大学生博主们挖掘自己的创作潜能，展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴，那么，快来参加吧！我们一起发掘写作的魅力，书写出属于我们的故事。我们诚挚邀请你参加为期14天的创作挑战赛！在当今数字化时代，数据处理已成为各个领域不可或缺的一部分。无论是企业决策、科学研究还是日常的个人数据分析，掌握高效的
洛谷 P5534 【XR-3】等差数列 python 阿于阿于 xr
这题不用向下取整//就会错，不太能理解为什么...感觉对结果好像没什么影响啊a1,a2,n=map(int,input().split())d=a2-a1an=a1+d*(n-1)s=(a1+an)*n//2print(s)
python 装饰器每天减 1/5kg python
装饰器装饰器本质上是一个返回函数的高阶函数，可以接收函数作为参数，并返回一个新的函数。它允许你在不修改原函数代码的情况下，动态地给函数或方法添加额外的功能在我们的日常使用中，装饰器一般用于：日志记录、权限认证、性能分析、缓存等场景。简单示例defmy_decorator(func):defwrapper(*args,**kwargs):print("Beforecallingthefunction
支持向量机 (SVM) 算法详解 sssugarr 机器学习算法详解 python svm 支持向量机算法 sklearn
支持向量机(SVM)算法详解支持向量机（SupportVectorMachine,SVM）是一种监督学习模型，广泛应用于分类和回归分析。SVM特别适合高维数据，并且在处理复杂非线性数据时表现出色。本文将详细讲解SVM的原理、数学公式、应用场景及其在Python中的实现。什么是支持向量机？支持向量机的目标是找到一个最佳的决策边界（或称超平面）来最大限度地分隔不同类别的数据点。对于线性可分的数据，SV
python记录运行时间_计算python程序运行时间 weixin_39668408 python记录运行时间
本文介绍三种方法用来计算python程序的运行时间，考虑多现在计算机都是多进程执行环境，本文介绍的方法，前两种统计了其它进程的时间，实际上是python程序执行开始和结束的时间，只有最后一个方法，是计算的python程序的独自占用的CPU时间，但是python官方已经不再推荐。各位同学可以根据自己的应用情况选择考虑。1，用datatime模块，秒级精度>>>importdatetime>>>dat
Python 时间同步程序东亭山人 Python 时间同步
Python时间同步程序运行结果两种修改本地时间的方法(局域网内，利用网关服务器，穿越代理，与互联网时间同步的方法：前部分用于win7系统，后部分用于winserver2008。需要pip3installntplib需要启动WindowsTime服务。)importwin32apiimportdatetimeimportosimporttimeimportntplibdefSetClockL():
Python爬虫 -- re正则+csv存储小鞠.. Python爬虫 python 爬虫开发语言
爬取Boss上有关Python的工作。网址链接https://www.zhipin.com/wapi/zpgeek/search/joblist.json?scene=1&query=python&city=100010000&experience=&payType=&partTime=°ree=&industry=&scale=&stage=&position=&jobType=&sala
Python常用国内镜像源（清华、豆瓣、阿里云、中科大）老马达 #深度学习基础 python
使用Python最便捷的就是下载使用各种“包”，然而往往长时间不用就容易忘记，在这里将网上一些资源收集整理，一是方便自己日后使用，二是与诸君共享。一、代码清华大学开源软件镜像站：https://pypi.tuna.tsinghua.edu.cn/simple阿里云开源镜像站：https://mirrors.aliyun.com/pypi/simple/豆瓣：https://pypi.douban.
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息

python3的urllib3和requests

urllib

1.基本方法

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

2.使用Request

urllib.request.Request(url, data=None, headers={}, method=None)

3.Post数据

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None)

4.异常处理

5、使用代理

urllib.request.ProxyHandler(proxies=None)

5、使用cookie

urllib.request.HTTPCookieProcessor()

requests

你可能感兴趣的:(python)

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

`urllib.request.Request`(url, data=None, headers={}, method=None)

`urllib.request.urlopen`(url, data=None, [timeout, ], cafile=None, capath=None, cadefault=False, context=None*)

`urllib.parse.urlencode`(query, doseq=False, safe='', encoding=None, errors=None)

`urllib.request.ProxyHandler`(proxies=None)