小椰_T

第二章 Urllib库的使用

文章目录

第二章 Urllib库的使用
- 2.1 基本使用
- - 2.1.1 urlopen()
  - 2.1.2 1个类型与6个方法
  - 2.1.3 data参数
  - 2.1.4 timeout参数
  - 2.1.5 Request
- 2.2 解析链接
- - 2.2.1 urlparse()
  - 2.2.2 urlunparse()
  - 2.2.3 urlsplit()
  - 2.2.4 urlunsplit()
  - 2.2.5 urljoin()
  - 2.2.6 urllib.parse.quote()
  - 2.2.7 urllib.parse.urlencode()
  - 2.2.8 post请求01
  - 2.2.9 post请求02
- 2.3 异常处理
- - 2.3.1 URLError
  - 2.3.2 HTTPError
- 2.4 Urllib下载到本地
- 2.5 Robots协议
- - 2.5.1 robotparse

第二章 Urllib库的使用

Python内置的HTTP请求库，包含如下4个模块：

request：它是最基本的HTTP请求模块，可以用来模拟发送请求，需要给库方法传入URL以及额外的参数
error：异常处理模块，如果出现错误，我们可以捕获这些异常，然后进行重试或其他操作以保证程序不会意外终止
parse：一个工具模块，提供了许多URL处理方法，如拆分，解析，合并等
robotparser：主要用来识别网站的robots.txt文件，然后判断哪些网站可以爬，哪些网站不可以爬，一般用的比较少

2.1 基本使用

2.1.1 urlopen()

import urllib.request


# 定义一个url，待访问的网址
url = 'http://www.baidu.com'
# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(url)
# read()方法返回的是字节形式的二进制数据，转换成字符串要解码decode()
content = response.read().decode('utf-8')

print(content)

2.1.2 1个类型与6个方法

一、response响应是HTTPResponse类型

import urllib.request


url = 'http://www.baidu.com'
response = urllib.request.urlopen(url)
print(type(response))
结果：
<class 'http.client.HTTPResponse'>

二、6个方法

- response.read() 一个字节一个字节的读，read()方法中的数字表示返回的字节的个数
- readline() 读取一行
- readlines() 一行一行的读直到读完
- getcode() 返回状态码,是200就没毛病
- geturl() 返回的是url地址
- getheaders() 返回的是状态信息及响应头

2.1.3 data参数

如果要添加该参数，它需要被转码成字节流类型，即 bytes 类型，通过 bytes()方法转化。一旦传递了这个参数，它的请求方式不再是GET方式，而是POST方式。

2.1.4 timeout参数

timeout参数用于设置超时时间(单位：秒)，支持HTTP，HTTPS，FTP请求。如果请求超出了设置的时间还没有得到响应，就会抛出异常。不指定该参数就会使用全局默认时间。

import urllib.request


url = 'http://www.baidu.com'
response = urllib.request.urlopen(url=url, timeout=0.1)
content = response.read().decode('utf-8')
print(content)

报错:
socket.timeout: timed out

2.1.5 Request

利用urlopen()可以实现最基本请求的发起，但是这些简单的参数不足以构建完整的请求。要在请求中加入Headers等信息，需要用更强大的Request类，可以查看一下该类需要的参数。

说明：

url参数是必传参数，其他都是可选参数
data参数必须传bytes(字节流)类型，如果它是字典先用urllib.parse模块的urlencode()方法编码，还要encode()编码
headers是一个字典，就是请求头，我们可以在构造请求时通过headers参数直接构造，也可以调用请求实例add_header()方法添加，最常用的添加请求头就是通过UA伪装
origin_req_host指的是请求方的host名称或者ip地址
unverifiable表示这个请求是否是无法验证的，默认False
method表示请求使用的方法，GET，POST，PUT等

2.2 解析链接

urllib库中的parse模块，他定义了处理URL的标准接口，url中各部分抽取，合并，转换。

2.2.1 urlparse()

可以实现url的识别与分段

import urllib.parse


url = 'https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E5%91%A8%E6%9D%B0%E4%BC%A6'
response = urllib.parse.urlparse(url)
print(type(response), response)

<class 'urllib.parse.ParseResult'> ParseResult(scheme='https', netloc='www.baidu.com', path='/s', params='', query='ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=%E5%91%A8%E6%9D%B0%E4%BC%A6', fragment='')

协议（scheme）
域名（netloc）
路径（path）
路径参数（params）
查询参数（query）
片段（fragment）

2.2.2 urlunparse()

与urlparse()对立的方法，接受的参数是一个可迭代的对象，长度必须是6，否则会抛出参数不足或过多。

import urllib.parse


req = ['https', 'www.baidu.com', 'index.html', 'user', 'a=6', 'comment']
print(urllib.parse.urlunparse(req))
结果:
https://www.baidu.com/index.html;user?a=6#comment

2.2.3 urlsplit()

用法urlparse()用法相似,不再单独解析params部分，合并到path，返回的参数只有5个。

2.2.4 urlunsplit()

相似于urlunparse()，长度是5。

2.2.5 urljoin()

urlunparse()与urlunsplit()方法可以完成链接的合并，但是需要特定的长度的对象，每一部分都要清晰分开。

urljoin()基本用法：提供一个基础链接作为参数1，新的链接作为参数2，该方法会分析两个链接中的scheme，netloc，path。将这3个部分缺失的地方补充到新连接中。

import urllib.parse


print(urllib.parse.urljoin('http://www.baidu.com', 'FAQ.html'))
结果：
http://www.baidu.com/FAQ.html

2.2.6 urllib.parse.quote()

例如模拟在百度搜索’周杰伦’时

import urllib.request


url = 'https://www.baidu.com/s?wd=周杰伦'
# 请求对象定制
headers = {
	'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'
}

request = urllib.request.Request(url=url, headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)

会报错,因为识别不了’周杰伦’

UnicodeEncodeError: 'ascii' codec can't encode characters in position 10-12: ordinal not in range(128)

quote()：汉字或者其他字符变成Unicode编码

import urllib.parse

name = urllib.parse.quote('周杰伦')
print(name)

%E5%91%A8%E6%9D%B0%E4%BC%A6

真正的url：'https://www.baidu.com/s?wd=%E5%91%A8%E6%9D%B0%E4%BC%A6'

当需要转码的字符较多时，用quote()就会显得特别麻烦

2.2.7 urllib.parse.urlencode()

应用场景：url中有多个参数时,以字典形式存放，如：‘https://www.baidu.com/s?wd=周杰伦&sex=男’

import urllib.parse


data = {
    'wd': '周杰伦',
    'sex': '男'
}
res = urllib.parse.urlencode(data)
print(res)

# 结果：
wd=%E5%91%A8%E6%9D%B0%E4%BC%A6&sex=%E7%94%B7

2.2.8 post请求01

post请求方式的参数必须编码，编码之后还要调用encode()编码
参数放在请求对象定制的方法中

以百度翻译为例。

import urllib.request
import urllib.parse


url_page = 'http://fanyi.baidu.com/sug'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'
}

data = {
    'kw': 'spider'
}

# post的请求的参数必须进行编码
data = urllib.parse.urlencode(data)
# post的请求参数不会拼接在url后面，需要放在请求对象定制的参数中
request = urllib.request.Request(url=url_page, data=data, headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)

TypeError: POST data should be bytes, an iterable of bytes, or a file object. It cannot be of type str.

问题出在第16行，改成：

data = urllib.parse.urlencode(data).encode('utf-8')

{"errno":1000,"errmsg":"\u672a\u77e5\u9519\u8bef"}

以上的结果是一个json数据，完整代码：

import urllib.request
import urllib.parse
import json


url_page = 'https://fanyi.baidu.com/sug'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'
}

data = {
    'kw': 'spider'
}

# post的请求的参数必须进行编码
data = urllib.parse.urlencode(data).encode('utf-8')
# post的请求参数不会拼接在url后面，需要放在请求对象定制的参数中
request = urllib.request.Request(url=url_page, data=data, headers=headers)
# 模拟浏览器请求
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
# 字符串->json对象
obj = json.loads(content)
print(obj)

{'errno': 0, 'data': [{'k': 'spider', 'v': 'n. 蜘蛛; 星形轮，十字叉; 带柄三脚平底锅; 三脚架'}, {'k': 'Spider', 'v': '[电影]蜘蛛'}, {'k': 'SPIDER', 'v': 'abbr. SEMATECH process induced damage effect revea'}, {'k': 'spiders', 'v': 'n. 蜘蛛( spider的名词复数 )'}, {'k': 'spidery', 'v': 'adj. 像蜘蛛腿一般细长的; 象蜘蛛网的，十分精致的'}]}

2.2.9 post请求02

用edge浏览器在Headers中找不到Form Data数据，可能是放在Payload中

百度翻译中有一种详细翻译

import urllib.request
import urllib.parse
import json


url = 'https://fanyi.baidu.com/v2transapi?from=en&to=zh'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'
}

Data = {
    'from': 'en',
    'to': 'zh',
    'query': 'love',
    'transtype': 'enter',
    'simple_means_flag': '3',
    'sign': '198772.518981',
    'token': '65e4e8433224437143da6972871e94fc',
    'domain': 'common'
}
data = urllib.parse.urlencode(Data).encode('utf-8')

request = urllib.request.Request(url=url, data=data, headers=headers)
# 模拟浏览器向服务器发送请求
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')

obj = json.loads(content)
print(obj)

{'errno': 997, 'errmsg': '未知错误', 'query': 'lo', 'from': 'en', 'to': 'zh', 'error': 997}

请求头种的参数是真实浏览器发送请求时携带的参数，把请求头中数据都放进上面第7行的headers就欧克了？但是要记得看下图第2条Accept-Encoding中没有utf-8，所以要把它干掉

结果超多，不展示了，但是要找准Form Data中query对应的值是否是完整的单词，不然结果会是上面那个未知错误。

上图中起决定性作用的是Cookie，把其他参数都拖出去咔嚓掉只留下Cookie结果也一样

2.3 异常处理

urllib的error模块定义了由request模块产生的异常。

2.3.1 URLError

URLError类来自urllib库的error模块，继承自OSError类，是error异常模块的基类。由request生成的异常都可以用这个类处理。

它具有一个属性reason，即返回错误的原因。

例如打开一个不存在的网页：

from urllib import request, error

try:
    url = 'https://www.piaopiao.com'
    response = request.urlopen(url)
except error.URLError as e:
    print(e.reason)

打开如上那个不存在的页面时应该说要报错，但我们捕获了URLError这个异常，得到以下的结果。程序没有直接报错，可以避免程序异常终止，同时异常得到处理。

[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: Hostname mismatch, certificate is not valid for 'www.piaopiao.com'. (_ssl.c:1129)

2.3.2 HTTPError

HTTPError是URLError的子类，专门处理HTTP请求错误，它有3个属性：

code：返回HTTP状态码
reason：同父类一样，返回错误的原因
headers：返回请求头

在捕获异常的时候一般先是找子类的异常，找不到再找父类

2.4 Urllib下载到本地

**urllib.request.urlretieve()**方法直接将远程数据下载到本地

函数原型：urlretrieve(url, filename=None, reporthook=None, data=None)

参数 url 指定了要下载的文件的url
参数 finename 指定了保存本地路径（如果参数未指定，urllib会生成一个临时文件保存数据。）
参数 reporthook 是一个回调函数，当连接上服务器、以及相应的数据块传输完毕时会触发该回调，我们可以利用这个回调函数来显示当前的下载进度。
参数 data 指 post 到服务器的数据，该方法返回一个包含两个元素的(filename, headers)元组，filename 表示保存到本地的路径，header 表示服务器的响应头。

import urllib.request


url_page = 'http://www.baidu.com'
# 下载网页
urllib.request.urlretrieve(url=url_page)
# 图片，视频也阔以...

或者写入文件

2.5 Robots协议

全称网络爬虫排除标准(Robots Exclusion Protocol)，也叫做爬虫协议，机器人协议。用来告诉爬虫和搜索引擎哪些网页可以爬，哪些不能爬，robots.txt一般放在网站根目录下。在域名后加上robots.txt可以查看

当搜索爬虫访问一个网站时，首先检查该网站根目录下是否有robots.txt文件，若有，会根据其中定义的爬取范围爬取；否则，会访问所有可以访问的页面

2.5.1 robotparse

查看是否有权限爬取这个网页,传入robots.txt的链接即可，或者在声明时不传入，用set_url)()方法设置

urllib.robotparse.RobotFileParser(url='')

Python --**kwargs 潇湘馆记 python
在Python中，**kwargs是一个特殊语法，用于在函数定义中接收任意数量的关键字参数（即键值对参数），并将这些参数以字典形式存储。它是Python中处理动态参数的强大工具，适用于需要灵活传递参数的场景。1.基本语法定义方式：在函数参数列表中使用**kwargs（名称可以自定义，但通常遵循kwargs约定）。参数类型：kwargs是一个字典，键是参数名，值是对应的参数值。示例defprint_
Python 数据分析实战：跨境电商行业发展解析萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1跨境电商消费者地域分布分析2.4.2跨境电商商品销售与价格关系分析2.4.3跨境电商行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-跨境电商消费者地域分布分析3.4数据分析-跨境电商商品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集
网络安全爬虫全解析 Hacker_LaoYi 爬虫 web安全网络
1.网络爬虫的认识网络爬虫是自动从互联网定向或不定向地采集信息地一种程序工具。网络爬虫分为很多类别，常见的有批量型网络爬虫、增量型网络爬虫（通用爬虫）、垂直网络爬虫（聚焦爬虫）。2.网络爬虫的工作原理通用爬虫：首先给定初始URL，爬虫会自动获取这个URL上的所有URL并将已经在爬取的地址存放在已爬取列表中。将新的URL放在队列并依次读取新的URL，依次判读是否满足所设置的停止获取的条件。聚焦爬虫：
用Python爬虫获取AliExpress商品信息：item_search API接口实战指南 JelenaAPI小小爬虫 Python API python 爬虫开发语言
引言在全球化电商的浪潮中，数据的力量不容小觑。对于电商分析师、市场研究者以及在线商家而言，能够快速获取商品信息是至关重要的。AliExpress作为全球知名的跨境电商平台，提供了丰富的商品数据。本文将介绍如何使用Python爬虫结合item_searchAPI接口，按关键字搜索并获取AliExpress上的商品信息。一、为什么选择Python爬虫Python因其简洁的语法和强大的库支持，成为编写爬
使用DeepSeek R1大模型编写迅投 QMT 的量化交易 Python 代码 wtsolutions qmt量化交易 python qmt deepseek 量化交易代码生成
随着人工智能技术的迅猛发展，利用AI工具提升工作效率已成为现代开发者的重要手段。在使用deepseek官方网页生成迅投QMT代码的时候，deepseek给出的代码是xtquant代码，也就是miniqmt代码，并不是我们传统意义上说的大QMT可用的代码。因此，我们需要自建一个知识库，让deepseek根据我的知识库里面的知识，去帮我生成大QMT可用的交易代码。一、建立迅投QMT的知识库建立迅投QM
Qt上位机编程命名规范-执行版有追求的菜鸟 qt 开发语言
主要规范原则参考Qt上位机编程命名规范。1.文件/文件夹大小写分析考虑跨平台性，全小写是一种约定俗成的风格，在许多大型开源项目中（如Linux内核、Python标准库）被广泛使用。1.1.配合文件扩展名通常文件名小写配合小写扩展名（如.h,.cpp,.json），使整体风格统一：main.cppconfig.jsonutils.h1.2.文件夹和pri文件命名通常小写、下划线分开：control_
通过Bokeh实现大规模数据可视化的最佳实践【从静态图表到实时更新】步入烟尘算法指南信息可视化 Bokeh python
本文已收录于《Python超入门指南全册》本专栏专门针对零基础和需要进阶提升的同学所准备的一套完整教学，从基础到精通不断进阶深入，后续还有实战项目，轻松应对面试，专栏订阅地址：https://blog.csdn.net/mrdeam/category_12647587.html优点：订阅限时19.9付费专栏，私信博主还可进入全栈VIP答疑群，作者优先解答机会（代码指导、远程服务），群里大佬众多可以
轻松帮你搞清楚Python爬虫数据可视化的流程 liuhaoran___ python
Python爬虫数据可视化的流程主要是通过网络爬取所需的数据，并利用相关的库将数据分析结果以图形化的方式展示出来，帮助用户更直观地理解数据背后的信息。Python爬虫+数据可视化步骤1.获取目标网站的数据使用`requests`或者`selenium`库从网页上抓取信息。对于动态加载内容的页面可以考虑结合JavaScript渲染引擎。2.解析HTML内容提取有用信息常见工具如BeautifulSo
python使用Bokeh库实现实时数据的可视化 Oona_01 python 信息可视化数据分析
Python语言以其丰富的数据科学生态系统而闻名,其中Bokeh库作为一种功能强大的可视化工具,为实时数据的可视化提供了优秀的支持,本文将介绍如何使用Bokeh库实现实时数据的可视化,并提供相关代码实例,需要的朋友可以参考下使用Python的Bokeh库进行实时数据可视化的实现Bokeh简介实时数据可视化的需求使用Bokeh实现实时数据可视化的步骤代码示例Bokeh的进阶应用总结使用Python的
Python解决“特定数组的逆序拼接”问题啥都鼓捣的小yao 经典算法练习 python 算法开发语言
Python解决“特定数组的逆序拼接”问题问题描述测试样例解决思路代码问题描述小U得到了一个数字n，他的任务是构造一个特定数组。这个数组的构造规则是：对于每个i从1到n，将数字n到i逆序拼接，直到i等于n为止。最终，输出这个拼接后的数组。例如，当n等于3时，拼接后的数组是[3,2,1,3,2,3]。测试样例样例1：输入：n=3输出：[3,2,1,3,2,3]样例2：输入：n=4输出：[4,3,2,
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
Python 爬虫实战：社交媒体品牌反馈数据抓取与舆情分析西攻城狮北 python 爬虫媒体
一、引言在当今数字化时代，社交媒体已成为公众表达意见、分享信息的重要渠道。品牌的声誉和市场表现往往受到消费者在社交平台上的反馈和评价的影响，因此品牌舆情分析变得至关重要。本文将介绍如何使用爬虫技术爬取社交媒体上的品牌反馈数据，并通过数据分析技术，分析品牌的舆情动态。二、环境准备在开始之前，确保你的开发环境已经安装了以下必要的Python库：requests:用于发送HTTP请求。beautiful
Python预训练模型实现俄语音频转文字啥都鼓捣的小yao 人工智能 python 音视频人工智能
Python预训练模型实现俄语音频转文字使用CommonVoice8.0、Golos和MultilingualTEDx的训练和验证分割对俄语的facebook/wav2vec2-xls-r-1b进行了微调。使用此模型时，请确保您的语音输入以16kHz采样。我们只需要装好三个功能包，写好你的文件路径即可使用！importtorchimportlibrosafromtransformersimport
基于Python编程语言实现“机器学习”，用于车牌识别项目我的sun&shine Python python 机器学习计算机视觉
基于Python的验证码识别研究与实现1.摘要验证码的主要目的是区分人类和计算机，用来防止自动化脚本程序对网站的一些恶意行为，目前绝大部分网站都利用验证码来阻止恶意脚本程序的入侵。验证码的自动识别对于减少自动登录时长，识别难以识别的验证码图片有着重要的作用。对验证码图像进行灰度化、二值化、去离散噪声、字符分割、归一化、特征提取、训练和字符识别等过程可以实现验证码自动识别。首先将原图片进行灰度化处理
6.8:Python如何处理文件写入时出现的错误？小兔子平安 Python完整学习全解答 java windows html
Python是一种功能强大且易于学习的编程语言，已经成为了当今最流行的编程语言之一。随着Python应用领域的不断扩大，越来越多的人开始学习Python，希望能够掌握这个有用的工具，从而实现更多的创意和创新。而文件操作是Python编程中不可或缺的一部分，对于处理文件写入时的错误更是必须掌握的技能。本文主要介绍如何处理Python中文件写入时的错误。我们将详细讲解如何使用try-except语句、
Python3包开发的高效Cookiecutter模板：python-package-template 一只爪子
本文还有配套的精品资源，点击获取简介：本文介绍了一个名为python-package-template的Cookiecutter模板，用于简化Python包的开发过程。该模板遵循Python的最佳实践，并自动创建项目结构，包括setup.py、MANIFEST.in、LICENSE、README.md、.gitignore、requirements.txt、测试配置文件、CI配置文件、测试目录和文
python列表操作计算列表长度并输出,Python基础2：列表想吃草莓干
一、列表列表是按照特定顺序的排列组合，就像数学中的数列，列表中的元素具有⼀定的排列顺序。在Python中，列表用方括号[]来表示列表，比如：>>>a=['Python','C','Java']1、访问列表中的元素索引开始：0如果我们想要打印上述列表中Python，就需要我们访问列表中第一个元素，在Python中，列表的访问从0开始，索引数为元素的位置减去1，访问的元素位置放在方括号里面，如果我们想
Python项目自动化模板构建：深入理解Cookiecutter TEDDYYW
本文还有配套的精品资源，点击获取简介：Python项目的标准化构建过程对于代码的整洁和可维护性至关重要。本文将深入探讨如何利用"cookiecutter"这一Python命令行工具自动化项目的初始化过程。Cookiecutter通过读取预定义模板并根据用户输入自动生成项目结构，简化了项目设置。我们将详细了解"cookiecutter-python-master"模板的组成，包括标准项目结构、初始化
学习记录之游标翻页实现 sjsjsbbsbsn Java学习之路项目实战技巧 java mysql redis
游标翻页本方案参考mallchat实现一.深翻页问题普通翻页前端一般会有个分页条。能够指定一页的条数，以及任意选择查看第几页,假设我们想查询第11页的内容传递过来的参数为:pageNo=11，pageSize=10对应的sql查询为:select*fromtablelimit100,10其中100代表需要跳过的条数，10代表跳过指定条数后，往后需要再取的条数。假设翻页到1w条,那我们要先扫描到这1
多阶段构建实现 Docker 加速与体积减小：含文件查看、上传及拷贝功能的 FastAPI 应用镜像构建九不多 Docker docker fastapi python YOLO
本文围绕使用Docker构建FastAPI应用镜像展开，着重介绍了多阶段构建的Dockerfile编写及相关操作。借助多阶段构建，不仅实现了Docker构建的加速，还有效减小了镜像体积。1.Dockerfile内容以下是我们要使用的Dockerfile内容：#第一个阶段-构建应用FROMdocker.1ms.run/python:3.9ASbuilder#设置工作目录WORKDIR/app#复制依
Python列表的创建只是没遇到 python
Python3列表序列是Python中最基本的数据结构。序列中的每个值都有对应的位置值，称之为索引，第一个索引是0，第二个索引是1，依此类推。Python有6个序列的内置类型，但最常见的是列表和元组。列表都可以进行的操作包括索引，切片，加，乘，检查成员。此外，Python已经内置确定序列的长度以及确定最大和最小的元素的方法。列表是最常用的Python数据类型，它可以作为一个方括号内的逗号分隔值出现
Python最佳实践项目Cookiecutter常见问题解决方案柯茵沙
Python最佳实践项目Cookiecutter常见问题解决方案python-best-practices-cookiecutterPythonbestpracticesprojectcookiecutter项目地址:https://gitcode.com/gh_mirrors/py/python-best-practices-cookiecutter项目基础介绍本项目是一个Python最佳实践的
Vision mamba(mamba_ssm)安装踩坑指南 ggitjcg 深度学习 python
在这篇博客中，我将分享我在linux环境安装和使用VisionMamba（mamba_ssm）过程中遇到的一些问题和解决方法。前置检查：PyTorch和Python版本在安装mamba_ssm前，请确保你的PyTorch和Python环境版本正确。以下代码可用来检查环境信息：importtorchprint("PyTorchVersion:{}".format(torch.__version__)
探秘 Cookiecutter：一个高效项目模板生成器尤琦珺Bess
探秘Cookiecutter：一个高效项目模板生成器cookiecutter项目地址:https://gitcode.com/gh_mirrors/coo/cookiecutter如果你是一位热衷于Python开发的程序员，或者你经常需要初始化新的项目，那么你可能会对感兴趣。这是一个强大的工具，它能够根据预定义的模板快速生成项目结构，极大地提高了开发效率。项目简介Cookiecutter是一个命令
Mac【卸载 Python】 - 3.12.2 Stongtang Python macos python
一、若使用官方安装包安装1.删除Python框架Python官方安装包会将Python安装到/Library/Frameworks/Python.framework/Versions/3.12目录下。你可以在终端中使用以下命令删除该目录：sudorm-rf/Library/Frameworks/Python.framework/Versions/3.12执行此命令时，系统会要求你输入管理员密码，输
常用的API设计都有哪些风格 PhilipJ0303 Java面试 java API设计接口设计
API设计是软件开发中非常重要的一部分，良好的API设计可以提高系统的可维护性、扩展性和易用性。常见的API设计风格主要有以下几种：1.RESTfulAPI特点：基于HTTP协议，使用标准的HTTP方法（GET、POST、PUT、DELETE等）来操作资源。资源通过URL定位，URL通常表示资源的层级关系。无状态，每次请求都包含足够的信息来完成请求。返回格式通常是JSON或XML。优点：简单易用，
Ubuntu和Windows系统之Mamba_ssm安装 Netceor Python ubuntu windows linux
Mamba的论文：https://arxiv.org/abs/2312.00752Mamba的github：https://github.com/state-spaces/mamba一、Ubuntu安装直接新建一个环境是最好的，不然很容易产生各种冲突#创建环境和相关包condacreate-nmambapython=3.10.13condaactivatemambacondainstallcuda
Python, C ++开发工厂管理APP Geeker-2025 python c++
开发一款通用的**工厂管理App**，结合Python和C++的优势，可以实现高效的后端数据处理、实时的生产监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：WebSoc
Python列表1 cfjybgkmf Python python 开发语言
#coding:utf-8print("————————————列表——————————————")'''列表是指一系列按照特定顺序排列的元素组成是Python中内置的可变序列使用[]定义列表，元素与元素之间使用英文的逗号分隔列表中的元素可以是任意的数据类型''''''列表的创建：（1）使用[]直接创建列表列表名=[element1,element2,...,elementN]（2）使用内置函数l
怎样才能把网页数据保存到网络上？ 2301_79698214 html javascript java 前端 html5
要将网页数据存放到网络中，一般可以通过以下几种常见的方式：1.使用后端服务器自建服务器：你可以搭建自己的服务器，例如使用Node.js的Express框架或者Python的Flask、Django框架。以下是一个使用Flask框架存储数据到服务器的简单示例：pythonApplyfromflaskimportFlask,requestapp=Flask(__name__)@app.route('/
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

第二章 Urllib库的使用

文章目录

第二章 Urllib库的使用

2.1 基本使用

2.1.1 urlopen()

2.1.2 1个类型与6个方法

2.1.3 data参数

2.1.4 timeout参数

2.1.5 Request

2.2 解析链接

2.2.1 urlparse()

2.2.2 urlunparse()

2.2.3 urlsplit()

2.2.4 urlunsplit()

2.2.5 urljoin()

2.2.6 urllib.parse.quote()

2.2.7 urllib.parse.urlencode()

2.2.8 post请求01

2.2.9 post请求02

2.3 异常处理

2.3.1 URLError

2.3.2 HTTPError

2.4 Urllib下载到本地

2.5 Robots协议

2.5.1 robotparse

你可能感兴趣的:(爬虫学习笔记,python,前端,开发语言,url,爬虫)