程序员日常

【20天玩转Python爬虫】第3天：urllib基本使用

上次文章中我们介绍了http协议，包含请求和响应部分。请求就是客户端向服务器端发送请求信息，服务器收到请求后，处理请求并返回响应。

通过上图和前一章爬虫我们了解到，平时我们使用浏览器访问一些网站就是使用了HTTP协议。那同理网络爬虫也是要使用HTTP协议才可以发出请求和获取响应。

电脑或者笔记本是使用了浏览器（比如IE、Chrom、Safari等），通过浏览器我们就可以看到丰富多彩、包罗万象的网络信息。那如果我们使用网络爬虫来去访问Web服务器，Python编程是用什么发出了请求，又获取的响应呢？

在Python中，我们可以使用urllib模块和requests模块。本篇我们主要围绕urllib模块来去介绍。

首先urllib是Python自带的标准库，无需安装，可以直接使用。如果想系统性的学习urllib库，可以直接看它的官方文档。官方文档:

https://docs.python.org/zh-cn/3.7/library/urllib.html

首先，我们看一下urllib库的官方文档：

大家可以发现文档是把urllib分成了4部分：

urllib.request请求模块
urllib.error 异常处理模块
urllib.parse 解析模块
urllib.robotparser 文件解析模块

我们本篇也是围绕这4部分展开讲解。

urllib.request请求模块

urllib.request 模块提供了最基本的构造 HTTP 请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理 authenticaton （授权验证）， redirections （重定向)， cookies (浏览器Cookies）以及其它内容。

urllib.request.urlopen(url, data=None, [timeout, ]*, context=None)
打开统一资源定位地址 url，url可以是一个字符串或一个Request对象，返回一个HTTPResponse对象
参数说明：
url就是要访问的网页的地址
data （附加参数）可选的，如果要添加 data ，它要求是字节流编码格式的内容即 bytes 类型，通过 bytes() 函数可以进行转化，另外如果你传递了这个 data 参数，它的请求方式就不再是 GET 方式请求，而是 POST 。
timeout （超时时间）设置网站访问超时时间
context，必须是 ssl.SSLContext 类型，用来指定 SSL 设置

我们来看一段通过urllib.request.urlopen访问百度首页的代码。

# 导包
import urllib.request
# 通过urllib.request.urlopen向百度发出请求，并获取响应
response = urllib.request.urlopen('http://www.baidu.com/')
# 查看返回的response的类型
print("查看 response 响应信息类型: ",type(response))
# 获取响应码
print(response.getcode())
# 读取响应内容
page = response.read()
# 打印响应内容
print(page)

通过运行结果我们发现返回的是HTTPResponse类型的对象，此对象可以调用的方法有：

read() ：方法的使用方式与文件对象完全一样;
info()：返回一个httplib.HTTPMessage对象，表示远程服务器返回的头信息；
getcode()：返回Http状态码。如果是http请求，200表示请求成功完成;404表示网址未找到；
geturl()：返回获取页面的真实 URL。在 urlopen（或 opener 对象）可能带一个重定向时，此方法很有帮助。获取的页面 URL 不一定跟真实请求的 URL 相同。

上例中我们就使用到了getcode()获取状态码和read()读取响应内容。

由上我们知道使用 urlopen() 方法可以实现最基本的请求发起，但这几个简单的参数并不足以构建一个完整的请求。因为上一篇文章我们提到过完整的请求是要有请求头等信息的。所以如果需要在请求中添加请求头，我们就必须使用更加强大的Reuqest类完成。

所以在级别上Reuqest类比urlopen()升级了一个level。看一下Request类的官方文档给出的解释

urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
参数：
url:要请求的url
data: data必须是bytes(字节流）类型，如果是字典，可以用urllib.parse模块里的urlencode()编码
headers:headers是一个字典类型，是请求头。可以在构造请求时通过headers参数直接构造，也可以通过调用请求实例的add_header()方法添加。可以通过请求头伪装浏览器，默认User-Agent是Python-urllib。要伪装火狐浏览器，可以设置User-Agent为Mozilla/5.0 (x11; U; Linux i686) Gecko/20071127 Firefox/2.0.0.11
origin_req_host: 指定请求方的host名称或者ip地址
unverifiable: 设置网页是否需要验证，默认是False，这个参数一般也不用设置。
method: 是一个字符串，用来指定请求使用的方法，比如GET，POST和PUT等

其实Request对象的本质是：使用request()来包装请求，再通过urlopen()获取页面。单纯使用 urlopen 并不能足以构建一个完整的请求，例如对拉勾网的请求如果不加上 headers 等信息，就无法正常解析访问网页内容。

下面代码是访问http://httpbin.org/这个测试网站通过post的请求方式，并携带了参数和请求头的信息。

from urllib import request, parse

url = 'http://httpbin.org/post'
# 请求头设置
headers = {
 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.0.3 Safari/605.1.15',
 'Host': 'httpbin.org'
}
# 参数设置
dict = {
 'name': 'Germey'
}
# 将参数转成字节形式
data = bytes(parse.urlencode(dict), encoding='utf8')
# 创建Request对象
response = request.Request(url=url, data=data, headers=headers, method='POST')
# 使用urlopen发出请求
response = request.urlopen(req)
# 读取并打印结果
print(response.read())

urllib.error

urllib.error可以接收有urllib.request产生的异常。urllib.error有两个方法，URLError和HTTPError。

URLError是OSError的一个子类，HTTPError是URLError的一个子类，服务器上HTTP的响应会返回一个状态码，根据这个HTTP状态码，我们可以知道我们的访问是否成功。例如第二个笔记中提到的200状态码，表示请求成功，再比如常见的404错误等。

URLError

URLError异常只有属性reason，表示错误原因。我们一起看一下URLError的异常，代码如下：

from urllib import request, error
# 一个不存在的网址链接
url = "http://www.nonepython.com"
req = request.Request(url)
try:
    response = request.urlopen(req)
    print('状态码：'+str(response.getcode()))
    html = response.read().decode('utf-8')
    print(html)
except error.URLError as e:
    print('错误：',e.reason)

运行结果：

错误：[Errno 8] nodename nor servname provided, or not known

在通过urlopen访问这个网址的时候，无法到达服务器，所以报错。因此URLError是url不对或者不存在会产生的错误。

HTTPError

HTTPError是URLError的子类，它的异常有3个属性：

code:返回状态码404表示不存在，500表示服务器错误
reason:返回错误原因
headers:返回请求头

我们一起看一下HTTPError异常，代码如下(大家可以尝试修改一下url地址观察一下)：

from urllib import request, error

try:
    response = request.urlopen('http://www.douban.com/374838/')
except error.HTTPError as e:
    print('HTTPError:', e.code, e.reason, e.headers)
else:
    print('请求成功！')

请求结果如下：

418是错误编码，reason没有，剩下的都是headers的内容。

最后值得注意的一点是，如果想用HTTPError和URLError一起捕获异常，那么需要将HTTPError放在URLError的前面，因为HTTPError是URLError的一个子类。如果URLError放在前面，出现HTTP异常会先响应URLError，这样HTTPError就捕获不到错误信息了。

from urllib import request, error

try:
    response = request.urlopen('http://www.douban.com/374838/')
except error.HTTPError as e:
    print('HTTPError:', e.code, e.reason, e.headers)
except error.URLError as e:
    print('URLError:', e.reason)
else:
    print('请求成功！')

urllib.parse

urllib库里还有parse模块，用于解析链接。定义了处理URL的标准接口，例如实现URL各部分的抽取、合并以及链接转换。

urllib.parse 分为 URL parsing (网址解析）和URL quoting（地址引用）

网址解析

URL 解析函数专注于将 URL 字符串拆分为其组件，或将 URL 组件组合到 URL 字符串中。

定义：urllib.parse.urlparse(urlstring, scheme=”, allow_fragments=True)
作用特点：将 URL 拆分成 6 大组件，如：http://www.baidu.com/index.html?name=mo&age=25#dowell
1、传输协议：http，https
2、域名：例www.baidu.com为网站名字。baidu.com为一级域名，www是服务器
3、端口：不填写的话默认走的是80端口号
4、路径 http://www.baidu.com/index.html。/表示分层路径
5、携带的参数：？问号传参（可有可无）如：?name=mo
6、哈希值：HASH值（可有可无）#dowell

主要记住：urlencode

对于构造GET请求参数时非常有用，首先声明一个字典将参数表示出来，然后调用urlencode的方法将其序列化为GET请求参数。

from urllib.parse import urlencode

params = {'name':'小明','age':20}
base_url = 'http://baidu.com?'
base_url += urlencode(params)
print(base_url)
# 结果：http://baidu.com?name=%E5%B0%8F%E6%98%8E&age=20

地址引用（URL Quoting)

URL引用函数侧重于获取程序数据，并通过引用特殊字符和适当地编码非ASCII文本来使其作为URL组件安全使用。它们还支持逆转这些操作，以使URL组件的内容重新创建原始数据，如果上述URL解析函数未覆盖该任务的话。

quote

该方法将内容转化为URL编码格式，此方法可以将中文字符串转化为URL编

from urllib.parse import quote

keyword = '美女'

url = 'http://www.baidu.com?wd=' +quote(keyword)
print(url)
# 结果：http://www.baidu.com?wd=%E7%BE%8E%E5%A5%B3

unquote：利用unquote进行还原

from urllib.parse import quote,unquote

print(unquote('%E7%BE%8E%E5%A5%B3'))

urllib.robotparser

在我们讲解urllib.robotparser之前，先说一下网站文件 robots.txt。

每个网站都会定义 robots.txt 文件，这个文件可以告诉网络爬虫爬取该网站时存在哪些限制。作为良好网民以及其他人利益，一般上遵从这些限制。

如何查看这个文件？可以通过在目标网站站点或域名后面加上 robots.txt 进行访问。

例如目标网站站点 https://www.baidu.com 的 robots.txt 文件就是 https://www.baidu.com/robots.txt

关于这个 robots.txt 文件内容：

section 1：定义了 Sitemap 文件，即所谓的网站地图。网站提供的 Sitemap 文件（即网站地图）提供了该网站站点里面所有页面的链接，这些链接组成了这个 Sitemap 文件，所以叫做地图并不过分。

section 2：如果这被注释掉的部分，如果没有被注释且指明了跳转链接，那么，表明每个用户两次爬虫之间的时间间隔不能小于 5s 否则所访问的网站网页会自动跳转到指定的链接页面。此时，相当于网站服务器禁封了 IP ，禁封时间依据各网站的情况。

section 3：这部分表示，robots.txt 文件禁止那些代理为 MSNBot 的爬虫访问网站。理解过来，就是禁止MSNBot爬虫代理访问网站。

Disallow表示不允许访问的路径，allow表示允许访问的路径。

import ssl

ssl._create_default_https_context = ssl._create_unverified_context
rp = robotparser.RobotFileParser()
rp.set_url('https://www.baidu.com/robots.txt')
rp.read()
url = 'https://www.baidu.com'
user_agent = 'YoudaoBot'
wsp_info = rp.can_fetch(user_agent, url)
print("Wandoujia Spider 代理用户访问情况：", wsp_info)
user_agent = 'Other Spider'
osp_info = rp.can_fetch(user_agent, url)
print("Other Spider 代理用户访问情况：", osp_info)

当你 urllib.urlopen一个 https 的时候会验证一次 SSL 证书，当目标使用的是自签名的证书时就会出现一个URLError，如果是这样可以在开头加上

import ssl
ssl._create_default_https_context = ssl._create_unverified_context

好啦！运行下看看上面的结果是什么？

当然这四个分类中有的内容比较多，我们只是提及比较常用的内容，希望对大家有帮助！

最后附加一个，就是urllib.urlretrieve()是直接将远程数据下载到本地。

这个函数可以方便的将网页上的一个文件保存到本地。文件类型可以是网页的html文件、图片、视频等媒体文件。

urlretrieve(url, filename=None, reporthook=None, data=None)
参数 url 指定了要下载的文件的url
参数 finename 指定了保存本地路径（如果参数未指定，urllib会生成一个临时文件保存数据。）
参数 reporthook 是一个回调函数，当连接上服务器、以及相应的数据块传输完毕时会触发该回调，我们可以利用这个回调函数来显示当前的下载进度。
参数 data 指 post 到服务器的数据，该方法返回一个包含两个元素的(filename, headers)元组，filename 表示保存到本地的路径，header 表示服务器的响应头。

from urllib import request
image_url = 'https://gimg2.baidu.com/image_search/src=http%3A%2F%2Fdingyue.nosdn.127.net%2FwFdkoX0pkLJoS1Ued6ou7dgUMaiZfAy93RiVXhz3iy7QU1542769981593compressflag.jpeg&refer=http%3A%2F%2Fdingyue.nosdn.127.net&app=2002&size=f9999,10000&q=a80&n=0&g=0n&fmt=jpeg?sec=1620297676&t=0b3443d8c5b502c8134079e0e131ef3f'
request.urlretrieve(image_url,'liying.jpg')

该方法主要用于文件的保存。路径是相对当前py文件来说,保存liying.jpg

35岁后被“优化”？大龄程序员的破局之道：别让技术成为唯一的底牌 GengMS_DEV 经验分享程序人生经验分享
35岁后被“优化”？大龄程序员的破局之道：别让技术成为唯一的底牌跳出技术舒适区，用资源和人脉搭建职业护城河凌晨两点，40岁的张工还在调试代码，屏幕右下角弹出的“系统优化通知”让他彻夜难眠——这已经是部门半年内第三次“结构调整”。看着身边刚毕业三年的同事轻松玩转最新框架，他不禁自问：技术人的职业生命，真的只有十年吗？创业不是救命稻草：技术人最容易踩的“转型坑”“凭我的技术，出来单干肯定比打工强！”这
FastAPI通用签名校验模块设计文档源滚滚AI编程 fastapi
作者:源滚滚AI编程创建时间:2025年07月08日版本:v1.0.0文档状态:设计阶段版权声明本文档由源滚滚AI编程创作，版权所有。未经作者书面许可，不得复制、分发或用于商业用途。免责声明本文档仅用于技术交流和学习目的。作者不对使用本文档内容导致的任何问题承担责任。在实际项目中应用时，请根据具体需求进行适当调整和测试。1.项目概述1.1项目目标开发一套基于FastAPI的独立签名校验模块，支持p
【taro react】 ---- RuiVerifySlider 行为验证码之滑动拼图使用【天爱验证码 tianai-captcha 】实现 Rattenking Taro React 入门到实战系列 taro react.js 前端
1.前言之前使用【AJ-Captcha行为验证码】实现过一个【TaroReact组件开发——RuiVerifySlider行为验证码之滑动拼图】，但是现在AI很火，所以就出现需要检测滑动验证码的是不是人机。其实检测条件也很简单，就是人不会匀速画直线。之前的滑动验证码基本都是检验一下终点坐标，现在需要检测人机，就需要检测滑动的时间和Y轴的坐标了。滑动验证码本来开源的项目也比较多，所以后端最后选择了【
【学无止境，每天一题】三倍子串请叫我小蜜蜂同学算法 c++
题目：三倍子串题目描述第三届上海青少年算法竞赛T4时间限制:1000ms空间限制:256mb给定一个十进制正整数n，请问可以从n中截取多少种不同的子串，使得子串构成的数字是3的倍数。例如：当n=1234，有且仅有3，12，123，234这四个子串是3的倍数。输入格式单个整数：表示输入的数字n输出格式单个整数：表示3的倍数的子串数量。数据范围对于20%的数据，1≤n≤10^9对于50%的数据，1≤n
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
Python Pandas库超详细教程：从入门到精通实战指南 stormsha Python python pandas 开发语言 python3.11 数据分析
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「stormsha的主页」，「stormsha的知识库」持续学习，不断总结，共同进步，为了踏实，做好当下事儿~非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨TheStart点点关注，收藏不迷路文章目录Pyt
一天一道Sql题(day03) huihui450 sql 数据库
将两个SELECT语句结合起来（一）_牛客题霸_牛客网思路：本题主要考查unionall连接两个sql语句，没什么难度union(all)：要求列的顺序、数据类型和列数保持一致。区别就是不加all会对连接的结果去重。unionall不会去重sql:select*fromOrderItemswherequantity=100unionallselect*fromOrderItemswhereprod
mediamtx v1.13.0版本深度解读：全面升级RTSP加密支持及多项关键改进解析
一、引言在现代视频流和实时传输技术迅速发展的背景下，开源流媒体服务器mediamtx的更新备受关注。2025年7月7日，mediamtx发布了v1.13.0版本，此版本带来了大量重要的功能增强和漏洞修复，尤其是在RTSP协议支持、加密传输、KLV元数据路由等方面做出了卓越提升。本文将从新特性、修复与提升、安全机制、依赖库升级等多个角度，详细解读mediamtxv1.13.0版本，助力开发者和运维人
python中的元类Metaclass ReedSun python python
python中的元类Metaclass理解元类之前需要学习的知识如果说让我们创建一个类，最先想到的肯定是用class创建，当我们使用class创建类的时候，python解释器自动创建这个对象，但是python同样也提供了手动处理的方法来创建类，这就是用python的自建函数type()。我们所熟知的type()函数的作用是返回一个参数的类型，但是实际上，它也有一种完全不同的能力，即接受一个类的一些
python 元类的继承_Python学习_13_继承和元类五伤先生 python 元类的继承
继承继承的含义就是子类继承父类的命名空间，子类中可以调用父类的属性和方法，由于命名空间的查找方式，当子类中定义和父类同名属性或者方法时，子类的实例调用的是子类中的属性，而不是父类，这就形成了python中的多态：defSuperClass:defa_method:passdefSubClass(SuperClass):defa_method:passobj=SubClass()obj.a_meth
PHP/Laravel + Vue3 + MySQL组合版本参考
以下是基于技术栈流行度、稳定性和开发效率综合评估的推荐版本组合1.后端技术栈PHP8.3最新稳定版，支持JIT编译，性能较PHP8.1提升15%+，完美兼容Laravel框架。扩展要求：openssl、pdo_mysql、mbstring（Laravel强制依赖）。Laravel11.x2024年发布，支持PHP8.2-8.3，提供轻量级应用骨架和更快的路由缓存。关键特性：原生支持Docker沙盒
网络安全用什么编程语言_网络安全的5种最佳编程语言程序员羊羊 web安全网络安全开发语言数据库
网络安全用什么编程语言要成为网络安全专家，要取得成功，需要多种技能。全方位的专业人员可以放心地实施和监视安全措施，以保护计算机系统免受攻击和未经授权的访问。总部位于巴西的Python专家Henrique教人们如何使用该语言创建应用程序，他强调“除了紧跟网络安全领域的最新动态，您还需要熟悉各种编程语言。”这里有5种最佳编程语言，可帮助您提高网络安全职业的学习能力。1.C和C++C和C++是网络安全专
Python面试题：使用Python进行元编程：元类和元编程技巧
在Python中，元编程是一种编程技巧，它涉及到代码本身的结构和行为的编程。元编程允许你编写能够操作、修改或生成代码的代码。最常见的元编程技术包括使用元类、装饰器和类装饰器。以下是对Python元编程的详细讲解，包括元类和一些常用的元编程技巧。1.元类（Metaclasses）1.1定义和概念元类是用来创建类的类。换句话说，元类定义了类的行为，就像类定义了对象的行为一样。在Python中，type
【Go语言-Day 7】循环控制全解析：从 for 基础到 for-range 遍历与高级控制
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
【Go语言-Day 5】掌握Go的运算脉络：算术、逻辑到位的全方位指南吴师兄大模型 Go 语言从入门到精通 golang 开发语言后端人工智能 python go语言 LLM
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
20 道 Node.js 高频面试题
文章目录1.**Node.js是什么？有哪些特点？**2.**Node.js中的事件循环是什么？如何工作？**3.**Node.js的模块系统有哪几种？区别是什么？**4.**什么是Buffer？为什么需要它？**5.**Node.js如何实现异步编程？**6.**Node.js中的Stream是什么？有哪些类型？**7.**Node.js中的Cluster模块有什么作用？**8.**Node.j
Python元类基础知识示例深度剖析，从新手小白成为Python编程高手只存在于虚拟的King python 开发语言深度学习学习经验分享计算机网络程序人生
文章目录引言一、什么是元类？二、元类的工作原理三、如何定义元类四、元类的应用场景五、元类的注意事项六、结论关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包+项目源码合集①Python工具包②Python实战案例③Python小游戏源码五、面试资料六、Python兼职渠道引言Python是一种强大的编程语言，一部
中电金信：十问高质量数据集：金融大模型价值重塑有“据”可循
2025年，随着大模型在金融领域的深度应用，高质量数据集已逐渐成为决定模型性能的“基石”。面对数据要素价值释放的关键机遇期，国家政策不断深入推进：2月，国务院国资委启动“AI+”专项行动，着力攻克数据难题；5月，数字中国峰会发布了首批30项央企AI高质量数据集成果；6月，在央国企金融领域人工智能高质量数据集工作推进会上，14家企业共同签署了“央国企金融数据产业共同体倡议书”，旨在推动人工智能与数据
stm32 micropython vscode_VS Code 上最硬核的 MicroPython 插件 weixin_39968309 stm32 micropython vscode
介绍VSCode上最硬核的MicroPython插件——RT-ThreadMicroPython，为MicroPython开发提供了强大的开发环境，主要特性如下：设备快速连接(串口、网络、USB)支持基于MicroPython的代码智能补全与语法检查支持MicroPythonREPL交互环境提供丰富的代码示例与demo程序提供工程同步功能支持下载单个文件或文件夹至开发板支持在内存中快速运行代码文件
人工智能发展简史——未来是属于AI人工智能的。 AI天才研究院 ChatGPT AI人工智能与大数据人工智能
目录人工智能发展简史第一章：起步期-20世纪50年代及以前1.1计算机象棋博弈（Programmingacomputerforplayingchess）1.2图灵测试（TuringTest）1.3达特茅斯学院人工智能夏季研讨会（DartmouthSummerResearchConferenceonArtificialIntelligence）1.4感知机（Perceptrons）第二章：第一次浪潮
Python对JSON数据操作
在Python中，对JSON数据进行增删改查及加载保存操作，主要通过内置的json模块实现。一、基础操作1.加载JSON数据•从文件加载使用json.load()读取JSON文件并转换为Python对象（字典/列表）：importjsonwithopen('data.json','r',encoding='utf-8')asf:data=json.load(f)•从字符串加载使用json.load
青少年编程与数学 02-022 专业应用软件简介 20 法律专业软件：Westlaw
青少年编程与数学02-022专业应用软件简介20法律专业软件：Westlaw一、Westlaw法律专业软件概述（一）软件简介1.软件发展历程2.软件的主要特点（二）软件的应用领域1.法律研究2.法律实践3.法律教育二、Westlaw软件的功能模块（一）检索功能1.多种检索方式2.检索结果筛选与排序（二）法律研究工具1.KeyCite关键引用2.Headnotes判例摘要3.NotesofDecis
【转载】python json
概念序列化（Serialization）：将对象的状态信息转换为可以存储或可以通过网络传输的过程，传输的格式可以是JSON、XML等。反序列化就是从存储区域（JSON，XML）读取反序列化对象的状态，重新创建该对象。JSON（JavaScriptObjectNotation）：一种轻量级数据交换格式，相对于XML而言更简单，也易于阅读和编写，机器也方便解析和生成，Json是JavaScript中的
Python os库完全指南：文件操作必备晨曦543210 Python启航之路 python 开发语言
一、简介Python的os库。这个库主要用于和操作系统交互，比如管理文件、目录、运行系统命令等。二、导入库importos三、基础操作获取当前工作目录current_dir=os.getcwd()print("当前目录:",current_dir)切换目录os.chdir("/path/to/new/directory")列出目录内容files=os.listdir()#不传参数则默认当前目录pr
核心网络协议的深度解析晨曦543210 网络协议网络
1.IP协议（网际层核心）（1）IPv4vsIPv6特性IPv4IPv6地址长度32位（约42亿地址）128位（3.4×10³⁸地址）表示方法点分十进制（如192.168.1.1）冒号分隔十六进制（如2001:0db8::1）关键改进-内置IPsec加密、无NAT、更简化的首部共存机制NAT、双栈技术逐步替代IPv4（2）子网划分与CIDR子网掩码：标识网络位与主机位（如255.255.255.0
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
Python JSON操作完全指南
目录一、简介二、JSON和Python的对应关系三、核心函数1.json.dumps()：将Python对象→JSON字符串2.json.loads()：将JSON字符串→Python对象3.json.dump()：将Python对象→JSON文件4.json.load()：从JSON文件→Python对象四、常见错误处理1.JSON解析错误2.类型不支持错误五、总结六、常用函数1️⃣json.d
软考高项：信息网络安全知识模拟题立志成为网安大牛 web安全网络安全
620、以下哪个场景属于身份鉴别过程()。A.用户依照提示输入用户名、口令和短信验证码，成功登录该应用。B.用户在网络上共享了的一份加密的pdf文档，以阻止其他人下载查看文档中的内容。C.用户给自己编写的文档加上水印。D.用户在网上下载了一份带水印的文档，去掉了水印。正确答案:A解析:A选项属于身份鉴别的过程。621、公钥密码的应用不包括()A.数字签名B.身份认证C.消息认证码D.非安全信道的密
【华为OD机试真题 2025B卷】2025华为OD机试 B卷目录，考点说明，持续收录中，已更新700+ 哪吒搬砖工逆袭Java架构师华为od 华为OD机试 2025B卷 python javascript
专栏导读本专栏收录于《华为OD机试（JAVA）真题（B卷+A卷+C卷+D卷+E卷）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新，全天CSDN在线答疑。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华
华为OD机试 - 计算某字符出现次数（Python/JS/C/C++ 2025 B卷 100分）哪吒华为od python javascript 2025B卷华为OD机试
2025B卷华为OD机试统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述写出一个程序
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h