甲寅Emore

Python3爬虫学习——urlib库笔记

Python3爬虫学习——urllib库

前言

本笔记仅个人认知和见解，水平有限，还请见谅。

内容大多来自Python文档和学习材料，作相应的扩充或压缩后的笔记。

没有很多实例，大多是理论知识

文章目录

Python3爬虫学习——urllib库
- 前言
- urllib库概述
- 1.用request发送请求
- - urlopen
  - Request
  - urlopen与Request的关系与小结
  - Handler与OpenerDirector
  - - Handler
    - OpenerDirector
    - 关系
    - HTTPPasswordMgr 对象与HTTPPasswordMgrWithDefaultRealm 对象
    - ProxyHandler 对象
    - Cookie处理
    - - CookieJar对象
      - HTTPCookieProcessor 对象
      - MozillaCookieJar对象
      - LWPCookieJar对象
      - MozillaCookieJar对象与LWPCookieJar对象的共同方法
- 2.在error模块处理错误
- - URLError
  - HTTPError
- 3.利用parse解析URL
- - urlparse方法和urlunparse方法
  - - urlparse方法
    - urlunparse方法
  - urlsplit方法和urlunsplit方法
  - urljoin方法
  - - urlencode方法和parse_qs\parse_qsl方法
    - urlencode方法
    - parse_qs方法
    - parse_qsl方法
  - quote方法和unquote方法
  - - quote方法
    - unquote方法
- 4.分析robotparser模块
- - robotparser类的方法
- 总结
- 存疑

urllib库概述

urllib库是python内置库，利用它就可以实现HTTP请求发送，而不需要关心HTTP链接是如何实现的，我们只需要给定指定的URL、请求头和请求体等信息即可。

urllib库包含四个模块：

request：基本的HTTP请求模块，可以模拟浏览器发送请求。
error：异常处理模块，可以被我们用于捕获异常。
parse：工具模块，提供了众多URL处理方法。
robotparser：用于识别网站的robots.txt文件，并判断哪些网站可以爬，哪些网站不能爬。

1.用request发送请求

request库不仅可以模拟浏览器的请求发起过程，同时还具有处理授权验证（Authentication）、重定向（Redirection）、浏览器Cookie等功能。

urlopen

首先是urlopen方法的API：urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)

首先是基础用法：response = urllib.request.urlopen('https://www.python.org')

其中urlopen只由第一个参数URL，即网址，这是唯一必须指定的内容，是请求的目标站点。urlopen返回一个HTTPResponse类型的对象，储存在response里。这个用法完成了对Python官网的GET请求。

urlopen的其他参数：

data参数：传递该参数则表示进行POST请求，传递的内容是POST请求中的表单信息。在传递前要用bytes方法将参数转化为字节流编码格式的内容（bytes类型）。传递字典类型的数据时，应先用urllib.parse.urlencode方法进行编码。
timeout参数：用于设置超时时间，单位为秒。如果超过设置的时间，则发生异常。如果不指定则实用全局默认时间。超时的异常是urllib.error.URLError，其错误原因是超时，查看异常的属性reason，得到socket.timeout，意思是超时异常。
context参数：指定SSL的设置，参数必须是ssl.SSLContext类型。
cafile参数和capath参数：用于指定CA证书和其路径，用于HTTPS链接请求。
cadefault参数：已经弃用，可以不管，默认值为False。

Request

Request类的构造方法：class urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)

参数说明：

url：唯一必须参数，指定请求URL。
data：同urlopen，传输bytes类型的数据。
headers：headers是个字典，即请求头。既可以直接在写Request类时写这个选项的内容，也可以通过调用实例的方法add_header方法添加。通常User-Agent来伪装浏览器（默认的User-Agent为Python-urllib）。
origin_req_host：请求方（己方）的host名或IP地址。
unverifiable：表示请求是否是无法验证的。True表示确实无法验证。
method：请求使用的方法，类型是一个字符串，比如GET、POST。

学习小笔记：

其实这里我是完全不理解unverifiable这个参数到底是什么意思，到底是无法验证是True还是可以验证是True。所以在网上搜的时候，我发现大家的说法和书上都是一样的，“指请求无法验证，默认为 False。用户并没有足够的权限来选择接收这个请求结果，例如请求一个 HTML 文档中的图片，但没有自动抓取图像的权限，这时 unverifiable 为 True。”我觉得很离谱，原来大家都喜欢抄书，后来去python的documentation看到了原文，原来书上的东西很多都是文档里翻译来的，这句话疑似是机翻的，有点奇奇怪怪的，但是话倒是说的比较明白，“所谓无法验证的请求，是指用户没有机会对请求的 URL 做验证。”结合图片那个例子，大概就是True无法验证。

urlopen与Request的关系与小结

urllib是urllib.request的一个方法，用于获得网站响应，响应是HTTPResponse类型的对象；Request是一个类，用于构建简单的Request对象，即请求内容。Request对象可以作为参数传入urlopen方法，如此可以使用比较完整的请求获得网站响应。

对于urlopen和Request的data参数，都需要byte类型数据（字节流编码格式），于是需要byte()方法将参数转为字节流编码格式，如果是字典类型，需要先用urllib.parse.urlencode方法将字典转为字符串。

Request类的headers参数，是字典类型的数据，既可以在构建Request类时候就指定，也可以使用add_header()方法添加。

Handler与OpenerDirector

Handler

Handler可以当作Request的升级版，可以管理网站验证，代理，Cookie等Request类难以管理的请求。Handler类有一个大爹：BaseHandler类，是所有Handler类的父类。其子类有如下几类比较常用：[（源自Python文档）](urllib.request — 用于打开 URL 的可扩展库 — Python 3.9.14 文档)

HTTPDefaultErrorHandler：为 HTTP 错误响应定义的默认 handler，所有出错响应都会转为 HTTPError 异常。
HTTPRedirectHandler：一个用于处理重定向的类。
HTTPCookieProcessor(cookiejar=None)：一个用于处理 HTTP Cookies 的类。
ProxyHandler(proxies=None)：用于设置代理，默认代理为空。
HTTPPasswordMgr：维护 (realm, uri) -> (user, password) 映射数据库。即用于管理密码，维护用户名密码对照表。
HTTPPasswordMgrWithDefaultRealm：维护 (realm, uri) -> (user, password) 映射数据库。realm 为 None 视作全匹配，若没有其他合适的安全区域就会检索它。
HTTPPasswordMgrWithPriorAuth：HTTPPasswordMgrWithDefaultRealm 的一个变体，也带有 uri -> is_authenticated 映射数据库。可被 BasicAuth 处理函数用于确定立即发送身份认证凭据的时机，而不是先等待 401 响应。
HTTPBasicAuthHandler(password_mgr=None)：处理远程主机的身份认证。 password_mgr 应与 HTTPPasswordMgr 兼容；如果给出错误的身份认证方式， HTTPBasicAuthHandler 将会触发 ValueError 。

OpenerDirector

OpenerDirector对象封装了请求方法，比如urlopen就是比较简单的请求方法。构建更高级的请求，需要用到更底层的实例完成，即OpenerDirector。OpenerDicrector有以下常用方法：[（源自Python文档）](urllib.request — 用于打开 URL 的可扩展库 — Python 3.9.14 文档)

OpenerDirector.add_handler(handler)：handler 应为 BaseHandler 的实例。将检索以下类型的方法，并将其添加到对应的处理链中（注意 HTTP 错误是特殊情况）。代表协议，如http，为实际HTTP代码。
- _open() — 表明该 handler 知道如何打开 protocol 协议的URL
- http_error_() — 表明该 handler 知道如何处理代码为 type 的 HTTP 错误。
- _error() — 表明该 handler 知道如何处理来自协议为 protocol （非http）的错误。
- _request() — 表明该 handler 知道如何预处理协议为 protocol 的请求。
- _response() — 表明该 handler 知道如何后处理协议为 protocol 的响应。
*OpenerDirector*.open(url, data=None[, timeout])：用于打开URL，其返回值和错误类型与urlopen()方法相同。超时选项仅适用于HTTP，HTTPS和FTP。

还有构建OpenerDirector的方法：

urllib.request.build_opener([handler, ...])：返回一个 OpenerDirector 实例，以给定顺序把处理函数串联起来。处理函数可以是 BaseHandler 的实例，也可以是 BaseHandler 的子类（这时构造函数必须允许不带任何参数的调用）。

关系

使用build_opener方法构建OpenerDirector实例，然后利用OpenerDirector实例的方法open()打开URL，得到网站响应。

HTTPPasswordMgr 对象与HTTPPasswordMgrWithDefaultRealm 对象

HTTPPasswordMgr 对象与HTTPPasswordMgrWithDefaultRealm 对象都有以下方法：

HTTPPasswordMgr.add_password(realm, uri, user, passwd)
uri 可以是单个 URI，也可以是 URI 列表。realm、user 和 passwd 必须是字符串。这使得在为 realm 和超级 URI 进行身份认证时，(user, passwd) 可用作认证令牌。
HTTPPasswordMgr.find_user_password(realm, authuri)
为给定 realm 和 URI 获取用户名和密码。如果没有匹配的用户名和密码，本方法将会返回 (None, None) 。对于 HTTPPasswordMgrWithDefaultRealm 对象，如果给定 realm 没有匹配的用户名和密码，将realm设为None。

这两个对象主要用于解决请求网站时，网站开启了基本身份认证（HTTP Basic Access Authentication）。可以在实例化对象时就给定(realm, uri, user, passwd)的内容。

ProxyHandler 对象

ProxyHandler({'协议类型':'代理链接','协议类型':'代理链接',...})即可构建一个ProxyHandler实例。然后用上图的方法可以发送请求。

Cookie处理

CookieJar对象

CookieJar对象包含在http.cookiejar内，需要先import。创建实例的方法：cookie = http.cookiejar.CookirJar()。这样创建出来的是一个空Cookie，可以用于Handler构建并用于请求网站，以此获得Cookie。

HTTPCookieProcessor 对象

用于构建handler，用法：handler = urllib.request.HTTPCookieProcessor(CookieJar)。

MozillaCookieJar对象

MozillaCookieJar对象是CookieJar的子类，用于处理与Cookie和文件相关的事件如读取和保存。对于的文件格式是Mozilla型浏览器Cookie格式（cookies.txt文件格式）。用法：

创建/打开：cookie = http.cookiejar.MozillaCookieJar(filename)

LWPCookieJar对象

与MozillaCookieJar对象类似，LWPCookieJar对象用于处理LWP（libwww-perl）格式（Set-Cookie3文件格式）的Cookie的读取和保存。

创建/打开： cookie = http.cookiejar.LWPCookieJar(filename)

MozillaCookieJar对象与LWPCookieJar对象的共同方法

加载：cookie.load(filename=None, ignore_discard=False, ignore_expires=False)ignore_discard: 若为True，即使设定了丢弃 cookie 仍然保存它们，意思是保存会话Cookie。 ignore_expires: 若为True，即使 cookie 已超期仍然保存它们。旧的 cookie 将被保留，除非是被新加载的 cookie 所覆盖。

保存：cookie.save(filename=None, ignore_discard=False, ignore_expires=False)ignore_discard: 若为True，即使设定了丢弃 cookie 仍然保存它们，意思是保存会话Cookie。 ignore_expires: 若为True，即使 cookie 已超期仍然保存它们。文件如果已存在则会被覆盖，这将清除其所包含的全部 cookie。已保存的 cookie 可以使用 load() 或 revert() 方法来恢复。

其他方法见Python文档

2.在error模块处理错误

URLError

URLError类来自urllib库的error模块，其父类是OSError类，由request模块产生的异常都可以由通过捕获这个处理。

用法：exception urllib.error.URLError as objectname

其属性只有一个：reason，即返回错误的原因（如Not Found）。

HTTPError

HTTPError是URLError的子类之一，专门处理HTTP请求错误（如认证请求等特殊HTTP错误）。

用法：exception urllib.error.HTTPError as objectname

属性：

code：返回HTTP状态码，如404等，
reason：返回错误原因（如Not Found）。
headers：返回请求头

需要注意，reason的返回值有可能不是字符串类，有可能是一个对象，如超时错误的返回值

try:
    response = urllib.request.urlopen('https://emorepitg.top', timeout=0.01)
except urllib.error.URLError as e:
    print(type(e.reason))
    if isinstance(e.reason,socket.timeout):
        print('TIME OUT')
        
<class 'socket.timeout'>
TIME OUT

如上，超时错误的reason属性是一个socket.timeout类，可以用isinstance方法检查来判单是否是超时错误。也可以直接打印reason属性，因为这个类的附带值是一个字符串，其值总是 “timed out”。

3.利用parse解析URL

urllib内的parse模块提供了若干解析URL的方法，它支持的URL协议有：file, ftp, gopher, hdl, http, https, imap, mailto, mms, news, nntp, prospero, rsync, rtsp, rtspu, sftp, shttp, sip, sips, snews, svn, svn+ssh, telnet, wais, ws, wss.

urlparse方法和urlunparse方法

urlparse方法

该方法对URL解析，然后输出解析结果的类型（urllib.parse.ParseResult）以及结果本身（字符串）。

用法：urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)

传入字符型URL，在URL没有指定协议的时候用scheme指定协议（如果URL没有协议的时候用scheme指定协议，则解析后的netloc会被放在path内，是个很奇怪的问题，由于没有实战，并不知道其作用，留疑）。

print(urllib.parse.urlparse('https://docs.python.org/zh-cn/3.9/library/urllib.parse.html?highlight=urllib%20parse#module-urllib.parse'))
ParseResult(scheme='https', netloc='docs.python.org', path='/zh-cn/3.9/library/urllib.parse.html', params='', query='highlight=urllib%20parse', fragment='module-urllib.parse')
print(urllib.parse.urlparse('docs.python.org/zh-cn/3.9/library/urllib.parse.html?highlight=urllib%20parse#module-urllib.parse',scheme='https'))
ParseResult(scheme='https', netloc='', path='docs.python.org/zh-cn/3.9/library/urllib.parse.html', params='', query='highlight=urllib%20parse', fragment='module-urllib.parse')

解析出的结果是ParseResult类型对象，包含六个部分：

`scheme`	0	URL协议	scheme 参数
`netloc`	1	网络位置部分	空字符串
`path`	2	分层路径	空字符串
`params`	3	No longer used	always an empty string
`query`	4	查询组件	空字符串
`fragment`	5	片段识别	空字符串

urlunparse方法

urlparse的对立方法，将上述六个参数构造成URL。参数可以是列表类型，也可以是元组等，但必须是长度为6的可迭代对象，其返回值是一个字符串。

用法：urllib.parse.urlunparse(parts)

urlsplit方法和urlunsplit方法

与urlparse方法和urlunparse方法类似，urlsplit方法可以解析URL，但是这一方法不再单独解析params这一个部分，而是合并到path中去。其返回值是一个urllib.parse.SplitResult类。同样地，urlunsplit只需要五个参数即可。

urljoin方法

通过合并一个 “基准 URL” (base) 和另一个 URL (url) 来构造一个完整 (“absolute”) URL。

用法：urllib.parse.urljoin(base, url, allow_fragments=True)

>>> urllib.parse.urljoin('https://www.emorepitg.top/index.html','?category=2')
'https://www.emorepitg.top/index.html?category=2'
>>> urllib.parse.urljoin('https://www.emorepitg.top/index.html','https://www.csdn.net/index.php?category=2')
'https://www.csdn.net/index.php?category=2'

“基准URL”提供scheme、netloc和path三个参数（即https://emorepitg.top/index.html)，如果“另一个URL“不存在这三项，就用”基准URL“去补，如果”另一个URL“存在这三个参数，”基准URL”的内容就不起作用

urlencode方法和parse_qs\parse_qsl方法

urlencode方法

将字典类型转化为URL适用的字符串类型，即将字典转为key=value 对，并用是&连接的字符串。

用法：urllib.parse.urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=quote_plus)

当使用二元组序列作为 query 参数时，每个元组的第一个元素为键而第二个元素为值。值元素本身也可以为一个序列，在那种情况下，如果可选的形参 doseq 的值为 True，则每个键的值序列元素生成单个 key=value 对（以 ‘&’ 分隔）。被编码的字符串中的参数顺序将与序列中的形参元素顺序相匹配。

safe, encoding 和 errors 形参会被传递给 quote_via (encoding 和 errors 形参仅在查询元素为 str 时会被传递)。

parse_qs方法

将链接中用&连接的key=value对转化为字典类型，但是需要注意的是，字典的值是一个列表。

>>> urllib.parse.parse_qs('name=Emore&age=20')
{'name': ['Emore'], 'age': ['20']}
>>> type(urllib.parse.parse_qs('name=Emore&age=20')['name'])
list

parse_qsl方法

同上parse_qs方法。将链接中用&连接的key=value对转化为元组类型的列表。

>>> urllib.parse.parse_qsl('name=Emore&age=20')
[('name', 'Emore'), ('age', '20')]

quote方法和unquote方法

quote方法

quote方法将URL中的中文转化为URL编码的格式。

>>> urllib.parse.quote('甲寅')
'%E7%94%B2%E5%AF%85'

unquote方法

quote方法的对立方法，将URL编码格式转化为中文（解码）

4.分析robotparser模块

urllib.robotparser是robots.txt语法分析模块。Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

robotparser类的方法

urllib.robotparser.RobotFileParser(url='')
这个类提供了一些可以读取、解析和回答关于 url 上的 robots.txt 文件的问题的方法。

set_url(url)
设置指向 robots.txt 文件的 URL。RobotFileParser对象创建时没有给url时调用来设置url。

read()
读取 robots.txt URL 并将其输入解析器。需要注意，如果获得了RobotFileParser对象但是没有调用过read方法，则别的所有解析方法返回值都是False，所以一定要记得调用。

parse(lines)
解析行参数。

can_fetch(useragent, url)
判断useragent是否可以抓取url，返回True或False。

mtime()
返回最近一次获取 robots.txt 文件的时间。这适用于需要定期检查 robots.txt 文件更新情况的长时间运行的网页爬虫。

modified()
将最近一次获取 robots.txt 文件的时间设置为当前时间。

总结

至此，urllib库的四个模块大致学习完毕，其中有一些小地方需要注意的。

urllib.request模块中，data参数需要用byte类型
urllib.request.Request模块中，headers参数是字典类型
搞清楚request和urlopen的关系，Handler与OpenerDirector的关系
urlparse方法在URL没有带scheme时，将scheme以参数导入，netloc会跑到path内
urlunparse方法必须是六个参数的可迭代对象
urlunsplit方法必须是五个参数的可迭代对象
parse_qs解析出的字典的值是一个列表
quote方法和unquote方法对字符串和URL编码处理
robotparser对象处理前需要用read方法

存疑

如果URL没有协议的时候用scheme指定协议，则解析后的netloc会被放在path内，是个很奇怪的问题，由于没有实战，并不知道其作用。

print(urllib.parse.urlparse('https://docs.python.org/zh-cn/3.9/library/urllib.parse.html?highlight=urllib%20parse#module-urllib.parse'))
ParseResult(scheme='https', netloc='docs.python.org', path='/zh-cn/3.9/library/urllib.parse.html', params='', query='highlight=urllib%20parse', fragment='module-urllib.parse')
print(urllib.parse.urlparse('docs.python.org/zh-cn/3.9/library/urllib.parse.html?highlight=urllib%20parse#module-urllib.parse',scheme='https'))
ParseResult(scheme='https', netloc='', path='docs.python.org/zh-cn/3.9/library/urllib.parse.html', params='', query='highlight=urllib%20parse', fragment='module-urllib.parse')

你可能感兴趣的:(Python3爬虫笔记,Python学习笔记,爬虫,学习,python)

机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
python电脑怎么打开任务管理器_利用Python调用Windows API，实现任务管理器功能 weixin_39778400
任务管理器具体功能有：1、列出系统当前所有进程。2、列出隶属于该进程的所有线程。3、如果进程有窗口，可以显示和隐藏窗口。4、强行结束指定进程。通过Python调用WindowsAPI还是很实用的，能够结合Python的简洁和WindowsAPI的强大，写出各种各样的脚本。编码中的几个难点有：1、API的入参是结构体时，怎么解决？答：Python内手动建立结构体。详见：https://baijiah
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
OpenCV 基础模块 Python 版 ice_junjun OpenCV opencv python 计算机视觉
OpenCV基础模块权威指南（Python版）一、模块全景图plaintextOpenCV架构(v4.x+)├─核心层│├─core：基础数据结构与操作（Mat/Scalar/Point）│└─imgproc：图像处理流水线（滤波→变换→检测）├─交互层│├─highgui：GUI与媒体I/O（显示/捕获/交互）│└─video：视频分析（运动检测/目标跟踪）├─3D视觉层│└─calib3d：相
Python入门(函数) 高育良00003 python 开发语言
一.基础认识一种映射关系1.1什么是函数呢？概念函数是可以重复执行的语句块，可以重复调用作用用于封装语句块，提高代码的重用性1.2函数的定义语法：deffunction():#def为关键字，function为函数名#语句想要执行的操作returnre#re为返回值二.函数的调用函数名后+小括号()表示函数的执行2.1基本用法语法：函数名(实际调用的参数)2.2调用传参2.2.1位置传参最为常见，
python本地连接minio 伶星37 python 网络服务器
在你浏览器能成功访问到你的minio网页，并且成功登录之后。接下来如果你想用python连接数据库，并且想用python连接minio，就可以用这个blog。连接代码client=Minio("localhost:9000",#9000是默认端口号access_key="admin",#你的账户secret_key="password",#你的密码secure=False,#这点我会详细说明)为什
梯度下降法理论理解伶星37 机器学习人工智能
梯度下降法：看似原始却透露着机器学习的本质前提：在研究梯度下降方法之前，你要理解矩阵运算（解析解）的方法矩阵运算目前的缺点只能进行对线性函数经行分析，无法对复杂的函数经行分析什么是梯度，以及梯度向量梯度下降的形象例子以及基本思想有三个兄弟被困在山上，得要死，他们目标是看谁尽快找到山谷中的水源老大比较后选择最陡的方向随便探索一下，就朝较低处走去探测几下就走陡峭的方向梯度下降算法的核心思想就是沿着负梯
MybatisPlus 伶星37 spring boot 后端
代码部分添加依赖该代码添加位置：就是在springboot配置文件里面的pom.xml里面要添加的东西对新手说的话，如果这一步没有看懂的话，可以去看一下基础，否则这样的话不能做到理解学习//mybatis-plus的一个插件com.baomidoumybatis-plus-boot-starter3.4.2//这个是关于mysql的一种依赖mysqlmysql-connector-java5.1.
英伟达开源超强模型Nemotron-70B；OpenAI推出Windows版ChatGPT桌面客户端 go2coding AI日报 chatgpt
AI新闻英伟达开源超强模型Nemotron-70B摘要：英伟达近日开源了新型AI模型Nemotron-70B，迅速超越GPT-4o和Claude3.5Sonnet，成为AI社区的新宠。该模型在多项基准测试中表现优异，采用混合训练方法和人类反馈强化学习，模型权重已在HuggingFace发布。Niemotron-70B的开发基于Llama-3.1，且开源数据集加强其训练效果。分析指出，英伟达的策略是
逆向爬虫-筑基篇-第二层-壹-计算机网络和因特网-008 蓝花楹下逆向爬虫计算机网络网络
第二层网络初探计算机网络和因特网计算机网络与因特网之史分组交换之兴：1961-1972昔时，电话网为天下通信之主宰，其以电路交换之术，使语音恒速传于发收之间。然至20世纪60年代，计算机之重要日增，分时计算机亦现于世。彼时，智者思虑如何将计算机相连，使地理分布之用户共享其能。用户之流量，多具突发之性，如发一令于远机，继而静待其应，或思其答。当此之时，天下有三组智者，各自发明分组交换之术，以代电路交
头歌实践教学平台 Python程序设计实训答案（三）学习的锅头哥实践教学平台实训答案 python
第七阶段文件实验一文本文件的读取第1关：学习-Python文件之文本文件的读取任务描述本关任务：使用open函数以只写的方式打开文件，打印文件的打开方式。相关知识为了完成本关任务，你需要掌握：文本文件；open函数及其参数；文件打开模式；文件对象常用属性；关闭文件close函数。#请在下面的Begin-End之间按照注释中给出的提示编写正确的代码##########Begin###########
python基础之--面相对象--OOP基本特性暴龙胡乱写博客 python 开发语言人工智能
python基础之–面相对象–OOP基本特性文章目录python基础之--面相对象--OOP基本特性一，OOP基本特性1.1封装1.2继承/派生1.2.1基础概念1.2.3继承实现1.3多态1.4对象对成员的操作（补充）1.5私有属性1.6重写魔术方法二，super函数2.1基本使用2.2super().\__init__()一，OOP基本特性OOP的四大基本特性是封装、继承、多态和抽象。1.1封
React Native：跨平台移动应用开发的强大框架冬冬小圆帽 react native react.js javascript
ReactNative介绍ReactNative是由Facebook开发并开源的一款基于JavaScript和React的跨平台移动应用开发框架。它允许开发者使用React的语法和组件模型来构建原生移动应用（iOS和Android）。ReactNative的核心思想是“LearnOnce,WriteAnywhere”，即学习一次，编写多端应用。1.核心特点跨平台开发：使用JavaScript和Re
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
Dify1.01版本vscode 本地环境搭建运行实践 hamish-wu vscode 编辑器 dify 大模型 python flask
dify是python编写的低代码AI开发平台，是常用的大模型开发平台。本文基于最新的1.0.1版本实践完成，有需要的可以私信交流。咨询免费，详细文档及视频需要一定成本，大概相当于节约的时间成本。搭建环境windows11开发工具vscode搭建步骤：1.Startthedocker-composestackwindow环境下运行docker命令，需要下载docker官网镜像，会遇到timeout
vscode python 入门教程(一) window 10 环境下安装pyenv hamish-wu Python python 开发语言 pyenv
python的环境配置方法很多，由于python有两个大版本，很多时候需要切换某个固定的版本才能运行三方包，所以推荐使用pyenv配置python环境变量pyenv的安装安装方法：Invoke-WebRequest-UseBasicParsing-Uri"https://raw.githubusercontent.com/pyenv-win/pyenv-win/master/pyenv-win/i
mongodb与爬虫的关系 getapi mongodb 爬虫数据库
MongoDB与爬虫之间的关系主要体现在数据存储和管理的层面。爬虫（WebCrawler或Spider）是一种自动化工具，用于从互联网上抓取网页内容或特定数据。而MongoDB是一个NoSQL数据库，常被用来存储和管理爬虫抓取到的数据。以下是它们之间关系的具体分析：1.爬虫的数据存储需求爬虫在运行过程中会抓取大量的非结构化或半结构化数据（例如HTML页面、JSON数据、图片链接等）。这些数据通常具
Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
1-5 Python 入门之运算符的使用 Sa_sa_ki_Haise python
第1关：算术、比较、赋值运算符100任务要求参考答案评论201任务描述相关知识算术运算符比较(关系)运算符赋值运算符编程要求测试说明任务描述在编程时，我们常常需要对数值或对象进行算术、比较运算和赋值运算，以此来实现我们的功能需求。本关介绍Python中的一些基本运算符，并要求对给定的苹果和梨的数量进行算术运算、比较、赋值运算，然后输出相应的结果。相关知识要实现上述功能，需要用到Python中的各种
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
字节跳动离职后，转行学起了AI大模型！该说不说，真的香！！小城哇哇人工智能 AI大模型语言模型 agi ai LLM 转行
个人自我介绍鄙人出生于南方小乡镇，为了走出小镇，在当地够拼够努力，不是自夸，确确实实也算得上“别人家的小孩”，至少在学习这件事情少，没有要家里人操过心。高考特别顺利，一个老牌985，具体哪个学校就不说了，不想给母校丢脸。毕业后，也算是“风光”地进入了字节跳动。做的是运维测试。在职期间刚入职的时候真的信心满满⛽️，但才3天就感受到了互联网头部公司的强度不是一般的大。明面上的早十晚八工作制完全不存在，
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
rabbitmq + minio +python 上传文件伶星37 rabbitmq python ruby
功能实现RabbitMq接收hello里面传来的消息根据消息在MobileFile里面新建文件新建文件上传到miniopython新建文件importospath='./MobileFile'file_path=os.path.join(path,"new_file.txt")withopen(file_path,"w")asfile:pass转换成函数格式importosdefcreatefil
vscode python 入门教程(二) vscode使用gti 管理代码 hamish-wu vscode ide 编辑器
vscode代码管理需要用管道git的命令，这点和idea的代码管理区别比较大。作为java开发需要自己熟悉适应一下。一、GitHub新建一个仓库过程略二、本地git项目初始化gitinitvscode中可以看到文件状态gitstatus使用gitremote命令吧本地git仓库和远程git仓库链接起来[email protected]提交代码gitcommit-m"评论
01.什么是MQTT？墨先森 NodeMCU与MQTT 物联网
目录00_前言01_简述02_特性03_MQTT运行机制00_前言本系列博客是基于NodeMCU平台来完成的一个物联网小项目，目的在于了解并学习MQTT协议，掌握MQTT协议的作用机制。以上。01_简述以下摘自百度百科MQTT(消息队列遥测传输)是ISO标准(ISO/IECPRF20922)下基于发布/订阅范式的消息协议。它工作在TCP/IP协议族上，是为硬件性能低下的远程设备以及网络状况糟糕的情
Python进阶之-加密库cryptography使用详解夏天Aileft Python python 网络加密
✨前言cryptography库是一个强大的Python加密库，提供了对加密算法和协议的高层和低层访问。它是用来实现数据加密、签名、密钥管理等功能的。以下是一些常见用法的详解，帮助你理解如何使用这个库。✨安装首先，你需要确保安装了cryptography库：pipinstallcryptography✨1.对称加密对称加密是指加密和解密使用相同的密钥。Fernet是cryptography库中提供
python列表添加元素的三种方法定义集合数据对象_python 学习第三天可迭代对象（列表，字典，元组和集合）... weixin_39852491
列表，字典，元组和集合列表list列表是由一系列特定元素组成的，元素和元素之间没有任何关联关系，但他们之间有先后顺序关系列表是一种容器列表是序列的一种列表是可以被改变的序列Python中的序列类型简介（sequence）字符串（str）列表（list）元组（tuple）字节串（bytes）字节数组（bytearray）创建空列表的字面值L=[]#L绑定空列表创建非空列表：L=[1,’two’,3,
python~集合详解鱼跃龙 python python集合详解 set集合
集合的基本操作首先需要明确的是：集合(set)是一个无序的不重复元素序列，多用来进行排重；不支持切片和索引取值！1.创建集合>>>a={1,2,4,4}>>>a{1,2,4}>>>type(a)**创建空集合时需要注意：不能直接用大括号，只能用set()；否则创建的是一个字典>>>b=set()>>>type(b)>>>c={}>>>type(c)2.添加元素add()方法是将要添加的元素作为一个
Python密码学：cryptography库零度° python python 密码学
在数字时代，确保数据的安全性和隐私至关重要。Python中的cryptography库是一个全面的包，为Python开发者提供了密码学原语和配方。它支持高级配方和常见密码学算法的低级接口。cryptography库概述cryptography库旨在易于使用且默认安全。它包括各种密码学操作的高级和低级API，如：对称加密非对称加密哈希函数消息认证码（MAC）数字签名密钥管理cryptography库
网安会有35岁中年危机吗，还有网安将来发展怎么样？网络安全工程师可以干到多大年龄认真写程序的强哥 web安全干货分享黑客技术网络安全渗透测试编程计算机
关于35岁中年危机这个问题，我想说，在网安行业里，这根本就不是个事儿！！与传统的IT行业不同，网安行业更加注重实战经验和技能深度，而不是单一的年龄因素。随着经验的积累，网络安全工程师在面对复杂问题时，反应更快、决策更准，这种价值是无法用年龄来衡量的。所以，只要你保持学习热情，不断提升自己的技能，35岁不仅不是终点，反而可能是你职业生涯的新起点。初入计算机行业的人或者想转行大学计算机相关专业准程序员
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方