XILALIKE

《零基础入门学习Python》第054讲：论一只爬虫的自我修养2：实战

0. 请写下这一节课你学习到的内容：格式不限，回忆并复述是加强记忆的好方式！

今天我们决定在实战中来进行学习，会举两个例子，第一个例子是我们会下载一只猫，第二个例子是我们用Python来模拟浏览器通过在线的谷歌翻译进行文本的翻译。

如果你认为上节课我只是简单介绍了一下 urlopen() 函数的用法，那你就错了，上节课我已经说了，相关的文档在哪里，要教你的东西在文档里都有，OK，我们来第一个例子吧。

（一）使用Python下载一只猫

我们常说，林子大了，什么鸟都有。互联网这么大，那当然不管什么样的奇葩网站都会有。我们今天举的例子就是要访问一个 {placekitten} - Placeholder kitten images for developers，这个网站是为猫农量身定制的一个站点，网站后面你只需要加上 /宽度/高度，就可以得到一只相应宽度和高度的猫的图片。这些图片都是JPG格式的，你可以通过右键将其简单保存到桌面上。

我们第一个例子就是使用Python实现刚才的操作，事实上我们上节课教过的内容也是完全足够的，我们新建一个 download_cat.py 文件。

首先，我们需要 import urllib.request，然后使用urlopen() 函数得到 response，得到的 cat_img 可以用一个文件保存，我们命名这个文件为 cat_500_600.jpg，我们说过，图片也是文件，它也是二进制数据组成的，我们这里用 ‘wb’ 将收到的二进制数据写入 jpg 格式的文件就可以了。

#download_cat.py
import urllib.request
response = urllib.request.urlopen("http://placekitten.com/500/600")
cat_img = response.read()
with open('cat_500_600.jpg', 'wb') as f:
f.write(cat_img)

运行之后，就在桌面上有了一张名为 cat_500_600.jpg 的图片。我们接着继续解释一下上面的代码：

上节课，我们说过，urlopen() 函数中的 url 参数可以是字符串，也可以是 Request object，其实，在上面的程序中，我们传入的是地址字符串，它也是将地址字符串转换为 Request 对象，然后再将对象传入 urlopen() 函数。因此，

response = urllib.request.urlopen("http://placekitten.com/500/600")

等价于

req = urllib.request.Resquest("http://placekitten.com/500/600")
response = urllib.request.urlopen(req)

另外，urlopen() 函数返回的 response 其实是一个对象（object），看下图文档解释，因此你可以使用 read() 方法来读取内容，

文档还告诉我们，除了可以使用 read() 方法之外，还可以是使用 geturl() 、info() 和 getcode() 方法，我们试一下这三个函数分别返回什么：

我们运行 download_cat.py 之后，调用这几个方法：

>>>
=========== RESTART: C:\Users\XiangyangDai\Desktop\download_cat.py ===========
>>> response.geturl()
'http://placekitten.com/500/600'
>>> response.info()
>>> print(response.info())
Date: Tue, 11 Dec 2018 06:57:33 GMT
Content-Type: image/jpeg
Content-Length: 20921
Connection: close
Set-Cookie: __cfduid=d2f9e8e46b6e9940463cf24baf0b7f0fb1544511453; expires=Wed, 11-Dec-19 06:57:33 GMT; path=/; domain=.placekitten.com; HttpOnly
Access-Control-Allow-Origin: *
Cache-Control: public, max-age=86400
Expires: Wed, 12 Dec 2018 06:57:33 GMT
CF-Cache-Status: HIT
Accept-Ranges: bytes
Vary: Accept-Encoding
Server: cloudflare
CF-RAY: 48760ec5d6fc99c1-LAX
>>> response.getcode()
200

geturl() 得到的就是你访问的具体的地址；

info() 得到的是一个 HTTPMessage 的对象，你可以将它打印出来，包含了远程服务器返回的 Head 信息；

getcode() 返回的是 Http 的状态码，200 表示 OK，就是正常响应。

（二）利用在线有道翻译来翻译文本

我们怎样编写Python 程序模拟浏览器，让它翻译呢？我们首先要介绍的是审查元素这个功能。基本上现在所有的浏览器都会自带这样这个调试插件，以360浏览器为例，右键选择-审查元素，或者直接按 F12，就会显示审查元素窗口。

我们要看的是 Network 这一块，当我们点下自动翻译按钮时，在下面会看到有很多 Method，其中有 Get ，有Post ，这些内容都是浏览器与客户端的通信内容，在客服端与服务器之间进行请求的时候，两种最常用的方法：一种就是Get，一种就是 Post，在定义上来说，Get是指从服务器请求获得数据，而Post是向指定服务器提交被处理的数据，当然在现实情况中，Get也常常用作提交数据。但是我们这里有 Post，刚刚我们是提交数据，提交 I love you！这个语句让它翻译，我们点进去：

我们看到有 Headers 和 Preview 等，我们先看一下 Preview

我们看到这里有我们所需要的结果，说明我们就找对地方了，但是在编写程序之前，我们还是有必要讲解一下 Headers 中的内容：

Request URL:http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule，有人会认为 urlopen(）函数打开的应该是有道翻译_文本、文档、网页、在线即时翻译这个地址，其实在内部嵌入的是前面的这个地址，你要实现翻译的机制是在这。

Request Method:POST，请求的方法是 Post 的形式。

Status Code:200 OK，状态码 200 表示正常响应。如果是 404 就是页面不见了。更多关于HTTP状态码的信息请查阅：

HTTP状态码大全

Remote Address 是服务器的 IP 地址加上打开的端口号。

Resquest Headers:是客服端（这里就是浏览器，用 Python代码的时候就是我们的代码）发送请求的Headers，这个常常用于服务端来判断是否非人类访问，什么意思呢？假设我们写一个 Python 代码，然后用这个代码批量的访问网站的数据，这样子，服务器的压力就很大了，所以呢，服务器一般是不欢迎非人类的访问的。一般我们就是使用Resquest Headers里面的User-Agent来识别是浏览器访问还是代码访问，大家可以看到，这里的User-Agent显示的系统的架构是（Windows NT 10.0; WOW64），后面你还包括浏览器的核心及其版本号等信息。如果你使用Python 访问的话，这个User-Agent默认就是 Python URL 3.5，这样就可能被屏蔽掉。（不过呢，如果服务器君以为这样就可以阻挡我们前进的脚步的话，他就太天真了，这个User-Agent是可以进行自定义的，嘻嘻，后面会给大家介绍）

Form Data：其实就是我们这个Post提交的主要内容，在 i 这里看到了提交的待翻译的内容。

介绍到这里就已经够用了，接下来看看文档，了解Python如何提交Post呢？

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

Open the URL url, which can be either a string or a Request object.

data must be a bytes object specifying additional data to be sent to the server, or None if no such data is needed. data may also be an iterable object and in that case Content-Length value must be specified in the headers. Currently HTTP requests are the only ones that use data; the HTTP request will be a POST instead of a GET when the data parameter is provided.

data should be a buffer in the standard application/x-www-form-urlencoded format. The urllib.parse.urlencode() function takes a mapping or sequence of 2-tuples and returns an ASCII text string in this format. It should be encoded to bytes before being used as the data parameter.

上面蓝色文字已经写得很清楚了（这些内容来自urllib的Python文档的urllib.request部分），urlopen有一个data参数，如果这个参数被赋值，那么它就是以POST的形式取代GET的形式，也就是说，如果data = None的话，就默认是以GET的形式。这里还说了，data参数必须是基于application/x-www-form-urlencoded的格式，它还很贴心的告诉我们，你可以使用urllib.parse.urlencode()函数将字符串转换为所需要的形式。

事实上，我们有了这两段话的描述，我们就可以来写代码了：（命名为：translation.py）

#translation.py
import urllib.request
import urllib.parse
url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"
#直接从审查元素中copy过来的url会报错，必须把translate_o中的_o 删除才可以
#url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"
data = {} #这里就是把 Form Data 中的内容贴过来
data['i'] = '我爱你'
data['from'] = 'AUTO'
data['to'] = 'AUTO'
data['smartresult'] = 'dict'
data['client'] = 'fanyideskweb'
data['salt'] = '15445124815349'
data['sign'] = 'a824eba4c23c6f541ffadfee26b1e500'
data['ts'] = '1544512481534'
data['bv'] = 'bbb3ed55971873051bc2ff740579bb49'
data['doctype'] = 'json'
data['version'] = '2.1'
data['keyfrom'] = 'fanyi.web'
data['action'] = 'FY_BY_REALTIME'
data['typoResult'] = 'false'
#需要使用urllib.parse.urlencode() 把data转换为需要的形式
data = urllib.parse.urlencode(data).encode('utf-8')
response = urllib.request.urlopen(url, data)
html = response.read().decode('utf-8')
print(html)

运行结果为：

=========== RESTART: C:\Users\XiangyangDai\Desktop\translation.py ===========
{"type":"ZH_CN2EN","errorCode":0,"elapsedTime":0,"translateResult":[[{"src":"我爱你","tgt":"I love you"}]]}

结果倒是可以了，只是这样的结果是给程序员看的，如果是给用户看，那也太不友好了。（另外，如果大家对于编码还有什么困惑的，可以查看：Python编码问题的解决方案总结），我们打印出来的是一个字符串，有人就说，我们可以通过字符串查找的形式把 tgt 找出来，但这样太被动了。

其实，这是一个 json 结构，json 是一种轻量级的数据交换结构，说白了，这里就是用字符串的形式把 Python 的输出结果给封装起来，这个字符串里面包含的其实是一个字典，"translateResult" 里面的值是一个列表的列表的字典，我们可以使用下面的方法来解决：

=========== RESTART: C:\Users\XiangyangDai\Desktop\translation.py ===========
{"type":"ZH_CN2EN","errorCode":0,"elapsedTime":0,"translateResult":[[{"src":"我爱你","tgt":"I love you"}]]}
>>> import json
>>> json.loads(html)
{'errorCode': 0, 'type': 'ZH_CN2EN', 'elapsedTime': 0, 'translateResult': [[{'tgt': 'I love you', 'src': '我爱你'}]]}
>>> target = json.loads(html)
>>> type(target)
>>> target['translateResult'][0][0]['tgt']
'I love you'

综上，我们就可以把我们的翻译程序美化一下：

#translation.py
import urllib.request
import urllib.parse
import json
content = input('请输入需要翻译的内容：')
url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule"
#直接从审查元素中copy过来的url会报错，必须把translate_o中的_o 删除才可以
#url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"
data = {} #这里就是把 Form Data 中的内容贴过来
data['i'] = content
data['from'] = 'AUTO'
data['to'] = 'AUTO'
data['smartresult'] = 'dict'
data['client'] = 'fanyideskweb'
data['salt'] = '15445124815349'
data['sign'] = 'a824eba4c23c6f541ffadfee26b1e500'
data['ts'] = '1544512481534'
data['bv'] = 'bbb3ed55971873051bc2ff740579bb49'
data['doctype'] = 'json'
data['version'] = '2.1'
data['keyfrom'] = 'fanyi.web'
data['action'] = 'FY_BY_REALTIME'
data['typoResult'] = 'false'
#需要使用urllib.parse.urlencode() 把data转换为需要的形式
data = urllib.parse.urlencode(data).encode('utf-8')
response = urllib.request.urlopen(url, data)
html = response.read().decode('utf-8')
target = json.loads(html)
print('翻译结果：%s' %(target['translateResult'][0][0]['tgt']))

运行结果：

=========== RESTART: C:\Users\XiangyangDai\Desktop\translation.py ===========
请输入需要翻译的内容：人生苦短，我学Python
翻译结果：Life is too short, I learn Python

我们的要求实现了，但是这样的代码还不能应用到我们的生产实践中，因为你这样搞多了，服务器就会发现非人类的 User Agent 频繁访问，就会把你屏蔽掉了。还有就是发现这个IP怎么访问的这么频繁，就把你拉黑了。其实这些问题，Python都是有解决方法的，欲知详情如何，请听下回分解。

测试题

0. urlopen() 方法的 timeout 参数用于设置什么？

答：timeout 参数用于设置连接的超时时间，单位是秒。

1. 如何从 urlopen() 返回的对象中获取 HTTP 状态码？

答：

…
response = urllib.request.urlopen(url)
code = response.getcode()
…

2. 在客户端和服务器之间进行请求-响应时，最常用的是哪两种方法？

答：GET 和 POST。

3. HTTP 是基于请求-响应的模式，那是客户端发出请求，服务端做出响应；还是服务端发出请求，客户端做出响应呢？

答：发出请求的永远是客户端，做出响应的永远是服务端。

4. User-Agent 属性通常是记录什么信息？

答：普通浏览器会通过该内容向访问网站提供你所使用的浏览器类型、操作系统、浏览器内核等信息的标识。

5. 如何通过 urlopen() 使用 POST 方法像服务端发出请求？

答：urlopen 函数有一个 data 参数，如果给这个参数赋值，那么 HTTP 的请求就是使用 POST 方式；如果 data 的值是 None，也就是默认值，那么 HTTP 的请求就是使用 GET 方式。

6. 使用字符串的什么方法将其它编码转换为 Unicode 编码？

答：decode。decode 的作用是将其他编码的字符串转换成 unicode 编码，相反，encode 的作用是将 unicode 编码转换成其他编码的字符串。

7. JSON 是什么鬼？

答：JSON 是一种轻量级的数据交换格式，说白了这里就是用字符串把 Python 的数据结构封装起来，便与存储和使用。

动动手

0. 配合 EasyGui，给“下载一只猫“的代码增加互动：

让用户输入尺寸；
如果用户不输入尺寸，那么按默认宽400，高600下载喵；
让用户指定保存位置。

程序实现如下图：

代码清单：

import easygui as g
import urllib.request
def main():
msg = "请填写喵的尺寸"
title = "下载一只喵"
fieldNames = ["宽：", "高："]
fieldValues = []
size = width, height = 400, 600
fieldValues = g.multenterbox(msg, title, fieldNames, size)
while 1:
if fieldValues == None:
break
errmsg = ""
try:
width = int(fieldValues[0].strip())
except:
errmsg += "宽度必须为整数！"
try:
height = int(fieldValues[1].strip())
except:
errmsg += "高度必须为整数！"
if errmsg == "":
break
fieldValues = g.multenterbox(errmsg, title, fieldNames, fieldValues)
url = "http://placekitten.com/g/%d/%d" % (width, height)
response = urllib.request.urlopen(url)
cat_img = response.read()
filepath = g.diropenbox("请选择存放喵的文件夹")
if filepath:
filename = '%s/cat_%d_%d.jpg' % (filepath, width, height)
else:
filename = 'cat_%d_%d.jpg' % (width, height)
with open(filename, 'wb') as f:
f.write(cat_img)
if __name__ == "__main__":
main()

1. 写一个登录豆瓣的客户端。

这道题可能要难为大家了，因为需要 N 多你没学过的知识！

不过我也不打算让你断送希望，下边是一个可行的 Python 2 的代码片段，请修改为 Python 3 版本。其中一些库和知识点你可能还没学过，但凭借着过人的自学能力，你可以在不看答案的情况下完成任务的，对吗？

程序实现如下图：

Python2 实现的代码：

# -- coding:gbk --
import re
import urllib, urllib2, cookielib
loginurl = 'https://www.douban.com/accounts/login'
cookie = cookielib.CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
params = {
"form_email":"your email",
"form_password":"your password",
"source":"index_nav" #没有的话登录不成功
}
#从首页提交登录
response=opener.open(loginurl, urllib.urlencode(params))
#验证成功跳转至登录页
if response.geturl() == "https://www.douban.com/accounts/login":
html=response.read()
#验证码图片地址
imgurl=re.search('', html)
if imgurl:
url=imgurl.group(1)
#将图片保存至同目录下
res=urllib.urlretrieve(url, 'v.jpg')
#获取captcha-id参数
captcha=re.search('' ,html)
if captcha:
vcode=raw_input('请输入图片上的验证码：')
params["captcha-solution"] = vcode
params["captcha-id"] = captcha.group(1)
params["user_login"] = "登录"
#提交验证码验证
response=opener.open(loginurl, urllib.urlencode(params))
''' 登录成功跳转至首页 '''
if response.geturl() == "http://www.douban.com/":
print 'login success ! '

答：Python 3 对比 Python 2 有不少的改变。

在本题中：

urllib 和 urllib2 合并，大多数功能放入了 urllib.request 模块；
原来的 urllib.urlencode() 变为 urllib.parse.urlencode().encode()，由于编码的关系，你还需要在后边加上 encode('utf-8')；
cookielib 被改名为 http.cookiejar；

课堂中我们还没讲，所以这里借机会给大家简单科普一下 cookie 是什么东西：

我们说 HTTP 协议是基于请求响应模式，就是客户端发一个请求，服务端回复一个响应酱紫……

但 HTTP 协议是无状态的，也就是说客户端这会儿给服务端提交了账号密码，服务端回复验证通过，但下一秒客户端说我要访问 XXOO 资源，服务端回复：“啊？？你是谁？！”

为了解决这个尴尬的困境，有人就发明出了 cookie。cookie 相当于服务端（网站）用于验证你的身份的密文。于是客户端每次提交请求的时候，服务端通过验证 cookie 即可知道你的身份信息。那么正如你所猜测的，CookieJar 是 Python 用于存放 cookie 的对象。

当然，这里已经给你提供了 Python 2 的代码，你不懂上边这些，也不影响完成作业。

代码清单：

import re
import urllib.request
from http.cookiejar import CookieJar
# 豆瓣的登录url
loginurl = 'https://www.douban.com/accounts/login'
cookie = CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor)
data = {
"form_email":"your email",
"form_password":"your password",
"source":"index_nav"
}
data = {}
data['form_email'] = '你的账号'
data['form_password'] = '你的密码'
data['source'] = 'index_nav'
response = opener.open(loginurl, urllib.parse.urlencode(data).encode('utf-8'))
#验证成功跳转至登录页
if response.geturl() == "https://www.douban.com/accounts/login":
html = response.read().decode()
#验证码图片地址
imgurl = re.search('', html)
if imgurl:
url = imgurl.group(1)
# 将验证码图片保存至同目录下
res = urllib.request.urlretrieve(url, 'v.jpg')
# 获取captcha-id参数
captcha = re.search('' ,html)
if captcha:
vcode = input('请输入图片上的验证码：')
data["captcha-solution"] = vcode
data["captcha-id"] = captcha.group(1)
data["user_login"] = "登录"
# 提交验证码验证
response = opener.open(loginurl, urllib.parse.urlencode(data).encode('utf-8'))
# 登录成功跳转至首页 '''
if response.geturl() == "http://www.douban.com/":
print('登录成功！')

你可能感兴趣的:(python零基础,python)

python中plus_Python token.PLUS属性代码示例
#需要导入模块:importtoken[as别名]#或者:fromtokenimportPLUS[as别名]deftest_exact_type(self):self.assertExactTypeEqual('()',token.LPAR,token.RPAR)self.assertExactTypeEqual('[]',token.LSQB,token.RSQB)self.assertExac
三网BGP服务器——CDN加速的底层基石群联云防护小杜安全问题汇总服务器 python 运维游戏安全自动化网络
为什么跨网访问会成为业务性能杀手？场景痛点当电信用户访问联通机房的资源时，平均延迟高达120ms以上，而跨网丢包率可达15%。传统单线机房导致30%的用户体验直接下降。BGP协议的核心价值#三网路由优化模拟器（Python3）importrandomdefbgp_route_selection(user_isp,cdn_nodes):#用户ISP：1=电信2=移动3=联通#节点示例：{'node1
Python入门--day04--Python 推导式、常见语句和内置函数总结 the time zips by #Python基础 python 开发语言
文章目录前言一、推导式1.列表推导式2.集合推导式3.字典推导式4.生成器推导式二、常见语句1赋值语句2.控制语句2.1条件语句2.1.1if-elif-else2.1.2match-case2.2循环语句2.2.1for循环2.2.2while循环2.3循环控制语句2.3.1break2.3.2continue2.3.3pass3.range语句3.函数定义语句4.异常处理语句4.1try-ex
windows exe爬虫：exe抓包程序猿阿三爬虫项目实战 exe抓包
不论任何爬虫，抓包是获取数据最直接和最方便的方式，这章节我们一起看一下windowsexe是如何拦截数据的。用mitmproxy/Charles/Fiddler或Wireshark拦截它的HTTP/HTTPS/TCP流量。如果是HTTPS，安装并信任代理的根证书。由于exe大部分可能走的是自定义应用层协议。在不知情所拦截应用使用的流量时，所以建议用Wireshark。本文利用python代码，实现
PythonDay01
这里写目录标题一、注释1、单行注释2、多行注释二、定义变量1、要求2、代码三、关键字四、print函数五、基本数据类型1、整型2、字符串类型3、小数类型4、布尔类型5、空类型六、类型之间的相互转换1、从字符串转成int类型2、字符串转换成浮点型3、float转换成int4、丢失精度时不会去做四舍五入5、布尔类型七、字符串的常见操作1、split切分2、strip去除字符串两边的隐藏字符3、字符串的
Python Day9
@浙大疏锦行PythonDay9.内容：热力图的绘制enumerate()方法子图的绘制代码：list_nums=[1,2,3,4,5,6]forindex,valinenumerate(list_nums):print(f"index={index},val={val}")forvalinlist_nums:print(f"val={val}")importpandasaspdimportmat
【医学影像】无痛安装mamba 周树皮医学影像 python
去年编辑的一个帖子。摆了一段时间后重新回归，发送一下作为状态分界线。很癫狂的体验，man，whatcanisay！issue查看我的狗急跳墙状态1.确定版本cudanvcc-Vpythonpython--versiontorchpipshowtorch2.下载对应版本wheelcausal-conv1d：https://github.com/Dao-AILab/causal-conv1d/rele
macd的python代码同花顺_同花顺最牛MACD副图源码再来一碗饭
DIFF:EMA(CLOSE,6)-EMA(CLOSE,16),ColorFFFF26;DEA:EMA(DIFF,5),Color8A15FF;MACD:=2*(DIFF-DEA);对DIFF:0-(EMA(CLOSE,6)-EMA(CLOSE,16));对DEA:0-(EMA(DIFF,5));对称:0-(2*(DIFF-DEA)),STICK,ColorFF6060,LINETHICK1;{D
Mamba项目用户指南：高效管理Python环境的利器左松钦Travis
Mamba项目用户指南：高效管理Python环境的利器mambaTheFastCross-PlatformPackageManager项目地址:https://gitcode.com/gh_mirrors/mam/mamba什么是Mamba？Mamba是一个基于Conda的CLI工具，专为高效管理Python环境而设计。它继承了Conda的所有优点，同时在性能上进行了显著优化，特别是在解决依赖关系
【亲测免费】 Mamba：快速跨平台的包管理器林梦雅
Mamba：快速跨平台的包管理器项目基础介绍和主要编程语言Mamba是一个用C++重新实现的Conda包管理器。它旨在提供比传统Conda更快的包管理和依赖解析速度。Mamba的核心部分使用C++编写，以确保高效性和性能。同时，Mamba也使用了Python和其他一些辅助语言来实现其功能。项目核心功能Mamba的核心功能包括：快速依赖解析：利用libsolv库进行高效的依赖解析，这是RedHat、
LeetCode第317题_离建筑物最近的距离 @蓝莓果粒茶算法 leetcode linux 算法 c#学习 python c++
LeetCode第317题：离建筑物最近的距离文章摘要本文详细解析LeetCode第317题"离建筑物最近的距离"，这是一道图论和广度优先搜索的问题。文章提供了基于多源BFS的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升图论算法能力的程序员。核心知识点：广度优先搜索、图论、矩阵遍历难度等级：困难推荐人群：具有图论基础，想要提升算法能力的程序员题目描述
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
Python 实战：构建本地多线程定时任务调度器 xiaocainiao881 python 开发语言
引言在企业自动化流程、数据周期更新、本地脚本执行等场景中，定时任务调度器是不可或缺的一类工具。尽管Linux有crontab，Windows有任务计划，但它们不够灵活，缺乏图形界面，不适合动态启停、可视化控制等需求。本文将带你实现一个本地运行的多线程定时任务调度器，具备以下功能：一、项目功能说明1.1功能亮点多任务并行运行（非阻塞）每个任务支持独立间隔设置支持任务启动/停止/删除/修改支持即时日志
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
Mac 电脑crontab执行定时任务【Python 实战】 qifengle2014 Linux Docker Java Python技术分享合集 macos python 开发语言
1、crontab-e编辑定时任务列表crontab-e查看当前定时任务列表，长按i编辑，编辑完之后按esc退出编辑，然后输入:wq保存并提出。如下：(base)charles@zl~%crontab-e5815***/Library/Frameworks/Python.framework/Versions/3.8/bin/python3/Users/charles/Documents/first
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
Windows系统python安装教程 I`m 程序媛 windows python 开发语言
一、准备工作访问Python官网：打开浏览器，进入Python官网。选择安装包：在官网的下载页面，根据自己的操作系统位数（32位或64位）选择对应的安装包。大多数现代电脑都是64位的，因此选择64-bit的安装包。建议选择“StableReleases”（稳定发布版本），这些版本已经经过测试，相对稳定。二、下载与安装下载Python安装包：点击选定的安装包链接，下载Python的安装程序。运行安装
Ubuntu系统下pip install的accelerate包没有安装至conda环境下，而是错误放入.local文件中
服务器上跑模型时莫名报了一个没有‘torch’包的错误Traceback(mostrecentcalllast):File"/home/ubuntu/.local/bin/accelerate",line5,infromaccelerate.commands.accelerate_cliimportmainFile"/home/ubuntu/.local/lib/python3.10/site-p
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
Python Code Acceleration（Python代码加速）李伯爵的指间沙 Python
对于Python的代码执行效率较低的问题，参考博客：https://developer.51cto.com/art/201809/583695.htm进行相应的测试。参考代码如下：fromnumbaimportjitimporttimedeffoo(x,y):tt=time.time()s=0foriinrange(x,y):s+=iprint('Timeused:{}sec'.format(ti
2023年最新Python安装详细教程_python自定义安装 2401_89213215 python 开发语言
1、选择python的稳定发布版本StableReleases点击进入windows操作系统对应的页面，显示python安装版本，这些python安装版本适合windows操作系统。图3-1python稳定与预发布版本图3-1左边是稳定发布版本StableReleases，右边是预发布版本Pre-releases，前者是经过测试，相对完善、稳定的版本，后者还处于测试中，可能不完善，因此，我们下载左
用Python做数据分析之数据统计学掌门 Python 数据分析大数据 python 数据分析人工智能
接下来说说数据统计部分，这里主要介绍数据采样，标准差，协方差和相关系数的使用方法。1、数据采样Excel的数据分析功能中提供了数据抽样的功能，如下图所示。Python通过sample函数完成数据采样。2、数据抽样Sample是进行数据采样的函数，设置n的数量就可以了。函数自动返回参与的结果。1#简单的数据采样2df_inner.sample(n=3)3、简单随机采样Weights参数是采样的权重，
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
用Python和OpenCV从零搭建一个完整的双目视觉系统（三） presenttttt 双目立体视觉数码相机
本系列文章旨在系统性地阐述如何利用Python与OpenCV库，从零开始构建一个完整的双目立体视觉系统。本项目github地址：https://github.com/present-cjn/stereo-vision-python.git在上一篇文章中，我们为项目设计了清晰的架构。现在，我们将深入第一个，也是整个双目视觉系统最关键的模块——相机标定(CameraCalibration)。如果说双目
虚拟环境已安装该包，且已激活，但报错
排查原因：是否存在这样的现象命令结果condalist显示的是base环境的包piplist显示的是你当前虚拟环境的包激活了Conda的base环境，但运行的Python实际来自其他路径（如virtualenv创建的虚拟环境或系统Python）Python路径与Conda环境不一致我主要在base的基础上激活了新的虚拟环境，导致环境不一致解决：退出所有环境，重新激活虚拟环境验证是否一致
android studio调用python_Android Studio调用python运行thensorflow模型--CLE方案实现孔良 android studio调用python
AndroidStudio调用python运行thensorflow模型--CLE方案实现AndroidStudio调用python运行thensorflow模型--CLE方案实现我使用的是虚拟android设备，故对应的CLE中库文件版本为/x86，你可以根据自己开发环境找到对应的版本。调用的python版本为3.7，以下为主要步骤：1、环境准备在官网下载最新的CLEforAndroid开发包，
FastAPI 实用教程：构建高性能 Python Web API 的终极指南熊猫钓鱼>_> 大数据 hadoop 分布式
本文为原创实战教程，涵盖FastAPI核心特性、路由设计、数据验证、数据库集成、认证授权、测试部署全流程，4000+字助你快速掌握现代PythonWeb开发利器。一、FastAPI为何成为开发者新宠？在PythonWeb框架领域，Flask和Django长期占据主导地位。但FastAPI自2018年发布以来迅速崛起，其魅力在于：极致的性能：基于Starlette（异步Web框架）和Pydantic
在Android Studio中成功集成Python功能指南
本文还有配套的精品资源，点击获取简介：在移动应用开发中，由于Python的易用性和丰富的库，越来越多的开发者希望在Android应用中使用Python。Chaquopy作为一个开源的Android库，使得开发者可以在Android应用中直接运行Python代码。本文将详细介绍如何在AndroidStudio中集成Chaquopy，配置Python环境，调用Python代码，使用Python库，以及
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C