jojo来根易安

Python爬虫实例01

Python网页爬虫实例1

1、爬取搜狗指定词条对应的搜索结果页面

功能描述：输入要想搜索的关键字，爬取对应的搜索结果页面

步骤1：确定url
因为我们想要爬取搜索关键词之后的页面，所以我们可以先搜索几个关键词，找出url的规律。

观察其URL中的参数，我们可以发现，不同关键词搜索页面的主要区别在于query参数，尝试只用带有query参数的url访问，可以发现结果相同，所以我们只需要query参数即可。

当然，我们也可以在网页源代码的network下的网页响应包中查看对应的参数。我们确定已经url和其所携带的参数，需要将参数封装在字典中。

url = 'https://www.sogou.com/web'
param = {"query":keyword}

步骤2：发起请求，获取网页响应
requests发起网页请求有GET和POST两种方法。打开网页源代码，在network下打开网页响应包，在Header下即可查看到网页的请求方法request method为GET。

为了伪装成服务器对网页进行请求，还需要User-Agent，也是在Headers下查看，将其封装在字典中作为我们的请求头。

headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36'
}

接下来就可以使用GET方法对网页发起请求，获取网页响应response。

步骤3：获取响应的内容
response.text：响应体 str类型
response.encoding：二进制转换字符使用的编码
response.content：响应体类型 bytes类型

步骤4：存储数据
我们可以将爬取到的数据存储起来，方便后续使用。由于程序中获取的是html类型数据，因此也将其存储成.html格式。使用with open打开文件，其自带文件的close功能。

程序代码如下：

# 导入模块
import requests
# 指定url
url = 'https://www.sogou.com/web'
# 处理url携带的参数：封装到字典中
keyword = input("请输入搜索关键字：")
# url携带的参数
param = {"query":keyword}
# 请求头，用来伪装成某款浏览器
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36'
}
# 发起请求，获取响应
response = requests.get(url=url,params=param,headers=headers)
print(response.status_code)    # 检查状态码
print(response.encoding)   #查看编码格式
# 获取响应数据
page_text = response.text
# print(response.text)

# 持久化存储数据
file_name = keyword + '.html'
with open(file_name,'w',encoding='utf-8') as f:      # with open自带close文件的功能
    f.write(page_text)
print(file_name,"保存成功")

2、爬取百度翻译结果

功能：输入一个英文单词或句子，爬取对应的翻译界面
AJAX(Asynchronous Javascript And XML，异步JavaScript和XML)，使用Ajax技术网页应用能够快速地将增量更新呈现在上，而不需要重载（刷新）整个页面，这使得程序能够更快地回应用户的操作。其核心是XMLHttpRequest对象(XHR)。XHR为向服务器发送请求和解析服务器响应提供了接口。能够以异步方式从服务器获取新数据。
输入单词之前：

输入单词之后：

输入单词后，只是在当前页面上进行了局部刷新，这就表示在文本框中输入一个单词之后，它就会自动发起AJAX请求，AJAX请求成功之后，会对页面的内容进行局部刷新。我们可以打开抓包工具，捕获输入字符之后发起的AJAX请求，AJAX请求中的数据就是在页面中刷新出来的对应单词的翻译结果。右击页面选择检查——选择NetWork——将选项定位到XHR(XMLHttpRequest对象)——在文本框中输入要翻译的单词——查看XHR下抓取到的每一个请求数据包，找去包含我们需要的数据的包。

可以发现，发起的是一个POST请求，因为该请求携带了表单数据——输入的文本。在该数据包的响应标头中看到响应的数据类型content-type是application/json，即翻译页面返回的翻译结果是一个json类型的数据，这个json类型的数据可以在预览中看到。所以我们获取响应数据时，可以通过response.json()获取json类型数据。

步骤1：确定url
在找到的响应数据包中即可找到请求url
步骤2：发起请求，获取响应
发起的请求是POST请求，需要携带表单数据，将表单数据封装到字典中作为POST请求的data参数。

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.81'}
# POST请求携带的表单数据
data = {
    'kw':keyword
}
res = requests.post(post_url,headers=headers,data=data)

步骤3：获取响应数据
我们已知网页响应的数据是json类型数据，则可以通过res.json()获取网页中的json数据串。注意：只有当确定网页响应的数据是json类型时，才可以使用.json()方法。我们通过json方法获取到的是一个object，这个对象的类型是python中的字典类型或者是python中嵌套了字典的列表类型。

data = res.json()

步骤4：持久化存储数据
可以将数据存储为json类型，通过json中的dump或dumps方法可以将上一步中获取的数据转化为json类型数据。

data_json = json.dumps(data,ensure_ascii=False)       # dumps方法是将python类型的数据转化为json类型的数据,中文不能使用ascii编码

或者

fp = open(f'./BAfanyi_{keyword}','w',encoding='utf-8')
json.dump(data,fp=fp,ensure_ascii=False)   # fp参数表示数据要存入的文件

全部代码如下：

# 导入模块
import requests
import json
# 确定url
keyword = input("请输入一个英文单词或一个英文句子:")
post_url = 'https://fanyi.baidu.com/sug'       # 响应数据包中的请求url
# 请求头
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.81'}
# POST请求携带的表单数据
data = {
    'kw':keyword
}
# 发起请求，获取响应
res = requests.post(post_url,headers=headers,data=data)
data = res.json()     # json方法返回的是object,通过json()方法获取字典类型的数据

# 进行持久化存储——将获取的字典类型数据存储为json类型数据
data_json = json.dumps(data,ensure_ascii=False)       # dumps方法是将python类型的数据转化为json类型的数据,中文不能使用ascii编码
with open(f'./BDfanyi_{keyword}.json','w',encoding='utf-8') as f:
    f.write(data_json)

print("-----------爬取数据结束！------------")

3、爬取豆瓣电影分类排行榜中的电影详情数据

https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=

在豆瓣电影中随意选择一个分类，这里选的是剧情片。在该页面拖动滚动条会发现页面会自动加载没有显示出来的电影，即在原页面进行一个局部刷新，我们可以查看其AJAX请求是否携带数据包。

在抓包工具的XHR项可以发现，随着我们不断下滑页面，加载出新的信息，抓到的数据包就会增加。

接下来查看数据包的内容。可以发现，XHR下所有数据包的请求方法都是GET方法，其请求URL变化如下：
https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=0&limit=1

https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=0&limit=20

https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=20&limit=20

https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=40&limit=20

https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=60&limit=20

这些包的url携带参数，并且有些参数是变化的，我们可以查看包的表单数据。

其中start参数表示加载电影的起点，limit表示一次加载限制20部电影，我们可以将url中问号后面的这些参数也就是查询字符串参数，封装到字典中作为get请求的param参数。通过上面不同包的url可以看出，start参数是可以修改的。然后我们可以修改limit参数看是否能请求到页面，如果不可以，就一次只能抓取20条数据，然后通过循环抓取该页面所有的电影数据；如果可以，我们就先获取该页面一共有多少部电影的数据，然后将limit改为总的电影数量，就可以一次性获取这个页面所有的电影数据。
其实在剧情片页面中可以看出该页面共有895部电影，但是当我们需要爬取不同类型，如剧情、爱情、动作等等这些所有的电影时，需要使用循环，就没办法一次次查看一个页面总共有多少部电影数据了。这时我们可以先抓取该页面总电影数量total，再抓取该页面电影的数据。

步骤1：指定url
从抓取到的XHR下的响应数据包中可以查看电影数据页面的请求url，我们把url中携带的参数封装到字典中作为GET请求的params参数。

url = 'https://movie.douban.com/j/chart/top_list'
params = {
    'type':11,
    'interval_id':'100:90',
    'action':'',
    'start':0,     # 从第几部电影开始取
    'limit':20,     # 限制一次请求显示多少部电影
}

步骤2：发起请求，获取网页响应
在响应数据包的Headers下可以看到请求网页的方法时GET方法，我们需要进行UA伪装，并将GET请求方法的参数传入，对网页发起请求。

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.81'}
# 发起请求
response = requests.get(url=url,headers=headers,params=params)

步骤3：获取响应数据
因为在响应包中得知响应数据的类型content-type是application/json，即json类型的数据，因此我们可以用json()方法获取到响应数据对象(object)，object的类型是python中嵌套了字典的列表类型。

data = response.json()   # 通过json方法获取数据对象，该对象类型是python中的嵌套字典的列表类型
print(type(data))        # 查看数据类型，结果是Python中的嵌套了字典的列表类型

步骤4：持久化存储数据
将获取到的嵌套字典的列表类型数据转化为json类型并存储成.json格式。

f = open('./douban_1.json','w',encoding='utf-8')
json.dump(data,fp=f,ensure_ascii=False)
f.close()

下面是该爬虫案例的全部代码：

'''
爬取豆瓣电影分类排行榜中的电影详细信息
'''

import requests
import json

# 获取该页面一共有多少部电影
url1 = 'https://movie.douban.com/j/chart/top_list_count?type=11&interval_id=100%3A90'
# UA伪装
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.81'}
res = requests.get(url1,headers=headers)
data1 = res.json()
print(data1)
total = data1["total"]       # 获取该页面电影数量
print(total)

# 确定url
url = 'https://movie.douban.com/j/chart/top_list'
params = {
    'type':11,
    'interval_id':'100:90',
    'action':'',
    'start':0,     # 从第几部电影开始取
    'limit':total,     # 限制一次请求显示多少部电影
}

# 发起请求，获取响应数据
response = requests.get(url=url,headers=headers,params=params)

# 获取响应数据
# 在抓取到的响应包中已经知道响应数据的类型content-type是application/json，即json类型数据
data = response.json()   # 通过json方法获取数据对象，该对象类型是python中的嵌套字典的列表类型
print(type(data))        # 查看数据类型，结果是Python中的嵌套了字典的列表类型
print(data)
print(len(data))     # 查看一共获取了多少部电影的数据

# 持久化存储数据
f = open('./douban_1.json','w',encoding='utf-8')
json.dump(data,fp=f,ensure_ascii=False)
f.close()

print("-----------爬虫结束了！！！--------------------------")

4、爬取肯德基餐厅中指定地点的餐厅数据

功能描述：输入一个城市，爬取该城市全部肯德基餐厅的数据。

肯德基官网的地址是：http://www.kfc.com.cn/kfccda/index.aspx

在官网首页底部点击餐厅查询，然后在搜索框中输入一个城市，比如：北京。查询前后，可以发现，网页的url并没有发生变化，说明只是在当前页面进行了局部刷新。我们需要打开抓包工具查看查询前后是否发生AJAX请求，如果是，就找到包含我们所需数据的响应数据包。

在输入查询的地点之后，XRH下出现一个响应数据包。在原页面中翻页，又会抓到新的包。抓取到的所有的包的请求url都相同，请求方法都为POST方法，响应数据的类型content-type是application/json类型。观察表单数据可以发现，keyword代表我们输入的查询地点，改变keyword的值，可以定位到不同城市。pageIndex表示当前在第几页，不同包的pageIndex不同，说明可以修改pageIndex来达到翻页。pageSize表示一页共显示多少个餐厅的数据。

在包的预览项中可以发现我们想要获取的数据，其类型是json数据类型。改json数据串中包含两项，Table和Table1，Table中表示的信息是指定地点的餐厅总数，Table1是当前页中的餐厅信息。

因此就是通过POST方法请求网页，并获取网页中json类型的数据。

步骤1：指定ur
在响应包的Headers下可以获取到请求url。

url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'

步骤2：发起网页请求，获取响应
准备好url、请求头和POST请求需要的表单数据。

# 表单数据
data = {
    'cname': '',
    'pid': '',
    'keyword': '北京',
    'pageIndex': 1,
    'pageSize': 20,
}
# UA伪装
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.81'}

# 发起网页请求，获取数据
info = requests.post(url,headers=headers,data=data)

步骤3：获取响应数据
在获取到json类型的响应数据之后，查看它的类型发现时字典类型。查看字典的长度发现长度为2，说明其中只有两对键值对。打印字典数据，可以发现第一个键值对中的value是总行数，即指定地点的所有餐厅数。第二个键值对即当前页面的餐厅的信息。

当前页面是第一页，有10个餐厅。通过字典的取值方式获取到第二对键值对中的value，其中就是第一页所有餐厅的数据。输出结果表示，我们从第一页获取到10家餐厅的信息。

我们可以尝试修改pageSize即每一页显示的餐厅数量，看是否可以一次获取更多的数据。将表单数据中的pageSize修改为20，确实可以一次性获取20个餐厅的信息。因此我们可以将pageSize修改为总餐厅数193，一次性获取全部的餐厅信息。当然，我们也可以通过循环，修改pageIndex实现翻页，一次获取10个餐厅的信息。但是，它并没有告诉我们总页数，只告诉我们总行数，为了更方便获取数据，程序中将会先获取总行数，再一次性爬取所有餐厅的数据。

步骤4：持久化存储数据
将获取到的字典类型数据转化为json类型并存储成.json文件。

该爬虫程序的全部代码如下：

'''
 爬取肯德基餐厅查询http://www.kfc.com.cn/kfccda/index.aspx中指定地点的餐厅数
'''

# 导入模块
import requests
import json
# 指定url
url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
# UA伪装
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.81'}
kw = input("请输入要查询的城市：")     # 指定地点
# 表单数据
data = {
    'cname': '',
    'pid': '',
    'keyword': kw,
    'pageIndex': 1,
    'pageSize': 20,
}
# 获取指定地点的餐厅总数
response = requests.post(url,headers=headers,data=data)
# json对应的字典类型数据中，第一个键值对的键是Table，对应的value是一个只有一个元素的列表，而且这个元素的类型是字典类型。
# response.json()['Table'][0]表示取列表的第一个元素，得到一个字典
# 得到的字典中只有一个键值对，键是rowcount，表示总行数，对应的value就是所有餐厅数
total_row = response.json()['Table'][0]['rowcount']
# print(total_row)

# 将获取的餐厅总数量传入到参数data中
data['pageSize'] = total_row
# print(data)


# 发起网页请求，获取响应
res = requests.post(url,headers=headers,data=data)
print(type(res.json()))    # 查看获取的object的数据类型,是字典类型
print(len(res.json()))     # 查看字典的长度
print(res.json())          # 可以发现，我们要获取的餐厅信息在该字典的第二个value中

# info.json()该字典中一共有两个键值对，第一个value表示总行数，第二个value是每一个餐厅的信息
list_data = res.json()['Table1']    # 获取嵌套了字典的列表类型的数据
print(type(list_data))    # 查看获取的object的数据类型,是列表类型
print(len(list_data))       # 查看共获取了多少个餐厅的数据
print(list_data)            # 查看获取到的餐厅数据

# 持久化存储数据
data_json = json.dumps(list_data,ensure_ascii=False)      # 数据中有中文，不能用ascii码
with open(f'./KFC_{kw}.json','w',encoding='utf-8') as f:
    f.write(data_json)

print("------------爬虫结束！！------------------")

需要注意的是，有些城市的餐厅数量小于10家，所以它的pageIndex只能是1，即只有一页数据，所以我们在指定页数的时候要注意不要超出范围，否则就获取不到数据。

PS：如果要在一个程序中爬取多个城市的全部肯德基餐厅的数据，可以将城市名封装在一个列表中，通过循环列表，将每一个城市名依次赋值给data参数中的keyword，就可以指定不同地点，不用每次都输入城市名。

示例2-4都不是直接通过对url请求得到响应，而是通过AJAX动态请求获取到响应。

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin