还算小萌新？

python爬虫学习笔记 1.9 （Handler处理器和自定义Opener）

python爬虫学习笔记 1.1（通用爬虫和聚焦爬虫）
python爬虫学习笔记 1.2 （ HTTP和HTTPS ）
python爬虫学习笔记 1.3 str和bytes的区别
python爬虫学习笔记 1.4 （Request简单使用）request安装
python爬虫学习笔记 1.5 （Requests深入）
python爬虫学习笔记 1.6 （HTTP/HTTPS抓包工具-Fiddler）
python爬虫学习笔记 1.7 （urllib模块的基本使用）
python爬虫学习笔记 1.8 （urllib:get请求和post请求）
python爬虫学习笔记 1.9 （Handler处理器和自定义Opener）
python爬虫学习笔记 2 （非结构化数据和结构化数据提取）
python爬虫学习笔记 2.1 （正则表达式re模块）
python爬虫学习笔记 2.2 （使用正则表达式得爬虫得简单案例）
python爬虫学习笔记 2.3 （XPath与lxml类库）
python爬虫学习笔记 2.4 （使用Xpath得案例）
python爬虫学习笔记 2.5 （json与JsonPath）
python爬虫学习笔记 2.6 （糗事百科案例）
python爬虫学习笔记 2.7 （多线程爬虫案例（初步了解））
python爬虫学习笔记 2.8 （beautifulsoup4）
python爬虫学习笔记 2.9 （使用bs4得案例）
python爬虫学习笔记 3 （动态HTML处理和机器图像识别）
python爬虫学习笔记 3.1 （动态HTML介绍）
python爬虫学习笔记 3.2 （Selenium与PhantomJS）
python爬虫学习笔记 3.#（番外）（selenium和chromedriver使用中得问题）

Handler处理器和自定义Opener

opener是 urllib.request.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。
但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能：

1.使用相关的 Handler处理器来创建特定功能的处理器对象；
2.然后通过 urllib.request.build_opener()方法使用这些处理器对象，创建自定义opener对象；
3.使用自定义的opener对象，调用open()方法发送请求。
如果程序里所有的请求都使用自定义的opener，可以使用urllib.request.install_opener() 将自定义的 opener 对象定义为全局opener，表示如果之后凡是调用urlopen，都将使用这个opener（根据自己的需求来选择）

简单的自定义opener()

import urllib.request

# 构建一个HTTPHandler 处理器对象，支持处理HTTP请求
http_handler = urllib.request.HTTPHandler()

# 构建一个HTTPHandler 处理器对象，支持处理HTTPS请求
# http_handler = urllib.request.HTTPSHandler()

# 调用urllib.request.build_opener()方法，创建支持处理HTTP请求的opener对象
opener = urllib.request.build_opener(http_handler)

# 构建 Request请求
request = urllib.request.Request("http://www.baidu.com/")

# 调用自定义opener对象的open()方法，发送request请求
response = opener.open(request)

# 获取服务器响应内容
print (response.read().decode())

这种方式发送请求得到的结果，和使用urllib.request.urlopen()发送HTTP/HTTPS请求得到的结果是一样的。

如果在 HTTPHandler()增加 debuglevel=1参数，还会将 Debug Log 打开，这样程序在执行的时候，会把收包和发包的报头在屏幕上自动打印出来，方便调试，有时可以省去抓包的工作。

# 仅需要修改的代码部分：

# 构建一个HTTPHandler 处理器对象，支持处理HTTP请求，同时开启Debug Log，debuglevel 值默认 0
http_handler = urllib.request.HTTPHandler(debuglevel=1)

# 构建一个HTTPHSandler 处理器对象，支持处理HTTPS请求，同时开启Debug Log，debuglevel 值默认 0
https_handler = urllib.request.HTTPSHandler(debuglevel=1)

ProxyHandler处理器（代理设置）

使用代理IP，这是爬虫/反爬虫的第二大招，通常也是最好用的。

很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。

所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁止，依然可以换个IP继续爬取。

urllib.request中通过ProxyHandler来设置使用代理服务器，下面代码说明如何使用自定义opener来使用代理：

#urllib_proxy1.py

import urllib.request

# 构建了两个代理Handler，一个有代理IP，一个没有代理IP
httpproxy_handler = urllib.request.ProxyHandler({"http" : "124.88.67.81:80"})
nullproxy_handler = urllib.request.ProxyHandler({})

proxySwitch = True #定义一个代理开关

# 通过 urllib.request.build_opener()方法使用这些代理Handler对象，创建自定义opener对象
# 根据代理开关是否打开，使用不同的代理模式
if proxySwitch:  
    opener = urllib.request.build_opener(httpproxy_handler)
else:
    opener = urllib.request.build_opener(nullproxy_handler)

request = urllib.request.Request("http://www.baidu.com/")

# 1. 如果这么写，只有使用opener.open()方法发送请求才使用自定义的代理，而urlopen()则不使用自定义代理。
response = opener.open(request)

# 2. 如果这么写，就是将opener应用到全局，之后所有的，不管是opener.open()还是urlopen() 发送请求，都将使用自定义代理。
# urllib.request.install_opener(opener)
# response = urlopen(request)

print (response.read().decode())

免费的开放代理获取基本没有成本，我们可以在一些代理网站上收集这些免费代理，测试后如果可以用，就把它收集起来用在爬虫上面。

免费短期代理网站举例：

西刺免费代理IP
快代理免费代理
Proxy360代理
全网代理IP

如果代理IP足够多，就可以像随机获取User-Agent一样，随机选择一个代理去访问网站。

import urllib.request
import random

proxy_list = [
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"},
    {"http" : "124.88.67.81:80"}
]

# 随机选择一个代理
proxy = random.choice(proxy_list)
# 使用选择的代理构建代理处理器对象
httpproxy_handler = urllib.request.ProxyHandler(proxy)

opener = urllib.request.build_opener(httpproxy_handler)

request = urllib.request.Request("http://www.baidu.com/")
response = opener.open(request)
print (response.read())

但是，这些免费开放代理一般会有很多人都在使用，而且代理有寿命短，速度慢，匿名度不高，HTTP/HTTPS支持不稳定等缺点（免费没好货）。

所以，专业爬虫工程师或爬虫公司会使用高品质的私密代理，这些代理通常需要找专门的代理供应商购买，再通过用户名/密码授权使用（舍不得孩子套不到狼）。

Cookie

Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪，而储存在用户浏览器上的文本文件，Cookie可以保持登录信息到用户下次与服务器的会话。

Cookie原理

HTTP是无状态的面向连接的协议, 为了保持连接状态, 引入了Cookie机制 Cookie是http消息头中的一种属性，包括：

Cookie名字（Name）
Cookie的值（Value）
Cookie的过期时间（Expires/Max-Age）
Cookie作用路径（Path）
Cookie所在域名（Domain），
使用Cookie进行安全连接（Secure）。

前两个参数是Cookie应用的必要条件，另外，还包括Cookie大小（Size，不同浏览器对Cookie个数及大小限制是有差异的）。

Cookie由变量名和值组成，根据 Netscape公司的规定，Cookie格式如下：

Set－Cookie: NAME=VALUE；Expires=DATE；Path=PATH；Domain=DOMAIN_NAME；SECURE

Cookie应用

Cookies在爬虫方面最典型的应用是判定注册用户是否已经登录网站，用户可能会得到提示，是否在下一次进入此网站时保留用户信息以便简化登录手续。

# 获取一个有登录信息的Cookie模拟登陆

import urllib

# 1. 构建一个已经登录过的用户的headers信息
headers = {
    "Host":"www.renren.com",
    "Connection":"keep-alive",
    "Upgrade-Insecure-Requests":"1",
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36",
    "Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "Accept-Language":"zh-CN,zh;q=0.8,en;q=0.6",
    "Referer":"http://www.renren.com/SysHome.do",
    # 便于终端阅读，表示不支持压缩文件
    # Accept-Encoding: gzip, deflate, sdch,

    # 重点：这个Cookie是保存了密码无需重复登录的用户的Cookie，这个Cookie里记录了用户名，密码(通常经过RAS加密)
    "Cookie": "anonymid=j3jxk555-nrn0wh; depovince=BJ; _r01_=1; JSESSIONID=abcnLjz9MSvBa-3lJK3Xv; ick=3babfba4-e0ed-4e9f-9312-8e833e4cb826; jebecookies=764bacbd-0e4a-4534-b8e8-37c10560770c|||||; ick_login=84f70f68-7ebd-4c5c-9c0f-d1d9aac778e0; _de=7A7A02E9254501DA6278B9C75EAEEB7A; p=91063de8b39ac5e0d2a57500de7e34077; first_login_flag=1; ln_uact=13146128763; ln_hurl=http://head.xiaonei.com/photos/0/0/men_main.gif; t=39fca09219c06df42604435129960e1f7; societyguester=39fca09219c06df42604435129960e1f7; id=941954027; xnsid=8868df75; ver=7.0; loginfrom=null; XNESSESSIONID=a6da759fe858; WebOnLineNotice_941954027=1; wp_fold=0"
}

# 2. 通过headers里的报头信息（主要是Cookie信息），构建Request对象
urllib.request.Request("http://www.renren.com/941954027#", headers = headers)

# 3. 直接访问renren主页，服务器会根据headers报头信息（主要是Cookie信息），判断这是一个已经登录的用户，并返回相应的页面
response = urllib.request.urlopen(request)

# 4. 打印响应内容
print (response.read().decode())

但是这样做太过复杂，我们先需要在浏览器登录账户，并且设置保存密码，并且通过抓包才能获取这个Cookie，那有么有更简单方便的方法呢？

cookiejar库和 HTTPCookieProcessor处理器

在Python处理Cookie，一般是通过cookiejar模块和 urllib模块的HTTPCookieProcessor处理器类一起使用。
cookiejar模块：主要作用是提供用于存储cookie的对象

HTTPCookieProcessor处理器：主要作用是处理这些cookie对象，并构建handler对象。

cookiejar 库

该模块主要的对象有CookieJar、FileCookieJar、MozillaCookieJar、LWPCookieJar。

CookieJar：管理HTTP cookie值、存储HTTP请求生成的cookie、向传出的HTTP请求添加cookie的对象。整个cookie都存储在内存中，对CookieJar实例进行垃圾回收后cookie也将丢失。
我们来做几个案例：

1）获取Cookie，并保存到CookieJar()对象中

# urllib_cookiejar_test1.py

import urllib
from http import cookiejar

# 构建一个CookieJar对象实例来保存cookie
cookiejar = cookiejar.CookieJar()

# 使用HTTPCookieProcessor()来创建cookie处理器对象，参数为CookieJar()对象
handler=urllib.request.HTTPCookieProcessor(cookiejar)

# 通过 build_opener() 来构建opener
opener = urllib.request.build_opener(handler)

# 4. 以get方法访问页面，访问之后会自动保存cookie到cookiejar中
opener.open("http://www.baidu.com")

## 可以按标准格式将保存的Cookie打印出来
cookieStr = ""
for item in cookiejar:
    cookieStr = cookieStr + item.name + "=" + item.value + ";"

## 舍去最后一位的分号
print (cookieStr[:-1])

我们使用以上方法将Cookie保存到cookiejar对象中，然后打印出了cookie中的值，也就是访问百度首页的Cookie值。
运行结果如下：

BAIDUID=4327A58E63A92B73FF7A297FB3B2B4D0:FG=1;BIDUPSID=4327A58E63A92B73FF7A297FB3B2B4D0;H_PS_PSSID=1429_21

利用cookiejar和post登录人人网

import urllib
from http import cookiejar

# 1. 构建一个CookieJar对象实例来保存cookie
cookie = cookiejar.CookieJar()

# 2. 使用HTTPCookieProcessor()来创建cookie处理器对象，参数为CookieJar()对象
cookie_handler = urllib.request.HTTPCookieProcessor(cookie)

# 3. 通过 build_opener() 来构建opener
opener = urllib.request.build_opener(cookie_handler)

# 4. addheaders 接受一个列表，里面每个元素都是一个headers信息的元祖, opener将附带headers信息
opener.addheaders = [("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36")]

# 5. 需要登录的账户和密码
data = {"email":"13****46**8763", "password":"****"}  

# 6. 通过urlencode()转码
postdata = urllib.parse.urlencode(data).encode()

# 7. 构建Request请求对象，包含需要发送的用户名和密码
request = urllib.request.Request("http://www.renren.com/PLogin.do", data = postdata)

# 8. 通过opener发送这个请求，并获取登录后的Cookie值，
opener.open(request)                                              

# 9. opener包含用户登录后的Cookie值，可以直接访问那些登录后才可以访问的页面
response = opener.open("http://www.renren.com/410043129/profile")  

# 10. 打印响应内容
print (response.read().decode())

模拟登录要注意几点：

1.登录一般都会先有一个HTTP GET，用于拉取一些信息及获得Cookie，然后再HTTP POST登录。
2.HTTP POST登录的链接有可能是动态的，从GET返回的信息中获取。
3.password 有些是明文发送，有些是加密后发送。有些网站甚至采用动态加密的，同时包括了很多其他数据的加密信息，只能通过查看JS源码获得加密算法，再去破解加密，非常困难。
4.大多数网站的登录整体流程是类似的，可能有些细节不一样，所以不能保证其他网站登录成功。

这个测试案例中，为了想让大家快速理解知识点，我们使用的人人网登录接口是人人网改版前的隐藏接口(嘘…)，登录比较方便。
当然，我们也可以直接发送账号密码到登录界面模拟登录，但是当网页采用JavaScript动态技术以后，想封锁基于 HttpClient 的模拟登录就太容易了，甚至可以根据你的鼠标活动的特征准确地判断出是不是真人在操作。
所以，想做通用的模拟登录还得选别的技术，比如用内置浏览器引擎的爬虫(关键词：Selenium ，PhantomJS)，这个我们将在以后会学习到。

Python人工智能学习路线，来自阿里巴巴佛系Python程序员的指南阿里P6+ 2024年程序员学习 python 人工智能学习
其实，这两方面都是存在的，但都很片面，这里不加赘述。客观地说，数字化、智能化是人类社会发展的趋势，而当下人工智能无疑是一大热门，那是蓝海还是火海？我们回到老道理——水的深度，只有你自己去试试水才知道。当你对上面情况有了初步的了解并想试试水，需要面对的问题是：AI入门容易吗？答案其实是否定的，难！AI领域需要钻研算法原理、大量复杂的公式及符号、无所适从的项目都是劝退一时热度初学者的原因。但对于一个初
cannot import name 'url_parse' from 'werkzeug.urls'
调包侠的python项目如果出现这个报错时，说明项目用的werkzeug版本和项目代码不兼容。在不知道werkzeug哪个开始就不提供url_parse了。解决方法很简单，调包侠们只要换个包就行了：#fromwerkzeug.urlsimporturl_parsefromurllib.parseimporturlparseasurl_parse
Python客服机器人编织幻境的妖 python 机器人开发语言
1.功能概述实现一个简单的客服机器人应用，使用Python的Tkinter库构建了图形用户界面(GUI)，并通过与MySQL数据库交互来查询和回复用户的提问。此外，它还支持从CSV或Excel文件中导入话术模板，并提供下载模板的功能。2.实现逻辑初始化与GUI设置：通过tkinter库创建了一个窗口应用程序，设置了文本显示区、用户输入区、发送按钮、导入话术按钮和下载模板按钮。连接到数据库：尝试连接
C39RF C39RF Applied Financial 后端
Subject:C39RFAppliedFinancialModellinginPythonCaseStudy1Date:Submissiondeadline:28thofFebruary,12pmUKtime,4pmDubaitime,and8pmMalaysiatime.Pleasenotethefollowingbeforeyoucommencetheassignment:•Youhavet
自用python基础2 ffuanc python基础 python
二、数组的存储和处理——NumPy模块2.1创建数组多维数组array(object,dtype=None,copy=True,order=None,subok=False,ndmin=0)importnumpyasnpa=np.array([1,2,3,4])b=np.array([[1,2,3],[4,5,6],[7,8,9]])print(a)print(b)运行结果：[1234][[123
python高级用法之pydantic atom goper python java 前端
Pydantic是一个基于Python类型提示的数据验证库。它利用Python的类型注解来定义数据模型，并自动进行类型检查、数据验证和错误处理。它被一些顶级的Python模块所采用，其中特别包括HuggingFace、FastAPI和Langchain。优势：IDE类型提示：通过数据建模，可以获得更好的IDE对类型提示和自动补全的支持。数据验证：通过使用Pydantic验证数据，当创建对象时，可以
阿里AI通义千问api python开发文档淘小白_TXB2196 人工智能 javascript 前端
本文中含有需要您注意的重要提示信息，忽略该信息可能对您的业务造成影响，请务必仔细阅读。您可以使用SDK或API调用通义千问模型，根据您的需求实现灵活的定制和开发。通义千问说明支持的领域/任务：aigc通义千问大语言模型以用户文本形式的指令（prompt）以及不定轮次的对话消息作为输入，并基于这些信息生成回复作为输出。在这一过程中，文本将被转换为语言模型可以处理的token序列。Token是模型用来
【Python爬虫(100)】从当下到未来：Python爬虫技术的进阶之路奔跑吧邓邓子 Python爬虫 python 爬虫开发语言未来发展
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、爬虫技术发展现状与瓶颈1.1爬虫技术发展现状1.2爬虫技术瓶颈
【Python爬虫(88)】当Python爬虫邂逅智能硬件：解锁数据新玩法奔跑吧邓邓子 Python爬虫 python 爬虫智能硬件开发语言
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、智能硬件的数据采集需求剖析2.1智能音箱的数据采集需求
【Python爬虫(98)】从数据抓取到产业变革：爬虫技术的跨界融合与生态进化奔跑吧邓邓子 Python爬虫 python 爬虫开发语言产业融合生态
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、引言二、爬虫技术在新兴产业中的深度融合2.1智能医疗领域的应用
Python学习_很好的学习笔记自用百年渔翁_肯肯测试开发
Onthispage...(hide)1. 基本安装2. Python文档2.1 推荐资源站点2.2 其他参考资料2.3 代码示例3. 常用工具3.1 PythonIDE3.2 内置类库使用参考3.3
常用Python代码 newlz2000 python
常见的for循环去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的代码片.1Value=[(10,150),(100,200),(180,230)]fori,(minVal,maxVal)inenumerate(Value):plt.subplot(1,3,i+1)edges=cv2.Canny(image,minVal,maxVal)edges=cv2.GaussianBlur(
体验通义千问AI大模型生成Python泊松分布「已注销」人工智能 python 开发语言
在Python中，你可以使用matplotlib和numpy库来绘制泊松分布的概率密度函数（PDF）或累积分布函数（CDF）。以下是一个示例代码片段，它展示了如何使用numpy的poisson函数以及matplotlib进行绘制：importnumpyasnpimportmatplotlib.pyplotaspltfromscipy.statsimportpoisson#使用scipy中的泊松分布
在Linux环境下安装和使用Pyenv：详细指南 I'mAlex Python三方库 #Python linux 运维服务器 python pyenv
Pyenv是一个用于管理多个Python版本的强大工具，特别适合在Linux环境下使用。本文将详细介绍如何在Linux系统上安装和使用Pyenv，以便更好地管理Python开发环境。博主简介：现任阿里巴巴嵌入式技术专家，15年工作经验，深耕嵌入式+人工智能领域，精通嵌入式领域开发、技术管理、简历招聘面试。CSDN优质创作者，提供产品测评、学习辅导、简历面试辅导、毕设辅导、项目开发、C/C++/Ja
Python常用代码 Lone_X python
1.求三角形面积（海伦公式）importmatha,b,c=eval(input())ifa+b>canda+c>bandb+c>a:p=(a+b+c)/2.0area=math.sqrt(p*(p-a)*(p-b)*(p-c))print("%.2f"%area)else:print("不能构成三角形")2.求输入的正整数的各位数字之和n=int(input())total=0whilen>0:
Ollama本地私有化部署通义千问大模型Qwen2.5 ErbaoLiu 数据分析&大模型机器学习&大模型自然语言处理&大模型大模型 LLM Qwen2.5 Qwen2 Ollama
目录Qwen2.5介绍Qwen2.5新闻Ollama介绍Linux安装Ollama一键安装Ollama手工安装Ollama卸载OllamaOllama运行Qwen2基于Transformers进行推理本文复现环境：Python3.12.6+Windows8.1+LinuxCentOS7+PyCharmCommunityEdition2022.3.3。Qwen2.5github地址如下：GitHub
Python 列表与元组全攻略：从新手到高手的必备指南吴师兄大模型 python 开发语言列表（List）元组（Tuple）算法编程 PYTHON
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人闯江湖50年 langchain python 机器人人工智能
前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。它提供了一个灵活的框架，使得开发者可以构建具有上下文感知能力和推理能力的应用程序，这些应用程序可以利用公司的数据和APIs。这个框架由几个部分组成。LangChain库：Python和JavaScript库。包含了各种组件的接口和集成，一个基本的运行时，用于将这些组件组合
python天气数据分析与处理,用python数据分析天气 2401_84504019 人工智能
本篇文章给大家谈谈python天气预报可视化分析报告，以及基于python的天气预测系统研究，希望对各位有所帮助，不要忘了收藏本站喔。基于大数据重庆市气象数据分析摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于站在的角度存在偏差，人们经常能够获得不同类型信息，这也是技术最为难以攻克的课题。针对气象数据等问题，对气象信息进行研究分析，然后开发设计出气象数据分
[python脚本]论文1.（一）CPU/内存数据分析和分组 weixin_45396500 python 数据分析开发语言
CPU收集到的CPU数据，格式如下：由于这里6个数据为一组来收集latency的数据以及各个分位值的数据，而本质上每一行都是一次完整的测试，因此这里将这个csv文件分为两个文件，第一个是和latency相关的，将6条数据融合为一条，而剩下的数据比如eps等，单独整理为一个文件。这里分为两步，第一步单独处理每个实例收集到的数据，第二步是汇总所有实例数据。对于50个实例收到的数据，先通过将6条合并为一
python常用代码-自用吃不到的烤鱼 python 开发语言
文章目录python1、三元表达式2、列表生成式3、判断一个序列是不是另一个序列的子序列4、GIL全局解释器锁（GlobalInterpreterLock，简称GIL）GIL工作原理5、装饰器简单装饰器装饰器工厂类装饰器python1、三元表达式#ifelsex=10y=20#使用三元表达式判断x和y的大小，并赋值给resultresult="x大于y"ifx>yelse"x小于或等于y"prin
【数据分析】4 商业数据分析技能模型总结 loyd3 数据分析数据分析数据挖掘
优秀的商业分析师需要具备的能力数据分析能力逻辑思维能力赢得结果能力一、数据分析能力扩展：工具链生态与进阶场景1.数据获取技术升级企业级数据源管理：数据湖架构（AWSS3/阿里云OSS）与数据仓库（Snowflake/Redshift）权限管理API自动化采集（Postman+PythonRequests模块）反爬虫策略突破（IP代理池/Selenium模拟登录）新兴数据源拓展：社交舆情数据（Twi
python 基本用法选与握 #python python 人工智能开发语言
1[None]importnumpyasnp#创建一个示例数组img_pre=np.array([[1,2,3],[4,5,6]])#使用...进行索引result=img_pre[...][None]print("原始数组形状:",img_pre.shape)print("操作后数组形状:",result.shape)代码解释...操作符：...（省略号）在NumPy中是一个特殊的索引对象，它表
AI加Python零代码输入实现微博文本数据实体挖掘（零基础）智享食事人工智能 python 开发语言
今天，我打算以一个对文本挖掘完全陌生的研究者为例，进行他行本篇文章的写作。关于文本实体挖掘，我大概规划如下：一是了解一下什么是文本数据实体挖掘，二是这个实体挖掘有哪些评价指标，三是python能否干这个事，有那些可视化的方法，需要哪些依赖库，四是让AI帮我生成代码，五是调试实现，六是总结方法。1.了解一下什么是文本数据实体挖掘**AI提供的概念：**文本数据实体挖掘（EntityExtractio
Spark之PySpark james二次元大数据 Spark Python PySpark
PySpark是ApacheSpark的PythonAPI，它允许开发者使用Python编程语言进行大规模数据处理和分析。ApacheSpark是一个快速、通用、可扩展的大数据处理引擎，支持批处理、流处理、机器学习、图计算等多种数据处理模式。PySpark使得Python开发者能够利用Spark强大的分布式计算能力，处理大数据集，并执行高效的并行计算。一、PySpark核心概念1.RDD（弹性分布
python指针 viva_la_vida__ 水题 python
21.MergeTwoSortedListsEasy142591276AddtoListShareYouaregiventheheadsoftwosortedlinkedlistslist1andlist2.Mergethetwolistsinaonesortedlist.Thelistshouldbemadebysplicingtogetherthenodesofthefirsttwolists
深入探索Python嵌套字典：查找与遍历技巧 Python老吕 python Python嵌套字典 Python列表嵌套字典排序 Python字典嵌套列表取值 Python遍历多层嵌套字典 Python列表嵌套字典遍历 Python列表嵌套字典查找
深入探索Python嵌套字典：查找与遍历技巧文章由来深入探索Python嵌套字典：查找与遍历技巧1.引言Python字典的重要性嵌套字典的概念2.嵌套字典基础什么是嵌套字典创建和访问嵌套字典创建嵌套字典访问嵌套字典修改嵌套字典注意事项3.遍历嵌套字典编写函数遍历嵌套字典打印所有键值对及其路径注意事项4.寻找特定键值对定义问题：在嵌套字典中找到特定键实现递归搜索函数注意事项5.代码示例展示遍历嵌套字
影刀不同模块module间的变量交互调用类方法 sc0_joker python
最近在探索如何调用API大模型时，我遇到了一个有趣的问题。通常情况下，我们会创建一个文件，并在其中定义一个类方法。然后，在另一个文件中调用这个类方法。一开始我以为影刀也是同样的方法进行操作，然而，当我尝试将代码应用到影刀（Yingdao）时，程序运行出错，让我困惑不已。经过查阅大量文档和在论坛上提问，我终于找到了问题的症结所在。原来，由于影刀的Python环境与PyCharm不同，要使代码正确运行
Python的指针 akkoaya python 开发语言
python中所有可赋值的东西，即可以出现在赋值号"="左边的东西，都是指针指针即代表内存单元的地址将指针称作"箭头"更好理解。所有变量都是箭头，指向内存某处对变量进行赋值的本质，就是让该变量指向某个地方‘is’和‘==’和‘=’aisb为True是说a和b指向同一个地方a==b是说a和b指向的地方放的东西相同，但不一定指向同一个地方a=b就是让a指向b指向的地方Python的变量都是指针
python函数进阶小杨今日不偷懒 python 开发语言
1.作用域1.1含义：指变量生效的范围1.2全局变量：函数外部定义的变量，在整个文件中都是有效的函数内部重新定义值，外部的值不会被覆盖，因为函数内部如果使用变量，会先从函数内部找，有的话直接使用，没有的话再从函数外部找。1.3局部变量：函数内部定义的变量，从定义位置开始到函数结束有效局部变量只能在被定义的函数中使用，在函数外部不能使用。作用：在函数体内临时保存数据，即当函数调用完成后，就销毁局部变
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

python爬虫学习笔记 1.9 （Handler处理器 和 自定义Opener）

Handler处理器 和 自定义Opener