嵌入式技术

Python爬虫的基本原理简介及内容汇总

一、爬虫网页请求方法介绍
- 1.1 网页主要请求方法
- 1.2 网页的主要请求头
二、爬虫网页响应方法介绍
- 2.1 网页响应状态码
- 2.2 网页响应头
- 2.3 网页响应体
三、提取网页响应的特定内容神器：xpath工具、lxml类库
- 3.1 Xpath工具
- 3.2 lxml类库
四、Python爬虫实例——爬取网页文章信息

通过Python的requests库可以非常容易的实现简单爬虫。但是这种语言层面上的简单是建立在熟悉网页请求、网页响应原理的基础上的。因此，本文通过在简要介绍网页请求、网页响应原理的基础上，采用Python的requests库实现几个简单的爬虫示例。

一、爬虫网页请求方法介绍

1.1 网页主要请求方法

1、常用网页请求方法简介

方法	描述
`GET`	请求页面，并返回页面内容
`HEAD`	类似于`GET`请求，只不过返回的响应中没有具体内容，主要用于获取报头
`POST`	大多用于提交表单或上传文件，数据包含在请求体中
`PUT`	从客户端向服务器传送的数据取代指定文档中的内容
`DELETE`	请求服务器删除指定的页面
`CONNECT`	把服务器当作跳板，让服务器代替客户端访问其他网页
`OPTIONS`	允许客户端查看服务器的性能
`TRACE`	回显服务器收到的请求，主要用于测试或诊断

其中，GET、POST、PUT、DELETE是经常使用的网页请求方法，尤其是在做网站开发或者小程序app开发时。

2、requests库的GET请求方法示例

采用Python的requets库，通过下面四条代码就实现了爬取指定网页内容。这里需要留意如何设置网页头部信息headers。

import requests

# （1）得到需要爬取的网址url
url = 'https://blog.csdn.net/weixin_37926734/article/details/123267870?spm=1001.2014.3001.5501'

# （2）添加头部信息，以字典形式存储。
#  如果不添加头部信息，爬取不到网页内容
headers = {
	'User-Agent' :
	'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:98.0) Gecko/20100101 Firefox/98.0'
}

# （3）使用requests库的get函数爬取网页上的内容
requests_exam = requests.get(url, headers=headers)

获取想要爬取网页的头部信息方法：打开想要爬取的网页，按下F12，弹出了该网页的Web开发者工具，选择网络，然后选取一个状态为200的网页，再点击所有中的信息头，找到User-Agent后面的内容就是网页的头信息，如下图所示：

1.2 网页的主要请求头

另外，请求网址是统一资源定位符URL，它可以唯一确定我们请求的资源。因此，我们在爬虫的时候，接触非常多的就是URL。与URL密切相关的是网页的请求头，即HTTP头字段，下面列出与Python爬虫密切相关的几个：

请求头	描述
`Accpet`	告诉WEB服务器自己接收什么介质类型，比如`/`表示任何类型，而`type/*`表示该类型下所有子类型（`type/sub-type`）
`Accpet-Language`	用于浏览器申明接收的语言
`Accpet-Encoding`	接收字符集：用于浏览器申明自己接收的编码方法，通常指定压缩方法、是否支持压缩以及支持什么压缩方法
`Host`	客户端指定自己想要访问的WEB服务器的域名/IP地址和端口号，比如`Host: editor.csdn.net`
`Cookie`	用于保存客户端中简单的文本文件，这个文件与特定的Web文档关联在一起，保存了客户端访问该Web文档时的信息，当客户端再次访问这个Web文档时候可供再次使用
`Referer`	浏览器WEB服务器表明自己是从哪个网页`URL`，获得/点击当前请求中的网站/URL。例如，Refer：https://mp.csdn.net/
`User-Agent`	浏览器表明自己的身份（是哪种浏览器），即浏览器的指纹信息。例如：Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:98.0) Gecko/20100101 Firefox/98.0

二、爬虫网页响应方法介绍

网页响应，即由服务端返回给客户端，可分为三部分：响应状态码（Response Statues Code）、响应头（Response Headers）和响应体（Response Body）。

2.1 网页响应状态码

响应状态码表示服务器的响应状态，在爬虫中，我们可以根据状态码来判断服务器响应状态，来作出相应的网页操作。下面列出网络响应错误代码及产生错误的原因：

状态码	说明	详情
`100`	继续	请求者应当继续提出请求。服务器已收到请求的一部分，正在等待其余部分
`101`	切换协议	请求者已要求服务器切换协议，服务器已确认并准备切换
`200`	成功	服务器已成功处理请求
`201`	已创建	请求成功并且服务器创建了新的资源
`202`	已接受	服务器已接受请求，但尚未处理
`203`	非授权信息	服务器已成功处理了请求，但返回的信息可能来自另一个源
`204`	无内容	服务器成功处理了请求，但没有返回任何内容
`205`	重置内容	服务器成功处理了请求，内容被重置
`206`	部分内容	服务器成功处理了部分请求
`300`	多种选择	针对请求，服务器可执行多种操作
`301`	永久移除	请求的网页已永久移动到新位置，即永久重定向
`302`	临时移动	请求的网页暂时跳转到其他页面，即暂时重定向
`303`	查看其他位置	如果原来的请求是`POST`，重定向目标文件文档应该通过`GET`提取
`304`	未修改	此次请求返回的网页未修改，继续使用上次的资源
`305`	使用代理	请求者应该使用代理访问该网页
`307`	临时重定向	请求的资源临时从其他位置响应
`400`	错误请求	服务器无法解析该请求
`401`	未授权	请求没有进行身份验证或验证未通过
`403`	禁止访问	服务器拒绝此请求
`404`	未找到	服务器找不到请求的网页
`405`	方法禁用	服务器禁用了请求中指定的方法
`406`	不接受	无法使用请求的内容响应请求的网页
`407`	需要代理授权	请求需要代理授权
`408`	请求超时	服务器请求超时
`409`	冲突	服务器在完成请求时发生冲突
`410`	已删除	请求的资源已永久删除
`411`	需要有效长度	服务器不接受不含有有效长度标头字段的请求
`412`	未满足前提条件	服务器未满足请求者在请求中设置的其中一个前提条件
`413`	请求实体过大	请求实体过大，超出服务器的处理能力
`414`	请求URL过长	请求网址过长，服务器无法处理
`415`	不支持类型	请求格式不被请求页面支持
`416`	请求范围不符	页面无法提供请求的范围
`417`	未满足期望值	服务器未满足期望请求标头字段的要求
`500`	服务器内部错误	服务器遇到错误，无法完成请求
`501`	未实现	服务器不具备完成请求的功能
`502`	错误网关	服务器作为网关或代理，从上游服务器收到无效响应
`503`	服务器不可用	服务器目前无法使用
`504`	网关超时	服务器作为网关或代理，但是没有及时从上游服务器收到请求
`505`	HTTP版本不支持	服务器不支持请求中所用的HTTP协议版本

2.2 网页响应头

响应头包含服务器对请求的应答信息，比如Content-Type、Server、Set-Cookie等，下面列出一些常用的网页响应头：

响应头	描述
`Date`	标识响应产生的时间
`Last-Modified`	指定资源的最后修改时间
`Content-Encoding`	指定响应内容的编码
`Server`	包含服务器的信息，比如名称、版本等信息
`Content-Type`	文档类型，指定返回的数据类型，比如，`text/html`表示返回`HTML`文档，`application/x-javascript`表示返回JavaScript文件，`image/jpeg`表示返回图片
`Set-Cookie`	设置Cookie，指定浏览器需要将此内容放到`Cookies`中，下次请求携带Cookies请求
`Expires`	指定响应的过期时间，可以使用代理服务器或者浏览器将要加载的内容更新到缓存中。如果再次访问时，就可以直接从缓存中加载

2.3 网页响应体

爬虫中的网页响应中最重要的就是响应体：网页响应的正文数据就是在响应体中。比如，在请求网页时，响应体就是网页的HTML代码；请求一张图片时，响应体就是图片的二进制数据。做网页请求网页时，我们要解析的内容就是响应体。

三、提取网页响应的特定内容神器：xpath工具、lxml类库

3.1 Xpath工具

Xpath（XML Path Language）是一门XML文档中查找信息的语言，同时它也可以搜索HTML文档。Xpath可用来在XML或者HTML文档中对元素和属性进行遍历。Xpath使用路径表达式子XML文档中进行导航，所以我们可以使用Xpath工具访问网页中指定的内容。
XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName 处理、序列处理、逻辑值等等。另外，在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档节点（或称为根节点）。
幸运的是，在本文Python爬虫中的应用，我们目前还不必过多的关注Xpath的细节，我们只需要了解它的一些基本概念，会运用Firefox网页指定内容Xpath路径表达式提取方法即可，比如我们想从一个博客文档中提取标题的Xpath路径表达式的方式如下图：

如上图所示，打开选定的文章博客网页，按F12打开Firefox的Web开发者工具，点击查看器 $\to$ 选取页面中元素，然后点击网页上的标题，点击鼠标右键，在下拉菜单中选取复制 $\to$ Xpath，就得到了网页文章博客标题的Xpath路径表达：//*[@id="articleContentId"]，这个路径表达式是一个网页元素对象，我们如果想爬取标题的文本文件还需要指明Xpath具体读取文本内容：//*[@id="articleContentId"]/text()。

3.2 lxml类库

lxml类库是一个HTML/XML解析器，用于解释和提取HTML/XML数据。它可以利用Xpath语法来定位网页上特定的元素和节点信息。在实际应用中，lxml解析器会自动修复和补全HTML代码中不规范、不完整的代码，从而提高开发效率。
本下面的提取文档标题的Python爬虫编程中，主要使用lxml类库的解析字符串HTML代码块的功能：
假设我们有一个text的字符串格式HTML代码块，我们可以使用如下语句将text转换为HTML格式对象：

from lxml import etree

# 定义一个text的字符串格式HTML代码块
text = '''

    
        Item
    

'''

# 将字符串text解析为html格式的对象
html = etree.HTML(text)
print(html)

# 同样的，我们还可以使用etree的tostring方法，
# 将HTML格式对象转换为字符串格式
result = etree.tostring(html).decode('utf-8')
print(result)

上面代码的两个print输出结果如下所示：

四、Python爬虫实例——爬取网页文章信息

本文Python爬虫主要包括以下三个步骤：
（1）找地址、（2）发送网页请求、（3）提取网页响应。

代码及解释如下所示：

import requests
from lxml import etree

# 该示例展示如何提取三篇博客文章的标题

# 创建一个向网页发出请求的函数：
def url_request():
	'''1、找地址的主要内容包括:
				1.1 找网址
				1.2 添加头文件'''
	# 1.1 找网址
	# 首先创建地址列表，下面网页的地址分别对应
	# 3篇不同的网页文章网络地址。
	url_list = [
			# 我的CSDN文章1：Docker入门：镜像分层概念简述
			'https://blog.csdn.net/weixin_37926734/article/details/123267870?spm=1001.2014.3001.5501',
			# 我的CSDN文章2：Docker入门：容器卷——容器持久化，实现容器间继承和数据共享
			'https://blog.csdn.net/weixin_37926734/article/details/123278466?spm=1001.2014.3001.5501',
			# 我的CSDN文章3：Docker入门：私有库（Docker Registry）简介及使用方法（防踩坑）
			'https://blog.csdn.net/weixin_37926734/article/details/123279987?spm=1001.2014.3001.5501'
	]

	# 1.2 添加头文件
	# 添加头部信息，以字典形式存储。
	# 对于同一台电脑同一个浏览器，3篇
	# 文章的头部信息一样。
	headers = {
		'User-Agent':
		'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:98.0) Gecko/20100101 Firefox/98.0'
	}
	
	'''发送网页请求、提取网页响应、数据入库，均在以下的for循环中实现：'''
	for url in url_list:
		'''2、发送网页请求：使用get网页请求方法，
			对网页发出请求，并返回网页内容'''
		res = requests.get(url, headers=headers)

		'''3、提取网页响应主要内容：
				3.1 提取网页的html元素对象
				3.2 提取网页中特定位置的元素对象'''
		# 使用解析器lxml中的etree提取网页的html元素对象
		html = etree.HTML(res.text)
		# 使用xpath工具提取网页html元素中的标题元素对象
		title = html.xpath('//*[@id="articleContentId"]/text()')

		# 查看输出结果
		print(title)

# 调用函数，执行代码，实现找地址与发送请求
url_request()

执行上面的代码，输入结果如下所示：

【2024华为OD-E卷-100分-字符串分割】（题目+思路+Java&C++&Python解析) 执着的小火车 2024华为OD-E卷华为od java c++华为算法数据结构
题目字符串分割给定一个字符串s和一个整数k，你需要将字符串s分割成恰好k个非空子字符串，使得这些子字符串中字典序最大的子字符串尽可能小。输入：第一行输入一个字符串s（只包含小写字母）。第二行输入一个整数k。
华为OD机试E卷 - 空栈压数（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 python 华为od java javascript c语言 c++华为od机考e卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述向一个空栈压入正整数，每当压入一个整数时，执行以下规则（设:栈顶至栈底整数依次编号为n1,n2,…,nx，其中n1为最新压入的整数)如果n1=n2，则n1、n2全部出栈，压入新数据m(m=2*n1)如果n1=n2+…+ny(y的范围为[3,x])，则n1,n2,…,ny全部出栈，压入新数据m(m=2*n1)。如果上述规
Python的条件判断、循环和函数（超详细教学）小星袁 Python入门级超详细教学 python 服务器开发语言 Python 循环条件函数
目录一、条件判断1.1if语句1.2ifelse语句1.3ifelifelse语句二、循环2.1累加2.1.1for循环2.1.2while循环2.2break跳出循环2.3列表表达式2.3.1定义2.3.2举例三、函数3.1求和函数3.2匿名函数一、条件判断1.1if语句A=10ifA>0:print("A是正数！")1.2ifelse语句A=-10ifA>0:print("A是正数！")els
Python进阶-在Ubuntu上部署Flask应用
随着云计算和容器化技术的普及，Linux服务器已成为部署Web应用程序的主流平台之一。Python作为一种简单易用的编程语言，适用于开发各种应用程序。本文将详细介绍如何在Ubuntu服务器上部署Python应用，包括环境准备、应用发布、配置反向代理（Nginx）、设置系统服务以及日志管理等步骤。一、部署准备在开始之前，请确保你具备以下条件：一台运行Ubuntu（如Ubuntu20.04或22.04
【华为OD-E卷 - 篮球比赛 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-篮球比赛100分（python、java、c++、js、c）】题目篮球(5V5)比赛中，每个球员拥有一个战斗力，每个队伍的所有球员战斗力之和为该队伍的总体战斗力。现有10个球员准备分为两队进行训练赛，教练希望2个队伍的战斗力差值能够尽可能的小，以达到最佳训练效果。给出10个球员的战斗力，如果你是教练，你该如何分队，才能达到最佳训练效果?请说出该分队方案下的最小战斗力差值输入描述0
【华为OD-E卷 - 敏感字段加密 100分（python、java、c++、js、c）】 CodeClimb 算法题华为od （A+B+C+D+E 卷）收录分享华为od python java c++javascript
【华为OD-E卷-敏感字段加密100分（python、java、c++、js、c）】题目给定一个由多个命令字组成的命令字符串：字符串长度小于等于127字节，只包含大小写字母，数字，下划线和偶数个双引号；命令字之间以一个或多个下划线_进行分割；可以通过两个双引号””来标识包含下划线_的命令字或空命令字（仅包含两个双引号的命令字），双引号不会在命令字内部出现；请对指定索引的敏感字段进行加密，替换为**
基于JavaScript的网页设计案例分析：打造现代化、交互性强的网站体验冷夜雨. javascript
引言随着互联网的快速发展，网页设计的要求也在不断提升。从最初的静态页面到如今的动态、交互式网页，JavaScript作为一种重要的前端开发语言，已成为现代网页设计中不可或缺的一部分。它能够为网页带来更强的交互性、灵活性和动态效果，不仅提升用户体验，也能在设计过程中实现更复杂的功能。本文将通过一个具体的JavaScript网页设计案例，来展示如何利用JavaScript打造现代化、交互性强的网站，并
Python网络爬虫入门教程：从抓取数据到应用实现冷夜雨. python
引言在大数据时代，信息就是力量。各种网站每天产生着海量的数据，这些数据中蕴藏着巨大的商业价值和研究价值。如何快速、自动化地从互联网上获取这些信息，成为了数据科学、人工智能、市场分析等领域中的一个重要课题。Python，作为一门易于学习且功能强大的编程语言，其丰富的库和工具使得构建网络爬虫变得非常简单。网络爬虫（WebScraper）是一种自动化程序，用来从网页中提取信息。无论是用于数据分析、竞争对
编程语言大揭秘：各显神通的编程世界冷夜雨. python java c++c#javascript
在当今数字化的时代，编程语言犹如一把把神奇的钥匙，打开了通往不同技术领域的大门。从网页开发到人工智能，从数据分析到游戏制作，每一种编程语言都有其独特的优势与适用场景。今天，就让我们一同深入探索几种主流编程语言的奥秘，看看在什么情况下它们能发挥最大的威力。Python：万能胶水，快速开发的利器Python以其简洁、易读的语法著称，仿佛是用自然语言编写代码一般，新手程序员也能快速上手。它拥有庞大且丰富
Windows中配置Python 3.11环境安装教程 Python老安 windows python3.11 python flask 开发语言电脑 microsoft
目录一、下载和安装Python3.111.1下载Python3.111.2安装Python3.11二、配置环境变量2.1检查Python是否已添加到PATH2.2手动添加Python到PATH三、验证Python和pip安装3.1验证Python安装3.2验证pip安装四、安装常用的Python包和工具4.1更新pip4.2安装虚拟环境管理工具4.2.1安装virtualenv4.2.2创建虚拟环
【vLLM 学习】安装
vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。更多vLLM中文文档及教程可访问→https://vllm.hyper.ai/vLLM是一个Python库，包含预编译的C++和CUDA(12.1)二进制文件。依赖环境操作系统：LinuxPython：3.8-3.12GPU：计算能力7.0或更高（例如V100、T4、RTX20xx、A100、L
【第四天】零基础入门刷题Python-Selenium-自动化测试-打开百度的首页搜索B站然后打开B站-切换B站窗口在B站搜索框中搜索Selenium-复习XPATH详细语法 Long_poem python selenium 开发语言 xml html
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、先复习昨天的XPATH语法，然后学习怎么切换窗口二、详细代码1.对本节代码XPath表达式的解释2.在百度的首页上搜索B站后打开B站-在B站搜索框中搜索Selenium3.对切换窗口的详细介绍4.对上方的两个模块的详细介绍总结前言提示：这里可以添加本文要记录的大概内容：第零天练习补充零基础入门刷题Python-Sele
豆包 API 调用示例代码详解-Python版道长不会写代码 python基础教学 python 开发语言
文章目录豆包API调用示例代码详解-Python版一、事前准备二、所需Python包三、代码详解五、源码下载四、总结豆包官方API文档豆包API调用示例代码详解-Python版在本文中，我们将详细介绍如何使用Python调用豆包API，并提供相关的事前准备和代码执行步骤。一、事前准备密钥申请：要使用豆包API，首先需要申请一个授权密钥。在上述代码中，密钥存储在headers字典的Authoriza
Python加密算法有哪些？有什么作用？
Python中的常见加密算法及其应用加密算法在现代计算机科学中扮演着至关重要的角色，它们用于保护数据的机密性、完整性和验证身份。在Python中，有许多加密算法可以使用，它们各自具有不同的特点和应用场景。以下是一些常见的加密算法及其详细介绍：1.AES（AdvancedEncryptionStandard）️简介：AES是一种对称加密算法，广泛用于保护敏感数据，属于块加密算法。AES有三种密钥长度
Python - random.seed初探 - 为什么固定随机种子了每次结果还不一样 Tisfy 实用技巧 Python python 开发语言 random 随机种子
Python-random.seed初探-为什么固定随机种子了每次结果还不一样前言和很多语言一样，python的random也能设置随机种子，设置随机种子后相同的rand调用会产生相同的结果。例如下面代码在同一版本的python下，理论上不论何时运行多少次都将得到相同的结果：importrandomrandom.seed(83)a=[random.randint(0,random.randint(
python范围 shix . python python 开发语言
用户图形界面-工资计算器fromtkinterimport*deff():w=int(e1.get())+int(e2.get())-int(e3.get())wage.insert(0,w)root=Tk()root.title("工资计算器")Label(root,text="每月基本工资：").pack()e1=Entry(root)e1.pack()Label(root,text="补助工
Python入门教程 —— 正则表达式鹿人甲丁 Python python
正则表达式正则表达式是一个特殊的字符序列，计算机科学的一个概念。通常被用来检索、替换那些符合某个模式(规则)的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。在Python中需要通过正则表达式对字符串进行匹配的时候，可以使用re模块。re模块使Python语言拥有全部的正则表达式功能。特点：灵活性、逻辑性和功能性非常强；可以迅速地用极简单的方式达到字符串的复杂控制。对于刚接触的人来说，比
在 Go 中如何获取 goroutine 的 id？后端go面试
如果你使用过如Python、Java等主流支持并发的编程语言，那么通常都能够比较容易的获得进程和线程的id。但是在Go语言，没有直接提供对多进程和多线程的支持，而是提供了goroutine来支持并发编程。不过在Go中，获取goroutine的id并不像其他编程语言那样容易，但依然有办法，本文就来介绍下如何实现。获取当前进程的id首先，虽然Go没有提供多进程编程，但启动Go程序还是会有一个进程存在的
在VScode中配置Python开发环境 Python_魔力猿 vscode python ide
1、安装python官网下载地址：https://www.python.org/ftp/python/3.8.0/python-3.8.0-amd64.exe双击打开.exe文件勾选AddPython3.8toPath选项，然后点击installnow即可安装。安装中：安装完毕后点击close即可。2、测试按键盘win+r，在左下角运行窗口里输入cmd，回车。在弹出的窗口里输入python，回车。
用Python手撕一个批量填充数据到excel表格的工具，解放双手！ Python与Excel之交 python自动化办公 python
作者:锋小刀微信搜索【Python与Excel之交】关注我的公众号查看更多内容Hi~大家好！今天这篇文章是根据批量填充数据的进阶版。基础版本就一段很简单的代码。虽然简单，但如果这个模板或者数据发生变化，还是要改来改去的，所以本文就在基础版本上进行改进，只需要动动鼠标就可以填充大量数据到Excel工作表中。GUI界面设计GUI是用PySimpleGUI库创建的，安装命令直接用pip命令安装即可！在开
[Python数据分析]最通俗入门Kmeans聚类分析，可视化展示代码。 William数据分析 python kmeans 数据分析分类机器学习 python
什么是k-means分析？【头条@William数据分析，看原版】想象一下，你有一堆五颜六色的糖果，你想把它们按照颜色分成几堆。k-means分析就是这么一个自动分类的过程。它会根据糖果的颜色特征，把它们分成若干个组，每个组里的糖果颜色都比较相似。更专业一点说，k-means分析是一种常用的聚类算法，它会将数据集中的数据点分成k个不同的簇。每个簇都有一个中心点，这个中心点就是簇中所有数据点的平均值
[Python办公]Python脚本如何最小化打包成 .exe 文件 William数据分析 python python
为了将这个Python程序打包成.exe文件，并尽量减小体积，我们可以使用PyInstaller，这是一个常用的工具，用于将Python脚本打包为独立的可执行文件。在打包过程中，我们需要排除不必要的包和文件，以确保打包后的.exe文件尽可能小。【直接一条命令打包成最小体积】：pyinstaller--onefile--windowed--noconsole--hidden-import=PySim
[Python数据可视化] Plotly：交互式数据可视化的强大工具 William数据分析 python python 数据分析数据可视化
引言：在数据分析和可视化的世界中，Plotly是一颗耀眼的明星。它是一个开源的交互式图表库，支持多种编程语言，包括Python、R和JavaScript。Plotly的强大之处在于它能够创建出既美观又具有高度交互性的图表，使得数据探索和分析变得更加直观和有趣。本文将详细介绍Plotly的功能，并通过实际示例展示其在数据可视化中的应用。Plotly的优势：交互性：Plotly图表具有丰富的交互功能，
初学者如何用 Python 写第一个爬虫？王子良. python 经验分享 python 开发语言爬虫
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Python3.12金融库TA-Lib库安装talib库 William数据分析 python python 金融数据分析
talib是一个Python库，全名为“TA-Lib”，代表“TechnicalAnalysisLibrary”。这是一个广泛使用的库，用于进行金融市场数据的的技术分析。它包含了多种技术指标的计算，比如移动平均线、相对强弱指数（RSI）、布林带等。安装分2步：先安装whl轮子，再安装talib库。1、安装whl轮子：网上搜talibwhl，根据自己电脑32位，64位以及python版本下载对应的w
Python中的面向对象编程（OOP） python
在Python编程领域中，面向对象编程（Object-OrientedProgramming，简称OOP）是一种强大而灵活的编程范式，它允许开发者以对象为中心组织代码，使得程序结构更加清晰、可维护。在本文中，我们将深入探讨Python中的面向对象编程，介绍关键概念，并通过实例演示如何利用OOP构建更健壮的应用。1.类与对象OOP的核心概念是类与对象。类是一个抽象的概念，用于描述具有相似属性和方法的
将 Python 和 Rust 融合在一起，为 pyQuil® 4.0 带来和谐 pythonrust
前言pyQuil一直是在Rigetti量子处理单元（QPUs）上构建和运行量子程序的基石，通过我们的QuantumCloudServices（QCS™）平台提供服务。它是我们的一个重要客户端库。然而，随着QCS平台的发展，我们越来越倾向于使用Rust，因为它具有出色的性能、类型系统和强调正确性。为了支持Rigetti不断增长的Rust工具和服务生态系统，pyQuil中的许多功能已被我们的Rust库
python pycharm 书籍_一份超级完整实用的 PyCharm 图解教程，8K 字赶紧收藏起来 weixin_39841717 python pycharm 书籍
转载自今日头条：Python之眼PyCharm是一种PythonIDE，可以帮助程序员节约时间，提高生产效率。那么具体如何使用呢？本文从PyCharm安装到插件、外部工具、专业版功能等进行了一一介绍，希望能够帮助到大家。在本文中，我们并不会提供非常完善的指南，但是会介绍PyCharm最主要的一些能力，了解这些后，后面就需要我们在实践中再具体学习了。本文将介绍：PyCharm安装在PyCharm中写
python 软件包 petri_常用Petri网模拟软件工具简介 weixin_39881859 python 软件包 petri
常用Petri网模拟软件工具简介首先要介绍的的一个非常有名的Petri网网站--PetriNetsWorld：我这里介绍的软件大部分在该网站中的ToolsandSoftware中的PetriNetsToolDatabase里可以找到相关的链接。Petri网的相关模拟仿真软件现在已经相当成熟了，在国外已经有很多投入商用的案例。但目前每年的国际性Petri网学术会议上都有一个专题就是：PetriNet
python做按键精灵脚本_使用Python实现一个按键精灵 | 蓝士钦 weixin_39557402 python做按键精灵脚本
@HANK1998其实，你这个代码，还有一个问题，鼠标键盘动作回放时，顺序会乱，线程同步问题，做不到鼠标动作和键盘动作交叉执行。，，我能力不太够了，，学的不深，不知道这个问题你解决没？？？------------------原始邮件------------------发件人:"蓝士钦"[email protected];发送时间:2019年8月9日(星期五)中午11:43收件人:"l
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

Python爬虫的基本原理简介及内容汇总