adamlay

5.2 办公自动化&爬虫讲义

1. 办公自动化
- 1.1 文件操作
- 1.2 异常处理
- 1.3 处理csv文件
- 1.4 pip包管理⼯具
- 1.5 处理excel文件
- - 1.5.1 excel⽂件的读取
  - 1.5.2 excel文件的写入
- 1.6 word文件操作
- 1.7 PDF处理
- - 1.7.1 word文件转PDF文件
  - 1.7.2 PDF读取
  - 1.7.3 添加水印
- 1.8 发送邮件
2. 数据爬虫
- 2.1 理论基础
- - 2.1.1 HTTP协议简介
  - 2.1.2 HTML基础
- 2.2 Requests爬虫
- 2.3 BeautifulSoup爬虫

1. 办公自动化

1.1 文件操作

打开文件有两种方式

f = open('1.txt','r',encoding='utf-8').read()

with open('1.txt','r',encoding='utf-8') as f:
    f.read()

with语句在每次使⽤完后，⽆论是否产⽣异常，都会⾃动将⽂件关闭

函数	说明
open()	打开文件
close()	关闭文件
read()	读取文件
write()	写入文件
readlines()	逐行读取文档，配合for循环使用

open函数的mode参数可⽤的模式如下：

字符	含义
‘r’	读取（默认）
‘w’	写⼊，并先截断⽂件
‘x’	排它性创建，如果⽂件已存在则失败
‘a’	写⼊，如果⽂件存在则在末尾追加
‘b’	⼆进制模式
‘t’	⽂本模式（默认）
‘+’	打开⽤于更新（读取与写⼊）

1.2 异常处理

try…except…finally 的这种写法就是⽤来捕捉处理异常，在try代码块中的代码是我们认为有可能会发⽣异常的代码，如果发⽣异常，将会中断try代码块中剩余部分的执⾏，开妈执⾏except代码块中的逻辑，最后，不管有没有发⽣异常，都会执⾏finally块中的代码。

上例中的Exception 是所有异常的基类，事实上在Python中有很多类型的异常，我们⿎励尽量捕捉具体的异常，⽐如这个异常就是⽂件不存在，所以我们可以明确指定它的类型

try:
	f = open("notexists.txt")
	print(f.read())
	f.close()
except FileNotFoundError:
	print("⽂件不存在")
finally:
	print("程序结束")

如果觉得麻烦，我们可以使⽤with 关键字，这样在每次使⽤完后，⽆论是否产⽣异常，都会⾃动将⽂件关闭。

with open("contacts.txt") as f:
	print(f.read())

1.3 处理csv文件

csv内的列与列之间是⽤逗号隔开的，那如果单元格内的内容本身就包含逗号怎么办呢？可以使⽤双引号将内容包含起来。

csv模块⾃动提供了这些功能，下⾯的例⼦使⽤内置的csv模块来读取csv⽂件。

import csv
with open('./data_files/example1.csv', 'r') as f:
	# 按⾏读取，每⼀⾏是⼀个列表
	reader = csv.reader(f)
	for row in reader:
		for col in row:
			print(col, end="\t")
		print()

另⼀种读取⽅法：

with open('./data_files/example1.csv', 'r') as f:
	# 按⾏读取，每⼀⾏是个字典，字典的key就是每列的表头
	reader = csv.DictReader(f)
	for row in reader:
		print(row['产品类⽬'], row['销售额'])

写⼊的时候也可以以两种⽅式写⼊：
第⼀种：

sales = (
	("Peter", (78, 70, 65)),
	("John", (88, 80, 85)),
	("Tony", (90, 99, 95)),
	("Henry", (80, 70, 55)),
	("Mike", (95, 90, 95)),
)
with open('./data_files/sales.csv', 'w') as f:
	writer = csv.writer(f)
	writer.writerow(['name', 'Jan', 'Feb', 'Mar'])
	for name, qa in sales:
		writer.writerow([name, qa[0], qa[1], qa[2]])
		# 最后⼀句也可以写成这样
		writer.writerow([name, *qa])

第⼆种，可以将上⾯的数据合并⼀下，换⼀种形式写⼊到csv⽂件中，这次我们采⽤DictWriter来写⼊数据。

# 合并数据
data = [{'name': name, 'amount': sum(qa)} for name, qa in sales]
# 先看⼀下合并后的数据
import pprint
pprint.pprint(data)

with open('./data_files/sales2.csv', 'w') as f:
	fieldnames = ['name', 'amount']
	writer = csv.DictWriter(f, fieldnames)
	writer.writeheader()
	for row in data:
		writer.writerow(row)

1.4 pip包管理⼯具

在学习更多的⽂件格式处理⽅法之前，我们先学习⼀下Python的包管理⼯具。Python包罗万象的第三库是它被⼈喜爱的⼀个重要原因，官⽅的⽹址：https://pypi.org/ ,在这⾥⼏乎可以找到你能想象的任何功能的包。

如果我们想在代码⾥使⽤第三⽅库，需要先安装，这时候就需要使⽤pip命令，pip是Python⾃带的包管理⼯具

pip install faker

如果想⼀次性安装多个包，可以将这些包的名字和版本写在⼀个⽂件⾥，通常这个⽂件叫requestments.txt ，⽂件的内容是这样的格式

Faker==0.8.7
jupyter==1.0.0
numpy

⽤两个等于号指定版本，如果不指定版本，pip会帮我们⾃动选择最新版本。

pip install -r requirements.txt

升级第三⽅包

pip install -U faker
pip install -U pip

卸载第三⽅包：

pip uninstall faker

由于pip默认的官⽅服务器是在国外，所以下载的速度会⽐较慢，我们可以将下载源改为国内的服务器，下⾯这些是⼀些速度⽐较快的服务器

阿⾥云 http://mirrors.aliyun.com/pypi/simple/
中国科技⼤学 https://pypi.mirrors.ustc.edu.cn/simple/
⾖瓣(douban) http://pypi.douban.com/simple/
清华⼤学 https://pypi.tuna.tsinghua.edu.cn/simple/
中国科学技术⼤学 http://pypi.mirrors.ustc.edu.cn/simple/

我们可以在⽤户⽬录下新建⼀个名为"pip"的⽬录，然后再在pip⽬录中新建⼀个pip.conf⽂件，写⼊以下内容

[global]
index-url = http://pypi.doubanio.com/simple
trusted-host = pypi.doubanio.com

⽂件保存好了后，以后再使⽤pip下载包就会快很多了。

1.5 处理excel文件

要处理excel⽂件，我们需要使⽤借助第三⽅库，Python中能够处理excel⽂件格式的库有很多

xlrd：⽤于读取 Excel ⽂件；
xlwt：⽤于写⼊ Excel ⽂件；
xlutils：⽤于操作 Excel ⽂件的实⽤⼯具，⽐如复制、分割、筛选等；

注意：这⼏个库只能处理xls格式的excel⽂件，对于⽐较新的excel版本，⽂件名通常是xlsx，需要先将其转存为xls⽂件。

1.5.1 excel⽂件的读取

函数	说明
xlrd.open_workbook	打开excel，返回xlrd.book.Book格式数据
xlrd.xldate_as_datetime(cell.value,0)	数值型转化为日期

xlrd.book.Book数据属性

函数	说明
.nsheets	返回表数量
.sheets()	返回所有表，生成一个列表
.sheet_names()	返回所有表名称
.sheet_by_name()	根据名称获取表（sheet格式数据）
.sheet_by_index()	根据索引获取表

sheet格式数据属性

函数	说明
.name	返回单个表名称
.nrows	表中行数
.ncols	表中列数
.row()	根据索引返回列
.col()	根据索引返回行
.row_values()	根据索引返回行值
.col_values()	根据索引返回列值
.cell(行索引,列索引)	获取单元格（Cell格式）
.cell_value(行索引,列索引)	单元格数值
.cell_ctype(行索引,列索引)	单元格数值类型

Cell格式数据属性

函数	说明
Cell.value	单元格数值
Cell.ctype	单元格数值的类型

单元格数值类型

Type symbol	ctype值	Python类型y
XL_CELL_EMPTY	0	空字符串
XL_CELL_TEXT	1	字符串
XL_CELL_NUMBER	2	float
XL_CELL_DATE	3	float
XL_CELL_BOOLEAN	4	int; 1表示True, 0表示False
XL_CELL_ERROR	5	错误
XL_CELL_BLANK	6	空

遍历显示出整个excel⽂件的内容

# 打开excel⽂件
wb = xlrd.open_workbook("test.xls")
# 根据 sheet 索引获取内容
sh = wb.sheet_by_index(0)

# 快速遍历所有表单内容
for i in range(sh.nrows):
	for j in range(sh.ncols):
		cell = sh.cell(i, j)
		cv = cell.value
		if cell.ctype == 2:
			cv = int(cv)
		elif cell.ctype == 3:
			value = xlrd.xldate_as_tuple(cell.value, 0)
			date = datetime(*value)
			cv = date.strftime('%Y-%d-%m')
		print(str(cv).center(10), end='\t')
		print()

1.5.2 excel文件的写入

函数	说明
xlwt.Workbook()	创建excel，返回xlwt.Workbook.Workbook格式数据

xlwt.Workbook.Workbook格式数据属性

函数	说明
.add_sheet(表名,cell_overwrite_ok=True)	添加表并命名，Worksheet格式
wd.save(’./data_files/test_write.xls’)	保存文件并命名

Worksheet格式数据属性

函数	说明
.write(行索引,列索引,值)	写入单元格值
.row()	行，Row格式
.col()	列，Column l格式

1.6 word文件操作

pip install python-docx

函数	说明
from docx import Document	导入Document包
from docx.enum.text import WD_PARAGRAPH_ALIGNMENT	导入包，文档设置的常量
from docx.shared import Mm,RGBColor	导入包，文档设置单位和颜色，此处导入毫米
Document()	创建文档,Document格式

Document格式数据属性

函数	说明
.add_heading(标题,n)	添加标题，n代表标题级别，Paragraph格式
.add_paragraph(内容)	添加段落
.add_paragraph(内容,style=‘List Number’)	添加有序列表
.add_paragraph(内容,style='List Bullet)	添加无序列表
.add_table(rows=1,cols=3)	添加表格
.add_picture(地址,width=Mm(5))	添加图片
.add_page_break()	添加分页符
.save()	保存文档并命名

Paragraph格式数据属性

函数	说明
.paragraph_format.alignment	段落格式-对齐
.paragraph_format.left_indent	缩进
.add_run().bold=True	追加段落内容，加粗字体
.font.name	设置字体样式
.font.size	设置字体大小
.font.color.rgb = RGBColor(0,0,0,)	设置字体颜色
.italic=True	设置斜体
.underline=True	下划线

WD_PARAGRAPH_ALIGNMENT 常量

常量	说明
CENTER	居中
LEFT	靠左
RIGHT	靠右

1.7 PDF处理

1.7.1 word文件转PDF文件

pip install docx2pdf

from docx2pdf import convert
convert('daily_report.docx', 'daily_report.pdf')

1.7.2 PDF读取

from io import StringIO #缓冲

from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfparser import PDFParser

output_string = StringIO()
with open('data_files/daily_report.pdf', 'rb') as f:
	# 从⽂件句柄创建⼀个pdf解析对象
	parser = PDFParser(f)
	# 创建pdf⽂档对象，存储⽂档结构
	doc = PDFDocument(parser)
	# 创建⼀个pdf资源管理对象，存储共享资源
	rsrcmgr = PDFResourceManager()
	# 创建⼀个device对象，指定参数，⾏距、边距等，这⾥使⽤默认参数
	device = TextConverter(rsrcmgr, output_string, laparams=LAParams())
	# 创建⼀个解释对象
	interpreter = PDFPageInterpreter(rsrcmgr, device)
	# 按⻚解析pdf⽂件
	for page in PDFPage.create_pages(doc):
	# 将内容读取到缓存
	interpreter.process_page(page)

# 打印出缓冲区的内容
print(output_string.getvalue())

1.7.3 添加水印

from PyPDF2 import PdfFileWriter, PdfFileReader

# 导⼊包含⼀个⽔印的pdf⽂件，只要有⼀⻚即可
watermark_pdf = PdfFileReader('./data_files/⽔印.pdf')
# 获取第⼀⻚
watermark = watermark_pdf.getPage(0)
# 把想要加⽔印的pdf⽂件加载进来
input_pdf = PdfFileReader('./data_files/daily_report.pdf')
# 创建⼀个writer对象，⼀会⼉⽤来写新⽣成的pdf
writer = PdfFileWriter()

for page in range(input_pdf.getNumPages()):
	# 逐⻚读取pdf内的内容
	page = input_pdf.getPage(page)
	# 将当前⻚与⽔印⻚合并
	page.mergePage(watermark)
	# 将当前⻚加⼊到待写⼊区域
	writer.addPage(page)

# 将全部合并完的pdf保存到⽂件
with open('./data_files/包含⽔印.pdf', 'wb') as f:
	writer.write(f)

1.8 发送邮件

发送普通⽂本邮件

import smtplib
from email.mime.text import MIMEText
# 1. 设置服务器所需信息
# SMTP服务器域名
mail_host = 'smtp.163.com'
# 邮箱⽤户名
mail_user = '[email protected]'
# 密码或授权码
mail_pass = 'AXNHIKAAAAAKJVRNR'
# 邮件发送⽅邮箱地址，有可能和⽤户名不⼀样
sender = '[email protected]'
# 邮件接收⽅邮箱地址，可以有多个收件⼈，所以⽤列表
receivers = ['[email protected]']

# 2. 设置邮件内容
# 邮件正⽂
message = MIMEText('详情请⻅附件','plain','utf-8')
# 邮件主题
message['Subject'] = '每⽇运营报告'
# 发送⽅信息
message['From'] = sender
# 接受⽅信息
message['To'] = receivers[0]

# 3. 发送邮件
try:
	smtpObj = smtplib.SMTP_SSL(mail_host, 465)
	# 设置⽇志级别，这样万⼀出错就会有详细的输出
	smtpObj.set_debuglevel(1)
	# 登录到服务器
	smtpObj.login(mail_user, mail_pass)
	#发送
	smtpObj.sendmail(sender, receivers, message.as_string())
	smtpObj.quit()
	print('邮件发送成功')
except smtplib.SMTPException as e:
	print('error', e)

发送带有附件的HTML格式邮件

import smtplib
from email.mime.text import MIMEText
from email.mime.multipart import MIMEMultipart
from email.mime.image import MIMEImage

#设置登录及服务器信息
mail_host = 'smtp.163.com'
mail_user = '159*****02'
mail_pass = '7******x'
sender = '159*****[email protected]'
receivers = ['7******[email protected]']

#设置eamil信息
#添加⼀个MIMEmultipart类，处理正⽂及附件
message = MIMEMultipart()
message['From'] = sender
message['To'] = receivers[0]
message['Subject'] = 'title'
#推荐使⽤HTML格式的正⽂内容，这样⽐较灵活，可以附加图⽚地址，调整格式等
with open('abc.HTML','r') as f:
	content = f.read()
#设置HTML格式参数
part1 = MIMEText(content,'HTML','utf-8')
#添加⼀个txt⽂本附件
with open('abc.txt','r')as h:
	content2 = h.read()
#设置txt参数
part2 = MIMEText(content2,'plain','utf-8')
#附件设置内容类型，⽅便起⻅，设置为⼆进制流
part2['Content-Type'] = 'application/octet-stream'
#设置附件头，添加⽂件名
part2['Content-Disposition'] = 'attachment;filename="abc.txt"'
#添加照⽚附件
with open('1.png','rb')as fp:
	picture = MIMEImage(fp.read())
	#与txt⽂件设置相似
	picture['Content-Type'] = 'application/octet-stream'
	picture['Content-Disposition'] = 'attachment;filename="1.png"'
#将内容附加到邮件主体中
message.attach(part1)
message.attach(part2)
message.attach(picture)

#登录并发送
try:
	smtpObj = smtplib.SMTP()
	smtpObj.connect(mail_host,25)
	smtpObj.login(mail_user,mail_pass)
	smtpObj.sendmail(
	sender,receivers,message.as_string())
	print('success')
	smtpObj.quit()
except smtplib.SMTPException as e:
	print('error',e)

注意事项：
⼀些邮箱登录⽐如 QQ 邮箱需要 SSL 认证，所以 SMTP 已经不能满⾜要求，⽽需要SMTP_SSL，解决办法为：

#启动
smtpObj = smtplib.SMTP()
#连接到服务器
smtpObj.connect(mail_host,25)
#######替换为########
smtpObj = smtplib.SMTP_SSL(mail_host)

2. 数据爬虫

2.1 理论基础

2.1.1 HTTP协议简介

HTTP是基于客户端/服务端（C/S）的架构模型，通过⼀个可靠的链接来交换信息，是⼀个⽆状态的请求/响应协议。

⼀个HTTP"客户端"是⼀个应⽤程序（Web浏览器或其他任何客户端），通过连接到服务器达到向服务器发送⼀个或多个HTTP的请求的⽬的。

⼀个HTTP"服务器"同样也是⼀个应⽤程序（通常是⼀个Web服务，如Apache Web服务器或IIS服务器等），通过接收客户端的请求并向客户端发送HTTP响应数据。

HTTP使⽤统⼀资源标识符（Uniform Resource Identifiers, URI）来传输数据和建⽴连接。

请求参数，使⽤⼀个问号附在url的后⾯，多个参数之间⽤“&”符号隔开。

HTTP请求方法

方法	描述
GET	请求指定的⻚⾯信息，并返回实体主体。
HEAD	类似于get请求，只不过返回的响应中没有具体的内容，⽤于获取报头
POST	向指定资源提交数据进⾏处理请求（例如提交表单或者上传⽂件）。数据被包含在请求体中。POST请求可能会导致新的资源的建⽴和/或已有资源的修改。
PUT	从客户端向服务器传送的数据取代指定的⽂档的内容。
DELETE	请求服务器删除指定的⻚⾯。
CONNECT	HTTP/1.1协议中预留给能够将连接改为管道⽅式的代理服务器。
OPTIONS	允许客户端查看服务器的性能。
TRACE	回显服务器收到的请求，主要⽤于测试或诊断。

最常⽤的是GET和POST请求

常见HTTP状态码

状态码	状态码英⽂名称	中⽂描述
200	OK	请求成功。⼀般⽤于GET与POST请求
302	Found	临时移动。与301类似。但资源只是临时被移动。客户端应继续使⽤原有URI
400	Bad Request	客户端请求的语法错误，服务器⽆法理解
401	Unauthorized	请求要求⽤户的身份认证
403	Forbidden	服务器理解客户端的请求，但是拒绝执⾏此请求
404	Not Found	服务器⽆法根据客户端的请求找到资源（⽹⻚）。通过此代码，⽹站设计⼈员可设置"您所请求的资源⽆法找到"的个性⻚⾯
500	Internal Server Error	服务器内部错误，⽆法完成请求

2.1.2 HTML基础

动态网页和静态网页的区别

如果不修改⻚⾯源码，⻚⾯⼀成不变，就是静态⻚⾯
动态⻚⾯，服务器从数据库提出数据临时⽣成的，会根据时间、是否登录不同，⽽⻚⾯内容也不同

注意事项

标签不能创造
书写标签的时候应该⽤英⽂半⻆
属性值可以单引号、双引号引起来，也可以不写引号，推荐使⽤单引号括起来
属性必须写在开始标签⾥
标签可以嵌套，⼀个标签要完全嵌套到另外⼀个标签⾥
body常⽤属性：
topmargin 上外边距
leftmargin 左外边距
text ⽂字颜⾊
bgcolor 背景颜⾊
background 背景图⽚，和bgcolor冲突，设置了背景图⽚，背景颜⾊就是不显示

全局属性

每⼀个标签都有的属性，常⽤的有id、class、name、style

2.2 Requests爬虫

函数	说明
requests.get(url,params,headers)	获取网页内容,Response格式数据
requests.post(url,data)	post方式提交表单(form)

Response格式数据属性

函数	说明
.status_code	状态码
.raise_for_status	异常状态码直接报错,不再往下运行
.encoding	编码格式
.text	源码文本
.url	url链接
.json()	返回json格式内容

2.3 BeautifulSoup爬虫

函数	说明
from bs4 import BeautifulSoup as bs	导入
BeautifulSoup(html,‘html.parser’)	将html内容转换返回BeautifulSoup格式数据

BeautifulSoup格式数据属性

函数	说明
.title	网页标题
.p	网页段落
…	根据html标签取相应部分
.get_text()	取文档内所有文本内容
.prettify()	工整格式显示代码
.find(‘标签’,class_=‘title’)	找到html内符合属性筛选的（第一个）指定标签
.find_all(‘标签’)	找到html内所有指定标签
.find_all(class_=‘title’)	找到html内所有指定属性的节点
.节点.text	只取节点文本
.节点.name	只取节点的标签名称
.节点.parent	取节点的父节点
.节点.children	取节点的子节点
.节点[‘属性’]	取节点的属性

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
swagger【个人笔记】撰卢笔记 java
文章目录swagger导入mave坐标在配置类(WebMvcConfiguration)中加入knife4j相关配置设置静态资源映射，主要是让拦截器放行swagger常用注解@Api(tags="\[描述这个类的作用]")@ApiModel(description="\[描述这个类的作用]")@ApiModelProPerty("描述这个类的作用")@ApiOperation("\[描述方法的作用
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
5G标准学习笔记14 - CSI--RS概述刘孬孬沉迷学习 5G 学习笔记信息与通信
5G标准学习笔记14-CSI–RS概述大家好~，这里是刘孬孬，今天带着大家一起学习一下5GNR中一个非常非常重要的参考信号------------------CSI-RS信号，CSI-RS不是持续发送，UE只能在网络明确配置了CSI-RS的情况下才能使用其进行信道测量。前言对于CSI-RS，肯定还离不开前面所说的CSI（channelstateinformation），前面也讲过CSI对于MIMO
5G标准学习笔记06-基于AI/ML波束管理刘孬孬沉迷学习 5G 学习笔记
5G标准学习笔记06-基于AI/ML波束管理前言前面对于孬孬学习了波束管理的概述，下面要进一步来看一下传统波束管理和现在3GPP中推动的AL/ML波束管理之前的区别联系。一、传统波束管理方法流程传统BM流程主要包括以下步骤：波束扫描（BeamSweeping）：gNB通过顺序发送多个窄波束（SSB或CSI-RS），覆盖整个服务区域，UE测量每个波束的信号质量（如L1-RSRP或L1-SINR）。波
5G标准学习笔记03- CSI 反馈增强概述刘孬孬沉迷学习 5G 笔记学习
5G标准学习笔记03-CSI反馈增强概述大家好，最近在研究AI/ML3gpp标准NR空口的有关内容，后面可能会给大家介绍一下对应的有关内容AI/ML在3GPP标准中的研究进展在AI/ML在NR空口的应用中，对应标准主要聚焦了3个case进行讨论研究分别是：CSI反馈增强；波束管理；定位精度增强；这三个内容可能比较涉及RAN1/2的具体内容，后面会基于这个进行一定的介绍。今天主要是主要介绍CSI反馈
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
两台pc如何高速度传输大文件费城之鹰其他两台电脑高速传输文件局域网不适用U盘传输资料网线直连两台电脑传资料
今天笔记本跑一个大一点的项目，8G的内存直接100%，i5的CPU直接75%并且在超频工作了，原本1.6Ghz的频率直接飙到了3.8Ghz，由于项目性质原因，采用的是公司配的笔记本，但是年初采购的联想E480，还在三包时间段内，公司不允许拆机增加内存，只能换一台新的台式机，听起来挺爽，有新设备，但是办公区域不准使用U盘这一类的存储设备，这就蛋疼了，大半年了项目代码，资料全在这个不够用的笔记本里，问
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
玩转Docker | 使用Docker部署NotepadMX笔记应用程序心随_风动玩转Docker docker 笔记 eureka
玩转Docker|使用Docker部署NotepadMX笔记应用程序前言一、NotepadMX介绍工具简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署NotepadMX服务下载NotepadMX镜像编辑部署文件创建容器检查容器状态检查服务端口安全设置四、访问NotepadMX服务访问NotepadMX首页设置访问验证编辑笔记总结前言在如今快节奏的工作与学习中，一
【前端】异步任务风控验证与轮询机制技术方案（通用笔记版）
一、背景场景在某类生成任务中，例如用户点击“执行任务”按钮后触发一个较耗时的后端操作（如生成报告、渲染图像、转码视频等），由于其调用了模型、渲染服务或需要较长处理时间，为了防止接口被频繁恶意调用，系统需要加入风控验证机制。此外，因任务处理为异步，前端无法立即获得最终结果，因此需通过轮询方式定期查询任务状态，等待任务完成后展示结果。二、整体流程说明1.用户点击“执行任务”按钮：前端调用风控接口/ap
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
用Python做数据分析之数据统计学掌门 Python 数据分析大数据 python 数据分析人工智能
接下来说说数据统计部分，这里主要介绍数据采样，标准差，协方差和相关系数的使用方法。1、数据采样Excel的数据分析功能中提供了数据抽样的功能，如下图所示。Python通过sample函数完成数据采样。2、数据抽样Sample是进行数据采样的函数，设置n的数量就可以了。函数自动返回参与的结果。1#简单的数据采样2df_inner.sample(n=3)3、简单随机采样Weights参数是采样的权重，
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
LLaMA 学习笔记 AI算法网奇深度学习基础人工智能深度学习
目录LLaMA模型结构：模型微调手册：推理示例：指定位置加载模型测试ok：模型下载：llama-stack下载modelscope下载LLaMA优化技术RMSNormSwiGLU激活函数旋转位置编码（RoPE）LLaMA模型结构：llama3结构详解-CSDN博客模型微调手册：大模型微调LLaMA详细指南（准备环境、数据、配置微调参数+微调过程）_llama微调-CSDN博客显存占用：FP16/B
BOOT_KEY按键（学习笔记）小高Baby@ 学习笔记
先来让我们了解一下GPIO是什么吧，它在单片机中也有很重要的作用，接下来我们来看看吧。esp32C3是QFN32封装（一种集成电路（IC）封装类型），GPIO引脚一共有22个，从GPIO-0到GPIO-21。从理论上来说，所有的IO引脚都可以复用为任何外设功能，但有些引脚用作连接芯片内部FLASH或者外部FLASH功能时，官方不建议用作其它用途。esp32c3的GPIO，可以用作输入、输出，可以配
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

5.2 办公自动化&爬虫讲义