红色枫叶海

Python办公自动化之文件读写操作与Excel，csv，PDF文件

文件读写与异常处理

使用open()函数打开文件，并且可以通过函数里的参数指定文件名、操作模式、字符编码等。
常用操作模式如下表：

操作模式	具体含义
`'r'`	读取（默认）
`'w'`	写入（会先截断之前的内容）
`'x'`	写入，如果文件已经存在会产生异常
`'a'`	追加，将内容写入到已有文件的末尾
`'b'`	二进制模式
`'t'`	文本模式（默认）
`'+'`	更新（既可以读又可以写）

如果想了解更多的操作模式，可点击此链接：菜鸟教程之file

在读取文件之后如果无法对自己程序的操作模式进行确定，可参考下图：

通过open函数打开一个文件之后，我们会得到一个返回文件对象，通过这个文件对象，我们可以实现对文件的读写操作。在使用完之后，我们一定要关闭文件，释放资源。关闭文件操作是close()。

文件对象的操作函数

file.close()
关闭文件。关闭后文件不能再进行读写操作。

file.flush()
刷新文件内部缓冲，直接把内部缓冲区的数据立刻写入文件, 而不是被动的等待输出缓冲区写入。

file.fileno()
返回一个整型的文件描述符(file descriptor FD 整型), 可以用在如os模块的read方法等一些底层操作上。

file.read([size])
从文件读取指定的字节数，如果未给定或为负则读取所有。

file.readline([size])
读取整行，包括 “\n” 字符。

file.readlines([sizeint])
读取所有行并返回列表，若给定sizeint>0，返回总和大约为sizeint字节的行, 实际读取值可能比 sizeint 较大, 因为需要填充缓冲区。

file.seek(offset[, whence])
移动文件读取指针到指定位置

file.tell()
返回文件当前位置。

file.truncate([size])
从文件的首行首字符开始截断，截断文件为 size 个字符，无 size 表示从当前位置截断；截断之后后面的所有字符被删除，其中 windows 系统下的换行代表2个字符大小。

file.write(str)
将字符串写入文件，返回的是写入的字符长度。

file.writelines(sequence)
向文件写入一个序列字符串列表，如果需要换行则要自己加入每行的换行符。

open函数的参数

open函数的完整的语法格式

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

参数说明

file: 必需，文件路径（相对或者绝对路径）。
mode: 可选，文件打开模式
buffering: 设置缓冲
encoding: 一般使用utf8
errors: 报错级别
newline: 区分换行符
closefd: 传入的file参数类型
opener: 设置自定义开启器，开启器的返回值必须是一个打开的文件描述符。

这里介绍一个小绝招：当我们使用open函数时，每次在不用文件时都需要使用close()函数关闭文件，会很麻烦。所以我们一般都不会使用这种方式，推荐大家使用：with open() as 别名：这种方式，这种方式会在我们使用完文件之后，自动帮助我们关闭文件，继而我们后续就不需要手动输入代码关闭文件。

读写文本文件

读文件

使用open函数打开一个文件，一般来说都会指定操作模式，如果不指定，默认是读模式，'r’

# 返回的是全部的歌词
with open('周杰伦-青花瓷.txt','r',encoding='utf-8') as file:
    print(file.read())

也可以使用for-in循环逐行读取，也可以使用readlines将文件按行读取到容器中。

with open('周杰伦-青花瓷.txt','r',encoding='utf-8')as file:
    # print(file.read())
    for line in file:
        print(line,end='')
        
    lines = file.readlines()   # lines是一个列表
    for line in lines:
        print(line,end='')

readlines：读取多行（全部）
readline：读一行

with open('周杰伦-青花瓷.txt','r',encoding='utf-8')as file:
    print(file.readline())

写文件

如果需要向文件中写入内容，可以指定操作模式为’w’或者a，'w’模式写入内容会覆盖之前的内容，'a’是在内容的尾部追加新内容。

with open('周杰伦-青花瓷.txt','a',encoding='utf-8')as file:
    
    file.write('\n歌曲：青花瓷')
    file.write('\n演唱：周杰伦')

异常处理

在编写程序时，很多时候报错是很普遍的，但是很多时候我们不想要程序报错，哪怕真的报错了，也希望下面的代码也可以继续执行，而不是停留在报错行，通常使用异常机制对这些问题进行处理。
对于异常处理，与之相关的关键字有try，except，else，finally，raise。
对于异常处理，有以下几种方式：

`try..except`

`try...except...else`

`try...except...else...finally`

raise触发异常

x = 6
if x > 1:
    raise Exception('x 不能大于 1。x : {}'.format(x))

# 返回
Exception: x 不能大于 1。x : 6

读写二进制文件

读写二进制文件的操作与上面的读写文件基本相同，只是将open函数的操作模式改变一下。
读二进制文件：操作模式----->'rb'
写二进制文件：操作模式----->'wb'
只要涉及二进制文件：往往都是在操作模式后面加上‘b’。

python读取csv文件

CSV文件介绍

CSV（Comma Separated Values）全称逗号分隔值文件是一种简单、通用的文件格式，被广泛的应用于应用程序（数据库、电子表格等）数据的导入和导出以及异构系统之间的数据交换。因为CSV是纯文本文件，不管是什么操作系统和编程语言都是可以处理纯文本的，而且很多编程语言中都提供了对读写CSV文件的支持，因此CSV格式在数据处理和数据科学中被广泛应用。

CSV文件有以下特点：

纯文本，使用某种字符集（如ASCII、Unicode、GB2312）等）；
由一条条的记录组成（典型的是每行一条记录）；
每条记录被分隔符（如逗号、分号、制表符等）分隔为字段（列）；
每条记录都有同样的字段序列。

将数据写入csv文件

在进行csv文件操作是需要调用Python中的csv模块，该模块的writer函数会返回一个csvwriter对象，通过该对象的writerow或writerows方法就可以将数据写入到CSV文件中。

import csv
import random
# 如果文件存在则直接在里面添加，否则创建文件之后再进行添加
with open('scores.csv','w',encoding='utf-8',newline='')as file:
    writer = csv.writer(file)
    # 写入表头
    writer.writerow(['name','chinese','math','english'])
    names = ['刘备','关羽','张飞']
    for i in range(3):
    # 使用随机生成成绩
        chinese_score = random.randint(40,100)
        math_score = random.randint(40,100)
        english_score = random.randint(40,100)
        # 写入名字和成绩
        writer.writerow([names[i],chinese_score,math_score,english_score])

上面的writer函数，该函数除了传入要写入数据的文件对象外，还可以dialect参数，它表示CSV文件的方言，默认值是excel。除此之外，还可以通过delimiter、quotechar、quoting参数来指定分隔符（默认是逗号）、包围值的字符（默认是双引号）以及包围的方式。其中，包围值的字符主要用于当字段中有特殊符号时，通过添加包围值的字符可以避免二义性

示例：

import csv

with open('scores.csv', 'r') as file:
    reader = csv.reader(file, delimiter='|')
    for line in reader:
        print(reader.line_num, end='\t')
        for elem in line:
            print(elem, end='\t')
        print()

Excel操作

Python操作Excel需要三方库的支持，如果要兼容Excel 2007以前的版本，也就是xls格式的Excel文件，可以使用三方库xlrd和xlwt，前者用于读Excel文件，后者用于写Excel文件。如果使用较新版本的Excel，即操作xlsx格式的Excel文件，也可以使用openpyxl库，当然这个库不仅仅可以操作Excel，还可以操作其他基于Office Open XML的电子表格文件。

使用xlrd读Excel文件

xlrd读取的是xls文件，如果需要使用它读xlsx文件，新版本的xlrd不支持，我们需要下载的版本是1.2.0版本的。
具体xlrd的读文件操作以代码形式展示：

import xlrd

# 工作簿--->一个Excel文件---->workbook
wb = xlrd.open_workbook('阿里巴巴2020年股票数据1.xls')
# 获取所有工作表
print(wb.sheet_names())
# 获取指定工作表，worksheet
sheet = wb.sheet_by_name('股票数据')
sheet1 = wb.sheet_by_index(0)
print(type(sheet),type(sheet1))
# # 获取行数列数
print(sheet.nrows,sheet.ncols)
# # 获取单元格的数据
print(sheet.row(0))  # 一行
print(sheet.row(0)[0])  #第一行中某一个具体的数据
print('---------------------')
# 指定某行从第几列输出到第几列
print(sheet.row_slice(1,start_colx=0,end_colx=3))
print(sheet.col(1))
print(sheet.col_slice(4, start_rowx=1, end_rowx=11))

# 获取单元格数据--->cell--->value
cell = sheet.cell(2, 2)
print(cell.value)
# 遍历表单,根据行列索引，不包括表头
print(f'交易日期\t\t\t最高价\t\t最低价\t\t开盘价\t\t收盘价\t\t成交量\t\t调整收盘价')
for row in range(1, sheet.nrows):
    for col in range(sheet.ncols):
        value = sheet.cell(row, col).value
        if col == 0:
            # 处理时间日期
            # year, month, date, *_ = xlrd.xldate_as_tuple(value, 0)
            curr_date = xlrd.xldate_as_datetime(value,0)
            print(curr_date.strftime('%Y年%m月%d日'),end='\t')
            # print(f'{year}年{month:0>2d}月{date:0>2d}日', end='\t')
        elif col == 5:
            print(f'{
       int(value):<10d}', end='\t')
        else:
            print(f'{
       value:.4f}', end='\t')
    print()

xlwt写Excel文件

import random

import xlwt

student_names = ['关羽', '张飞', '赵云', '马超', '黄忠']
scores = [[random.randint(40, 100) for _ in range(3)] for _ in range(5)]
# 创建工作簿对象（Workbook）
wb = xlwt.Workbook()
# 创建工作表对象（Worksheet）
sheet = wb.add_sheet('一年级二班')
# 添加表头数据
titles = ('姓名', '语文', '数学', '英语')
for index, title in enumerate(titles):
    sheet.write(0, index, title)
# 将学生姓名和考试成绩写入单元格
for row in range(len(scores)):
    sheet.write(row + 1, 0, student_names[row])
    for col in range(len(scores[row])):
        sheet.write(row + 1, col + 1, scores[row][col])
# 保存Excel工作簿
wb.save('考试成绩表.xls')

调整单元格样式

背景色调整
第一行的表头单元格修改为黄色

header_style = xlwt.XFStyle()
pattern = xlwt.Pattern()
pattern.pattern = xlwt.Pattern.SOLID_PATTERN
# 0 - 黑色、1 - 白色、2 - 红色、3 - 绿色、4 - 蓝色、5 - 黄色、6 - 粉色、7 - 青色
pattern.pattern_fore_colour = 5
header_style.pattern = pattern
titles = ('姓名', '语文', '数学', '英语')
for index, title in enumerate(titles):
    sheet.write(0, index, title, header_style)

修改字体

font = xlwt.Font()
# 字体名称
font.name = '华文楷体'
# 字体大小（20是基准单位，18表示18px）
font.height = 20 * 18
# 是否使用粗体
font.bold = True
# 是否使用斜体
font.italic = False
# 字体颜色
font.colour_index = 1
header_style.font = font

表头垂直居中对齐

align = xlwt.Alignment()
# 垂直方向的对齐方式
align.vert = xlwt.Alignment.VERT_CENTER
# 水平方向的对齐方式
align.horz = xlwt.Alignment.HORZ_CENTER
header_style.alignment = align

调整行高列宽

# 设置行高为40px
sheet.row(0).set_style(xlwt.easyxf(f'font:height {
       20 * 40}'))
titles = ('姓名', '语文', '数学', '英语')
for index, title in enumerate(titles):
    # 设置列宽为200px
    sheet.col(index).width = 20 * 200
    # 设置单元格的数据和样式
    sheet.write(0, index, title, header_style)

xlrd，xlwt这两个模块将Excel的读写操作是分开的，在进行文件操作时有点麻烦，所以推荐大家使用另一个Excel文件操作模块 openpyxl，它的功能和xlrd，xlwt相差不大，甚至强于他们，它将文件读写操作合并在一起，调用这个模块就可以对文件进行读写，同时都支持调整字体，颜色，对齐方式等，基本上excel的功能都有。

详细操作大家可以去官方API查看：
xlrd官方文档
xlwt官方文档
转载 openpyxl常用API

操作PDF文件

对PDF操作需要借助三方库PyPDF2
对PDF进行文字提取其实效率并不高，这里不做讲解。创建PDF亦是如此，这里只是讲一下如何给PDF添加水印以及对PDF加密。

添加水印、进行加密

在进行添加水印，我们需要准备另一个水印的PDF文件，其实添加水印实际上就是将两个PDF文件合在一起。

import PyPDF2
import os
from PyPDF2.pdf import PageObject
path = 'pdffile'   # 当前PDF所在的路径，这里是相对于我的工作路径
filenames = os.listdir(path)
# 读取水印PDF文件
reader1 = PyPDF2.PdfFileReader('watermark.pdf')
# 水印在第一页，就只拿第一页
watermark_page = reader1.getPage(0)
# 创建一个PDF对象
writer = PyPDF2.PdfFileWriter()
# 将文件夹里面的所有PDF文件读取
for filename in filenames:
    reader2 = PyPDF2.PdfFileReader(path+'/'+filename)
    for page in range(reader2.numPages):
        curr_page = reader2.getPage(page)   # type: PageObject
        # 将需要添加水印的PDF文件与水印文件合并
        curr_page.mergePage(watermark_page)
        # 创建PDF，将加了水印的PDF写在另一个创建的PDF里面
        writer.addPage(curr_page)
        # 给PDF加密，括号里面的是密码，相反decrypt（）是解密，括号里面是密码
    writer.encrypt('123abc')
    # 保存文件
    with open(f'pdffile/{
       filename[:-4]}_watermark.pdf','wb')as file:
        writer.write(file)

我这里是对多个文件进行操作，对一个一是这种操作

正则表达式

正则表达式理解起来不容易，这里不做陈述。
转载：30分钟了解正则表达式

符号	解释	示例	说明
`.`	匹配任意字符	`b.t`	可以匹配bat / but / b#t / b1t等
`\w`	匹配字母/数字/下划线	`b\wt`	可以匹配bat / b1t / b_t等但不能匹配b#t
`\s`	匹配空白字符（包括\r、\n、\t等）	`love\syou`	可以匹配love you
`\d`	匹配数字	`\d\d`	可以匹配01 / 23 / 99等
`\b`	匹配单词的边界	`\bThe\b`
`^`	匹配字符串的开始	`^The`	可以匹配The开头的字符串
`$`	匹配字符串的结束	`.exe$`	可以匹配.exe结尾的字符串
`\W`	匹配非字母/数字/下划线	`b\Wt`	可以匹配b#t / b@t等但不能匹配but / b1t / b_t等
`\S`	匹配非空白字符	`love\Syou`	可以匹配love#you等但不能匹配love you
`\D`	匹配非数字	`\d\D`	可以匹配9a / 3# / 0F等
`\B`	匹配非单词边界	`\Bio\B`
`[]`	匹配来自字符集的任意单一字符	`[aeiou]`	可以匹配任一元音字母字符
`[^]`	匹配不在字符集中的任意单一字符	`[^aeiou]`	可以匹配任一非元音字母字符
`*`	匹配0次或多次	`\w*`
`+`	匹配1次或多次	`\w+`
`?`	匹配0次或1次	`\w?`
`{N}`	匹配N次	`\w{3}`
`{M,}`	匹配至少M次	`\w{3,}`
`{M,N}`	匹配至少M次至多N次	`\w{3,6}`
`\|`	分支	`foo\|bar`	可以匹配foo或者bar
`(?#)`	注释
`(exp)`	匹配exp并捕获到自动命名的组中
`(?exp)`	匹配exp并捕获到名为name的组中
`(?:exp)`	匹配exp但是不捕获匹配的文本
`(?=exp)`	匹配exp前面的位置	`\b\w+(?=ing)`	可以匹配I’m dancing中的danc
`(?<=exp)`	匹配exp后面的位置	`(?<=\bdanc)\w+\b`	可以匹配I love dancing and reading中的第一个ing
`(?!exp)`	匹配后面不是exp的位置
`(?`	匹配前面不是exp的位置
`*?`	重复任意次，但尽可能少重复	`a.b` `a.?b`	将正则表达式应用于aabab，前者会匹配整个字符串aabab，后者会匹配aab和ab两个字符串
`+?`	重复1次或多次，但尽可能少重复
`??`	重复0次或1次，但尽可能少重复
`{M,N}?`	重复M到N次，但尽可能少重复
`{M,}?`	重复M次以上，但尽可能少重复

正则表达式使用re模块

常用函数及说明

函数	说明
`compile(pattern, flags=0)`	编译正则表达式返回正则表达式对象
`match(pattern, string, flags=0)`	用正则表达式匹配字符串成功返回匹配对象否则返回`None`
`search(pattern, string, flags=0)`	搜索字符串中第一次出现正则表达式的模式成功返回匹配对象否则返回`None`
`split(pattern, string, maxsplit=0, flags=0)`	用正则表达式指定的模式分隔符拆分字符串返回列表
`sub(pattern, repl, string, count=0, flags=0)`	用指定的字符串替换原字符串中与正则表达式匹配的模式可以用`count`指定替换的次数
`fullmatch(pattern, string, flags=0)`	`match`函数的完全匹配（从字符串开头到结尾）版本
`findall(pattern, string, flags=0)`	查找字符串所有与正则表达式匹配的模式返回字符串的列表
`finditer(pattern, string, flags=0)`	查找字符串所有与正则表达式匹配的模式返回一个迭代器
`purge()`	清除隐式编译的正则表达式的缓存
`re.I` / `re.IGNORECASE`	忽略大小写匹配标记
`re.M` / `re.MULTILINE`	多行匹配标记

你可能感兴趣的:(Python办公自动化之文件读写操作与Excel，csv，PDF文件)

时间序列分析的军火库：AutoTS、Darts、Kats、PaddleTS、tfts 和 FancyTS解析赛卡大数据人工智能深度学习 python 概率论数学建模
引言：时间序列分析的现代挑战时间序列分析在多个领域中扮演着关键角色，包括工程、金融、气象、工业预测等。随着开源工具的快速发展，开发者可以通过多种库快速实现时间序列预测与分析。本文将对AutoTS、Darts、Kats、PaddleTS、tfts和FancyTS六大主流库进行详细解析，并提供代码示例，帮助你根据实际需求选择最佳工具。核心库技术解析与场景化实践1.AutoTS：自动化时间序列预测技术亮
自动驾驶中间件技术辨析：ROS、Apex.Grace、DDS、AutoSAR和AutoSAR Adaptive 赛卡自动驾驶中间件人工智能
在自动驾驶技术的演进中，中间件作为连接硬件、操作系统与应用软件的核心枢纽，其安全性、实时性和可扩展性至关重要。当前市场上主流的中间件技术包括ROS/ROS2、Apex.Grace（Apex.OS）、DDS、AutoSAR（经典平台CP）和AutoSARAdaptive（自适应平台AP）。这些技术各有特点，但也存在交叉与互补。本文将从功能定位、技术架构、安全认证和应用场景等方面，深入分析它们的联系与
网页编辑器能否满足Word公式与图片的直接复制粘贴？ 2501_90699800 编辑器 word umeditor粘贴word ueditor粘贴word ueditor复制word ueditor上传word图片 ueditor导入word
要求：开源，免费，技术支持编辑器：百度ueditor前端：vue2,vue3,vue-cli,react,html5用户体验：Ctrl+V快捷键操作功能：导入Word,导入Excel,导入PPT(PowerPoint),导入PDF,复制粘贴word,导入微信公众号内容,web截屏平台：Windows,macOS,Linux,RedHat,CentOS,Ubuntu,中标麒麟,银河麒麟,统信UOS,
软件工程：数据字典愚戏师软件工程软件工程数据库
一、数据字典的核心作用定位：数据字典是数据流图（DFD）的补充说明文档，与DFD共同构成系统的逻辑模型。核心价值：消除二义性：明确数据流、存储、元素的定义，避免理解偏差。设计依据：为数据库设计、代码开发提供数据规范。团队协作：作为开发团队的共享词汇表，确保术语一致性。二、数据字典的四大组成要素1.数据流（DataFlow）定义：数据在系统中的流动路径。描述内容：来源与去向：起点（外部实体/处理）、
亿级分布式系统架构演进实战（五）- 横向扩展（缓存策略设计） power-辰南 java技术架构师成长专栏多级缓存策略 spring cloud 分布式系统缓存一致性高并发缓存问题解决方案
亿级分布式系统架构演进实战（一）-总体概要亿级分布式系统架构演进实战（二）-横向扩展（服务无状态化）亿级分布式系统架构演进实战（三）-横向扩展（数据库读写分离）亿级分布式系统架构演进实战（四）-横向扩展（负载均衡与弹性伸缩）核心目标降低数据库读压力，提升响应速度一、多级缓存架构客户端CDN/浏览器缓存本地应用缓存分布式缓存数据库缓冲池1.1客户端缓存缓存数据类型：•静态资源（JS/CSS/图片）•
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术 Mark White dnn 人工智能神经网络
Softmax温度调节与注意力缩放：深度神经网络中的平滑艺术在深度学习的精密机械中，有些细微的调整机制往往被视为理所当然，却实际上蕴含着深刻的数学洞察和巧妙的工程智慧。今天，我们将探讨两个看似独立却本质相通的机制：生成模型中的温度参数与Transformer注意力机制中的缩放因子。这两个设计都围绕着同一个核心概念——softmax分布的平滑控制。Softmax函数：概率分布的催化剂在深入讨论之前，
弱网测试究竟要怎么做，才能防止漏测？学掌门 IT 软件测试程序员软件测试软件测试工程师
1、为什么要进行弱网测试？在游戏测试–黑盒测试中，分为功能测试与专项测试，在上几篇文章中说的都是功能测试，而专项测试主要包括弱网和性能测试。（其实弱网也是性能的一种。）功能测试主要是保证功能的完整性，能让玩家能够流程的体验整个游戏功能，而弱网测试就是其中需要关注的异常点。首先我们知道现在的网络场景一般是无网络2g3g4g和wifi，以及即将要到来的5g。弱网当然就包括无网、2g，3g不知道算不算，
数据分析过程中，发现数值缺失，怎么办？学掌门大数据数据分析 IT 数据分析数据挖掘
按照数据缺失机制，数据分析过程中，我们可以将其分为以下几类：（1）完全随机缺失（MCAR）：所缺失的数据发生的概率既与已观察到的数据无关，也与未观察到的数据无关。（2）随机缺失（MAR）：假设缺失数据发生的概率与所观察到的变量是有关的，而与未观察到的数据的特征是无关的。MCAR与MAR均被称为是可忽略的缺失形式。（3）不可忽略的缺失（NIM）：亦称为非随机缺失，即如果不完全变量中，数据的缺失既依赖
【轻松学C：编程小白的大冒险】— 09 运算符与表达式的实际应用秋知叶i #C 语言 c语言开发语言
在编程的艺术世界里，代码和灵感需要寻找到最佳的交融点，才能打造出令人为之惊叹的作品。而在这座秋知叶i博客的殿堂里，我们将共同追寻这种完美结合，为未来的世界留下属于我们的独特印记。【轻松学C：编程小白的大冒险】—09运算符与表达式的实际应用一、运算符家族大阅兵二、算术运算符：数学界的五虎上将1.加法运算符`+`2.减法运算符`-`3.乘法运算符`*`4.除法运算符`/`5.取模运算符`%`二、赋值运
使用Python轻松拆分PDF，每页独立成文件 AI航海家(Ethan) python python pdf
使用Python轻松拆分PDF，每页独立成文件嗨，各位PDF爱好者！如果你曾经有想要拆分一个大PDF文件的想法，让每一页都成为独立的文件，那么这篇博客就是为你准备的！我们将使用Python中的一个非常强大的库–PyPDF2，把这些需求变得简单易行。PyPDF2登场首先，我们需要安装PyPDF2库。如果你还没有安装，别担心，只需要在终端运行以下命令：pipinstallPyPDF2安装好了吗？下面我
设计模式之工厂模式的优缺点 C++ 老炮儿的技术栈算法 c++学习笔记
工厂模式是一种创建对象的设计模式，它将对象的创建和使用分离。以下是工厂模式的优缺点：优点-解耦对象的创建和使用：使得代码的依赖关系更加清晰，使用者不需要了解对象的具体创建过程，只需要关心如何使用对象，降低了代码的耦合度。-提高可维护性和可扩展性：当需要创建新的对象或者修改对象的创建逻辑时，只需要在工厂类中进行修改，而不需要在所有使用该对象的地方进行修改，便于代码的维护和扩展。-便于代码复用：工厂类
决策树算法及其python实例 m0_74831463 算法决策树 python
一、决策数的概念什么是决策树算法呢？决策树（DecisionTree）是一种基本的分类与回归方法，本文主要讨论分类决策树。决策树模型呈树形结构，在分类问题中，表示基于特征对数据进行分类的过程。它可以认为是if-then规则的集合。每个内部节点表示在属性上的一个测试，每个分支代表一个测试输出，每个叶节点代表一种类别二、决策树的构造1、决策树的构造步骤输入：训练集D={(21,11),(z2,32),
大模型在冠心病风险预测及临床方案制定中的应用研究 LCG元围术期危险因子预测模型研究人工智能机器学习 python
目录一、引言1.1研究背景与目的1.2国内外研究现状1.3研究方法与创新点二、大模型预测冠心病风险原理与方法2.1数据收集与预处理2.1.1数据来源2.1.2数据清洗与整理2.2特征工程2.2.1特征提取2.2.2特征选择与优化2.3模型选择与训练2.3.1常用模型介绍2.3.2模型训练过程三、术前风险预测与手术方案制定3.1术前风险预测指标与模型应用3.2基于风险预测的手术方案制定3.3案例分析
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
OpenCV图像拼接（1）自动校准之校准旋转相机的函数calibrateRotatingCamera() 村北头的码农 OpenCV opencv 人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::calibrateRotatingCamera是OpenCV中用于校准旋转相机的函数。它特别适用于那种相机相对于一个固定的场景进行纯旋转运动的情况，比如在全景拼接过程中。此函数可以从一系列单应性矩阵（HomographyMatrices）中
bp抓IOS的包仙女很美哦 http udp https websocket 网络安全网络协议 tcp/ip
抓包工具的原理与使用指南一、抓包工具的原理抓包工具的核心原理是通过代理设置，使得浏览器访问请求经过抓包工具，再转发到服务器。具体流程如下：访问流程：浏览器>>抓包工具>>服务器响应流程：服务器>>抓包工具>>浏览器1.HTTP数据的抓包HTTP协议本身是明文传输的，因此抓包工具可以直接捕获并解析这些数据。2.HTTPS数据的抓包HTTPS协议在传输过程中是加密的，因此抓包工具需要模拟服务端和客户端
CCF CSP 历年真题 C语言版满分代码集合 (至2021.9 持续更新中 JY_0329 CCF c语言开发语言 csp ccf 算法
CCFCSP历年真题C语言版满分代码集合（全部原创）2021-9-1数组推导2021-9-2非零段划分2021-4-1灰度直方图2021-4-2领域均值2020-12-1期末预测之安全指数2020-12-2期末预测之最佳阈值2020-9-1称检测点查询2020-9-2风险人群筛查2020-6-1线性分类器2020-6-2稀疏向量2019-12-1报数2019-12-2回收站选址2019-9-1小明
Python Textract库：文本提取程序员喵哥 python 开发语言
更多Python学习内容：ipengtao.comTextract是一个强大的Python库，用于从各种文件格式中提取文本。无论是PDF、Word文档、Excel电子表格、HTML页面还是图像，Textract都能有效地提取其中的文本内容。Textract通过集成多种开源工具和库，实现了对多种文件格式的支持，使得文本提取变得简单而高效。本文将详细介绍Textract库的安装、主要功能、基本操作、高
一个比Fiddler/Charles更好用的免费抓包神器金丝猴也是猿 http udp https websocket 网络安全网络协议 tcp/ip
Proxyman与Sniffmaster：抓包工具的双剑合璧在当今的网络开发与调试中，抓包工具是不可或缺的利器。无论是前端开发者、后端工程师，还是安全研究人员，都需要通过抓包工具来分析网络请求、调试接口、排查问题。今天，我们将介绍两款强大的抓包工具：Proxyman和Sniffmaster，它们各自拥有独特的功能，能够帮助你在不同的场景下高效完成工作。Proxyman简介Slogan：只是简单地点
在网页跑3D多人互动之渲染效能瓶颈微网兔子後端技術前端网络服务器 c++unity 架构 3d
累积到目前测试回馈给我们的心得，主要问题还是在前端显示的部分。所以就来聊聊在网页跑3D多人互动之渲染效能瓶颈!!!数万个3D角色与场景物件需即时渲染，导致GPU/CPU过载，低端设备卡顿。已经使用的解决方案：LOD（LevelofDetail）技术：根据距离动态调整模型细节，远距离使用低多边形模型。InstancedRendering：批次渲染相同模型（如重复的树木、建筑物）。Culling（剔除
计算机二级c语言知识点6 xu_hhh_ 计算机二级c语言选择题 c语言开发语言
函数形参的值，不会改变对应实参的值函数可以返回地址值&x不可以给指针变量赋一个整数作为地址值当在程序的开头包含头文件stdio.h时，可以给指针变量赋NULLfun（char*a，char*b）{while(（*b=*a）！=‘\0’){a++;b++;}}这个函数实现的功能是将a所指的字符串赋给b所指的空间，此函数也会将\0赋给b，因为括号里的表达式（*b=*a）先执行，后判断是否=\0若有定义
Centos7_安装爱喝兽奶 Linux基础 linux ubuntu centos
一.Linux哲学思想一切都是一个文件（包括硬件）小型，单一用途的程序链接程序，共同完成复杂的任务避免令人困惑的用户界面配置数据存储在文本中二.Linux生产主流版本Linux各种版本CentOS各版本介绍https://zh.wikipedia.org/wiki/CentOSRHEL各版本介绍https://zh.wikipedia.org/wiki/Red_Hat_Enterprise_Lin
BOE(京东方)携手京东发起百吋电视品牌联盟发布会引领家庭视听正式迈入大屏时代网络
2025年3月20日,备受瞩目的大型家电与消费电子展AWE博览会(AWE2025)在上海隆重召开,多款由BOE(京东方)ADSPro技术赋能的大屏新品惊艳亮相。适逢电视诞生百年这一重要历史时刻,BOE(京东方)与电商巨头京东于AWE展会现场联合发起2025年百吋电视品牌联盟发布会,共同推动百吋电视普及。这一举措意义非凡,它不仅标志着电视产业新元年的开启,更引领了家庭娱乐新趋势的到来。此次发布以“巨
信创国产芯片如何助力企业数字化转型程序员
企业数字化转型已成为当今时代的关键趋势，在这一进程中，信创国产芯片正发挥着日益重要的作用。随着全球科技竞争的加剧以及对信息安全重视程度的不断提升，信创国产芯片凭借其独特优势，为企业数字化转型提供了坚实的支撑与新的发展机遇。信创国产芯片的发展现状信创产业近年来在我国取得了显著的进步，国产芯片作为其中的核心环节，也迎来了快速发展期。国内众多科研机构和企业加大了在芯片研发领域的投入，不断攻克技术难题。从
如何提升 API 性能：来自 Java 和测试开发者的优化建议
你正在听你最喜欢的歌曲，测试你使用编写的新API。但等你听完一整首歌，API还没响应。哎呀！这是一个巨大的警告信号——是时候优化你的API响应时间了。让我们深入了解一些加速方法，让你的API跟你最喜欢的吉他独奏一样快。为什么API响应时间很重要想想看：API响应时间就是你的应用程序与服务器之间的对话速度。它响应得越快，用户就会越开心。API慢=用户沮丧，API快=用户高兴。所以，让我们解决那些延迟
PLM项目管理软件如何支持供应链管理与协作？程序员
在企业的运营过程中，供应链管理与协作至关重要，它关乎着企业的成本控制、产品交付速度以及客户满意度等多个关键方面。而PLM项目管理软件作为一种强大的工具，正逐渐在支持供应链管理与协作中发挥着不可忽视的作用。PLM软件涵盖了从产品的概念设计到产品生命周期结束的全过程管理，通过整合各种数据和流程，为供应链各环节的协同工作提供了坚实的基础。接下来，我们将深入探讨PLM项目管理软件是如何支持供应链管理与协作
对数据库的总结 java
一、数据库基础1.数据库是一个用于存储和操作数据的文件系统2.关系型数据库：是基于二维表存储的，每个表格由列和行组成，列代表属性，行代表约束，数据的组织和查询更加方便和高效。3.库表操作结构：MySQL和Oracle，通用工具Navicat4.SQL语句的库表操作：createtable：创建表altertable：修改表droptable：删除表truncatetable：删除表中的所有数据，但
《代码与灯影：一个互联网“搬砖者”的十六小时马拉松》
清晨6:30，手机闹钟第三次震动时，王昊的手指在黑暗中摸索着按下"稍后提醒"。枕边充电器散发的微光里，他瞥见钉钉群里跳动的99+未读消息——昨夜两点部署的自动化脚本还在生产环境报错。一、困顿清晨：在咖啡因里开机7:15，地铁早高峰的人流像被编译失败的代码，在闸机口不断堆栈溢出。他缩在车厢角落，用手机查看凌晨的服务器监控日志，突然发现某个API接口响应时间突破2000ms。"这得在晨会上重点提...
Apifox vs Apipost，API 管理工具选型思考，企业究竟该如何选？
在企业级API调试与管理场景中，选择一款高效的工具至关重要。市面上的调试工具琳琅满目，而Apifox和Apipost是近几年两款备受开发者关注的API工具。二者都宣称为团队协作和接口调试赋能，但对企业来说，究竟谁才是更适合的选择呢？本文将从功能对比、用户体验、企业适配度和性价比等多个维度做一次全面解析，帮助你做出更明智的选择。一.概述与定位ApiFoxApifox是一款国产的API调试工具，主打“
Fuzzy Control | Degree of Membership Function 斐夷所非 mathematics 隶属度函数
注：本文为“隶属度函数”相关文章合辑。如有内容异常，请看原文。隶属函数（MembershipFunction），又称归属函数或模糊元函数，是用于表征模糊集合的重要数学工具。在经典集合中，元素与集合的关系只有属于或不属于两种明确情况，分别用111和000表示。但对于模糊集合而言，元素与集合的隶属关系具有不分明性。隶属函数正是为描述元素uuu对论域UUU上的一个模糊集合的隶属关系而引入的，它将用区间[
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end