GoAI

Python办公自动化--Word、Excel、PDF

一、Python自动化之Excel

python操作excel主要用到openpyxl库。其主要针对xlsx格式的excel进行读取和编辑。下面简单介绍其使用方法及命令。除openpyxl库外，还有xlwt及xlwd也可以对excel表格实现同样操作。

python读excel——xlrd,比如读取日期、读合并单元格内容。

python写excel——xlwt

学习Python处理Excel首先要知道excel各个名词含义，其结构如下图：

data.xlsx
├── Sheet1
│   ├── A1
│   ├── A2
│   ├── B1
│   └── B2
├── Sheet2
│   ├── A1
│   ├── A2
│   ├── B1
│   └── B2
└── Sheet3
    ├── A1
    ├── A2
    ├── B1
    └── B2

一、工作簿新建保存

import openpyxl as opl
路径 = r'd:/DATA.xlsx'
工作簿 = opl.Workbook(路径) 
工作簿.save(路径)

二、打开工作簿

import openpyxl as opl
路径 = r'd:/DATA.xlsx'
工作簿 = opl.load_workbook(路径)
工作表 = 工作簿['1月']
print(工作表)  #

三、工作表新建，删除，复制
一、显示工作簿中所有的工作表和表名

import openpyxl as opl
路径 = r'd:/DATA.xlsx'
工作簿 = opl.load_workbook(路径)  #
所有工作表 = 工作簿.worksheets     # [, ]
for 工作表 in 所有工作表:
    print(工作表.title)

二、删除指定工作表

import openpyxl as opl
路径 = r'd:/DATAxlsx'
工作簿 = opl.load_workbook(路径)
工作表 = 工作簿['Sheet1']
工作簿.remove(工作表)
工作簿.save(路径)

三、新建指定工作表

import openpyxl as opl
路径 = r'd:/DATA.xlsx'
工作簿 = opl.load_workbook(路径)
工作簿.create_sheet('Sheet10')
工作簿.save(路径)

四、复制指定工作表

import openpyxl as opl
路径 = r'd:/DATA.xlsx'
工作簿 = opl.load_workbook(路径)
复制表 = 工作簿.copy_worksheet(工作簿['Sheet1'])  # 这里是工作表对象
复制表.title = '我是复制的表'                                       # 修改复制过来的表的名称
工作簿.save(路径)

四、获取工作表的方法
（1）获取所有工作表的名称

工作簿 .sheetnames # ['Sheet1', 'Sheet2', 'Sheet3']

（2）获取指定工作表

工作簿 ['Sheet2'] # 获取第2个工作表 #
工作簿.worksheets[0] # 获取第1个工作表 #

（3）获取最后保存的那个工作表

工作簿.active #

（4）获取工作表名称

工作表.title # Sheet2

五、读单元格数据
一、获取一个单元格的值

**①通过指定坐标**

import openpyxl as opl
路径 = r'd:/DATA.xlsx'
工作簿 = opl.load_workbook(路径)
工作表 = 工作簿['Sheet1']
单元格 = 工作表['A1'].value 
# 单元格 = 工作簿['Sheet1']['A1'].value  # 简写
print(单元格)  # 姓名

②通过指定行和列[cell(行，列)]
单元格 = 工作表.cell(row=1,column=1).value
print(单元格)  # 姓名

二、获取单元格对应的行、列和坐标

import openpyxl as opl
路径 = r'd:/好好学习.xlsx'
工作簿 = opl.load_workbook(路径)
单元格 = 工作簿['Sheet1']['A1']
print(单元格.row,单元格.column,单元格.coordinate)  # 1 1 A1

三、获取一个区域的单元格

一、指定坐标范围

import openpyxl as opl
路径 = r'd:/DATA.xlsx'
工作簿 = opl.load_workbook(路径)
工作表 = 工作簿['Sheet1']
单元格区域 = 工作表['A1:C10']
# 单元格区域 = 工作表['1:10']   # 第1行到第10行
# 单元格区域 = 工作表['A:C']    # 第A行到第C行
for 数据 in 单元格区域:    # 循环每行/每列
    for 单元格 in 数据:      # 循环每个单元格
        print(单元格.value)

注：单元格区域 = 工作表[2] # 只获取一行， 2 就是第二行
单元格区域 = 工作表[B] # 只获取一列， B 就是 B列

二、自定范围
例：.iter_rows(min_row=最低行数，max_row=最高行数，min_col=最低列数，max_col=最高列数)
[一般情况下只需要定位起点，终点定位多了，会获取到好多空白]
①按行：

import openpyxl as opl
路径 = r'd:/DATA.xlsx'
工作簿 = opl.load_workbook(路径) 
工作表 = 工作簿['Sheet1']  
# 行和列的范围  iter_cols按列
for 行 in 工作表.iter_rows(min_row=1,max_row=10,min_col=1,max_col=3):
    for 单元格 in 行: 
        print(单元格.value)

②按列：

import openpyxl as opl
路径 = r'd:/DATA.xlsx'
工作簿 = opl.load_workbook(路径) 
工作表 = 工作簿['Sheet1']
# 行和列的范围  iter_cols按列
for 列 in 工作表.iter_cols(min_row=1(,max_row=10),min_col=1,max_col=3):
    for 单元格 in 列: 
        print(单元格.value)

注：设置了最大行和列，行和列内没有数据，就会获取到空None，一般不设置最大值，让程序自动获取。三、获取每一行

import openpyxl as opl
路径 = r'c:/测试.xlsx'
工作簿 = opl.load_workbook(路径)
工作表 = 工作簿['Sheet1']
# 因为按行，所以返回A1, B1, C1这样的顺序
for 行 in 工作表.rows:
    for 单元格 in 行:
        print(单元格.value)

获取每一列
# A1, A2, A3这样的顺序
for 列 in 工作表.columns:
    for 单元格 in 列:
        print(单元格.value)

前面总结练习
题目：找出text_1.xlsx中sheet1表中空着的格子，并输出这些格子的坐标

import openpyxl as opl
路径=r'C:\Users\49689\Desktop\pydir\test_1.XLSX'
工作簿 = opl.load_workbook(路径)   # 打开工作簿
工作表 = 工作簿['Sheet1']          # 打开工作表
for 单元格 in 工作表.columns:      # 遍历每列
    for i in 单元格:              # 遍历每列中的单元格
        if i.value==0:           # 判断单元格是否为0
print(i.coordinate)              # 打印坐标位置

六、写单元格数据
1、向一个单元格写入数据

import openpyxl as opl
路径 = r'd:/DATA.xlsx'
工作簿 = opl.load_workbook(路径)
工作表 = 工作簿['Sheet1']
工作表.cell(1,5,value='学python') # 通过行和列点位写入内容
工作表['E2']='学JAVA' # 通过指定坐标写入内容
工作簿.save(路径) # 存入原Excel表中，若创建新文件则可命名为不同名称

注：若原来的坐标上有数据，在写入数据会替代原来的内容

2、在最后一列写入数据

list=['海绵宝宝',2,5,10]
工作表.append(list)

#向一个区域内写入数据

for 行 in 工作表['B2:D4']:
for 单元格 in 行：
单元格.value = '良好'

4、用xlwt库向一个单元格写入内容

import xlwt
workbook = xlwt.Workbook(encoding = 'utf-8') # 新建工作簿
sheet = workbook.add_sheet('My Worksheet') # 创建一个sheet
# excel写入内容
# 参数对应行, 列, 值
sheet.write(1,0,label = 'this is test')
# 保存
workbook.save('new_test.xls')

注：写入的行和列都是从索引0开始

5、用xlwt库写入多行内容

import xlwt
workbook = xlwt.Workbook(encoding='utf-8')
sheet = workbook.add_sheet('MyWorksheet')
data = [['hello',22,'hi'],
   ['hell',23,'h'],
   ['he',25,'him']]
for i in range(len(data)): # 判断有几行
   for j in range(len(data[i])): # 判断几列
       sheet.write(i,j,data[i][j]) # 写入数据
workbook.save('test.xlsx') # 保存文档

七、行、列的插入与删除
插入语法：sheet.insert_cols(idx=?,amount=?)
idx=？—— 在第？行列前插入
amount=? —— 要插入的数量，无amount，就是插入一行

删除语法：sheet.delete_cols(idx=?,amount=?)
idx=？—— 在第？开始删除行列[包括？自己]
amount=? —— 要删除的数量，无amount，就是删除一行

import openpyxl as opl
路径 = r'd:/DATA.xlsx'
工作簿 = opl.load_workbook(路径)
工作表 = 工作簿['Sheet1']
工作表.insert_cols(idx=2) # 在第2列前，插入1行
工作表.insert_cols(idx=2,amount=2) # 在第2列前，插入2行
工作表.insert_rows(idx=2,amount=2)
工作表.delete_cols(idx=2,amount=2) # 从第2列开始[包括自己]删除2行
工作表.delete_rows(idx=2,amount=2)
工作簿.save(路径)

八、移动单元格
import openpyxl as opl
路径 = r'd:/DATA.xlsx'
工作簿 = opl.load_workbook(路径)
工作表 = 工作簿['Sheet1']
# rows和cols为正数为向下或向右、负数为向左或向上
工作表.move_range("A1:C3",rows=5,cols=5) # 向下移动5行，在向右移动5行
工作簿.save(路径)

练习题

打开test文件，找出文件中购买数量buy_mount超过5的行，并对其标红、加粗、附上边框。

from openpyxl import load_workbook
from openpyxl.styles import Font, Side, Border 

workbook = load_workbook('./test.xlsx') 
sheet = workbook.active
buy_mount = sheet['F'] 
row_lst = []

for cell in buy_mount:
    if isinstance(cell.value, int) and cell.value > 5: 
        print(cell.row)
        row_lst.append(cell.row)
        
side = Side(style='thin', color='FF000000')
border = Border(left=side, right=side, top=side, bottom=side) 
font = Font(bold=True, color='FF0000')
for row in row_lst:
    for cell in sheet[row]: 
        cell.font = font 
        cell.border = border
workbook.save('new_test'.xlsx')

二、Python自动化之word

新建空白word并插入文字

# 导入库
from docx import Document

# 新建空白文档
doc_1 = Document()

#Add a title(0 equals the title of the article ,default level is 1,level range 0-9 )
doc_1.add_heading('create a new blank document title,level is 0',level=0)
doc_1.add_heading('create a new blank document title,level is 1',level=1)
doc_1.add_heading('create a new blank document title,level is 2',level=2)

# 新增段落
paragraph_1 = doc_1.add_paragraph('这是第一段文字的开始\n请多多关照！')
# 加粗
paragraph_1.add_run('加粗字体').bold = True
paragraph_1.add_run('普通字体')
# 斜体
paragraph_1.add_run('斜体字体').italic =True

# 新段落（当前段落的下方）
paragraph_2 = doc_1.add_paragraph('新起的第二段文字。')

# 新段落（指定端的上方）
prior_paragraph = paragraph_1.insert_paragraph_before('在第一段文字前插入的段落')

# 添加分页符(可以进行灵活的排版）
doc_1.add_page_break()
# 新段落（指定端的上方）
paragraph_3 = doc_1.add_paragraph('这是第二页第一段文字！')

# 保存文件（当前目录下）
doc_1.save('doc_1.docx')

2.正式：python 自动化之 word 操作

Word文档的页面结构：

文档-Document
段落-Paragraph
文字块-Run（最基本单位）

（2）字体设置

不放代码和运行结果，字体设置代码段（以宋体为例）：

方法一：调用已有库

#设置字体
style_font = document.styles.add_style('宋体', WD_STYLE_TYPE.CHARACTER)
style_font.font.name = '宋体'
document.styles['宋体']._element.rPr.rFonts.set(qn('w:eastAsia'), u'宋体')

paragraph1 = document.add_paragraph() # 添加段落
paragraph1.add_run(u'aBCDefg这是中文', style='楷体').font.name = 'Cambira'

方法二：定义字体设置函数

#定义字体设置函数
def font_setting(doc,text,font_cn):
       style_add = doc.styles.add_style(font_cn, WD_STYLE_TYPE.CHARACTER)
       style_add.font.name = font_cn
       doc.styles[font_cn]._element.rPr.rFonts.set(qn('w:eastAsia'), font_cn)
       par = doc.add_paragraph()
       text = par.add_run(text, style=font_cn)
       
 font_setting(doc,a,'宋体')

（3）插入图片与表格

#导入库
from docx import Document
from docx.shared import Inches

#打开文档
doc_1 = Document('周杰伦.docx')   #上面脚本存储的文档
#新增图片
doc_1.add_picture('周杰伦.jpg',width=Inches(1.0), height=Inches(1.0))

# 创建3行1列表格
table1 = doc_1.add_table(rows=2, cols=1)
table1.style='Medium Grid 1 Accent 1'  #表格样式很多种，如，Light Shading Accent 1等

# 修改第2行第3列单元格的内容为营口
table1.cell(0, 0).text = '营口'
# 修改第3行第4列单元格的内容为人民
table1.rows[1].cells[0].text = '人民'

# 在表格底部新增一行
row_cells = table1.add_row().cells
# 新增行的第一列添加内容
row_cells[0].text = '加油'

doc_1.save('周杰伦为营口加油.docx')

（4）设置页眉页脚

在 python-docx 包中则要使用节(section)中的页眉(header)和页脚(footer)对象来具体设置。

（5）其他设置

对齐设置
设置段落行距
设置字体属性

3.项目实践：批量生成邀请函

# 导入库
from openpyxl import load_workbook
from docx import Document
from docx.enum.text import WD_PARAGRAPH_ALIGNMENT
from docx.shared import RGBColor, Pt,Inches,Cm
from docx.oxml.ns import qn


path = r'D:\idea\cloud_analyse_game_sentiment\word自动化'
# 路径为Excel 文件所在的位置，可按实际情况更改

workbook = load_workbook(path + r'\excel到word.xlsx')
sheet = workbook.active   #默认的WorkSheet

n = 0   #为了不遍历标题（excel的第一行）
for row in sheet.rows:
    if n:
        company = row[0].value
        office = row[1].value
        name = row[2].value
        date = str(row[3].value).split()[0]
        print(company, office, name, date)


        doc = Document()
        heading_1 = '邀 请 函'
        paragraph_1 = doc.add_heading(heading_1, level=1)
        # 居中对齐
        paragraph_1.alignment = WD_PARAGRAPH_ALIGNMENT.CENTER
        # 单独修改较大字号
        for run in paragraph_1.runs:
            run.font.size = Pt(17)

        greeting_word_1 = '尊敬的'
        greeting_word_2 = '公司'
        greeting_word_3 = '，您好：'
        paragraph_2 = doc.add_paragraph()

        paragraph_2.add_run(greeting_word_1)
        r_1 = paragraph_2.add_run(company)
        r_1.font.bold = True  # 加粗
        r_1.font.underline = True    #下划线

        paragraph_2.add_run(greeting_word_2)

        r_2 = paragraph_2.add_run(office)
        r_2.font.bold = True  # 加粗
        r_2.font.underline = True    #下划线

        r_3 = paragraph_2.add_run(name)
        r_3.font.bold = True  # 加粗
        r_3.font.underline = True    #下划线
        paragraph_2.add_run(greeting_word_3)

        paragraph_3 = doc.add_paragraph()
        paragraph_3.add_run('现诚挚的邀请您于2021年10月27日参加DataWhale主办的享受开源2050活动，地点在北京鸟巢，希望您届时莅临参加。')
        paragraph_3.paragraph_format.first_line_indent = Cm(0.75)
        paragraph_3.paragraph_format.alignment = WD_PARAGRAPH_ALIGNMENT.LEFT
        paragraph_3.paragraph_format.space_after = Inches(1.0)
        paragraph_3.paragraph_format.line_spacing = 1.5

        paragraph_4 = doc.add_paragraph()
        date_word_1 = '邀请时间：'
        paragraph_4.add_run(date_word_1)
        paragraph_4.alignment = WD_PARAGRAPH_ALIGNMENT.RIGHT
        sign_date = "{}年{}月{}日".format(date.split('-')[0], date.split('-')[1], date.split('-')[2])
        paragraph_4.add_run(sign_date).underline = True
        paragraph_4.alignment = WD_PARAGRAPH_ALIGNMENT.RIGHT
        
        #设置全文字体
        for paragraph in doc.paragraphs:
            for run in paragraph.runs:
                run.font.color.rgb = RGBColor(0, 0, 0)
                run.font.name = '楷体'
                r = run._element.rPr.rFonts
                r.set(qn('w:eastAsia'), '楷体')
        doc.save(path + "\{}-邀请函.docx".format(name))
    n = n + 1

4.总结

三、Python自动化之PDF

1.批量拆分

拆分思路：

读取 PDF 的整体信息、总页数等
遍历每一页内容，以每个 step 为间隔将 PDF 存成每一个小的文件块
将小的文件块重新保存为新的 PDF 文件

def split_pdf(filename, filepath, save_dirpath, step=5):
    """
    拆分PDF为多个小的PDF文件，
    @param filename:文件名
    @param filepath:文件路径
    @param save_dirpath:保存小的PDF的文件路径
    @param step: 每step间隔的页面生成一个文件，例如step=5，表示0-4页、5-9页...为一个文件
    @return:
    """
    if not os.path.exists(save_dirpath):
        os.mkdir(save_dirpath)
    pdf_reader = PdfFileReader(filepath)
    # 读取每一页的数据
    pages = pdf_reader.getNumPages()
    for page in range(0, pages, step):
        pdf_writer = PdfFileWriter()
        # 拆分pdf，每 step 页的拆分为一个文件
        for index in range(page, page+step):
            if index < pages:
                pdf_writer.addPage(pdf_reader.getPage(index))
        # 保存拆分后的小文件
        save_path = os.path.join(save_dirpath, filename+str(int(page/step)+1)+'.pdf')
        print(save_path)
        with open(save_path, "wb") as out:
            pdf_writer.write(out)

    print("文件已成功拆分，保存路径为："+save_dirpath)

2.批量合并

def concat_pdf(filename, read_dirpath, save_filepath):
    """
    合并多个PDF文件
    @param filename:文件名
    @param read_dirpath:要合并的PDF目录
    @param save_filepath:合并后的PDF文件路径
    @return:
    """
    pdf_writer = PdfFileWriter()
    # 对文件名进行排序
    list_filename = os.listdir(read_dirpath)
    list_filename.sort(key=lambda x: int(x[:-4].replace(filename, "")))
    for filename in list_filename:
        print(filename)
        filepath = os.path.join(read_dirpath, filename)
        # 读取文件并获取文件的页数
        pdf_reader = PdfFileReader(filepath)
        pages = pdf_reader.getNumPages()
        # 逐页添加
        for page in range(pages):
            pdf_writer.addPage(pdf_reader.getPage(page))
    # 保存合并后的文件
    with open(save_filepath, "wb") as out:
        pdf_writer.write(out)
    print("文件已成功合并，保存路径为："+save_filepath)

3.提取文字内容

def extract_text_info(filepath):
    """
    提取PDF中的文字
    @param filepath:文件路径
    @return:
    """
    with pdfplumber.open(filepath) as pdf:
        # 获取第2页数据
        #提取所有页则改为：page = pdf.pages
        page = pdf.pages[1]
        print(page.extract_text())

4.提取表格内容

def extract_table_info(filepath):
    """
    提取PDF中的图表数据
    @param filepath:
    @return:
    """
    with pdfplumber.open(filepath) as pdf:
        # 获取第18页数据
        page = pdf.pages[17]
        # 如果一页有一个表格，设置表格的第一行为表头，其余为数据
        table_info = page.extract_table()
        df_table = pd.DataFrame(table_info[1:], columns=table_info[0])
        df_table.to_csv('dmeo.csv', index=False, encoding='gbk')
         # 如果一页有多个表格，对应的数据是一个三维数组
        tables_info = page.extract_tables()
        for index in range(len(tables_info)):
            # 设置表格的第一行为表头，其余为数据
            df_table = pd.DataFrame(tables_info[index][1:], columns=tables_info[index][0])
            print(df_table)
            # df_table.to_csv('dmeo.csv', index=False, encoding='gbk')

5.提取图片内容

if not os.path.exists(pic_dirpath):
    os.makedirs(pic_dirpath)
# 使用正则表达式来查找图片
check_XObject = r"/Type(?= */XObject)"
check_Image = r"/Subtype(?= */Image)"
img_count = 0

"""1. 打开pdf，打印相关信息"""
pdf_info = fitz.open(filepath)
# 1.16.8版本用法 xref_len = doc._getXrefLength()
# 最新版本写法
xref_len = pdf_info.xref_length()
# 打印PDF的信息
print("文件名：{}, 页数: {}, 对象: {}".format(filepath, len(pdf_info), xref_len-1))

"""2. 遍历PDF中的对象，遇到是图像才进行下一步，不然就continue"""
for index in range(1, xref_len):
    # 1.16.8版本用法 text = doc._getXrefString(index)
    # 最新版本
    text = pdf_info.xref_object(index)
    
    is_XObject = re.search(check_XObject, text)
    is_Image = re.search(check_Image, text)
    # 如果不是对象也不是图片，则不操作
    if is_XObject or is_Image:
        img_count += 1
        # 根据索引生成图像
        pix = fitz.Pixmap(pdf_info, index)
        pic_filepath = os.path.join(pic_dirpath, 'img_' + str(img_count) + '.png')
        """pix.size 可以反映像素多少，简单的色素块该值较低，可以通过设置一个阈值过滤。以阈值 10000 为例过滤"""
        # if pix.size < 10000:
        #     continue
        
        """三、 将图像存为png格式"""
        if pix.n >= 5:
            # 先转换CMYK
            pix = fitz.Pixmap(fitz.csRGB, pix)
        # 存为PNG
        pix.writePNG(pic_filepath)

6.转换为图片

if not os.path.exists(pic_dirpath):
    os.makedirs(pic_dirpath)

images = convert_from_bytes(open(filepath, 'rb').read())
# images = convert_from_path(filepath, dpi=200)
for image in images:
    # 保存图片
    pic_filepath = os.path.join(pic_dirpath, 'img_'+str(images.index(image))+'.png')
    image.save(pic_filepath, 'PNG')

7.添加水印

watermark = PdfFileReader(watermark_filepath)
watermark_page = watermark.getPage(0)

pdf_reader = PdfFileReader(filepath)
pdf_writer = PdfFileWriter()

for page_index in range(pdf_reader.getNumPages()):
    current_page = pdf_reader.getPage(page_index)
    # 封面页不添加水印
    if page_index == 0:
        new_page = current_page
    else:
        new_page = copy(watermark_page)
        new_page.mergePage(current_page)
    pdf_writer.addPage(new_page)
# 保存水印后的文件
with open(save_filepath, "wb") as out:
    pdf_writer.write(out)

8.文档加密与解密

加密：

pdf_reader = PdfFileReader(filepath)
pdf_writer = PdfFileWriter()

for page_index in range(pdf_reader.getNumPages()):
    pdf_writer.addPage(pdf_reader.getPage(page_index))

# 添加密码
pdf_writer.encrypt(passwd)
with open(save_filepath, "wb") as out:
    pdf_writer.write(out)

解密：

pdf_reader = PdfFileReader(filepath)
# PDF文档解密
pdf_reader.decrypt('xiaoyi')

pdf_writer = PdfFileWriter()
for page_index in range(pdf_reader.getNumPages()):
    pdf_writer.addPage(pdf_reader.getPage(page_index))

with open(save_filepath, "wb") as out:
    pdf_writer.write(out)

9.总结

本文参考： 2021年6月26期_Python办公自动化

你可能感兴趣的:(编程语言,python,办公自动化,后端)

python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
小白带你部署LNMP分布式部署刘俊涛liu 分布式
目录前言一、概述二、LNMP环境部署三、配置nginx1、yum安装2、编译安装四、安装1、编译安装nginx2、网络源3、稍作优化4、修改配置文件vim/usr/local/nginx/conf/nginx.conf5、书写测试页面五、部署应用前言LNMP平台指的是将Linux、Nginx、MySQL和PHP（或者其他的编程语言，如Python、Perl等）集成在一起的一种Web服务器环境。它是
如何构建FunASR的本地语音识别服务
FunASR简介FunASR是阿里巴巴达摩院开源的高性能语音识别工具包，支持离线识别和实时流式识别两种模式。其核心特点包括：支持多种语音任务：ASR（自动语音识别）、VAD（语音活动检测）、标点恢复、关键词检测等。提供预训练模型：覆盖中文、英文等多语言，支持不同场景（通用、会议、直播等）。支持多种部署方式：本地Python、Docker容器、ONNX推理优化等。开源地址：GitHub-FunASR
Python 进阶学习之全栈开发学习路线 Microi风闲【胶水语言】Python python 学习开发语言
文章目录前言一、Python全栈开发技术栈1.前端技术选型2.后端框架选择3.数据库访问二、开发环境配置1.工具链推荐2.VSCode终极配置3.项目依赖管理三、现代Python工程实践1.项目结构规范2.自动化测试策略3.CI/CD流水线四、部署策略大全1.传统服务器部署2.容器化部署3.无服务器部署五、性能优化技巧1.数据库优化2.异步处理3.静态资源优化结语前言Python作为当今最流行的编
Pycharm下载链接 Aderic 杂陈
人生苦短，我用python3.4https://download.jetbrains.8686c.com/python/pycharm-community-2018.1.1.tar.gz后续更新可能就是后面版本号码稍微差异，mark！
python基础语法复习08——模块化编程洛华363 python python 开发语言
python基础语法目录python基础语法01——基本类型python基础语法02——复合类型python基础语法03——语句构成python基础语法04——函数python基础语法05——递归及装饰器python基础语法06——类与对象python基础语法07——迭代器与生成器文章目录python基础语法目录前言一、模块（Module）1.1什么是模块？1.2模块使用1.3模块分类1.3.1系
python基础语法复习02——复合类型洛华363 python python 开发语言
python基础语法目录python基础语法基础类型文章目录python基础语法目录前言一、初识列表list1.列表基本操作1.1创建列表1.2列表运算1.3列表访问1.4列表增删2常用函数二、初识元组tuple1.元组基本操作1.1创建元组1.2元组访问1.3元组运算2.常用函数三、初识字典dict1.字典基本操作1.1创建字典1.2增删改查2常用函数四、初识集合set1.集合基本操作1.1创建
⚡C++ 有必要学吗？⚡我的家长有话说司空妲命 c++开发语言
在编程教育愈发普及的当下，除了备受关注的Python，C++也进入了许多家长和孩子的视野。作为一门经典且强大的编程语言，C++在系统开发、游戏制作、嵌入式领域等有着广泛应用。然而，对于是否让孩子学习C++，家长们看法不一。有人认为它是通往高端技术领域的钥匙，也有人担忧其较高的学习难度会让孩子望而却步。今天，就让我们深入探讨C++学习的必要性。一、家长眼中的C++：潜力与顾虑交织有人疑惑：“C++现
python3异步爬虫：asyncio + aiohttp + aiofiles（python经典编程案例）数据知道 python3案例和总结 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.安装依赖库2.异步爬虫的基本流程3.实现异步爬虫3.1代码实现3.2代码说明4.运行效果5.扩展功能5.1设置请求头5.2处理异常5.3限制并发数5.4爬取图片6.总结使用Python的异步编程技术（asyncio+aiohttp+aiofiles）可以实现高效的异步爬虫。以下是详细的使用指南和代码示例。1.安装依赖库首先安装所需的
Python爬虫实战：借助代理IP破解反爬机制，批量下载哔哩哔哩高清视频程序员威哥最新爬虫实战项目 python 爬虫 tcp/ip
一、前言随着视频平台的蓬勃发展，视频数据成为互联网的一个重要组成部分。特别是哔哩哔哩（B站）作为一个年轻化、内容丰富的综合性视频平台，吸引了大量用户观看、上传和分享各种形式的创作内容。在这个信息高度开放的时代，如何高效、合法地获取这些视频数据成为了一个有挑战的技术问题。哔哩哔哩的视频下载不仅受到版权保护，同时平台也使用了强大的反爬虫机制来保护用户数据和平台内容。本文将通过Python爬虫实战，利用
Python爬虫高阶：Selenium+Scrapy+Playwright融合架构，攻克动态页面与高反爬场景程序员威哥 python 爬虫 selenium
随着互联网应用的不断发展，越来越多的网站采用JavaScript动态渲染页面，常见的静态页面数据抓取方式逐渐失效。此外，高反爬技术也使得传统爬虫架构面临着更大的挑战，许多网站通过复杂的反爬机制如验证码、IP屏蔽、请求频率限制等来防止数据抓取。为了应对这些挑战，我们需要采用更为先进和灵活的爬虫架构。在此背景下，结合Selenium、Scrapy和Playwright这三种技术，能够帮助我们突破动态页
Ts.ED框架全面解析：基于TypeScript的现代化Node.js开发利器陆欣瑶
Ts.ED框架全面解析：基于TypeScript的现代化Node.js开发利器什么是Ts.ED框架？Ts.ED是一个基于TypeScript构建的现代化Node.js/Bun.js框架，它在Express.js/Koa.js/Fastify.js等流行HTTP服务器之上提供了更高层次的抽象。这个框架专为提高开发者体验而设计，通过丰富的装饰器和清晰的代码组织结构，让后端开发变得更加高效和愉悦。核心特
基于ArcPy将HDF格式栅格文件批量转为TIFF格式疯狂学习GIS
本文介绍基于Python中ArcPy模块，实现大量HDF格式栅格图像文件批量转换为TIFF格式的方法。首先，来看看我们想要实现的需求。在一个名为HDF的文件夹下，有五个子文件夹；每一个子文件夹中，都存储了大量的.hdf格式的栅格遥感影像数据。我们在其中任选一个子文件夹，来看看其中所含的文件。我们要做的，就是将HDF文件夹下的全部子文件夹中的全部.hdf格式图像文件，一次性转换为
跨域请求传递Cookie问题 videring
参考：https://www.cnblogs.com/nuccch/p/7875189.html问题描述前后端完全分离的项目，前端使用Vue+axios，后端使用SpringMVC，容器为Tomcat。使用CORS协议解决跨域访问数据限制的问题，但是发现客户端的Ajax请求不会自动带上服务器返回的Cookie：JSESSIONID。导致每一个Ajax请求在服务端看来都是一个新的请求，都会在服务端创
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
python排序算法之桶排序华强笔记 python数据结构和算法 python 算法
桶排序主要适用于全是数字的列表排序代码如下：defbuckrt_sort(li,n=100,max_num=10000):bucket=[[]for_inrange(n)]
HTTP,HTTPS 之凹の鸥 http https 网络协议
在网络工程师、开发工程师、运维工程师等岗位的面试中，HTTP/HTTPS是高频必考知识点，尤其在前端、后端、测试、DevOps等与网络通信相关的职位中。以下是系统化的核心考点梳理，涵盖基础概念、协议机制、安全特性及应聘高频问题。一、HTTP基础1.HTTP的核心概念(1)HTTP的定义与作用定义：HTTP（HyperTextTransferProtocol，超文本传输协议）是应用层协议，用于在客户
【无标题】
PyQt5相关论文方向扩充及技术特性解析PyQt5的核心优势PyQt5作为基于Qt框架的Python绑定库，在科研与工程应用中具备显著优势。其跨平台兼容性极强，可在Windows、macOS、Linux等主流操作系统上稳定运行，且能保持界面风格的一致性，这对开发多场景应用系统至关重要。在界面设计方面，PyQt5提供了丰富的UI组件库，从基础的按钮、文本框到高级的图表、3D控件应有尽有，同时支持Qt
Python数据读写与组织全解析（查缺补漏篇） Monkey的自我迭代 python学习的查缺补漏机器学习人工智能 python
1高维数据由键值对类型的数据构成，可以多层嵌套。高维数据相比一维和二维数据能表达更加灵活和复杂的数据关系，可以用字典类型表示。一维数据不用字典类型来表示。2read、readline、redlines和for循环输出读取的区别直接read，读取的结果就是一个字符串，和文件中一模一样f_2=open('cpi.csv','r')print(f_2.read())指标,2015,2016,2017,居
Python文件路径操作全面指南：从基础到高级应用 Monkey的自我迭代 python 开发语言
文件路径操作是Python编程中不可或缺的核心技能，无论是数据科学、Web开发还是自动化办公，都离不开对文件路径的有效管理。本文将系统性地介绍Python中文件路径操作的各类方法，帮助您掌握这一关键技术。一、文件路径基础概念1.1路径类型解析文件路径主要分为两种类型，理解它们的区别是路径操作的基础：绝对路径：从文件系统根目录开始的完整路径，如Windows系统中的C:\Users\Username
打造完美Web登录界面：HTML、CSS与Bootstrap实战 Suvo Sarkar
本文还有配套的精品资源，点击获取简介：登录界面是用户与Web应用程序互动的起点，其设计和实现对用户体验至关重要。本教程将指导开发者如何使用HTML、CSS和Bootstrap框架创建一个功能齐全且视觉吸引力强的登录界面。内容涵盖从基础的表单标签到使用Bootstrap的响应式设计，以及如何结合JavaScript和后端技术来增强界面的业务逻辑和用户验证功能。1.HTML表单标签基础HTML表单标签
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
PyCharm高效入门指南：从零开始掌握Python开发利器软考和人工智能学堂 Python开发经验强化学习 PyCharm
引言PyCharm是JetBrains公司推出的一款强大的Python集成开发环境(IDE)，被全球数百万Python开发者所青睐。无论你是Python初学者还是经验丰富的开发者，掌握PyCharm都能显著提升你的开发效率。本文将带你从零开始，全面了解PyCharm的核心功能和使用技巧。1.PyCharm的安装与配置1.1下载与安装首先访问JetBrains官网下载PyCharm。PyCharm有
java开发安卓和kotlin对比哈哈皮皮虾的皮 java android kotlin
Java和Kotlin都是用于Android开发的编程语言，它们各自具有独特的特点和优势。以下是对Java和Kotlin在Android开发中的对比：一、语法与简洁性Java：Java的语法相对繁琐，需要编写较多的样板代码。例如，在Java中，每一行代码的末尾都需要一个分号来表示语句的结束。Kotlin：Kotlin的语法更为简洁，支持更多的语法糖，可以减少冗余的代码。在Kotlin中，换行符通常
python作业陈小铃子 python 开发语言
基础练习练习目标函数01.计算车费题目描述小红打车，起步价8元(3公里),每公里收费2元，她打车行驶了n公里，通过函数封装并计算车费输入描述输入一个公里数输出描述输出应付车费示例输入：5输出：12defcalculate_fare(distance):base_price=8#起步价per_km_cost=2#每公里费用min_distance=3#最小计费距离ifdistance0:sum_nu
【Python】(三）面试题和Py基础题戏精亿点点菜面试职场和发展 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程（Process）：进程是操作系统中资源分配的基本单位，是正在运行的程序的实例。每个进程都有自己的内存空间、文件描述符和执行上下文。管理：①查看进程：使用ps、top、htop等命令查看当前运行的进程。②启动进程：通过命令行或脚本启动新进程。③终止进程：使用kill命令发送信号终止进程，例如kill-9PI
python小工具：测内网服务器网速和延迟秃了也弱了。 python大家庭服务器 python java
文章目录一、使用1、代码2、使用3、注意事项一、使用1、代码importargparseimportsocketimporttimeimportsubprocessimportreimportsysdefmeasure_latency(host):#使用ping命令测量延迟try:#根据操作系统选择ping参数ifsys.platform.startswith('win'):output=subp
Haproxy七层代理陈小铃子学习运维 linux
一、负载均衡核心概念它本质上是一种反向代理技术，通过硬件或软件设备，将来自客户端的请求智能地分发到后端的多台服务器上。这样做的主要目的是：提高并发处理能力：避免单台服务器过载，提升整体服务的吞吐量。保证高可用性：当某台后端服务器发生故障时，负载均衡器可以将流量自动切换到健康的机器上，确保服务不中断。便于水平扩展：可以根据业务量增长，方便地增加后端服务器数量，实现弹性伸缩，且对用户透明。二、使用负载
Python面试题-6 编织幻境的妖 python 服务器开发语言
1.请解释Python中的动态类型。Python中的动态类型Python是一种动态类型语言，这意味着你不需要在编程时声明变量的类型，而是在运行时自动推断类型。在Python中，变量的类型是在程序运行时决定的，这意味着同一个变量可以在不改变其类型的情形下被赋予不同类型的值。动态类型的优点在于它提高了编程的灵活性，因为你不需要预先确定数据的类型，可以更容易地写出简洁的代码。然而，这也可能导致运行时错误
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen