058 Python语法之office办公自动化

python-docx的安装

  1. pip install python-docx

读取word文本

import docx  #只能处理docx文件
def  getText(filepath):
    doc=docx.Document(filepath)#打开文档
    fulltext=[]
    for  para in doc.paragraphs: #遍历每一个段落
        fulltext.append(para.text)
    return fulltext

data=getText(r"C:\Users\ts\Desktop\Python正则表达式七种兵器.docx")
for line in data:
    print(line)
import win32com
import win32com.client

word = win32com.client.Dispatch("Word.Application")
path = r"F:\school\graduation\xxx.docx"
doc = word.Documents.Open(path)
doc.SaveAs(r"F:\school\graduation\1.txt",2) 必须绝对路径 2代表txt
doc.Close()
word.Quit()

PyPDF2的安装

  1. pip install PyPDF2
  2. pip install PDFMiner3K

读取PDF文件

import PyPDF2

pdffile=open(r"C:\Users\Tsinghua-yincheng\Desktop\doc\2.pdf","rb")
pdfreader=PyPDF2.PdfFileReader(pdffile)#读取pdf文件
print(pdfreader.numPages) #显示8页
for i in range(pdfreader.numPages):
    page=pdfreader.getPage(i)#抓取第i页
    print(page.extractText())
读取网络PDF
#pip  install   PDFMiner3K

import urllib.request  #打开网页
import pdfminer.pdfinterp  #管理PDF资源
import  pdfminer.converter #文本转换
import  pdfminer.layout #处理pdf布局
import io  #输入输出


def readpdf(pdffile):
    rsmgr=pdfminer.pdfinterp.PDFResourceManager()#资源管理器
    retstr=io.StringIO()#文本输出
    lap=pdfminer.layout.LAParams()#处理布局
    device= pdfminer.converter.TextConverter( rsmgr,retstr,laparams=lap)#文本提取工具
    pdfminer.pdfinterp.process_pdf(rsmgr, device,pdffile)#根据文件进行解析
    device.close()#关闭设备
    content=retstr.getvalue()#抓取文本
    retstr.close() #关闭文本输出
    return content #返回文本


#打开一个网络文件
pdffile=urllib.request.urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputstring=readpdf(pdffile)#处理文本
print(outputstring) #输出文本
读取中文PDF
import urllib.request  #打开网页
import pdfminer.pdfinterp  #管理PDF资源
import  pdfminer.converter #文本转换
import  pdfminer.layout #处理pdf布局
import pdfminer.pdfparser
import io  #输入输出


path=r"C:\Users\Tsinghua-yincheng\Desktop\day24down\xxx.pdf"
file=open(path,"rb")#打开文件
pdffile= pdfminer.pdfparser.PDFParser(file)#解析pdf文本
doc=pdfminer.pdfparser.PDFDocument()#创建pdf文档
pdffile.set_document(doc) #解析工具链接pdf文档
doc.set_parser(pdffile)
doc.initialize()#初始化  为空没有密码, 有密码"12233"
rsmgr=pdfminer.pdfinterp.PDFResourceManager()#资源管理器
lap = pdfminer.layout.LAParams()  # 处理布局
device = pdfminer.converter.PDFPageAggregator(rsmgr,  laparams=lap)#转换
interpreter=pdfminer.pdfinterp.PDFPageInterpreter(rsmgr,device)#抓页数
if not doc.is_extractable:
    pass
else:
    for page  in doc.get_pages():#遍历每一个页面
        interpreter.process_page(page)#抓取每一页
        layout=device.get_result()
        for x in layout:
            text=x.get_text()
            print(text)

openpyxl的安装

  1. pip install openpyxl
  2. pip install pyexcel_xls

读取Excel

# Author:Luo
from openpyxl.reader.excel import load_workbook

wb = load_workbook(filename=r"F:\school\graduation\副本.xlsx")
print(wb.get_sheet_names())  # 获取每个表格的名称
print(len(wb.get_sheet_names()))  # 获取表格的长度

sheetNames = wb.get_sheet_names()  # list,所有的表格,左下角的sheet
ws = wb.get_sheet_by_name(sheetNames[0])  # 第一个表格

print(ws.title)  # 开头
print(ws.max_row)  # 最大的行数
print(ws.max_column)  # 列数

for rline in range(1, ws.max_row + 1):
    for column in range(1,ws.max_column+1):
        w1 = ws.cell(row=rline,column=column).value
        print(w1,end=" ")
    print()
from collections import OrderedDict  # 不可变字典
from pyexcel_xls import get_data
from pyexcel_xls import save_data


def readxls():
    path = r"F:\school\graduation 副本.xlsx"
    xlsdata = get_data(path)  # 抓取数据
    print(xlsdata)
    print(type(xlsdata))  # 数据类型
    for sheet in xlsdata:  # 读取每一个key对应的value
        print(sheet, ":", xlsdata[sheet])


def writexls():
    path = "myself.xls"
    data = OrderedDict()  # 字典

    sheet_1 = []
    row1 = ["A", "B", "C"]
    row2 = [1, 2, 3]
    sheet_1.append(row1)
    sheet_1.append(row2)
    data.update({"ABC": sheet_1})   # ABC为sheet名,sheet_1为数据

    save_data(path, data)


# readxls()
writexls()

word自动化

# Author:Luo
import  win32com
import win32com.client
def makeword(name):
    print(name)
    #操作word,
    word=win32com.client.Dispatch("Word.Application")
    doc=word.Documents.Add() #插入文档
    word.Visible=True #可见

    rng=doc.Range(0,0)#开始位置
    rng.InsertAfter(u"尊敬的%s先生\n"%name)#匹配字符串
    rng.InsertAfter(u"    我是xxx,定于2017.10.1与ccc大婚,诚邀来参加婚礼,先准备好分子钱")

    filename="C:\\Users\\Administrator\\Desktop\\"+name+".doc"
    doc.SaveAs(filename)#保存
    doc.Close(True)#关闭


    word.Application.Quit()#退出


names=["李鑫","申羚锐","何丰城","孙雨"]
for name in names:
    makeword(name)

Excel自动化

import  win32com
import win32com.client
def makeexcel(name):
    print(name)
    #操作word,
    ex=win32com.client.Dispatch("Excel.Application")
    wk=ex.Workbooks.Add()#加一张表格
    nowwk=wk.ActiveSheet #当前的焦点表格
    ex.Visible=True#显示
    for i in range(1,10):
        nowwk.Cells(i,i).value=name+str(i)#插入数据Cells方法参数为横坐标和纵坐标

    filename = "C:\\Users\\Administrator\\Desktop\\" + name + ".xls"
    wk.SaveAs(filename) #保存
    wk.Close(True)#关闭
    ex.Application.Quit()#退出


names=["xxx","ccc","vvv","bbb"]
for name in names:
    makeexcel(name)

Outlook自动化(管理邮箱的,自己配置一下安全)

import  win32com
import win32com.client

def makemail(name):
    outlook=win32com.client.Dispatch("Outlook.Application")
    mail=outlook.createItem(0)#第一封邮件
    mail.Recipients.Add("%[email protected]"%name)    # 发送的
    mail.Subject=u"尊敬的亲爱的伟大的%s"%name   # 标题
    mailtext= (u"尊敬的亲爱的伟大的%s"%name)
    # 营销文本
    mailtext+=u"我公司有硅胶娃娃,价格便宜,长的好看,欢迎真人一般的体验"
    # 写入到正文中
    mail.Body=mailtext #正文
    mail.Send()#发送
    outlook.Quit()


names=["xxx","ccc","vvv","bbb"]
for name in names:
    makemail(name)

PPT自动化()

import  win32com
import win32com.client
def makeppt(name):
    try:
        ppt=win32com.client.Dispatch("PowerPoint.Application")
        pres=ppt.Presentations.Add()#增加一个页面
        ppt.Visible=True

        s1=pres.Slides.Add(1,1) #增加一个页面
        s1_0=s1.Shapes[0].TextFrame.TextRange #找到第一个文本
        s1_0.Text="尊敬的%s"%name

        s1_1 = s1.Shapes[1].TextFrame.TextRange  # 找到第2个文本
        s1_1.Text = "hello world"

        filename = "C:\\Users\\ts\\Desktop\\" + name + ".ppt"
        pres.SaveAs(filename)  # 保存
        pres.Close()  # 关闭
        ppt.Application.Quit()  # 退出
    except AttributeError:
        pass



names=["xxx","ccc","vvv","bbb"]
for name in names:
    makeppt(name)

你可能感兴趣的:(058 Python语法之office办公自动化)