一、问题的来源以及网上的错误方法
最近遇到了一个问题,给定了一个Excel模板,修改表格里面的内容,但是不能修改Excel表格的格式。用pywin32太慢,用xlrd只能读,用xlwt只能写。
很快,我查到了网上“修改Excel内容但保留格式”的方法,大概是需要用到另一个辅助的库xlutils,并为formatting_info参数配置为True,代码大概是这样的:
import xlrd
import xlwt
from xlutils.copy import copy
rb = xlrd.open_workbook('open.xls', formatting_info=True)
wb = copy(rb)
sheet = wb.get_sheet(0)
for r in range(8):
for c in range(5):
sheet.write(r, c, 'R%sC%s'%(r+1, c+1))
wb.save('save.xls')
大部分格式的确是保住了,但是“修改了”的部分的格式惨不忍睹,一看这就是默认格式嘛。
于是继续查找,发现xlwt.Worksheet(工作表)对象的write函数的用法参数说明为:
write(r, c, label='', style=)
网上找到的教程也有说明,只要配置xlwt库的XFStyle类,并为write函数的第4个参数赋值,就可以为新写入的单元格设置单元格格式了。代码类似于这样,这段代码实现了对RC位置的单元格设置了20号宋体、上下水平居中、四边边框:
style = xlwt.XFStyle()
style.font.height = 400
style.font.name = '宋体'
style.alignment.horz = xlwt.Alignment.HORZ_CENTER
style.alignment.vert = xlwt.Alignment.VERT_CENTER
style.borders.left = xlwt.Borders.THIN
style.borders.right = xlwt.Borders.THIN
style.borders.top = xlwt.Borders.THIN
style.borders.bottom = xlwt.Borders.THIN
sheet.write(r, c, 'R%sC%s'%(r+1, c+1), style)
然而众所周知,xlwt库只能写不能读,相当于我在设置单元格的样式的,原表格的样式对我是“盲”的。虽然我可以“手动”地记下来所有单元格的格式,然后“抄”过去,但是这太麻烦太繁琐了。
于是继续网上查找资料,全部都是答非所问的结果,要么告诉我“怎么复制原表格而保留样式”,要么告诉我“如何修改单元格同时配置格式”,但没有一个是回答“如何修改单元格而保留格式”的。
二、根据属性名猜可以用的函数
没办法,代码小白的我,只好继续猜,猜猜看那个函数能做到这样的配置。
首先我尝试为工作表对象sheet的sheet.write函数的第4个参数配置“默认”项,企图让它“write”单元格的时候“不修改”格式,比如False啊、0啊、None啊、-1啊,都试过了,全部报错。
那么尝试找xlrd读取的单元格的cell对象,看看里面有没有存储格式信息。但是cell对象中的属性不多,很快就爬干净了,没有存储格式这样如此“细致”的内容。
线索断了,我只好穷举用xlrd读取的工作簿rb的所有属性函数,突然发现了一个看起来很像记录格式的东西,rb.xf_list,其中是一个大列表,里面记录的全是“xlrd.formatting.XF”类型的对象,而字体格式的对象名字不是叫做“XFStyle”吗,这可是非常一致了。
这可是一个很大的突破,我猜想Excel中的单元格格式,不是分别记录到各个单元格的对象的属性中,而是将工作簿中出现的样式汇总,再通过另一个方法把各个单元格设定的格式的“索引编号”读出来,于是就做到了记录各个单元格的格式信息。
得到了线索就有了进展,我找到xlrd读取的工作表sheet对象有一个sheet.cell_xf_index(rowx, colx)函数,返回结果是一个数值,而且针对相同格式的单元格布局,这个结果在相同格式单元格中计算返回的索引编号很一致!那么结果肯定是这个了!
于是我急急忙忙把rb.xf_list[sheet.cell_xf_index(rowx, colx)]赋值到了sheet.write函数的style参数上,期待奇迹的发生。
三、瞎猫碰不到死耗子,那就硬着头皮爬源码
果不其然,事情的进展不会这么顺利,果然出现了报错。
我突然想起来了write函数的说明,style的默认参数设置是“style=”,而我赋值的是“xlrd.formatting.XF”对象,这都不是一个库的东西,怎么能直接用呢。
但是我坚定一个信念,既然通过xlutils.copy库的copy函数可以把格式“复制”过去,那么肯定在某个时候发生了读取和写入,这个格式读写的“管道”肯定是通的,关键是我要找到它。
于是我撑住头皮,开始爬xlutils库的代码,xlutils.copy库的内容很干净,代码只有这些:
from xlutils.filter import process,XLRDReader,XLWTWriter
def copy(wb):
w = XLWTWriter()
process(
XLRDReader(wb,'unknown.xls'),
w
)
return w.output[0][1]
于是转头去爬这里引用了的xlutils.filter库。既然知道了rb.xf_list存储了xlrd格式的“单元格样式”,那么就找找看它什么时候转化为了xlwt格式的“单元格样式”。
按照关键词搜索,果然找了一系列的判断和转换,代码段大概是这样的:
for rdxf in rdbook.xf_list:
wtxf = xlwt.Style.XFStyle()
... 各种判断和转换
self.style_list.append(wtxf)
那么很显然,我要找的就是self.style_list了。
那么按理说,我只要获取到“self.style_list”的“self”,也就是它的父对象“BaseWriter”的实例,就能获取到这个属性了(也只有这个方法)。但是我惊讶地发现BaseWriter里面有一个close方法,里面赫然写着“del self.style_list”,这可了得,我虽然不知道它是在什么时候调用了,但是一旦调用了,那不就功亏一篑了,这个列表删掉了那不就全完了。
再看看xlutils.copy库里的内容,找到对应的定义:
class XLWTWriter(BaseWriter):
def __init__(self):
self.output = []
def close(self):
if self.wtbook is not None:
self.output.append((self.wtname,self.wtbook))
del self.wtbook
最终copy函数中的定义中返回的是“w.output[0][1]”,那实际上就是“self.wtbook”这个东西了。
接着找相关定义,可以看到这样一段:
...
self.wtbook = xlwt.Workbook(style_compression=2)
self.wtbook.dates_1904 = rdbook.datemode
self.wtname = wtbook_name
self.style_list = []
...郑州妇科医院 http://m.zyfuke.com/
这可麻烦了呀,wtbook和style_list是BaseWriter类下的两个平级的属性,并没有相互的联系,并且wtbook是一个xlwt.Workbook类型的对象,自然不可能提供获取其父对象的方法(确认了属性也确实没有),这可咋办,进度又陷入了停滞。
于是我又灵机一动,“copy”函数虽然是已经封装好的,但是我也可以把它拆开,就比方说这样:
from xlutils.filter import process, XLRDReader, XLWTWriter
rb = xlrd.open_workbook('open.xls', formatting_info=True)
w = XLWTWriter()
process(XLRDReader(rb, 'unknown.xls'), w)
wb = w.output[0][1]
w是一个XLWTWriter类的对象,而XLWTWriter继承于BaseWriter,BaseWriter有style_list属性。那么我尝试访问其style_list属性,也就是“w.style_list”,并按照之前猜想的方法,将sheet.cell_xf_index函数获取到的每个单元格的对应数字,认为是“w.style_list”列表中的查询单元格样式的序列号,写入程序:
style_list = w.style_list
sheet2 = wb.get_sheet(0)
style = style_list[sheet.cell_xf_index(r, c)]
sheet2.write(r, c, sheet.cell_xf_index(r, c), style)
再次打开生成的保存文件,发现格式完美地保留了下来,而内容却如我设定地修改了,至此,程序调试任务完成!
四、终于可以运行的完整代码
完整样例代码是:
import xlrd
from xlutils.filter import process, XLRDReader, XLWTWriter
rb = xlrd.open_workbook('open.xls', formatting_info=True)
# 参考xlutils.copy库内的用法 参考xlutils.filter内的参数定义style_list
w = XLWTWriter()
process(XLRDReader(rb, 'unknown.xls'), w)
wb = w.output[0][1]
style_list = w.style_list
for n, sheet in enumerate(rb.sheets()):
sheet2 = wb.get_sheet(n)
for r in range(sheet.nrows):
for c, cell in enumerate(sheet.row_values(r)):
style = style_list[sheet.cell_xf_index(r, c)]
sheet2.write(r, c, sheet.cell_xf_index(r, c), style)
wb.save('save.xls')