一、问题的来源以及网上的错误方法

  最近遇到了一个问题,给定了一个Excel模板,修改表格里面的内容,但是不能修改Excel表格的格式。用pywin32太慢,用xlrd只能读,用xlwt只能写。

  很快,我查到了网上“修改Excel内容但保留格式”的方法,大概是需要用到另一个辅助的库xlutils,并为formatting_info参数配置为True,代码大概是这样的:

  import xlrd

  import xlwt

  from xlutils.copy import copy

  rb = xlrd.open_workbook('open.xls', formatting_info=True)

  wb = copy(rb)

  sheet = wb.get_sheet(0)

  for r in range(8):

  for c in range(5):

  sheet.write(r, c, 'R%sC%s'%(r+1, c+1))

  wb.save('save.xls')

  大部分格式的确是保住了,但是“修改了”的部分的格式惨不忍睹,一看这就是默认格式嘛。

  于是继续查找,发现xlwt.Worksheet(工作表)对象的write函数的用法参数说明为:

  write(r, c, label='', style=)

  网上找到的教程也有说明,只要配置xlwt库的XFStyle类,并为write函数的第4个参数赋值,就可以为新写入的单元格设置单元格格式了。代码类似于这样,这段代码实现了对RC位置的单元格设置了20号宋体、上下水平居中、四边边框:

  style = xlwt.XFStyle()

  style.font.height = 400

  style.font.name = '宋体'

  style.alignment.horz = xlwt.Alignment.HORZ_CENTER

  style.alignment.vert = xlwt.Alignment.VERT_CENTER

  style.borders.left = xlwt.Borders.THIN

  style.borders.right = xlwt.Borders.THIN

  style.borders.top = xlwt.Borders.THIN

  style.borders.bottom = xlwt.Borders.THIN

  sheet.write(r, c, 'R%sC%s'%(r+1, c+1), style)

  然而众所周知,xlwt库只能写不能读,相当于我在设置单元格的样式的,原表格的样式对我是“盲”的。虽然我可以“手动”地记下来所有单元格的格式,然后“抄”过去,但是这太麻烦太繁琐了。

  于是继续网上查找资料,全部都是答非所问的结果,要么告诉我“怎么复制原表格而保留样式”,要么告诉我“如何修改单元格同时配置格式”,但没有一个是回答“如何修改单元格而保留格式”的。

  二、根据属性名猜可以用的函数

  没办法,代码小白的我,只好继续猜,猜猜看那个函数能做到这样的配置。

  首先我尝试为工作表对象sheet的sheet.write函数的第4个参数配置“默认”项,企图让它“write”单元格的时候“不修改”格式,比如False啊、0啊、None啊、-1啊,都试过了,全部报错。

  那么尝试找xlrd读取的单元格的cell对象,看看里面有没有存储格式信息。但是cell对象中的属性不多,很快就爬干净了,没有存储格式这样如此“细致”的内容。

  线索断了,我只好穷举用xlrd读取的工作簿rb的所有属性函数,突然发现了一个看起来很像记录格式的东西,rb.xf_list,其中是一个大列表,里面记录的全是“xlrd.formatting.XF”类型的对象,而字体格式的对象名字不是叫做“XFStyle”吗,这可是非常一致了。

  这可是一个很大的突破,我猜想Excel中的单元格格式,不是分别记录到各个单元格的对象的属性中,而是将工作簿中出现的样式汇总,再通过另一个方法把各个单元格设定的格式的“索引编号”读出来,于是就做到了记录各个单元格的格式信息。

  得到了线索就有了进展,我找到xlrd读取的工作表sheet对象有一个sheet.cell_xf_index(rowx, colx)函数,返回结果是一个数值,而且针对相同格式的单元格布局,这个结果在相同格式单元格中计算返回的索引编号很一致!那么结果肯定是这个了!

  于是我急急忙忙把rb.xf_list[sheet.cell_xf_index(rowx, colx)]赋值到了sheet.write函数的style参数上,期待奇迹的发生。

  三、瞎猫碰不到死耗子,那就硬着头皮爬源码

  果不其然,事情的进展不会这么顺利,果然出现了报错。

  我突然想起来了write函数的说明,style的默认参数设置是“style=”,而我赋值的是“xlrd.formatting.XF”对象,这都不是一个库的东西,怎么能直接用呢。

  但是我坚定一个信念,既然通过xlutils.copy库的copy函数可以把格式“复制”过去,那么肯定在某个时候发生了读取和写入,这个格式读写的“管道”肯定是通的,关键是我要找到它。

  于是我撑住头皮,开始爬xlutils库的代码,xlutils.copy库的内容很干净,代码只有这些:

  from xlutils.filter import process,XLRDReader,XLWTWriter

  def copy(wb):

  w = XLWTWriter()

  process(

  XLRDReader(wb,'unknown.xls'),

  w

  )

  return w.output[0][1]

  于是转头去爬这里引用了的xlutils.filter库。既然知道了rb.xf_list存储了xlrd格式的“单元格样式”,那么就找找看它什么时候转化为了xlwt格式的“单元格样式”。

  按照关键词搜索,果然找了一系列的判断和转换,代码段大概是这样的:

  for rdxf in rdbook.xf_list:

  wtxf = xlwt.Style.XFStyle()

  ... 各种判断和转换

  self.style_list.append(wtxf)

  那么很显然,我要找的就是self.style_list了。

  那么按理说,我只要获取到“self.style_list”的“self”,也就是它的父对象“BaseWriter”的实例,就能获取到这个属性了(也只有这个方法)。但是我惊讶地发现BaseWriter里面有一个close方法,里面赫然写着“del self.style_list”,这可了得,我虽然不知道它是在什么时候调用了,但是一旦调用了,那不就功亏一篑了,这个列表删掉了那不就全完了。

  再看看xlutils.copy库里的内容,找到对应的定义:

  class XLWTWriter(BaseWriter):

  def __init__(self):

  self.output = []

  def close(self):

  if self.wtbook is not None:

  self.output.append((self.wtname,self.wtbook))

  del self.wtbook

  最终copy函数中的定义中返回的是“w.output[0][1]”,那实际上就是“self.wtbook”这个东西了。

  接着找相关定义,可以看到这样一段:

  ...

  self.wtbook = xlwt.Workbook(style_compression=2)

  self.wtbook.dates_1904 = rdbook.datemode

  self.wtname = wtbook_name

  self.style_list = []

  ...郑州妇科医院 http://m.zyfuke.com/

  这可麻烦了呀,wtbook和style_list是BaseWriter类下的两个平级的属性,并没有相互的联系,并且wtbook是一个xlwt.Workbook类型的对象,自然不可能提供获取其父对象的方法(确认了属性也确实没有),这可咋办,进度又陷入了停滞。

  于是我又灵机一动,“copy”函数虽然是已经封装好的,但是我也可以把它拆开,就比方说这样:

  from xlutils.filter import process, XLRDReader, XLWTWriter

  rb = xlrd.open_workbook('open.xls', formatting_info=True)

  w = XLWTWriter()

  process(XLRDReader(rb, 'unknown.xls'), w)

  wb = w.output[0][1]

  w是一个XLWTWriter类的对象,而XLWTWriter继承于BaseWriter,BaseWriter有style_list属性。那么我尝试访问其style_list属性,也就是“w.style_list”,并按照之前猜想的方法,将sheet.cell_xf_index函数获取到的每个单元格的对应数字,认为是“w.style_list”列表中的查询单元格样式的序列号,写入程序:

  style_list = w.style_list

  sheet2 = wb.get_sheet(0)

  style = style_list[sheet.cell_xf_index(r, c)]

  sheet2.write(r, c, sheet.cell_xf_index(r, c), style)

  再次打开生成的保存文件,发现格式完美地保留了下来,而内容却如我设定地修改了,至此,程序调试任务完成!

  四、终于可以运行的完整代码

  完整样例代码是:

  import xlrd

  from xlutils.filter import process, XLRDReader, XLWTWriter

  rb = xlrd.open_workbook('open.xls', formatting_info=True)

  # 参考xlutils.copy库内的用法 参考xlutils.filter内的参数定义style_list

  w = XLWTWriter()

  process(XLRDReader(rb, 'unknown.xls'), w)

  wb = w.output[0][1]

  style_list = w.style_list

  for n, sheet in enumerate(rb.sheets()):

  sheet2 = wb.get_sheet(n)

  for r in range(sheet.nrows):

  for c, cell in enumerate(sheet.row_values(r)):

  style = style_list[sheet.cell_xf_index(r, c)]

  sheet2.write(r, c, sheet.cell_xf_index(r, c), style)

  wb.save('save.xls')