本文再次见证python是对付杂活的利器。不过,为什么这么多杂活呢?最近接到上级的任务,要在网络上收集一大批人图片,主页等信息,然后将这些信息填入到Excel表格。其中有一个令人发指地无聊的工作就是要将所有人的英文名写好整理好,由于都是中国人,因此,这工作也就是在考验我的汉语拼音水平。
于是,我想到了python。在网上找了一些信息,得出如下的思路:
1、汉字转拼音
github上有人实现好了,我只需用现成的。
2、操作excel
关于python操作excel,由于网上某些低质量博文的误导,多走了不少弯路。直到看到:
Python中一般使用xlrd(excel read)来读取Excel文件,使用xlwt(excel write)来生成Excel文件(可以控制Excel中单元格的格式),需要注意的是,用xlrd读取excel是不能对其进行操作的:xlrd.open_workbook()方法返回xlrd.Book类型,是只读的,不能对其进行操作。而xlwt.Workbook()返回的xlwt.Workbook类型的save(filepath)方法可以保存excel文件。
因此对于读取和生成Excel文件都非常容易处理,但是对于已经存在的Excel文件进行修改就比较麻烦了。不过,还有一个xlutils(依赖于xlrd和xlwt)提供复制excel文件内容和修改文件的功能。其实际也只是在xlrd.Book和xlwt.Workbook之间建立了一个管道而已。
这样,剩下的问题就是写脚本了。
现在,excel的格式如下:
school_name | name_cn | name_en |
Tianjin University | 周天 | |
Tianjin University | 韩冬 | |
Tianjin University | 李兴 |
#!/usr/bin/python
#-*-coding:utf-8-*-
from pinyin import PinYin
#module for excel handle
import xlrd
from xlutils.copy import copy
def name_tran(str):
test=PinYin()
test.load_word()
str[0]
family=test.hanzi2pinyin(string=str[0])[0]
last=u''
print str[1:]
for word in test.hanzi2pinyin(string=str[1:]):
last=last+word
name_en=last.title()+u' '+family.title()
return name_en
def file_fill(file_name,sheet_name,row_count):
#打开Excel文件读取数据
data = xlrd.open_workbook(file_name)
#获取一个工作表
#table = data.sheets()[0]#通过索引顺序获取
#table = data.sheet_by_name(sheet_name)#通过名称获取
table = data.sheet_by_index(3) #通过索引顺序获取
#using xlutils to modify excel
wb = copy(data)
#通过get_sheet()获取的sheet,有write()方法
ws = wb.get_sheet(3)
for i in range(1,row_count):
name_cn=table.cell(i,1).value
print name_cn
try:
name_en=name_tran(name_cn)
ws.write(i,2,name_en)
print name_en
except:
print i+1,"th row fail to translate."
wb.save(file_name)
return "Over!"
if __name__=="__main__":
file_fill(u"scholar&school.xls",u"Scholars",442)
代码运行之后,excel表的name_en列被填充,如下:
school_name | name_cn | name_en |
Tianjin University | 周天 | Tian Zhou |
Tianjin University | 韩冬 | Dong Han |
Tianjin University | 李兴 | Xing Li |