一直看英文的技术文档都有恐惧症,看资料时总是优先找中文的,但是不得不说,英文的各种资料是最新、最完整的,要想成为一个更好的程序员,看英文技术文档是应该的。只是长期没阅读英语了,生疏是正常的,最近打算优先把计算机英语的词汇在两三个月内优先背完,减少阅读英语文档的障碍。在下载一个知米背单词的app后,可以自定义上传英语文档,只是格式是必须下面那样的:
我从网上找的计算机英语文件内容是这样的:
需要写一个小脚本,把图2处理成图1那样的格式,我用了2种方法。
第一种:
#-*-coding:utf-8-*- __author__ = 'Administrator' import codecs indata=codecs.open("cs_english.txt", 'r+', 'utf-8').read() to_file="copy2.txt" with open(to_file,'w+') as file:
#通过"\n"用split截取的行组成一个列表lines
lines=indata.split('\n')
words=[]
#line="6. if conj. 如果 "
for line in lines:
#以空白为切点,将一行切2刀,成3段,组成列表w
w=line.split(None,2)
#如果列表数量大于2,,选取第2个元素,赋值给word
if len(w)>2:
word=w[1]
words.append(word)
outdata='\n'.join(words)
file.write(outdata)
第二种:
# -*-coding:utf-8-*-
import re
__author__ = 'Administrator'
#2. command n. 命令,指令
#3. use v. 使用,用途
indata = open("cs_english.txt", 'r', encoding='UTF-8').read()
#使用正则表达式,选取至少2个单词,全为英语的字符串,组成字母字符串列表 d
d = re.findall('[a-zA-Z]{2,}', indata)
#使用join,把d列表变成图1的形式
outdata='\n'.join(d)
out_file=open("copy3.txt",'w+')
out_file.write(outdata)