这两天一直在学习用python进行自然语言处理这本书,当然开始的开始就是要学习python这门脚本语言,遇到了利用自己的语言对一段英文文本进行分词这个问题,找了好多资料都没有找到具体的解答,自己修修改改终于解决了,分享出来,大家共勉,如果有更好的代码或者算法,大家也可以共同的交流一下。也是希望以后在学习的童鞋们可以有个参考,不至于像我一样摸不着头脑。
利用python对一段英文文本进行分词:
# coding:gbk txt=open("XXXXX")#括号里面的是是你的txt文本的具体路径 readl=txt.readline()#一行一行的读文本 while readl: ff=str(readl)#强制类型转换,因为readline()函数读出来的是list类型的,要用split()函数就要是string类型
print(ff.split(' ')) readl = txt.readline() txt.close()
运行出来的结果就是一个一个单词用单引号括起来的单词了,包括空格和标点符号。
利用python对一段英文文本进行分句:
import codecs txt=open("XXXXX") lis=""#建立一个空的列表存储读取的字符串 for line in txt: li=line.strip("\n") lis=lis+li lis=lis+'' #在每个读取出来的字符后面加空格,分开每个单词 lis.strip('') liss=lis.split(".") for h in liss: if h == '': continue h.strip('') h=h+'.' #在读出的每个句子的最后加上英文句号 print(h)