利用python对一段英文文本进行分词,分句

  这两天一直在学习用python进行自然语言处理这本书,当然开始的开始就是要学习python这门脚本语言,遇到了利用自己的语言对一段英文文本进行分词这个问题,找了好多资料都没有找到具体的解答,自己修修改改终于解决了,分享出来,大家共勉,如果有更好的代码或者算法,大家也可以共同的交流一下。也是希望以后在学习的童鞋们可以有个参考,不至于像我一样摸不着头脑。

  利用python对一段英文文本进行分词:

# coding:gbk
txt=open("XXXXX")#括号里面的是是你的txt文本的具体路径
readl=txt.readline()#一行一行的读文本
while readl:
    ff=str(readl)#强制类型转换,因为readline()函数读出来的是list类型的,要用split()函数就要是string类型
    print(ff.split(' '))
    readl = txt.readline()
txt.close()
运行出来的结果就是一个一个单词用单引号括起来的单词了,包括空格和标点符号。
利用python对一段英文文本进行分句:


import codecs
txt=open("XXXXX")
lis=""#建立一个空的列表存储读取的字符串
for line in txt:
    li=line.strip("\n")   
    lis=lis+li
    lis=lis+''    #在每个读取出来的字符后面加空格,分开每个单词
lis.strip('')
liss=lis.split(".")
for h in liss:
    if h == '':
        continue
    h.strip('')
    h=h+'.' #在读出的每个句子的最后加上英文句号
  print(h)






你可能感兴趣的:(python学习路程)