数学之路(机器学习实践指南)-文本挖掘与NLP(2)

#--coding:utf-8--
#code by myhaspl 
from __future__ import unicode_literals
from __future__ import division




import nltk




import sys
sys.path.append("../")


import jieba




def cutstring(txt):
    #分词
    cutstr = jieba.cut(txt)
    result=" ".join(cutstr)
    return result
    
#读取文件
txtfileobject = open('test1.txt','r')


try:
   filestr = txtfileobject.read( )
finally:
   txtfileobject.close( )
 
cutstr=cutstring(filestr)
tokenstr=nltk.word_tokenize(cutstr)


fdist1=nltk.FreqDist(tokenstr)
#只出现了一次的低频词 
print "----只出现了一次的低频词-----"
for word in fdist1.hapaxes():
    print word,
#找出文本中的长词 
print
print "----文本中的长词-----"
for word in [w for w in set(tokenstr) if len(w)>3]:
    print word,

本博客所有内容是原创,如果转载请注明来源

http://blog.csdn.net/myhaspl/


----只出现了一次的低频词-----
分析 相媲美 这么 出来 再 而 万美元 迅速 该项 具有 察觉 启发 用来 仿生 很难 东西 考克斯 高级 到 高智能 · 团队 方法 希望 亿 算法 再次 情报机构 情况 汽车 科学 入侵 运用 1.84 拨给 智能 网络 擅长 只是 必须 其 约合 时候 系 助理 逆向 需要 媒体报道 接下来 类似 视觉 规模 进行 国外 认出来 以及 人工智能 为了 赋予 终极目标 技术 聪明 计划 Cox 越来越 一点 做到 计算机科学 就算 项目 等 皮层 情报研究 如今 David 培养 不然 近日 也 媲美 一项 从而 读取 可以 只 系统 获得 CBS 而已 人民币 制造 它 训练 上 哺乳动物 几次 2800 价值 出色 资金 计划署 创新 天生 见到 千次 之后 图案 头 着手 去 看 教授 这一 说道 超越 保持 受 解决 其它 这是 戴维 基因组 为何 都 领导 更加 神经元 脑科学 中心 IARPA 有限 科学家 驾驶 于 单是 经费 则 过程 基本准则 中 一半 核磁共振 图像 人员 怎样 难 又 目的 迟早会 美国 正 挑战 称 用于
----文本中的长词-----
情报机构 1.84 媒体报道 人工智能 终极目标 计算机科学 情报研究 David 计算机系统 哺乳动物 2800 哈佛大学 IARPA 基本准则 核磁共振 SEAS 应用科学 生物学系

你可能感兴趣的:(数学之路(机器学习实践指南)-文本挖掘与NLP(2))