python处理文字


突然拿到了用户需求,想起是不是能用次词频的方式来统计用户关注的热点,通过数据客观反应。

想起以前了解过一点的python的一个包jieba分词,苦于不知道怎么把文件作为输入来进行分词,于是又发现了一个好物python-docx,下载尝试果然可用。

pip install python-docx失败

于是在github上下载了python-docx的源码,python setup.py install完成安装lmx依赖包不知什么时候安装成功了

参考链接

官网:https://python-docx.readthedocs.io/en/latest/

github:https://github.com/python-openxml/python-docx

参考:http://blog.csdn.net/qianchenglenger/article/details/51582005

安装完成后尝试读取一个自己写的docx文件

在windows编译环境下注意路径应当用 “/”,linux下还没尝试回头实验下再说。

通过paragraphs获取段落:ps = document.paragraphs

len(ps)获取文档组成部分,因为测试文档简单因此len出来结果只有1

ps[0].text为从word文档里读取出来的文本内容

传递给jieba 进行分词即可。

下一篇实验一篇更加复杂的文档,按段落传送给jieba进行分词,并按段落统计词频


PS:  一个git的在线学习网站,http://pcottle.github.io/learnGitBranching/

你可能感兴趣的:(python处理文字)