R+中文︱中文文本处理杂货柜——chinese.misc

Package: chinese.misc Version: 0.1.3 Date: 2017-03-12 Authors:Wu Jiang
(吴江),微信号:theblackriver

受R语言中文社区的文章《diRblo|中文文本分析方便工具包chinese.misc简介(附文本样例)》启发,来看看这个刚刚发布的中文处理新包,感谢作者允许转载。因为作者在github上写的有点乱,笔者在此基础上进行整理。

chinese.misc中的内容很多,简单罗列:

  • 1、文本挖掘方向:
    ◎ 外部文档文件夹分词
    ◎ 生成文档-词语矩阵
    ◎ output_dtm-DTM变为矩阵
    ◎ sort_tf词语排序
    ◎ 文本清洗停用词
    ◎ 文本清洗词性筛选器slim_text
    ◎ 词条相关性word_cortmfindAssocs
    ◎ 话题时间趋势topic_trend

  • 2、文件管理方向:
    ◎ 获取文件路径
    ◎ 获取文件夹下所有文件
    ◎ 读取文件scancn
    ◎ txt文件合并为csvtx

你可能感兴趣的:(NLP︱R+python,付费-智能写作专栏)