《数据挖掘之道》点评:虽然我比较执着于Rwordseg,并不代表各位看管执着于我的执着,推荐结巴分词包,小巧玲珑,没有那么多幺蛾子,而且R版本和python版本都有,除了词性标注等分词包必备功能以外,jiebaR还加入了一些基础的文本分析算法,比如提取关键字(TFIDF)、分析文本相似性等等,真是老少咸宜。
jiebaR是“结巴”中文分词(Python)的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment)共四种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。目前托管在GitHub上。
来自:http://cos.name/tag/jiebar/
案例
http://www.bkjia.com/ASPjc/958939.html
安装出现的问题
1、网上教程大多用github装
library(devtools) install_github("qinwf/jiebaR")
Error: Command failed (1) In addition: Warning message: In utils::download.file("https://cran.rstudio.com/bin/windows/Rtools/Rtools33.exe", : InternetOpenUrl failed: '操作超时'
Warning in install.packages : InternetOpenUrl failed: '操作超时'
Downloading GitHub repo qinwf/jiebaR@master trying URL 'https://cran.rstudio.com/bin/windows/Rtools/Rtools33.exe' Error in utils::download.file("https://cran.rstudio.com/bin/windows/Rtools/Rtools33.exe", : cannot open URL 'https://cran.rstudio.com/bin/windows/Rtools/Rtools33.exe' Installing jiebaR Skipping 2 packages not available: jiebaRD, Rcpp "F:/R/R-3.2.2/R-3.2.2/bin/x64/R" --no-site-file --no-environ --no-save --no-restore CMD INSTALL \ "C:/Users/long/AppData/Local/Temp/RtmpmUlaMY/devtools597c19394370/qinwf-jiebaR-12cb03b" --library="F:/R/R-3.2.2/R-3.2.2/library" \ --install-tests
于是就去了官网看(官网链接:https://github.com/qinwf/jiebaR)
发现了两种方法:
通过CRAN安装:
install.packages("jiebaR") library("jiebaR") cc = worker() cc["这是一个测试"] # or segment("这是一个测试", cc) # [1] "这是" "一个" "测试"
同时还可以通过Github安装开发版,建议使用 gcc >= 4.6 编译,Windows需要安装 Rtools :
library(devtools) install_github("qinwf/jiebaRD") install_github("qinwf/jiebaR") library("jiebaR")
其中通过Github安装,需要Rtools,这个文件比较大,
下载链接在:https://cran.r-project.org/bin/windows/Rtools/