R语言︱文本挖掘——jiabaR包分词


《数据挖掘之道》点评:虽然我比较执着于Rwordseg,并不代表各位看管执着于我的执着,推荐结巴分词包,小巧玲珑,没有那么多幺蛾子,而且R版本和python版本都有,除了词性标注等分词包必备功能以外,jiebaR还加入了一些基础的文本分析算法,比如提取关键字(TFIDF)、分析文本相似性等等,真是老少咸宜。



jiebaR是“结巴”中文分词(Python)的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment)共四种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能。项目使用了Rcpp和CppJieba进行开发。目前托管在GitHub上。

来自:http://cos.name/tag/jiebar/



案例

http://www.bkjia.com/ASPjc/958939.html


安装出现的问题

1、网上教程大多用github装

library(devtools)
install_github("qinwf/jiebaR")

但是我总是出现以下问题:


Error: Command failed (1)
In addition: Warning message:
In utils::download.file("https://cran.rstudio.com/bin/windows/Rtools/Rtools33.exe",  :
  InternetOpenUrl failed: '操作超时'

Warning in install.packages :
  InternetOpenUrl failed: '操作超时'


Downloading GitHub repo qinwf/jiebaR@master
trying URL 'https://cran.rstudio.com/bin/windows/Rtools/Rtools33.exe'
Error in utils::download.file("https://cran.rstudio.com/bin/windows/Rtools/Rtools33.exe",  : 
  cannot open URL 'https://cran.rstudio.com/bin/windows/Rtools/Rtools33.exe'

Installing jiebaR
Skipping 2 packages not available: jiebaRD, Rcpp
"F:/R/R-3.2.2/R-3.2.2/bin/x64/R" --no-site-file --no-environ --no-save --no-restore CMD INSTALL  \
  "C:/Users/long/AppData/Local/Temp/RtmpmUlaMY/devtools597c19394370/qinwf-jiebaR-12cb03b" --library="F:/R/R-3.2.2/R-3.2.2/library"  \
  --install-tests 


于是就去了官网看(官网链接:https://github.com/qinwf/jiebaR)

发现了两种方法:

通过CRAN安装:

install.packages("jiebaR")
library("jiebaR")

cc = worker()
cc["这是一个测试"] # or segment("这是一个测试", cc)

# [1] "这是" "一个" "测试"

同时还可以通过Github安装开发版,建议使用 gcc >= 4.6 编译,Windows需要安装 Rtools :

library(devtools)
install_github("qinwf/jiebaRD")
install_github("qinwf/jiebaR")
library("jiebaR")


其中通过Github安装,需要Rtools,这个文件比较大,

下载链接在:https://cran.r-project.org/bin/windows/Rtools/




你可能感兴趣的:(github,安装,r,分词,jiabaR)