以总理2015报告原文进行挖掘处理,先将报告内容保存为TXT格式文本。
需要的包:rJava,Rwordseg,wordcloud。
library(rJava)
library(Rwordseg)
library(wordcloud)mydata<-read.csv("D:/test/R/report2015.txt", stringsAsFactors=FALSE,header=FALSE)
txt<-segmentCN(as.character(mydata$V1))
txt.aslist<-unlist(txt)
txt.freq<-table(txt.aslist)
txt.result<-txt.freq[order(-txt.freq)]
wordcloud(names(text.result)[1:100],text.result[1:100],random.order=FALSE)
如果要去除停止词,可使用下面的步骤:
stopword<-read.csv('D:/test/R/stop-word.txt',stringsAsFactors=FALSE,header=FALSE)
stopword.v<-as.vector(stopword$V1)
word.pure<-setdiff(names(txt.result),stopword.v)
word.pure为去除停止词的统计分析对象词表。
txt.pure<-txt.result[word.pure]
wordcloud(names(txt.pure)[1:100],txt.pure[1:100],random.order=FALSE)
对table对象 ta,
dimnames(ta) 结果为list型
names(ta)结果为向量型。