用R语言画文本分析词频词云

设置存储目录

setwd("C:/Users/swift/Desktop")

读取数据

df<-read.csv("工作报告.csv",header=FALSE)
# 把全部工作报告放在第一行第一列的格子里

安装jieba分词包

install.packages("jiebaR")
library(jiebaR)

删掉中文停用词

wk = worker(stop_word='中文停用词.txt')
seg <-wk[gsub("\\d","",df[1,])] # 去除数字,后分词
注:gsub("\\d","",df[1,])用替换把数字删掉
#词频
table(seg)

降序排序,并提取出现次数最多的前100个词语

seg100 <- sort(table(seg), decreasing = TRUE)[1:100] 

词云

install.packages("wordcloud2")
library(wordcloud2)
#设置图片形成效果
bmp("comment_cloud.bmp", width = 500, height = 500)
par(bg = "black")
#画云图
wordcloud2(seg100,size=0.5,shape='star')

词性标注

install.packages("pacman")
library(pacman)
tag_worker = worker(type = "tag") 
tag_result = tagging(df[1,],tag_worker) 

你可能感兴趣的:(自然语言处理,r语言,自然语言处理)