library(stringr) #需要使用stringr里的str_extract正则抓取字符串
data <- readLines(file.choose(), encoding = "UTF-8") #读文件
data1 <- data[-c(1:8)] #去掉前八行不必要的表头
data2 <- as.data.frame(data1, stringsAsFactors = FALSE)
names(data2) <- "All"
数据很规整,第一行时间人物,第二行说的话,第三行空格,三行一循环
index <- which(sapply("[0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]+:[0-9]+:[0-9]+",regexpr,
data2$All)>0) #正则匹配出 时间人物行 的索引
talkindex <- index + 1 #下面一行为聊天内容(ps,有些人会使用ctrl+enter输出聊天内容,导致聊天的话可能有两三行,那我只取第一行,这种情况出现的次数只有几百次,可以忽略)
以下的year time name都是对第一行时间人物进行字符串切割,利用for循环要起码几十分钟,sapply只要1秒不到
year <- sapply(data2$All[index],
substring ,1,10)
year <- as.character(year)
time <- sapply(data2$All[index],
substring ,12,19)
time <- as.character(time)
name <- sapply(data2$All[index],
substring ,20,50)
name <- as.character(name)
name <- as.character(sapply(name, str_extract , "([0-9]{6,11})|<(.*?)>")) # 抓取QQ号,唯一ID
newdata <- data.frame(Name = name,
Year = year,
Time = time,
text = data2$All[talkindex],
stringsAsFactors = F)
puredata <- newdata[-which(is.na(newdata$Name) == T),] #最后去除 有问题的QQ号,比如系统消息(10000),因为正则匹配它返回的结果是NA
清洗完的数据就可以继而词频统计做词云,时间与发言的热力图