社交网络用户画像
美国的中学生在社交网站上的信息聚类
teens = read.csv('E:/rpath/snsdata.csv')
dim(teens)
str(teens)
性别,年龄,有多少个朋友
个人描述的内容
谈论内容:足球、游泳、运动、毒品、饮酒、死亡...
table(teens$gender)
table(teens$gender, useNA = 'ifany')
女性占了大多数,还有些没性别,有userNA 统计
13 - 20 岁是中学生,把其他年龄标成 NA
teens$age = ifelse(teens$age >= 13 & teens$age < 20, teens$age, NA)
summary(teens$age)
数据预处理
为了发方便后续的距离计算,我们需要把性别这个分类变量修改成数字,
显然男,女之间,以及有性别数据与NA之间,我们可以用0,1区分
teens$female = ifelse(teens$gender == 'F' &! is.na(teens$gender), 1, 0)
teens$no_gender = ifelse(is.na(teens$gender), 1, 0)
table(teens$gender, useNA = 'ifany')
prop.table(table(teens$gender, useNA = 'ifany'))
table(teens$female, useNA = 'ifany')
table(teens$no_gender, useNA = 'ifany')
对于年龄,我们可以考虑利用均值来替代NA
ave_age = ave(teens$age, teens$gradyear, FUN = function(x) mean(x, na.rm = TRUE))
teens$age = ifelse(is.na(teens$age), ave_age, teens$age)
summary(teens$age)
ave_age:根据毕业的年,计算年龄均值
建立模型
前4个特征毕业年,性别,年龄,朋友数在这里不作为输入
interests = teens[5:40]
先行进行数据 z-score 处理
interests_z = as.data.frame(lapply(interests, scale))
teen_clusters = kmeans(interests_z, 5)
- 参数一:数据集
- 参数二:分成几个族
模型评估
teen_clusters$size
teen_clusters$centers # 每一类的各项得分
- 第一类谈啥都少,内向不说话
- 第二类谈性
- 第三类谈音乐、毒品
- 第四类谈圣经
- 第五类谈体育
模型分析
teens$cluster = teen_clusters$cluster
teens[1:5, c('cluster', 'gender', 'age', 'friends')] # 只看前五条数据
不同的cluster 的年龄,性别
aggregate(data = teens, age ~ cluster, mean)
aggregate(data = teens, female ~ cluster, mean)
不同cluster 的朋友数目
aggregate(data = teens, friends ~ cluster, mean)