[R - ml]聚类

社交网络用户画像

美国的中学生在社交网站上的信息聚类

teens = read.csv('E:/rpath/snsdata.csv')
dim(teens)
str(teens)

性别,年龄,有多少个朋友
个人描述的内容
谈论内容:足球、游泳、运动、毒品、饮酒、死亡...

table(teens$gender)
table(teens$gender, useNA = 'ifany')

女性占了大多数,还有些没性别,有userNA 统计

13 - 20 岁是中学生,把其他年龄标成 NA

teens$age = ifelse(teens$age >= 13 & teens$age < 20, teens$age, NA)
summary(teens$age)

数据预处理

为了发方便后续的距离计算,我们需要把性别这个分类变量修改成数字,
显然男,女之间,以及有性别数据与NA之间,我们可以用0,1区分

teens$female = ifelse(teens$gender == 'F' &! is.na(teens$gender), 1, 0)
teens$no_gender = ifelse(is.na(teens$gender), 1, 0)
table(teens$gender, useNA = 'ifany')
prop.table(table(teens$gender, useNA = 'ifany'))
table(teens$female, useNA = 'ifany')
table(teens$no_gender, useNA = 'ifany')

对于年龄,我们可以考虑利用均值来替代NA

ave_age = ave(teens$age, teens$gradyear, FUN = function(x) mean(x, na.rm = TRUE))
teens$age = ifelse(is.na(teens$age), ave_age, teens$age)
summary(teens$age)

ave_age:根据毕业的年,计算年龄均值

建立模型

前4个特征毕业年,性别,年龄,朋友数在这里不作为输入

interests = teens[5:40]

先行进行数据 z-score 处理

interests_z = as.data.frame(lapply(interests, scale))
teen_clusters = kmeans(interests_z, 5)
  • 参数一:数据集
  • 参数二:分成几个族

模型评估

teen_clusters$size
teen_clusters$centers # 每一类的各项得分
  • 第一类谈啥都少,内向不说话
  • 第二类谈性
  • 第三类谈音乐、毒品
  • 第四类谈圣经
  • 第五类谈体育

模型分析

teens$cluster = teen_clusters$cluster
teens[1:5, c('cluster', 'gender', 'age', 'friends')] # 只看前五条数据

不同的cluster 的年龄,性别

aggregate(data = teens, age ~ cluster, mean)
aggregate(data = teens, female ~ cluster, mean)

不同cluster 的朋友数目

aggregate(data = teens, friends ~ cluster, mean)

你可能感兴趣的:([R - ml]聚类)