R语言数据挖掘常用资源

1.CRAN任务视图

CRAN提供了任务视图,https://cran.r-project.org/web/views/,将所有R程序包按照不同的处理任务组织起来。与数据挖掘相关的几个任务视图是:

  • 机器学习和统计学习
  • 聚类分析与有限混合模型
  • 时间序列分析
  • 多元统计
  • 空间数据分析
2.R Reference Card for Data Mining
它提供了一套完整的用于数据挖掘的R程序包和函数的索引,并根据功能进行分类。最新版可以从这里下载 : https://cran.r-project.org/doc/contrib/YanchangZhao-refcard-data-mining.pdf

3.常用的内置数据集
①iris数据集
包含3种不同类型的鸢尾花,每种有50个样本,共150个样本。包含5个属性:
> str(iris)
'data.frame':	150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
Sepal.Length  花萼长度
Sepal.Width  花萼宽度
Petal.Length 花瓣长度
Petal.Width  花瓣宽度
Species     种类。(离散型变量)

②Bodyfat数据集
由TH.data包提供。71行,10列(数值型),每行代表一个客户信息。

> #install.packages('mboost')
> library(TH.data)
> data("bodyfat",package = "TH.data")
> str(bodyfat)
'data.frame':	71 obs. of  10 variables:
 $ age         : num  57 65 59 58 60 61 56 60 58 62 ...
 $ DEXfat      : num  41.7 43.3 35.4 22.8 36.4 ...
 $ waistcirc   : num  100 99.5 96 72 89.5 83.5 81 89 80 79 ...
 $ hipcirc     : num  112 116.5 108.5 96.5 100.5 ...
 $ elbowbreadth: num  7.1 6.5 6.2 6.1 7.1 6.5 6.9 6.2 6.4 7 ...
 $ kneebreadth : num  9.4 8.9 8.9 9.2 10 8.8 8.9 8.5 8.8 8.8 ...
 $ anthro3a    : num  4.42 4.63 4.12 4.03 4.24 3.55 4.14 4.04 3.91 3.66 ...
 $ anthro3b    : num  4.95 5.01 4.74 4.48 4.68 4.06 4.52 4.7 4.32 4.21 ...
 $ anthro3c    : num  4.5 4.48 4.6 3.91 4.15 3.64 4.31 4.47 3.47 3.6 ...
 $ anthro4     : num  6.13 6.37 5.82 5.66 5.91 5.14 5.69 5.7 5.49 5.25 ...
age         年龄
DEXfat      以DXA计算的体脂重,响应变量
waistcirc   腰围
hipcirc     臀围
elbowbreadth   肘宽
kneebreadth   膝宽
anthro3a    三项人体测量的对数和
anthro3b    三项人体测量的对数和
anthro3c    三项人体测量的对数和
anthro4     三项人体测量的对数和


















你可能感兴趣的:(R语言)