感谢Robert I.Kabacoff 著作本书，同时感谢高涛、肖楠、陈钢编译此书。

最近在学习《R语言实战》，特将学习过程记录下来，供各位朋友参考，虽说是笔记，但是90%是书中内容，另外10%是自己偶尔冒出的一点点想法的记录和一些疑问，希望互相探讨。末尾有本章的代码清单下载地址，与各位交流，还是提倡按照书中内容把代码一个个敲出来。

第六章　　基本图形

本章内容

条形图、箱线图和点图

饼图和扇形图

直方图与核密度图

6.1　　条形图

条形图通过水平或垂直的条形展示了类别型变量的分布（频率）函数函数barplot()的最简单用法是：

barplot(height)

其中height是一个向量或一个矩阵。（问：数据框不可以吗？亲测，不可以，会有错误提示。）

6.1.1　　一个简单的条形图

载入vcd包之前，需要载入grid包。

小提示

若要绘制的类别型变量是一个因子或有序型因子，就可以使用函数plot()快速创建一幅垂直条形图。由于Arthritis$Improved是一个因子，所以代码：

plot(Arthritis$Improved, main = "Simple Bar Plot", xlab = "Improved", ylab = "Frequency")

plot(Arthritis$Improved, horiz = TRUE, main = "Horizontal Bar Plot", xlab = "Frequency", ylab = "Improved")

6.1.2　　堆砌条形图和分组条形图

如果hight是一个矩阵而不是一个向量，则绘图结果将是一幅堆砌条形图或分组条形图。若beside=FALSE（默认），则矩阵中的每一列将都将生产图中的一个条形，各列中的值将给出堆砌的“子条”的高度。若beside=TRUE，则矩阵中的每一了都表示一个分组，各列中的值将并列而不是堆砌。

堆砌条形图

分组条形图

6.1.3　　均值条形图

条形图并不一定要基于计数数据或频率数据。你可以使用数据整合函数并将结果传递给barplot()函数，来创建表示均值、中位数、标准差等的条形图。

均值条形图

6.1.4　　条形图的微调

有若干种方式可以微调条形图的外观。例如，随着条数的增多，条形的标签可能会开始重叠，你可以使用参数cex.names来减小字号。将其指定为小于1的值可以缩小标签的大小。可选的参数names.arg允许你指定一个字符向量作为条形的标签名。

6.1.5　　棘状图

在结束官途条形图的讨论之前，让我们再来看一种特殊的条形图，它被称为棘状图（spinogram）。棘状图对堆砌条形图进行了重缩放，这样每个条形的高度为1，每一段的高度即表示比例。棘状图可由vcd包中的函数spine()绘制。

6.2　　饼图

由函数pie()创建，代码如下：

pie(x, labls)

饼图让比较各扇形的值变得困难（除非这些值被附加在标签上）。因此出现了一种扇形图，为用户提供了一种同时展示相对数量和相互差异的方法。通过plotrix包中的fan.plot()函数实现。特点是以同一起点开始，分别展示不同扇形，可以理解为：按照从小到大的顺序，分别从前往后绘制图形。在这里扇形的宽度（width）是重要的，半径并不重要。

扇形图

6.3　　直方图

与条形图和饼图不同，直方图描述的是连续型变量的分布。直方图是通过X轴上将值域分割为一定数量的组，在Y轴上显示相应值得频数，展示了连续型变量的分布。使用如下代码创建直方图。

hist(x)

其中的X是一个由数据值组成的数值向量。参数freq=FALSE表示根据频率密度而不是频数绘制图形。参数breaks用于控制组的数量。

代码清单6-6　　直方图

par(mfrow = c(2,2))

hist(mtcars$mpg)

hist(mtcars$mpg, breaks = 12, col = "red", xlab = "Miles Per Gallon", main = "Colored histogram with 12 bins")

hist(mtcars$mpg, freq = FALSE, breaks = 12, col = "red", xlab = "Miles Per Gallon", main = "Histogram ,rug plot, density curve")

rug(jitter(mtcars$mpg))

lines(density(mtcars$mpg))

lines(density(mtcars$mpg), col = "blue", lwd = 2)

x <- mtcars$mpg

h <- hist(x, breaks = 12, col = "red", xlab = "Miles Per Gallon", main = "Histogram with normal curve and box")

xfit <- seq(min(x), max(x), length = 40)

yfit <- dnorm(xfit, mean = mean(x), sd = sd(x))

yfit <- yfit*diff(h$mids[1:2])*length(x)

lines(xfit, yfit, col = "blue", lwd = 2)

box()

第一幅直方图展示了未指定任何选项是的默认图形。第二幅将组数指定为12，使用红色填充条形，并添加了标签和标题。

第三幅直方图保留了上一幅图中的颜色、组数、标签和标题设置，又叠加了一条密度曲线和轴须图。这条密度曲线是一条核密度估计，它为数据的分布提供了一种更加平滑的描述。再使用lines()函数叠加了这条蓝色、双倍默认线条宽度的曲线。最后，轴须图是实际数据的一种一维呈现方式。如果数据中有许多结，你可以使用如下代码将轴须图的数据打散：

rug(jitter(mtcars$mpg, amount = 0.01))

这样将向每个数据点添加一个小的随机值（一个±amount之间的均匀分布随机数），以避免重叠的点产生影响。

第四幅直方图与第二幅类似，只是拥有一条叠加在上面的正太曲线和一个将图形围绕起来的盒形。

6.4　　核密度图

用术语来说，核密度估计是用于估计随机变量概率密度函数的一种非参数方法。核密度图不失为一种用来观察连续型变量分布的有效方法。不叠加到另一幅图上方绘制密度图的方法为：

plot(density(x))

其中x是一个数值型向量。若要在一幅已经存在的图形上叠加一条密度曲线，可以使用：

lines(density(x))

使用sm包中的sm.density()函数可向图形叠加两组或更多的核密度图。使用格式为：

sm.density.compare(x, factor)

其中的x是一个数值型向量，factor是一个分组变量。

6.5　　箱线图

箱线图（又称盒须图）通过绘制连续型变量的五数总括，即最小值、下四分位数（第25百分位数）、中位数（第50百分位数）、上四分位数（第75百分位数）以及最大值，描述了连续型变量的分布。箱线图能够显示出可能为离群点（范围在±IQR以外的值，IQR表示四分位距，即上四分位数与下四分位数的差值）的观测。

boxplot(mtcars$mpg,main = "Box plot", ylab = "Mles per Gallon")

6.5.1　　使用并列箱线图进行跨组比较

箱线图可以展示单个变量或分组变量。使用格式为：

boxplot(formula, data = dataframe)

其中对的formula是一个公式，dataframe代表提供数据的数据库（或列表）。一个示例公式为y ~ A，这将为类别型变量A的每个值并列地生成数值型变量y的箱线图。公式y ~ A*B则将为类别型变量A和B所有水平的两两组合生成数值型变量y的箱线图。

箱线图灵活多变，通过添加notch=TRUE。可以得到含凹槽的箱线图。若两个箱的凹槽互不重叠，则表明他们的中位数有显著差异。

6.5.2　　小提琴图

小提琴图示箱线图和核密度图的结合。首次使用需要下载安装vioplot包。使用格式为：

Vioplot(x1, x2, …, names = , col = )

其中x1，x2，…表示要绘制的一个或多个数值向量（将为每个向量绘制一幅小提琴图）。参数names是小提琴图中标签的字符向量，而col是一个为每幅小提琴图指定颜色的向量。（注意：每个参数都是向量。）

小提琴图

小提琴图基本上是核密度图以镜像的方式在箱线图上的叠加。在图中，白点是中位数，黑色盒型的范围是下四分位点到上四分位点，西黑线表示须。外部形状即为核密度估计。

6.6　　点图

点图提供了一种在简单水平刻度上绘制大量有标签值的方法。可以用dotchart()函数创建点图。格式为：

dotchart(x, labels)

其中x是一个数值向量，而labels则是由每个点的标签组成的向量。你可以通过添加参数groups来选定一个因子，用以指定x中元素的分组方式。如果这样做，则参数groups可以控制不同组标签的颜色，cex可控制标签的大小。

注意：

点图有许多变种。Jacoby(2006)对点图进行了非常有意义的讨论，并且提供了创新型应用的R代码。此外，Hmisc包也提供了一个带有许多附加功能的点图函数（恰如其分地叫做dotchart2）。

附件：《R语言实战》学习笔记及代码（第六章）

《R语言实战》学习笔记及代码（第六章）

第六章 基本图形

6.1 条形图

6.1.1 一个简单的条形图

6.1.2 堆砌条形图和分组条形图

6.1.3 均值条形图

6.1.4 条形图的微调

6.1.5 棘状图

6.2 饼图

6.3 直方图

6.4 核密度图

6.5 箱线图

6.5.1 使用并列箱线图进行跨组比较

6.5.2 小提琴图

6.6 点图

你可能感兴趣的:(《R语言实战》学习笔记及代码（第六章）)