R语言rank函数详细解析
发布于 2016-01-04 16:26:04 | 557 次阅读 | 评论: 0 | 来源: PHPERZ
R 数据统计分析语言R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
1.rank函数是什么
rank相关文档[1]可以译为"返回原数组(?)中各个元素排序(?)后的秩次(?)",表面上看确实可以得到次序,但对数组、排序、秩次交待不清。
2.rank函数使用情景
比如,在100米赛跑中,甲乙丙三人的成绩为6.8s, 8.1s, 7.2s,那么用rank函数排序获得名次:
> rank(t
[1] 1 3 2
再如,甲乙丙三人考试得分为74,92,85,用同样方法取得名次会适得其反。当然,我们可以认为执行
> rank(-(s
[1] 3 1 2
可以达到目的,但这并未改变rank函数的排序机制。
3.rank函数排序类型
rank(x, na.last = TRUE,
ties.method = c("average", "first", "random", "max", "min"))
> t
> names(t)
通过以上方法进行排序,得出
Result
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
original
4
NaN
4
7
8
2
NaN
9
9
7
NaN
5
2
2
1
average
5.5
13.0
5.5
8.5
10.0
3.0
14.0
11.5
11.5
8.5
15.0
7.0
3.0
3.0
1.0
first
5
13
6
8
10
2
14
11
12
9
15
7
3
4
1
random (1)
6
13
5
9
10
2
14
11
12
8
15
7
3
4
1
random (2)
5
13
6
8
10
2
14
11
12
9
15
7
4
3
1
max
6
13
6
9
10
4
14
12
12
9
15
7
4
4
1
min
5
13
5
8
10
2
14
11
11
8
15
7
2
2
1
我们发现,标签"b","g","k"的次序并未发生改变,可推断ties.method作用在于处理非缺失值的顺序。
不妨参考rank的实现代码
function (x, na.last = TRUE, ties.method = c("average", "first","random", "max", "min"))
{
nas
nm
#names函数暗示了该方法的设计初衷是对一维数组即列向量进行排序,虽然x为矩阵也会得出结果,但nm的作用已经失效,结果不具有意义
ties.method
x
x
#average\min\max采用了相应的.Internal(rank(x, length(x), ties.method)),具体请见[说明2]
#first采用了sort.list(sort.list(x)),具体请见[说明3]
#random采用了sort.list(order(x, stats::runif(sum(!nas)))),具体请见[说明4]
y
length(x), ties.method)), first=sort.list(sort.list(x)),
random=sort.list(order(x, stats::runif(sum(!nas)))))
#下面是补全缺失值的次序的方法
#na.last = "keep",不处理缺失值,na.last = TRUE,后排序缺失值,na.last = FALSE,先排序缺失值。if (!is.na(na.last) &&any(nas)) {
yy
NAkeep
yy[!nas]
yy[nas]
}else{
len
yy[!nas]
yy[nas]
}
y
names(y)
}else names(y)
y
}
[说明1] 关于因子转整数
> f fac as.integer(fac)
[1] 3 4 2 1 1 2 3 5 6 6
由此可见: (1) 因子会作为字符串进行机械比较,排出次序。(2) 因子中任意两个缺失值地位(大小)相同。
实际问题中,因子为人为设定,故采用有序因子(ordered factor),消除机械转换的干扰。
> qulity names(qulity) q rank(q)
day1 day2 day3 day4 day5 day6 day76.0 3.5 6.0 3.5 1.5 6.0 1.5
[说明2]"average", "max", "min" 排序
>t
a b c d e f g h i j k l m n o4 NaN 4 7 8 2 NaN 9 9 7 NaN 5 2 2 1
> rank(t, na.last = "keep", ties.method = "first")
a b c d e f g h i j k l m n o5 NA 6 8 10 2 NA 11 12 9 NA 7 3 4 1
> rank(t, na.last = "keep", ties.method = "average")
a b c d e f g h i j k l m n o5.5 NA 5.5 8.5 10.0 3.0 NA 11.5 11.5 8.5 NA 7.0 3.0 3.0 1.0
可以将"average"排序理解为先对数据进行"first"排序,即全部元素都有唯一且不同的次序。
如f, m, n 得分相同,但可按先后次序排成2, 3, 4, 但是f, m, n属于同一群体,故可以取该群体中的平均水平作为次序,使得分相同的元素地位相当。
故不难理解"max"排序是群体中的元素全部取群中最好的水平,这也是普遍采用的“并列排名”方法;
"min"排序是群体中的元素全部取群体中最差的水平,这样增大了不同等级的顺序差异。
[说明3] first = sort.list(sort.list(x))
对序列先按大小排序,大小相同的元素,从头至尾由小到大排序。
>x
a c d e f h i j l m n o4 4 7 8 2 9 9 7 5 2 2 1
>sort.list(sort.list(x))
[1] 5 6 8 10 2 11 12 9 7 3 4 1
[说明4]random = sort.list(order(x, stats::runif(sum(!nas))))
weight = stats::runif(sum(!nas)) 为每个已知元素生成0-1之间随机数,作为“权重”序列weight
sort.list(order(x, weigth)) 依据随机的“权重”决定得分相同的元素的次序
不妨人为参与权重设计
a c d e f h i j l m n o4 4 7 8 2 9 9 7 5 2 2 1
> weight = c(0.45, 0.55, 0.1, 0.1, 0.1, 0.55, 0.45, 0.1, 0.1, 0.3, 0.1, 0.1);>sort.list(order(x,weight))
[1] 5 6 8 10 2 12 11 9 7 4 3 1
不难发现,a, c 得分均为4,但w(a) = 0.45 < w(c) = 0.55, 遵照小号在前,a 排在c 前面。h, j 刚好相反w(h) = 0.55 > w(j) = 0.45, j 排在h 前面。
d, j 得分,“权重”均相同,故按之前从头到尾递增顺序排列。
f, m, n 得分均为2, w(f) = w(n) = 0.1 < w(m) = 0.3, 排序结果为f < n < m, 由此可见,“权重”优先于“前后顺序”,这样做使得排序更加随机化,若序列存在大量得分相同的元素,一定程度克服了“前小后大”规则的约束,使排序结果更随机。
以上仅为说明随机排序的机制,实际应用中只能确定小数在前大数在后,并不能解释相同的数之间的顺序。
4.rank函数小结
rank(x, na.last = TRUE,
ties.method = c("average", "first", "random", "max", "min"))
(1) rank 函数是对一维度数组、向量x 进行排序。若x 为数值,则按照小数在线大数在后的原则进行排序,若x 为因子,则应参考[说明1]进行顺序因子设计。
P.S. 实际情况中,存在大量用二维表格描述的数据,比如行表示地点列表示时间的统计表,若进行排序,应先通过字符拼接的手段将表格转化为一维的向量,否则结果将失去意义。
(2) rank 将数据分为确定值与缺失值两种。缺失值可按先后排在确定值之间(na.last = FALSE), 也可排在之后(na.last = TRUE), 也可保留,不参与排序(na.last = "keep").
(3) "first" 是最基本的排序,小数在前大数在后,相同元素先者在前后者在后。
"max" 是相同元素都取该组中最好的水平,即通常所讲的并列排序。
"min" 是相同元素都取该组中最差的水平,可以增大序列的等级差异。
"average" 是相同元素都取该组中的平均水平,该水平可能是个小数。
"random" 是相同元素随机编排次序,避免了“先到先得”,“权重”优于“先后顺序”的机制增大了随机的程度。
[1]Returns the sample ranks of the values in a vector. Ties (i.e., equal values) and missing values can be handled in several ways.
相关阅读:
R语言rank函数详细解析
R语言解析字符串示例
R语言函数
R语言读取csv文件示例
R语言卡方检验
R语言生存分析
R语言随机森林
R语言决策树
R语言非线性最小二乘
R语言时间序列分析
R语言协方差分析
R语言泊松回归