weixin_33881050

R语言取子集

https://haoeric.gitbooks.io/r-advanced/content/qu_zi_ji.html

http://adv-r.had.co.nz/Subsetting.html

取子集

R的取子集操作非常快捷灵活。掌握R中的取子集操作能让你用简洁的方式对数据进行复杂的操作，这是其他编程语言所望成莫及的。R的取子集不是那么容易学习，这之前你需要先了解几个相关的概念：

三个取子集操作符。
六种取子集的索引方法。
对不同数据类型（比如向量，列表，因子，矩阵和数据框）取子集结果的不同。
取子集和任务分派的结合使用。

这章将帮助你一步一步掌握R的取子集操作。首先我们从最简单的取子集（即使用[对原子向量取子集）开始讲解，然后慢慢展开，学习对较复杂的数据结构比如数组和列表取子集以及使用其他取子集操作符[[和$。接下来会讲解如何结合取子集和任务分派来修改对象的内容。最后我们来看看一些有用的取子集应用实例。

取子集是str()函数的补充。str()函数帮助你了解对象的数据结构，取子集让你从对象中提取感兴趣的数据片段。

测试

做做这个简单的测试看看你是否需要阅读本章内容。如果你能很快地得到答案，你可以轻松地跳过本章。本章最后提供参考答案。

使用正数索引，负数索引，逻辑向量索引以及字符串向量索引取子集分别有什么不同？
对列表使用[，[[或者$有什么不同？
什么时候需要使用drop = FALSE？
如果x是一个矩阵，x[] <- 0会得到什么结果，这和x <- 0的结果有什么不同？
如何使用向量的名字来重新标记分类变量？

概要

数据结构首先介绍如何使用[以及六种对原子向量取子集的索引方法。然后讲解如何将这六种索引方法应用到列表，矩阵，数据框和S3对象。
取子集操作符介绍另外两种取子集操作符[[和$，着重介绍简化与保留的原则。
在取子集和任务分派学习子分配的艺术，结合使用取子集和分派来修改对象的部分类容。
实例运用带你了解数据分析中取子集的八种常见运用。

索引类型

学习原子向量的取子集是最简单的，原子向量的取子集操作可以很容易地被引申运用到高维和其他更复杂的数据结构。这里我们将从最常用的取子集操作符[开始讲解。后面的取子集操作符一节会介绍另外两种操作符，[[和$。

原子向量

以下用一个简单的向量x来讲解不同的取子集方式。

x <- c(2.1, 4.2, 3.3, 5.4) ＃注意：小数点后面的数实际标明了向量中元素的位置。

你可以用如下六种索引方式对一个向量进行取子集操作：

正整数索引返回向量中特定位置的元素：

x[c(3, 1)]
x[order(x)]# 重复的索引返回重复的值x[c(1, 1)]# 实数默认被去尾为整数x[c(2.1, 2.9)]

负整数索引去除向量中特定位置的元素：
```
x[-c(3, 1)]
```
正整数和负整数不可以在同一个取子集操作中结合使用：
```
x[c(-1, 2)]
```
逻辑向量索引选择对应值为TRUE的元素。这可能是最有用的取子集操作，因为你在代码中常常得到逻辑向量。
```
x[c(TRUE, TRUE, FALSE, FALSE)]
x[x > 3]
```
如果使用的逻辑向量的长度比被取子集的向量长度短，逻辑向量会被循环到与该向量相同的长度。
```
x[c(TRUE, FALSE)]# 等同于x[c(TRUE, FALSE, TRUE, FALSE)]
```
索引中如果出现缺失值，结果中也会对应返回缺失值：
```
x[c(TRUE, TRUE, NA, FALSE)]
```
空索引返回原向量。这对向量取子集没有什么用处，可是对于矩阵，数据框和数组却非常有用。并且还可以和任务分派联合使用。
```
x[]
```
零索引返回一个长度为零的向量。这个不常用，但是可以用来生成测试数据。
```
x[0]
```

字符串向量索引如果向量有名字，你也可以使用字符串向量索引返回与名字相匹配的元素：

(y <- setNames(x, letters[1:4]))
y[c("d", "c", "a")]# 和整数索引一样，你也可以使用重复字符串y[c("a", "a", "a")]# 使用[取子集时，名字必须是完全匹配的z <- c(abc = 1, def = 2)
z[c("a", "d")]

列表

对列表取子集与对原子向量取子集原理相同。使用[将会始终返回一个向量；后面要讲解的[[和$则会提取一个向量中的元素。

矩阵和数组

可以使用如下三种方法对高维数据取子集：

多个向量
单个向量
矩阵

最常用的对矩阵和数组取子集就是对一维向量取子集的简单衍生，即对每一个维度提供一个用逗号彼此隔开的索引。空索引这时就有用处了，它意味着保留所有行，或者所有列。

a <- matrix(1:9, nrow = 3)
colnames(a) <- c("A", "B", "C")
a[1:2, ]
a[c(T, F, T), c("B", "A")]
a[0, -2]

默认情况下，使用[会对结果进行简化和降维。查看简化与保留一节来学习如何避免这种情况。

因为矩阵和数组是由带特殊属性的向量构建成的，这也就意味着你也可以使用一个简单的向量来对它们进行取子集。这中情况下矩阵和数组可以被视为一个向量，注意R中的数组是按列优先顺序排列存储的：

vals <- outer(1:5, 1:5, FUN = "paste", sep = ",")
vals[c(4, 15)]

你也可以使用×××矩阵来对高维数据进行取子集（如果高维数据有名字属性，也可以使用字符串类矩阵）。矩阵中的每一行标明一个元素在高维数据中的坐标，每一列则对应着该高维数据的某一个维度。也就是说，你要使用一个两列的矩阵来对一个矩阵取子集，一个三列的矩阵来对一个三维数组取子集，依此类推。它们输出的结果是一个向量：

vals <- outer(1:5, 1:5, FUN = "paste", sep = ",")
select <- matrix(ncol = 2, byrow = TRUE, c(  1, 1,  3, 1,  2, 4))
vals[select]

数据框

数据框同时拥有列表和矩阵的特性：如果你用单个向量来取子集，那么数据框就表现为列表；如果使用两个向量，数据框则表现为矩阵。

df <- data.frame(x = 1:3, y = 3:1, z = letters[1:3])

df[df$x == 2, ]
df[c(1, 3), ]# 有两种方法对一个数据框的列取子集# 同列表一样df[c("x", "z")]# 同矩阵一样df[, c("x", "z")]# 如果仅取数据框的某一列：使用同矩阵一样的方法则返回值会被简化为向量，但是使用同列表一样方法则不会简化。str(df["x"])
str(df[, "x"])

S3对象

S3对象是由原子向量，数组和列表构成的，因此你可以使用上面介绍的方法以及str()的帮助来对S3对象取子集。

S4对象

对于S4对象有另外的两种取子集的操作符：@(等同于$)和slot()(等同于[[)。@相对于$更严谨，如果对应所取位置不存在则会报错。这在面相对象指南一章中会详细介绍。

练习

找出并修改如下代码中的错误：

mtcars[mtcars$cyl = 4, ]
mtcars[-1:4, ]
mtcars[mtcars$cyl <= 5]
mtcars[mtcars$cyl == 4 | 6, ]

为什么x <- 1:5; x[NA]会返回五个缺失值？（提示：这和x[NA_real_]有什么不同)
upper.tri()返回什么值？使用它对矩阵取子集是如何操作的？我们需要其他的取子集原则来描述它么？
```
x <- outer(1:5, 1:5, FUN = "*")
x[upper.tri(x)]
```
为什么mtcars[1:20]会报错，它和mtcars[1:20, ]有什么不同？
自己编写一个对矩阵取对角元素的函数（要和对矩阵x使用diag(x)的返回值相同）。
df[is.na(df)] <- 0做了什么操作，怎么解释这个代码？

取子集操作符

另外两种取子集操作符分别是[[和$。[[与[相似，使用[[可以提取列表中的元素，但是每次只能返回单个元素。$可以看做是[[的简化，同时它还能结合字符串取子集。

对列表使用[返回值始终是一个列表，然而使用[[则返回列表中的元素。因此，提取列表中的元素时要使用[[:

“如果列表x是一个满载货物的火车，x`5`表示在第五节车厢中的货物，而x[4:6]则表示由四，五，六号车厢组成的小火车。” --- @RLangTip

因为使用[[只能返回单个值，所以使用的索引必须是正整数或者字符串。

a <- list(a = 1, b = 2)
a`1`
a[["a"]]# 如果[[里是一个向量则会迭代索引b <- list(a = list(b = list(c = list(d = 1))))
b[[c("a", "b", "c", "d")]]# 等同于b[["a"]][["b"]][["c"]][["d"]]

因为数据框本质上是由多个列向量构成的列表，所以你也可以使用[[来提取数据框中的某一列，比如mtcars`1`，mtcars[["cyl"]]。

使用[或[[对S3和S4对象进行操作时，他们的结果会因受对象的重写而不同。关键的不同在于简化与保留。所以知道什么是默认操作很重要。

简化与保留

理解简化与保留的不同非常重要。对结果进行简化会将输出信息转化为最简单的数据结构。简化有时候很有用，因为很多时候简化后的返回值会恰好是你想要的结构。对结果进行保留则会保证输出与输入的数据结构类型一致，这对提高程序的稳定性非常重要。在对矩阵和数据框取子集时忽略drop = FALSE是导致程序出错的一种常见原因。（可能在你的测试数据中不会有错误，当别人输入单列的数据框时则会出现错误）

如何切换简化或者保留因数据类型的差异而不同。具体的操作概括如下表：

	简化	保留
向量	x`1`	`x[1]`
列表	x`1`	`x[1]`
因子	`x[1:4, drop = T]`	`x[1:4]`
数组	`x[1, ]` or `x[, 1]`	`x[1, , drop = F]` or `x[, 1, drop = F]`
数据框	`x[, 1]` or x`1`	`x[, 1, drop = F]` or `x[1]`

保留操作对于所有数据类型都是一样的：你得到和输入同样类型的输出。简化操作则对不同的数据类型会有些不同：

原向量：去除名字。
```
x <- c(a = 1, b = 2)
x[1]
x`1`
```
列表：返回列表中的元素而不是单个元素的列表。
```
y <- list(a = 1, b = 2)
str(y[1])
str(y`1`)
```

因子：去掉多余的水平。

z <- factor(c("a", "b"))
z[1]
z[1, drop = TRUE]

矩阵或数组：去掉长度为一的维度。

a <- matrix(1:4, nrow = 2)
a[1, , drop = FALSE]
a[1, ]

数据框：若返回值是单列，则返回一个向量而不是数据框。

df <- data.frame(a = 1:2, b = 1:2)
str(df[1])
str(df`1`)
str(df[, "a", drop = FALSE])
str(df[, "a"])

`$`

$是一个简化操作符，x$y等同于x[["y", exact = FALSE]]。多用于对数据框取子集，比如mtcars$cyl和diamonds$carat。

使用$的一个常用错误是使用一个变量替代某一列的名字：

var <- "cyl"# mtcars$var等同于mtcars[["var"]]，这样返回nullmtcars$var# 换用[[mtcars`var`

$和[[使用上最大的不同是，$采用不完整配对：

x <- list(abc = 1)
x$a
x[["a"]]

你可以修改全域设置，将warnPartialMatchDollar设为TRUE来避免这种操作。但是小心这样设置给其他导入代码（比如其他包中的代码）带来的影响。

缺失索引与出界索引

当使用的索引超出范围(OOB)时，使用[和[[会表现的有所不同。比如，你试图提取一个长度为四的向量的第五个元素，或者使用NA或NULL作为索引：

x <- 1:4str(x[5])
str(x[NA_real_])
str(x[NULL])

下面的表格归纳了在对向量或列表使用[和[[时，当出现出界索引(OOB)或缺失索引时结果的差异：

操作符	索引	原子向量	列表
`[`	OOB	`NA`	`list(NULL)`
`[`	`NA_real_`	`NA`	`list(NULL)`
`[`	`NULL`	`x[0]`	`list(NULL)`
`[[`	OOB	Error	Error
`[[`	`NA_real_`	Error	`NULL`
`[[`	`NULL`	Error	Error

如果输入向量有名字，那么出界索引(OOB)或缺失索引的名字为""。

numeric()[1]
numeric()[NA_real_]
numeric()[NULL]
numeric()`1`
numeric()`NA_real_`
numeric()`NULL`

list()[1]
list()[NA_real_]
list()[NULL]
list()`1`
list()`NA_real_`
list()`NULL`

练习

比如一个线性模型mod <- lm(mpg ~ wt, data = mtcars)，如何对它提取模型中的残余自由度，如何提取summary(mod)中的R平方值。

取子集与任务分派

所有的取子集操作都可以和任务分派结合起来对输入的向量进行选择性地修改。

x <- 1:5x[c(1, 2)] <- 2:3x# LHS的长度必须和RHS一致x[-1] <- 4:1x# 注意：重复的索引不会被除掉，会覆盖前面的赋值x[c(1, 1)] <- 2:3x# 整型索引不能和NA一同使用x[c(1, NA)] <- c(1, 2)# 但是NA可以和逻辑索引一同使用 (这时，NA会被视为false)x[c(T, F, NA)] <- 1x# 这对修改向量中修改符合某种条件的元素很有用处df <- data.frame(a = c(1, 10, NA))
df$a[df$a < 5] <- 0df$a

使用空索引取子集搭配任务分派能保有原对象的类型和结构。比较如下两行代码。第一行中mtcars将保持原类型为数据框，而第二行中mtcars将成为一个列表。

mtcars[] <- lapply(mtcars, as.integer)
mtcars <- lapply(mtcars, as.integer)

对于列表，可以使用取子集＋任务分派＋NULL来去除向量中的某个特定元素。如果要添加一个NULL到一个列表，则可以使用[和list(NULL)：

x <- list(a = 1, b = 2)
x[["b"]] <- NULLstr(x)

y <- list(a = 1)
y["b"] <- list(NULL)
str(y)

实例运用

上面介绍的取子集的基础知识能够被应用到很多的场景中。以下我们会介绍其中最重要的几个运用。有些特定的运用虽然有对应的专门的函数（比如，subset(), merge(), plyr::arrange()），但是了解这些函数是如何通过基础取子集操作来实现的对我们非常有帮助。这让我们能够应对那些没有专门函数来处理的新环境。

查寻表 (字符串取子集)

字符匹配为制作查询表提供了一个强大的机制。比如你想转换一些缩写：

x <- c("m", "f", "u", "f", "f", "m", "m")
lookup <- c(m = "Male", f = "Female", u = NA)
lookup[x]
unname(lookup[x])# 或者更简单的输出c(m = "Known", f = "Known", u = "Unknown")[x]

如果不想在结果汇总出现名字，你可以使用unname()来把它们去掉。

手动匹配和融合 (×××取子集)

你可能有一个更复杂的多列的查询表。比如我们有一个表示成绩的向量，和一个描述它的特性表：

grades <- c(1, 2, 2, 3, 1)

info <- data.frame(
  grade = 3:1,
  desc = c("Excellent", "Good", "Poor"),
  fail = c(F, F, T)
)

我们想要得到每个成绩在特性表中对应的信息。我们有两种途径来获得，一种是使用match()做×××取子集，另外一种是使用rownames()做字符串取子集：

# 使用 matchid <- match(grades, info$grade)
info[id, ]# 使用 rownamesrownames(info) <- info$grade
info[as.character(grades), ]

如果你有多列需要匹配，那么你需要先使用interaction()，paste()或者plyr::id()将它们转换成单列。你也可以使用merge()或plyr::join()来做同样的事。请查看对应函数的源代码来学习如何实现。

随机取样/自助法 (整型取子集)

你可以使用×××索引来对一个向量或者数据框进行随机取样和自助取样。首先使用sample()函数生成一个随机索引向量，然后对对象取子集。

df <- data.frame(x = rep(1:3, each = 2), y = 6:1, z = letters[1:6])# 为可重复性操作设置种子set.seed(10)# 随机重排df[sample(nrow(df)), ]# 随机取3排df[sample(nrow(df), 3), ]# 取6个自助样本df[sample(nrow(df), 6, rep = T), ]

设置sample()函数的参数来调整取样的个数，以及是否重复取样。

排序 (×××取子集)

order()函数的输入是一个向量，返回一个存储该向量排列顺序的整型向量。

x <- c("b", "c", "a")
order(x)
x[order(x)]

可以给order()函数提供额外参数来重排并列值的顺序。可以使用decreasing = TRUE将返回结果变成降序排列。默认情况下，缺失值会被排在最后；可以使用na.last = NA来去除它们，或者使用na.last = FALSE将它们放在最前面。

当目标对象是二维或更高维时，可以使用order()和×××索引来简单地对行或者列排序：

# 随机重排dfdf2 <- df[sample(nrow(df)), 3:1]
df2

df2[order(df2$x), ]
df2[, order(names(df2))]

使用sort()可以对向量进行排序，plyr::arrange()则可以对数据框排序。

展开汇总计数 (整型取子集)

有时候你的数据框中的重复行可能被汇总为一行，同时添加一列来标记重复的次数。可以使用rep()生成有重复的行×××索引来展开汇总计数：

df <- data.frame(x = c(2, 4, 1), y = c(9, 11, 6), n = c(3, 5, 1))
rep(1:nrow(df), df$n)
df[rep(1:nrow(df), df$n), ]

去除数据框中的某列 (字符串取子集)

有两种方法来去除数据框中的某列。一种是将该列设为NULL：

df <- data.frame(x = 1:3, y = 3:1, z = letters[1:3])
df$z <- NULL

另外一种是生成只包含你想要的列的新数据框：

df <- data.frame(x = 1:3, y = 3:1, z = letters[1:3])
df[c("x", "y")]

如果你知道你不想要的列信息，使用setdiff筛选出你想要保留的列：

df[setdiff(names(df), "z")]

有条件的行筛选 (逻辑型取子集)

因为我们能很容易地整合多列的条件判断，所以逻辑型取子集应该是对数据框进行行筛选的最常用的方法。

mtcars[mtcars$gear == 5, ]
mtcars[mtcars$gear == 5 & mtcars$cyl == 4, ]

注意使用向量型逻辑运算符&和|，而不是缩短的标量型逻辑运算符&&和||，&&和||在if条件判断中比较有用。灵活运用德摩根定律可以大大简化否定的逻辑操作。

!(X & Y) 等同于 !X | !Y
!(X | Y) 等同于 !X & !Y

比如 !(X & !(Y | Z)) 可以简化成 !X | !!(Y|Z)，更进一步成!X | Y | Z。

subset()是专门用来对数据框取子集的速记函数。使用subset()可以免掉重复输入数据框的名字从而节省代码。在非标准评估一章，你会学习subset()的工作原理。

subset(mtcars, gear == 5)
subset(mtcars, gear == 5 & cyl == 4)

逻辑运算 vs. 集合运算 (逻辑型 & ×××取子集)

认识逻辑运算（逻辑型取子集）和集合运算（整型取子集）本质上的相同点非常有用，而使用集合运算更为高效：

你想知道第一个（或最后一个）TRUE。
你有很多的FALSE却比较少的TRUE；使用集合运算更快更节省内存。

which()可以帮助你将逻辑型转换为×××表示。在基础R中没有which()的逆操作，但是我们可以很容易的编写一个：

x <- sample(10) < 4which(x)

unwhich <- function(x, n) {
  out <- rep_len(FALSE, n)
  out[x] <- TRUE
  out
}
unwhich(which(x), 10)

我们创建两个逻辑型向量和对应的整型向量来探索一下逻辑运算和集合运算之间的关系。

(x1 <- 1:10 %% 2 == 0)
(x2 <- which(x1))
(y1 <- 1:10 %% 5 == 0)
(y2 <- which(y1))# X & Y <-> intersect(x, y)x1 & y1
intersect(x2, y2)# X | Y <-> union(x, y)x1 | y1
union(x2, y2)# X & !Y <-> setdiff(x, y)x1 & !y1
setdiff(x2, y2)# xor(X, Y) <-> setdiff(union(x, y), intersect(x, y))xor(x1, y1)
setdiff(union(x2, y2), intersect(x2, y2))

刚开始学习取子集的一个常见错误是使用x[which(y)]而不是x[y]。这里的which()没有什么意义：它将逻辑型转换为×××索引，可是结果确实完全一样的。同时注意x[-which(y)]不等同于x[!y]：当y全是FALSE时，which(y)会返回integer(0)，那么-integer(0)依然是integer(0)，因此你会得到空值而不是所有的值。因此，除非你确实需要（比如提取第一个或最后一个TRUE值），尽量避免将逻辑型取子集转换为整型取子集。

练习

如何随机的打乱一个数据框的列？（这在随机深林方法中是非常重要的一步）你又如何同时将数据框的行和列打乱？
如何从一个数据框中随机的提取一个m行的子集？
如何使数据框的列按字符顺序排列？

参考答案

正整数索引提取特定位置的元素，而负整数索引去除特定位置的元素；逻辑型索引保留对应位置为TRUE的元素；字符串索引筛选和名字匹配的元素。
[用来取子列表，并且总是返回列表；如果使用长度为1的×××索引，它将返回长度为1的一个列表。[[提取列表中的某个元素。$是一个便捷的速记符，x$y等同于x[["y"]]。
在对一个矩阵、数组或者数据框取子集时，如果你想要保留原有的数据维度，使用drop = FALSE。在某个函数中取子集，最好总是设置drop = FALSE。
如果x是一个矩阵，x[] <- 0会将每一个元素替换为0，保留原有的行数和列数。x <- 0则将整个矩阵替换为0。
一个带有名字的向量可以被用来作为一个简单的查询表： c(x = 1, y = 2, z = 3)[c("y", "z", "x")]

转载于:https://blog.51cto.com/h2appy/1877348

你可能感兴趣的:(R语言取子集)

Hive适用语法 `whyYa hive hadoop 数据仓库
一、日期处理函数总结1.trunc()–取日期中当月第一天trunc(‘2022-12-05’,‘MM’)--取当月第一天2022-12-01trunc(‘2022-12-05’,‘Q’)--季度中的第一天2022-10-01trunc(‘2022-12-03’,‘YEAR’)–取当年第一天20222.last_day()–取当月最后一天last_day(‘2022-12-03’)3.month(
Java程序员能菜到什么程度？看完这些代码我裂开了！后端java程序员
家人们，今天咱来唠唠那些让人一言难尽的Java代码。咱搞Java开发，都想写出高效、简洁又好维护的代码，可总有那么些让人怀疑人生的代码出现。下面我就给大伙分享几个真实场景里的“神操作”，结合完整代码，看看这些代码能离谱到啥地步。变量命名之乱，堪比迷宫探险咱先说说变量命名。这就好比给孩子取名字，好名字让人一听就记住，要是乱取，那可就麻烦大了。之前我接手一个电商项目，里面有个计算商品总价的功能。我打开
CDN分发加速技术详解 Dream Algorithm 网络架构
CDN核心原理与架构1.基本工作原理边缘节点缓存：将内容分发到离用户最近的边缘服务器DNS智能解析：引导用户访问最优节点内容预取与缓存：热点内容提前部署到边缘2.典型CDN架构组成用户请求→智能DNS→边缘节点(EdgeServer)↑二级节点(Mid-tier)↑源站(OriginServer)关键加速技术1.静态内容加速缓存策略优化：#Nginx缓存配置示例location~*\.(jpg|j
Docker免费时代终结？2025最新开源政策与替代方案全解析 109702008 编程 docker 开源人工智能
标签:#Docker#容器技术#云原生#开源治理引言：从全民免费到分层收费，Docker经历了什么？“曾经的开源先锋，如今因商业策略频遭争议。”2023年起，DockerHub取消免费组织账户，2024年拉取限流升级，2025年服务账户开始按量收费——这一系列动作让开发者不得不重新思考：Docker还是当初那个‘开源宠儿’吗？本文将结合技术演进与商业逻辑，为你揭开真相。一、Docker的核心：开源
4篇2章5节：ANOVA 功效的单次精确模拟与可视化全解析 MD分析用R探索医药数据科学 r语言-4.2.1 r语言功效曲线单次精确模拟分析
在医学研究尤其是糖尿病等干预性试验中，精准的实验设计与功效分析是确保研究价值的关键。R语言为重复测量方差分析（ANOVA）提供了强大工具，从实验设计构建、单次精确模拟分析，到功效曲线可视化，覆盖研究全流程。本文结合糖尿病胰岛素治疗试验案例，深度拆解函数的应用逻辑，手把手教你用数据驱动实验设计，让“样本量规划”“效应检测能力”从抽象概念变为可操作、可视化的研究支撑。一、相关函数的介绍在医学研究中，实
R语言如何接入实时行情接口
目录1.安装必要的R包2.导入库3.连接WebSocket4.处理连接成功后的操作5.处理接收到的消息6.处理连接关闭和错误7.发送心跳数据8.自动重连机制9.启动连接和重连总结在数据分析和金融研究中，实时行情数据的获取至关重要，但市面上的实时行情接口并不多，本文将一步步教你如何使用R语言接入实时行情接口，获取来自WebSocket的实时数据。1.安装必要的R包首先，确保你已安装了以下R包，用于处
软件测试（功能、接口、性能、自动化）详解 | 测试人生路
一、软件测试功能测试测试用例编写是软件测试的基本技能；也有很多人认为测试用例是软件测试的核心；软件测试中最重要的是设计和生成有效的测试用例；测试用例是测试工作的指导，是软件测试的必须遵守的准则。黑盒测试常见测试用例编写方法1、等价类选取少数有代表性的数据，这一类数据等价于这一类的其它值；找出最小的子集，可以发现最多的错误；特性：必须设计的用例；涵盖了大部分情况；2、边界值所谓边界条件，是指输入和输
pnpm的安装及其使用愉快的小跳蛙 vue.js 前端 javascript node.js npm
需求：拉取依赖时有时npm或者yarn无法拉取某个依赖思路：通过pnpm来拉取便能解决问题一.pnpm的安装1.通过npm来安装（node版本>18.12）###这个如果你使用了nvm等工具来管理node的话，当你切换node版本时nvm需要重新安装####全局安装pnpmnpminstall-gpnpm#验证安装pnpm--version2.通过脚本安装###这个安装之后不会随着node等版本的
使用Docker搭建Oracle19c运行环境 luomo0203 docker 数据库 oracle
一、拉取镜像（这里是我使用oracle官方的dockerfile构建的镜像）$dockerpullregistry.cn-hangzhou.aliyuncs.com/it-boy/oracle19cUsingdefaulttag:latestlatest:Pullingfromit-boy/oracle19cf09c1d3b7e7b:Pullcompletee21babc95602:Pullcom
内核、指令集和架构：【3】M0和M3 学点东西吧 arm开发 stm32
指令集确实是与内核紧密对应的，不同的内核通常对应着不同的指令集或指令集扩展。ARMCortex-M系列的内核（M0,M0+,M3,M4,M7,M23,M33,M55等）都基于ARMv6-M或ARMv7-M或ARMv8-M架构，它们共享核心的32位RISC设计理念和Thumb/Thumb-2指令集基础，但在支持的指令子集、性能、功能和扩展方面存在显著差异。Cortex-M3与Cortex-M0/M0
华为OD机试 - 取零食 - 动态规划（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od 动态规划 python
2025华为OD机试题库（按算法分类）：2025华为OD统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随
【漏洞挖掘】——121、Xpath注入深入刨析 FLy_鹏程万里【WEB渗透】XPath注入 SQL注入 Web渗透信息安全网络安全 web渗透
基本介绍XPath即为XML路径语言，是W3CXSLT标准的主要元素，它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。它是一种用来在内存中导航整个XML树的语言，它的设计初衷是作为一种面向XSLT和XPointer的语言，后来独立成了一种W3C标准，XPath基于XML的树状结构，有不同类型的节点，包括元素节点，属性节点和文本节点，提供在数据结构树中找寻节点的能力，可用来在
力扣-31.下一个排列 এ᭄画画的北北 java二刷力扣hot100 leetcode 算法
题目链接31.下一个排列classSolution{publicvoidnextPermutation(int[]nums){//1.从右往左找第一个非逆序的数aintleft=nums.length-2;//这里是为了找不到顺序对的时候正好停在-1while(left>=0&&nums[left]>=nums[left+1]){//一定要取等号，因为相等要继续寻找left--;}//2.从右往左
微服务项目网关集成swagger bbober 后端-微服务-框架微服务架构云原生
微服务项目网关中集成swagger并使用knife4j进行增强前言本文场景为：使用SpringCloud框架，MyBatisPlus持久层框架；注册中心：nacos，配置中心：nacos；主要模块有：业务模块、网关模块、common模块（共享）；网关路由从配置中心动态拉取；其他情况动态调整。spring-boot-start版本：2.7.12（3版本以上只支持OpenApi3规范，差距较大）使用O
解决lombok注解失效问题
Lombok注解失效是Java开发中的常见问题，通常由依赖配置、IDE支持或构建工具设置引起。最近在拉取别人springboot3+jdk21版本的项目时遇到了lombok注解失效，导致项目无法启动的问题，以下是我的解决方案：首先检查idea的lombok的注解设置：务必和默认设置一样！！！以下是网上的一些解决方案，希望对大家有所帮助：一、检查依赖配置Maven项目在pom.xml中确保依赖包含a
【R语言】Can‘t subset elements that don‘t exist. 新子y r语言开发语言 excel
Errorin`select()`:ℹInargument:`all_of(label_col)`.Causedbyerrorin`all_of()`:!Can'tsubsetelementsthatdon'texist.✖Element`Label`doesn'texist.Run`rlang::last_trace()`toseewheretheerroroccurred.原文中文解释涉及关键
r读取文件夹下的所有csv文件_R语言读取文件夹下多个文件并进行合并数据生成总数据文件... seiji morisako r读取文件夹下的所有csv文件
在流水化办公中，通常有格式统一的表格文件产生，但是到最后要将这一堆表格文件整合为大表却很揪心，累断手，如何用R语言进行一次性导入整合呢？假设我们将D:/input文件夹作为需要导入的表格的存放点，文件夹内所有文件均为此次需要导入数据，那么可以用以下程序进行操作setwd("D:/")#设定工作目录为D盘a=list.files("input")#list.files命令将input文件夹下所有文件
从0开始学习R语言--Day41--Moran‘s I Chef_Chen 学习
在处理带有空间特征的数据，我们往往都直接一股脑地处理数据点，但很多时候，空间上的信息对于处理后续衍生出来的问题会有很大帮助，例如对于城市里大小县城的发展情况，只知道单一县城的经济发展曲线，很难解释一些拐点和突然的攀升，而如果知道相邻县城存在经济发展飞快的例子，可能就是被带动了经济水平；亦或者是在处理社交网络的好有问题时，只知道谁和谁是朋友（类似于空间矩阵），是无法推断出经济收入相似的推论的，所以说
解决登录Docker Desktop后Unable to pull postgres:latest (HTTP code 401) unexpected - authentication xxx报错
博主刚刚安装好DockerDesktop在拉取镜像时出现了这个报错解决方法打开命令行，输入：dockerlogin然后按照提示，输入与dockerdesktop相同的用户名username与密码password，回车即可看到：LoginSucceeded然后就可以操控DockerDesktop拉取镜像什么的了问题解析参考链接https://github.com/docker/hub-feedbac
结构方程模型（SEM）高阶应用系列梦想的初衷~ 结构方程生态环境 python 开发语言结构方程
结构方程模型（StructuralEquationModeling）是分析多变量间因果关系的利器，在众多学科领域具有巨大应用潜力。我们前期推出的《基于R语言结构方程模型》通过结构方程原理介绍、结构方程全局和局域估计、模型构建和调整、潜变量分析、复合变量分析及结构方程贝叶斯方法实现等一系列专题的介绍及大量案例讲解，由浅入深地系统介绍了结构方程模型的建立、拟合、评估、筛选和结果展示全过程，得到学员广泛
r语言改变数据框列名_数据决定离线强化学习将如何改变我们的语言习惯杨_明 python 大数据人工智能 java 机器学习
r语言改变数据框列名重点(Tophighlight)Aridesharingcompanycollectsadatasetofpricinganddiscountdecisionswithcorrespondingchangesincustomeranddriverbehavior,inordertooptimizeadynamicpricingstrategy.Anonlinevendorrec
Apache Nutch介绍与部署编译
一、Nutch概述ApacheNutch是一个开放源代码的Java搜索引擎框架，它提供了运行自己的搜索引擎所需要的全部工具，包括全文搜索和Web爬虫，使用Nutch不仅可以建立自己内部网的搜索引擎，同时也可以针对整个网络建立搜索引擎。【软件特色】1、Nutch致力于让每个人能很容易，同时花费很少就可以配置世界一流的Web搜索引擎2、每个月取几十亿网页3、为这些网页维护一个索引4、对索引文件进行每秒
蓝桥杯51单片机设计
#超声波原理#①超声波测距原理：声波反射原理声波分类：超声波测距原理超声波频率越高，波长越短，反身性越强，衍射性越弱②超声波模块原理发射原理跳线帽接收原理问题：１.超声波发射模块需要一直发射吗？不需要，否则很难确定接收的回波对应哪一个发射波所以我们一般发射较短时间２.发射持续时间多久？一般是５～８个周期，这个就大致取一个即可若为５个周期，ｔ＝１２ｕｓ＊１０程序设计：一般用定时器０①产生一个２４ｕｓ
【数据分析】R语言基于虚弱指数的心血管疾病风险评估生信学习者1 数据分析 (2025版)数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理画图其他1其他2其他3其他4总结系统信息介绍生存分析是医学和生物统计学中常用的方法，用于研究事件（如疾病发生、死亡等）发生的时间和相关影响因素。本文介绍了一种基于R语言的生存分析方法，用于评估虚弱指数（FrailtyIndex,FI）对心血管疾病（CVD）发生风险的影响。通过这
华为机试-入门（Python）
牛客/华为机试/题库/在线编程开发技巧：反向思维、先易后难、先死后活puthon开发文档教程-语法特性/库参考-标准库与内置对象/语言参考-内置函数提示：满足题目输入输出条件，input()中不必有提示语，否则在线编辑器会将提示语算作实际输出，导致结果错误。入门HJ7取近似值题目描述写出一个程序，接受一个正浮点数值，输出该数值的近似整数值。如果小数点后数值大于等于0.5,向上取整；小于0.5，则向
构建高效分布式系统：bRPC组合Channels与HTTP/H2访问指南 Jay Kay brpc c++http 网络协议网络 brpc
构建高效分布式系统：bRPC组合Channels与HTTP/H2访问指南引言在现代分布式系统中，下游服务访问的复杂性日益增加。bRPC通过组合Channels和HTTP/H2访问优化，提供了解决多层级RPC调用、负载均衡和协议兼容性问题的完整方案。本文将深入解析两大核心功能，助力开发者构建高性能服务。一、组合Channels：复杂访问模式的优雅抽象1.核心价值统一接口：同步/异步调用、超时控制、取
【科研绘图系列】R语言绘制论文组合图（multiple plots）生信学习者1 SCI科研绘图系列 (2025版)r语言数据分析数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载函数数据预处理画图1画图2画图3画图4画图5画图6总结系统信息介绍这段代码是一个用于生成多种复杂数据可视化的R脚本，主要利用ggplot2、tidyverse和自定义函数来处理和展示与小鼠实验相关的数据。它通过读取、处理数据，并生成多种图形，旨在清晰地展示不同实验组的小鼠在不同时间点的抗体浓度和
python聚合函数aggregate和annotate的小坑你喝不喝热水啊 python python
最近在工作项目中发现了一个坑，就是关于aggregate和annotate这两个聚合函数的区别用法。现在百度上很多搜索的答案对初学者不是很友好，就是直接给出了一句代码，然后也不讲清楚，就用annotate后的结果取第一条（如：a[0]）取值。这样就导致很多初学者也不会去思考太多，直接copy下来就用，最后导致数据汇总有问题（也不止初学者了，项目组里面有些工作了几年的人都不知道二者区别，也是百度到了
【机器学习笔记 Ⅱ】4 神经网络中的推理
推理（Inference）是神经网络在训练完成后利用学到的参数对新数据进行预测的过程。与训练阶段不同，推理阶段不计算梯度也不更新权重，仅执行前向传播。以下是其实现原理和代码示例的完整解析：1.推理的核心步骤加载训练好的模型参数（权重和偏置）。前向传播：输入数据逐层计算，得到输出。后处理：根据任务类型解析输出（如分类取概率最大值，回归直接输出）。2.代码实现（Python+NumPy）(1)定义模型
如何解决Ubuntu服务器拉取github代码失败徐方芳 github
使用gitclone拉取GitHub代码时出现以下错误：fatal:unabletoaccess'https://github.com/XXX':Failedtoconnecttogithub.comport443after133795ms:Connectiontimedout通过查找资料，找到解决办法，可以通过运行以下代码解决：gitconfig--global--unsethttp.proxy
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR