Kingsley_W

【R语言】必学包之dplyr包

R包dplyr可用于处理R内部或者外部的结构化数据，相较于plyr包，dplyr专注接受dataframe对象, 大幅提高了速度,并且提供了更稳健的数据库接口。同时，dplyr包可用于操作Spark的dataframe。本文只是基础的dplyr包学习笔记，所以并不会讨论一些高级应用，或者与data.table包的性能比较。

1. 数据集类型转换

tbl_df()可用于将过长过大的数据集转换为显示更友好的 tbl_df 类型。使用dplyr包处理数据前，建议先将数据集转换为tbl对象。

语法： tbl_df(data)

举例 1：

#data.frame类型数据集
class(mtcars)
#转换为tbl_df类型
ds <- tbl_df(mtcars)
#转换为data.frame类型
df <- as.data.frame(ds)

2. 筛选: filter

filter() 和slice()函数可以按给定的逻辑条件筛选出符合要求的子数据集, 类似于 base::subset() 函数，但代码更加简洁, 同时也支持对同一对象的任意个条件组合（表示AND时要使用&或者直接使用逗号），返回与.data相同类型的对象。原数据集行名称会被过滤掉。

语法： filter(.data, ...)

举例 1：

#过滤出cyl == 8的行
filter(mtcars, cyl == 8)
filter(mtcars, cyl < 6)
#过滤出cyl < 6 并且 vs == 1的行
filter(mtcars, cyl < 6 & vs == 1)
filter(mtcars, cyl < 6, vs == 1)
#过滤出cyl < 6 或者 vs == 1的行
filter(mtcars, cyl < 6 | vs == 1)
#过滤出cyl 为4或6的行
filter(mtcars, cyl %in% c(4, 6))

语法： slice(.data, ...)

slice() 函数通过行号选取数据。

举例 2：

#选取第一行数据
slice(mtcars, 1L)
filter(mtcars, row_number() == 1L)
#选取最后一行数据
slice(mtcars, n())
filter(mtcars, row_number() == n())
#选取第5行到最后一行所有数据
slice(mtcars, 5:n())
filter(mtcars, between(row_number(), 5, n()))

3. 排列: arrange

arrange()按给定的列名依次对行进行排序，类似于base::order()函数。默认是按照升序排序，对列名加 desc() 可实现倒序排序。原数据集行名称会被过滤掉。

语法： arrange(.data, ...)

举例1：

#以cyl和disp联合升序排序
arrange(mtcars, cyl, disp)
#以disp降序排序
arrange(mtcars, desc(disp))

4. 选择: select

select()用列名作参数来选择子数据集。dplyr包中提供了些特殊功能的函数与select函数结合使用，用于筛选变量，包括starts_with，ends_with，contains，matches，one_of，num_range和everything等。用于重命名时，select()只保留参数中给定的列，rename()保留所有的列，只对给定的列重新命名。原数据集行名称会被过滤掉。

语法： select(.data, ...)

举例 1：

iris <- tbl_df(iris)
#选取变量名前缀包含Petal的列
select(iris, starts_with("Petal"))
#选取变量名前缀不包含Petal的列
select(iris, -starts_with("Petal"))
#选取变量名后缀包含Width的列
select(iris, ends_with("Width"))
#选取变量名后缀不包含Width的列
select(iris, -ends_with("Width"))
#选取变量名中包含etal的列
select(iris, contains("etal"))
#选取变量名中不包含etal的列
select(iris, -contains("etal"))
#正则表达式匹配，返回变量名中包含t的列
select(iris, matches(".t."))
#正则表达式匹配，返回变量名中不包含t的列
select(iris, -matches(".t."))
#直接选取列
select(iris, Petal.Length, Petal.Width)
#返回除Petal.Length和Petal.Width之外的所有列
select(iris, -Petal.Length, -Petal.Width)
#使用冒号连接列名，选择多个列
select(iris, Sepal.Length:Petal.Width)
#选择字符向量中的列，select中不能直接使用字符向量筛选，需要使用one_of函数
vars <- c("Petal.Length", "Petal.Width")
select(iris, one_of(vars))
#返回指定字符向量之外的列
select(iris, -one_of(vars))
#返回所有列，一般调整数据集中变量顺序时使用
select(iris, everything())
#调整列顺序，把Species列放到最前面
select(iris, Species, everything())

举例 2：

df <- as.data.frame(matrix(runif(100), nrow = 10))
df <- tbl_df(df[c(3, 4, 7, 1, 9, 8, 5, 2, 6, 10)])
#选择V4，V5，V6三列
select(df, V4:V6)
select(df, num_range("V", 4:6))

语法： rename(.data, ...)

举例 3：

#重命名列Petal.Length，返回子数据集只包含重命名的列
select(iris, petal_length = Petal.Length)
#重命名所有以Petal为前缀的列，返回子数据集只包含重命名的列
select(iris, petal = starts_with("Petal"))
#重命名列Petal.Length，返回全部列
rename(iris, petal_length = Petal.Length)

5.变形: mutate

mutate()和transmute()函数对已有列进行数据运算并添加为新列，类似于base::transform() 函数, 不同的是可以在同一语句中对刚增添加的列进行操作。mutate()返回的结果集会保留原有变量，transmute()只返回扩展的新变量。原数据集行名称会被过滤掉。

语法： mutate(.data, ...)

transmute(.data, ...)

举例 1：

#添加新列wt_kg和wt_t,在同一语句中可以使用刚添加的列
mutate(mtcars, wt_kg = wt * 453.592, wt_t = wt_kg / 1000)
#计算新列wt_kg和wt_t，返回对象中只包含新列
transmute(mtcars, wt_kg = wt * 453.592, wt_t = wt_kg / 1000)

6. 去重: distinct

distinct()用于对输入的tbl进行去重，返回无重复的行，类似于 base::unique() 函数，但是处理速度更快。原数据集行名称会被过滤掉。

语法：distinct(.data, ..., .keep_all = FALSE)

举例 1：

df <- data.frame(
  x = sample(10, 100, rep = TRUE),
  y = sample(10, 100, rep = TRUE)
)
#以全部两个变量去重，返回去重后的行数
nrow(distinct(df))
nrow(distinct(df, x, y))
#以变量x去重，只返回去重后的x值
distinct(df, x)
#以变量y去重，只返回去重后的y值
distinct(df, y)
#以变量x去重，返回所有变量
distinct(df, x, .keep_all = TRUE)
#以变量y去重，返回所有变量
distinct(df, y, .keep_all = TRUE)
#对变量运算后的结果去重
distinct(df, diff = abs(x - y))

7. 概括: summarise

对数据框调用函数进行汇总操作, 返回一维的结果。返回多维结果时会报如下错误：
Error: expecting result of length one, got : 2
原数据集行名称会被过滤掉。

语法：summarise(.data, ...)

举例 1：

#返回数据框中变量disp的均值
summarise(mtcars, mean(disp))
#返回数据框中变量disp的标准差
summarise(mtcars, sd(disp))
#返回数据框中变量disp的最大值及最小值
summarise(mtcars, max(disp), min(disp))
#返回数据框mtcars的行数
summarise(mtcars, n())
#返回unique的gear数
summarise(mtcars, n_distinct(gear))
#返回disp的第一个值
summarise(mtcars, first(disp))
#返回disp的最后个值
summarise(mtcars, last(disp))

8. 抽样: sample

抽样函数，sample_n()随机抽取指定数目的样本，sample_frac()随机抽取指定百分比的样本，默认都为不放回抽样，通过设置replacement = TRUE可改为放回抽样，可以用于实现Bootstrap抽样。

语法：sample_n(tbl, size, replace = FALSE, weight = NULL, .env = parent.frame())

举例 1：

#随机无重复的取10行数据
sample_n(mtcars, 10)
#随机有重复的取50行数据
sample_n(mtcars, 50, replace = TRUE)
#随机无重复的以mpg值做权重取10行数据
sample_n(mtcars, 10, weight = mpg)

语法： sample_frac(tbl, size = 1, replace = FALSE, weight = NULL,.env = parent.frame())
举例 2：

#默认size=1，相当于对全部数据无重复重新抽样
sample_frac(mtcars)
#随机无重复的取10%的数据
sample_frac(mtcars, 0.1)
#随机有重复的取总行数1.5倍的数据
sample_frac(mtcars, 1.5, replace = TRUE)
#随机无重复的以1/mpg值做权重取10%的数据
sample_frac(mtcars, 0.1, weight = 1 / mpg)

9. 分组: group

group_by()用于对数据集按照给定变量分组，返回分组后的数据集。对返回后的数据集使用以上介绍的函数时，会自动的对分组数据操作。

语法：group_by(.data, ..., add = FALSE)

举例 1：

#使用变量cyl对mtcars分组，返回分组后数据集
by_cyl <- group_by(mtcars, cyl)
#返回每个分组中最大disp所在的行
filter(by_cyl, disp == max(disp))
#返回每个分组中变量名包含d的列，始终返回分组列cyl
select(by_cyl, contains("d"))
#使用mpg对每个分组排序
arrange(by_cyl,  mpg)
#对每个分组无重复的取2行记录
sample_n(by_cyl, 2)

举例 2：

#使用变量cyl对mtcars分组，然后对分组后数据集使用聚合函数
by_cyl <- group_by(mtcars, cyl)
#返回每个分组的记录数
summarise(by_cyl, n())
#求每个分组中disp和hp的均值
summarise(by_cyl, mean(disp), mean(hp))
#返回每个分组中唯一的gear的值
summarise(by_cyl, n_distinct(gear))
#返回每个分组第一个和最后一个disp值
summarise(by_cyl, first(disp))
summarise(by_cyl, last(disp))
#返回每个分组中最小的disp值
summarise(by_cyl, min(disp))
summarise(arrange(by_cyl,  disp), min(disp))
#返回每个分组中最大的disp值
summarise(by_cyl, max(disp))
summarise(arrange(by_cyl,  disp), max(disp))
#返回每个分组中disp第二个值
summarise(by_cyl, nth(disp,2))

举例 3：

#使用cyl对数据框分组
grouped <- group_by(mtcars, cyl)
#获取分组数据集所使用的分组变量
groups(grouped)
#ungroup从数据框中移除组合信息，因此返回的分组变量为NULL
groups(ungroup(grouped))

语法：group_indices(.data, ...)
返回分组后，每条记录的分组id。

举例 4：

#返回每条记录所在分组id组成的向量
group_indices(mtcars, cyl)

语法： group_size(x)

n_groups(x)

group_size用于返回每个分组的记录数，n_groups返回分成的组数。

举例 5：

by_cyl <- group_by(mtcars, cyl)
#返回每个分组记录数组成的向量
group_size(by_cyl)
summarise(by_cyl, n())
table(mtcars$cyl)
#返回所分的组数
n_groups(by_cyl)
length(group_size(by_cyl))

对数据集的每个分组计数，类似于base:: table()函数。其中count已经过group_by分组，而tally需要对数据集调用group_by后对分组数据计数。
语法：tally(x, wt, sort = FALSE)
count(x, ..., wt =NULL, sort = FALSE)

举例 6：

#使用count对分组计数，数据已按变量分组
count(mtcars, cyl)
#设置sort=TRUE，对分组计数按降序排序
count(mtcars, cyl, sort = TRUE)
#使用tally对分组计数，需要使用group_by分组
tally(group_by(mtcars, cyl))
#使用summarise对分组计数
summarise(group_by(mtcars, cyl), n())

举例 7：

#按cyl分组，并对分组数据计算变量的gear的和
count(mtcars, cyl, wt = gear)
tally(group_by(mtcars, cyl), wt = gear)

10. 数据关联：join

数据框中经常需要将多个表进行连接操作, 如左连接、右连接、内连接等，dplyr包也提供了数据集的连接操作，类似于 base::merge() 函数。语法如下：

#内连接，合并数据仅保留匹配的记录

inner_join(x,y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)

#左连接，向数据集x中加入匹配的数据集y记录

left_join(x,y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)

#右连接，向数据集y中加入匹配的数据集x记录

right_join(x,y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)

#全连接，合并数据保留所有记录，所有行

full_join(x,y, by = NULL, copy = FALSE, suffix = c(".x", ".y"), ...)

#返回能够与y表匹配的x表所有记录

semi_join(x,y, by = NULL, copy = FALSE, ...)

#返回无法与y表匹配的x表的所有记录

anti_join(x, y, by = NULL, copy = FALSE, ...)

by设置两个数据集用于匹配的字段名，默认使用全部同名字段进行匹配，如果两个数据集需要匹配的字段名不同，可以直接用等号指定匹配的字段名，如， by = c("a" = "b")，表示用x.a和y.b进行匹配。如果两个数据集来自不同的数据源，copy设置为TRUE时，会把数据集y的数据复制到数据集x中，出于性能上的考虑，需要谨慎设置copy参数为TRUE。合并后的数据集中同名变量，会自动添加suffix中设置的后缀加以区分。

举例 1：

df1 = data.frame(CustomerId=c(1:6), sex = c("f", "m", "f", "f", "m", "m"), Product=c(rep("Toaster",3), rep("Radio",3)))
df2 = data.frame(CustomerId=c(2,4,6,7),sex = c( "m", "f", "m", "f"), State=c(rep("Alabama",3), rep("Ohio",1)))
#内连接，默认使用"CustomerId"和"sex"连接
inner_join(df1, df2)
#左连接，默认使用"CustomerId"和"sex"连接
left_join(df1, df2)
#右连接，默认使用"CustomerId"和"sex"连接
right_join(df1, df2)
#全连接，默认使用"CustomerId"和"sex"连接
full_join(df1, df2)
#内连接，使用"CustomerId"连接，同名字段sex会自动添加后缀
inner_join(df1, df2, by = c("CustomerId" = "CustomerId"))
#以CustomerId连接，返回df1中与df2匹配的记录
semi_join(df1, df2, by = c("CustomerId" = "CustomerId"))
#以CustomerId和sex连接，返回df1中与df2不匹配的记录
anti_join(df1, df2)

11. 集合操作: set

dplyr也提供了集合操作函数，实际上是对base包中的集合操作的重写，但是对数据框和其它表格形式的数据操作更加高效。语法如下：

#取两个集合的交集

intersect(x,y, ...)

#取两个集合的并集，并进行去重

union(x,y, ...)

#取两个集合的并集，不去重

union_all(x,y, ...)

#取两个集合的差集

setdiff(x,y, ...)

#判断两个集合是否相等

setequal(x, y, ...)

举例 1：

mtcars$model <- rownames(mtcars)
first <- mtcars[1:20, ]
second <- mtcars[10:32, ]
#取两个集合的交集
intersect(first, second)
#取两个集合的并集，并去重
union(first, second)
#取两个集合的差集，返回first中存在但second中不存在的记录
setdiff(first, second)
#取两个集合的交集，返回second中存在但first中不存在的记录
setdiff(second, first)
#取两个集合的交集, 不去重
union_all(first, second)
#判断两个集合是否相等，返回TRUE
setequal(mtcars, mtcars[32:1, ])

12. 数据合并: bind

dplyr包中也提供了按行/列合并数据集的函数，合并的对象为数据框，也可以是能够转换为数据框的列表。按行合并函数bind_rows()通过列名进行匹配，不匹配的值使用NA替代，类似于base:: rbind()函数。按列合并函数bind_cols()通过行号匹配，因此合并的数据框必须有相同的行数，函数类似于base:: cbind()函数。原数据集行名称会被过滤掉。语法如下:

#按行合并，.id添加新列用于指明合并后每条数据来自的源数据框

bind_rows(...,.id = NULL)

#按列合并

bind_cols(...)

#合并数据集

combine(...)

举例 1：

one <- mtcars[1:4, ]
two <- mtcars[11:14, ]
#按行合并数据框one和two
bind_rows(one, two)
#按行合并元素为数据框的列表
bind_rows(list(one, two))
#按行合并数据框，生成id列指明数据来自的源数据框，id列的值使用数字代替
bind_rows(list(one, two), .id = "id")
#按行合并数据框，生成id列指明数据来自的源数据框，id列的值为数据框名
bind_rows(list(a = one, b = two), .id = "id")
#按列合并数据框one和two
bind_cols(one, two)
bind_cols(list(one, two))

举例 2：

#合并数据框，列名不匹配，因此使用NA替代，使用rbind直接报错
bind_rows(data.frame(x = 1:3), data.frame(y = 1:4))

举例 3：

#合并因子
f1 <- factor("a")
f2 <- factor("b")
c(f1, f2)
unlist(list(f1, f2))
#因子level不同，强制转换为字符型
combine(f1, f2)
combine(list(f1, f2))

13. 条件语句：ifelse

dplyr包也提供了更加严格的条件操作语句，if_else函数类似于base::ifelse()，不同的是true和false对应的值必须要有相同的类型，这样使得输出类型更容易预测，因此相对而言执行效率更高。

语法：if_else(condition,true, false, missing = NULL)

missing值用于替代缺失值。

举例 1：

x <- c(-5:5, NA)
#替换所有小于0的元素为NA，为了保持类型一致，因此使用NA_integer_
if_else(x < 0, NA_integer_, x)
#使用字符串missing替换原数据中的NA元素
if_else(x < 0, "negative", "positive", "missing")
#if_else不支持类型不一致，但是ifelse可以
ifelse(x < 0, "negative", 1)

举例 2：

x <- factor(sample(letters[1:5], 10, replace = TRUE))
#if_else会保留原有数据类型
if_else(x %in% c("a", "b", "c"), x, factor(NA))
ifelse(x %in% c("a", "b", "c"), x, factor(NA))

case_when语句类似于if/else语句。表达式使用“~”连接，左值LHS为条件语句用于判断满足条件的元素，右值为具有相同类型的替换值，用于替换满足条件的元素。

语法：case_when(...)

举例 3：

#顺序执行各语句对原向量进行替换，因此越普遍的条件需放在最后
x <- 1:50
case_when(
  x %% 35 == 0 ~ "fizz buzz",
  x %% 5 == 0 ~ "fizz",
  x %% 7 == 0 ~ "buzz",
  TRUE ~ as.character(x)
)

14. 数据库操作: database

dplyr也提供了对数据库的连接和操作函数，目前仅支持sqlite, mysql，postgresql以及google bigquery。dplyr可把R代码自动转换为SQL语句，然后在数据库上执行以获取数据。实际的处理过程中，所有的R代码并不是立即执行，而是在实际获取数据的时候，一次性在数据库中执行。下面以sqlite数据库为例。

创建和连接数据库: src_sqlite(path, create = FALSE)

当create为FALSE（默认），path必须为已存在的数据库路径和全名，为TRUE，会根据设置的path创建sqlite数据库。

举例 1：

#在默认工作路劲下创建sqlite数据库
my_db <- src_sqlite("dplyrdb.db", create = TRUE)

  列出数据源x中所有的表：src_tbls(x)

举例 2：

#目前数据库中还没有表
src_tbls(my_db)

导入数据到创建的数据库中并创建相应的表，如果未给出表名则使用传入的data frame名称，导入时可以通过indexes参数给创建的表添加索引, copy_to同时会执行ANALYZE命令以保证表具有最新的统计信息并且执行相应的查询优化。

导入数据到远程数据源：copy_to(dest, df, name =deparse(substitute(df)), temporary, indexes,...)

举例 3：

library(nycflights13)
#导入flights数据到数据库中，并创建相应的索引
flights_sqlite <- copy_to(my_db, flights, temporary = FALSE, indexes = list(c("year", "month", "day"), "carrier", "tailnum"))
#已存在表flights
src_tbls(my_db)

tbl可用于与源数据源(src)中的数据(from)建立连接，from可以是表名或者是SQL语句返回的数据。

与数据库建立连接： tbl(src, from, ...)

举例 4：

#查询数据库中表数据，直接给出表名
tb.flight <- tbl(my_db, 'flights')
#查询数据库中表数据，使用SQL语句返回数据
tb.flight2 <- tbl(my_db, sql("SELECT * FROM flights"))

举例 5：

#操作数据库中数据，语句并没有被实际执行，只有显式获取数据时才会执行
c1 <- filter(tb.flight, year == 2013, month == 1, day == 1)
c2 <- select(c1, year, month, day, carrier, dep_delay, air_time, distance)
c3 <- mutate(c2, speed = distance / air_time * 60)
c4 <- arrange(c3, year, month, day, carrier)

在未显式获取数据时，所有的操作只是生成tbl_sql对象，可以通过以下操作获取返回相应的SQL语句以及执行计划。

语法： show_query(x)

explain(x, ...)

举例 6：

#返回对象c4对应的SQL语句
show_query(c4)
#返回对象c4对应的SQL语句以及执行计划
explain(c4)

对于lazy操作的这种机制，数据操作实际并没有真正的执行查询，如果需要返回数据结果，可以用以下的函数强制执行查询并返回结果。

#强制执行查询，并返回tbl_df对象到R

collect(x, ...)

#强制执行查询，并在源数据库中创建临时表存储结果

compute(x, name = random_table_name(),temporary = TRUE,

unique_indexes = list(), indexes = list(),...)

#不强制执行查询，拆分复杂的tbl对象，以便添加额外的约束

collapse(x, ...)

举例 7：

#执行c4查询，返回对象到R
tbl_dfight <- collect(c4)
#执行查询并在数据库中创建临时表，通过src_tbls可查询到新建的temp表
compute(c4, name = 'temp_flights')
src_tbls(my_db)
#实际并没有执行查询，仍可用show_query返回对应的SQL语句
remote <- collapse(c4)
show_query(remote)

你可能感兴趣的:(R语言,r语言,dplyr,R必学包)

最新抖音 iOS 设备注册算法（配合心跳做不上榜人气用） qq_1771238069 ios 算法 cocoa
最新业务需要研究了一周时间做出来了可以配合心跳包做抖音人气用一下部分代码#-*-encoding:utf-8-*-importjson,random,time,sysimportrequestsfromurllib.parseimporturlparse,parse_qsimportratelimitfromloguruimportloggerfromspiders.reg.confimportm
golang游戏开发学习笔记-开发一个简单的2D游戏(基础篇）
2.人物运动图（只展示第一帧）2.方块纹理图将资源准备完成之后，就能开始代码的开发了五.开始实现！1.资源管理在上一篇文章中我们将纹理和着色器分别封装成了两个类，这里我们创建一个资源管理类对这两个类进行管理，由于golang中是没有静态变量的，需要用包内变量对其进行模拟shader.gopackageresourceimport(“github.com/go-gl/gl/v4.1-core/gl”
Git安装全攻略：避坑指南与最佳实践编程在手天下我有 git
1、系统环境检查确认操作系统版本（Windows/macOS/Linux）及位数（32/64位）检查是否已安装旧版Git，避免版本冲突确保系统环境变量配置权限2、下载安装包注意事项官方下载地址推荐（避免第三方镜像源）选择与系统匹配的安装包类型（如Windows选.exe，macOS选.dmg）验证安装包完整性（校验SHA值或数字签名）3、安装过程中的关键选项路径选择：避免中文或特殊字符路径组件选择
Trae CN WangLinXX AI ai
️技术实现深度架构设计采用微内核+插件化架构，核心引擎仅占15MB内存，通过RPC调用云侧AI模型（响应延迟约800ms）。本地缓存最近3次生成代码的AST结构，支持离线基础编辑。模型协同机制豆包1.5Pro负责需求语义解析，DeepSeek-R1生成代码骨架，DeepSeek-V3进行风格优化。三模型并行推理，最终由规则引擎校验API兼容性（如微信SDK版本匹配）。性能实测数据场景响应时间代码通
spark解析压缩包数据，写入到hive表中 dbbigdata spark 大数据 hive
spark解析xxxxx.tar.gz形式的压缩包。压缩包里面是一个个的json文件或者zip的文件，zip里面是json文件。先用spark读取tar.gz的路径，然后开流传给newTarArchiveInputStream(newGZIPInputStream(file))去处理，大概的代码如下defmain(args:Array[String]):Unit={valroot:String=a
R 语言简介：数据分析与统计的强大工具 Mikhail_G python 数据分析大数据 r语言开发语言
大家好!在如今这个数据驱动的时代，数据分析与统计分析对于各个领域都变得至关重要。而R语言，作为一款专为数据分析和统计而设计的编程语言，以其强大的功能和灵活性，成为了众多数据分析师、研究人员以及统计学家的首选工具之一。什么是R语言?R是一种开源的编程语言和软件环境，主要用于统计计算、数据分析、图形表示以及机器学习等领域。它是由RossIhaka和RobertGentleman于1995年开发的，之后
Linux 网络设置(ifconfig、route、traceroute、netstat、ss、nslookup、dig、ping状态返回分析）
Linux网络设置一、查看网络1、查看网络接口地址2、查看更改主机名3、查看路由表条目4、查看网络连接情况netstat命令ss命令二、测试网络连接1、测试网络连通性2、跟踪数据包的路由途径3、测试DNS域名解析nslookup命令dig命令三、使用网络配置命令1、临时配置和永久配置的解释2、修改网卡的地址、状态2、添加、删除静态路由与默认路由记录四、修改网络配置文件1、网络接口配置文件2、启用、
ifconfig工具源码分析 weixin_34357887 操作系统数据结构与算法
ifconfig是linux中用于显示或配置网络设备（网络接口卡）的命令，英文全称是networkinterfacesconfiguring。同netstat一样，ifconfig源码也位于net-tools中。源码位于net-tools工具包中，这是linux网络的基本工具包，此外还有arp,hostname,route等命令。项目链接：http://net-tools.sourceforge.
从数据抓取到分析：用Python爬虫获取、清洗与可视化数据程序员威哥 python 爬虫 c++
在数据科学领域，数据的获取、清洗与分析是整个数据处理过程中的关键步骤。随着互联网上数据的不断增多，使用Python爬虫抓取网站数据并进行分析已成为数据科学家和分析师的常见任务。本篇文章将通过具体的实例，展示如何使用Python从零开始抓取数据，清洗数据，并进行数据分析和可视化。1.数据抓取：用Python爬虫获取网页数据1.1选择爬虫工具Python提供了多个强大的爬虫框架和库，常用的工具包括：r
路由表原理以及数据包进入路由器，路由器的处理
路由表原理以及数据包进入路由器，路由器的处理路由表是路由器转发数据包的数据库，当路由表收到一个数据包时，它会用数据报的目的IP地址去匹配路由表中的路由条目，然后根据匹配条目的路由参数决定如何转发这个数据包。但是，路由表中的路由条目并不会由路由器根据入站数据包的信息自动填充。路由信息的3种来源：链路层协议发现的路由（也称为直连路由）：只要连接该网络的接口状态正常，那么管理员就不需要进行任何配置，直连
路由器对数据包的处理过程分析笔记月生言己笔记智能路由器网络
虽然TCP-IP协议中传输数据会在各个路由器再次经过物理层、链路层、网络层的解封装、加工、封装、转发，但是对于两个主机间的运输层，在逻辑上，应用进程是直接通信的。路由器主要工作在网络层，但它也涉及到物理层和链路层的一些功能。以下是路由器在这三个层面上对数据进行的处理：物理层：在物理层，路由器负责接收和发送比特流（即电信号、光信号等）。这包括编码和解码信号，以及处理接口上的物理连接。路由器的每个端口
路由器对不同数据帧的处理 lulinhao 数通基础学习网络数据帧
一、单播A：目的MAC地址是自己的MAC地址路由器在接收接口上收到帧，检查目的MAC地址，发现该地址与接收接口的MAC地址完全匹配，得知这个帧是发给自己的，就会接收该帧，并且剥离数据链路层的帧头和帧尾，开始处理数据包。A1：数据包的目的IP地址是单播1.目的IP地址是自己的IP地址，路由器将数据包交给上层协议栈处理2.目的IP地址不是自己的IP地址，查询路由表，如果没有找到匹配的路由条目，静默丢弃
141G显存H20单机DeepSeek-R1满血FP8版性能测试
#环境参数#H20141G单机8卡，CUDA12.4，vLLMv0.8.3，flashinferv0.2.2#服务化命令#基于知乎大神的推荐出装与前期H800双机生产环境测试，在H20上开启EP、MLA等核心优化参数，实现推理吞吐性能最优吞吐量破10000tokens/s，VLLM0.8.1版本驱动下的Deepseek-r1671Bhttps://zhuanlan.zhihu.com/p/1887
一个简单测试Deepseek吞吐量的脚本,国内环境可跑谢平康深度学习 pytorch 人工智能
一个简单测试Deepseek吞吐量的脚本,这里用DeepSeek-R1-Distill-Qwen-32B,支持单卡409024G可跑,具体看你的硬件情况做调整,理论支持所有的模型,看你需要,可以修改模型名称,重点是pip使用国内的源,模型下载用阿里的ModelScope,无障碍下载,使用.最后可以生成一个txt与html报表.前提是你安装了python与python-venv,你可以不用venv来
Linux 文件权限管理详解（chmod/chown）真IT布道者 linux 运维服务器
查看文件权限2.1使用ls-l命令$ls-l/etc/passwd-rw-r--r--1rootroot2412Mar110:00/etc/passwd输出解析：-rw-r--r--：权限字符串第一个root：属主第二个root：属组2.2权限字符串解析类型属主权限属组权限其他用户权限-rw-r--r--更多面试题：https://duoke360.com/tutorial/iv-linux/l7
go build -gcflags 参数学习岳来 golang golang 学习开发语言
文章目录一、常用编译选项二、使用模式与包匹配规则三、应用场景与注意事项四、其他相关参数五、删除-gcflagsall=-N-l对构建的影响参考文档gobuild的-gcflags参数用于向Go编译器（gotoolcompile）传递额外选项，控制编译行为。其格式为-gcflags="[pattern=]arglist"，其中pattern定义作用范围，arglist是空格分隔的编译选项。以下是关键
Java 企业级 Jakarta EE 11 发布 ejinxian Java java 开发语言 Jakarta EE 11 java EE 11
标志着企业级Java在简化开发、提升开发人员生产力和整体性能方面的进步。主要亮点包括：现代化的测试兼容性工具包(TCK)、全新JakartaData规范的引入、对现有规范的重大更新以及对最新JavaLTS版本的支持，使开发人员能够充分利用Java21中的增强功能，包括虚拟线程JakartaData在简化企业应用程序持久化逻辑方面迈出了重要一步。主要功能包括：BasicRepository：基础存储
基于Spring Boot的网络购物商城的设计与实现代论文网课招代理 spring boot 后端 java
目录摘要：IAbstract：II第1章系统分析11.1系统概述11.2系统可行性分析11.2.1技术可行性分析11.2.2经济可行性分析11.2.3社会可行性分析11.3需求分析21.2.1业务角色分析21.2.2用例分析3第2章系统设计42.1功能模块设计42.2功能流程设计52.2.1商品加入购物车流程52.2.2用户下单流程62.3数据库设计72.3.1数据库E-R设计72.3.2数据表设
【赵渝强老师】OceanBase数据库从零开始：Oracle模式
这里我们来介绍一下新上线的课程《OceanBase数据库从零开始：Oracle模式》，本门课程共11章，视频讲解如下：https://www.bilibili.com/video/BV1r4NCzHEka/?aid=114720556191...下面详细介绍一下每一章的主要内容：第01章-OceanBase的体系架构本章主要介绍OceanBase分布式数据库集群的体系架构，包括：OBServer节
庙算兵棋推演AI开发初探（支线-AI平台注意及tips）超自然祈祷智能决策人工智能
总是停留在stage阶段一的问题输出回放数据，在显示中发现一动不动，发现stage字段一直是1部署阶段……解决方法：代码层面需要有type=333的行为告诉引擎部署完毕。pip卸载重装兵棋引擎这个我每次关机后都得重新来一遍，很讨厌（经过试验，此举会重新复制一个.engine_config到python包的目录）删除某文件确定发出了部署命令还没效果，看看你的用户根目录(root或者用户名)下有没有.
我的世界进阶模组开发教程——地形生成(1) lemon_sjdk 我的世界 forge模组开发进阶教程 java
找到mc的屎山代码，找到net.minecraft.world.level.levelgen包，我们来看看mc是如何完成地形生成的SurfaceRules代码结构与核心功能解析该代码是Minecraft世界生成模块中地表规则（SurfaceRules）的核心实现，用于控制地形表面的方块生成逻辑。以下从多角度进行拆解分析：一、顶层结构解析1.静态条件定义（ConditionSource）public
从入门到精通：前端工程师必学的 JSON 全解析前端视界前端 json 状态模式 ai
从入门到精通：前端工程师必学的JSON全解析关键词：JSON、前端工程师、数据交换、JavaScript、数据格式摘要：本文围绕前端工程师必学的JSON展开全面解析。从JSON的基本概念、背景知识入手，深入探讨其核心原理、算法实现、数学模型等方面。通过详细的代码示例和实际应用场景分析，帮助前端工程师从入门到精通掌握JSON的使用。同时，提供了丰富的学习资源、开发工具和相关论文推荐，最后对JSON的
RDKit：药物化学和分子数据处理的强大工具库碳酸的唐机器学习人工智能
引言在药物研发、化学信息学和分子设计领域，高效处理和分析分子数据是至关重要的。RDKit作为一个开源的化学信息学和机器学习工具包，为研究人员和数据科学家提供了丰富的功能，包括分子操作、描述符计算、指纹生成、相似性比较、子结构搜索和分子可视化等。本文将详细介绍RDKit的主要功能、应用场景以及实际操作示例，展示这一强大工具在分子数据处理中的核心价值。RDKit简介RDKit是一个由C++和Pytho
Wireshark的捕获接口设置没有梦想的程序猿 wireshark 测试工具网络
通过Wireshark菜单栏的“捕获”-“选项”和工具栏的“捕获选项”按钮，可以进入接口捕获接口的设置。打开捕获接口设置界面，首先设置“Input”标签。进行接口选择，关掉不必要的接口。选择使用接口模式，选择“混杂模式”，即抓取经过的所有数据包，包括发往本网卡和本网卡转发的。“非混杂模式”，表示只抓取目标地址是本网卡的数据包。也可以在本界面设置过滤器。在“输出”标签，进行输出文件的设置。勾选“自动
buuctf-misc-二维码1 mlws1900 ctf buuctfmisc servlet jar java
显而易见的二维码题目，解压得到一个二维码解码获取内容secretishere我以为到这就结束了，flag{}加上就ok，结果发现失败用winhex打开看一下发现里面存在一个4numbers.txt用软件分离出来发现要密码，写着4numbers，应该就是纯数字密码爆破利用工具进行压缩包密码爆破密码为7639解压获得flagCTF{vjpw_wnoei}提交时候要改成flag{vjpw_wnoei}
【python】pip 国内镜像源叶阿猪 python python pip 开发语言
使用pip下载安装python第三方库的时候，经常会很慢，甚至报错。如下：pip._vendor.urllib3.exceptions.ReadTimeoutError:HTTPSConnectionPool(host='f而使用Python的镜像源（也称为国内安装源或PyPI镜像源）可以提高Python包（如numpy、pandas等）的安装速度和稳定性。Python的镜像源是在国内设置的代理服
Delphi编程深度详解教程 Paula-柒月拾
本文还有配套的精品资源，点击获取简介：《Delphi详细教程》是一个全面介绍Delphi编程的资源包，涵盖了Delphi开发环境和ObjectPascal编程语言的深入学习。教程内容包括Delphi体系结构、核心类库、集合与RTTI、接口、抽象类、定制组件开发、界面设计、数据控件使用、SQL程序设计以及创建WindowsNT服务等关键知识点，旨在帮助学习者深入理解和掌握Delphi编程，并应用于实
npm 安装自定义组件的时候报错 Unsupported URL Type "workspace:": workspace:^如何解决 Paula-柒月拾 npm 前端 vue.js node.js javascript
这个错误信息提示你在npm命令中使用了一个不支持的URL类型"workspace:".在npm中，"workspace:"前缀用于表示当前的工作空间中的某个软件包。通常，在使用npm命令安装软件包时，你需要提供软件包的名称或者软件包的发布地址(例如，npminstallexpress或者npminstallhttps://github.com/expressjs/express)。如果你在使用"w
使用POI导入Excel文件数据处理生活压力大 Java开发 poi java excel
前言最近项目中做了一个Excel模板导入功能，需要将文件中的数据获取后保存，优于Excel文件中表头多行，数据比较凌乱所以采用了POI进行导入。引入jar包我的是maven项目，所以直接在pom文件中引入相关依赖即可，我使用的jar包为3.16：org.apache.poipoi3.16org.apache
运行go程序时出现的同包多文件不能调用的问题 wjhx golang golang 开发语言后端
翻出一个以前的项目，使用go编写，运行在linux上，当前在win11上运行，vscode下launch.json配置如下：{//使用IntelliSense了解相关属性。//悬停以查看现有属性的描述。//欲了解更多信息，请访问:https://go.microsoft.com/fwlink/?linkid=830387"version":"0.2.0","configurations":[{"n
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1