awk_bioinfo

R语言数据处理强悍包dplyr&reshape2&tidyr

R语言数据处理 dplyr&reshape2&tidyr 包详解

dplyr：轻松地处理data.frame, data.table以及多种数据库为基础的数据，实现选择、变换、分组等
plry：轻松地在vector, list, data.frame之间做分组变换，实现拆分、变换、合并的操作
reshpae2：横向、纵向做数据变换
非特别标注，默认为dplyr包

准备工作
tbl_df(iris) ：数据类型转化

将数据转化为tbl类型，更易于查看

glimpse(iris)：tbl数据的信息密集概括

View(iris)：以电子表格的样式显示数据集

%>% ：管道函数，将左边对象的第一个参数传递到右边的函数中

summary()：数据统计摘要；区别对待不同类型的数据变量- (1)数值型：相关极值等信息；(2)名义型/有序型：显示的是各水平的频数值

重组数据
改变数据集的布局

布局转换 - reshpae2 （数据透视）
melt(data, id.vars, measure.vars, factorsAsStrings = TRUE)：以id.vars为基准，转为长格式形式
melt(data, id=c(""), measure=c("") )
id=c("","") 或 id.vars=c() 以该变量为 [基准] 进行重构；其他的列均摞起来

measure=c("") 或 measure.vars=c() ：组合进id列的变量；若measure缺失，表示所有字段

varaiable.name ，表示将各个变量的列名放在这个列下面；

value.name，表示对应观测值的具体数值

na.rm = FALSE,

factorsAsStrings = TRUE,将因子转化为字符串

names(airquality) <- tolower(names(airquality))
View(airquality)
airquality_1 <- head(airquality,3)
aqm <- melt(airquality_1, id=c(“month”,“day”)) # 以该变量为 [基准] 进行重构；其他的列均 [摞起来]

melt(airquality_1, id=c(“month”,“day”)) # measure缺失时，默认选择所有的列
month day variable value
1 5 1 ozone 41.0
2 5 2 ozone 36.0
3 5 3 ozone 12.0
4 5 1 solar.r 190.0
5 5 2 solar.r 118.0
6 5 3 solar.r 149.0
7 5 1 wind 7.4
8 5 2 wind 8.0
9 5 3 wind 12.6
10 5 1 temp 67.0
11 5 2 temp 72.0
12 5 3 temp 74.0

melt(airquality_1, id.vars =c(“month”,“day”), measure=c(“wind”,“temp”))
month day variable value
1 5 1 wind 7.4
2 5 2 wind 8.0
3 5 3 wind 12.6
4 5 1 temp 67.0
5 5 2 temp 72.0
6 5 3 temp 74.0

dcast(data, formula, fun.aggregate = NULL)：以formula中的rowvar为基准列，重铸为宽格式 [excel统计表单的格式]；若加上FUN，则为 [数据透视表] 的格式
dcast(data, ID~variable, mean)
dcast的功能相当于 group_by + summarise 的功能

formula , rowvar1+rowvar2 ~ colvar1+colvar2的格式；

rowvar ：以此为基准的id列；
colvar ：需要重构的变量列；将该变量中的元素 [分类] 映射到 [列] 上去
运行后的结果：出现的变量，原本为变量的列名，融合后是不参与计算的；参与的是对应的value列
**若整个formula表达是中，均没有出现 variable列，默认即对其他所有的列默认做 [统计计数length] **

除非指定具体的FUN函数

fun.aggregate（聚合函数）：直接列出聚合函数的名称；默认为计数 [length]

margins = NULL；向量形式的变量名字；

若为TRUE，则计算所有的合计
margins= “colname” / “rowname” 即表达式中出现的变量名
subset = NULL；针对特定的变量类别做重铸；但需要加载plyr包去接收函数

选择行中分类值或者 variable列中的分类 “length” 进行重铸
subset = .(variable==“length”) 或者 subset = .(month == 5 )
subset = .(time < 10 & chick < 20)
fill = NULL；填充NA的值

drop = TRUE；对缺失值的处理；drop or Not

names(airquality) <- tolower(names(airquality))
View(airquality)
aqm <- melt(airquality, id=c(“month”, “day”), na.rm=TRUE) # 除了month和day两列，其他列摞起来，为了等长，m和d列循环对齐

dcast(aqm, day + variable ~ month) # 保持day和variable不变，按month中的元素 [分类] 映射到列上去(若month有5、6两个月，则分别有2列)
dcast(aqm, variable + day ~ month) # 换一下顺序，重复的variable连在一起，对应不一样的day，这样的方式排列
dcast(aqm, day ~ variable + month) # 只保留day列
dcast(aqm, day+month ~ variable) # 还原为原本的样子

表达式中均未出现variable列，即默认把其他列的每一行看做一个整体进行计算-#

dcast(aqm, day ~ month) # 当整个formula表达是中，均没有出现 variable列，即对其他所有的列默认做长度计算length
day 5 6
1 1 4 3 # 表示day为1，month为5时，共有4个变量
2 2 4 3
3 3 4 3
4 4 4 3

dcast(aqm, day ~ month, mean) # 对所有没有出现的变量做函数mean
day 5 6
1 1 76.35000 124.20000
2 2 58.50000 123.56667
3 3 61.90000 108.36667
4 4 101.12500 93.06667

-------加入计算：等价于group_by + summarise------------------------------#

正常情况下含variable

dcast(aqm , month~variable)
Aggregation function missing: defaulting to length # 默认为计数
month ozone solar.r wind temp
1 5 26 27 31 31
2 6 9 29 29 29

dcast(aqm , month~variable, mean)
month ozone solar.r wind temp
1 5 23.61538 181.2963 11.62258 65.54839
2 6 29.44444 191.9655 10.34483 78.96552

------加入合计：margins-------------------

dcast(aqm , month~variable,sum, margins = T)
month ozone solar.r wind temp (all)
1 5 614 4895 360.3 2032 7901.3
2 6 265 5567 300.0 2290 8422.0
3 (all) 879 10462 660.3 4322 16323.3

dcast(aqm , month~variable,sum, margins = “month”)

--------加入子集的选取subset-------------------

library(plyr) # needed to access . function
dcast(aqm, variable ~ month, mean, subset = .(variable == “ozone”))
dcast(aqm, variable ~ month, mean, subset = .(month == 5))

names(ChickWeight) <- tolower(names(ChickWeight))
chick_m <- melt(ChickWeight, id=2:4, na.rm=TRUE)
dcast(chick_m, chick ~ time, mean, subset = .(time < 10 & chick < 20)) # 多条件选取
dcast 和 acast区别
dcast(aqm, variable + month ~ day)
acast(aqm, variable + month ~ day) # acast和dcast的功能基本上相同，只是dcast会把 [分组信息] 作为一列或几列显示，而acast会将其作为行名
acast(aqm, day ~ month, mean) # 保留的列作为合并在一起作为列名（少了day列，不建议使用）
acast(aqm, variable ~ month ~ day) # acast 多出来的功能，生成一个三维数组，按照day的值分成31个矩阵

t(x) ：转置
mtcars <- mtacrs[, c(12,1:11) ] ：列重新排序

排序
arrange(mtcars, desc(mpg),var) ：根据变量进行排序
arrange(flights, desc(dep_delay - arr_delay))：对计算的数据进行计算
默认为升序，aes

返回行/列名 - Basic
colnames(object)：返回所有列的名称
names(object)
rownames(object)：返回所有行的名称 [二维以上的任何对象]
row.names(object)

重命名列变量
rename(tbl, y=year)：将变量名year变更为y
rename(data, newname=oldname) # 新的列名在前
select(df2tbl, x1 = x, y1 = y)：选择变量时，重命名；x1为新的列名
fix(object)：可以同时改变格式 numeric / character 【Basic】

data_frame(a=1:3, b=3:5)：将向量合并为数据框

合并 & 分割 - Tidyr
separate(data, col, into, sep="[¹]+", remove=TRUE, convert=FALSE, extra=“warm”, fill=“warm”)：将一列分隔为几列
data：

col ：待分隔的列

into=c("","")：新的列名

sep：分隔符；

若为字符串，作为正则表达式进行匹配（默认）
若为数值型，则根据位置进行匹配（-1代表最后一位）
remove =TRUE，移除原来的待分隔的列

convert=FALSE，若为TRUE，则进行格式转换

separate_rows(data, …, sep="", convert=FASLE)：把一列分隔为若干行

unite(data, col, …, sep="_", remove=TRUE)：把几列合并为一列
… : 指定需要合并的列名

col="" :合并后新增的列名

unite(table, century, year, col=“year”, sep="")

重编码&排名 - 参见 [创建新变量]

合并数据集
合并联接 - Join
等价于SQL中的join联接

inner_join(a, b，by=“x1”) ：内联接合并数据，仅保留匹配的数据
left_join(a, b, by=“x1”) ：以a表为基准表，加入与a表中x1列匹配的数据集b的记录
right_join(a, b, by=“x1”) ：以b表为基准表，加入与b表中x1列匹配的数据集b的记录
outer_join(a,b, by=“x1”)：保留所有数据，所有行
by = NUll（默认）；表示为自联接，自动选取 [相同的列] 作为索引

by=c(‘col1’, ‘col2’)：两个表中相同名称列的匹配
by=c(‘col1’ = ‘col2’) ：两个表中不同名称列之间的匹配
copy=False(默认)；若为True, 当a与b不为同一张表，会自动创建一个y的表

集处理 - 行
intersect(y, z)：均出现在数据集y和z中的记录行
union(y, z)：出现在y或者z中的记录，自动删除重复的值
setdiff(y, z)：仅出现在数据集y 而不在z中的记录行

合并与筛选
仅返回匹配列的记录

semi_join(a, b, by=“x1”)：数据集a中能与b匹配的记录，以a表中"x1"列的值为索引
anti_join(a, b, by=“x1”) ：数据集a中能与b不能匹配的记录，以a表中"x1"列的值为索引

插入行/列
bind_rows(y, z) ：插入新行；把数据集 z 作为新的行添加到y中
bind_cols(y, z)：添加新列；把数据集 z 作为新的行添加到y中（注意：数据按所在位置匹配）

数据选取
子集观测值 - 行
filter(tbl_df, cond & cond) ：根据逻辑条件选取，使用 &或者| 来进行设置
filter(hflights_df, Month == 1, DayofMonth == 1)
filter(tbl_df, x %in% c(“a”,“b”)) ：表示x中包含"a"或者"b"的值，返回为逻辑为真
filter(iris,Species!=“setosa”) / filter(iris,!Species %in% c(“setosa”))：排除某些行 !
filter() %>% select(., var)：选中子集中的特定列
对于多条件的选择，需要完整条件的，然后使用集合运算符将条件拼接起来。

& 、|

==、 >=、<>、!=

%in%

sample_frac(iris, 0.5, replace=False)：按比例进行随机选取
sample_n(iris, 10, replace=True) ：按数量进行随机选取

replace = False(默认)，表示是否替换

slice(mtcars, n:n)：通过行数的位置进行选取，等价于data[n:n, ]

top_n(mtcars, 1, desc(carb) )：选取并排列前n条记录；相当于先按某变量进行排序，然后选择前n条记录。

top_n(tbl_df, n [,wt])
若为分组数据，则按组排序

wt，用于进行排序的变量，可选；若不指定，默认为最后一个变量

-n，从底部开始选择n个数据

子集变量 - 列
Selection drops variables that are not in the selection while renaming retains them

select(mtcars, hp) ：通过列名或帮助函数选取列变量
select(tbl_df, mpg:hp)：；选取在mpg和hp之间的连续多个变量（包含mpg&hp；用:连接
select(tbl_df, -var) / select(tbl_df, -(var1:var4))：通过-来排除某个变量列
select(tbl, xxx )：通过帮助函数进行选择
starts_with(“x”)：列名中以元素x为首的列
ends_with(“x”)：列名中以元素x结尾的列
contains(“x”)：包含元素x的列
matches(".t")：符合指定匹配正则表达式的列
one_of(c("mpg,“hp”) )：名字在指定组中的列，等价于 select(tbl, mpg, hp)
everything()：所有列，一般调整数据集中变量顺序时使用
select(df2tbl,y,everything()) #将变量y放到最前
num_range(“x”, 1:5)：选取名为x1、x2、x3、x4、x5的列
select_if()：选取不同条件的列
hflights %>% select_if(is.factor)：选取hflights数据中为因子的列 / is.numeric
hflights %>% select_if(function(col) is.numeric(col) && mean(col) > 3.5)：选取hflights数据中某一变量列？？

唯一值
distinct(iris)：删除重复记录
distinct(hflights_df, Month, .keep_all = TRUE)

.keep_all = TRUE,指保留除Month以外的其它列的内容。默认的情况是不保存其他列的。

指各个变量列均相同的记录

unique(x)：只对向量可用；或对各行中各变量完全相同的行取一行
!duplicated(x)：返回逻辑值；若完全相同则为TRUE，可对data.frame使用
x[!duplicated(x)] ：选取不重复值的值
返回data中所有不相同的值，然后在进行行选取data[x, ]

删除各行中变量完全相同的值 = unique(x)

data <- data[!duplicated(data), ] --# 返回各列所有相同的值 data[duplicated(test),]

删除某变量中相同的值

data <- data[!duplicated(test[, “var”]), ]

删除某两个变量完全相同的行

data <- data[!duplicated(test[, c(“var1”,“var2”)], ]

创建新变量
根据是否删除原列进行区分

计算并添加新列
若要将多个单元格中的值合并，用stringr包中的str_c()

运用 $直接创建 m t c a r s$ new <- sqtr(mtcars$carb)
mutate(tbl_df, var3=var1+var2, var4=var3+…)：优势在于可对刚添加的列进行变换
mutate_each(iris, funs(min_rank), [var1,var2])：对每一列运行窗口函数
mutate_all()：对每一列运行窗口函数
mutate_at()：对指定的列运行窗口函数
mutate_if()：对指定类型的列运行窗口函数
窗口函数:

min_rank # 排序，并列时，其他序号延号

dense_rank #无缝排序

row_number # 排序。并列时将并列数在前的序号在前

percent_rank # 把数据在[0,1]中重组，并排序

lead # 把除第一个值以外的所有元素提前，最后一位为NA

lag # 把除最后一位以外的所有数据延后，第一个元素为NA

between() # 数据在a、b之间

ntile # 把数据分为n分

cute_dist # 累计分布

cummean # 累积mean函数

cumsum # 累积sum函数

cusmax # 累积max函数

cusmin # 累积min函数

cumall # 累积all函数

cumany # 累积any函数

cumprod # 累计prod函数

pmax # 针对元素的max函数；返回输入中最大的值，并将其长度自动扩大到输入中长度最大的那个向量

pmin # 针对元素的min函数

计算并删除其他列
transmute(df, var3=var1+var2)：该函数扩展新变量的同时，将删除原始变量；常伴有na.rm=T
na.rm= True 计算时排除NA值

mutate(head(airquality),Temp=Temp - 32)
Ozone Solar.R Wind Temp Month Day
1 41 190 7.4 35 5 1
2 36 118 8.0 40 5 2
3 12 149 12.6 42 5 3
4 18 313 11.5 30 5 4
5 NA NA 14.3 24 5 5
6 28 NA 14.9 34 5 6

transmute(head(airquality),Temp=Temp - 32)
Temp
1 35
2 40
3 42
4 30
5 24
6 34

排名
row_number()：对于相同的值，位置在前的排名在前。
min_rank()：对于相同的值，均显示排名较前的值。
dense_rank()：对于相同的值，类似于min_rank()，均显示排名较小的值；但与后一位之间没有间隔；
percent_rank()：将排名缩放为[0,1]之间的值
cume_dist()：累计的分布函数
ntile(x,n)：将x划分为n个组块

x <- c(5, 1, 3, 2, 2, NA)
row_number(x)
[1] 5 1 4 2 3 NA

min_rank(x) # 相同的值，排名较前的值
[1] 5 1 4 2 2 NA

dense_rank(x) # 相同的值，排名较前的值，但与后一位没有间隔
[1] 4 1 3 2 2 NA

percent_rank(x)
[1] 1.00 0.00 0.75 0.25 0.25 NA

cume_dist(x)
[1] 1.0 0.2 0.8 0.6 0.6 NA

ntile(x, 2)
[1] 2 1 2 1 1 NA

重编码
if_else() & case_when() 适合进行重编码，但缺少对象的输入，可结合within()

因为recode是**面向 [向量] **的函数

常规编码 - within / $
within(x, {}) ：对x中的对象做运算
within：能对原始数据进行修改
with()：不能对原始数据进行修改，创建的变量只能在花括号之内有效（即使进行赋值也是如此）

aq<-with(head(airquality), {

lOzone <- log(Ozone)
Month <- factor(month.abb[Month])
cTemp <- round((Temp - 32) * 5/9, 1)
S.cT <- Solar.R / cTemp
rm(Day, Temp)
#head(aq)
})

aq
NULL # 显示为NULL，即aq不存在

aq<-within(head(airquality), { # Notice that multiple vars can be changed

lOzone <- log(Ozone)
Month <- factor(month.abb[Month])
cTemp <- round((Temp - 32) * 5/9, 1) # From Fahrenheit to Celsius
S.cT <- Solar.R / cTemp # using the newly created variable
rm(Day, Temp)
})

aq
Ozone Solar.R Wind Month S.cT cTemp lOzone
1 41 190 7.4 May 9.793814 19.4 3.713572
2 36 118 8.0 May 5.315315 22.2 3.583519
3 12 149 12.6 May 6.394850 23.3 2.484907
4 18 313 11.5 May 18.742515 16.7 2.890372
5 NA NA 14.3 May NA 13.3 NA
6 28 NA 14.9 May NA 18.9 3.332205

**Recode(var, recodes, as.factor.result, as.numeric.result=TRUE, levels) **：car包中的Recode函数，用法与car包中的recode函数相同；无需通过指定car包来运行；
var：字符型、数值型、因子型向量

recodes：字符串格式的重编码方式；即编码内容需用引号" "包括起来，多个条件之间用分号;分隔

单个变量：“0=NA”
一组向量：“c(7,8,9)=‘high’”
一组序列变量：“7:9=‘C’”
未匹配的值： “else=NA”
字符串变量："‘a’=‘b’ " 若编码的内容为字符串格式，需要用引号括起来；而最外面的引号也是必不可少的
as.factor.result = T/F；当输入的var为因子格式时，默认为TRUE,否则默认为FALSE

as.numeric.result=T/F；当输入的var为数值格式时，默认为TRUE,否则默认为FALSE

levels：可选的，默认为原本的顺序

recode(.x, a= ‘apple’, .default = NULL, .missing = NULL)：保持原有的顺序水平；
recode_factor(.x, …, .default = NULL, .missing = NULL, .ordered = FALSE)：
.x : 进行处理的向量
对于数值型向量，你可以基于位置替换它
对于字符串，你可以基于字符串的名称来替换它
指定替换的变量为字符串 a = ‘apple’ : a为对象中要变更的值；'apple’为变更后的值
.default=NULL: 对未匹配的值不做变更；
.default=NA_character_ ：用NA替换未匹配的值
.default= ‘others’ : 可以指定替换的值
.default = level(x) ：支持对默认的顺序进行因子化
指定替换的变量为数值 2 =20 或 20L
若对象x为向量is.vector() ，若不加L，则对于未匹配的值默认用NA替换；加L，对其他未匹配的值不做变更；？？？
.missing = NULL(默认) ：对缺失值NA不做处理，默认为NA；
.missing = “missing”：指定具体的值对NA进行替换
若不指定替换的变量，默认按照位置顺序进行重编码；但对未匹配的值默认用NA替换

.order=FALSE(默认)：若为TRUE，则创建有序的因子

当输入的向量是可比较的，它的因子会被重新定义为默认的

指定替换的变量 - 字符串

x <- sample(c(“a”, “b”, “c”), 10, replace = TRUE)
x
[1] “a” “a” “b” “b” “a” “b” “a” “a” “a” “c”

recode(x, a = “Apple”)
[1] “Apple” “Apple” “b” “b” “Apple” “b” “Apple” “Apple” “Apple” “c”

recode(x, a = “Apple”, .default = NA_character_)
[1] “Apple” “Apple” NA NA “Apple” NA “Apple” “Apple” “Apple” NA

指定替换的变量 - 数值型

x <- c(1:5)
recode(x, ‘2’= 20L, ‘4’ = 40L) # 加上L之后，对未匹配的值不做变更
[1] 1 20 3 40 5

recode(x, ‘2’= 20, ‘4’ = 40)
[1] NA 20 NA 40 NA

若不指定替换的变量，默认按照顺序进行重编码

recode(x, “a”, “b”, “c”) # 但对未匹配的值默认用NA替换
[1] “a” “b” “c” NA NA NA

#--------recode_factor------------------------------------------#

recode_factor(factor(letters[1:3]), b = “z”, c = “y”) # 当输入的向量是可比较的，它的因子会被重新定义为默认的
[1] a z y
Levels: z y a

条件编码
if_else(cond, true_value, false_value, missing=NULL)：对于逻辑值的重编码
cond : 条件

missing = NULL(默认)；若对缺失值替换为某个值，需指定 “x”

常规重编码

leadership<-within(leadership,{
agecat<-NA
agecat[age>75] <- “Elder”
agecat[age>=55 & age<=75] <- “Middle aged”
agecat[age<55]<-“young”
})

y $new<- if_else(y$ new<=1, 10, y$new)

搭配within使用

within(y,{
carb <- if_else(carb<=2,20,carb)
})

case_when(cond ~ “”, TRUE ~ “”)：多条件的重编码
类同于SQL的case when；多条件之间按顺序进行执行。
~ ：表示赋值

TRUE ：类同于 Else的功能

配合list() 与 !!!，将语句进行拼接，然后执行

x <- 1:10
case_when(
x %% 3 == 0 ~ “fizz buzz”,
x %% 5 == 0 ~ “fizz”,
x %% 7 == 0 ~ “buzz”,
TRUE ~ as.character(x)
)

创建一个新变量

starwars %>%
select(name:mass, gender, species) %>%
mutate(
type = case_when(
height > 200 | mass > 200 ~ “large”,
species == “Droid” ~ “robot”,
TRUE ~ “other”
)
)

配合list() 与 !!!，将语句进行拼接，然后执行

patterns <- list( # 先将语句拼接
TRUE ~ as.character(x),
x %% 5 == 0 ~ “fizz”,
x %% 7 == 0 ~ “buzz”,
x %% 35 == 0 ~ “fizz buzz”
)
case_when(!!! patterns) # 用 !!! 执行

缺失值
检查与判断
is.na(x)：逻辑判断
colSums(is.na(x))：求该列缺失值的数量
mean(is.na(x))：求该列缺失值的比例
is.nan(x)：判断不可能值
is.infinite(x) ：判断无穷值

移除
na.rm=T：在计算之前将缺失值移除，可用在函数内部
na.omit(x)：移除所有含缺失值所在的行 [删除整行]

用来存储没有缺失值的数据

newdata <- na.omit(mydata)

缺失值重编码
na_if(x, y)：把对象x中的y替换为NA

x <- c(1, -1, 0, 10)
[1] 1 -1 0 10

na_if(x,0)
[1] 1 -1 NA 10
coalesce(x,y)：把对象x中的NA替换为y
x, y ：均为向量

把x中的NA替换为y

x <- sample(c(1:5, NA, NA, NA)); x
[1] 5 3 NA 4 2 NA 1 NA
coalesce(x, 0L)
[1] 5 3 0 4 2 0 1 0

将NA匹配为对应位置的值（y, z 两者长度必须相同）

y <- c(1, 2, NA, NA, 5)
z <- c(NA, NA, 3, 4, 5)
coalesce(y, z)
[1] 1 2 3 4 5

配合list() 与 !!!，将语句进行拼接，然后执行

vecs <- list(
c(1, 2, NA, NA, 5),
c(NA, NA, 3, 4, 5)
)
coalesce(!!! vecs)

其他
pmin/pmax(…, na.rm=FALSE)：返回输入中最小/最大值的向量组合，并将其长度自动扩大到输入中长度最大的那个向量
min/max()：只返回单一长度的值

pmax(5:1,10)
[1] 10 10 10 10 10

概述函数 - summairse
summarise(iris, avg=mean(Sepal.Length)) ：对数据进行概述，并创建新的子集（将数据概括为单行数值）
summarise_all(.tbl, .funs, …)：对每一列运行概述概述
summarise_each(iris, funs(mean)) ：对每一列运行概述函数
summarise_at(.tbl, .vars, .funs, …, .cols=NULL)：对指定的列运行概述函数
summarise_at(mtcars, vars(hp,mpg), mean, …, .cols=NULL)
vars() : 表示需要进行概述的列

.funs的用法

直接在函数中写明需要运行的函数 summarise(., vars(), mean)
结合funs写出调用的函数 summarise(., vars(), funs(mean))
summarise_if(.tbl, .predicate, .funs)：对指令类型的列运行概述函数
funs的用法

summarise_all(df1[,-1],funs(mean,sum)) # 若出现两个及以上的函数，列名中自动添加后缀
summarise_all(df1[,-1],funs(sum(.*2))) # 所有数据用.表示
summarise_all(df1[,-1],funs(medi=median)) # 指定得到的列后缀名
summarise_all(df1[,-1],funs(“in”=median)) # 或者加引号 (因为in在R中表示其他含义)
mutate_all(df1[,-1],funs(.^2))

min / max / mean / median / sd / var / sum / IQR (向量的四分位距离)

n （向量中元素的个数）/ n_distinct （不同元素的个数）

first / last / nth （向量的第n个值）

name1 <- c(“Bob”,“Mary”,“Jane”,“Kim”)
weight <- c(60,65,45,55)
height <- c(170,165,140,135)
weta <- 1:4
df1 <- data.frame(name1,weight,height,weta);df1

需指定要进行计算的列

summarise(df1,avg_weight=mean(weight),avg_height=mean(height))

对选出来的 [每一列] 都进行计算

summarise_all(select(df1,-1), mean)

配合vars函数，一次选择多列

summarise_at(df1,vars(weight,height,weta),mean)
summarise_at(df1,vars(weight:weta),mean)
u <- c(“weight”,“height”)
summarise_at(df1,vars(one_of(u)),mean) # 可以接字符串向量
summarise_at(df1,u,mean) # 也可以直接接字符串向量
summarise_at(df1,u,mean,trim=1) # mean的参数可以接在后面

summarise_at(df1,vars(contains(“eig”)),mean) # 匹配含有的
summarise_at(df1,vars(matches(".t.")),mean) # 使用正则表达式
summarise_at(df1,vars(starts_with(“w”)),mean) # 匹配以此为开头的
summarise_at(df1,vars(ends_with(“ht”)),mean) # 匹配以此为结尾的
summarise_at(df1[,-1],vars(everything()),mean) # 选择所有列

检验出所有是数值的列，全部求均值

summarise_if(df1,is.numeric,mean)

count(iris, Species [, wt=Sepal.Length]) ：计算变量中每一个特定值的行数/频率/求和（带或不带权重）

若出现wt，表示进行 [求和] ；

wt="" 可选；若缺失，则计算频率

count(iris, Species) # 分组计算Species列中各类别的频量；类似于基本函数包中的table函数

wt="",若指定某一列，则会通过计算非缺失值的总和来比对权重(weighted)；

wt = var2 ，表示按var中的类别来分组，计算var2中未缺失值的对应的 [求和]

count(iris, Species, wt=Sepal.Length) # 即按Species分组后，求对应Sepal.Length中的值的总和
–等价于 iris %>% group_by(., Species) %>% summarize(., sum(Sepal.Length))

sort = False

计数
length(x)：返回一组向量（包括列表）或因子的长度

返回对象的个数或者某个列的的观测值行数

length(object/data$col)

返回非空置的行数

length(na.omit(object/data$col))

返回对象的唯一值的行数

length(unique(data$col/object)) # 等价于 n_distinct()
nrow() / ncol()：总行数/总列数
n()：返回观测行的行数，不能单独使用（可被用于 summarise()、mutate()、filter() ）
n_distinct(x, na.rm=FALSE)：返回不重复的行数
sum(!is.na())：计算非空值的行数

分布
mean(x, na.rm=FALSE) ：返回均值；
mean(!is.na()) ：非空值的均值
median(x, na.rm=FASLE)：返回中位数
sum(x, na.rm=FALSE)：返回求和
range(object)：值域
colSums(x) / rowSums(x)：各列/行求和
colMeans(x) / rowMeans(x)：各列/行求均值

位置与序列
first(x)/last(x)：最前/后的值
nth(x, n)：从开始数的第n个值
quantile(x, probs=seq(0, 1, 0.25), na.rm=FALSE)：显示x中处于[0,0.25,0.5,0.75,1]的值
probs = seq(0,1, 0.25) 或者 = c(0.25,0.5) ：指定要显示的所处位置的值

min/max(x, na.rm=FALSE)：返回最大/最小值

趋势
IQR()：四分位距离
var()：方差
sd()：标准差
mad()：绝对均方差

数字处理
options(digits=7) ：默认有效位数为7位
trunc(x)：取整 trunc(3.531) [1] 3
floor(x)：向下取整
ceiling(x)：向上取整
sigif(x, digits=n)：指定最小值的有效位数
abs(x)：绝对值
x %% y ：求余数
x^n：幂次方
exp(x)：指数
ln(x) / log(x, y)：对数
sqrt(x)：平方根

分组
group_by(.data, …, add=FALSE)：根据Species进行分组
group_by(mtacrs, cyl,vs )
… ：表示用于分组的列名；

add= FALSE(默认)

FALSE，表示会覆盖原来的分组，相当于对源数据重新分组；
若为TRUE,则不覆盖，相当于在原来的基础上在进行分组；

先对mtcars按cyl 进行分组

by_cyl <- mtcars %>% groupby(cyl)

--------add=FALSE (默认)-------------------------#

by_cyl %>% group_by(vs, am) %>% # add默认为FALSE，即对 mtcars进行 vs,am 两个变量进行分组；
summarise_at(.,vars(new),funs(mean) )

A tibble: 4 x 3

Groups: vs [?]

 vs    am      new

1 0 0 1.737751
2 0 1 2.115355
3 1 0 1.404061
4 1 1 1.177520

与如上等价

group_by(mtcars, vs,am) %>% summarise_at(.,vars(new),funs(mean) )

A tibble: 4 x 3

Groups: vs [?]

 vs    am      new

1 0 0 1.737751
2 0 1 2.115355
3 1 0 1.404061
4 1 1 1.177520

--------add=TRUE ----------------------#

by_cyl %>% group_by(vs, am, add=TRUE) %>%

summarise_at(.,vars(new),funs(mean) )

A tibble: 7 x 4

Groups: cyl, vs [?] # 分组变量有3个

cyl    vs    am      new

1 4 0 1 1.414214
2 4 1 0 1.276142
3 4 1 1 1.177520
4 6 0 1 2.149830
5 6 1 0 1.500000
6 8 0 0 1.737751
7 8 0 1 2.414214

group_by(mtcars, cyl,vs,am) %>% summarise_at(.,vars(new),funs(mean) )

A tibble: 7 x 4

Groups: cyl, vs [?] # 分组变量有3个

cyl    vs    am      new

1 4 0 1 1.414214
2 4 1 0 1.276142
3 4 1 1 1.177520
4 6 0 1 2.149830
5 6 1 0 1.500000
6 8 0 0 1.737751
7 8 0 1 2.414214
ungroup(iris)：移除数据框的分组信息
group_by_all()：
group_by_at(.tbl, .vars, .funs = list(), …, .add = FALSE)：
group_by_at(df, vars(accept,weight)) %>% summarise(., var=mean(height),count=n())
group_by_at() 与 group_by 的区别，仅在与at中将分组的变量用 vars() 包含起来，利于查看

group_by_if()：
iris %>% group_by(., Species) %>% summarize(., sum(Sepal.Length))：对每一个分组分别进行概述计算
iris %>% group_by(., Species) %>% mutate(., …)：按组计算新变量

分组&概述函数

plyr - 分隔-操作-合并
用来切割、计算、合并数据的包

在一个函数内同时解决spilt-apply-combine的三个步骤

Spilt：把要处理的数据分割成小的片段
Apply：对每个小片段进行操作
Combine:把片段重新组合
aplyr(.data, .margins, .fun, …, .progress = “none”)*
dplyr(.data, .variables, .fun, …, .progress = “none”)*
lplyr(.data, .fun, …, .progress = “none”)*
首字母代表输入的待处理的数据格式，第二个字母-输出的数据格式；

ddply(.data, .variables, .fun = NULL, …, .progress = “none”, .inform = FALSE, .drop = TRUE, .parallel = FALSE, .paropts = NULL)：以ddplyr为例
ddply()函数会自动的将分割后的每一小部分的计算结果汇总，以data.frame的格式保存。

.data, 要操作的原始数据集

.variables, 是按照某个/几个变量，对数据集 [分割]; 比如按照year对数据集分割，可以写成.(year)的形式

.fun, 具体执行操作的函数，对分割后的 [每一个子数据集，调用该函数]

控制流
重复和循环
for结构：for (var in seq) statement
循环执行某语句statement，直到某个变量var的值不在包含在序列seq中为止
for (i in 1:10) print(“hello”)
while结构：while (cond) statment
必须确保cond中的条件语句能【被改变】（即它在某个时刻不在为真），否则循环将永不停止

条件执行
if-else结构：if (cond) statement 或者 for (cond) statement1 else statement2
if (!is.factor(grade)) gerade <- as.factor(grade) else print(“Grade already is a factor”)
ifelse结构：ifelse(cond, statement1, statement2)
ifelse(sorce>0.5, print(“Passed”), print(“Failed”))
outcome <- ifelse(socre>0.5, “Passed”, “Failed”)
switch结构：根据一个表达式的值选择语句执行switch(expr,…)
feelings <- c(“sad”, “afraid”)
for (i in feelings)
print(
switch(i,
happy = “I am glad you are happpy”, # 用逗号分隔
afraid = “There is nothing to fear”,
sad = “Cheer Up”,
angry = “Calm down now”
)
)

expr之后的…是expr的可能取值，后接等号（=），表示执行的行为

switch语句中，不同条件末尾要有 [逗号]

若expr为文本形式，输入时需加 [引号]

逻辑判断
which()：返回为真的逻辑对象，允许对数组array使用

自编函数
结构
myfunction <- function(arg1, arg2, …){
statements
return(object)
}

数据拆分
pretty(x, n) ：将连续型变量x分给为n个区间；
cut(x, n,[order_result=TRUE])：将连续型变量x分割成有n个水平的因子

:alnum: ↩︎

你可能感兴趣的:(R,机器学习)

基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
DeepSeek-R1 API评测深度解析：揭秘7大常见误区耶耶Norsea 网络杂烩服务器网络运维
摘要随着SiliconCloud等平台推出DeepSeek-R1服务，市场涌现出大量关于API评测的内容。然而，这些评测中存在7个常见误区，如测试方法缺陷和内容质量参差不齐等问题，影响了用户对DeepSeek-R1的准确理解。本文旨在揭示这些问题，帮助用户更全面地了解该服务。关键词DeepSeek-R1,API评测,常见误区,SiliconCloud,内容质量一、一级目录11.1DeepSeek-
DeepSeek 部署指南 (使用 vLLM 本地部署) AGI大模型资料分享员人工智能语言模型学习 chatgpt 深度学习大模型 deepseek
DeepSeek部署指南(使用vLLM本地部署)本文档将指导您如何使用vLLM在本地部署DeepSeek语言模型。我们以deepseek-ai/DeepSeek-R1-Distill-Qwen-7B模型为例进行演示。1、安装Python环境首先，您需要安装Python环境。访问Python官网:https://www.python.org/根据您的操作系统选择安装包:Python官网提供Windo
Pytorch中的torch.utils.data.Dataset 类小白的高手之路深度学习（DL）Pytorch实战深度学习 python pytorch
1、使用方法fromtorch.utils.dataimportDataset2、torch.utils.data.Dataset类的定义classDataset(Generic[_T_co]):r"""Anabstractclassrepresentinga:class:`Dataset`.Alldatasetsthatrepresentamapfromkeystodatasamplesshou
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
android音频概念解析 yyc_audio android 音视频
音频硬件接口（我们可以理解为ASOC的声卡）官方代码里叫audiohardwareinterface也称为module，定义在services/audiopolicy/config/audio_policy_configuration.xml：分别有primary，a2dp，usb，r_submix(用于音频数据回环)；配置文件中的每一个module都被描述为HwModule，保存在mHwModu
macos安装python-nodejs_MAC平台基于Python Appium环境搭建过程图解 weixin_39612038
前言最近笔者要为python+appium课程做准备，mac在2019年重新安装了一次系统，这次重新在mac下搭建appium环境，刚好顺带写个文稿给大家分享分享搭建过程。一、环境和所需软件概述1.1目前环境：MacOS(10.15.3)1.2所需软件:jdk-8u91-macosx-x64.dmg(jdk1.8及以上版本应该都可以)android-sdk_r24.4.1-macosx.zip(m
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
Stacking算法：集成学习的终极武器 civilpy 算法集成学习机器学习
Stacking算法：集成学习的终极武器在机器学习的竞技场中，集成学习方法以其卓越的性能而闻名。其中，Stacking（堆叠泛化）作为一种高级集成技术，更是被誉为“集成学习的终极武器”。本文将带你深入了解Stacking算法的原理和实现，并提供一些实战技巧和最佳实践。1.Stacking算法原理探秘Stacking算法的核心思想是训练多个不同的基模型，并将它们的预测结果作为新模型的输入特征，以此来
集成学习（上）：Bagging集成方法万事可爱^ 机器学习修仙之旅 #监督学习集成学习机器学习人工智能 Bagging 随机森林
一、什么是集成学习？在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相，接下来我们就来介绍一种“拼图”算法——集成学习。集成学习是一种机器学习技术，它通过组合多个模型（通常称为“弱学习器”或“基础模型”）的预测结果，构建出更强、更准确的学习算法。这种方法的主要思想是
【集成学习】：Stacking原理以及Python代码实现 Geeksongs 机器学习 python 机器学习深度学习人工智能算法
Stacking集成学习在各类机器学习竞赛当中得到了广泛的应用，尤其是在结构化的机器学习竞赛当中表现非常好。今天我们就来介绍下stacking这个在机器学习模型融合当中的大杀器的原理。并在博文的后面附有相关代码实现。总体来说，stacking集成算法主要是一种基于“标签”的学习，有以下的特点：用法：模型利用交叉验证，对训练集进行预测，从而实现二次学习优点：可以结合不同的模型缺点：增加了时间开销，容
Python文件与格式化：编程世界的“读写之道“（技术深挖版）被窝妄想家 python进阶指南 python 数据库开发语言
一、文件操作：Python的"读写之眼"1.1文件基础哲学在计算机世界中，文件就像一本本等待翻阅的典籍。Python的open()函数如同手持放大镜，让我们能精确控制阅读和书写：#经典打开模式组合withopen("data.txt","r+",encoding="utf-8")asf:#r+模式：可读可写，文件指针初始位置在开头content=f.read(10)#读取前10个字节f.seek(
windows使用ssh-copy-id命令的解决方案爱编程的喵喵 Windows实用技巧 windows ssh ssh-copy-id 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了windows使用ssh-copy-
win-服务器部署程序自启动设置 johnrui operation and maintenance win 运维
为了简化应用服务器中项目启动的操作，现对在win操作系统下服务启动设置为开机启动的相关操作，在这里做一次记录和分享。参阅了很多文章，知道win设置开机启动项方式很多，这篇文章只是其中的一种，但是经过了实践测试非常有效。设置步骤如下：1）按住Win键，再按R键(Win+R)，启动"运行"窗口;2）WindowsXP/2003/2008/2008R2输入：controluserpasswords2Wi
在R中读入h5ad文件，并转换为seurat对象拜托啦！狮子 r语言前端 javascript
太可恶了要么就报错要么就卡住！！！！/(ㄒoㄒ)/~~library(Seurat)library(SeuratDisk)pbmc10kmono=paste0(path,'/pbmc10k/use_data/rna_mono.h5ad')1.Round1##方法1：通过h5Seurat中转#library(SeuratDisk)#Convert(pbmc10kmono,dest="h5seurat
PyTorch基础知识讲解（一）完整训练流程示例苏雨流丰机器学习 pytorch 人工智能 python 机器学习深度学习
文章目录Tutorial1.数据处理2.网络模型定义3.损失函数、模型优化、模型训练、模型评价4.模型保存、模型加载、模型推理Tutorial大多数机器学习工作流程涉及处理数据、创建模型、优化模型参数和保存训练好的模型。本教程向你介绍一个用PyTorch实现的完整的ML工作流程，并提供链接来了解这些概念中的每一个。我们将使用FashionMNIST数据集来训练一个神经网络，预测输入图像是否属于以下
机器学习中的贝叶斯网络：如何构建高效的风险预测模型 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术文章目录机器学习中的贝叶斯网络：如何构建高效的风险预测模型1.背景介绍2.基本概念术语说明2.1马尔科夫随机场（MarkovRandomField）2.2条件随机场（ConditionalRandomField，CRF）2.3变量elimination算法2.4贝叶斯网络3.核心算法原理和具体操作步骤以及数学公式讲解3.1原理介绍1.贝叶斯网络基础2.贝叶斯网络构建风险
进制转换（R转十）（1290. 二进制转换十进制、1292. 十六进制转十进制、1291. 八进制转十进制、1405. 小丽找潜在的素数）是帅帅的少年东方博宜OJ题库解析算法 c++数据结构
题单地址：题单中心-东方博宜OJ这里以二进制转十进制为例（按位加权求和法）1290.二进制转换十进制问题描述请将一个25位以内的2进制正整数转换为1010进制！输入一个25位以内的二进制正整数。输出该数对应的十进制。样例输入111111111111111111111111输出16777215解析：按位加权(2^n)求和法。#includeusingnamespacestd;intmain(){st
业务概念模型，你必须知道的建模分析工具 SystemEngineeringLab 统一建模语言需求分析
引言回想经历过不同的团队、不同的产品线、大量的产品需求迭代建设，在系统建设（多数是业务系统）中往往偏重于方案域求解，比如，而弱化或忽视对问题域的分析建模。这篇短文章浅谈一下“业务概念模型”，希望对大家有所帮助。什么是业务概念模型对于概念模型我们并不陌生，其本质是模型，是对某个域信息的建模，例如常见的E-R图是对数据模型的建模。多数情况下，作为技术我们更多的接触的是技术域的分析与建模。业务概念模型（
二分查找算法 WH牛算法算法
目录1.二分查找算法的介绍1.1算法思路1.2算法模版1.2.1查找区间左端点1.2.1查找区间右端点2.模版题2.1数的范围2.2数的三次方根3.典题3.1机器人跳跃问题3.2分巧克力4.课后题1.二分查找算法的介绍1.1算法思路假设目标值在闭区间[l,r]中，每次将区间长度缩小一半，当l=r时，我们就找到了目标值。说人话：就是把答案所在的区间逐渐缩小，直到区间内只有答案。二分查找算法的时间复杂
Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战 LuckyAnJo LLM相关 llama python 自然语言处理人工智能
内容参考至博客与Bin_Nong1.环境搭建主要依赖的库(我的版本)：torch==2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_sft_Chinese经过gpt-o1的包含cot(思考过程)的中文医疗问答数据，格式与内容如下:"Question"
使用 Milvus 进行向量数据库管理与实践 qahaj milvus 数据库 python
技术背景介绍在当今的AI与机器学习应用中，处理和管理大量的嵌入向量是一个常见的需求。Milvus是一个开源向量数据库，专门用于存储、索引和管理深度神经网络以及其他机器学习模型生成的大规模嵌入向量。它的高性能和易用性使其成为处理向量数据的理想选择。核心原理解析Milvus的核心功能体现在其强大的向量索引和搜索能力。它支持多种索引算法，包括IVF、HNSW等，使其能够高效地进行大规模向量的相似性搜索操
物理学不存在了？诺贝尔物理学奖颁给了人工智能资讯新鲜事人工智能
2024年10月8日，瑞典皇家科学院宣布，将2024年诺贝尔物理学奖授予美国普林斯顿大学教授约翰·J·霍普菲尔德（JohnJ.Hopfield）和加拿大多伦多大学教授杰弗里·E·辛顿（GeoffreyE.Hinton），以表彰他们“在人工神经网络机器学习方面的基础性发现和发明”。辛顿在接受电话采访时表示：“完全没想到”。实话实说，在结果出来前，大家也都没想到。因为在外界预测里，今年的诺贝尔物理学奖
1.Go - Hello World 编程_大白 go golang 开发语言后端
1.安装Go依赖https://go.dev/dl/根据操作系统选择适合的依赖，比如windows：2.配置环境变量右键此电脑-属性-环境变量PS：GOROOT：Go依赖路径；GOPATH：Go项目路径；Path：Go依赖的bin目录验证：win+r输入`cmd`，输入`go`回车3.编写代码创建hello.go文件，记事本编辑以下内容。packagemainimport"fmt"funcmain
本地部署deepseek-r1:14b 批量调用 Python调用本地deepseek-r1:14b实现对本地数据库的AI管理朴拙Python交易猿 python 数据库开发语言
这篇文章主要为大家详细介绍了Python如何基于DeepSeek模型，调用本地deepseek-r1:14b实现对本地数据库的AI管理场景描述基于DeepSeek模型，实现对本地数据库的AI管理。实现思路1、本地python+flask搭建个WEB，配置数据源。2、通过DeepSeek模型根据用户输入的文字需求，自动生成SQL语句。3、通过SQL执行按钮，实现对数据库的增删改查。模型服务方法1启动
RFM案例(简要版) 郜太素数据处理和统计分析 Numpy pandas RFM案例 mysql 学习方法 sql
一、会员价值度模型1、RFM模型介绍会员价值度用来评估用户的价值情况，是区分会员价值的重要模型和参考依据，也是衡量不同营销效果的关键指标之一。价值度模型一般基于交易行为产生，衡量的是有实体转化价值的行为。常用的价值度模型是RFMRFM模型是根据会员最近一次购买时间R（Recency）购买频率F（Frequency）购买金额M（Monetary）计算得出RFM得分通过这3个维度来评估客户的订单活跃价
Deepseek-r1:14b+ScraperAPI实现联网本地大模型回答 FuWen_Hao python 人工智能
文章目录前言一、Deekseek本地部署二、SerpAPI1.什么是SerpAPI？2.如何使用SerpAPI进行Web搜索三、实现Deepseek-r1:14b+ScraperAPI实现联网本地大模型回答1.Code前言我需要对本地的Deepseek-r1:14b进行提问，我发现它对于实时的问题，或者不知道的问题，会不回答或者乱回答。基于这点我想通过WebAPI传输更多的信息给到Deekseek
【AI大模型应用开发】【RAG评估】0. 综述：一文了解RAG评估方法、工具与指标同学小张大模型人工智能笔记经验分享 gpt agi AIGC
大家好，我是同学小张，日常分享AI知识和实战案例欢迎点赞+关注，持续学习，持续干货输出。+v:jasper_8017一起交流，一起进步。微信公众号也可搜【同学小张】本站文章一览：前面我们学习了RAG的基本框架并进行了实践，我们也知道使用它的目的是为了改善大模型在一些方面的不足：如训练数据不全、无垂直领域数据、容易出现幻觉等。那么如何评估RAG的效果呢？本文我们来了解一下。文章目录推荐前置阅读0.R
大模型最新面试题系列：微调篇之微调基础知识人肉推土机大模型最新面试题集锦大全面试人工智能 AI编程大模型微调 LLM
一、全参数微调（Full-Finetune）vs参数高效微调（PEFT）对比1.显存使用差异全参数微调：需存储所有参数的梯度（如GPT-3175B模型全量微调需约2.3TB显存）PEFT：以LoRA为例，仅需存储低秩矩阵参数（7B模型使用r=16的LoRA时显存占用减少98%）实战经验：在A10080GB显存下，全量微调LLaMA-7B需DeepSpeedZero3优化，而LoRA可直接单卡运行2
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

R语言数据处理强悍包dplyr&reshape2&tidyr

表达式中均未出现variable列，即默认把其他列的每一行看做一个整体进行计算-#

-------加入计算：等价于group_by + summarise------------------------------#

正常情况下含variable

------加入合计：margins-------------------

--------加入子集的选取subset-------------------

replace = False(默认)，表示是否替换

wt，用于进行排序的变量，可选；若不指定，默认为最后一个变量

-n，从底部开始选择n个数据

.keep_all = TRUE,指保留除Month以外的其它列的内容。默认的情况是不保存其他列的。

删除各行中变量完全相同的值 = unique(x)

删除某变量中相同的值

删除某两个变量完全相同的行

指定替换的变量 - 字符串

指定替换的变量 - 数值型

若不指定替换的变量，默认按照顺序进行重编码

常规重编码

搭配within使用

创建一个新变量

配合list() 与 !!!，将语句进行拼接，然后执行

用来存储没有缺失值的数据

把x中的NA替换为y

将NA匹配为对应位置的值 （y, z 两者长度必须相同）

配合list() 与 !!!，将语句进行拼接，然后执行

需指定要进行计算的列

对选出来的 [每一列] 都进行计算

配合vars函数，一次选择多列

检验出所有是数值的列，全部求均值

wt="" 可选；若缺失，则计算频率

wt="",若指定某一列，则会通过计算非缺失值的总和来比对权重(weighted)；

wt = var2 ， 表示按var中的类别来分组，计算var2中未缺失值的对应的 [求和]

sort = False

返回对象的个数 或者 某个列的的观测值行数

返回非空置的行数

返回对象的唯一值的行数

先对mtcars按cyl 进行分组

--------add=FALSE (默认)-------------------------#

A tibble: 4 x 3

Groups: vs [?]

与如上等价

A tibble: 4 x 3

Groups: vs [?]

--------add=TRUE ----------------------#

A tibble: 7 x 4

Groups: cyl, vs [?] # 分组变量有3个

A tibble: 7 x 4

Groups: cyl, vs [?] # 分组变量有3个

.data, 要操作的原始数据集

.variables, 是按照某个/几个变量，对数据集 [分割]; 比如按照year对数据集分割，可以写成.(year)的形式

.fun, 具体执行操作的函数，对分割后的 [每一个子数据集，调用该函数]

expr之后的…是expr的可能取值，后接等号（=），表示执行的行为

switch语句中，不同条件末尾要有 [逗号]

若expr为文本形式，输入时需加 [引号]

你可能感兴趣的:(R,机器学习)

将NA匹配为对应位置的值（y, z 两者长度必须相同）

wt = var2 ，表示按var中的类别来分组，计算var2中未缺失值的对应的 [求和]

返回对象的个数或者某个列的的观测值行数