ALittleHigh

R语言——taxize（第一部分）

ropensci 系列之 taxize （中译手册）

taxize 包
- 1. taxize支持的网络数据源
- - 简介
  - 目前支持的API：
  - 针对Catalogue of Life（COL）
- 2. 浅尝 taxize 的一些使用例子
- - 2.1. **从NCBI上获取唯一的分类标识符**
  - 2.2. **获取分类信息**
  - 2.3. 获得类群的直系子类群
  - 2.4. 向下检索子类群直至某个阶元
  - 2.5. 向上检索类群直至某个阶元
  - 2.6. 检索同物异名
  - 2.7. 从多个数据源获得分类标识符
  - 2.8. 根据科学名检索俗名
  - 2.9. 根据俗名检索科学名
  - 2.10. 检索多个类群的最近共有父类群
  - 2.11. 强制转换
- 3. taxize 文档中译
- - 3.1. apg（检索APG系统中的名称）
  - 3.2. apg_families（MOBOT的科名，现成的数据）
  - 3.3. apg_orders（MOBOT的目名）
  - 3.4. apg_lookup（在APGⅢ的类群名称查找并替换名称）
  - 3.5. bold_downstream（在BOLD的阶元结构中向下检索所有类群名称）
  - 3.6. bold_search（根据分类标识符查找生命条形码）
  - 3.7. children（根据给定的类群名称或ID检索直接子类群）
  - 3.8. class2tree（将分类信息列表转换为树状）

taxize 包

标题：来自网络的分类信息
说明：与一系列网络 APIs进行交互，完成例如获取数据库特定的分类标识符，验证物种名称，获取分类层次结构，获取下游和上游分类名称，获取分类同义词，将科学名称转换为常用名称，反之亦然，等等。

1. taxize支持的网络数据源

来自网络的分类信息。

简介

	+ 允许用户在许多网站上搜索物种名称（科学的和常见的），下载上下游的分类等级信息，以及许多其他东西。
	+ 包中特定API的函数有一个由下划线分隔的前缀和后缀。它们遵循service_whatitdoes的格式。例如，gnr_resolve使用Global Names Resolver的API来解析物种名称。
	+ 包中不涉及特定API的通用函数没有下划线分隔的两个单词，例如classification。
	+ 某些数据源需要API密钥。有关更多信息，请参阅taxize -authentication。

目前支持的API：

中译名	API	前缀	SOAP?
网络生命大百科	Encyclopedia of Life（EOL）	eol	FALSE
综合分类信息服务	Integrated Taxonomic Information Service（ITIS）	itis	FALSE
全球名称解析器	Global Names Resolver（from EOL/GBIF）	gnr	FALSE
全球名称名录	Global Names Index（from EOL/GBIF）	gni	FALSE
国际自然保护联盟濒危物种红色名录	IUCN Red List	iucn	FLASE
Tropicos数据库	Tropicos（from Missouri Botanical Garden）	tp	FALSE
植物名录	Theplantlist.org	tpl	FLASE
国家生物技术信息中心	National Center for Biotechnology Information	ncbi	FALSE
加拿大维管植物数据库	CANADENSYS Vascan name search API	vascan	FALSE
国际植物名称名录	International Plant Names Index（IFNI）	ipni	FALSE
世界海洋物种名录	World Register of Marine Species（WoRMS）	worms	TRUE
生命条形码数据库	Barcode of Life Data Systems（BOLD）	bold	FALSE
泛欧物种名录基础	Pan-European Species directories Infrastructure（PESI）	pesi	TRUE
真菌数据库	Mycobank	myco	TRUE
生物多样性网络	National Biodiversity Network（UK）	nbn	FALSE
全球真菌名录	Index Fungorum	fg	FALSE
欧洲多样性观察网	EU BON	eubon	FALSE
世界名称名录	Index of Names（ION）	ion	FALSE
生命之树	Open Tree of Life（TOL）	tol	FALSE
北美自然保护区	NatureServe	natserv	FALSE

如果上面的源在SOAP?列中显示TRUE ，则该资源在此包中不可用。它们可以从另一个名为 taxizesoap 的软件包中获得。请参阅GitHub repo了解如何安装https://github.com/ropensci/taxizesoap

针对Catalogue of Life（COL）

COL最近在2019年引入了速率限制-这使得API基本上无法使用——COL +即将推出，当它稳定时我们将在这里合并它。参见https://github.com/ropensci/colpluz获取CoL+的R实现。

2. 浅尝 taxize 的一些使用例子

目前尚未找到完备的关于taxize的用户手册，暂且以https://www.rdocumentation.org/packages/taxize/versions/0.9.4中的内容为引，先体验一下taxize。

大部分“taxize”都围绕分类标识符展开。众所周知，分类名称是很混乱的，比如拼写错误，同物异名等等。先获取能让数据源识别的标识符（ID），然后才能继续获取其他分类信息。

网页给出了下面的例子：

2.1. 从NCBI上获取唯一的分类标识符

uids <- get_uid(c("Chironomus riparius", "Chaetopteryx"))

以及运行后在控制台的输出，可以看到输出结果还是非常详细的，包括请求数量、请求内容、请求结果以及汇总报告。

No ENTREZ API key provided
 Get one via taxize::use_entrez()
See https://ncbiinsights.ncbi.nlm.nih.gov/2017/11/02/new-api-keys-for-the-e-utilities/
══  2 queries  ═══════════════

Retrieving data for taxon 'Chironomus riparius'

✔  Found:  Chironomus+riparius

Retrieving data for taxon 'Chaetopteryx'

✔  Found:  Chaetopteryx
══  Results  ═════════════════

• Total: 2 
• Found: 2 
• Not Found: 0

而且，返回的结果也不单单是标识符。尝试输出uids后，可以看到该变量里保存的信息非常有用且简洁。

以下是输入：

uids

以下是输出：

[1] "315576" "492549"
attr(,"class")
[1] "uid"
attr(,"match")
[1] "found" "found"
attr(,"multiple_matches")
[1] FALSE FALSE
attr(,"pattern_match")
[1] FALSE FALSE
attr(,"uri")
[1] "https://www.ncbi.nlm.nih.gov/taxonomy/315576"
[2] "https://www.ncbi.nlm.nih.gov/taxonomy/492549"

通过查看get_uid()的帮助页面，可以了解到其他属性的含义。match表示查找结果如何，mutiple_matches表示是否查找到多项匹配结果，pattern_match表示当存在多项匹配时，是否生成了最佳匹配结果，uri表示在此链接有关于当前类群更多的信息。

2.2. 获取分类信息

什么是分类信息？比如说现在有一个物种，然后分类信息就是从种级向上的所有分类等级，包括属、科、目、纲、界。

通过第一步获得的标识符查看它们的分类信息：

out <- classification(uids)

结果是数据框列表

细心一点可以发现，这两个类群的分类阶元至少有27层，这是因为除了界门纲目科属种外，许多中间阶元，例如亚属、亚科、超科、超目等都会包含在分类信息中。

在分别查看这两个数据框时，注意标识符要用字符。分类阶元从上到下逐级减小，直至我们输入的标识符对应的类群。

2.3. 获得类群的直系子类群

这个方法并不需要提前获取类群的标识符，也不需要声明类群的分类阶元。

让我们先尝试一下获取属级类群的直系子类群，也就是属下的所有物种，以Salmo为例。

ic <- children("salmo", db ="ncbi")

注意直系子类群有很强的限制性，一般来说，标准的分类阶元是界门纲目科属种，但是正如前文获取分类信息时一样，实际上还会包含超目、亚科等阶元。所以在使用时要返回的结果可能与期望大相径庭，如果要查看某个科中的属级类群有哪些？

ber <- children("berberidaceae", db="ncbi")

实际上，返回的都是亚科类群。

2.4. 向下检索子类群直至某个阶元

从字面上看，此方法可以实现多层阶元检索子类群。我们先过一下给出的例子：获得Apis的所有物种。

api <- downstream(as.tsn(154395), db = 'itis', downto = 'species', verbose = FALSE)

再多尝试一次，依旧以berberidaceae为例，查找该科下的所有属。

ber <- downstream("berberidaceae", db="itis", downto="genus", verbose=FALSE)

══  1 queries  ═══════════════

Retrieving data for taxon 'berberidaceae'

✔  Found:  berberidaceae
══  Results  ═════════════════

• Total: 1 
• Found: 1 
• Not Found: 0

返回的结果中包含了所有berberidaceae的属，只不过没有中间阶元，比如亚科。

2.5. 向上检索类群直至某个阶元

从物种Pinus contorta向上检索至属级阶元，具体效果如何见下：

pi <- upstream("Pinus contorta", db = 'itis', upto = 'Genus', verbose=FALSE)

实际上可以这样理解，该方法从目标物种向上级检索到直接父类群，再找到此父类群的所有姊妹类群（同阶元类群）。

2.6. 检索同物异名

这个就很好理解了，直接看看例子：

ace <- synonyms("Acer drummondii", db="itis")

*在

══  1 queries  ═══════════════

Retrieving data for taxon 'Acer drummondii'

✔  Found:  Acer drummondii
══  Results  ═════════════════

• Total: 1 
• Found: 1 
• Not Found: 0
Accepted name(s) is/are 'Acer rubrum var. drummondii'
Using tsn(s) 526853

2.7. 从多个数据源获得分类标识符

本例子非常清晰明了，当然我们在这里不会详细介绍使用的方法的参数。

sal <- get_ids(sci_com ="Salvelinus fontinalis", db = c('itis', 'ncbi'), verbose=FALSE)

══  db: itis ═════════════════
══  1 queries  ═══════════════

Retrieving data for taxon 'Salvelinus fontinalis'

✔  Found:  Salvelinus fontinalis
══  Results  ═════════════════

• Total: 1 
• Found: 1 
• Not Found: 0
══  db: ncbi ═════════════════
No ENTREZ API key provided
 Get one via taxize::use_entrez()
See https://ncbiinsights.ncbi.nlm.nih.gov/2017/11/02/new-api-keys-for-the-e-utilities/
══  1 queries  ═══════════════

Retrieving data for taxon 'Salvelinus fontinalis'

✔  Found:  Salvelinus+fontinalis
══  Results  ═════════════════

• Total: 1 
• Found: 1 
• Not Found: 0

2.8. 根据科学名检索俗名

ha <- sci2comm('Helianthus annuus', db = 'itis')

[1] "common sunflower" "sunflower"        "wild sunflower"   "annual sunflower"

2.9. 根据俗名检索科学名

bb <- comm2sci("black bear", db = "itis")

[1] "Ursus americanus luteolus"   "Ursus americanus"            "Ursus americanus"           
[4] "Ursus americanus americanus" "Chiropotes satanas"          "Ursus thibetanus"           
[7] "Ursus thibetanus"

2.10. 检索多个类群的最近共有父类群

lc <- lowest_common(c("Sus scrofa", "Homo sapiens", "Nycticebus coucang"), db = "ncbi")

也许你注意到了行号是21，这可能意味着lowest_common方法是先找到所有类群的所有分类信息，即classification，然后交叉比较后抽取了某行分类信息。

2.11. 强制转换

从数值型至uid类型：as.uid(315567)
从列表型至uid类型：as.uid(list(“315567”，“3339”))
从uid类型至数据框类型：data.frame(as.uid(c(315567, 3339)))

3. taxize 文档中译

资源https://cran.r-project.org/web/packages/taxize/taxize.pdf

介绍函数方法时，并不严格遵循文档的顺序。

3.1. apg（检索APG系统中的名称）

描述：被子植物分类系统，又称APGⅢ，中的类群名称和替代名。
用法：apgOrders(…)，apgFamilies(…)
参数：…（传递给crul::verb-GET)
参考：http://www.mobot.org/MOBOT/research/APweb/
示例：结果参考 3.2. apg_families 和 3.3. apg_orders。

3.2. apg_families（MOBOT的科名，现成的数据）

描述：APGⅢ中的科名和替代名。
格式：该数据框有1705行，6列。

family：科名。
synonym：如果accepted列为FALSE，此项就是接受名；如果accepted列为TRUE，此项为NA。
order：目名。
accepted：逻辑值，取决于family列的名称是否被接受。
original：APG网站的原始数据。当此项存在时，family列的名称将会映射到此项。
accepted_name：接受名。整合family和synonym列后的结果。

说明：本数据集是在2020-06-03借助 apgFamilies() 生成的。

3.3. apg_orders（MOBOT的目名）

描述：APGⅢ中的科名和替代名。
格式：该数据框有576行，5列。

order：目名。
synonym：如果accepted列为FALSE，此项就是接受名；如果accepted列为TRUE，此项为NA，那么order列为接受名。
accepted：逻辑值，取决于order列是否为接受名。
original：APG网站的原始数据。当此项存在时，order列的名称将会映射到此项。
accepted_name：接受名。整合order和synonym列后的结果。

说明：本数据集是在2020-06-03借助 apgOrders() 生成的。

3.4. apg_lookup（在APGⅢ的类群名称查找并替换名称）

描述：在APGⅢ的类群名称查找并替换名称。
用法：apg_lookup(taxa, rank=“family”)。
参数：

taxa：（字符型）在APGⅢ中查找该分类名称的替换名。
rank：（字符型）分类阶元，接受值为family或order。

说明：本方法在内部调用的是 apg_families 和 apg_orders 这两个数据集。
返回值：APGⅢ中的科名或目名，如果参数taxa的名称与APG中的相同，返回原始名称，否则返回NA。

示例：

发现新名称

apg_lookup(taxa = "Hyacinthaceae", rank = "family")

new name...
[1] "Asparagaceae"

相同名称

apg_lookup(taxa = "Poaceae", rank = "family")

name is the same...
[1] "Poaceae"

检索失败

apg_lookup(taxa = "Foobar", rank = "family")

no match found...
[1] NA

3.5. bold_downstream（在BOLD的阶元结构中向下检索所有类群名称）

用法：bold_downstream(id, downto, intermediate = FALSE, …)
参数：

id：（整数值）单个或多个BOLD的分类标识符。
downto：（字符值）期望向下到达的分类阶元。分类阶元区分大小写！，详见data(rank_ref）。
intermediate：（逻辑值）TRUE时，返回包含期望阶元的类群名称和一个包含中间阶元类群数据框的列表的列表。默认为FALSE。
…：传递给crul::verb-GET。

说明：此方法需要爬取BOLD网站，故而不太稳定。
返回值：当intermediate为FALSE时，返回的是储存期望阶元的分类信息的数据框；而当intermediate为TRUE时，则返回一个列表，列表长度为2，包括期望阶元的类群名称和中间阶元的名称。

示例：

intermediate = FALSE，即默认

bold_downstream(id = 3451, downto = "species")

                 name     id    rank
1 Gadus chalcogrammus 360473 species
2 Gadus macrocephalus  19837 species
3        Gadus morhua  26136 species
4          Gadus ogac 747382 species
5           Gadus sp. 674263 species
6  Gadus sp. OPC-2017 794750 species

intermediate = TRUE

i <- bold_downstream(id = 443, downto = "genus", intermediate = TRUE)

3.6. bold_search（根据分类标识符查找生命条形码）

用法：bold_search(sci = NULL, id =NULL, fuzzy = FALSE, dataTypes = “basic”, includeTree = FALSE, response = FALSE, name = NULL, …)
参数：

sci：（字符型）单个或多个科学名。
id：（整数型）单个或多个BOLD分类标识符。
fuzzy：（逻辑值）决定是否采用模糊检索，默认FALSE。只有使用了sci参数时才有用。
dataTypes：（字符型）决定返回的数据类型，详见说明。当使用了sci参数时会忽略此参数，当使用id参数时才有用。
includeTree：（逻辑值）默认FALSE，如果为TRUE，返回一个包含父类群和期望类群的信息的列表，只有使用了id参数才有用。
response：（逻辑值）此参数是返回的curl响应，对于调试很有用，也能获得API响应的详细信息。
name：已弃用！，请使用sci。
…：传递给crul::verb-GET。

说明：必须向此方法传递sci或id参数之一，其余参数都是可选的。dataTypes参数的接受值：

接受值	返回说明
all	所有数据
basic	基本的类群信息
images	标本图片。包含版权信息，图片链接，图片元数据
stats	标本和测序统计。包括公开物种数，公开BIN数，公开标记物数，公开记录数，标本数，测序物种数，条形码标本数，物种数，条形码物种数
geo	采集点信息。包括国家和采集点地图
sequencinglabs	测序实验室。包括实验室名称和记录数
depository	标本仓库。包括仓库名和记录数
thirdparty	第三方信息。包括维基百科总结，维基百科链接和GBIF地图

返回值：一个由数据框组成的列表。
参考：http://www.boldsystems.org/index.php/resources/api
示例：

简单的例子

bold_search(sci="Apis")

  input taxid taxon tax_rank tax_division parentid parentname taxonrep specimenrecords     		representitive_image.image representitive_image.apectratio
1  Apis  1937  Apis    genus     Animalia   878935      Apini     Apis            5222 BOFTH/B3260-B09+1247093258.jpg                           1.362

模糊查找

a <- bold_search(sci="achl", fuzzy = TRUE)

当使用id，同时可以使用dataTypes和includeTree

bold_search(id=88899, dataTypes = "basic", includeTree = TRUE)

  input taxid         taxon tax_rank tax_division parentid    parentname taxonrep
1 88899    18      Chordata   phylum     Animalia        1           Chordata
2 88899    51          Aves    class     Animalia       18      Chordata     Aves
3 88899   339 Coraciiformes    order     Animalia       51          Aves     
4 88899 88898     Momotidae   family     Animalia      339 Coraciiformes     
5 88899 88899       Momotus    genus     Animalia    88898     Momotidae

3.7. children（根据给定的类群名称或ID检索直接子类群）

描述：本方法区别于 downstream() 的点在于，children()只搜集直接子类群，而downstream()是搜集期望子阶元的分类名称。

用法：

## Default S3 method:
children(...)

## S3 method for class 'tsn':
children(sci_id, db=NULL, rows=NA, x=NULL, ...)

## S3 method for class 'wormsid':
children(sci_id, db=NULL, ...)

## S3 method for class 'ids':
children(sci_id, db=NULL, ...)

## S3 method for class 'uid':
children(sci_id, db=NULL, ...)

## S3 method for class 'boldid':
children(sci_id, db=NULL, ...)

参数：

…：其他额外传递给ritis::hierarchy_down()，ncbi_children()，worrms::wm_children()，bold_children()的参数。
sci_id：类群名称（字符型）或ID（字符型或数值型）向量。
db：（字符型）用于检索的数据源。接受值是itis，ncbi，worms或bold之一。每个数据源都有自己特有的一套标识符，不属于指定数据源的标识符也有可能返回检索结果，只不过是错误的。
rows：（数值型）从1至无穷大的整数值。当为NA（默认），所有行都有效。注意，如果传入任何可接受类的分类id: tsn，则忽略此参数。NCBI有这个函数的方法，但是rows参数不起作用。
x：已弃用，见 sci_id。

返回值：一个带命名的数据框，储存每个输入类群的所有子类群名称。如果在数据源中没有匹配项，则返回NA。

ncbi：当数据源是 ncbi 时，默认ambigous = TRUE，表示像“unclassified”、“unknown”、“uncultured”和“sp.”的子类群都不会舍弃。

bold：数据源bold存在连接不稳定的情况。

示例：

输入ID
```
children(161994, db = "itis")
```
输入名称
```
children("Salmo", db = 'itis')
```

使用两个数据源

t <- children(get_ids("Apis", db = c('ncbi','itis')))

3.8. class2tree（将分类信息列表转换为树状）

描述：将多个独立物种的阶元层级列表以分类阶元矩阵的形式塞入一个物种内，然后仅根据分类计算距离矩阵，随后输出phylo或dist对象。

用法：

class2tree(input, varstep=TRUE, check=TRUE, ...)

## S3 method for class 'classtree'
plot(x, ...)

## S3 method for class 'classtree'
print(x, ...)

参数：

input：classification()返回的数据框列表。
varstep：根据不同类别数量的比例损失，改变连续阶元之间的步长。
check：为TRUE时，删除所有行不同或行不变的冗余阶元，并将每行视为不同的基础分类类群（物种）。如果为FALSE，所有阶元都被保留，并且基础分类类群（物种）也必须编码为变量（列）。
…：传递给hclust的参数。
x：class2tree()返回的结果，用于输出或绘图。

说明：详见vegan::taxa2dist()。生成分类树不仅依赖分类阶元的聚类，还会使用实际的类群枝。本方法的流程如下：首先，从输入中搜集每个类群的可用分类阶元和对应的ID；然后整合所有类群的阶元向量，生成一个矩阵，矩阵的列是所有类群的有序分类阶元，行是这些类群的阶元向量；随后这个阶元矩阵转换为分类ID矩阵，缺失的阶元会由原阶元名称生成的伪ID代替；最后，ID矩阵用于将具有相似分类阶元层级的类群聚类。

返回值：一个带槽位的classtree对象。当直接输出返回值时，只会显示phylo部分，其余三部分可以通过output$classification查看。

phylo：结果。
classification：分类信息数据框，类群为行，分类信息阶元为列。
distmat：距离矩阵。
names：系统发育端点的名称。

示例：

spnames <- c('Quercus robur', 'Iris oratoria', 'Arachis paraguariensis',
'Helianthus annuus','Madia elegans','Lupinus albicaulis',
'Pinus lambertiana')

out <- classification(spnames, db='itis')

tr <- class2tree(out)

你可能感兴趣的:(R语言,r语言,开发语言)

【数据分析】多数据集网络分析：探索健康与退休研究中的变量关系生信学习者1 数据分析 (2025版)数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理函数网络分析画图保存图片总结系统信息介绍在医学和社会科学研究中，理解多个变量之间的复杂关系对于揭示潜在的病理生理机制和社会行为模式至关重要。本文介绍了一种基于R语言的网络分析方法，用于探索HRS（健康与退休研究）及其类似研究（CHARLS、ELSA、MHAS、SHARE）中的变
国产替代Spring Boot框架的最佳之选——Solon 遇码开发工具 spring boot 后端 java solon
Java很好。SpringBoot也很好。有没有可以与SpringBoot对标的国产框架？请你记住，它叫Solon。本文推荐Solon，是因为我自己的一段经历。我主要使用的开发语言是Python，本着技多不压身的伟大指导思想，很早就想要征服SpringBoot，无奈尝试多次始终不得其要领，也就草草收场。前段时间因为项目需要，偶然了解到Solon，不仅可以平替SpringBoot，还是国产，还有我喜
Github 2025-01-07Python开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-01-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目10TypeScript项目1C++项目1OpenHands:人工智能驱动的软件开发代理平台创建周期：195天开发语言：Python协议类型：MITLicenseStar数量：31753个Fork数量：3660次关注人数：31753人
Embabel：下一代企业级JVM AI智能体框架的革命引言：AI时代的Java生态新机遇 DZSpace 软件开发 jvm 人工智能 java
在生成式AI（如ChatGPT、Claude、Gemini）席卷全球的背景下，Python凭借其丰富的AI工具链（如PyTorch、LangChain）成为主流开发语言。然而，在企业级软件开发领域，Java和JVM生态（如Kotlin、Scala）长期以来占据主导地位，尤其是在金融、电信、电商等对稳定性、可扩展性、事务管理要求极高的场景。RodJohnson（Spring框架创始人）敏锐地发现了这
Spring AI 教程（一）概述 PG Thinker Spring AI Spring ChatGPT 人工智能 spring java Spring AI
前言我在23年11月那会儿关注了SpringAI项目，当时我恰好正热衷于大语言模型的开发，然而当时主流的开发语言只有Python，Java生态中并没有强大的框架供我们使用。我当时也是靠一些封装OpenAI接口的SDK包来玩ChatGPT的，但是整体的体验较差。好在我通过一些技术交流群了解了一个正在处于实验阶段的项目：SpringAI。于是果断前往它的Github仓库进行学习，而我也恰好见证了S
R语言舆情监控与可视化统计 q56731523 r语言开发语言爬虫
用R语言进行舆情监控并且做到可视化，对我来说，总体难度还算可以，主要是舆情监控通常涉及文本数据的收集（如社交媒体、新闻评论），然后进行情感分析，最后通过图表展示结果。步骤看似简单实则一点也不简单。以下就是我使用R语言进行舆情监控和可视化统计的完整示例。该方案包括文本情感分析和时间趋势可视化：#加载必要的包library(tidyverse)#数据处理和可视化library(tidytext)#文本
R 语言数据框连接操作详解：join 与 merge 方法对比晚风keeper r语言开发语言学习笔记学习方法
在数据分析工作中，我们经常需要将多个数据集按照某些条件进行合并。R语言提供了多种数据框连接方法，本文将详细介绍如何使用dplyr包的join系列函数和基础R的merge函数进行数据框的各种连接操作，并对比它们之间的差异。一、数据框连接操作概述数据框连接是将两个或多个数据框按照某些共同的列或条件组合成一个新的数据框的过程。常见的连接类型包括：左连接（LeftJoin）：保留左数据框的所有行，匹配右数
Readr 项目安装与配置指南芮奕滢Kirby
Readr项目安装与配置指南readr项目地址:https://gitcode.com/gh_mirrors/rea/readr1.项目基础介绍readr是一个R语言的开源项目，由HadleyWickham创建和维护。该项目的主要目的是提供一种快速且友好的方式来读取分隔文件（如CSV和TSV）中的矩形数据。readr能够解析多种数据类型，并在解析过程中提供详细的错误报告，以便用户能够快速识别和解决
RustFS：基于Rust的对象存储系统技术解析光爷不秃对象存储 rust 国产开源软件云计算 rust 数据库开源软件
在数据存储技术快速发展的当下，各类对象存储解决方案不断涌现。本文将从技术特性、功能设计等角度，对基于Rust语言开发的开源对象存储系统RustFS进行客观解析，为关注存储技术的读者提供参考。项目基本信息RustFS是一个开源对象存储系统，其核心目标是构建高性能、高可靠的数据存储架构。该项目选择Rust作为开发语言，主要利用了这门语言在内存安全和运行效率上的特性，同时通过兼容S3API的设计，降低了
4篇2章5节：ANOVA 功效的单次精确模拟与可视化全解析 MD分析用R探索医药数据科学 r语言-4.2.1 r语言功效曲线单次精确模拟分析
在医学研究尤其是糖尿病等干预性试验中，精准的实验设计与功效分析是确保研究价值的关键。R语言为重复测量方差分析（ANOVA）提供了强大工具，从实验设计构建、单次精确模拟分析，到功效曲线可视化，覆盖研究全流程。本文结合糖尿病胰岛素治疗试验案例，深度拆解函数的应用逻辑，手把手教你用数据驱动实验设计，让“样本量规划”“效应检测能力”从抽象概念变为可操作、可视化的研究支撑。一、相关函数的介绍在医学研究中，实
R语言如何接入实时行情接口
目录1.安装必要的R包2.导入库3.连接WebSocket4.处理连接成功后的操作5.处理接收到的消息6.处理连接关闭和错误7.发送心跳数据8.自动重连机制9.启动连接和重连总结在数据分析和金融研究中，实时行情数据的获取至关重要，但市面上的实时行情接口并不多，本文将一步步教你如何使用R语言接入实时行情接口，获取来自WebSocket的实时数据。1.安装必要的R包首先，确保你已安装了以下R包，用于处
【R语言】Can‘t subset elements that don‘t exist. 新子y r语言开发语言 excel
Errorin`select()`:ℹInargument:`all_of(label_col)`.Causedbyerrorin`all_of()`:!Can'tsubsetelementsthatdon'texist.✖Element`Label`doesn'texist.Run`rlang::last_trace()`toseewheretheerroroccurred.原文中文解释涉及关键
r读取文件夹下的所有csv文件_R语言读取文件夹下多个文件并进行合并数据生成总数据文件... seiji morisako r读取文件夹下的所有csv文件
在流水化办公中，通常有格式统一的表格文件产生，但是到最后要将这一堆表格文件整合为大表却很揪心，累断手，如何用R语言进行一次性导入整合呢？假设我们将D:/input文件夹作为需要导入的表格的存放点，文件夹内所有文件均为此次需要导入数据，那么可以用以下程序进行操作setwd("D:/")#设定工作目录为D盘a=list.files("input")#list.files命令将input文件夹下所有文件
从0开始学习R语言--Day41--Moran‘s I Chef_Chen 学习
在处理带有空间特征的数据，我们往往都直接一股脑地处理数据点，但很多时候，空间上的信息对于处理后续衍生出来的问题会有很大帮助，例如对于城市里大小县城的发展情况，只知道单一县城的经济发展曲线，很难解释一些拐点和突然的攀升，而如果知道相邻县城存在经济发展飞快的例子，可能就是被带动了经济水平；亦或者是在处理社交网络的好有问题时，只知道谁和谁是朋友（类似于空间矩阵），是无法推断出经济收入相似的推论的，所以说
一文读懂Python+Pytest+Allure+Jenkins+Gitee自动化测试框架，手把手教你搭建
Python+Pytest+Allure+Jenkins+Gitee自动化测试框架一、框架整体架构1.技术栈分工Python：测试脚本开发语言Pytest：测试用例管理和执行引擎Allure：测试报告生成与展示Jenkins：持续集成和任务调度Gitee：代码版本管理和触发机制2.数据流向Gitee代码提交→Jenkins触发构建→Pytest执行用例→生成Allure结果→Jenkins收集报告
结构方程模型（SEM）高阶应用系列梦想的初衷~ 结构方程生态环境 python 开发语言结构方程
结构方程模型（StructuralEquationModeling）是分析多变量间因果关系的利器，在众多学科领域具有巨大应用潜力。我们前期推出的《基于R语言结构方程模型》通过结构方程原理介绍、结构方程全局和局域估计、模型构建和调整、潜变量分析、复合变量分析及结构方程贝叶斯方法实现等一系列专题的介绍及大量案例讲解，由浅入深地系统介绍了结构方程模型的建立、拟合、评估、筛选和结果展示全过程，得到学员广泛
r语言改变数据框列名_数据决定离线强化学习将如何改变我们的语言习惯杨_明 python 大数据人工智能 java 机器学习
r语言改变数据框列名重点(Tophighlight)Aridesharingcompanycollectsadatasetofpricinganddiscountdecisionswithcorrespondingchangesincustomeranddriverbehavior,inordertooptimizeadynamicpricingstrategy.Anonlinevendorrec
Python在人工智能领域的实际应用：示例代码解析辣条yyds python python 人工智能开发语言
摘要：本文将通过几个典型的人工智能应用场景，展示Python在图像识别、自然语言处理、推荐系统等方面的高级用法。通过示例代码，带大家深入理解Python在人工智能领域的实际应用。正文：Python作为一门流行的编程语言，凭借其简洁的语法、丰富的库和框架，成为了人工智能（AI）领域的主流开发语言。下面，我们将通过几个示例，探讨Python在人工智能方向的实际应用。示例一：图像识别-使用OpenCV进
【数据分析】R语言基于虚弱指数的心血管疾病风险评估生信学习者1 数据分析 (2025版)数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理画图其他1其他2其他3其他4总结系统信息介绍生存分析是医学和生物统计学中常用的方法，用于研究事件（如疾病发生、死亡等）发生的时间和相关影响因素。本文介绍了一种基于R语言的生存分析方法，用于评估虚弱指数（FrailtyIndex,FI）对心血管疾病（CVD）发生风险的影响。通过这
【科研绘图系列】R语言绘制论文组合图（multiple plots）生信学习者1 SCI科研绘图系列 (2025版)r语言数据分析数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载函数数据预处理画图1画图2画图3画图4画图5画图6总结系统信息介绍这段代码是一个用于生成多种复杂数据可视化的R脚本，主要利用ggplot2、tidyverse和自定义函数来处理和展示与小鼠实验相关的数据。它通过读取、处理数据，并生成多种图形，旨在清晰地展示不同实验组的小鼠在不同时间点的抗体浓度和
Github 2024-05-07 开源项目日报 Tp10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-05-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量TypeScript项目4JupyterNotebook项目2Python项目1Batchfile项目1非开发语言项目1Java项目1HTML项目1C#项目1从零开始构建你喜爱的技术创建周期：2156天Star数量：253338个Fork数量：240
Github 2024-07-07 开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2024-07-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目4Rust项目2C项目2C++项目1JavaScript项目1HTML项目1JupyterNotebook项目1非开发语言项目1免费编程书籍和学习资源清单创建周期：3762天协议类型：CreativeCommonsAttributio
java毕业设计图书馆座位预约管理系统维修端源码+lw文档+mybatis+系统+mysql数据库+调试木林网络 mybatis java 数据库
java毕业设计图书馆座位预约管理系统维修端源码+lw文档+mybatis+系统+mysql数据库+调试java毕业设计图书馆座位预约管理系统维修端源码+lw文档+mybatis+系统+mysql数据库+调试本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、
更换SSL证书引发的异常：`sun.security.validator.ValidatorException: PKIX path building failed` `[Nginx跳转失败：501] 猿享天开技术经验 ssl nginx 网络协议
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
如何自定义R语言函数？参数中的省略号`...`有什么用？「已注销」 python 编程语言 java 人工智能 c++
学习R未必要学习很多工具包，有时候根据自己的理解去自定义函数也是一个不错的选择。本篇推文主要介绍两方面的内容：在R语言中自定义函数的一般方法；函数参数中...的作用。在看函数的帮助文档时会发现许多函数的参数中都有...符号，它是表示被省略的参数吗？如果是，作者为什么会省略它？如果不是，那又表示什么含义呢？不久前，学堂君分享了自己编写的计算空间可达性的函数，详见推文：两步移动搜索法（2SFCA）计算
Logistic回归预测模型2：R语言实现模型的内部和外部验证
前面我们讲了logistic回归预测模型的建立，今天介绍的是模型的验证，可以在训练集和验证集中通过ROC曲线、校准曲线和决策曲线分别进行验证。1、原始数据原始数据分为训练集和验证集，其中训练集用于模型的构建和内部验证，验证集用于外部验证。两个数据集都包含5列，且列名相同。组别Group为因变量，1代表阳性结局，0代表阴性结局。自变量1和4为连续性变量，自变量2和3为二分类变量。2、安装所需要的R包
R 列表：深入解析与高效应用沐知全栈开发开发语言
R列表：深入解析与高效应用引言在R语言中，列表（List）是一种非常重要的数据结构，它允许我们将不同类型的数据组合在一起。列表在数据分析和统计建模中扮演着至关重要的角色。本文将深入探讨R列表的概念、创建方法、操作技巧以及在实际应用中的高效使用。R列表概述定义R列表是一种可以包含多种数据类型的数据结构，如数值、字符、逻辑值、其他列表等。列表可以看作是一个容器，可以存储任意数量的元素。类型R列表分为两
Github 2025-07-05 Rust开源项目日报Top10 老孙正经胡说 github rust 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-07-05统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Rust项目10TypeScript项目1uv:极快的Python软件包安装程序和解析器创建周期：147天开发语言：Rust协议类型：ApacheLicense2.0Star数量：7066个Fork数量：200次关注人数：7066人贡献人数：45人O
支持向量机（SVM）在肝脏CT/MRI图像分类（肝癌检测）中的应用及实现猿享天开医学影像支持向量机机器学习人工智能算法
博主简介：CSDN博客专家、CSDN平台优质创作者，高级开发工程师，数学专业，10年以上C/C++,C#,Java等多种编程语言开发经验，拥有高级工程师证书；擅长C/C++、C#等开发语言，熟悉Java常用开发技术，能熟练应用常用数据库SQLserver,Oracle,mysql,postgresql等进行开发应用，熟悉DICOM医学影像及DICOM协议,业余时间自学JavaScript,Vue,
R 语言安装使用教程小奇JAVA面试安装使用教程 r语言开发语言
一、R语言简介R是一种用于统计分析、数据挖掘和可视化的编程语言和环境。它在学术界和数据分析领域中广泛使用，拥有丰富的统计函数库和绘图功能。二、安装R语言2.1下载R安装包前往CRAN官网下载适合你操作系统的安装程序：官网地址：https://cran.r-project.org/2.2Windows安装下载.exe安装包；双击安装程序，按默认选项一路安装即可；安装完成后，可通过RGUI或命令行启动
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文