福旺旺

R语言R包详解——stringr包：字符处理

R语言

R语言R包详解——stringr包：字符处理
一切用法皆以说明书为准，想要了解该包，请多查阅说明书或者查看底层算法。

文章目录

R语言
一、安装与加载R包
二、函数简介
三、函数详解
- 3.1、str_c: 字符串拼接
- 3.2、str_trim: 去掉字符串的空格和TAB(\t)
- 3.3、str_pad: 以单字符填充字符串的长度
- 3.4、str_dup: 复制字符
- 3.5、str_wrap: 控制字符串输出格式
- 3.6、str_sub: 截取字符串
- 3.7、str_subset: 返回匹配的字符串
- 3.8、word: 从文本中提取单词
- 3.9、str_count: 字符串计数
- 3.10、str_length: 字符串长度
- 3.11、str_sort: 字符串值排序
- 3.12、str_order: 字符串索引排序
- 3.13、str_split / str_split_fixed: 字符串分割
- 3.14、str_detect: 检查匹配字符串的字符
- 3.15、str_match / str_match_all: 从字符串中提取匹配组
- 3.16、str_replace / str_replace_all: 字符串替换
- 3.17、str_replace_na:把NA替换为指定字符串
- 3.18、str_locate / str_locate_all: 找到匹配的字符串的位置
- 3.19、str_extract / str_extract_all: 从字符串中提取匹配字符
- 3.20、str_conv: 字符编码转换
- 3.21、str_to_upper / str_to_lower: 字符串转成大/小写
- 3.22、str_to_title: 字符串转成标题
- 3.23、str_to_sentence：字符转为语句
- 3.24、str_glue / str_glue_data：提取字符串中的变量
- 3.25、str_remove / str_remove_all: 字符删除
四、参数控制函数
- 4.1、boundary: 定义使用边界
- 4.2、coll: 使用标准Unicode排序规则比较字符串。
- 4.3、fixed: 比较文字字节
- 4.4、coll和fixed区别
- 4.5、regex: 定义正则表达式
五、用于字符处理的其他包

stringr是R语言中一个常用的字符串处理包，它提供了一系列函数来处理和操作字符串。
常用的字符串的处理以str_开头来命名，方便更直观理解函数的定义，看名知意。
掌握此包，辅以正则表达式，足以处理大部分字符处理上的问题。

一、安装与加载R包

install.packages("stringr") # 安装R包
library(stringr) # 加载R包
packageVersion("stringr") # 查看加载的R包版本
help(package = "stringr") # 产看R包的具体信息

二、函数简介

函数	功能
str_c	字符串拼接
str_trim	去掉字符串的空格和TAB(\t)
str_pad	补充字符串的长度
str_dup	复制字符串
str_wrap	控制字符串输出格式
str_sub	截取字符串
str_subset	返回匹配的字符串
word	从文本中提取单词
str_count	字符串计数
str_length	字符串长度
str_sort	字符串值排序
str_order	字符串索引排序，规则同str_sort
str_split	字符串分割
str_split_fixed	字符串分割，同str_split
str_detect	检查匹配字符串的字符
str_match	从字符串中提取匹配组。
str_match_all	从字符串中提取匹配组，同str_match
str_replace	字符串替换
str_replace_all	字符串替换，同str_replace
str_replace_na	把NA替换为指定字符串
str_locate	找到匹配的字符串的位置。
str_locate_all	找到匹配的字符串的位置,同str_locate
str_extract	从字符串中提取匹配字符
str_extract_all	从字符串中提取匹配字符，同str_extract
str_conv	字符编码转换
str_to_upper	字符串转成大写
str_to_lower	字符串转成小写,规则同str_to_upper
str_to_title	字符串转成标题,规则同str_to_upper
str_to_sentence	字符转为语句
str_glue	提取字符串中的变量
str_remove	字符删除
str_remove_all	字符删除，规则同str_remove

三、函数详解

3.1、str_c: 字符串拼接

概述：用来进行字符串、向量拼接，与R语言自带的paste和paste0函数功能类似。
语法：

str_c(..., sep = "", collapse = NULL)

参数列表：
…: 多参数的输入
sep: 用于字符串拼接，为字符串的分割符。
collapse: 用于向量拼接，为向量字符串的分割符。

示例：

> # 默认无向量分割符拼接
> str_c("a","b")
[1] "ab"

> # 指定向量分隔符
> str_c("a","b",sep = "_")
[1] "a_b"

> # 指定向量折叠符
> str_c(c("a","b","c"),collapse = "_")
[1] "a_b_c"

> # 混合应用
> str_c(c("a","b"),c("c","d"),sep = "/",collapse = "_")
[1] "a/c_b/d"

str_c与paste函数的异同点

> #相同点
> ############
> # 向量拼接字符串，collapse参数的行为一致
> str_c(c("a","b","c"), collapse = "") #collapse 将一个向量的所有元素连接成一个字符串，collapse设置元素间的连接符
[1] "abc"

> paste(c("a","b","c"), collapse = "")
[1] "abc"

> #不同点
> ############
> str_c('a','b') #把多个字符串拼接为一个大的字符串。
[1] "ab"

> paste('a','b') # 多字符串拼接，默认的sep参数行为不一致
[1] "a b"

> #拼接有NA值的字符串向量，对NA的处理行为不一致
> str_c(c("a", NA, "b"), "-d") #若为空，则无法连接
[1] "a-d" NA    "b-d"

> paste(c("a", NA, "b"), "-d") #即使空，也可连接
[1] "a -d"  "NA -d" "b -d" 

> str_c(str_replace_na(c("a", NA, "b")), "-d") #需要进行处理才可连接
[1] "a-d"  "NA-d" "b-d" 
# str_replace_na用于将值NA替换为字符“NA”

3.2、str_trim: 去掉字符串的空格和TAB(\t)

概述：去掉字符串的空格和TAB(\t)
语法：

str_trim(string, side = c("both", "left", "right"))

参数列表：
string: 字符串，字符串向量。
side: 过滤方式，both两边都过滤，left左边过滤，right右边过滤

示例：

> # 删除字符串两侧的空格
> str_trim(" a ",side = "both")
[1] "a"

> # 删除字符串左侧的空格
> str_trim(" a ",side = "left")
[1] "a "

> # 删除字符串右侧的空格
> str_trim(" a ",side = "right")
[1] " a"

3.3、str_pad: 以单字符填充字符串的长度

概述：字符补齐函数str_pad，用于在字符串中添加单个字符，可选择添加的位置。
语法：

str_pad(string, width, side = c("left", "right", "both"), pad = " ", use_width = TRUE)

参数列表：
string: 字符串，字符串向量
width: 字符串填充后的长度（若指定的width长度小于string长度，则无效扩充）
side: 填充方向，both两边都填充，left左边填充，right右边填充
pad: 用于填充的字符（要求单字符）
use_width: 若为False，则返回string（不扩充）

示例：

> # string ≤ width 无效扩充
> str_pad("aaaaa",3)
[1] "aaaaa"

> # string > width 默认为从左侧扩充
> str_pad("aaaaa",10)
[1] "     aaaaa"

> # 更改扩充方式和填充内容，both方式下，非对称时优先补充至右侧
> str_pad("aaaaa",10,side = "both",pad = "*")
[1] "**aaaaa***"

3.4、str_dup: 复制字符

概述：复制字符串
语法：

str_dup(string, times)

参数列表：
string：需要重复处理的字符串
times：指定重复的次数

示例：

> # 字符串复制
> str_dup("a",2)
[1] "aa"

> # 向量复制
> str_dup(c("a","b","c"),1:3)
[1] "a"   "bb"  "ccc"

> # 组合使用
> str_c(c("a","b","c"),str_dup(c(1,2,3),1:3),sep = "_",collapse = "/")
[1] "a_1/b_22/c_333"

3.5、str_wrap: 控制字符串输出格式

概述：用于将长字符串按照指定的宽度进行换行。它可以帮助我们在输出或显示长字符串时，使其更易读和美观。
语法：

str_wrap(string, width = 80, indent = 0, exdent = 0, whitespace_only = TRUE))

参数列表：
string: 字符串，字符串向量。
width: 设置一行所占的宽度。
indent: 段落首行的缩进值（缩进字符不纳入width的考量内）。
exdent: 设置第二行及之后每行缩进（缩进字符不纳入width的考量内）。
whitespace_only: 若为Ture则换行只会发生在空格处，若为False则换行也会发生在非字符（,/-等）处。

示例：

> text <- "This is a-long-string that needs to be wrapped to fit within a specified width."

> # 首行不缩进，后面每行缩进两字符（缩进字符不纳入width的考量内）
> str_wrap(text, width = 14,indent = 0,exdent = 2)
[1] "This is\n  a-long-string\n  that needs\n  to be\n  wrapped to\n  fit within\n  a specified\n  width."

> # 缩进会发生在非字符处
> str_wrap(text, width = 14,indent = 0,exdent = 2,whitespace_only = F)
[1] "This is a-\n  long-\n  string that\n  needs to be\n  wrapped to\n  fit within\n  a specified\n  width."

3.6、str_sub: 截取字符串

概述：字符过滤函数str_sub和str_subset，str_sub函数通过指定开始和结束位置，过滤出字符串的部分字符串。
语法：

str_sub(string, start = 1L, end = -1L)

参数列表：
string: 字符串，字符串向量。
start : 开始位置
end : 结束位置

示例：

> # 字符过滤（正向索引）
> str_sub(string = "banana",start = 1,end = 3)
[1] "ban"

> # 字符过滤（反向索引）
> str_sub(string = "banana",start = -2,end = -1)
[1] "na"

> # 字符过滤，并赋值
> x <- "banana"

> str_sub(string = x,start = 1,end = 1) <- "A"

> print(x)
[1] "Aanana"

> # 分2段截取字符串
> str_sub("banana", c(1, 2), c(3, -2)) 
[1] "ban"  "anan"

3.7、str_subset: 返回匹配的字符串

概述：str_subset函数通过匹配模式，过滤出满足模式的字符串。
语法：

str_subset(string, pattern)

参数列表：
string: 字符串，字符串向量。
pattern: 匹配的字符。

示例：

> fruit <- c("apple", "banana", "pear", "pinapple")

> ##返回含字符'ap'的字符串
> str_subset(fruit, "ap") 
[1] "apple"    "pinapple"

> # 运用正则表达式进行详细的字符匹配
> ## 匹配开头
> str_subset(fruit, "^a") 
[1] "apple"

> ## 匹配结尾为a的字符串
> str_subset(fruit, "a$") 
[1] "banana"

> ##返回含'aeiou'任一个字符的单词
> str_subset(fruit, "[aeiou]") 
[1] "apple"    "banana"   "pear"     "pinapple"

> #匹配任意字符，即可以实现丢弃空值
> str_subset(c("a", NA, "b"), ".") 
[1] "a" "b"

3.8、word: 从文本中提取单词

概述：提取一个完整的字符，不如str_sub和str_subset来得灵活，一些情况下比起前两者来说更加的便捷。
语法：

word(string, start = 1L, end = start, sep = fixed(" "))

参数列表：
string: 字符串，字符串向量。
start: 开始的单词。
end: 结束的单词。
sep: 分隔符。

示例：

> sentences <- c("I saw a cat, it sat down","Maybe you-were-right")

> #提取第二个单词到最后一个单词
> word(sentences, 2, -1) 
[1] "saw a cat, it sat down" "you-were-right"        

> #整个句子从第一~三个单词到最后一个单词
> word(sentences[1], 1:3, -1) 
[1] "I saw a cat, it sat down" "saw a cat, it sat down"   "a cat, it sat down"      

> # 指定分隔符
> word(sentences, 2, -1, sep = ",") 
[1] " it sat down" NA            

> word(sentences, 2, -1, sep = "-") 
[1] NA           "were-right"

3.9、str_count: 字符串计数

概述：字符串计数，计算字符串中指定字符的个数
语法：

str_count(string, pattern = "")

参数列表：
string: 字符串，字符串向量。
pattern: 匹配的字符。

示例：

> # 单个目标字符计数
> str_count(string = c("sql","json","java"),pattern = "s")
[1] 1 1 0

> # 多个目标字符计数
> str_count(string = c("sql","json","java"),pattern = c("s","j","a"))
[1] 1 1 2

> # 统计字符长度
> str_count(string = c("sql","json","java"))
[1] 3 4 4

3.10、str_length: 字符串长度

概述：计算字符串长度，阉割版str_count函数
语法：

str_length(string)

参数列表：
string: 字符串，字符串向量。

示例：

> str_length(c("I", "am", "福旺旺", NA))
[1]  1  2  3 NA

3.11、str_sort: 字符串值排序

概述：对字符向量进行排序
语法：

str_sort(x, decreasing = FALSE, na_last = TRUE, locale = "en", numeric = FALSE,...)

参数列表：
x: 字符串，字符串向量
decreasing: 排序方向
na_last: NA值的存放位置，一共3个值，TRUE放到最后，FALSE放到最前，NA过滤处理
locale: 按哪种语言习惯排序，默认为"en" (English)
numeric: 若为Ture，则将数字当作数值型进行排序处理，否则按照字符型排序处理

示例：

> # 字符向量升序排序，返回字符向量
> str_sort(c("sql","json","python",NA))
[1] "json"   "python" "sql"    NA      

> # 字符向量降序排序，返回字符向量，并丢弃掉NA值
> str_sort(c("sql","json","python",NA),decreasing = TRUE, na_last = NA)
[1] "sql"    "python" "json"  

> # 字符向量升序排序，返回字符向量，并将NA值放在第一个
> str_sort(c("sql","json","python",NA),na_last = F)
[1] NA       "json"   "python" "sql"

3.12、str_order: 字符串索引排序

概述：字符串索引排序，规则同str_sort，str_order和str_sort的区别在于前者返回排序后的索引（下标），后者返回排序后的实际值。
语法：

str_order(x, decreasing = FALSE, na_last = TRUE, locale = "en", numeric = FALSE,...)

参数列表：
x: 字符串，字符串向量
decreasing: 排序方向
na_last: NA值的存放位置，一共3个值，TRUE放到最后，FALSE放到最前，NA过滤处理
locale: 按哪种语言习惯排序，默认为"en" (English)
numeric: 若为Ture，则将数字当作数值型进行排序处理，否则按照字符型排序处理

示例：

> # 字符向量升序排序，返回索引向量
> str_order(c("sql","json","python",NA))
[1] 2 3 1 4

> # 字符向量降序排序，返回索引向量，并丢弃掉NA值
> str_order(c("sql","json","python",NA),decreasing = TRUE, na_last = NA)
[1] 1 3 2

> # 字符向量升序排序，返回索引向量，并将NA值放在第一个
> str_order(c("sql","json","python",NA),na_last = F)
[1] 4 2 3 1

3.13、str_split / str_split_fixed: 字符串分割

概述：对字符串进行分割，str_split与str_split_fixed的区别在于前者返回列表格式，后者返回矩阵格式。
语法：

str_split(string, pattern, n = Inf, simplify = FALSE)
str_split_fixed(string, pattern, n)

参数列表：
string: 字符串，字符串向量。
pattern: 匹配的字符。
n: 分割个数  #最后一组就不会被分割
simplify: False 返回列表，Ture 返回矩阵（有了这个参数，那str_split_fixed就属于旧时代的遗物了）

示例：

> # 字符分割，返回列表
> str_split(string = "ba-na-na",pattern = "")
[[1]]
[1] "b" "a" "-" "n" "a" "-" "n" "a"

> # 字符分割3次，返回列表
> str_split(string = "ba-na-na",pattern = "", n = 3)
[[1]]
[1] "b"      "a"      "-na-na"

> # 字符分割，返回矩阵
> str_split(string = "ba-na-na",pattern = "-",simplify = T)
     [,1] [,2] [,3]
[1,] "ba" "na" "na"

> # 字符分割，需要指定分割块数
> str_split_fixed(string = "ba-na-na",pattern = "-", n = Inf)
     [,1] [,2] [,3]
[1,] "ba" "na" "na"

3.14、str_detect: 检查匹配字符串的字符

概述：检查字符串中是否包含指定字符，返回逻辑向量。
语法：

str_detect(string, pattern)

参数列表：
string: 字符串，字符串向量。
pattern: 匹配字符。

示例：

> # 检测字符串中是否包含s
> str_detect(string = c("sql","json","java"),pattern = "s")
[1]  TRUE  TRUE FALSE

> # 检测字符串中是否以s开头
> str_detect(string = c("sql","json","java"),pattern = "^s")
[1]  TRUE FALSE FALSE

3.15、str_match / str_match_all: 从字符串中提取匹配组

概述：与字符提取函数str_extract类似，返回匹配到的字符，不同之处在于返回格式。str_match和str_match_all的区别在于前者返回矩阵格式，后者返回列表格式。str_match_all会返回每一个匹配到的值，str_match只会返回第一个匹配成功的字符。
语法：

str_match(string, pattern)
str_match_all(string, pattern)

参数列表：
string: 字符串，字符串向量。
pattern: 匹配字符。

示例：

> val <- c("aabbcc", 123, "1ab") 

> # 从字符串中提取匹配组
> # 匹配字符a，并返回对应的字符
> str_match(val, "a") 
     [,1]
[1,] "a" 
[2,] NA  
[3,] "a" 

> #从字符串中提取匹配组，以字符串matrix格式返回
> str_match_all(val, "a") 
[[1]]
     [,1]
[1,] "a" 
[2,] "a" 

[[2]]
     [,1]

[[3]]
     [,1]
[1,] "a" 


> # 匹配字符0-9，限1个，并返回对应的字符
> str_match(val, "[0-9]") 
     [,1]
[1,] NA  
[2,] "1" 
[3,] "1" 

> # 匹配字符0-9，不限数量，并返回对应的字符
> str_match(val, "[0-9]*") 
     [,1] 
[1,] ""   
[2,] "123"
[3,] "1"  

> # 匹配每一个字符0-9，并返回对应的字符
> str_match_all(val, "[0-9]")
[[1]]
     [,1]

[[2]]
     [,1]
[1,] "1" 
[2,] "2" 
[3,] "3" 

[[3]]
     [,1]
[1,] "1"

3.16、str_replace / str_replace_all: 字符串替换

概述：用于替换字符串中的部分字符，str_replace与str_replace_all的区别在于前者只替换一次匹配的对象，而后者可以替换所有匹配的对象
语法：

str_replace(string, pattern, replacement)

参数列表：
string: 字符串，字符串向量。
pattern: 匹配字符。
replacement: 用于替换的字符。

示例：

> #替换第一个匹配的字符# 把目标字符串第一个出现的a或b，替换为-
> str_replace(val, "[ab]", "-") 
[1] "-bc" "123" "c-a"

> #替换所有匹配的字符 # 把目标字符串所有出现的a或b，替换为-
> str_replace_all(val, "[ab]", "-") 
[1] "--c" "123" "c--"

3.17、str_replace_na:把NA替换为指定字符串

概述：把NA替换为指定字符串
语法：

str_replace_na(string, replacement = "NA")

参数列表：
string: 字符串，字符串向量。
replacement : 用于替换的字符。

示例：

> # 把NA值替换为字符串
> str_replace_na(c(NA,'NA',"abc"),'x')
[1] "x"   "NA"  "abc"

3.18、str_locate / str_locate_all: 找到匹配的字符串的位置

概述：字符位置提取函数str_locate和str_locate_all,返回匹配到的字符的位置，**str_locate()和str_locate_all()**的区别在于前者只匹配第一个匹配的字符，而后者可以匹配所有可能的值
语法：

str_locate(string, pattern)
str_locate_all(string, pattern)

参数列表：
string: 字符串，字符串向量。
pattern: 匹配字符。

示例：

> val <- c("aabbcc","123","bacabc")

> # 用字符匹配
> str_locate(val, "a")
     start end
[1,]     1   1
[2,]    NA  NA
[3,]     2   2

> # 用向量匹配
> str_locate(val, c("a", 12, "b"))
     start end
[1,]     1   1
[2,]     1   2
[3,]     1   1

> # 以字符串matrix格式返回
> str_locate_all(val, "a")
[[1]]
     start end
[1,]     1   1
[2,]     2   2

[[2]]
     start end

[[3]]
     start end
[1,]     2   2
[2,]     4   4


> # 匹配a或b字符，以字符串matrix格式返回
> str_locate_all(val, "[ab]")
[[1]]
     start end
[1,]     1   1
[2,]     2   2
[3,]     3   3
[4,]     4   4

[[2]]
     start end

[[3]]
     start end
[1,]     1   1
[2,]     2   2
[3,]     4   4
[4,]     5   5

3.19、str_extract / str_extract_all: 从字符串中提取匹配字符

概述：字符提取函数str_extract和str_extract_all，对字符串进行提取，str_extract_all函数返回所有的匹配结果。
语法：

str_extract(string, pattern, group = NULL)
str_extract_all(string, pattern, simplify = FALSE)

参数列表：
string: 字符串，字符串向量。
pattern: 匹配字符。
group: 如果提供，则不会返回完整的匹配，而是从指定的捕获组返回匹配的文本。
simplify: 返回值，TRUE返回matrix，FALSE返回字符串向量

示例：

> shopping_list <- c("apples x4", "bag of flour", "bag of sugar", "milk x2")

> # 提取所有数字，\转义，\d正则表达式，等价于[0-9]查找所有数字。
> str_extract(shopping_list, "\\d")
[1] "4" NA  NA  "2"

> # 提取小写字母，+匹配前面的子表达式一次或多次。
> str_extract(shopping_list, "[a-z]+")
[1] "apples" "bag"    "bag"    "milk"  

> # 提取小写字母，{1,4}匹配前面的子表达式最少1次，最多4次。
> str_extract(shopping_list, "[a-z]{1,4}")
[1] "appl" "bag"  "bag"  "milk"

> # \b匹配一个单词边界，即字与空格间的位置。若左右两侧皆加上\b则表示取一个位于两个空格之间的完整字符串。
> str_extract(shopping_list, "\\b[a-z]{1,4}\\b")
[1] NA     "bag"  "bag"  "milk"

> # ()标记一个子表达式的开始和结束位置。配合group参数，可以精确的挑出想要的子表达式。
> str_extract(shopping_list, "([a-z]+) of ([a-z]+)")
[1] NA             "bag of flour" "bag of sugar" NA            

> str_extract(shopping_list, "([a-z]+) of ([a-z]+)", group = 1)
[1] NA    "bag" "bag" NA   

> str_extract(shopping_list, "([a-z]+) of ([a-z]+)", group = 2)
[1] NA      "flour" "sugar" NA     

> # 提取所有匹配字符，返回列表的形式。
> str_extract_all(shopping_list, "[a-z]+")
[[1]]
[1] "apples" "x"     

[[2]]
[1] "bag"   "of"    "flour"

[[3]]
[1] "bag"   "of"    "sugar"

[[4]]
[1] "milk" "x"   


> str_extract_all(shopping_list, "\\b[a-z]+\\b")
[[1]]
[1] "apples"

[[2]]
[1] "bag"   "of"    "flour"

[[3]]
[1] "bag"   "of"    "sugar"

[[4]]
[1] "milk"


> str_extract_all(shopping_list, "\\d")
[[1]]
[1] "4"

[[2]]
character(0)

[[3]]
character(0)

[[4]]
[1] "2"


> # Simplify参数，将返回值转化为矩阵形式
> str_extract_all(shopping_list, "\\b[a-z]+\\b", simplify = TRUE)
     [,1]     [,2] [,3]   
[1,] "apples" ""   ""     
[2,] "bag"    "of" "flour"
[3,] "bag"    "of" "sugar"
[4,] "milk"   ""   ""     

> str_extract_all(shopping_list, "\\d", simplify = TRUE)
     [,1]
[1,] "4" 
[2,] ""  
[3,] ""  
[4,] "2" 

> # 将所有的单词提取出来（剔除标点之类的非字符）
> str_extract_all("This is, suprisingly, a sentence.", boundary("word"))
[[1]]
[1] "This"        "is"          "suprisingly" "a"           "sentence"

3.20、str_conv: 字符编码转换

概述：转换字符的编码方式
语法：

str_conv(string, encoding)

参数列表：
string: 字符串，字符串向量。
encoding: 编码名。

示例：

> x <- rawToChar(as.raw(177))
> x
[1] "\xb1"
> str_conv(x, "ISO-8859-2") # Polish "a with ogonek"
[1] "ą"
> str_conv(x, "ISO-8859-1") # Plus-minus
[1] "±"

3.21、str_to_upper / str_to_lower: 字符串转成大/小写

概述：将字符串转成大/小写
语法：

str_to_upper(string, locale = "en")
str_to_lower(string, locale = "en")

参数列表：
string: 字符串，字符串向量
locale: 按哪种语言习惯排序，默认为"en" (English)

示例：

> val <- "This is a dog. It is so cute."

> # 全大写
> str_to_upper(val)
[1] "THIS IS A DOG. IT IS SO CUTE."

> # 全小写
> str_to_lower(val)
[1] "this is a dog. it is so cute."

3.22、str_to_title: 字符串转成标题

概述：将每个单词的首字母都大写
语法：

str_to_title(string, locale = "en")

参数列表：
string: 字符串，字符串向量
locale: 按哪种语言习惯排序，默认为"en" (English)

示例：

> val <- "This is a dog. It is so cute."

> # 每个单词的首字母都大写
> str_to_title(val)
[1] "This Is A Dog. It Is So Cute."

3.23、str_to_sentence：字符转为语句

概述：只有第一个单词的首字母大写
语法：

str_to_sentence(string, locale = "en")

参数列表：
string: 字符串，字符串向量
locale: 按哪种语言习惯排序，默认为"en" (English)

示例：

> val <- "This is a dog. It is so cute."

> # 只有第一个单词的首字母大写
> str_to_sentence(val)
[1] "This is a dog. It is so cute."

3.24、str_glue / str_glue_data：提取字符串中的变量

概述：字符串格式化函数str_glue，用花括号{}表示占位符，括号内的变量被替换成全局变量值。str_glue 与 str_glue_data的区别在于参数传递方式和变量引用方式有所不同。如果需要从数据框中获取变量值，可以使用str_glue_data函数，而如果直接引用变量名，可以使用str_glue函数。
- 这两个函数的区别具体如下：

参数传递方式：str_glue函数使用…参数来传递变量，而str_glue_data函数使用data参数来传递变量。在str_glue_data中，可以通过data参数指定一个数据框（data frame），其中包含了要插入到字符串中的变量。
变量引用方式：在str_glue函数中，可以直接引用变量名，例如"{var}“。而在str_glue_data函数中，需要使用花括号和句点的组合来引用变量，例如”{.data$var}"。这是因为str_glue_data需要通过data参数指定数据框，所以需要使用句点来引用数据框中的变量。
环境设置：str_glue函数默认使用当前环境来获取变量值，而str_glue_data函数使用data参数指定的数据框作为环境来获取变量值。这意味着在str_glue_data中，可以直接使用数据框中的变量名，而不需要在变量名前加上数据框的名称。

语法：

str_glue(..., .sep = "", .envir = parent.frame())
str_glue_data(.x, ..., .sep = "", .envir = parent.frame(), .na = "NA")

参数列表：
...：表示要插入到字符串中的变量。可以是一个或多个变量，用逗号分隔。
.sep：表示多个变量之间的分隔符，默认为空格。例如，如果设置为"-"，则多个变量之间将用"-"分隔。
.envir：表示要从中获取变量值的环境，默认为当前环境。可以是一个环境对象或一个整数，表示要获取变量值的环境的层数。
.na：表示当变量值为NA时的替代文本，默认为空字符串。例如，如果设置为"NA"，则当变量值为NA时，将使用"NA"替代。

示例：

> name <- "Fred"
> age <- 50
> anniversary <- as.Date("1991-10-12")

> # 使用全局变量
> str_glue(
+   "My name is {name}, ",
+   "my age next year is {age + 1}, ",
+   "and my anniversary is {format(anniversary, '%A, %B %d, % ..." ... [TRUNCATED] 
My name is Fred, my age next year is 51, and my anniversary is 星期六, 十月 12, 1991.

> # 双{{}}会失效
> str_glue("My name is {name}, not {{name}}.")
My name is Fred, not {name}.

> # 使用局部变量
> str_glue(
+   "My name is {name}, ",
+   "and my age next year is {age + 1}.",
+   name = "Joe",
+   age = 40
+ )
My name is Joe, and my age next year is 41.

> # 调用数据框
> mtcars %>% str_glue_data("{rownames(.)} has {hp} hp")
Mazda RX4 has 110 hp
Mazda RX4 Wag has 110 hp
Datsun 710 has 93 hp
Hornet 4 Drive has 110 hp
Hornet Sportabout has 175 hp
Valiant has 105 hp
...

3.25、str_remove / str_remove_all: 字符删除

概述：字符删除函数str_remove和str_remove_all，用于删除字符串中的部分字符。
语法：

str_remove(string, pattern)
str_remove_all(string, pattern)

参数列表：
string: 字符串，字符串向量。
pattern: 匹配字符。

示例：

> # 删除第一个匹配到的字符
> str_remove(string = c("abc","123","bac"),pattern = "[ab]")
[1] "bc"  "123" "ac" 

> # 删除所有匹配到的字符
> str_remove_all(string = c("abc","123","bac"),pattern = "[ab]")
[1] "c"   "123" "c"

四、参数控制函数

概述：参数控制函数，仅用于构造功能的参数，不能独立使用。
boundary: 定义使用边界
coll: 使用标准Unicode排序规则比较字符串
fixed: 比较文字字节
regex: 定义正则表达式

4.1、boundary: 定义使用边界

概述：定义使用边界
语法：

boundary(
  type = c("character", "line_break", "sentence", "word"),
  skip_word_none = NA,
  ...
)

参数列表：
type: 要检测的边界类型

character
每一个字符
line_break
换行符
sentence
一句话（以"."结尾，且句子前后有空格分开）
word
单词（前后有空格隔开）

skip_word_none: 忽略不包含任何字符或数字的“单词”一一例如标点符号。默认NA仅在单词边界上拆分时才会跳过此类“单词”。

示例：

> words <- c("These are   some words.")
> str_count(words, boundary("word"))
[1] 4
> str_split(words, " ")[[1]]
[1] "These"  "are"    ""       ""       "some"   "words."
> str_split(words, " ")
[[1]]
[1] "These"  "are"    ""       ""       "some"   "words."

> str_split(words, boundary("word"))[[1]]
[1] "These" "are"   "some"  "words"

4.2、coll: 使用标准Unicode排序规则比较字符串。

概述：使用标准Unicode排序规则比较字符串
语法：

coll(pattern, ignore_case = FALSE, locale = "en", ...)

参数列表：
pattern: 匹配字符
ignore_case: Ture不区分大小写差异，False区分差异
locale: 按哪种语言习惯排序，默认为"en" (English)

示例：

> pattern <- "a.b"
> strings <- c("abb", "a.b")
> str_detect(strings, pattern)
[1] TRUE TRUE
> str_detect(strings, fixed(pattern))
[1] FALSE  TRUE
> str_detect(strings, coll(pattern))
[1] FALSE  TRUE
> 
> # coll() is useful for locale-aware case-insensitive matching
> i <- c("I", "\u0130", "i")
> i
[1] "I" "İ" "i"
> str_detect(i, fixed("i", TRUE))
[1]  TRUE FALSE  TRUE
> str_detect(i, fixed("i", FALSE))
[1] FALSE FALSE  TRUE
> str_detect(i, coll("i", TRUE))
[1]  TRUE FALSE  TRUE
> str_detect(i, coll("i", TRUE, locale = "tr"))
[1] FALSE  TRUE  TRUE

4.3、fixed: 比较文字字节

概述：比较文字字节
语法：

fixed(pattern, ignore_case = FALSE)

参数列表：
pattern: 匹配字符
ignore_case: Ture不区分大小写差异，False区分差异

示例：

> pattern <- "a.b"
> strings <- c("abb", "a.b")
> str_detect(strings, pattern)
[1] TRUE TRUE
> str_detect(strings, fixed(pattern))
[1] FALSE  TRUE
> str_detect(strings, coll(pattern))
[1] FALSE  TRUE
> 
> # coll() is useful for locale-aware case-insensitive matching
> i <- c("I", "\u0130", "i")
> i
[1] "I" "İ" "i"
> str_detect(i, fixed("i", TRUE))
[1]  TRUE FALSE  TRUE
> str_detect(i, fixed("i", FALSE))
[1] FALSE FALSE  TRUE
> str_detect(i, coll("i", TRUE))
[1]  TRUE FALSE  TRUE
> str_detect(i, coll("i", TRUE, locale = "tr"))
[1] FALSE  TRUE  TRUE

4.4、coll和fixed区别

在R语言的stringr包中，coll和fixed函数都是用于进行字符串匹配和替换的函数，但它们有一些区别。

coll函数：coll函数用于进行基于正则表达式的字符串匹配和替换。它使用的是基于Unicode的正则表达式引擎，可以进行更复杂的模式匹配。coll函数可以接受正则表达式作为模式参数，并根据模式进行字符串的匹配和替换。
fixed函数：fixed函数用于进行基于固定字符串的字符串匹配和替换。它不使用正则表达式，而是直接按照给定的固定字符串进行匹配和替换。fixed函数适用于简单的字符串匹配，不需要考虑正则表达式的特殊字符。

总的来说，coll函数适用于复杂的字符串匹配和替换，可以使用正则表达式进行模式匹配。而fixed函数适用于简单的字符串匹配和替换，不需要考虑正则表达式的特殊字符。选择使用哪个函数取决于具体的需求和字符串处理的复杂程度。

4.5、regex: 定义正则表达式

概述：定义正则表达式
语法：

regex(
  pattern,
  ignore_case = FALSE,
  multiline = FALSE,
  comments = FALSE,
  dotall = FALSE,
  ...
)

参数列表：
pattern: 匹配字符
ignore_case: Ture不区分大小写差异，False区分差异
multiline: 如果TRUE，则$和^匹配每一行的开头和结尾。如果为FALSE(默认)，则只匹配输入的开始和结束
comments: 如果为TRUE，则忽略空格和以#开头的注释。用\\转义文本空间
dotall: 如果为TRUE，将匹配行终止符（将换行符\n当作是一般字符去识别）。

示例：

> # Regular expression variations
> str_extract_all("The Cat in the Hat", "[a-z]+")
[[1]]
[1] "he"  "at"  "in"  "the" "at" 


> # ignore_case = Ture 忽视大小写
> str_extract_all("The Cat in the Hat", regex("[a-z]+", TRUE))
[[1]]
[1] "The" "Cat" "in"  "the" "Hat"


> # multiline = TRUE 匹配每一行
> str_extract_all("a\nb\nc", "^.")
[[1]]
[1] "a"


> str_extract_all("a\nb\nc", regex("^.", multiline = TRUE))
[[1]]
[1] "a" "b" "c"


> # dotall = TRUE 匹配换行符
> str_extract_all("a\nb\nc", "a.")
[[1]]
character(0)


> str_extract_all("a\nb\nc", regex("a.", dotall = TRUE))
[[1]]
[1] "a\n"

五、用于字符处理的其他包

除了stringr包之外，R语言中还有其他一些常用的用于字符处理的包，包括：

stringi：stringi包是一个功能强大的字符串处理包，提供了大量的函数和方法来处理和操作字符串。它支持多种语言和字符编码，具有较高的性能。
stringdist：stringdist包提供了一系列计算字符串之间距离的函数，例如编辑距离、汉明距离等。它可以用于字符串匹配、聚类和分类等任务。
stringi：stringi包是另一个用于字符串处理的包，它提供了一系列函数来处理和操作字符串，包括字符串匹配、替换、分割、提取等功能。
string：string包提供了一些基本的字符串处理函数，例如字符串匹配、替换、分割等。它是R语言的基础包，无需额外安装。
stringdistroy：stringdistroy包是stringdist包的扩展，提供了更多的字符串距离计算方法，例如Jaro-Winkler距离、Smith-Waterman距离等。

这些包都提供了丰富的函数和方法来处理和操作字符串，具体选择哪个包取决于您的需求和偏好。您可以通过在R中使用install.packages()命令安装这些包，并使用library()命令加载它们。同时，您也可以通过使用?命令在R中获取更详细的帮助信息。

你可能感兴趣的:(R语言,r语言)

【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
R语言标准普尔500指数Garch(1,1)模型 ronghuilin
一、例3.3标准普尔500指数的月超额收益率，从1926年开始，共792个观察值，如图所示。记rt为超额收益率，rt的样本ACF和rt2的样本PACF。在间隔为1，3时有少许序列相关性，但主要特征是平方序列显示的强烈线性相关性。例题建立garch(1,1)模型的过程：（1）应用arma(p,q)模型消除数据的线性依赖（2）在arma(p,q)模型基础上，建立garch(1,1)模型（3）改进g
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
学习小组Day4笔记--王英芳一万万万万
R语言基础准备工作电脑用户名需要是英文R基础，Rstudio人性化界面资源Rfordatasciencechapter1下载RandRstudio给自己一个全新的R语言环境R是什么一种变成语言，统计计算和绘图的环境，汇集了许多函数，强大分析功能。图形界面Rstudio开源集成开发环境IDE4个板块，脚本编辑器，控制台（脚本运行，结果显示），environment（对象/变量列表）history，文
R语言基础笔记 waterHBO r语言笔记开发语言
起因:今天不知道要写什么。把之前的笔记复制一下。代码开头，导入:#清除系统变量rm(list=ls())#隐藏警告信息:options(warn=-1)#把当前目录，设置为工作目录。library(rstudioapi)current_folder_path0.0&ideology<10.0)分组聚合，类似groupby()df2<-aggregate(df1KaTeXparseerror:Exp
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
生态位宽度计算&可视化展示（R语言）光疏介质 r语言
生态位宽度是指物种（或其它生物单位）在群落中所利用的各种不同资源的总和。物种的生态位越宽，该物种的特化程度就越小，倾向于泛化种（generalistspecies）；物种的生态位越窄，倾向于是一个特化种（specialistsspecies）。本篇所使用为生态位宽度指数即**Levins的生态位宽度指数。**（除此之外也有用shannon指数）#安装并加载必要的包if(!requireNamesp
R语言多项逻辑回归-因变量是无序多分类医学和生信笔记医学统计学 r语言医学统计学
因变量是无序多分类资料（＞2）时，可使用多分类逻辑回归（multinomiallogisticregression）。使用课本例16-5的数据，课本电子版及数据已上传到QQ群，自行下载即可。某研究人员欲了解不同社区和性别之间居民获取健康知识的途径是否相同，对2个社区的314名成人进行了调查，其中X1是社区，社区1用0表示，社区2用1表示；X2是性别，0是男，1是女，Y是获取健康知识途径，1是传统大
Protocol Buffer编译器安装雪域迷影
本文翻译自ProtocolBufferCompilerInstallationProtocolBufferCompilerInstallation如何安装protocolbuffer编译器尽管不是强制性的，但gRPC应用程序通常利用ProtocolBuufer来进行服务定义和数据序列化。该站点上的大多数示例代码都使用protocolbuffer语言（proto3）的版本3。protocolbuff
R语言自学笔记-2内置数据集实验室长工
#b站视频——R语言入门与数据分析#内置数据集#固定格式的数据（矩阵、数据框或一个时间序列等）#统计建模、回归分析等试验需要找合适的数据集#R内置数据集，存储在，通过help(package="datasets")#通过data函数访问这些数据集data()#得到新窗口前面：数据集名字后面：内容#包含R所有用到的数据类型，包括：向量、矩阵、列表、因子、数据框以及时间序列等#直接输入数据集的名字就可
在TCGA上下载数据并且进行处理 Red Red 生信小技巧 r语言数据库
浏览器搜索TCGAGDC进入网站在TCGA数据库主页选择“Repository”模式根据所需要的选项在侧边栏选择数据清空购物车！！第一次登陆可忽略将刚刚选择好的数据加入购物车，并且在购物车里下载Metadata和Cart数据，下载到同一个文件夹下。使用R语言脚本对数据进行处理，将其提取为genesymbol和样本的数据，推荐看一下该博主处理数据！！真的非常详细！他R语言脚本在这个链接里
R语言-非结构化数据-文本数据读入 pdc31czy R r语言数据分析
#2.2.2非结构化数据-文本数据读入rm(list=ls())#清空工作空间##1.读入简单文本数据###假如数据包含大量经过结构化的文本数据#只需按照读入csv等标准式数据的方法读入#例：novel=read.csv("novel.csv",fileEncoding="UTF-8")head(novel)##2.用readtable读入文本###文本数据普通读法test=read.table(
Coding and Paper Letter（十四） G小调的Qing歌
资源整理。1Coding:1.R语言包ungeviz，ggplot2的拓展包，专门用来作不确定性的可视化。ungeviz2.计算机图形学相关开源项目。计算机图形学光线追踪开源项目C++源码。computergraphicsraytracing计算机图形学格网开源项目C++源码。computergraphicsmeshes计算机图形学介绍开源项目。computergraphics3.R语言包GLMM
r语言做绘制精美pcoa图_R语言高级绘图 — ggplot2 weixin_39560002 r语言做绘制精美pcoa图
2)PCA的作图PCA主成分分析，可以将高维数据进行降维处理。我们的OTU表格就是典型的高维数据，可以对其进行降维处理得到主成分PC1和PC2，然后将所有样品都分解到这两个成分方向，进行散点绘图，可以直观的看出样品间的差异。首先需要一系列的统计处理，然后用ggplot2进行绘图，过程如下：#加载需要的三个包(需要先下载，再加载)>library(ade4)>library(ggplot2)>lib
科研绘图系列：R语言扩展物种堆积图（Extended Stacked Barplot）生信学习者1 SCI科研绘图系列 r语言数据可视化数据分析
介绍R语言的扩展物种堆积图是一种数据可视化工具，它不仅展示了物种的堆积结果，还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异，为研究者提供了一种有效的数据解读方式。加载R包knitr::opts_chunk$set(warning=F,message=F)library(tidyverse)library(phyloseq)library(g
科研绘图系列：R语言柱状图分布（histogram plot）生信学习者1 SCI科研绘图系列 r语言数据可视化
文章目录介绍加载R包读取数据画图介绍柱状图（BarChart）是一种常用的数据可视化图表，用于展示和比较不同类别或组的数据。它通过在二维平面上绘制一系列垂直或水平的柱子来表示数据的大小，每个柱子的长度或高度代表一个数据点的数值。柱状图非常适合于展示分类数据的分布和比较。柱状图的特点：直观比较：柱状图可以直观地展示不同类别之间的数值比较，易于理解。分类展示：数据按照类别或组别进行分组展示，每个类别用
科研绘图系列：R语言富集散点图（enrichment scatter plot）生信学习者1 SCI科研绘图系列 r语言数据可视化
介绍富集通路散点图（EnrichmentPathwayScatterPlot）是一种数据可视化工具，用于展示基因集富集分析（GeneSetEnrichmentAnalysis,GSEA）的结果。横坐标是对应基因名称，纵坐标是通路名称，图中的点表示该基因在某个通路下的qvalue，可以简单理解为不同环境下的贡献大小。加载R包导入所需要的R包，在导入前需要用户自己安装。library(readxl)l
Python-Matplotlib安装及简单使用 riyuexingchen0909 python python 图形
在使用NumPy进行学习统计计算时是枯燥的，大量的数据令我们很头疼，所以我们需要把它图形化显示。Matplotlib是一个Python的图形框架，类似于MATLAB和R语言。Matplotlib的官网地址是http://matplotlib.org/，下载地址为http://matplotlib.org/downloads.html，选择对应的版本即可安装，我选择的版本为matplotlib-1.
sublime安装python库_Mac OS 轻松用 Sublime Text 3 配置Python编译环境 weixin_39603397
最近在学习数据分析相关的知识，对比Python和R语言在数据分析领域的优劣，Python更胜一筹。要学习Python，首先需要搭建编译环境。一.编译工具的选择Python的编译工具有两种，1.文本编辑器，SublimeText3,(还有vim,VistualStudioCode),此处重点介绍SublimeText32.集成开发环境(IDE),主要有pycharmpython，iclipsepyt
在linux（ubuntu）中使用网页版的rstudio Chao_Powell_Hou
RStudio是R语言集成开发环境的应用软件，RStudioServer是一个基于web访问的RStudio云端开发环境，需要安装在服务器上，支持多用户远程访问使用。可以在网页端打开，而且界面与windows版本的相同。安装就先不说了，挺简单的。安装完成后输入rstudio-server可以看到相应的指令。image.png为了激活，我们输入rstudio-serverstart，就已经激活了。但
推荐一份生物信息学入门很好的参考材料小明的数据分析笔记本
链接是https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/这个是康涅狄格大学（UniversityofConnecticut）提供的一份教程，主要的内容包括1、生物信息学中经常用到的文件格式image.png2、linux操作系统和R语言的基础知识image.png3、转录组数据的处理流程image.png这里包括有参
R语言基础学习 weixin_55475210 r语言学习开发语言
R与RStudioR语言是数据科学和统计分析的语言，适合数据分析和数据可视化。R是开源的，拥有丰富的包（packages），可以与优化软件进行交互。RStudio提供了R语言的集成开发环境，支持代码编辑、运行、调试等功能。下载R：CRAN下载RStudio：RStudioDownloadRStudio界面基本操作保存/打开代码文件使用.R扩展名。保存/打开环境文件使用.Rdata扩展名。快捷键操作
学习小组Day5笔记--森蝶松风
数据结构Day5+数据结构.png新手注意事项1.R的赋值符号不是等号，而是<-2.在Console控制台输入命令，相当于Linux的命令行3.R的代码都是带括号的，括号必须是英文的。4.显示工作路径getwd()5.向量是由元素组成的，元素可以是数字或者字符串。6.表格在R语言中改名叫数据框7.函数或者命令不会用时，除了百度/谷歌搜索以外，用这个命令查看帮助：?read.table，调出对应的帮
学习小组Day6笔记--魏麻将魏麻将
R包什么？R包是R函数，编码和样本数据的集合，它们存储在R环境中的名为“library”的目录下。默认情况下，R在安装过程中安装一组软件包。当需要某些特定的目的时，也可根据需要添加更多的包。当我们启动R控制台时，默认情况下只有默认软件包可用。已经安装的其他软件包必须明确加载才能被要使用的R程序使用。注意：学生信，R语言必学的原因是丰富的图表和Biocductor上面的各种生信分析R包。安装和加载R
centos7 r语言安装_centos7 R-4.0.2 安装 weixin_39777404 centos7 r语言安装
tar-zvxfR-4.0.2.tar.gzcdR-*yuminstall-ygccyuminstall-ygcc-gfortranyuminstall-ygcc-c++yuminstall-yglibc-headersyuminstall-ylibreadline6-devgfortranyuminstall-yreadline-develyuminstall-ywgetlibXt-devely
linux下载R语言失败,[已解决]CentOS7下安装rjags失败 installation of package ‘rjags’ had non-zero exit status... 宁静致远敏 linux下载R语言失败
问题CentOS7下安装rjags失败installationofpackage‘rjags’hadnon-zeroexitstatus详细报错>install.packages("gbs2ploidy",dependencies=TRUE)alsoinstallingthedependency‘rjags’tryingURL'https://cran.rstudio.com/src/contri
Centos 安装R语言环境 3.6 118路司机 R CentOS centos r语言 python
前言目前R语言最新版已经是4.0以上了，所以安装旧版本可以通过下载源码方式安装。源码地址https://cran.r-project.org/src/base/R-3/步骤1.下载源码wgethttps://cran.r-project.org/src/base/R-3/R-3.6.3.tar.gz2.解压tar-zxvfR-3.6.3.tar.gzcdR-3.6.33.配置安装目录mkdir/u
R语言使用rpart包构建决策树模型实战、使用prune函数按照指定复杂度对决策树剪枝、使用rpart.plot包中的prp函数可视化训练、剪枝好的决策树 statistics.insight r语言决策树数据挖掘机器学习
R语言使用rpart包构建决策树模型实战、使用prune函数按照指定复杂度对决策树剪枝、使用rpart.plot包中的prp函数可视化训练、剪枝好的决策树、type参数、extra参数、fallen.leaves参数控制决策树精细化显示目录R语言使用rpart包构建决策树模型、使用prune函数按照指定复杂度对决策树剪枝、使用rpart.plot包中的prp函数可视化训练、剪枝好的决策树、type
r语言变量长度不一致怎么办_C语言，C++常见编译错误 weixin_39624094 r语言变量长度不一致怎么办
fatalerrorC1003:errorcountexceedsnumber;stoppingcompilation中文对照：错误太多，停止编译分析：修改之前的错误，再次编译fatalerrorC1004:unexpectedendoffilefound中文对照：文件未结束分析：一个函数或者一个结构定义缺少“}”、或者在一个函数调用或表达式中括号没有配对出现、或者注释符“”不完整等fataler
科研绘图系列：R语言单细胞差异基因四分图（Quad plot）生信学习者2 R语言可视化 r语言数据分析数据挖掘
介绍在单细胞分析领域，为了探究不同分组间同一细胞类型的基因表达差异，研究者们常采用四分图（QuadPlot）作为分析工具。该图形的横轴代表比较组1，而纵轴代表比较组2。通过这种布局，四分图能够有效地展示两组间共有的差异表达基因，从而为深入理解细胞类型在不同条件下的分子特性提供直观的视角。这种可视化方法不仅揭示了组间基因表达的异同，还有助于识别可能在生物学过程或疾病发生中起关键作用的基因。加载R包导
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p