陈锐CR

R语言的入门学习

本文首发在知识星球上（BrainTechnology星球），此文章中所有链接均通过博客进行访问。

本文学习主要为打卡内容使用，非教程。

内容来源：本学习教程来源在线网址：https://rlearning.netlify.app/

本学习内容课程大纲

Task00：熟悉规则与R语言入门（1天）

安装
环境配置

Task01 数据结构与数据集（3天）

编码基础
数据类型
特殊数据类型
table like 数据类型
加载数据 (csv, rds, excel, Rdata)
实例

Task02 数据清洗与准备（3天）

重复值处理
缺失值识别与处理
异常值识别与处理
特征处理
规范化与偏态数据

Task03 基本统计分析（3天）

多种方法获取描述性统计量
分组计算描述性统计
频数表和列联表
相关
方差分析

Task04 数据可视化（3天）

ggplot2包介绍
散点图
直方图
柱状图
饼状图
折线图
ggplot2扩展包主题

Task05 模型（3天）

回归模型
分类模型

本次学习根据课程大纲安排，将在2021年8月16日-2021年8月31日完成学习

Task00 R/Rstudio的安装

R语言下载网址：https://cloud.r-project.org/，R 语言是一门用于统计计算与绘图的编程语言和开源软件

RStudio下载网址：https://www.rstudio.com/products/rstudio/ 它包括一个控制台、语法突出显示的编辑器、直接执行代码的支持，以及用于绘图、历史记录、调试和工作区管理的工具。

对于安装过程，可百度进行。

在console窗口中可查询包的用法信息，通过输入首字母然后可通过键盘按键Tab进行补全包的名称。

可通过在Console输入getwd()函数来获取当前工作路径

右下角图展示的当前项目中的文件数据等

调整写代码的颜色主题：

Global Options-Appearance-RStudio Theme

快捷按键：

window：

control + 可一次性查询历史记录

alt+shift+k

MacOS：

Command + 可一次性查询历史记录

option+shift+k 查询所有快捷操作

ESC中断语句进行

cltr + L清除console中的记录

切换镜像源：

由于网速慢的原因，有时安装包会安装失败。

通过将包安装切换至中国镜像来解决：点【Tools】→【Global Options…】→【Packages】→【Change…】→【选中一个中国镜像】→【OK】→【OK】。如下图，以后安装包都会通过这个镜像。

R包的安装：

在选中合适的镜像源后，可在console窗口，输入命令

在线安装：

install.packages("包名称")

离线安装：

下载好安装文件后，通过packages-install-选择安装路径

查看已安装的全部R包：

.packages(all.available = T)

查看单独的包：

library("包名")

Task01 数据结构与数据集

Getwd()获取路径

在 R Studio 中可以使用快捷键

window：

Alt + -来输入<-

Mac：

option + -来输入<-

在R语言中的基础运算符号过程

赋值：

在 R 中基础赋值的符号有三种：

一个向左的箭头<-表示将箭头右方的值取名叫做箭头左侧的名字，或者将箭头右侧的值存储在箭头左侧的名字里；
一个向右的箭头->表示将箭头左侧的值储存在箭头右侧的名字里；
一个等号=表示将箭头右侧的值存储在箭头左侧的名字里。

x <-1
y <-2
x+y

函数：其实就是某些功能的赋值,比如addone此时就是函数

addone <- function(x = 0) {
  x + 1
}

loop循环：

R 中的循环函数包括for，while，和repeat

for用法：

for (variable in vector) {
    
}

在console窗口输入?for即可查找相关用法，或在help栏中输入也可

此处R中的loop用法跟Python中的很像，主要是条件的判断。

管道pipe：说起来就是简化函数的定义，能更方便的修改和识别函数。

可以参考此篇文章的解答：https://zhuanlan.zhihu.com/p/43423747和https://zhuanlan.zhihu.com/p/339107871

数据类型：

在R中有五种基础数据类型，包括三个数值型、一个逻辑型和一个字符型。

数值型数据包括三种，分别是默认的实数数值型数据（double）、整数类型（integer）和复数类型（complex）：

#numeric
a<-1000.111
#integer
b<-1000
#complex
c<-2 + 3i

判断数值类型：

typeof()

逻辑型（logical）数据只包括两个值，TRUE（T）和 FALSE（F）:

字符型数据（character）可以总结为“任何带引号的值”。在Python中表示未字符串类型string

向量vector，向量是由一组相同类型的值组成的一维序列。vec_num <- c(1, 2, 3)，在向量中可使用sum、mean等函数进行计算。sum(vec_num) = 6

因子（factor），可以使用函数factor和c组合来创建。它与字符向量的主要区别在于因子向量的独特值（levels）是有限个数的。

数值类型转换：

按照自由程度将已经提到的几种向量以从高到低的排序可得

字符>数值>逻辑

在数值型内的排序从自由度高到低为

复数>实数>整数

三种截取子集的符号：[、[[ 和 $（其中$不能用在基础向量上）

特殊数据类型

日期：处理的包（lubridata）

时间序列time series，首先要确保安装了forecast包

library(forecast)
gas %>%
  auto.arima() %>%
  forecast(36) %>%
  autoplot()

矩阵（matrix)

在R里，矩阵是一个按照长方阵列排列的、有着固定行数和列数的、包含同一类型数据的集合。可使用函数matrix

对于一个矩阵来说，主要的命名集中于行名rownames和列名colnames：

列表（list)

它和向量或者矩阵不一样，在一个列表中可以储存各种不同的基本数据类型。你既可以存三个数字，也可以把数值型、字符型、逻辑型混合

数据表（data frame与tibble）

一个数据表（data frame）的本质是一个列表（list）

内置数据集

使用data命令来查看、使用可用数据集

读取数据文件

# 读取csv文件
library(readr)
h1n1_flu <- read_csv("h1n1_flu.csv")
# 保存csv文件
write_csv(h1n1_flu, "h1n1_flu.csv")

R也可以直接读取其他软件的数据类型。这里列举使用haven包读写 SPSS 的 sav 和 zsav、 Stata 的 dta、SAS 的 sas7bdat 和 sas7bcat。

library(haven)
#SPSS
read_spss()
write_spss()

对于函数的介绍，可参考文章《R语言函数总结》

练习题

Task02 数据清洗与准备

这一章节有点难，需要花时间来琢磨。主要是对包的加载和使用其中的函数不了解。

环境配置（包加载）

数据集1：加载数据（本地文件h1n1_flu.csv）和查看部分数据（从33个特征中筛选出10个特征用于后续处理）

h1n1_data <- read.csv("h1n1_flu.csv",header = TRUE)
dim(h1n1_data)
h1n1_data <- h1n1_data[, c(1, 3, 11, 12, 15, 16, 19, 20, 22, 23, 33)]
head(h1n1_data)

数据集2：波士顿房价数据集（mlbench包中）（13个特征+1个预测字段）

data(BostonHousing)
dim(BostonHousing)
head(BostonHousing)

重复值处理

unique()函数可以对数据进行整体去重，distinct()函数可以针对某些列去重。

# 整体去重
h1n1_data_de_dup1 <- unique(h1n1_data)

# 指定根据列respondent_id,h1n1_knowledge去重，并保留所有列
h1n1_data_de_dup2 <- distinct(h1n1_data, respondent_id, h1n1_knowledge, .keep_all = T)

缺失值识别和处理

常用方法：

在R语言中，惯用会把缺失值表示为NA，一般可使用is.na(a)，!complete.cases(a)来识别a是否为缺失值

# 假设定义的一个变量中存在缺失值
y <- c(1, 2, 3, NA)

# 用is.na在识别是否为缺失值
is.na(y)

# 用!complete.cases()在识别是否为缺失值
!complete.cases(y)

缺失值统计（使用is.na(x)）

# 数据集中总缺失数据量
sum(is.na(h1n1_data))

# 数据集中某一列缺失数据量
sum(is.na(h1n1_data["h1n1_knowledge"]))

数据中某一行来统计。

pMiss <- function(x) {
  sum(is.na(x)) / length(x) * 100
}
apply(h1n1_data, 2, pMiss) # 按列统计缺失比率%

还可以调用现成的包。

缺失值机制与分析：

分为完全随机缺失（MCAR），随机缺失（MAR）和非随机缺失（MNAR）

（1）完全随机缺失：缺失现象完全随机发生，与自身或其他变量的取值无关。
（2）随机缺失：缺失数据的发生与数据库中其他无缺失变量的取值有关。如果缺失和观测值之间存在系统关系，则为MAR
（2）非随机缺失：若缺失数据不属于MCAR和MAR，数据的缺失依赖于不完全变量本身，则数据为非随机缺失。

可视化分析缺失数据关联的方法：

使用VIM中的aggr函数：

# cex.axis调整轴字体大小，oma调整外边框大小
aggr(h1n1_data, cex.axis = .6, oma = c(9, 5, 5, 1))

# 先简单处理一下一些类别变量的顺序
h1n1_data_matplt <- h1n1_data
h1n1_data_matplt$age_group <- factor(h1n1_data_matplt$age_group)
h1n1_data_matplt$education <- factor(h1n1_data_matplt$education, levels = c("", "< 12 Years", "12 Years", "Some College", "College Graduate"))
h1n1_data_matplt$sex <- factor(h1n1_data_matplt$sex)
h1n1_data_matplt$income_poverty <- factor(h1n1_data_matplt$income_poverty, levels = c("18 - 34 Years", "<= $75,000, Above Poverty", "> $75,000"))
# levels(h1n1_data_matplt$age_group) # 查看顺序

# 矩阵图可视化
par(mar = c(9, 4.1, 2.1, 2.1)) # x轴标签太长，调用par()函数调整外边框的大小
matrixplot(h1n1_data_matplt, sortby = "chronic_med_condition", cex.axis = 0.7) # cex.axis为调整坐标轴字体大小

shadow_mat <- as.data.frame(abs(is.na(h1n1_data[, -1])))
head(shadow_mat)
# 可提取含缺失值的变量
shadow_mat <- shadow_mat[which(apply(shadow_mat, 2, sum) > 0)]

# 计算相关系数
cor(shadow_mat)

# 相关系数热力图
heatmap(cor(shadow_mat))

缺失值处理：

1.将缺失值作为变量值使用

2.删除法

3.插补法

教程介绍了删除和插补法：

1.删除法：

行删除使用函数：complete.cases()或na.omit()

h1n1_data_row_del1 <- h1n1_data[!complete.cases(h1n1_data), ]
h1n1_data_row_del2 <- na.omit(h1n1_data)

列删除：dataset[,-5]或 subset(dataset, select = -c(col1, col2))

#比如删除health_insurance
h1n1_data_col_del1 <- subset(h1n1_data, select = -c(health_insurance))

2.插补法：简单插补法、拟合插补法、多重插补法

还需要多查找资料了解：

多重插补法： 处理缺失值之多重插补（Multiple Imputation）https://zhuanlan.zhihu.com/p/36436260

异常值识别

识别：有几种常用方法，包括可视化图形分布识别（箱线图）、z-score识别、局部异常因子法（LOF法）、聚类法等。

z-score是一种一维或低维特征空间中参数异常检测方法。它假定数据是高斯分布，异常值是分布尾部的数据点，因此远离数据的平均值。一般将z-score低于-3或高于3的数据看成是异常值。

局部异常因子法(LOF)，是一种无监督的离群检测方法，是基于密度的离群点检测方法中一个比较有代表性的算法。适用于在中等高维数据集上执行异常值检测。——来源学习教程

特征编码

特征编码其实在很多程序语言中都会使用到，它是对一类特征的一种归类，能更好的用于后续的数据处理。

1.独热编码/哑编码

One-hot encoding 和 dummy，是将类别变量扩充为多个只显示0，1的变量，每个变量代表原类别变量中的一个类。 ——来源学习教程

2.标签编码

标签编码(Label Encoder)是将类别变量转换成连续的数值型变量，通常对有序的变量进行标签编码，既保留了顺序信息，也节约了空间（不会扩充变量）

3.手动编码

即自定义编码，可以用特定的函数进行处理，比如case_when()

规范化与偏态数据

为什么要数据规范化？简单来说是为了去除数据量纲和数据大小的差异，确保数据是在同一量纲或者同一数量级下进行比较，一般用在机器学习算法之前。数据规范化又可以使用0-1规范化，Z-score等方法。

为什么要处理偏态数据？。很多模型会假设数据或参数服从正态分布。例如线性回归(linear regression)，它假设误差服从正态分布。——来源学习教程

规范化的方法：

1.0-1规范化

2.Z-score标准化

3.对数转换（log transform）

4.Box-Cox

规范化： 规范化、标准化、归一化、正则化 https://blog.csdn.net/u014381464/article/details/81101551

附录：参考资料

理论资料

数据的预处理基础： 如何处理缺失值 https://cloud.tencent.com/developer/article/1626004

多重插补法： 处理缺失值之多重插补（Multiple Imputation）https://zhuanlan.zhihu.com/p/36436260

异常值检测： R语言–异常值检测 https://blog.csdn.net/kicilove/article/details/76260350

异常值检测之LOF： 异常检测算法之局部异常因子算法-Local Outlier Factor(LOF) https://blog.csdn.net/BigData_Mining/article/details/102914342

规范化： 规范化、标准化、归一化、正则化 https://blog.csdn.net/u014381464/article/details/81101551

什么样的模型对缺失值更敏感？： https://blog.csdn.net/zhang15953709913/article/details/88717220

R语言函数用法示例

funModeling用法示例：https://cran.r-project.org/web/packages/funModeling/vignettes/funModeling_quickstart.html

tidyverse官方文档：https://www.tidyverse.org/

VIM教学网页：https://www.datacamp.com/community/tutorials/visualize-data-vim-package

mice使用文档(Multivariate Imputation by Chained Equations)：https://cran.r-project.org/web/packages/mice/mice.pdf

mice使用中文解释：https://blog.csdn.net/sinat_26917383/article/details/51265213

mice检验结果解释：http://blog.fens.me/r-na-mice/

caret包数据预处理：https://www.cnblogs.com/Hyacinth-Yuan/p/8284612.html

R语言日期时间处理：https://zhuanlan.zhihu.com/p/83984803

基于R语言进行Box-Cox变换：https://ask.hellobi.com/blog/R_shequ/18371

R中数据集分割：https://zhuanlan.zhihu.com/p/45163182

Task03 基本的统计分析

准备工作，下载所需包

install.packages("pastecs")
install.packages("psych")
install.packages("ggm")

本节内容主要在代码实现统计方法，本章节还需要多补充写统计方法的原理介绍。

#加载包
library(pastecs)
library(psych)
library(ggm)

#读取数据文件
flu <- read.table("h1n1_flu.csv", header = TRUE, sep = ",")
housing <- read.csv("BostonHousing.csv", header = TRUE)

#通过summary函数计算max,min,mean,median
summary(flu[c("household_children", "sex")])
summary(flu[c("h1n1_concern", "h1n1_knowledge")])

#通过sapply()计算描述性统计
mystats <- function(x, na.omit = FALSE) {
  if (na.omit) {
    x <- x[!is.na(x)]
  }
  m <- mean(x)
  n <- length(x)
  s <- sd(x)
  skew <- sum((x - m)^3 / s^3) / n
  kurt <- sum((x - m)^4 / s^4) / n - 3
  return(c(n = n, mean = m, stdev = s, skew = skew, kurtosis = kurt))
}

sapply(flu[c("h1n1_concern", "h1n1_knowledge")], mystats)

#拓展包
#pastecs包中的 stat.desc()函数计算描述性统计量
stat.desc(flu[c("household_children", "sex")])

#通过psych包中的describe()计算描述性统计量
describe(flu[c("household_children", "sex")])

#分组计算描述性统计
#使用aggregate（）分组获取
#分组计算不同性别
aggregate(flu[c("income_poverty")], by = list(sex = flu$sex), length)

#房价的中位数
aggregate(housing$medv, by = list(medv = housing$chas), FUN = mean)

#使用by()分组计算
by(flu[c("income_poverty", "sex")], flu$sex, length)

#频数表和列联表
table(flu$sex)

#相关计算
#相关类型：包括Pearson相关系数、Spearman相关系数、Kendall相关系数、偏相关系数、多分格（polychoric）相关系数和多系列（polyserial）相关系数
#计算房价数据的相关系数，默认是Pearson相关系数。
cor(housing)

#指定计算Spearman相关系数
cor(housing, method = "spearman")

#城镇人均犯罪率与房价的相关系数
x <- housing
y <- housing[c("medv")]
cor(x, y)

#偏相关
#可使用ggm包中的pcor()函数计算偏相关系数

#相关性的显著性检验
cor.test(housing[, c("crim")], housing[, c("medv")])

#方差分析
#方差分析（ANOVA）又称“变异数分析”或“F检验”，用于两个及两个以上样本均数差别的显著性检验。
#单因素方差分析
#检验查尔斯河对房价的影响
fit <- aov(housing$medv ~ housing$chas)
summary(fit)

#多因素方差分析
#查看因子对房价的影响
fit <- aov(housing$medv ~ housing$crim * housing$b)
summary(fit)

Task04 数据可视化

#生成pdf的文件保存
pdf("xxx.pdf")#打开某文件
plot(XXX)#画图
dev.off()#关闭语句

#生成png文件
png("xxx.png")#打开某文件
plot(XXX)#画图
dev.off()#关闭语句

#生成jpg文件
jpeg("xxx.jpg")#打开某文件
plot(XXX)#画图
dev.off()#关闭语句

#如果中文编码有问题，就添加encoding = "UTF-8"

ggplot2包

#安装
install.package("ggplot2")

ggplot2包的目标是提供一个全面的、基于语法的、连贯一致的图形生成系统，允许用户创建新颖的、有创新性的数据可视化图形。

ggplot2参考链接：

https://ggplot2.tidyverse.org/reference/
https://ggplot2-book.org/
知乎问题关于《如何使用ggplot2》

#读取流感数据集
#h1n1流感问卷数据集是关于h1n1流感问卷调查的一个数据，属于外部数据 
#数据集包含26,707个受访者数据，共有32个特征+1个标签（是否接种h1n1疫苗）
h1n1_data <- read.csv("h1n1_flu.csv", header = TRUE)

#读取波士顿房价数据集
boston_data <- read.csv("BostonHousing.csv", header = TRUE)

散点图

在知乎上又发现一个R语言系列教程《R语言与统计分析》，

《R语言入门之散点图》

散点图通常是用来表述两个连续变量之间的关系。同时散点图中常常还会拟合一些直线，以用来表示某些模型。

#散点图
# 读取数据
boston_data <- read.csv("BostonHousing.csv", header = TRUE)
# 绘制简单的散点图 x轴选择的是lstat ,y轴选择的是medv
ggplot(data = boston_data, aes(x = lstat, y = medv)) + geom_point()

上图选择的是lstat为x轴，medv为y轴绘制的散点图，x轴表示弱势群体人口所占比例，y轴表示房屋的平均价格，通过图上的数据可以看到，弱势人群的比例增加会影响房价，这2个变量呈现一定的负相关。

#size参数修改点的大小，color参数修改点的颜色
# 使用第17号形状
p1 <- ggplot(data = boston_data, aes(x = lstat, y = medv)) + geom_point(shape = 17)
# size参数修改点的大小，color参数修改点的颜色
p2 <- ggplot(data = boston_data, aes(x = lstat, y = medv)) + geom_point(size = 3, color = "red")
ggarrange(p1, p2, nrow = 1)

#映射到其它颜色上
p3 <- ggplot(data = boston_data, aes(x = lstat, y = medv, colour = factor(rad))) +
  geom_point()
p4 <- ggplot(data = boston_data, aes(x = lstat, y = medv, colour = rad)) +
  geom_point()
ggarrange(p3, p4, nrow = 1)

ggplot2关于散点图详细介绍，参考链接：https://ggplot2.tidyverse.org/reference/geom_point.html

直方图

直方图的RGB网址：http://www.mgzxzs.com/sytool/se.htm

#直方图
#rad变量作图
ggplot(data = boston_data, aes(x = rad)) + geom_histogram()

#对颜色进行变化
p5 <- ggplot(data = boston_data, aes(x = rad)) + geom_histogram(color = "black", fill = "#69b3a2")
p6 <- ggplot(data = boston_data, aes(x = rad)) + geom_histogram(color = "black", fill = "#69b3a2", linetype = "dashed")
ggarrange(p5, p6, nrow = 1)

#添加平均线和密度图
p7 <- p5 + geom_vline(aes(xintercept = mean(rad)), color = "blue", linetype = "dashed", size = 1)
p8 <- ggplot(data = boston_data, aes(x = rad)) + geom_histogram(color = "black", fill = "#69b3a2", aes(y = ..density..)) + geom_density(alpha = .2, fill = "#FF6666")
ggarrange(p7, p8, nrow = 1)

ggplot2关于直方图详细介绍，参考链接：https://ggplot2.tidyverse.org/reference/geom_histogram.html

柱状图，又称长条图

#柱状图，又称长条图
#使用plyr包中的count对edcation进行计数统计
data <- count(h1n1_data["race"])
p <- ggplot(data, aes(x = race, y = freq)) + geom_bar(stat = "identity")
# 也可以进行水平放置
p1 <- p + coord_flip()
ggarrange(p, p1)

#旋转底部文字45°
data <- count(h1n1_data["race"])
ggplot(data, aes(x = race, y = freq)) + geom_bar(stat = "identity") + theme(axis.text.x = element_text(angle = 45, hjust = 1))

# 更改条的宽度和颜色：
# 更改条的宽度
p2 <- ggplot(data, aes(x = race, y = freq)) +
  geom_bar(stat = "identity", width = 0.5) +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))
# 改变颜色
p3 <- ggplot(data, aes(x = race, y = freq)) +
  geom_bar(stat = "identity", color = "blue", fill = "white") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))
# 最小主题+蓝色填充颜色
p4 <- ggplot(data, aes(x = race, y = freq)) +
  geom_bar(stat = "identity", fill = "steelblue") +
  theme_minimal() +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))
# 选择要显示的项目
p5 <- p + scale_x_discrete(limits = c("White", "Black")) + theme(axis.text.x = element_text(angle = 45, hjust = 1))
ggarrange(p2, p3, p4, p5)

ggplot2关于柱状图详细的介绍，参考链接： https://ggplot2.tidyverse.org/reference/geom_bar.html

饼状图

折线图

ggplot2关于折线图的参考链接： https://ggplot2.tidyverse.org/reference/geom_abline.html

扩展学习资料（网络来源）：

ggplot2入门大全（从菜鸟到高手）：https://blog.csdn.net/weixin_45331620/article/details/107680919

ggplot2在线书籍：https://ggplot2-book.org/index.html

Task05 模型

待学习更新

谢谢大家观看，如有帮助，来个喜欢或者关注吧！

本文作者：陈锐

博客地址： Chen Rui Blog

知乎地址 : 知乎专栏

书店地址 : 书店主页
知识星球 : 星球主页

你可能感兴趣的:(EYE/EEG/fNIRS,r语言)

np.identity()/np.eye() 听风1996
两个函数的原型为：np.identity(n,dtype=None)np.eye(N,M=None,k=0,dtype=)；np.identity只能创建方形矩阵np.eye可以创建矩形矩阵，且k值可以调节，为1的对角线的位置偏离度，0居中，1向上偏离1，2偏离2，以此类推，-1向下偏离。值绝对值过大就偏离出去了，整个矩阵就全是0了。两者在创建单位矩阵上，并无区别，两者的区别主要在接口上；np.i
【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
R语言标准普尔500指数Garch(1,1)模型 ronghuilin
一、例3.3标准普尔500指数的月超额收益率，从1926年开始，共792个观察值，如图所示。记rt为超额收益率，rt的样本ACF和rt2的样本PACF。在间隔为1，3时有少许序列相关性，但主要特征是平方序列显示的强烈线性相关性。例题建立garch(1,1)模型的过程：（1）应用arma(p,q)模型消除数据的线性依赖（2）在arma(p,q)模型基础上，建立garch(1,1)模型（3）改进g
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
第五届核磁机器学习班（训练营：2023.6.5~6.17）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★基于血氧水平依赖的功能磁共振成像(fMRI)技术,利用其数据构建的功能性脑网络后,发现脑并不是一个单纯对外界刺激进行
学习小组Day4笔记--王英芳一万万万万
R语言基础准备工作电脑用户名需要是英文R基础，Rstudio人性化界面资源Rfordatasciencechapter1下载RandRstudio给自己一个全新的R语言环境R是什么一种变成语言，统计计算和绘图的环境，汇集了许多函数，强大分析功能。图形界面Rstudio开源集成开发环境IDE4个板块，脚本编辑器，控制台（脚本运行，结果显示），environment（对象/变量列表）history，文
R语言基础笔记 waterHBO r语言笔记开发语言
起因:今天不知道要写什么。把之前的笔记复制一下。代码开头，导入:#清除系统变量rm(list=ls())#隐藏警告信息:options(warn=-1)#把当前目录，设置为工作目录。library(rstudioapi)current_folder_path0.0&ideology<10.0)分组聚合，类似groupby()df2<-aggregate(df1KaTeXparseerror:Exp
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
生态位宽度计算&可视化展示（R语言）光疏介质 r语言
生态位宽度是指物种（或其它生物单位）在群落中所利用的各种不同资源的总和。物种的生态位越宽，该物种的特化程度就越小，倾向于泛化种（generalistspecies）；物种的生态位越窄，倾向于是一个特化种（specialistsspecies）。本篇所使用为生态位宽度指数即**Levins的生态位宽度指数。**（除此之外也有用shannon指数）#安装并加载必要的包if(!requireNamesp
R语言多项逻辑回归-因变量是无序多分类医学和生信笔记医学统计学 r语言医学统计学
因变量是无序多分类资料（＞2）时，可使用多分类逻辑回归（multinomiallogisticregression）。使用课本例16-5的数据，课本电子版及数据已上传到QQ群，自行下载即可。某研究人员欲了解不同社区和性别之间居民获取健康知识的途径是否相同，对2个社区的314名成人进行了调查，其中X1是社区，社区1用0表示，社区2用1表示；X2是性别，0是男，1是女，Y是获取健康知识途径，1是传统大
Protocol Buffer编译器安装雪域迷影
本文翻译自ProtocolBufferCompilerInstallationProtocolBufferCompilerInstallation如何安装protocolbuffer编译器尽管不是强制性的，但gRPC应用程序通常利用ProtocolBuufer来进行服务定义和数据序列化。该站点上的大多数示例代码都使用protocolbuffer语言（proto3）的版本3。protocolbuff
R语言自学笔记-2内置数据集实验室长工
#b站视频——R语言入门与数据分析#内置数据集#固定格式的数据（矩阵、数据框或一个时间序列等）#统计建模、回归分析等试验需要找合适的数据集#R内置数据集，存储在，通过help(package="datasets")#通过data函数访问这些数据集data()#得到新窗口前面：数据集名字后面：内容#包含R所有用到的数据类型，包括：向量、矩阵、列表、因子、数据框以及时间序列等#直接输入数据集的名字就可
第六届磁共振ASL（动脉自旋标记）数据处理班（直播：2023.7.1~7.2）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。
在TCGA上下载数据并且进行处理 Red Red 生信小技巧 r语言数据库
浏览器搜索TCGAGDC进入网站在TCGA数据库主页选择“Repository”模式根据所需要的选项在侧边栏选择数据清空购物车！！第一次登陆可忽略将刚刚选择好的数据加入购物车，并且在购物车里下载Metadata和Cart数据，下载到同一个文件夹下。使用R语言脚本对数据进行处理，将其提取为genesymbol和样本的数据，推荐看一下该博主处理数据！！真的非常详细！他R语言脚本在这个链接里
R语言-非结构化数据-文本数据读入 pdc31czy R r语言数据分析
#2.2.2非结构化数据-文本数据读入rm(list=ls())#清空工作空间##1.读入简单文本数据###假如数据包含大量经过结构化的文本数据#只需按照读入csv等标准式数据的方法读入#例：novel=read.csv("novel.csv",fileEncoding="UTF-8")head(novel)##2.用readtable读入文本###文本数据普通读法test=read.table(
Coding and Paper Letter（十四） G小调的Qing歌
资源整理。1Coding:1.R语言包ungeviz，ggplot2的拓展包，专门用来作不确定性的可视化。ungeviz2.计算机图形学相关开源项目。计算机图形学光线追踪开源项目C++源码。computergraphicsraytracing计算机图形学格网开源项目C++源码。computergraphicsmeshes计算机图形学介绍开源项目。computergraphics3.R语言包GLMM
r语言做绘制精美pcoa图_R语言高级绘图 — ggplot2 weixin_39560002 r语言做绘制精美pcoa图
2)PCA的作图PCA主成分分析，可以将高维数据进行降维处理。我们的OTU表格就是典型的高维数据，可以对其进行降维处理得到主成分PC1和PC2，然后将所有样品都分解到这两个成分方向，进行散点绘图，可以直观的看出样品间的差异。首先需要一系列的统计处理，然后用ggplot2进行绘图，过程如下：#加载需要的三个包(需要先下载，再加载)>library(ade4)>library(ggplot2)>lib
新文联播第7期 | 基于fNIRS的BCI，感觉运动皮层中最有利的刺激持续时间茗创科技
文章来源于微信公众号（茗创科技），欢迎有兴趣的朋友搜索关注。FrontiersinNeuroscience(4.677)大脑皮层对不同轨迹下的阻力和非阻力运动的反应：功能性近红外光谱研究参与者在任务中的注意力与任务的复杂性高度相关，从而直接影响锻炼的效果。普通的机械单次运动不能达到预期的康复效果，适当的阻力运动可以为不同群体提供良好的功能恢复和生理上的益处。然而，一些研究表明，无论是人类还是非人类
第六届磁共振ASL（动脉自旋标记）数据处理班（直播：2023.7.1~7.2）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★脑网络（cerebralnetwork）定义为：大脑空间位置不同的皮质区域通过结构或功能联系整合起来形成的网络模式。
科研绘图系列：R语言扩展物种堆积图（Extended Stacked Barplot）生信学习者1 SCI科研绘图系列 r语言数据可视化数据分析
介绍R语言的扩展物种堆积图是一种数据可视化工具，它不仅展示了物种的堆积结果，还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异，为研究者提供了一种有效的数据解读方式。加载R包knitr::opts_chunk$set(warning=F,message=F)library(tidyverse)library(phyloseq)library(g
科研绘图系列：R语言柱状图分布（histogram plot）生信学习者1 SCI科研绘图系列 r语言数据可视化
文章目录介绍加载R包读取数据画图介绍柱状图（BarChart）是一种常用的数据可视化图表，用于展示和比较不同类别或组的数据。它通过在二维平面上绘制一系列垂直或水平的柱子来表示数据的大小，每个柱子的长度或高度代表一个数据点的数值。柱状图非常适合于展示分类数据的分布和比较。柱状图的特点：直观比较：柱状图可以直观地展示不同类别之间的数值比较，易于理解。分类展示：数据按照类别或组别进行分组展示，每个类别用
科研绘图系列：R语言富集散点图（enrichment scatter plot）生信学习者1 SCI科研绘图系列 r语言数据可视化
介绍富集通路散点图（EnrichmentPathwayScatterPlot）是一种数据可视化工具，用于展示基因集富集分析（GeneSetEnrichmentAnalysis,GSEA）的结果。横坐标是对应基因名称，纵坐标是通路名称，图中的点表示该基因在某个通路下的qvalue，可以简单理解为不同环境下的贡献大小。加载R包导入所需要的R包，在导入前需要用户自己安装。library(readxl)l
Python-Matplotlib安装及简单使用 riyuexingchen0909 python python 图形
在使用NumPy进行学习统计计算时是枯燥的，大量的数据令我们很头疼，所以我们需要把它图形化显示。Matplotlib是一个Python的图形框架，类似于MATLAB和R语言。Matplotlib的官网地址是http://matplotlib.org/，下载地址为http://matplotlib.org/downloads.html，选择对应的版本即可安装，我选择的版本为matplotlib-1.
sublime安装python库_Mac OS 轻松用 Sublime Text 3 配置Python编译环境 weixin_39603397
最近在学习数据分析相关的知识，对比Python和R语言在数据分析领域的优劣，Python更胜一筹。要学习Python，首先需要搭建编译环境。一.编译工具的选择Python的编译工具有两种，1.文本编辑器，SublimeText3,(还有vim,VistualStudioCode),此处重点介绍SublimeText32.集成开发环境(IDE),主要有pycharmpython，iclipsepyt
第三届磁共振脑影像结构班（训练营：2023.8.4~8.21）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★构成功能、认知和意识基础的神经解剖学结构也是神经科学研究的重点。这包括研究从发展成年到衰老整个生命周期的神经解剖学
在linux（ubuntu）中使用网页版的rstudio Chao_Powell_Hou
RStudio是R语言集成开发环境的应用软件，RStudioServer是一个基于web访问的RStudio云端开发环境，需要安装在服务器上，支持多用户远程访问使用。可以在网页端打开，而且界面与windows版本的相同。安装就先不说了，挺简单的。安装完成后输入rstudio-server可以看到相应的指令。image.png为了激活，我们输入rstudio-serverstart，就已经激活了。但
推荐一份生物信息学入门很好的参考材料小明的数据分析笔记本
链接是https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/这个是康涅狄格大学（UniversityofConnecticut）提供的一份教程，主要的内容包括1、生物信息学中经常用到的文件格式image.png2、linux操作系统和R语言的基础知识image.png3、转录组数据的处理流程image.png这里包括有参
第十届脑电机器学习训练营（线上：2023.8.14~9.3）茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★随着人们对神经系统功能认识的提高和计算机技术的发展，脑机接口（BCI）技术的研究呈明显的上升趋势。BCI是一种不依赖
R语言基础学习 weixin_55475210 r语言学习开发语言
R与RStudioR语言是数据科学和统计分析的语言，适合数据分析和数据可视化。R是开源的，拥有丰富的包（packages），可以与优化软件进行交互。RStudio提供了R语言的集成开发环境，支持代码编辑、运行、调试等功能。下载R：CRAN下载RStudio：RStudioDownloadRStudio界面基本操作保存/打开代码文件使用.R扩展名。保存/打开环境文件使用.Rdata扩展名。快捷键操作
一对一包教会脑电教学服务茗创科技
茗创科技专注于脑科学数据处理，涵盖（EEG/ERP,fMRI,结构像,DTI,ASL,FNIRS）等，欢迎留言讨论及转发推荐，也欢迎了解茗创科技的脑电课程，数据处理服务及脑科学工作站销售业务，可添加我们的工程师（微信号MCKJ-zhouyi或17373158786）咨询。★课程简介★最近有不少人留言“脑电该怎么学习？想强化学习脑电某个内容版块可以吗？...”，也有小伙伴联系我们，咨询脑电相关内容能
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(