Mr_Fengyy

R语言——多元线性回归

1、多元线性回归模型

1.1多元回归模型与多元回归方程

设因变量为y，k个自变量分别为，描述因变量y如何依赖于自变量和误差项ε的方程称为多元回归模型。其一般形式可表示为：

式中，为模型的参数，ε为随机误差项。

上式表明，y是的线性函数加上随机误差项ε。随机误差项的解释见：随机误差项。

与一元线性回归类似，在多元线性回归模型中，对误差项同样有三个基本假设：

误差项期望为0；
对于自变量的所有值，ε的值都相等；
误差项ε是一个服从正态分布的随机变量，且相互独立。

根据回归模型的假定，有

，

上式被称为多元回归方程，它描述了因变量y的期望值与自变量的关系。

1.2估计的多元回归方程

回归方程中的参数是未知的，正是我们感兴趣的值。因此，当用样本数据计算出来的来去估计未知参数时，就得到了估计的多元回归方程，其一般形式为：

式中，是参数的估计值，表示当不变时，每变动一个单位，y的平均变动量。其余偏回归系数含义类似。

1.3 参数的最小二乘估计

同一元线性回归的最小二乘法估计，使得残差平方和达到最小的即为参数的最小二乘估计。

由于多元回归参数的最小二乘参数估计计算量比较大，手工几乎无法完成，需要借助于计算机。

本文选取了UCI数据集中一个关于计算机CPU性能的数据，该数据可以从网站http://archive.ics.uci.edu/ml/machine-learning-databases/cpu-performance/上下载。

在R中读取该数据，先对该数据集的数据结构进行探究。

> setwd("D:/Rdata/complex_data_analysis/")
> cpu<-read.table("cpu.txt",header = TRUE,sep=",")
> str(cpu)
'data.frame':	209 obs. of  10 variables:
 $ name : Factor w/ 30 levels "adviser","amdahl",..: 1 2 2 2 2 2 2 2 2 2 ...
 $ Model: Factor w/ 209 levels "100","1100/61-h1",..: 30 63 64 65 66 67 75 76 77 78 ...
 $ MYCT : int  125 29 29 29 29 26 23 23 23 23 ...
 $ MMIN : int  256 8000 8000 8000 8000 8000 16000 16000 16000 32000 ...
 $ MMAX : int  6000 32000 32000 32000 16000 32000 32000 32000 64000 64000 ...
 $ CACH : int  256 32 32 32 32 64 64 64 64 128 ...
 $ CHMIN: int  16 8 8 8 8 8 16 16 16 32 ...
 $ CHMAX: int  128 32 32 32 16 32 32 32 32 64 ...
 $ PRP  : int  198 269 220 172 132 318 367 489 636 1144 ...
 $ ERP  : int  199 253 253 253 132 290 381 381 749 1238 ...

　　

根据R的输出结果可以看出，该数据有209个观测值，共10个变量。其变量名的细节可以从网站中关于该数据的描述中获得。

Name：供应商名称，

Model：型号名称

MYCT：机器周期时间，以纳秒为单位

MMIN：最小主内存千字节

MMAX：最大主内存千字节

CACH：高速缓存，以千字节为单位

CHMIN：单位最小信道

CHMAX：单位最大信道

PRP：发表的相关性能

ERP：根据原始文章估计的相对性能

由于供应商和型号名称属于分类数据，另外ERP是数据提供者根据他的一篇文章预测出来的，这三个变量都需要移除。

>cpu<-cpu[,c(-1,-2,-10)]
> str(cpu)  #查看需要进行分析的数据的结构
'data.frame':	209 obs. of  7 variables:
 $ MYCT : int  125 29 29 29 29 26 23 23 23 23 ...
 $ MMIN : int  256 8000 8000 8000 8000 8000 16000 16000 16000 32000 ...
 $ MMAX : int  6000 32000 32000 32000 16000 32000 32000 32000 64000 64000 ...
 $ CACH : int  256 32 32 32 32 64 64 64 64 128 ...
 $ CHMIN: int  16 8 8 8 8 8 16 16 16 32 ...
 $ CHMAX: int  128 32 32 32 16 32 32 32 32 64 ...
 $ PRP  : int  198 269 220 172 132 318 367 489 636 1144 ...
> head(cpu)  #i查看前几行数据特征
  MYCT MMIN  MMAX CACH CHMIN CHMAX PRP
1  125  256  6000  256    16   128 198
2   29 8000 32000   32     8    32 269
3   29 8000 32000   32     8    32 220
4   29 8000 32000   32     8    32 172
5   29 8000 16000   32     8    16 132
6   26 8000 32000   64     8    32 318
> lm.cpu<-lm(PRP~.,data = cpu)
> lm.cpu$coefficients  #输出估计的回归系数
 (Intercept)         MYCT         	MMIN         MMAX         CACH        	CHMIN 		CHMAX 
-55.89393361   0.04885490   0.01529257   0.00557139   0.64140143  -0.27035755 	1.48247217

　　

与一元线性回归类似，R中也采用lm()函数进行多元回归分析，其中"PRP~."表示PRP为因变量，其他所有变量为自变量，data为所使用的数据框。

输出所有的系数——参数的最小二乘估计。

2、回归方程的拟合度

2.1 多重判定系数

与一元线性回归类似，对多元线性回归方程，需要用多重判定系数来评价其拟合程度。其公式与一元线性回归的判定系数公式相同，即：

。

但是对于多重判定系数，有一点需要注意，即自变量个数的增加将影响到因变量中被估计的回归方程所解释的变差数量。当增加自变量时，会使预测误差变得较小，从而减少残差平方和SSE，因此会增大判定系数R²。如果模型中增加一个自变量，即使这个自变量在统计上并不显著，R²也会变大。因此，为了避免增加自变量的个数而高估R²，可以使用自变量个数k以及样本量n去调整R²，得到估计的R²，其公式为：

，调整以后的永远小于R²，也不会由于模型中自变量的个数的增加越来越接近1.。

R²的平方根称为多重相关系数，也称为复相关系数。在上面的结果中，可以输出R²。

> summary(lm.cpu)

Call:
lm(formula = PRP ~ ., data = cpu)

Residuals:
    Min      1Q  Median      3Q     Max 
-195.82  -25.17    5.40   26.52  385.75 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -5.589e+01  8.045e+00  -6.948 5.00e-11 ***
MYCT         4.885e-02  1.752e-02   2.789   0.0058 ** 
MMIN         1.529e-02  1.827e-03   8.371 9.42e-15 ***
MMAX         5.571e-03  6.418e-04   8.681 1.32e-15 ***
CACH         6.414e-01  1.396e-01   4.596 7.59e-06 ***
CHMIN       -2.704e-01  8.557e-01  -0.316   0.7524    
CHMAX        1.482e+00  2.200e-01   6.737 1.65e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 59.99 on 202 degrees of freedom
Multiple R-squared:  0.8649,	Adjusted R-squared:  0.8609 
F-statistic: 215.5 on 6 and 202 DF,  p-value: < 2.2e-16

　　

上式输出了R²为0.8649，调整的R²为0.8609，说明模型拟合地还不错。

3、显著性检验

在一元线性回归中，我们已经学会了对回归模型进行线性关系检验与回归系数检验，这里同样也需要进行这两步。但是在这里，线性关系的检验与回归系数的检验并不等价。在多元线性回归模型中，只要有一个变量与因变量的线性关系显著，F检验就能通过，但这不意味着所有的变量都与因变量的线性关系显著。

3.1 线性关系检验

第一步：提出假设。

至少有一个不等于0

第二步：计算检验统计量F。

第三步：做出统计决策。

根据F的值与查F分布表得出的Fα，做出决策。

根据上述结果，p值为2.2e-16，几乎为0，远远小于常用的α=0.05，因此线性关系显著。

3.2 回归系数的检验

第一步：提出假设。

第二步：计算检验统计量t。

，式中，是回归系数的抽样分布的标准差，即

第三步：做出统计决策。

根据上述输出结果，只有一个回归系数——MMIN不显著，其他都比较显著。

4、多重共线性

4.1 多重共线性及其判别

当模型中两个自变量之间高度相关时，则称模型中存在多重共线性。判断模型的多重共线性最直观的方法是求自变量的相关系数矩阵。当然，还可以采取以下几种方法判断模型中是否存在多重共线性。

模型的线性关系检验（F检验）显著时，几乎所有的回归系数检验（t检验）都不显著；
回归系数的正负号与预期的相反；
容忍度与方差扩大因子。

某个自变量的容忍度等于1减去以该变量为因变量，其它变量为自变量所拟合的模型的R²,即1- R²。通常认为容忍度小于0.1时，存在严重的多重共线性。方差扩大因子（VIF）为容忍度的倒数，当VIF大于10时，一般可认为存在严重的多重共线性。下面求出自变量的相关系数矩阵。

> cor(cpu[,1:6])
            MYCT       MMIN       MMAX       CACH      CHMIN      CHMAX
MYCT   1.0000000 -0.3356422 -0.3785606 -0.3209998 -0.3010897 -0.2505023
MMIN  -0.3356422  1.0000000  0.7581573  0.5347291  0.5171892  0.2669074
MMAX  -0.3785606  0.7581573  1.0000000  0.5379898  0.5605134  0.5272462
CACH  -0.3209998  0.5347291  0.5379898  1.0000000  0.5822455  0.4878458
CHMIN -0.3010897  0.5171892  0.5605134  0.5822455  1.0000000  0.5482812
CHMAX -0.2505023  0.2669074  0.5272462  0.4878458  0.5482812  1.0000000

　　

可以看出，MMIN和MMAX的相关系数为0.76，比较大，另外，CHMIN与其他变量（除了CHMAX）的相关系数绝对值也超过了0.5，初步认为存在多重共线性。

4.2 多重共线性的处理

（1）将一个或多个自变量从模型中剔除，使保留的自变量之间尽可能不相关。

（2）如果非要保留模型中所有的自变量，那就应该：

避免根据t统计量对单个参数进行检验；
对因变量的推断限定在自变量样本的范围内。

5、预测

R中可以根据估计的回归方程进行预测，期预测结果可以表示为：

> predict.lm(lm.cpu,interval = "prediction")[1:6,]
       fit       lwr      upr
1 337.1856 201.45329 472.9180
2 311.9490 192.27143 431.6266
3 311.9490 192.27143 431.6266
4 311.9490 192.27143 431.6266
5 199.0872  79.60871 318.5657
6 332.3273 212.77407 451.8805

　　

上面求出预测区间以及相应的估计值。

6、变量选择与逐步回归

当模型中存在多重共线性时，可以使用以下几种方法进行处理：

向前选择
向后剔除
逐步回归

R中提供了step()函数实现这个功能。

> stpcpu<-step(lm.cpu)
Start:  AIC=1718.24
PRP ~ MYCT + MMIN + MMAX + CACH + CHMIN + CHMAX

        Df Sum of Sq    RSS    AIC
- CHMIN  1       359 727279 1716.3
               726920 1718.2
- MYCT   1     27985 754905 1724.1
- CACH   1     76009 802929 1737.0
- CHMAX  1    163347 890267 1758.6
- MMIN   1    252179 979099 1778.5
- MMAX   1    271177 998097 1782.5

Step:  AIC=1716.34
PRP ~ MYCT + MMIN + MMAX + CACH + CHMAX

        Df Sum of Sq    RSS    AIC
               727279 1716.3
- MYCT   1     28343 755623 1722.3
- CACH   1     78715 805995 1735.8
- CHMAX  1    177114 904393 1759.9
- MMIN   1    258252 985531 1777.8
- MMAX   1    270856 998135 1780.5

　　

该函数根据AIC信息准则对变量进行选择，取使AIC最小的回归模型。最终结果保留了5个自变量，CHMIN变量被移除。

> summary(stpcpu)  #输出变量选择后的最终结果

Call:
lm(formula = PRP ~ MYCT + MMIN + MMAX + CACH + CHMAX, data = cpu)

Residuals:
    Min      1Q  Median      3Q     Max 
-193.37  -24.95    5.76   26.64  389.66 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -5.608e+01  8.007e+00  -7.003 3.59e-11 ***
MYCT         4.911e-02  1.746e-02   2.813   0.0054 ** 
MMIN         1.518e-02  1.788e-03   8.490 4.34e-15 ***
MMAX         5.562e-03  6.396e-04   8.695 1.18e-15 ***
CACH         6.298e-01  1.344e-01   4.687 5.07e-06 ***
CHMAX        1.460e+00  2.076e-01   7.031 3.06e-11 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 59.86 on 203 degrees of freedom
Multiple R-squared:  0.8648,	Adjusted R-squared:  0.8615 
F-statistic: 259.7 on 5 and 203 DF,  p-value: < 2.2e-16

　　

处理后的R²几乎没有变化，但是调整的R²略微增加。

你可能感兴趣的:(R语言——多元线性回归)

R 语言科研绘图第 31 期 --- 韦恩图-基础 TigerZ 生信宝库 r语言贴图程序人生开发语言
在发表科研论文的过程中，科研绘图是必不可少的，一张好看的图形会是文章很大的加分项。为了便于使用，本系列文章介绍的所有绘图都已收录到了sciRplot项目中，获取方式：R语言科研绘图模板---sciRplothttps://mp.weixin.qq.com/s/QA_8LVqjkdg4A16zLonw4w?payreadticket=HElUE5WWmBflodEFw10g0l2NrRotj8kbU
23章11节：自助抽样及其在R语言中的实现与验证 DAT｜R科学与人工智能用R探索医药数据科学 r语言开发语言 r-4.2.1 microsoft 信息可视化
在统计学中，数据分析的核心任务之一是如何在样本数据的基础上推断总体的性质。传统方法往往依赖于已知的概率分布假设和解析推导，但在现实问题中，我们往往无法准确得知总体分布，或者数据样本量较小，难以满足经典统计推断方法的要求。自助抽样作为一种非参数的计算方法，为我们提供了基于样本数据“自我重复”构建抽样分布的途径。1977年，斯坦福大学的B.Efron在著名论文《BootstrapMethods:Ano
Math.NET Numerics 库怎么装 9677 .net
你提到的缺少的库是Math.NETNumerics。关于Math.NETNumericsMath.NETNumerics是一个用于.NET平台的开源数学库，提供了以下功能：线性代数（矩阵运算、求解线性方程组等）。数值计算（积分、微分、优化等）。统计和概率分布。回归分析（包括多元线性回归）。它是C#中进行科学计算和数据分析的常用工具。安装Math.NETNumerics你可以通过NuGet包管理器安
R语言将向量数据按照行方式转化为矩阵数据（设置参数byrow为TRUE） sdgfbhgfj R语言初见机器学习数据挖掘人工智能数据分析 r语言
R语言将向量数据按照行方式转化为矩阵数据（设置参数byrow为TRUE）目录R语言将向量数据按照行方式转化为矩阵数据（设置参数byrow为TRUE）R语言是解决什么问题的？R语言将向量数据按照行方式转化为矩阵数据（设置参数byrow为TRUE）安利一个R语言的优秀博主及其CSDN专栏：R语言是解决什么问题的？R是一个有着统计分析功能及强大作图功能的软件系统，是由奥克兰大学统计学系的RossIhak
R语言学习实例：使用R进行数据可视化 PixelCoder 信息可视化 r语言学习 R语言
R语言学习实例：使用R进行数据可视化R语言是一种功能强大且广泛使用的统计分析和数据可视化工具。在本实例中，我们将使用R语言来创建一些常见的数据可视化图表，包括散点图、柱状图和折线图。我们将展示如何使用R的基本绘图功能和一些常用的绘图库来生成这些图表。散点图是一种用于显示两个变量之间关系的图表。我们可以使用R的基本绘图功能来创建散点图。下面是一个示例代码，展示如何使用R创建散点图：#创建示例数据x<
探索R语言：经典案例解析与源代码翠绿探寻 r语言信息可视化开发语言 R语言
探索R语言：经典案例解析与源代码引言：R语言是一种流行的数据分析和统计建模工具，具有丰富的功能和广泛的应用领域。在本文中，我们将通过经典案例来探索R语言的一些重要功能和技术。我们将提供相应的源代码，以便读者能够实际运行并理解这些示例。案例一：数据导入与处理在数据分析中，数据导入和处理是首要任务。R语言提供了丰富的函数和包，用于处理各种数据格式。下面是一个简单的示例，演示了如何导入和处理CSV格式的
R语言dataframe数据索引、访问: 使用attach函数绑定dataframe数据、这样可以直接使用列名称访问dataframe的列数据 omhdxgb R语言123 r语言数据挖掘人工智能机器学习数据分析
R语言dataframe数据索引、访问:使用attach函数绑定dataframe数据、这样可以直接使用列名称访问dataframe的列数据目录R语言dataframe数据索引、访问:使用attach函数绑定dataframe数据、这样可以直接使用列名称访问dataframe的列数据R语言特点R语言dataframe数据索引、访问:使用attach函数绑定dataframe数据、这样可以直接使用列
R语言向量vector数据类型元素索引、访问：使用中括号[]和:符号以及乘法符号获取向量中指定范围内的偶数索引元素 omhdxgb R语言123 r语言机器学习数据挖掘人工智能数据分析
R语言向量vector数据类型元素索引、访问：使用中括号[]和:符号以及乘法符号获取向量中指定范围内的偶数索引元素目录R语言向量vector数据类型元素索引、访问：使用中括号[]和:符号以及乘法符号获取向量中指定范围内的偶数索引元素R语言特点R语言向量vector数据类型元素索引、访问：使用中括号[]和:符号以及乘法符号获取向量中指定范围内的偶数索引元素R可以在CRAN（Comprehensive
R语言安装github包出现的错误，object "XXX" is not exported by "namespace:viridisLite" momo酱豆是沃 anaconda各种问题
自己遇上了类似的问题，当时是把所有导致这个问题出现时安装的所有包我都卸载了，再次重装的。弄了很久，我发现都是在安装各种包让我更新我不更新导致的后果R，告诉我一个道理，一定要听话，让你更新就更新，不然我的bug出到让你崩溃。下图借用以为博主的图（https://blog.csdn.net/yw_vine/article/details/79631042）原连接R语言安装github包出现的错误，ob
R语言 ggplot2 可视化生成高分辨率图片实战 PixelEnigma r语言开发语言 R语言
R语言ggplot2可视化生成高分辨率图片实战在数据分析和可视化领域，R语言一直是研究人员和数据科学家们的首选工具。其中，ggplot2包是R语言中最受欢迎和强大的可视化工具之一。它提供了许多灵活且精美的图形选项，使用户能够轻松创建具有吸引力和信息丰富的图表。本文将介绍如何使用ggplot2包在R语言中生成高分辨率的图片。我们将探索不同的保存选项，以确保我们获得清晰、适应各种输出需求的图像。首先，
Java 中操作 R：深度整合与高效应用 froginwe11 开发语言
Java中操作R：深度整合与高效应用引言随着大数据和机器学习的快速发展，R语言在数据分析和可视化方面扮演着越来越重要的角色。而Java作为一种广泛应用于企业级应用开发的语言，其强大的功能和稳定性使其成为构建高性能应用的首选。本文将探讨Java如何操作R语言，实现高效的数据分析应用。一、Java操作R的背景R语言优势：R语言拥有丰富的统计分析、数据可视化工具和机器学习算法库，是数据分析领域的首选语言
R语言对高频交易订单流进行建模分析 4 oxuzhenyi 实验楼课程机器学习 R
一、实验介绍--订单流模型拟合1.1实验知识点指数核hawkes过程拟合正反馈强度分析订单量影响分析1.2实验环境R3.4.1Rstudio二、订单流模型拟合在上节中我们对订单流数据做了一些统计分析，对交易的一些特征有了一些粗浅的理解，在本节中我们要做的是利用实际数据来拟合hawkes过程，看一看真实数据的订单流动力学中有什么特征。首先我们仍是选出交易时间内的数据：library(tidyvers
R语言对高频交易订单流进行建模分析 3 oxuzhenyi 实验楼课程机器学习 R
一、实验介绍--订单流数据描述分析1.1实验知识点订单流数据表示订单间隔分析订单信息率平稳性研究订单流动性研究限价单相对价格分析1.2实验环境R3.4.1Rstudio二、订单流数据描述分析2.1订单流数据表示当我们在金融市场上做交易时，可以看到一个委托单簿，上面陈列着买价和卖价以及它们对应的量，举个例子，比特币市场的订单簿：可以看到红色代表的是卖价，或者说是ask,而绿色代表的是买价，或者说是b
【自学笔记】R语言基础知识点总览-持续更新 Long_poem 笔记 r语言开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录R语言基础知识点总览1.R语言简介2.R语言安装与环境配置3.R语言基础语法3.1数据类型3.2向量与矩阵3.3数据框与列表4.控制结构4.1条件语句4.2循环结构5.函数6.数据可视化总结R语言基础知识点总览1.R语言简介R是一种用于统计计算和图形的编程语言和软件环境。R语言由RossIhaka和RobertGentlema
R语言决策树、svm支持向量机、随机森林别叫我名字20 R语言决策树支持向量机 r语言
本人正在学习R语言，想利用这个平台记录自己一些自己的学习情况，方便以后查找，也想分享出来提供一些资料给同样学习R语言的同学们。（如果内容有错误，欢迎大家批评指正）1.决策树我们使用的还是RStudio自带的数据集iris。#######################决策树模型install.packages("rpart")#安装库library("rpart")dt<-function(dat
决策树、朴素贝叶斯、随机森林、支持向量机、XGBoost 和 LightGBM算法的R语言实现生信与基因组学生信分析项目进阶技能合集算法机器学习 r语言
基本逻辑（1）使用rnorm函数生成5个特征变量x1到x5，并根据这些特征变量的线性组合生成一个二分类的响应变量y；（2）将生成的数据存储在数据框中，处理缺失值，并将响应变量转换为因子类型；（3）使用决策树、朴素贝叶斯、随机森林、支持向量机、XGBoost和LightGBM六种机器学习模型算法对数据进行训练和评估；（4）将各个模型的准确率和AUC值存储在结果数据框中，并通过柱状图展示结果。1.R包
R语言2——数据类型和基本运算朝荣 #R语言 R语言运算 R数据类型
R语言2——数据类型和基本运算目录R语言2——数据类型和基本运算1.R的数据类型1.R的数据类型（1）Logical（逻辑型）：只有两个值TRUE,FALSE（2）Numeric（数字）：整数、小数等（3）Complex（复合型）：带有虚数i的数，如1+2i（4）Character（字符）：包含在“”之中，如“hello！”（5）Vectors向量：c()函数，将元素组合成一个向量。c(1,2,3
R语言获取数据——手工输入数据蜗牛数据分析 R语言从入门到实战 r语言开发语言
在R语言中获取数据集的方法有多种，例如读取Excel文件、数据库中的文件，而当我们没有这些渠道能够获取到数据集时，也可以手工输入数据，即通过键盘输入数据，它是获取数据集的最简单方法。另外，还可以在代码中直接输入数据，下面分别进行介绍。数据编辑器R提供了内置的数据编辑器，通过edit()函数调用该编辑器就可以实现手工输入数据。举例1：通过数据编辑器创建学生成绩表下面实现“学生成绩表”，具体步骤如下：
R语言——数据框高现实 r语言
R语言——数据框data.table/data.frame1、数据框数据框是R的一个重要数据类型,用来存储表格数据2、可认为是特殊类型的列表,列表中每个元素(每类)都有同样的长度每一列3、可以是不同的类型(矩阵是相同的)特殊属性:行名row.names4、可以通过读取表格函数read.table()或read.csv()读取数据框5、可以通过调用data.matrix()将数据框转化为矩阵x<-d
R语言入门——数据类型和数据结构 Sean1014 r语言数据结构 r语言
变量基本说明R语言计算的过程中，通常需要使用变量来存放中间结果。变量相当于给定一个空间，只能保存一种数据结构，只保存最后一次被赋值的数据。无需事先声明。命名规则变量名应该尽可能简单、意义明确，命名遵循一定规律，以便与他人交流理解。只能使用字母（区分大小写）、数字、下划线“_”和英文句点“.”给变量命名；不能以数字、下划线作为开头；若以句点开头，第二位不能是数字；变量名有效性原因var_name1.
探索大数据分析的无限可能：R语言的应用与实践 Echo_Wish 大数据数据分析 r语言数据挖掘
探索大数据分析的无限可能：R语言的应用与实践随着数据时代的来临，大数据已经成为各行各业的重要资产。如何从海量数据中挖掘出有价值的信息，成为了企业和研究人员关注的焦点。在众多的数据分析工具中，R语言因其强大的统计分析功能和丰富的生态系统，备受青睐。本文将深入探讨使用R语言进行大数据分析的方法和实践，并通过实例代码加以说明。为什么选择R语言？R语言是一种专门用于统计分析和数据可视化的编程语言，具有以下
利用R语言irr包计算ICC值（组内相关系数） mlhylzqwxli r语言
ICC值是一个较为陌生的概念，在统计学中应用较多，引用百度百科的介绍：组内相关系数(ICC)是衡量和评价观察者间信度(inter-observerreliability)和复测信度(test-retestreliability)的信度系数(reliabilitycoefficient)指标之一。它最先由Bartko于1966年用于测量和评价信度的大小。ICC等于个体的变异度除以总的变异度，故其值介
R语言机器学习系列-随机森林回归代码解读 Mrrunsen R语言大学作业机器学习回归 r语言
回归问题指的是因变量或者被预测变量是连续性变量的情形，比如预测身高体重的具体数值是多少的情形。整个代码大致可以分为包、数据、模型、预测评估4个部分，接下来逐一解读。1、包部分，也就是加载各类包，包括随机森林包randomForest，数据相关包tidyverse、skimr、DataExplorer，模型评估包caret。2、数据部分，主要是读取数据，处理缺失值，转换变量类型。3、模型部分。为了对
r语言手动算两个C指数p值,如何用R语言进行Pvalue显著性标记？蒲牢森 r语言手动算两个C指数p值
作者：一只想飞的喵审稿：童蒙编辑：angelica箱线图是统计学中较常见的图形之一。这篇文章将讲述如何简单比较两组或多组的平均值，且添加显著性标记。通常情况根据显著性p值的数值大小，分为四类：(1)0.01≤p<0.05，*(2)0.001≤p<0.01，**(3)0.0001≤p<0.001，***(4)p<0.0001,****接下来会讲述三种添加显著性标记的方法。方法1-手动添加1：创建数据
使用geom_bracket函数为指定水平箱图之间添加假设检验名称以及显著性水平p值（R语言）认真写代码i r语言开发语言 R语言
使用geom_bracket函数为指定水平箱图之间添加假设检验名称以及显著性水平p值（R语言）在R语言中，我们经常使用箱图（boxplot）来可视化数据的分布和比较不同组之间的差异。当我们进行假设检验时，除了展示箱图之间的差异，还需要在图形上添加假设检验的名称和显著性水平p值，以便更清晰地表达结果。在本文中，我们将介绍如何使用ggplot2包中的geom_bracket函数为指定水平箱图之间添加假
R语言绘图：韦恩图善木科研 R语言 r语言生信分析生物信息数据分析
韦恩分析韦恩分析（VennAnalysis）常用于可视化不同数据集之间的交集和并集。维恩图（Venndiagram），也叫文氏图、温氏图、韦恩图、范氏图，用于显示元素集合重叠区域的关系型图表，通过图形与图形之间的层叠关系，来反应数据集之间的相交关系。在R语言中，进行韦恩分析（Venn图绘制）可以通过多个不同的包来实现，常用的包括VennDiagram、venn和ggVenn等。本文案使用ggVen
在R语言中，要在图形中添加组间p值，可以使用`geom_bracket`函数 ByteWhisper r语言 python 开发语言 R语言
在R语言中，要在图形中添加组间p值，可以使用geom_bracket函数。geom_bracket函数可以用来创建一个带有括号标记的图形，用于表示组间的显著性差异。本文将详细介绍如何使用geom_bracket函数来添加组间p值，并提供相应的源代码示例。首先，我们需要安装并加载ggplot2包，因为geom_bracket函数是ggplot2包中的一部分。可以使用以下代码安装和加载ggplot2包
R语言使用fs包的file_copy函数、dir_copy函数、link_copy函数将文件、目录、超链接从一个位置拷贝（copy）到另一个位置 statistics.insight R语言入门课 r语言数据挖掘机器学习开发语言
R语言使用fs包的file_copy函数、dir_copy函数、link_copy函数将文件、目录、超链接从一个位置拷贝（copy）到另一个位置目录R语言使用fs包的file_copy函数、dir_copy函数、link_copy函数将文件、目录、超链接从一个位置拷贝（copy）到另一个位置#包和库的安装、导入#R语言使用fs包的dir_ls函数列出指定文件夹下面的所有文件和文件夹（listfil
R语言使用table1包绘制（生成）三线表实战：单变量分列构建三线表、使用render参数设置显示的统计量以及换行方式、使用topclass参数自定义设置显示网络和居中对齐 statistics.insight R语言入门课 r语言开发语言数据挖掘机器学习
R语言使用table1包绘制（生成）三线表实战：单变量分列构建三线表、使用render参数设置显示的统计量以及换行方式、使用topclass参数自定义设置显示网络和居中对齐目录R语言使用table1包绘制（生成）三线表、使用单变量分列构建三线表、使用render参数设置显示的统计量以及换行方式、使用topclass参数自定义设置显示网络和居中对齐#三线表是什么？#导入包并构建仿真数据#R语言使用t
R语言广义加性模型：使用广义线性加性模型GAMs构建logistic回归 TechInk r语言回归开发语言 R语言
R语言广义加性模型：使用广义线性加性模型GAMs构建logistic回归在数据分析和建模领域，广义加性模型（GeneralizedAdditiveModels，简称GAMs）是一种常用的非参数统计方法。它结合了广义线性模型（GeneralizedLinearModels，简称GLMs）的灵活性和非线性关系的建模能力，可以适用于各种类型的响应变量，包括二元回归（logistic回归）。本文将介绍如何
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他