一只小桃子

R语言分类算法

一、线性分类法

通俗点理解线性分类法就是画条线，尽量的使同样类别的点，落在线的同一边。如果是三维的，那么画一个面。当不同类样本的协方差矩阵相同时，我们可以在R中使用MASS包的lda函数实现线性判别。lda函数以Bayes判别思想为基础。当分类只有两种且总体服从多元正态分布条件下，Bayes判别与Fisher判别、距离判别是等价的。
本例使用iris数据集来对花的品种进行分类。首先载入 MASS包，建立判别模型，其中的prior参数表示先验概率。然后利用table函数建立混淆矩阵，比对真实类别和预测类别。
当样本的协方差矩阵相同时用lda函数判别

#用线性判别法，来对鸢尾花数据集进行判别。
> library(MASS)
> model <- lda(Species ~ ., data=iris,prior=c(1,1,1)/3) #prior是先验概率。
> predict(model,iris)$class  #利用模型预测
  [1] setosa     setosa     setosa     setosa     setosa     setosa     setosa    
  [8] setosa     setosa     setosa     setosa     setosa     setosa     setosa    
 [15] setosa     setosa     setosa     setosa     setosa     setosa     setosa    
 [22] setosa     setosa     setosa     setosa     setosa     setosa     setosa    
 [29] setosa     setosa     setosa     setosa     setosa     setosa     setosa    
 [36] setosa     setosa     setosa     setosa     setosa     setosa     setosa    
 [43] setosa     setosa     setosa     setosa     setosa     setosa     setosa    
 [50] setosa     versicolor versicolor versicolor versicolor versicolor versicolor
 [57] versicolor versicolor versicolor versicolor versicolor versicolor versicolor
 [64] versicolor versicolor versicolor versicolor versicolor versicolor versicolor
 [71] virginica  versicolor versicolor versicolor versicolor versicolor versicolor
 [78] versicolor versicolor versicolor versicolor versicolor versicolor virginica 
 [85] versicolor versicolor versicolor versicolor versicolor versicolor versicolor
 [92] versicolor versicolor versicolor versicolor versicolor versicolor versicolor
 [99] versicolor versicolor virginica  virginica  virginica  virginica  virginica 
[106] virginica  virginica  virginica  virginica  virginica  virginica  virginica 
[113] virginica  virginica  virginica  virginica  virginica  virginica  virginica 
[120] virginica  virginica  virginica  virginica  virginica  virginica  virginica 
[127] virginica  virginica  virginica  virginica  virginica  virginica  virginica 
[134] versicolor virginica  virginica  virginica  virginica  virginica  virginica 
[141] virginica  virginica  virginica  virginica  virginica  virginica  virginica 
[148] virginica  virginica  virginica 
Levels: setosa versicolor virginica

当样本的协方差矩阵不同时，使用qda()函数判别

>model2=qda(Species~.,data=iris,cv=T) #cv使用留一交叉检验（leave-one-out cross-validation），并自动生成预测值
>predict(model)$posterior  #查看后验概率

使用这两种线性判别法，需要总体服从多元正态分布。

二、距离判别法

算距离，某个样本点离哪个类比较近，就判断为哪个类别。但这里计算的不是欧氏距离，而是马氏距离。

distinguish.distance <- function(TrnX, TrnG, TstX = NULL, var.equal = FALSE){
  if(is.factor(TrnG) == FALSE){         #如果传入的trnG 不是因子，就当成第二个类别看待
    mx <- nrow(TrnX); mg <- nrow(TrnG)  #把他们放到一起，总共两个分类
    TrnX <- rbind(TrnX, TrnG)
    TrnG <- factor(rep(1:2, c(mx, mg)))
  }
  if(is.null(TstX)){
    TstX <- TrnX
  }
  if(is.vector(TstX)){                 #如果传入的测试集是向量，变成矩阵并且竖起来
    TstX <- t(as.matrix(TstX))
  }else if(is.matrix(TstX) != TRUE){   #不是矩阵的变成矩阵
    TstX <- as.matrix(TstX)
  }
  if(is.matrix(TrnX) != TRUE){         #把训练集当矩阵对待
    TrnX <- as.matrix(TrnX)
  }
  nx <- nrow(TstX)                             #测试集总共有行
#生成一个只有一行的矩阵，长度为要预测的数据的个数，这个用来存测试集的分类
  blong <- matrix(rep(0, nx), nrow=1, dimnames=list("blong", 1:nx))
  g <- length(levels(TrnG)) #有多少分类
  mu <- matrix(0, nrow=g, ncol=ncol(TrnX)) #生成列方向上的平均值矩阵，行数为类别数量
  for (i in 1:g){
    mu[i,] <- colMeans(TrnX[TrnG==i,])   #求每一列数据，每一个水平的平均值
  }
  D <- matrix(0, nrow=g, ncol=nx)        #新建一个矩阵用来存 待测样本点到个类别的距离。行数是类别数，
  if(var.equal == TRUE || var.equal == T){
    for(i in 1:g)｛
      D[i,] <- mahalanobis(TstX, mu[i,], var(TrnX))
    ｝
  }else{
    for (i in 1:g)｛
      D[i,] <- mahalanobis(TstX, mu[i,], var(TrnX[TrnG==i,]))
    ｝
  }
  for (j in 1:nx){
    dmin <- Inf
    for (i in 1:g)
      if (D[i,j] < dmin){                 #循环着跑一下，比较各个类别见哪个距离是最短的。就属于哪个类别
        dmin <- D[i,j]; blong[j] <- i
      }
    }
  blong #输出
}
#上面程序中mahalanobis（向量或矩阵，样本中心，协方差矩阵）是用来求马氏距离的。

> source("E:hutao\\learning\\rscript\\myR.R")
> x <- iris[,1:4]
> g <- gl(3,50)
> distinguish.distance(x,g)
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
blong 1 1 1 1 1 1 1 1 1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
      31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57
blong  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  2  2  2  2  2  2  2
      58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84
blong  2  2  2  2  2  2  2  2  2  2  2  2  2  3  2  3  2  2  2  2  2  2  2  2  2  2  3
      85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108
blong  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2   2   3   3   3   3   3   3   3   3
      109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128
blong   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3
      129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148
blong   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3
      149 150
blong   3   3

三、贝叶斯分类器

前提假设，总体是正态分布的。
记统计量ECM(R1, R2) = L(2|1)P(2|1)p1 + L(1|2)P(1|2)p2，前面是明明是1类，却被判定为2类的概率乘以损失L(2|1)
，后面是另一种损失。我们要划定分类，使得这个ECM最小。数学上可以证明，在上面这个值达到最小的情况下划分出来的R1、R2，f1(x)/f2(x) 和 L(1|2)p2/L(2|1)p1的大小关系是这2个类的分界。前者大于后者的时候是R1类，另一种情况是R2类。其中f1(x)是R1类的概率密度函数。p是先验概率，L是损失。对上面两个值同时取对数，然后进行约简，得到左边的w 和右边的 β。在两个类别总体协方差相同和不同的情况下，分别求的下面的值

现在变成了 W（x）>=β是 R1类，另一个是R2类。神奇的事情发生了，w统计量和我们在距离判别法里算的距离的差值是一样的。所以贝叶斯可以看成是距离判别法的推广。当β值 = 0 的时候，贝叶斯就是距离判别。
上面是只有两种类型的情况。如果有多种类型，我们先假设，误判的损失是相同的。然后计算d统计量，即
dj(x) =(1/2)(x − μj)T Σ^(−1) (x − μj) − ln pj (协方差不同时还要− (1/2)ln(|Σj |)), 计算每个样本到各个分类的d统计量，谁最小就把样本判到谁的类里。根据这个办法写R函数

distinguish.bayes <- function(TrnX, TrnG, p = rep(1, length(levels(TrnG))),
  TstX = NULL, var.equal = FALSE){         #p是先验概率，默认都是1
  if(is.factor(TrnG) == FALSE){
    mx <- nrow(TrnX); mg <- nrow(TrnG)
    TrnX <- rbind(TrnX, TrnG)
    TrnG <- factor(rep(1:2, c(mx, mg)))
  }                        #上面的代码还是老意思，如果分别传入两个类别的数据，就合成一个。并给因子
  if(is.null(TstX) == TRUE){
    TstX <- TrnX         #没给测试集，就用训练集代替
  }
  if(is.vector(TstX) == TRUE){
    TstX <- t(as.matrix(TstX))   #变成竖着的一维矩阵
  }else if(is.matrix(TstX) != TRUE){
    TstX <- as.matrix(TstX)      #给了测试集 就变成矩阵
  }
  if(is.matrix(TrnX) != TRUE){
    TrnX <- as.matrix(TrnX)    #变成矩阵
  }
  nx <- nrow(TstX)      #测试集样本数
  blong <- matrix(rep(0, nx), nrow=1,  
  dimnames=list("blong", 1:nx))
  g <- length(levels(TrnG))
  mu <- matrix(0, nrow=g, ncol=ncol(TrnX))
  for(i in 1:g){
    mu[i,] <- colMeans(TrnX[TrnG==i,])
  }
  D <- matrix(0, nrow=g, ncol=nx)
  if(var.equal == TRUE || var.equal == T){
    for(i in 1:g){
      d2 <- mahalanobis(TstX, mu[i,], var(TrnX))
      D[i,] <- d2 - 2*log(p[i])
    }
  }else{
    for(i in 1:g){
      S <- var(TrnX[TrnG==i,])
      d2 <- mahalanobis(TstX, mu[i,], S)
      D[i,] <- d2 - 2*log(p[i])-log(det(S))
    }
  }
  for(j in 1:nx){
    dmin <- Inf
    for(i in 1:g){
      if(D[i,j] < dmin){
        dmin <- D[i,j]
        blong[j] <- i
      }
    }
  }
  blong
} #跟上面的距离判别法比较雷同

> source("E:\\hutao\\learning\\rscript\\myR.R")
> distinguish.bayes(iris[1:4],gl(3,50))
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
blong 1 1 1 1 1 1 1 1 1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1
      28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
blong  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  1  2
      52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75
blong  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2  3  2  3  2  3  2  2
      76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99
blong  2  2  3  2  2  2  2  2  3  2  2  2  2  2  2  2  2  2  2  2  2  2  2  2
      100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117
blong   2   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3
      118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135
blong   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3
      136 137 138 139 140 141 142 143 144 145 146 147 148 149 150
blong   3   3   3   3   3   3   3   3   3   3   3   3   3   3   3

四、Fisher判别

discriminiant.fisher <- function(TrnX1, TrnX2, TstX = NULL){
  if(is.null(TstX) == TRUE){
    TstX <- rbind(TrnX1,TrnX2)
  }
  if(is.vector(TstX) == TRUE){
    TstX <- t(as.matrix(TstX))
  }else if(is.matrix(TstX) != TRUE){
    TstX <- as.matrix(TstX)
  }
  if(is.matrix(TrnX1) != TRUE){
    TrnX1 <- as.matrix(TrnX1)
  }
  if(is.matrix(TrnX2) != TRUE){
    TrnX2 <- as.matrix(TrnX2)
  }
  nx <- nrow(TstX)
  blong <- matrix(rep(0, nx), nrow=1, byrow=TRUE,
  dimnames=list("blong", 1:nx))
  n1 <- nrow(TrnX1); n2 <- nrow(TrnX2)
  mu1 <- colMeans(TrnX1); mu2 <- colMeans(TrnX2)
  S <- (n1-1)*var(TrnX1) + (n2-1)*var(TrnX2)
  mu <- n1/(n1+n2)*mu1 + n2/(n1+n2)*mu2
  w <- (TstX-rep(1,nx) %o% mu) %*% solve(S, mu2-mu1);
  for (i in 1:nx){
    if(w[i] <= 0){
      blong[i] <- 1
    }else{
      blong[i] <- 2
    }
  }
  blong
}

五、决策树

http://www.statmethods.net/advstats/cart.html
照着敲一把

> library(rpart)
> fit <- rpart(Kyphosis ~ Age + Number + Start, method="class", data=kyphosis)
> fit
> plot(fit,uniform=T,main="myTree")
> text(fit,use.n=T,all=T,cex=0.8)

【机器学习与R语言】1-机器学习简介苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
1.基本概念机器学习：发明算法将数据转化为智能行为数据挖掘VS机器学习：前者侧重寻找有价值的信息，后者侧重执行已知的任务。后者是前者的先期准备过程：数据——>抽象化——>一般化。或者：收集数据——推理数据——归纳数据——发现规律抽象化：训练：用一个特定模型来拟合数据集的过程用方程来拟合观测的数据：观测现象——数据呈现——模型建立。通过不同的格式来把信息概念化一般化：一般化：将抽象化的知识转换成可用
R语言标准普尔500指数Garch(1,1)模型 ronghuilin
一、例3.3标准普尔500指数的月超额收益率，从1926年开始，共792个观察值，如图所示。记rt为超额收益率，rt的样本ACF和rt2的样本PACF。在间隔为1，3时有少许序列相关性，但主要特征是平方序列显示的强烈线性相关性。例题建立garch(1,1)模型的过程：（1）应用arma(p,q)模型消除数据的线性依赖（2）在arma(p,q)模型基础上，建立garch(1,1)模型（3）改进g
R 地图绘制-比例尺与指北针 jamesjin63
ggplot绘制mapR语言可以进行数据分析，也可以进行地图绘制，而且非常简洁，快速。虽然Arcgis基于桌面可视化操作，能够进行空间分析，但是唯一不足的就是操作步骤繁琐而且一不小心，就要从头再来，可重复性较低。这篇文章主要讲述如何利用R语言中的ggplot与sf绘制带有指北针、图列与标尺的地图屏幕快照2020-06-28下午9.27.59.png数据我们下载非洲地区54个国家的图层Afirca.
学习小组Day4笔记--王英芳一万万万万
R语言基础准备工作电脑用户名需要是英文R基础，Rstudio人性化界面资源Rfordatasciencechapter1下载RandRstudio给自己一个全新的R语言环境R是什么一种变成语言，统计计算和绘图的环境，汇集了许多函数，强大分析功能。图形界面Rstudio开源集成开发环境IDE4个板块，脚本编辑器，控制台（脚本运行，结果显示），environment（对象/变量列表）history，文
R语言基础笔记 waterHBO r语言笔记开发语言
起因:今天不知道要写什么。把之前的笔记复制一下。代码开头，导入:#清除系统变量rm(list=ls())#隐藏警告信息:options(warn=-1)#把当前目录，设置为工作目录。library(rstudioapi)current_folder_path0.0&ideology<10.0)分组聚合，类似groupby()df2<-aggregate(df1KaTeXparseerror:Exp
R语言包AMORE安装报错问题以及RStudio与Rtools环境配置卡卡_R-Python R语言数据分析与可视化 r语言开发语言
在使用R语言进行AMORE安装时会遇到报错，这时候需要采用解决办法：'''AMORE包安装，需要离线官网下载安装包：Indexof/src/contrib/Archive/AMORE(r-project.org)https://cran.r-project.org/src/contrib/Archive/AMORE/一、出现的问题最近开始学习R语言，安装了最新版的R4.4.1和RStudio，但安
分类算法可视化方法 dundunmm 数据挖掘分类数据挖掘人工智能可视化
可视化方法可以用于帮助理解分类算法的决策边界、性能和在不同数据集上的行为。下面列举几个常见的可视化方法。1.决策边界可视化这种方法用于可视化不同分类算法在二维特征空间中如何分隔不同类别。对于理解决策树、支持向量机（SVM）、逻辑回归和k近邻（k-NN）等模型的行为非常有用。importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasets
【机器学习】朴素贝叶斯可口的冰可乐机器学习机器学习概率论
3.朴素贝叶斯素贝叶斯算法（NaiveBayes）是一种基于贝叶斯定理的简单而有效的分类算法。其“朴素”之处在于假设各特征之间相互独立，即在给定类别的条件下，各个特征是独立的。尽管这一假设在实际中不一定成立，合理的平滑技术和数据预处理仍能使其在许多任务中表现良好。优点：速度快：由于朴素贝叶斯仅需计算简单的概率，训练和预测的速度非常快。适用于高维数据：即使在特征数量多的情况下，朴素贝叶斯仍然表现良好
生态位宽度计算&可视化展示（R语言）光疏介质 r语言
生态位宽度是指物种（或其它生物单位）在群落中所利用的各种不同资源的总和。物种的生态位越宽，该物种的特化程度就越小，倾向于泛化种（generalistspecies）；物种的生态位越窄，倾向于是一个特化种（specialistsspecies）。本篇所使用为生态位宽度指数即**Levins的生态位宽度指数。**（除此之外也有用shannon指数）#安装并加载必要的包if(!requireNamesp
R语言多项逻辑回归-因变量是无序多分类医学和生信笔记医学统计学 r语言医学统计学
因变量是无序多分类资料（＞2）时，可使用多分类逻辑回归（multinomiallogisticregression）。使用课本例16-5的数据，课本电子版及数据已上传到QQ群，自行下载即可。某研究人员欲了解不同社区和性别之间居民获取健康知识的途径是否相同，对2个社区的314名成人进行了调查，其中X1是社区，社区1用0表示，社区2用1表示；X2是性别，0是男，1是女，Y是获取健康知识途径，1是传统大
Protocol Buffer编译器安装雪域迷影
本文翻译自ProtocolBufferCompilerInstallationProtocolBufferCompilerInstallation如何安装protocolbuffer编译器尽管不是强制性的，但gRPC应用程序通常利用ProtocolBuufer来进行服务定义和数据序列化。该站点上的大多数示例代码都使用protocolbuffer语言（proto3）的版本3。protocolbuff
R语言自学笔记-2内置数据集实验室长工
#b站视频——R语言入门与数据分析#内置数据集#固定格式的数据（矩阵、数据框或一个时间序列等）#统计建模、回归分析等试验需要找合适的数据集#R内置数据集，存储在，通过help(package="datasets")#通过data函数访问这些数据集data()#得到新窗口前面：数据集名字后面：内容#包含R所有用到的数据类型，包括：向量、矩阵、列表、因子、数据框以及时间序列等#直接输入数据集的名字就可
在TCGA上下载数据并且进行处理 Red Red 生信小技巧 r语言数据库
浏览器搜索TCGAGDC进入网站在TCGA数据库主页选择“Repository”模式根据所需要的选项在侧边栏选择数据清空购物车！！第一次登陆可忽略将刚刚选择好的数据加入购物车，并且在购物车里下载Metadata和Cart数据，下载到同一个文件夹下。使用R语言脚本对数据进行处理，将其提取为genesymbol和样本的数据，推荐看一下该博主处理数据！！真的非常详细！他R语言脚本在这个链接里
R语言-非结构化数据-文本数据读入 pdc31czy R r语言数据分析
#2.2.2非结构化数据-文本数据读入rm(list=ls())#清空工作空间##1.读入简单文本数据###假如数据包含大量经过结构化的文本数据#只需按照读入csv等标准式数据的方法读入#例：novel=read.csv("novel.csv",fileEncoding="UTF-8")head(novel)##2.用readtable读入文本###文本数据普通读法test=read.table(
Coding and Paper Letter（十四） G小调的Qing歌
资源整理。1Coding:1.R语言包ungeviz，ggplot2的拓展包，专门用来作不确定性的可视化。ungeviz2.计算机图形学相关开源项目。计算机图形学光线追踪开源项目C++源码。computergraphicsraytracing计算机图形学格网开源项目C++源码。computergraphicsmeshes计算机图形学介绍开源项目。computergraphics3.R语言包GLMM
r语言做绘制精美pcoa图_R语言高级绘图 — ggplot2 weixin_39560002 r语言做绘制精美pcoa图
2)PCA的作图PCA主成分分析，可以将高维数据进行降维处理。我们的OTU表格就是典型的高维数据，可以对其进行降维处理得到主成分PC1和PC2，然后将所有样品都分解到这两个成分方向，进行散点绘图，可以直观的看出样品间的差异。首先需要一系列的统计处理，然后用ggplot2进行绘图，过程如下：#加载需要的三个包(需要先下载，再加载)>library(ade4)>library(ggplot2)>lib
科研绘图系列：R语言扩展物种堆积图（Extended Stacked Barplot）生信学习者1 SCI科研绘图系列 r语言数据可视化数据分析
介绍R语言的扩展物种堆积图是一种数据可视化工具，它不仅展示了物种的堆积结果，还整合了不同样本分组之间的差异性分析结果。这种图形表示方法能够直观地比较不同物种在各个分组中的显著性差异，为研究者提供了一种有效的数据解读方式。加载R包knitr::opts_chunk$set(warning=F,message=F)library(tidyverse)library(phyloseq)library(g
科研绘图系列：R语言柱状图分布（histogram plot）生信学习者1 SCI科研绘图系列 r语言数据可视化
文章目录介绍加载R包读取数据画图介绍柱状图（BarChart）是一种常用的数据可视化图表，用于展示和比较不同类别或组的数据。它通过在二维平面上绘制一系列垂直或水平的柱子来表示数据的大小，每个柱子的长度或高度代表一个数据点的数值。柱状图非常适合于展示分类数据的分布和比较。柱状图的特点：直观比较：柱状图可以直观地展示不同类别之间的数值比较，易于理解。分类展示：数据按照类别或组别进行分组展示，每个类别用
科研绘图系列：R语言富集散点图（enrichment scatter plot）生信学习者1 SCI科研绘图系列 r语言数据可视化
介绍富集通路散点图（EnrichmentPathwayScatterPlot）是一种数据可视化工具，用于展示基因集富集分析（GeneSetEnrichmentAnalysis,GSEA）的结果。横坐标是对应基因名称，纵坐标是通路名称，图中的点表示该基因在某个通路下的qvalue，可以简单理解为不同环境下的贡献大小。加载R包导入所需要的R包，在导入前需要用户自己安装。library(readxl)l
Python-Matplotlib安装及简单使用 riyuexingchen0909 python python 图形
在使用NumPy进行学习统计计算时是枯燥的，大量的数据令我们很头疼，所以我们需要把它图形化显示。Matplotlib是一个Python的图形框架，类似于MATLAB和R语言。Matplotlib的官网地址是http://matplotlib.org/，下载地址为http://matplotlib.org/downloads.html，选择对应的版本即可安装，我选择的版本为matplotlib-1.
sublime安装python库_Mac OS 轻松用 Sublime Text 3 配置Python编译环境 weixin_39603397
最近在学习数据分析相关的知识，对比Python和R语言在数据分析领域的优劣，Python更胜一筹。要学习Python，首先需要搭建编译环境。一.编译工具的选择Python的编译工具有两种，1.文本编辑器，SublimeText3,(还有vim,VistualStudioCode),此处重点介绍SublimeText32.集成开发环境(IDE),主要有pycharmpython，iclipsepyt
在linux（ubuntu）中使用网页版的rstudio Chao_Powell_Hou
RStudio是R语言集成开发环境的应用软件，RStudioServer是一个基于web访问的RStudio云端开发环境，需要安装在服务器上，支持多用户远程访问使用。可以在网页端打开，而且界面与windows版本的相同。安装就先不说了，挺简单的。安装完成后输入rstudio-server可以看到相应的指令。image.png为了激活，我们输入rstudio-serverstart，就已经激活了。但
推荐一份生物信息学入门很好的参考材料小明的数据分析笔记本
链接是https://bioinformatics.uconn.edu/resources-and-events/tutorials-2/这个是康涅狄格大学（UniversityofConnecticut）提供的一份教程，主要的内容包括1、生物信息学中经常用到的文件格式image.png2、linux操作系统和R语言的基础知识image.png3、转录组数据的处理流程image.png这里包括有参
python 连续比较_python实现连续变量最优分箱详解--CART算法 weixin_39834788 python 连续比较
关于变量分箱主要分为两大类：有监督型和无监督型对应的分箱方法：A.无监督：(1)等宽(2)等频(3)聚类B.有监督：(1)卡方分箱法(ChiMerge)(2)ID3、C4.5、CART等单变量决策树算法(3)信用评分建模的IV最大化分箱等本篇使用python，基于CART算法对连续变量进行最优分箱由于CART是决策树分类算法，所以相当于是单变量决策树分类。简单介绍下理论：CART是二叉树，每次仅进
R语言基础学习 weixin_55475210 r语言学习开发语言
R与RStudioR语言是数据科学和统计分析的语言，适合数据分析和数据可视化。R是开源的，拥有丰富的包（packages），可以与优化软件进行交互。RStudio提供了R语言的集成开发环境，支持代码编辑、运行、调试等功能。下载R：CRAN下载RStudio：RStudioDownloadRStudio界面基本操作保存/打开代码文件使用.R扩展名。保存/打开环境文件使用.Rdata扩展名。快捷键操作
自然语言处理系列五十一》文本分类算法》Python快速文本分类器FastText 陈敬雷-充电了么-CEO兼CTO 算法人工智能大数据自然语言处理分类 python chatgpt 人工智能 ai 机器学习
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理FastText和Word2vec的区别FastText代码实战总结自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理自然语言处理(N
学习小组Day5笔记--森蝶松风
数据结构Day5+数据结构.png新手注意事项1.R的赋值符号不是等号，而是<-2.在Console控制台输入命令，相当于Linux的命令行3.R的代码都是带括号的，括号必须是英文的。4.显示工作路径getwd()5.向量是由元素组成的，元素可以是数字或者字符串。6.表格在R语言中改名叫数据框7.函数或者命令不会用时，除了百度/谷歌搜索以外，用这个命令查看帮助：?read.table，调出对应的帮
学习小组Day6笔记--魏麻将魏麻将
R包什么？R包是R函数，编码和样本数据的集合，它们存储在R环境中的名为“library”的目录下。默认情况下，R在安装过程中安装一组软件包。当需要某些特定的目的时，也可根据需要添加更多的包。当我们启动R控制台时，默认情况下只有默认软件包可用。已经安装的其他软件包必须明确加载才能被要使用的R程序使用。注意：学生信，R语言必学的原因是丰富的图表和Biocductor上面的各种生信分析R包。安装和加载R
Logistic分类算法原理及Python实践 doublexiao79 数据分析与挖掘分类 python 数据挖掘
一、Logistic分类算法原理Logistic分类算法，也称为逻辑回归（LogisticRegression），是机器学习中的一种经典分类算法，主要用于解决二分类问题。其原理基于线性回归和逻辑函数（Sigmoid函数）的组合，能够将输入特征的线性组合映射到一个概率范围内，从而进行分类预测。以下是Logistic分类算法的主要原理：1.线性组合首先，对于输入的n个特征，我们将其表示为一个n维的列向
centos7 r语言安装_centos7 R-4.0.2 安装 weixin_39777404 centos7 r语言安装
tar-zvxfR-4.0.2.tar.gzcdR-*yuminstall-ygccyuminstall-ygcc-gfortranyuminstall-ygcc-c++yuminstall-yglibc-headersyuminstall-ylibreadline6-devgfortranyuminstall-yreadline-develyuminstall-ywgetlibXt-devely
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI PHP android linux
╔-----------------------------------╗┆
各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。 bozch .net .net mvc
在.net mvc5中，在执行某一操作的时候，出现了如下错误：各表中的列名必须唯一。在表 'dbo.XXX' 中多次指定了列名 'XXX'。经查询当前的操作与错误内容无关，经过对错误信息的排查发现，事故出现在数据库迁移上。回想过去：在迁移之前已经对数据库进行了添加字段操作，再次进行迁移插入XXX字段的时候，就会提示如上错误。 &
Java 对象大小的计算 e200702084 java
Java对象的大小如何计算一个对象的大小呢？
Mybatis Spring 171815164 mybatis
ApplicationContext ac = new ClassPathXmlApplicationContext("applicationContext.xml"); CustomerService userService = (CustomerService) ac.getBean("customerService"); Customer cust
JVM 不稳定参数 g21121 jvm
-XX 参数被称为不稳定参数，之所以这么叫是因为此类参数的设置很容易引起JVM 性能上的差异，使JVM 存在极大的不稳定性。当然这是在非合理设置的前提下，如果此类参数设置合理讲大大提高JVM 的性能及稳定性。可以说“不稳定参数”
用户自动登录网站永夜-极光用户
1.目标:实现用户登录后,再次登录就自动登录,无需用户名和密码 2.思路:将用户的信息保存为cookie 每次用户访问网站,通过filter拦截所有请求,在filter中读取所有的cookie,如果找到了保存登录信息的cookie,那么在cookie中读取登录信息,然后直接
centos7 安装后失去win7的引导记录程序员是怎么炼成的操作系统
1.使用root身份(必须)打开 /boot/grub2/grub.cfg 2.找到 ### BEGIN /etc/grub.d/30_os-prober ### 在后面添加 menuentry "Windows 7 (loader) (on /dev/sda1)" {
Oracle 10g 官方中文安装帮助文档以及Oracle官方中文教程文档下载 aijuans oracle
Oracle 10g 官方中文安装帮助文档下载：http://download.csdn.net/tag/Oracle%E4%B8%AD%E6%96%87API%EF%BC%8COracle%E4%B8%AD%E6%96%87%E6%96%87%E6%A1%A3%EF%BC%8Coracle%E5%AD%A6%E4%B9%A0%E6%96%87%E6%A1%A3 Oracle 10g 官方中文教程
JavaEE开源快速开发平台G4Studio_V3.2发布了無為子 AOP oracle mysql javaee G4Studio
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V3.2版本已经正式发布。大家可以通过如下地址下载。访问G4Studio网站 http://www.g4it.org G4Studio_V3.2版本变更日志功能新增 (1).新增了系统右下角滑出提示窗口功能。 (2).新增了文件资源的Zip压缩和解压缩
Oracle常用的单行函数应用技巧总结百合不是茶日期函数转换函数(核心)数字函数通用函数(核心)字符函数
单行函数; 字符函数,数字函数,日期函数,转换函数(核心),通用函数(核心) 一:字符函数: .UPPER(字符串) 将字符串转为大写 .LOWER (字符串) 将字符串转为小写 .INITCAP(字符串) 将首字母大写 .LENGTH (字符串) 字符串的长度 .REPLACE(字符串,'A','_') 将字符串字符A转换成_
Mockito异常测试实例 bijian1013 java 单元测试 mockito
Mockito异常测试实例： package com.bijian.study; import static org.mockito.Mockito.mock; import static org.mockito.Mockito.when; import org.junit.Assert; import org.junit.Test; import org.mockito.
GA与量子恒道统计 Bill_chen JavaScript 浏览器百度 Google 防火墙
前一阵子，统计**网址时，Google Analytics（GA）和量子恒道统计（也称量子统计），数据有较大的偏差，仔细找相关资料研究了下，总结如下：为何GA和量子网站统计（量子统计前身为雅虎统计）结果不同？首先：没有一种网站统计工具能保证百分之百的准确出现该问题可能有以下几个原因：（1）不同的统计分析系统的算法机制不同；（2）统计代码放置的位置和前后
【Linux命令三】Top命令 bit1129 linux命令
Linux的Top命令类似于Windows的任务管理器，可以查看当前系统的运行情况，包括CPU、内存的使用情况等。如下是一个Top命令的执行结果： top - 21:22:04 up 1 day, 23:49, 1 user, load average: 1.10, 1.66, 1.99 Tasks: 202 total, 4 running, 198 sl
spring四种依赖注入方式白糖_ spring
平常的java开发中，程序员在某个类中需要依赖其它类的方法，则通常是new一个依赖类再调用类实例的方法，这种开发存在的问题是new的类实例不好统一管理，spring提出了依赖注入的思想，即依赖类不由程序员实例化，而是通过spring容器帮我们new指定实例并且将实例注入到需要该对象的类中。依赖注入的另一种说法是“控制反转”，通俗的理解是：平常我们new一个实例，这个实例的控制权是我
angular.injector boyitech AngularJS AngularJS API
angular.injector 描述: 创建一个injector对象, 调用injector对象的方法可以获得angular的service, 或者用来做依赖注入. 使用方法: angular.injector(modules, [strictDi]) 参数详解: Param Type Details mod
java-同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待 bylijinnan Integer
public class PC { /** * 题目：生产者-消费者。 * 同步访问一个数组Integer[10]，生产者不断地往数组放入整数1000，数组满时等待；消费者不断地将数组里面的数置零，数组空时等待。 */ private static final Integer[] val=new Integer[10]; private static
使用Struts2.2.1配置 Chen.H apache spring Web xml struts
Struts2.2.1 需要如下 jar包: commons-fileupload-1.2.1.jar commons-io-1.3.2.jar commons-logging-1.0.4.jar freemarker-2.3.16.jar javassist-3.7.ga.jar ognl-3.0.jar spring.jar struts2-core-2.2.1.jar struts2-sp
[职业与教育]青春之歌 comsci 教育
每个人都有自己的青春之歌............但是我要说的却不是青春... 大家如果在自己的职业生涯没有给自己以后创业留一点点机会,仅仅凭学历和人脉关系,是难以在竞争激烈的市场中生存下去的.... &nbs
oracle连接(join)中使用using关键字 daizj JOIN oracle sql using
在oracle连接(join)中使用using关键字 34. View the Exhibit and examine the structure of the ORDERS and ORDER_ITEMS tables. Evaluate the following SQL statement: SELECT oi.order_id, product_id, order_date FRO
NIO示例 daysinsun nio
NIO服务端代码： public class NIOServer { private Selector selector; public void startServer(int port) throws IOException { ServerSocketChannel serverChannel = ServerSocketChannel.open(
C语言学习homework1 dcj3sjt126com c homework
0、课堂练习做完 1、使用sizeof计算出你所知道的所有的类型占用的空间。 int x; sizeof(x); sizeof(int); # include <stdio.h> int main(void) { int x1; char x2; double x3; float x4; printf(&quo
select in order by , mysql排序 dcj3sjt126com mysql
If i select like this: SELECT id FROM users WHERE id IN(3,4,8,1); This by default will select users in this order 1,3,4,8, I would like to select them in the same order that i put IN() values so:
页面校验-新建项目 fanxiaolong 页面校验
$(document).ready( function() { var flag = true; $('#changeform').submit(function() { var projectScValNull = true; var s =""; var parent_id = $("#parent_id").v
Ehcache（02）——ehcache.xml简介 234390216 ehcache ehcache.xml 简介
ehcache.xml简介 ehcache.xml文件是用来定义Ehcache的配置信息的，更准确的来说它是定义CacheManager的配置信息的。根据之前我们在《Ehcache简介》一文中对CacheManager的介绍我们知道一切Ehcache的应用都是从CacheManager开始的。在不指定配置信
junit 4.11中三个新功能 jackyrong java
junit 4.11中两个新增的功能，首先是注解中可以参数化，比如 import static org.junit.Assert.assertEquals; import java.util.Arrays; import org.junit.Test; import org.junit.runner.RunWith; import org.junit.runn
国外程序员爱用苹果Mac电脑的10大理由 php教程分享 windows PHP unix Microsoft perl
Mac 在国外很受欢迎，尤其是在设计/web开发/IT 人员圈子里。普通用户喜欢 Mac 可以理解，毕竟 Mac 设计美观，简单好用，没有病毒。那么为什么专业人士也对 Mac 情有独钟呢？从个人使用经验来看我想有下面几个原因： 1、Mac OS X 是基于 Unix 的这一点太重要了，尤其是对开发人员，至少对于我来说很重要，这意味着Unix 下一堆好用的工具都可以随手捡到。如果你是个 wi
位运算、异或的实际应用 wenjinglian 位运算
一．位操作基础，用一张表描述位操作符的应用规则并详细解释。二．常用位操作小技巧，有判断奇偶、交换两数、变换符号、求绝对值。三．位操作与空间压缩，针对筛素数进行空间压缩。 &n
weblogic部署项目出现的一些问题（持续补充中……） Everyday都不同 weblogic部署失败
好吧，weblogic的问题确实…… 问题一： org.springframework.beans.factory.BeanDefinitionStoreException: Failed to read candidate component class: URL [zip:E:/weblogic/user_projects/domains/base_domain/serve
tomcat7性能调优（01） toknowme tomcat7
Tomcat优化： 1、最大连接数最大线程等设置 <Connector port="8082" protocol="HTTP/1.1" useBodyEncodingForURI="t
PO VO DAO DTO BO TO概念与区别 xp9802 java DAO 设计模式 bean 领域模型
O/R Mapping 是 Object Relational Mapping（对象关系映射）的缩写。通俗点讲，就是将对象与关系数据库绑定，用对象来表示关系数据。在O/R Mapping的世界里，有两个基本的也是重要的东东需要了解，即VO，PO。它们的关系应该是相互独立的，一个VO可以只是PO的部分，也可以是多个PO构成，同样也可以等同于一个PO（指的是他们的属性）。这样，PO独立出来，数据持

R语言 分类算法