Jacky的博客

机器学习笔记

有监督学习与无监督学习

有目标变量的研究，称为有监督学习，常用于预测未来。
无目标变量的研究，称为无监督学习，常用于描述现在。

根据具体问题和算法不同，常常分为以下六小类：
- 分类 Classification(有监督学习)
- 回归 Regression(有监督学习)
- 异常检测 Deviation Detection(有监督学习)
- 聚类 Clustering(无监督学习)
- 关联规则 Association Rule Discovery(无监督学习)
- 序列挖掘 Sequential Pattern Discovery(无监督学习)

一般挖掘流程

问题理解

首先是清晰地定义问题和目标
其次是评估现有条件。根据资源和约束、判断挖掘项目的可行性
制定初步规划和分析思路，将问题分解分解映射到后续的多个数据挖掘步骤中

数据理解

数据准备

数据建模

模型评价

模型部署

聚类

聚类目的是捕获数据的自然结构，从而将数据自动划分为有意义的几个组群，这些组群的特点在于组内的变异较小，而组间的变异较大。聚类分析还可以用来探索数据的结构，还可以用来对数据进行预处理，为进一步的数据挖掘工作起到压缩和降维的作用。

层次聚类

又称为系统聚类。聚类首先要清晰地定义样本之间的距离关系，远近为不同类。

过程： 首先将每个样本单独作为一类，然后将不同类之间的距离最近的进行合并，合并后重新计算类间距。这个过程一直持续到将所有样本归为一类为止。

6种距离计算方法： 最短距离法、最长距离法、类平均法、重心法、中间距离法、离差平方和法。

stats包hclust函数重要参数：样本的距离矩阵，及计算类间距离的方法。下面使用iris数据集来进行层次聚类分析，首先提取iris数据中的4个数值变量，标准化之后计算其欧式距离矩阵。

data <- iris[,-5]
means <- sapply(data, mean); SD <- sapply(data, sd)
scaledata <- scale(data, means, SD)
Dist <- dist(scaledata, method = 'euclidean')

然后根据矩阵绘制热图。从图可看到，颜色越深表示样本间距越近，大致上可以区分出三到四个区块，其样本之间距离比较接近。

heatmap(as.matrix(Dist), labRow = F, labCol = F)

最后使用hclust函数建立聚类模型，结果存在clusteModel变量中，其中ward参数是将类间距离计算方法设置为离差平方和法。如果我们希望将类别设为3类，可以使用cutree函数提取每个样本所属的类别。观察真实的类别和聚类之间的差别，发现virginica类错分了23个样本

clustemodel <- hclust(Dist, method = 'ward.D2')
result <- cutree(clustemodel, k=3)
table(iris[,5], result) **观察聚类和真实的分类对比** 
> table(iris[,5], result)
              1  2  3
  setosa     49  1  0
  versicolor  0 27 23
  virginica   0  2 48
plot(clustemodel) **聚类树图**

层次聚类的特点是：基于距离矩阵进行聚类，不需要原始数据。可用于不同形状的聚类，但它对于异常点比较敏感，对于数据规模较小的数据比较合适，否则计算量会相当大，聚类前无需确定聚类个数，之后切分组数可根据业务知识，也可以根据聚类树图的特征。

如果样本量很大，可以尝试用fastcluster包进行快速层次聚类。包加载之后，其hclust函数会覆盖同名函数，参数和方法都一样。

library(fastcluster)
clustemodel <- hclust(Dist, method = "ward.D2")

聚类需要将距离矩阵作为输入，所以聚类的关键是距离计算方法的选择，这种选择会极大的影响聚类的结果，而这种选择往往依赖于具体的应用场景。可用于定义“距离”的度量方法包括了常见的欧式距离（euclidean）、曼哈顿距离（manhattan）、两项距离（binary）、闵可夫斯基（minkowski），以及更为抽象的相关系数和夹角余弦等。另外如果特征的量纲不一，还需要考虑适当的标准化和转换方法，或者使用马氏距离。用户也可以输入自定义的距离矩阵。
常规的距离可以通过dist函数得到，其他一些特殊的距离可以加载proxy包。例如余弦距离。

library(proxy)
res <- dist(data,method = 'cosine')

前面计算距离时处理的均为数值变量，如果是二分类变量，可采用杰卡德（Jaccard）方法计算它们之间的距离。例如，x和y样本各有6个特征加以描述，二者取1的交集合个数为3，取1的并集合个数为5，因此相似程度为3/5，那么二者之间的距离可以认为是2/5。

> res <- dist(data,method = 'cosine')
> x <- c(0,0,1,1,1,1)
> y <- c(1,0,1,1,0,1)
> dist(rbind(x,y), method = 'Jaccard')
    x
y 0.4

如果是处理多个取值的分类变量，可以将其转为多个二分类变量，其方法和线性回归中将因子变量转为哑变量是一样的作法。
还有一种特殊情况的距离计算，就是分类变量和数值变量混合在一起的情况。下例的两个样本中的第3和5个特征为数值变量，其他为二分类变量，另外还有一个缺失值。我们可以先用离差计算单个特征的距离，再进行合并计算。

x <- c(0,0,1.2,1,0.5,1,NA)
y <- c(1,0,2.3,1,0.9,1,1)
d <- abs(x-y)
dist <- sum(d[!is.na(d)])/6

K均值聚类

K均值聚类又称为动态聚类，它的计算方法快速简便。首先要指定聚类的分类个数N，先随机取K个点作为初始的类中心或者说是质心。计算个样本点与类中心的距离并就近归类。所有样本归类完成后，重新计算类中心，重复迭代这个过程直到类中心不再变化。

使用kmeans函数进行K均值聚类，重要参数如下：

x：设置要聚类的数据对象，并非距离矩阵。
centers： 用来设置分类个数。
nstart： 用来设置取随机初始中心的次数，其默认值为1，取较多的次数可以改善聚类效果。

下面仍是使用标准化后的iris数据集来聚类，之后提取每个样本所属的类别。

clustemodel <- kmeans(dataScale， centers = 3， nstart = 10)
class(clustemodel)

K均值聚类计算仍然要考虑距离，这里kmeans函数缺省使用欧式距离来计算，如果需要使用其他距离定义，可以采用cluster包中的pam函数，配合proxy包来计算。例如下面我们使用了马氏距离。

library(proxy)
library(cluster)
clustmodel <- pam(dataScale, k = 3, metric = 'Mahalanobis')
clustmodel$medoids

table(iris$Species, clustmodel$clustering)

下两图显示了两项轮廓系数图和主成分散点图以观察聚类效果。轮廓图中各样本点的条状长度为silhouette值，值越大表示聚类效果越好，值越小标书此样本位于两个类的边缘交界地带。

par(mfcol = c(1 ,2))
plot(clustmodel, which.plots = 2, main = '')
plot(clustmodel, which.plots = 1, main = '')

kmeans函数和pam函数略有区别，kmeans的类中心不属于原数据中的某个样本，而pam的类中心是数据中的某一个样本，其区别类似于均值和中位数之间的差别。

使用K均值聚类时需要注意，最初的类中心是通过随机生成的，这样有时可能会形成较差的聚类结果。
改进的方法包括：多次尝试聚类；抽样后先使用层次聚类确定初始中心；选择比较大的K值聚类，之后手工合并相近的类；或着是采用两分法K均值聚类。

K均值聚类要求事先给出分类个数K。K值可以根据业务知识加以确定，或者先用层次聚类已决定个数。改善聚类的方法还包括对原始数据进行变换，例如对数据降维后再聚类。聚类效果可以参考轮廓系数加以判断，轮廓系数（silhouette coefficient）方法考虑了组内的凝聚度和组间的分离度，以此来判断聚类的优良性，其值在-1到+1之间取值，值越大表示效果越好。

rinds提供了一个自定义的简单函数bestCluster，输入数据和一个整数向量，可以自动输出轮廓系数最优的聚类数：

rinds：：bestCluster(dataScale, 2:6)
## [1] 2

上面的函数判断类别数位2是最优聚类。fpc包中的kmeansruns函数也可以自动探测最佳的聚类数。下例中轮廓系数最大的0.68对应的正是两个聚类。

library(pfc)
pka <- kmeansruns(iris[, 1:4], krange = 2:6,
              critout = TRUE, runs = 2,
              criterion = 'asw')

k均值聚类方法快速简单，但它不适合非球形的数据，对异常值也比较敏感。cluster扩展包中也有许多函数可用于其他方式的聚类分析，如agnes函数可用于凝聚层次聚类，diana可用于划分层次聚类，fanny用于模糊聚类。

基于密度的聚类

k均值聚类的缺点在于它不能识别非球形的蔟。我们可以用一个简单的例子来观察k均值聚类的弱点。

基于sin和cos函数构造两组人工数据

x1 <- seq(0,pi,length.out = 100)
y1 <- sin(x1) +0.1*rnorm(100)
x2 <- 1.5 +seq(0, pi, length.out = 100)
y2 <- cos(x2) + 0.1*rnorm(100)
data <- data.frame(c(x1, x2), c(y1, y2))
names(data) <- c('x','y')
model1 <- kmeans(data, centers = 2, nstart = 10)

如下图，不同的类用不同的颜色表示，观察到其聚类结果是不理想的，因为它不能识别非球形的蔟。
为了解决这个问题，我们可以使用DBSCAN方法，它是一种基于密度的聚类方法。它寻找哪些被低密度区域所分离的高密度区域。DBSCAN方法的重要概念如下：

核心点：如果某个点的领域内的点的个数超过某个阈值，则他是一个核心点，即表示它位于蔟的内部。领域的大小由半径参数eps决定。阈值由MiniPts参数决定。

边界点：如果某个点不是核心点，但它落在核心点的领域内，则它是边界点。

噪声点：非核心点也非边界点。

简单来讲，DBSCAN的算法是将所有点标记为核心点，边界点或噪声点，将任意两个距离小于eps的核心点归为同一个蔟。任何与核心点足够近的边界点也放到与之相同的蔟中。

应用fpc包中的dbscan函数可以实施密度聚类。重要参数如下：
eps：定义领域的半径大小。
MinPts：定义阈值以判断核心点。
噪声点：非核心点也非边界点。

下面实施密度聚类，其中eps参数设为0.3，即两个点之间距离小于0.3则归为一簇，而阈值MinPts设为4，若某点的领域中有4个点以上，则该点定义为核心点。

library('fpc')
model2 <- dbscan(data,eps =0.3, MinPts = 4)

从上图中可以看到DBSCAN方法很好地划分了两个蔟。其中要注意参数eps的设置，如果eps设置过大，则所有的点都会归为一个蔟，设置过小，那么蔟的数目会过多。如果MinPts设置过大的话，很多点将被视为噪声点。
可以看到基于密度聚类的优良特性，它可以对抗噪声，能处理任何形状和大小的蔟，这样可以发现K均值不能发现的蔟。但是对于高维数据，点之间极为稀疏，密度就很难定义了。而这种算法对于计算资源的消耗也是很大的。

自组织映射

自组织映射SOM不仅是一种聚类的技术，也是一种降维可视化的技术。
前面介绍的降维技术，PCA是为了保留原有数据的变异，MDS是为了保留原有数据的距离，而至于SOM，它是为了保留原有数据的拓扑结构，或者说邻居间的关系。SOM是将高维空间中的邻居，投影到二维网络中。这个二维网络通常是矩形或六边形。

SOM计算方法类似于在空间约束下的K均值聚类，二维网格的节点个数现决定了聚类数目。一开始先给节点赋初始值，随后样本数据逐个和节点比较距离，距离最近的某些节点值将会得到调整更新。这种比较的顺序是随机的，而距离的计算可以是欧式距离或是点积。节点更新将会受到两个参数的影响，一个是学习速率alpha，另一个是领域影响范围radius。这种比较和更新的过程持续迭代，一直到节点值收敛到一个稳定值。

kohonen包可以实施多种SOM算法，其中重要的参数包括

分类

预处理

set.seed(1)
data(PimaIndiansDiabetes2, package = “mlbench”)
data <- PimaIndiansDiabetes2
library(caret)

标准化处理

preProcValues <- preProcess(data[, -9],
method = c(‘center’, ‘scale’))
scaleddate <- predict(preProcValues, data[, -9])

YeoJohnson转换，使数据接近正态分布，并减弱异常值的影响

preProcbox <- preProcess(scaleddate,
method = c(‘YeoJohnson’))
boxdata <- predict(preProcbox, scaleddate)

缺失值插补，装袋算法

preProcimp <- preProcess(boxdata, method = ‘bagImpute’)
procdata <- predict(preProcimp, boxdata)
procdata$class <- data[,9]

决策树模型

特点：
是一种简单易用的非参数分类器。不需要对数据有任何先验假设，计算速度较快，结果容易解释，而且稳健性很强，对噪声数据和缺失数据不敏感。

分类回归树方法（CART）:
是众多树模型算法中的一种，它先从n个变量中寻找最佳分割变量和最佳分割点，将数据划分为两组。针对分组后的数据将上述步骤重复下去，直到满足某种停止条件。这样反复分割数据后使分组后的数据变得一致，纯度较高。同时可自动探测出复杂数据的潜在结构/重要模式和关系。

树模型分为分类树（classification tree）和回归树（regression tree）两种。分类树用于因变量为分类数据的情况，树的末端为因变量的分类值；回归树则可以用于因变量为连续变量的情况，树的末端可以给出相应类别中的因变量描述或预测。

建树模型的三个步骤：

   第一步是对所有自变量和所有分割点进行评估，最佳的选择是使分割后组内的数据纯度更高，即组内数据的目标变量变异更小。这种纯度可以通过Gini值或是熵Entropy来度量。

   第二步是对树进行修剪。如若不修剪加以限制，模型会产生“过度拟合”的问题，这样的模型在实际应用中毫无意义，而从另一个极端情况来看，若树的枝节太少，那么必然也会带来很大的预测误差。综合来看，要兼顾树的规模和误差的大小，因此通常会使用CP参数（complexity parameter）来对树的复杂度进行控制，使预测误差和树的规模都尽可能的小。CP参数类似于岭回归中的惩罚系数，数字越小模型越偏向于过度拟合。通常做法是先建立一个划分较细较为复杂的树模型，再根据交叉检验（cross-validation）方法来估计不同“剪枝”条件下各模型的误差，选择误差最小的树模型。

   第三步是输出最终结果，进行预测和解释。

rpartb包可实现CART算法，其中重要的参数是cp，它由control进行控制。设置cp参数为0，是为了让模型变得复杂，以方便后面演示剪枝处理。

library(caret)
library(rpart)
rpartmodel <- rpart(class~., data = procdata,
                control = rpart.control(cp=0))

预测误差是由xerror表示，即交叉检验的模型预测误差。我们可以寻找最小xerro值对应的cp值，并由此cp值决定树的大小。根据上面的输出自动求出对应最小的cp值，再用prune函数对树模型进行修剪。

cptable <- as.data.frame(rpartmodel$cptable)
cptable$errsd <- cptable$xerror + cptable$xstd
cpvalue <- cptable[which.min(cptable$errsd),"CP"]
prunemodel <- prune(rpartmodel, cpvalue)

剪枝后的模型存到prunemodel对象中，使用rpart.plot包来画出决策树结构图（划分变量和阈值）

library(rpart.plot)
rpart.plot(prunemodel)

rpart模型运行快速，不怕缺失和冗余变量，解释性强，但缺点在于：因为它是矩形的判别边界，使得精确度不高，对回归问题不太适合。

处理回归问题时建议使用模型树（model tree）方法，即先将数据切分，再对各组数据进行线性回归。party包中的mob函数和RWeka包中的M5P函数可以建立模型树。

另一个缺点在于，单个决策树不太稳定，数据微小的变化会造成模型结构变化。树模型还会有变量选择偏向，即会选择那些有取值较多的变量。一种改善的做法是使用条件推断树，即party包中的ctree函数，还可以采用集成学习法，例如随机森林算法。

效果的衡量：以决策树为例

统计模型可以直接从各项检验的结果判断模型的好坏。但是数据挖掘和机器学习这类算法模型通常解释性没有这么强，而算法模型通常都是为了预测，那么一个很现实的解决办法就是通过比较真实值和预测值之间的差异来衡量模型的效果。

构建表格来评价二元分类器的预测效果。所有训练数据都会落入这两行两列的表格中，对角线上的数字代表了预测正确的数目，同时可以相应算出TPR（真正率或灵敏度）和TNR（真负率或特异度），这个表格称为混淆矩阵（confusion matrix）

pre <- predict(prunemodel,procdata, type = 'class')
(pretable <- table(pre, procdata$class))

pre   neg pos
  neg 442 116
  pos  58 152
(accuracy <- sum(diag(pretable))/sum(pretable)) *diag 取矩阵对角数据*
[1] 0.7734375

上表的纵轴是预测值，横轴是真实值，落在对角线上的数字为预测正确的样本。
灵敏度，即在真实为阴性条件下预测正确的比率；
特异度，在真实为阳性条件下预测正确的比率。

 pretable[1,1]/sum(pretable[,1]) #灵敏度
[1] 0.884
 pretable[2,2]/sum(pretable[,2]) #特异度
[1] 0.5671642

看到58例本来没病，被误诊为有病；116例本来是有病，被误诊为无病。这两类错判的意义不同，成本可能也是不一样的。本着宁可错杀不可放过的思路，可以在建模函数中增加成本矩阵的参数设置，将未诊断出有病的成本增加到5倍，这样使模型的特异度增加到0.96，但牺牲了灵敏度，而且总体准确率也下降了。

> rpartmodel <- rpart(class~., data = procdata,
                      control = rpart.control(cp=0.01),
                      parms = list(loss=matrix(c(0,5,1,0),2)))
> pre <- predict(rpartmodel, procdata, type = 'class')
> pretable <- table(pre, procdata$class)
> (accuracy <- sum(diag(pretable))/sum(pretable))
[1] 0.6914062
> pretable[1,1]/sum(pretable[, 1])
[1] 0.55
> pretable[2,2]/sum(pretable[, 2])
[1] 0.9552239

注意既用它训练，又用它进行预测，这容易导致过度拟合（overfit），往往会高估模型的准确性。

处理过度拟合的思路：
其一是保留数据，例如多重交叉检验；
其二是用正则化方法对模型的复杂度进行约束，例如岭回归（ridge regression）和套索方法（LASSO）

衡量模型效果最常用的方法是多重交叉检验（cross-validation）。以十重交叉检验为例，将数据随机分为十组，第一次训练对象是1~9组，检验对象是第10组，第二次训练是2~10组，检验对象第1组，然后依次轮换。如果还需要调参，一种典型的做法就是先将数据划分为训练集合检验集。训练集中用多重交叉检验来选择调校模型，参数确定后使用整体训练集得到最终模型，再用检验集来观察判断最终模型的效果。

这里使用准确率为度量指标，将数据切分为十份，使用循环分别建模10次，观察结果。

num <- sample(1:10, nrow(procdata), replace = T)
res <- array(0, dim = c(2,2,10))
n <- ncol(procdata)
for (i in 1:10) {
    train <- procdata[num!=i,]
    test <- procdata[num==i,]
    model <- rpart(class~., data = train,
                   control = rpart.control(cp=0.1))
    pre <- predict(model, test[, -n], type = 'class')
    res[,,i] <- as.matrix(table(pre,test[, n]))
}

table <- apply(res, MARGIN=c(1,2),sum)
sum(diag(table))/sum(table)

经过10重交叉检验，可以认为消除了单次建模的偶然性，那么模型的准确率实际上应该是0.75，可见和之前的0.86有较大差距。
也可以直接用caret包的train函数来建模并自动实施10重交叉检验。给定一个参数，进行一次10重交叉检验会得到一个模型的结果，我们输入10个不同的CP参数，分别进行交叉检验可以得到10个对应的结果。

library(e1071)
table <- apply(res, MARGIN=c(1,2),sum)
sum(diag(table))/sum(table)

fitcontrol <- trainControl(method = 'repeatedcv',
                       number = 10, repeats = 3)
tunedf <- data.frame(.cp = seq(0.001, 0.1, length = 10))
treemodel <- train(x = procdata[, -9], y = procdata[, 9],
               method = 'rpart', trControl = fitcontrol, tuneGrid = tunedf)

plot(treemodel)

先使用trainControl设置检验的控制参数，确定为10重交叉检验，反复进行3次。目的是为了减少模型评价的不稳定性，这样得到30次检验结果。在参数调校中，确定CP参数从0.001开始，到0.1结束。训练时使用模型为rpart建模函数。用10个不同的参数来进行交叉检验。

如图，可以看到，CP参数在0.045附近可以得到最优的预测准确率，我们可以用这个参数对整个训练集或者是对未来的新数据进行预测。caret包中的predict.train函数会自动选择最优参数，并对整个训练集进行一次预测。

贝叶斯分类

朴素贝叶斯分类（naive bayes classifier）是一种简单而容易理解的分类方法，看起来很朴素，但用起来却很有效。背后的原理就是贝叶斯定理，即先赋予目标变量一个先验概率，再根据数据中的新的信息，对先验概率进行更新，从而得到后验概率。

klaR包中的NaiveBayes函数，该函数可以输入先验概率，另外在正态分布基础上增加了核平滑密度函数。为了避免过度拟合，在训练时还要将数据分割进行多重检验，所以还要使用carat包的一些函数进行配合。

NaiveBayes最重要的两个参数：
usekernel: 确定是否使用核密度平滑，如果选择否，则使用正态分布。
fL: 设置平滑系数，这是为了防止某个后验概率计算为0的结果。

我们使用该函数建模并通过图形查看变量glucose的影响：

library(klaR)
nbmodel <- NaiveBayes(class~., data = procdata,
                  usekernel = FALSE, fL = 1)
plot(nbmodel, vars = 'glucose', legendplot = T)

从图可以观察到不同变量对于因变量的影响，例如葡萄糖浓度越高，患病概率越大。

我们可以直接使用caret包来实施朴素贝叶斯分类，并进行多重交叉检验：

fitcontrol <- trainControl(method = 'repeatedcv',
                       number = 10, repeats = 3)
nbmodel <- train(x = procdata[, -9], y = procdata[, 9],
             method = 'nb', trControl = fitcontrol,
             tuneGrid = data.frame(.fL = 1, .usekernel = TRUE, adjust = T))
densityplot(nbmodel)

经过三次10重交叉检验，可以看到，其准确率在0.75左右，用户也可以使用nbmodel$resample调出具体结果数据。

最邻近分类（kth Nearest Neighbor）KNN

如果我们已经拥有一些已知类别的数据，要对一些未知类别的数据进行分类，基本思路就是将数据看作实在多元空间中的点。先计算未知点的类别。例如设k为3，对某个未知点找出其周围最近的三个已知点，如果这三个点有两个属于A类，一个属于B类，那么根据多数原则，将未知点的类别预测为A类。

**优势：**KNN算法的优势在于算法简单，稳健性强，可以构成非线性的判别边界，模型参数简单，只有距离测度和k参数。其弱点在于计算量较大，对异常点和不平衡数据都较为敏感。

class包的knn函数可以实行基本的KNN算法，其参数即是近邻个数k。
使用caret包来调校参数，找出最优的k值：

library(caret)
fitcontrol <- trainControl(method = 'repeatedcv',
                       number = 10, repeats = 3)
tunedf <- data.frame(.k = seq(3,20,by=2))
knnmodel <- train(x = procdata[, -9], y = procdata[, 9],
              method = 'knn', trControl = fitcontrol,
              tuneGrid = tunedf)
plot(knnmodel)

由图可见，K取13的时候，模型预测准确率最高。

对于KNN算法，R语言中另外还有一个kknn包值得关注，它对于基本的knn函数有很大程度的扩展。他可以结合核函数，利用距离进行加权计算。

神经网络分类

BP神经网络分类是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。
BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。
BP神经网络模型拓扑结构包括输入层、隐层（hide layer）和输出层。对于分类问题，BP神经网络类似于集合了多个logistic回归函数，每个神经元都由一个函数负责计算，前面一层函数的输出将成为后面一层函数的输入。

nnet包可以实现BP神经网络分类算法，其中的重要参数有：

size： 隐层神经元个数，数字越大模型越复杂。
decay： 学习速率，是为了避免过度拟合问题，这个值一般在0到0.1之间。
linout： 隐层到输出层的函数形式，若是回归问题则设置为TRUE，表示线性输出，若是分类问题则设置为FALSE，表示非线性输出。

caret包中的avNNet函数对nnet包有所改进，它使用同一个BP神经网络模型，而是用不同的初始随机种子，最后预测时进行综合预测。这样可以一定程度上避免模型训练时陷入局部最优解。

library(caret)

fitcontrol <- trainControl(method = 'repeatedcv',
                       number = 10, repeats = 3)
tunedf <- expand.grid(.decay=0.1, .size = 5:10, .bag = TRUE)
nnetmodel <- train(class~., data = procdata,
               method = 'avNNet',trControl = fitcontrol,
               trace = FALSE, linout = FALSE, tuneGrid = tunedf)
plot(nnetmodel)

上面我们控制decay参数为常值，这是为了避免调校参数过多，计算时间过长。上面的结果显示BP神经网络模型的参数在隐层神经元为6个时，准确率最高。

BP神经网络的特点是可以拟合任何一种函数，容易陷入局部极值，导致过度拟合，而且计算量大。一种解决方法是在数据预处理时使用PCA，在train函数的method中使用pcaNNet即可直接实施基于PCA的神经网络。但它可以处理冗余变量，因为冗余变量的权重在学习训练中会变得很小。

支持向量机分类

支持向量机（Support Vector Machine， SVM）是以统计学理论为基础，它不仅结构简单，而且技术性能明显提高。理解SVM有四个关键概念：分离超平面、最大边缘超平面、软边缘、核函数。

分离超平面（separation hyperplane）：处理分类问题的时候需要一个决策边界，好像楚河汉界一样，在界这边我们判别A，在界那边我们判别B。这种决策边界将两类事物相分离，而线性的决策边界就是分离超平面。

最大边缘超平面（maximal margin hyperplane）：分离超平面可以有很多个，SVM的作法是找一个“最中间”的。换句话说，就是这个平面要尽量和两边保持距离，以留足余量，减小泛化误差，保证稳健性。在数学上找到这个最大边缘超平面的方法是一个二次规划问题。

软边缘（soft margin）：但很多情况下样本点不会乖乖地分开两边站好，都是“你中有我，我中有你“的混沌状态。不大可能用一个平面完美分离两个类别。在线性不可分的情况下就要考虑软边缘了。软边缘可以破例允许个别样本跑到其他类别的地盘上去。但要使用参数来权衡两端，一个是要保持最大边缘的分离，另一个要使这种破例不能太离谱。这种参数就是对错误分类的惩罚程度C。

核函数（kernel function）： 为了解决完美分离的问题，SVM还提出一种思路，就是将原始数据映射到高维空间去，直觉上可以感觉高维空间中的数据变得稀疏，有利于分清“敌我”。那么映射的方法就是使用“核函数”。如果这种“核技术”选择得当，高维空间中的数据就变得容易线性分离了。
而且可以证明，总是存在一种核函数能将数据集映射成可分离的高维数据。但是映射到高维空间中并非是有百利而无一害的，维数过高的害处就是出现过度拟合。

所以选择合适的核函数以及软边缘参数C就是训练SVM的重要因素。一般来讲，核函数越复杂，模型越偏向于拟合过度，反之则拟合不足。实践中仍然是使用我们常用的交叉检验来确定参数。

常用的核函数有如下种类：

Linear：线性核函数，使用它的花就称为线性向量机，效果基本等价于Logistic回归。但它可以处理变量极多的情况，例如文本挖掘。
polynomial：多项式核函数，适用于图像处理问题。
Radial basis：高斯核函数，最流行易用的选择。参数包括了sigma，其值若设置过小，会有过度拟合出现，但这个参数也可以自动计算出最优值。
sigmoid：反曲核函数，多用于神经网络的激活函数。

R语言中可以用e1071包中的svm函数建模，而另一个kernlab包中则包括了更多的核方法函数，我们主要使用其中的ksvm函数，来说明参数C的作用和核函数的选择。
我们使用人为构造的一个线性不可分割的数据集LMdata作为例子，该数据包含在rinds包中，专门用来测试SVM的算法。首先使用线性核函数来建模，其参数C取值为0.1：

data(LMdata, package = 'rinds')
library(kernlab)
model1 <- ksvm(y~., data = LMdata$SVM,
           kernel = 'vanilladot', C = 0.1)

用图形来观察建模结果，下图是根据线性SVM得到个样本的判别值等高线图（判别值decision value相当于Logistic回归中的X，X取0时为决策边界）。可以清楚地看到决策边界为线性，中间的决策边缘显示为白色区域，有相当多的样本落入此区域。

plot(model1, data = LMdata$SVM)

下面为了更好的拟合，我们加大了C的取值，如下图。可以预料到，当加大C参数后决策边缘缩窄，也使误差减小，但仍有个别样本未被正确的分类。

然后我们换用高斯核函数，这样得到了非线性决策边界。所有样本都得到了正确的分类。如下图

model3 <- ksvm(y~., data = LMdata$SVM, kernel = 'rbfdot', C = 1)
plot(model3, data = LMdata$SVM)

在实际的应用中，为了寻找最优参数我们用caret包来配合建模，如同前文介绍的那样，我们仍然使用多重交叉检验来评价模型，最终通过图形来展示参数和准确率之间的关系：

fitcontrol <- trainControl(method = 'repeatedcv',
                       number = 10, repeats = 3)
tunedf <- data.frame(.C=seq(0,1,length = 11))
svmmodel <- train(class~., data = procdata,
              method = 'svmRadialCost', trControl = fitcontrol, 
              tuneGrid = tunedf)
plot(svmmodel)

由上图可见，在C参数取值为0.4？时，模型得到最佳准确率。

SVM的特点在于他可以发现全局最优解，这不同于决策树或神经网络模型。他可以用参数来控制过度拟合问题，并通过选择核函数来处理不同的问题。当数据变量较多时，可以先尝试用线性核，例如在生物信息和文本挖掘方面。当变量较少时，可以考虑优先使用高斯核。

集成学习与随机森林

之前谈到的都是使用单个模型的训练和预测，能否将单个模型组合起来构成更为强大的预测系统呢？这正是近年来出现的集成学习（ensemble learning） 的思路。集成学习是试图通过连续调用单个学习算法，获得不同的模型，然后根据规则组合这些模型来解决同一个问题，可以显著地提高学习系统的泛化能力。
组合多个模型预测结果主要采用加权平均或投票的方法。在这里我们介绍最常用的集成学习算法 - 随机森林。

随机森林（Random Forest）是传统决策树方法的扩展，将多个决策树进行组合来提高预测精度。随机森林利用分类回归树作为其基本组成单元，也可称之为基学习器或是子模型。

随机森林计算步骤是，从原始训练样本中随机又放回地抽出N个样本；从解释变量中随机抽出M个变量；依据上述得到的子集实施CART方法（无需剪枝），从而形成一个单独的决策树；重复上面步骤X次，就构建了有X棵树的随机森林模型。在对新数据进行预测分类时，由X棵树分别预测，以投票方式综合最终结果。

R语言中的randomForest包可以实施随机森林算法，其重要参数有两个，一个是mtry，表示在抽取变量时的抽取数目M。另一个是迭代次数，即森林中决策树的数目ntree，一般缺省的mtry是全部变量数的开方数，ntree是500.从下面的结果看到参数mtry的最佳值是6。

library(caret)
library(randomForest)
fitcontrol <- trainControl(method = 'repeatedcv',
                       number = 10, repeats = 3)
rfmodel <- train(class~., data = procdata,
             method = 'rf', trControl = fitcontrol,
             tuneLength = 5)

除了能用于回归分类之外，它还可以提供一些其他很有价值的功能。例如判断变量的重要程度。由于决策树是根据不同变量来分割数据，所以一棵树中能进行正确划分的变量就是最重要的变量。随机森林可以根据置换划分变量对分类误差的影响，来判断哪些变量是比较重要的。

这个功能非常实用，特别在处理变量极多的数据集时，可以用它来作为变量选择的过滤器，然后再使用其他分类方法。randomForest包中的importance函数能返回各变量的重要程度，varImpplot函数可以用图形方式加以展现。partialPlot函数则能呈现变量的偏效应。rfcv函数用来得到最优的变量数目。

varImpPlot（rfmodel$finalModel）

partialPlot(rfmodel$finalModel, procdata[, -9],
        'mass', which.class = 'pos')

从上两图可以观察到，glucose是影响糖尿病发生最重要的变量，而随着体重mass增加，患病风险也在增加。
随机森林的特点是准确率高、不会形成过拟合；速度快，能够处理大量数据，方便并行化处理；能处理很高维度的数据，不用做特征选择。

你可能感兴趣的:(机器学习笔记)

【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
【机器学习笔记Ⅰ】10 特征工程
特征工程（FeatureEngineering）详解特征工程是机器学习和数据科学中的核心环节，旨在通过对原始数据的转换、组合和提取，构建更适合模型的高质量特征。其质量直接决定模型性能上限（“数据和特征决定了模型的上限，而算法只是逼近这个上限”）。1.特征工程的核心目标提升模型性能：增强特征与目标变量的相关性。降低计算成本：减少冗余特征，加速训练。改善泛化能力：避免过拟合，提高鲁棒性。2.特征工程的
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
【机器学习笔记 Ⅱ】9 模型评估巴伦是只猫机器学习机器学习笔记人工智能
评估机器学习模型是确保其在实际应用中有效性和可靠性的关键步骤。以下是系统化的评估方法，涵盖分类、回归、聚类等任务的评估指标和技术：一、分类模型评估1.基础指标2.高级指标ROC-AUC：通过绘制真正例率（TPR）vs假正例率（FPR）曲线下面积评估模型整体性能。AUC=1：完美分类；AUC=0.5：随机猜测。适用于二分类及多分类（OvR或OvO策略）。混淆矩阵：可视化模型在各类别上的具体错误（如将
【机器学习笔记 Ⅱ】7 多类分类巴伦是只猫机器学习机器学习笔记分类
1.多类分类（Multi-classClassification）定义多类分类是指目标变量（标签）有超过两个类别的分类任务。例如：手写数字识别：10个类别（0~9）。图像分类：区分猫、狗、鸟等。新闻主题分类：政治、经济、体育等。特点互斥性：每个样本仅属于一个类别（区别于多标签分类）。输出要求：模型需输出每个类别的概率分布，且概率之和为1。实现方式One-vs-Rest(OvR)：训练K个二分类器（
【机器学习笔记 Ⅱ】4 神经网络中的推理
推理（Inference）是神经网络在训练完成后利用学到的参数对新数据进行预测的过程。与训练阶段不同，推理阶段不计算梯度也不更新权重，仅执行前向传播。以下是其实现原理和代码示例的完整解析：1.推理的核心步骤加载训练好的模型参数（权重和偏置）。前向传播：输入数据逐层计算，得到输出。后处理：根据任务类型解析输出（如分类取概率最大值，回归直接输出）。2.代码实现（Python+NumPy）(1)定义模型
【机器学习笔记 Ⅲ】3 异常检测算法巴伦是只猫机器学习机器学习笔记算法
异常检测算法（AnomalyDetection）详解异常检测是识别数据中显著偏离正常模式的样本（离群点）的技术，广泛应用于欺诈检测、故障诊断、网络安全等领域。以下是系统化的解析：1.异常类型类型描述示例点异常单个样本明显异常信用卡交易中的天价消费上下文异常在特定上下文中异常（如时间序列）夏季气温突降至零下集体异常一组相关样本联合表现为异常网络流量中突然的DDOS攻击流量2.常用算法(1)基于统计的
【机器学习笔记 Ⅲ】4 特征选择巴伦是只猫机器学习机器学习笔记人工智能
特征选择（FeatureSelection）系统指南特征选择是机器学习中优化模型性能的关键步骤，通过筛选最相关、信息量最大的特征，提高模型精度、降低过拟合风险并加速训练。以下是完整的特征选择方法论：1.特征选择的核心目标提升模型性能：去除噪声和冗余特征，增强泛化能力。降低计算成本：减少训练和预测时间。增强可解释性：简化模型，便于业务理解。2.特征选择方法分类(1)过滤法（FilterMethods
机器学习笔记二-回归
回归是统计学和机器学习中的一种基本方法，用于建模变量之间的关系，特别是用一个或多个自变量（输入变量）来预测一个因变量（输出变量）的值。回归分析广泛应用于预测、趋势分析和关联研究中。根据目标和数据的性质，可以使用不同类型的回归方法。1.回归的基本概念：自变量（IndependentVariable）:也称为预测变量、解释变量，是模型中的输入变量，用于预测或解释因变量的变化。因变量（Dependent
【机器学习笔记 Ⅱ】11 决策树模型巴伦是只猫机器学习机器学习笔记决策树
决策树模型（DecisionTree）详解决策树是一种树形结构的监督学习模型，通过一系列规则对数据进行分类或回归。其核心思想是模仿人类决策过程，通过不断提问（基于特征划分）逐步逼近答案。1.核心概念节点类型：根节点：起始问题（最佳特征划分点）。内部节点：中间决策步骤（特征判断）。叶节点：最终预测结果（类别或数值）。分支：对应特征的取值或条件判断（如“年龄≥30？”）。2.构建决策树的关键步骤(1)
【机器学习笔记 Ⅱ】10 完整周期
机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标：明确业务需求与机器学习任务的匹配性。关键问题：这是分类、回归、聚类还是强化学习问题？成功的标准是什么？（如准确率>90%、降低10%成本）输出：项目目标文档（含评估指标）。2.数据收集（DataC
【机器学习笔记Ⅰ】13 正则化代价函数
正则化代价函数（RegularizedCostFunction）详解正则化代价函数是机器学习中用于防止模型过拟合的核心技术，通过在原始代价函数中添加惩罚项，约束模型参数的大小，从而提高泛化能力。以下是系统化的解析：1.为什么需要正则化？过拟合问题：当模型过于复杂（如高阶多项式回归、深度神经网络）时，可能完美拟合训练数据但泛化性能差。解决方案：在代价函数中增加对参数的惩罚，抑制不重要的特征权重。2.
【机器学习笔记Ⅰ】6 多类特征巴伦是只猫机器学习机器学习笔记人工智能
多类特征（Multi-classFeatures）详解多类特征是指一个特征（变量）可以取多个离散的类别值，且这些类别之间没有内在的顺序关系。这类特征是机器学习中常见的数据类型，尤其在分类和回归问题中需要特殊处理。1.核心概念(1)什么是多类特征？定义：特征是离散的、有限的类别，且类别之间无大小或顺序关系。示例：颜色：红、绿、蓝（无顺序）。城市：北京、上海、广州（无数学意义的大小关系）。动物类别：猫
机器学习笔记——支持向量机 star_and_sun 机器学习笔记支持向量机
支持向量机参数模型对分布需要假设（这也是与非参数模型的区别之一）间隔最大化，形式转化为凸二次规划问题最大化间隔间隔最大化是意思：对训练集有着充分大的确信度来分类训练数据，最难以分的点也有足够大的信度将其分开间隔最大化的分离超平面的的求解怎么求呢？最终的方法如下1.线性可分的支持向量机的优化目标其实就是找得到分离的的超平面求得参数w和b的值就可以了注意，最大间隔分离超平面是唯一的，间隔叫硬间隔1.1
【机器学习笔记Ⅰ】7 向量化巴伦是只猫机器学习机器学习笔记人工智能
向量化（Vectorization）详解向量化是将数据或操作转换为向量（或矩阵）形式，并利用并行计算高效处理的技术。它是机器学习和数值计算中的核心优化手段，能显著提升代码运行效率（尤其在Python中避免显式循环）。1.为什么需要向量化？(1)传统循环的缺陷低效：Python的for循环逐元素操作，速度慢。代码冗长：需手动处理每个元素。示例：计算两个数组的点积（非向量化）a=[1,2,3]b=[4
机器学习笔记：MATLAB实践 techDM 机器学习笔记 matlab Matlab
在机器学习领域，MATLAB是一种功能强大且广泛使用的工具，它提供了许多内置函数和工具箱，方便开发者进行各种机器学习任务。本文将介绍一些常见的机器学习任务，并提供相应的MATLAB源代码示例。数据预处理在进行机器学习之前，通常需要对原始数据进行预处理。这包括数据清洗、特征选择、特征缩放和数据划分等步骤。%导入数据data=readmatrix('data.csv');%数据清洗cleaned_da
机器学习笔记【Week9】 kuiini 人工智能机器学习人工智能
一、异常检测问题动机在现实中，我们经常会遇到“异常检测”的任务：识别罕见、异常、不符合正常模式的数据点。例：工业设备故障检测，银行欺诈识别，异常流量检测等。核心特点：异常样本稀少，难以用监督学习训练模型。二、高斯分布建立算法前，需要假设每个特征满足高斯（正态）分布。在单一特征xjx_jxj上：p(xj;μj,σj2)=12π σjexp⁡(−(xj−μj)22σj2)p(x_j;\mu_j,\si
吴恩达机器学习笔记（1）—引言大饼酥人工智能机器学习人工智能吴恩达
目录一、欢迎二、机器学习是什么三、监督学习四、无监督学习一、欢迎机器学习是当前信息技术领域中最令人兴奋的方向之一。在这门课程中，你不仅会学习机器学习的前沿知识，还将亲手实现相关算法，从而深入理解其内部机理。事实上，机器学习已广泛渗透进我们的日常生活。例如，每次你使用Google、Bing进行搜索，或用Facebook、Apple的图像识别功能识别朋友，甚至邮箱中的垃圾邮件过滤器，背后都离不开机器学
斯坦福CS229机器学习笔记-Lecture2-线性回归+梯度下降+正规方程组 Teeyohuang 机器学习 CS229-吴恩达机器学习笔记 CS229 吴恩达机器学习
声明：此系列博文根据斯坦福CS229课程，吴恩达主讲所写，为本人自学笔记，写成博客分享出来博文中部分图片和公式都来源于CS229官方notes。CS229的视频和讲义均为互联网公开资源Lecture2这一节主要讲的是三个部分的内容：·LinearRegression（线性回归）·GradientDescent（梯度下降）·NormalEquations（正规方程组）1、线性回归首先给了一个例子，如
机器学习笔记周志华第一章绪论 Olivia_ll learning note machine learning machine learning
概念和术语属性空间（attributespace)/样本空间（samplespace)/输入空间：属性张成的空间特征向量（featurevector):一个示例标记（label):关于示例结果的信息样例（example)：拥有了标记信息的示例标记空间（labelspace)/输出空间：所有标记的集合监督学习（supervisedlearning)分类（classification)——预测离散值回
机器学习笔记【Week6】 kuiini 人工智能机器学习人工智能
一、模型结果下一步训练模型得到结果后，常面临：模型性能不理想，下一步如何改进？通过对训练误差和验证误差的观察，判断是高偏差（欠拟合）还是高方差（过拟合）。一般步骤：计算训练误差和验证误差，不包含正则项。判断两者的大小和差距。根据判断选择策略：情况训练误差验证误差结论改进方向欠拟合（高偏差）高高模型能力不足增加特征，减小正则化过拟合（高方差）低高泛化能力差增加训练数据，增加正则化二、评估假设的误差训
机器学习笔记：时域和频域变换灰暗世界% 机器学习笔记机器学习笔记人工智能
加窗操作使用内置的STFT/ISTFT接口这种方法利用torch.stft（内部采用rfft）和torch.istft完成变换，同时借助加窗（例如Hann窗）保证帧内加窗并采用重叠相加（常用50%重叠）实现完美重构。窗口长度可以灵活设置，例如64或32。这种方式利用了PyTorch内置的STFT与ISTFT函数，它们内部使用了rfft/irfft，同时支持加窗并且能够保证重构出的信号长度与输入一致
机器学习笔记——特征工程好评笔记机器学习人工智能深度学习 AIGC 算法岗校招实习
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。文章目录特征工程（FzeatureEngineering）1.特征提取（FeatureExtraction）手工特征提取（ManualFeatureExtraction）：自动特征提取（AutomatedFeatureExtraction）：2.特征选择
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 深度学习人工智能计算机视觉机器学习 transformer 论文阅读
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
Meta的AIGC视频生成模型——Emu Video 好评笔记 AIGC 深度学习人工智能机器学习 transformer 校招面试八股
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
Python机器学习笔记（二十五、算法链与管道） FreedomLeo1 Python机器学习机器学习算法 python make_pipeline Pipeline named_steps属性
对于许多机器学习算法，特定数据表示非常重要。首先对数据进行缩放，然后手动合并特征，再利用无监督机器学习来学习特征。因此，大多数机器学习应用不仅需要应用单个算法，而且还需要将许多不同的处理步骤和机器学习模型链接在一起。Pipeline类可以用来简化构建变换和模型链的过程。将Pipeline和GridSearchCV结合起来，可以同时搜索所有处理步骤中的参数。举例：使用MinMaxScaler对can
Python机器学习笔记（二十三模型评估与改进-网格搜索） FreedomLeo1 Python机器学习机器学习 python 支持向量机交叉验证网格搜索 scikit-learn
上一次学习了评估一个模型的泛化能力，现在继续学习通过调参来提升模型的泛化性能。scikit-learn中许多算法的参数设置，在尝试调参之前，重要的是要理解参数的含义。找到一个模型的重要参数（提供最佳泛化性能的参数）的取值是一项棘手的任务，但对于几乎所有模型和数据集来说都是必要的。scikit-learn中有一些标准方法可以帮我们完成调参。最常用的方法就是网格搜索（gridsearch），它主要是指
吴恩达机器学习笔记：特征与多项式回归ちゆきー机器学习笔记回归
1.特征和多项式回归如房价预测问题，ℎθ(x)=θ0+θ1×frontage+θ2×deptℎx1=frontage（临街宽度），x2=deptℎ（纵向深度），x=frontage∗deptℎ=area（面积），则：hθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1xhθ(x)=θ0+θ1x线性回归并不适用于所有数据，有时我们需要曲线来适应我们的数据，比如一个二次方
吴恩达机器学习笔记：多维梯度下降实践ちゆきー机器学习笔记计算机视觉
1.特征放缩在我们面对多维特征问题的时候，我们要保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。以房价问题为例，假设我们使用两个特征，房屋的尺寸和房间的数量，尺寸的值为0-2000平方英尺，而房间数量的值则是0-5，以两个参数分别为横纵坐标，绘制代价函数的等高线图能看出图像会显得很扁，梯度下降算法需要非常多次的迭代才能收敛。解决的方法是尝试将所有特征的尺度都尽量缩放到-1到1之间。如
吴恩达机器学习笔记：监督学习ちゆきー机器学习笔记学习
1.回归我们用一个例子介绍什么是监督学习把正式的定义放在后面介绍。假如说你想预测房价。前阵子，一个学生从波特兰俄勒冈州的研究所收集了一些房价的数据。你把这些数据画出来，看起来是这个样子：横轴表示房子的面积，单位是平方英尺，纵轴表示房价，单位是千美元。那基于这组数据，假如你有一个朋友，他有一套750平方英尺房子，现在他希望把房子卖掉，他想知道这房子能卖多少钱。我们应用学习算法，可以在这组数据中画一条
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR