小飞玩家

吴恩达《机器学习》笔记

写完这个笔记才觉得，太难了，上传图片。怪不得CSDN上有那么多排版乱七八糟的文章，这个排版，太难了！！

机器学习笔记

绪论

1.监督学习：

给算法一个数据集，其中包含了正确结果。算法的目的是为了的出更多正确的结果。

回归问题：预测连续的数值输出。从离散值中找到连续值。更像是推断。

分类问题：设法预测一个离散值的输出。有时可能有多值输出。如其名。

多特征、多属性的机器学习问题。

2.非监督学习

1）聚类算法：

没有标签的数据集的基础上，划分出不同的簇（聚类算法）。

没有提前告知算法。自动找出数据的结构。没有给予数据集的正确结果。

聚类算法应用：服务器集群、社交圈、市场分割、天文数据分析。

2）鸡尾酒算法

分离出被混合在一起的声音。

（Octave推荐、Matlab）

单变量线性回归

1.模型

回归问题：预测问题的结果（离散输出）。

学习算法：提供训练集-》输出学习算法-〉h

如何设定h假设函数。

2.代价函数

如何选择模型参数，在单变量线性回归情况下。

通过代价函数来衡量函数的准确度。

1）平方误差代价函数

J_((θ_0,θ_1))=1/2m ∑_(i=1)^m▒〖(h(x_i)-y_i)〗^2

求出线性关系h_θ (x_i )=θ_0+θ_1 x_i中θ的参数。

结合图像分析假设函数和代价函数之间的关系。引入了等高线图说明图像的三维情况。将0，1作为笛卡尔坐标系坐标。

3.梯度下降法

求最小化函数 J_((θ_0…θ_n))。多个局部最优解。

:= 赋值符号

α 表示学习速率，α 越大下降越快，表示我们更新的速度。

θ_j:=θ_j-α ∂/(∂θ_j ) J_((θ_0,θ_1))

需要实现同步更新。若已在局部最优解，梯度下降法不再进行下一步（原地）。随着梯度下降，下降的尺度会不断减少，知道收敛于最低点。

4.线性回归的梯度下降

弓形一定会下降到最优解。

Batch梯度下降法，每一次都遍历整个训练集。\也存在只遍历子集的下降方法。

线性代数回顾

矩阵表示、矩阵加减法、矩阵向量乘法、矩阵乘法、乘法特征、矩阵逆运算、转制运算。

安装Matlab

多变量线性回归

1.多功能

在多变量（特征）条件下，确定假设函数，的各前置参数。(有点像求拉格朗日乘数法

2.多元梯度下降法

单元与多元梯度下降的对比。

特征缩放

确保所有的特征取值都在一定相似的范围内。通过缩放其范围，方便进行梯度下降更快，且更少迭代。

通常将特征缩放到（-1，1），接近就都可以，也不能选择范围太小的。

均值归一化：u为均值，s为符合特征的最大值。

x_i=(x_i-u_i)/s_i

2）学习率 α

需要测试曲线是否收敛，建议通过图像分析而不是自动测试收敛，因为阈值难以选择。

正常情况或学习率太小收敛图像：

学习率太大情况下：

一般选择时，0.001、0.003、0.01……1 。

3.特征和多项式回归

如何选择函数与数据集进行拟合？根据数据集图像和多项式的特征。存在算法自动选择函数。

4.正规方程法

对于有些线性回归问题，更方便求得 θ的最小化。

θ=〖(X^T X)〗^(-1) X^T y

如果使用正规方程，不需要进行特征缩放。

梯度下降的问题：需要选择学习率，找到学习率；需要更多次数的迭代。对于正规方程法，无需上述两个问题。

梯度下降在大数据集情况下非常有效，而正规方程法需要计算矩阵相乘，在这里需要花费大量的计算代价。

正规方程法在矩阵不可逆情况下的替代方案：首先是很少发生，在matlab上是可以直接计算的。

Matlab教程

eye(n)：生成单位矩阵,n表示阶。

hist(w):形成变量w的直方图。

size(A):矩阵A的行列。size(A,1)：A的行

who：显示内存中所有变量。

load()：加载文件形成矩阵。

clear：清除所有变量。

A(3，2)：第三行第二列。

A(2,:):第二行

A.*B：元素按位相乘。

1./v：求逆

A’：A的转置。

find(A>7)：找到满足条件的元素的位置。

flipd()：垂直翻转矩阵

plot()：绘制图像。

hold on：维持画布。

matlab中，if、while需要end。

Logistic回归

1.分类

不适用线性回归。

logistic回归视为一种分类算法，使得预测值在（0，1）内。

2.假设陈述

logistic函数：假设函数的表示方法。

g(z)=1/(1+e^(-z) )

假设函数：参数向量，乘以特这向量

h_θ (x)=g(θ^T x)

3.决策界限：

假设函数在计算什么？输出y=1的概率。

将上式展开，h_θ (x)=g(θ_0+θ_1 x_1+θ_2 x_2 )

参数向量 θ = [θ_0,θ_1,θ_2]

if h_θ (x) >= 0，predict “y=1”.

在图像上，将表示为一块区域，这一区域通过直线（决策边界）来划分。

决策边界是假设函数的一个属性，决定于其参数，而非决定于数据集。

通过在特征中增加复杂的多项式，可以得出更加复杂的决策界限。

4.代价函数（优化目标）

如何拟合logistic回归。

输出预测值hx，而实际为y时的情况。

如果使用线性回归的计算方法，会得到非凸函数，无法适用梯度下降法。

if y=1：

如果预测值和实际值不同，即〖 h〗_θ (x) 趋于0情况下，意味着将付出极高的代价，来惩罚这一模型。

if y=0：

5.简化代价函数与梯度下降

原函数：

第一步简化后：

〖Cost(h〗_θ (x),y)=-ylog(h_θ (x))-(1-y)log⁡(h_θ (x))

因此代价函数就可以变为：（极大似然法）

（通过梯度下降法，得出代价函数的最小值。）

梯度下降在线性回归中和logistic回归中，具有相同的式子，但是其假设函数 h_θ (x) 所代表的意义不同，因此不同。

特征缩放适用于logistic回归情况。

6.高级优化

高级数值计算，包括共轭梯度法、BFGS和L-BFGS等方法。

优点：1.自动计算学习率a；2.比梯度下降法收敛速度更快

缺点：太过于复杂。

为了解决大型的机器学习问题时，采用高级优化。

7．多元分类

（邮件分类、诊断病情、判断天气）

将问题划分为多个二分类问题。各自训练一个标准的逻辑回归分类器。

正则化

在目标函数后面添加一个系数的“惩罚项”是正则化的常用方式，为了防止系数过大从而让模型变得复杂。L^1正则化通过让原目标函数加上了所有特征系数绝对值的和来实现正则化，适用于特征选择；而L^2 正则化通过让原目标函数加上了所有特征系数的平方和来实现正则化，适用于防止模型过拟合。

1.过拟合问题

因为假设函数太过于符合数据集的分布，（千方百计的拟合数据集，以至于无法解决泛化的问题。）导致失去其预测能力的情况。如上图中图三所示。

解决问题：1.人工选择数据集中的特征（后期特征选择算法） 2.正则化，保留特征变量，但是减少量级、或者theda的大小。

（后期使用工具来解决过拟合或者欠拟合问题

2.代价函数

如果参数值较小，就意味着一个更简单的参数模型。对参数加入惩罚项，因而简化整个式子。惩罚从θ_1开始，不考虑θ_0。

通过正则化项部分，使得函数以更加合理的姿态拟合数据，在图像上表现为，更加的平滑。

后部分⋋表示为正则化参数，决定了参数的惩罚程度。防止出现欠拟合情况。

3.线性回归的正则化

对于线性回归内的两个算法，进行正则化。

惩罚从θ_1开始，不考虑θ_0。

1）梯度下降法

2）正规方程法

4.logistic回归的正则化

对梯度下降法和高级优化法进行正则化。

梯度下降的正则化流程如线性回归所示，但是假设函数所代表的意义不同。

我们通过代价函数的最小值，来找到假设函数当中theda参数的适合值。而梯度下降等算法，是用于找到最小值所采用的方法。

神经网络学习

1.非线性假设

研究神经网络学习的目的？（在有线性回归和逻辑回归的基础上，为什么还要研究）

实际机器学习问题中，往往具有很多特征，采用回归方法，首先计算要求大、同时还容易出现过拟合现象。

2.神经元与大脑

用于解决特征数量n过大的情况。

将大脑的学习过程，看作一个算法概念的过程。比如通过传感器直接刺激大脑，大脑就会学会使用外部的链接设备。（给蛙移植第三只眼，就会学会使用）

3.模型分析

在运用神经网络时，我们如何表示自己的假设模型？

将神经元模拟成逻辑单元。我们通过传入通道，输入一些信息，由神经元计算后输出。（输出为假设函数）

有时候加入x0，叫做偏置单元，有时候可以方便模型。

在部分神经网络文献中，认为theda是特征的权重。三层网络。输入层/隐藏层/输出层。下图。

神经网络究竟在做什么？

第一层得第二层、第二层得第三层。

通过上述方程，计算出三个隐藏单元的激活值。然后利用这些值，计算输出假设函数。

模型说明了，神经网络的向前传播（正向传播）。

下图说明将上述方程，向量化。

不是使用传统x_1,x_2,x_3的作为特征，而是利用a_1,a_2,a_3来做为特征计算的logistic回归。自己训练逻辑回归参数a_j ,来作为假设函数的分析。如果从第二层往后看，其实这一神经网络模型实际上是逻辑回归算法。

具有更加复杂的特征计算方法，因此可以形成更加复杂的非线性假设函数。

神经网络架构，就是不同的神经元连接方式。（更多的层、每层不同的单元等）

4.例子

实际一个复杂的机器学习问题，可以理解为，学习一个非线性的判断边界，来区分所有的正负样本。

说明了神经元是如何实现逻辑运算的，包括AND函数、OR函数等。主要还是看theda（权重值）的取值。

多个简单的网络和整了一个复杂的神经网络。下图中，说明了实现XNOR函数。

手写数字识别的例子。

一层又一层计算出更为复杂的特征，最终用于构建逻辑回归分类器。

5.多元分类

本质上是一对多方法的拓展。

建立具有多个输出单元的神经网络结构，不同的输出单元代表是否符合某一特征要求0/1，利用特征向量整合输出结果，分析。

神经网络参数的反向传播算法

1.代价函数

神经网络的代价函数，考虑的是，多个输出单元情况的。

不将偏差值正则化。

2.反向传播算法

用于求的最小化的代价函数，指从输出层返回计算δ的过程。

前向转播过程：计算每个神经单元的激活值

δ_j^((l))代表了第l层第j个单元的误差值，α_j^((l)) 代表了第l层第j个单元的激活值。有

δ_j^((l))=α_j^((l))-y_j

3.理解反向传播（？）

上图表示各层delta的计算方式，以及delta其实表达的是cost函数的偏导数。

4.梯度检测

反向传播算法容易产生错误，但运行情况很好。

利用梯度检测来检测前向传播和反向传播算法的正确性。

双侧差分或单侧查分来计算代价函数的偏导数值。

（在实际使用神经网络算法时，要关闭梯度检测，梯度检测将会利用大量的计算。

5.随机初始化

在进行算法计算前，为theta选取一些初始值。

初始化为0：进行梯度下降后，每条线的权重，仍然相等，导致算法无法得出有效的结果，阻止了神经网络去学习新的特征。（对称权重问题）

随机(-ε,ε)：

然后再进行代价函数最小化计算。打破对称性的过程。

6.整体回顾

进行神经网络算法流程：

选择一个神经网络架构（几层几单元），随机初始化权重。

输入层的单元数由特征的维度决定，输出层由分类问题的维度决定。如果选择多隐藏层，每个隐藏层具有相同数量的单元。通常情况下隐藏单元越多越好，但需要注意计算量。

执行前向传播算法

利用代码计算出J(θ)

利用方向传播算法计算所有的偏导数值。有些算法会放弃for循环计算，但是第一次计算使用for循环较好。

通过梯度检测检测算法的准确度

使用进一步优化的梯度下降算法，或共轭梯度法等方法，和反向传播相结合计算偏导数的值。

在神经网络算法中应用梯度下降法，反向传播算法的目的就是计算出梯度下降的方向。找到最优的参数值，使得神经网络的输出值，与训练集中观测到的数据拟合。

基于反向传播的神经网络算法得出的无人驾驶汽车。

应用机器学习的建议

1.决定下一步

确保在进行解决机器学习问题时，能够选择有效的方法。

（获取更多的训练数据可能是没有用的、尝试更小的数据集来解决过拟合或者获取更多特征解决欠拟合、增加多项式、增加正则化值）

评价算法和诊断法，确定机器学习系统性能。

2.评估假设

如何评估机器学习得到的假设函数。

将数据随机划分为训练集和测试集（7:3）。

训练集上的结果在测试集上应用。

3.模型选择、训练、验证、测试集

有问题的选择：首先选择一个模型，然后得到第一个参数1，再选择另一个模型，来训练另一个参数2。不断重复，来选择出合适的多项式形式。

考虑到泛化能力的选择：引入训练集/交叉验证集/测试集，6:2:2。首先选择模型计算最小化代价函数，得到参数。利用交叉验证集来来观察在验证集上效果。然后再通过测试集观察最终选择的模型效果。

4.诊断偏差与方差

训练误差可能随数据集的增多而增加，但是会出现过拟合问题。

根据图片分析过拟合和欠拟合问题。

5.正则化和偏差、方差

正则化参数λ的大小，影响假设函数的拟合程度。λ小，高方差，过拟合现象。λ大，高偏差，欠拟合现象。

如何选择λ？

选取一系列λ值0，0.01，0.02，0.04，0.08……等12组模型

然后对每一个模型，计算所有的参数theda值。

用交叉验证集，评价其误差。

选择误差最小的λ，测试其在测试集上的表现。

6.学习曲线

诊断一个学习算法存在方差问题还是偏差问题。

J(θ)指平均误差平方和。J_train (θ)和J_cv (θ)，随着m(training set size)正增加的变化曲线。

高偏差时学习曲线：

使用更多训练数据可能无法使得误差变小，没有意义。

高方差时学习曲线：

注意存在一个巨大的间隔。增加训练数据，可能有效改进机器学习算法的效果。

7.决定接下来做什么

相应方法以及其解决的问题。

小型神经网络的优点是计算规模小但可能发生欠拟合。而大型的神经网络容易出现过拟合现象以及计算量问题。但大型神经网络往往具有更好效果，同时还可以通过正则化来缓解过拟合问题。

机器学习系统设计

1.确定执行的优先级

（邮件分类例子）

如何选择邮件的特征向量。（可以选择100个单词，实际可能用到10k-50k）

2.误差分析

推荐方法：a）从简单的机器学习问题开始，快速开发，在编程过程中，不要急于进行优化。 b）使用学习曲线优化问题 c）误差分析，从分类错误的数据中，更新特征。

设计自己的算法，返回一个数值评价数据，更易于进行优化。

在交叉验证集上进行误差分析

3.不对称性分类的误差评估

正例和负例的比率非常接近于一个极端情况，例子中正样本的数量与负样本的数量相比非常非常少，我们把这种情况叫做偏斜类。

一个类中的样本数与另一个类的数据相比多很多。因此使用分类误差或者分类精确度来作为评估度量可能会产生问题。

引入准确率和召回率，定义如图，以癌症分类为例子。

4.准确率和召回率的权衡

如何设定临界值，使得y=1/y=0。

依据实际问题的需要，对准确率和召回率的注重程度。

如何自动选择临界值？

引入F值。

5.机器学习数据

目的：说明数据训练集大小和特征变量的多少对算法效果有很大关系

在有些条件下，得到大量的数据并在某种类型的学习算法中进行训练，可以是一种有效的方法来获得一个具有良好性能的学习算法。

并不是拥有最好算法的人能成功，而是拥有最多数据的人能成功。

支持向量机

1.优化目标

在学习复杂非线性方程时候。

画一条直线，它和logistic代价函数的曲线非常相似，两端直线组成。它的效果将和logistic回归非常相似，但是支持向量机将拥有计算上的优势，并且使得之后的优化问题变得简单，更容易解决。

和logistic回归不同，SVM并不会输出概率，相对的我们得到的是通过优化这个代价函数，得到一个参数θ，支持向量机所做的是进行了一个直接的预测，预测y = 0/1。下图为其代价函数，以及假设函数形式。

2.直观上对大间隔的理解

最大间距分类器。

将正样本和负样本以最大间距分隔开。忽略异常点，得到分离平面。

3.大间隔分类器的数学原理（？）

对优化目标函数来说，支持向量机做的就是最小化参数向量θ的范数的平方，或者说是长度的平方。

参数向量θ事实上是与决策边界90度正交的，令θ = 0，那么决策边界必须过原点。

支持向量机优化目标函数最终会找到大间距分类器：试图最大化这些p^(i)的范数，也就是训练样本到决策边界的距离。

4.核函数（？）

想你想要得到一个决策边界，划分正负样本，一种方法是使用多项式函数；另一种方法是核函数。

高斯核函数：

σ^2对核函数存在的影响：

可以看出σ^2越大，变化越缓慢，σ^2越小，变化越剧烈。衡量的是特征变量的值减小的速度。

上图就是我们如何定义标记点和核函数来训练出非常复杂的非线性决策边界的方法。我们通过标记点和相似性函数来定义新的特征变量，从而训练复杂的非线性边界。

如何选择标记l^((i) ):

我们拥有的每一个样本点，直接将训练样本作为标记点。

通过解决最小化问题，就得到了支持向量机的参数。这就是支持向量机的学习算法。

大多数支持向量机在实现的时候，其实是替换掉θ^T θ，用θ^T乘以某个矩阵M，这依赖于你采用的核函数，再乘以θ。这其实是另一种略有区别的距离度量方法，我们用一种略有变化的度量来取代θ的模的平方，这意味着我们最小化了一种类似的度量。这是参数向量θ的缩放版本并取决于核函数。这个数学细节，使得支持向量机能够更有效率的运行。为什么支持向量机做这种修改，这可以使它应用更大的数量集。这个具体的实现细节，尽管略微改变了优化目标，但它主要是为了计算效率。

核函数不太好应用到线性回归和逻辑回归上，但是可以和支持向量机相得益彰。

5.使用SVM

提出参数C的选择

选择内核参数核相似函数（无核或者高斯核

不是所有你可能提出来的相似函数都是有效的核函数，高斯核函数、线性核函数以及你有时可能会用到的核函数，这些函数都需要满足一个技术条件，它叫做默塞尔定理。需要满足这个条件的原因是因为支持向量机算法或者SVM的实现函数有许多熟练地数值优化技巧。核函数的其他选择。

逻辑回归为什么和支持向量机放到一起？

因为逻辑回归和不带核函数的支持向量机，它们是非常相似的算法，都会做相似的事情，并给出相似的结果。但是根据实际情况，其中一个可能会比另一个更加有效。但是随着SVM复杂度的增加，当你使用不同的内核函数来学习复杂的非线性函数时，你特征变量的数量是相当大的，那是一个非常常见的体系，也许在这个体系里，带有核函数的支持向量机就会表现的相当突出。

什么时候使用神经网络？

考虑问题的实际。

无监督学习

1.无监督学习

将系列没有特征的数据，输入到算法中，找到数据中的结构。

聚类算法：找到数据集中的簇（cluster）。

2.K-Means算法

自动的算法将数据划分为多个簇。K均值算法。

生成两个点，叫做聚类中心。

移动聚类中心，与其同色的点的平均距离处。

更新点的簇划分，同时计算其余点到聚类中心距离。2）

直到聚类中心不再移动

如果出现了没有点的聚类中心，去除。

即使数据集中的数据不能直观的划分为多个簇，但是K均值算法仍能使其划分。

3.优化目标

帮助对算法进行调试；帮助算法找到更好的聚类中心

找到失真代价函数的最小值。

具体步骤，把变量c和变量u分成两组，首先它会最小化J关于变量c，接着最小化J关于变量u，然后保持迭代。

4.随机初始化

如何使算法避开局部最优，找到聚类中心。

当运行K均值算法时，随机挑选K个训练样本，使得聚类中心就为这几个点。

尝试多次随机初始化，以确保可以避开局部最优。

在聚类数量较少的情况下，多次随机初始化可能带来更明显效果。如果K值很大，那么多次使用K均值算法就不会有太大改善。

5.选取聚类数量

如何选择K的值。

观察可视化图像/观察聚类算法输出结果。

主要还是，手动选择聚类数量。无监督学习的特征，即数据集没有特征，就决定了无法采用自动化的方法解决聚类数量的问题。

肘部法则。畸变函数的值随聚类数量K改变，在拐角选择K值。但实际上肘部法则也不是特别有效，可能无法在图像中，找到正确拐点。如下图。

如果聚类算法的结果可以给你一个评价指标，那么通过观察这一指标，来选择聚类数量。比如衣服的尺码需求，如下图。

降维

第二类无监督学习算法。

1.目标1数据压缩

使数据使用更少的内存和硬盘，同时能加快机器学习算法速度。

就是通过，高维向低维的投影，来进行压缩。

2D->1D:

3D->2D:

2.目标2可视化

降维可以使得数据变得可视化。

3.主成分分析问题规划（？）

PCA（Principal Component Analysis）

PCA会找一个低维平面，然后将数据投影到上面，使蓝色线段的平方最短，这些蓝色线段的长度被称为投影误差。即它会试图寻找一个投影平面对数据进行投影，使得最小化这个距离。

PCA和线性回归的差别：

都是拟合一条直线（一个平面），但是PCA是为了最小化点到线的垂直距离，而线性回归在意的是所指示的y值的准确度（不一定垂直）。

在使用PCA之前，首先要做的是进行数据预处理，执行均值标准化，对数据进行特征缩放（分母sj是特征j的一些测量值（最大值减去最小值），或者是一个特征j的标准偏差）

寻找最小化投影距离的向量：下面三张ppt说明整个降维的数学计算流程。

计算协方差Σ。在Octave中采用svd（）将协方差矩阵sigma分解为USV。

提取出想要投影的数据方向，k个向量。计算z^i。

计算矩阵的正确向量化公式：

PCA算法是尝试找到一个线或者一个面把数据投影到这个面或者线上以便于最小化平方投影误差。

4.主成分数量选择

如何选择PCA的k值。我们希望在平均均方误差与训练集方差的比例尽可能小的情况下选择尽可能小的k值。

我们可以先令k=1，然后进行主要成分分析，获得Ureduce和z，然后计算比例是否小于1%。如果不是的话再令k=2，如此类推，直到找到可以使得比例小于1%的最小k 值（原因是各个特征之间通常情况存在某种相关性）。

利用S矩阵，来计算平均均方误差与训练集方差的比例。

在压缩过数据后，我们可以采用如下方法来近似地获得原有的特征：

5.压缩重现

回到高维表示，公式如下。

X_approx^((i))=U_reduce Z^((i))

6.应用PCA的建议

使用PCA加速机器学习算法。

PCA所做的是定义一个从x到z的映射，这个映射只能通过在训练集上运行PCA来定义，具体而言，PCA学习的这个映射所做的就是计算一系列参数，进行特征缩放和均值归一化，它还计算Ureduce。在

定义了x到z的映射后，可以将这个映射用在交叉验证集或者测试集上的其他样本上。

PCA的应用：

压缩数据；加速学习算法；（都是选择K：同时需要保留99%的方差）

可视化应用；（降维绘图）

相比于，通过减少数据维度来解决过拟合不是一种很好的方法。使用PCA防止过拟合不合理。

总结：应该首先考虑使用最原始的数据x^((i))，只有这么做不能达到目的的情况下，才考虑使用PCA和z^((i))，因此使用PCA之间，与其考虑减少数据维度，不如考虑放弃PCA这一步，在原始数据上直接训练算法往往是更好的。只有当你的算法运行速度很慢，或内存不足，或硬盘空间太大，因此需要PCA。

异常检测

异常检测问题可以概括为两类：一是对结构化数据的异常检测，二是对非结构化数据的异常检测。

对结构化数据的异常检测的解决思想主要是通过找出与正常数据集差异较大的离群点，把离群点作为异常点。问题：一是需要定义一个清晰的决策边界，界定正常点与异常点；二是维数灾难及交叉指标计算之间的高频计算性能瓶颈。

1.问题动机

建立模型p(x)，将xtest与p(x)进行比较：

2.高斯分布（正态分布）

两个参数，均值u；方差σ^2

u控制钟形曲线的中心位置，σ^2控制钟形曲线的宽度

阴影部分的面积均为1。

参数估计问题：对于给定数据集，能找到能够估算出u和σ平方的值：

极大似然估计：

3.算法

基于高斯分布建立异常检测算法：

我们处理异常检测的方法是：我们要用数据集建立起概率模型，p(x)，我们要试图解决哪些特征量出现的概率比较高，哪些特征量的出现概率比较低，因此x就会是一个向量。x1到xn上的独立假设：

异常算法使用：

1）选择特征量，它能帮我们指出那些反常的样本

2）给出训练集，计算u和σ（向量化公式）

3）计算新样本的p(x)

例子：

如何估计p(x)的值，即x的概率值，检测算法。

即用给定的数据集，拟合了参数，对参数进行评估，来得到参数u和σ的值，然后用新的例子，说明其是否为异常。

4.开发和评估一场检测

实验评估的重要性：它的主要思想是当你为某个应用开发一个学习算法时，设计返回一个评价值，来评估你的算法。

5.异常检测VS监督学习

a）异常检测算法：

正常例子很少

很少的正样本，大量的负样本

明天的异常你预料不到

b）监督学习：

大量的正负样本

关键区别是在异常检测中，我们通常只有很少量的正样本，因此对于一个学习算法而言，它是不可能从这些正样本中学习到足够的知识的。就可以使用大量的负样本，让这个算法学到足够多的内容。实例：

6.选择要使用的功能

选择什么特征来实现异常检测算法。

先完整训练出一个算法，然后在一组交叉验证集上运行算法，然后找出那些预测出错的样本，依据错样本来优化特征选择。

7.多变量高斯分布

多元高斯分布有一些优势也有一些劣势，它可以捕捉到一些之前的算法检测不出来的异常。

∑是一个协方差矩阵，它衡量的是方差，或者说特征变量x1和x2的变化量。

多元高斯分布的优势是能描述两个特征变量之间可能存在正相关或者负相关的情况。

8.使用多变量高斯分布的异常检测

参数估计问题：

如何开发一个异常检测算法？

a）用数据集拟合该模型p(x)，

b）当你有一个新样本后，使用公式计算p(x)，和设定值比较。

多元高斯分布模型和原始模型的关系？

原始模型相比于多元高斯模型，多元高斯模型的轮廓（等高线）总是轴对齐的。所以原始模型只是高斯多元模型的一种特殊情况。

如何在两个模型之间进行选择？

原始模型需要你手动建立特征值之间的关系，而你一旦建立了这种关系，算法就可以运行的很好。多元高斯模型本身就可以识别出这种特征值之间的关系，原始模型的优势就是它的计算成本比较低，换一种说法就是它能适应巨大规模的n，即适应数量巨大的特征。下图表示比较内容

异常检测算法，可以帮助自动的捕捉正样本和负样本各种特征值之间的联系。如果发现某些特征值的组合是异常的，将会标记为异常样本。

推荐系统

1.问题规划

推荐系统是机器学习中的一个重要应用。

预测用户对于没有评分行为的项目的评分。

2.基于内容的推荐算法

每一部电影都可以用一个特征向量来表示。

我们接下来可以把每个用户的评价预测值看作是一个线性回归问题。我们要预测用户j评价电影i的值，也就是向量θ和特征量x^((i))的内积。对每一个用户应用一个不同的线性回归副本，这就是我们预测评价的方法。

我们用m^((j))表示评价了电影j的用户数量。

通过这个机器学习系统，如果把参数θ(j)最小化，就可以得到参数向量θ(j)的估计值。

对所有用户的θ(j)进行求和，并且最小化这个总体优化目标函数，将得到每个用户的参数向量，就可以用这个来对所有用户进行预测。

3.协同过滤

(自行学习所需要使用的特征)

θ(j)向我们指明了它们对不同题材电影的喜欢程度，如果我们能从用户那里得到这些参数的值，我们理论上就能推导出特征的值。

优化问题：

这个推荐系统建立在每位用户都对数个电影进行了评价，并且每部电影都被数位用户评价过的情况下。因此仍需解决在冷启动问题，以及数据稀疏度问题。

基本的协同过滤思想：

当你执行算法时，要观察大量的用户，观察这些用户的实际行为，来协同得到更佳的每个人对电影的评分值。用户在帮助算法计算电影的特征值，这个特征又可以用来预测其他用户的评分。

4.协同过滤算法

传统的计算方法，过于冗杂。

将关于x和θ的两个代价函数结合起来，提出一个综合的优化目标问题：

把目标函数视为特征x和用户参数θ的函数，对它整体最小化，作为一个既关于x也关于θ的函数。同时进行最小化计算。

协同过滤算法：

5.矢量化：底秩矩阵的分解

预测评分矩阵：

利用已经学习到的属性来找到相关的电影。

向量化的实现来计算所有用户对所有电影的评分预测值，也可以实现利用已经学到的特征来找到彼此相似的电影或商品。

6.均值规范化

对于没有评分数据的用户，

使用均值归一化，赋予默认评分。计算每个电影所得评分的均值，把它们放在一个u的向量内，观察一下这些电影评分，然后减去均分，把电影评分矩阵的每一行都减去那个电影的平均评分。

可以将均值归一化认为是协同过滤的预处理步骤。

大规模机器学习

1.学习大数据集

采用低偏差的学习算法，并用大数据进行训练。即决定效果好坏的往往不是算法的好坏，而是谁的训练数据多。

大数据学习的问题：计算问题

高效的计算方法用来处理大数据：

a）随机梯度下降

b）减少映射

2.随机梯度下降

对于很多机器学习算法，例如线性回归、逻辑回归和神经网络，我们推导算法的方法是提出一个代价函数，或提出一个优化目标，然后使用梯度下降的算法求代价函数的最小值。由于训练集太大，为了减少计算量而采用改进的梯度下降算法：随机梯度下降法。

如果每次迭代不需要考虑全部样本。

随机打乱所有数据

代入随机打乱的训练样本，对代价函数进行优化，知道全局收敛。

迭代效率增加，同时不需要对所有训练样本进行求和。

两者相比，收敛方式是不同的。随机梯度下降法就是连续不断地在某个区域内朝着全局最小值徘徊，而不是直接达到全局最小值。但在实际使用时，随机梯度下降就可以达到一个很好的全局最小值。

3.Mini-Batch梯度下降

比随机梯度下降法还要效率。一次只使用b个样本。

这一方法中，可以对b个样本进行并行运算。

缺点：需要向量化过程。

4.随机梯度下降收敛

确保算法收敛：要确保代价函数在每一次迭代中都是下降的。

通过绘制每次迭代后的cost（）函数的平均值，观察成图。

如果使用一个更小的学习速率，震荡就会变小，最终结果也会变好一点（区别可以忽略）。

增大训练样本的数量，得到的曲线更平滑。但是速度会变慢。

样本太少，噪声明显。增大训练样本，曲线会变得优化，如果没有变好，说明你需要调整学习速率或调整特征或者算法的其他东西。

曲线上升，需要用更小的学习速率α。

在大多数随即梯度下降应用中，学习速率α是不变的。但如果想要达到局部最小值的收敛结果，可以使学习速率α随时间逐减。

5.在线学习

依照连续产生的数据流，适应用户变化的偏好，从而放弃固定的样本集。

其优点主要体现在适应性上面。

6.减少映射与数据并行

应用云计算思想，引入Map-reduce的任务分解计算的思路。

要求学习算法可以表示成一系列的求和形式，或者表示成在训练集上对函数的求和形式。进而实现并行运算。

照片OCR

1.问题定义和OCR pipeline

照片OCR技术：

a）复杂。一个复杂的机器学习系统是如何被组装起来的。

b）机器学习流水线。如何分配资源来对下一步计划做出决定。

c）机器学习中的想法和概念。

像这样一个系统，我们称之为机器学习流水线：需要人为设计。

2.天花板分析（下一步工作的pipeline）

上限分析。

采用一个数值评估度量，来分析算法的效率。

机器学习例子：假设存在一个质检员，他通过长时间的学习，才掌握了判断一个产品是否合格的能力。我们使用机器学习，让机器代替这样的人的存在，判断一个产品是否合格。其中机器也存在一个学习过程，所以我们研究机器学习使其具有接近人甚至超越人的能力。

你可能感兴趣的:(学习笔记,机器学习,人工智能)

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
5G标准学习笔记14 - CSI--RS概述刘孬孬沉迷学习 5G 学习笔记信息与通信
5G标准学习笔记14-CSI–RS概述大家好~，这里是刘孬孬，今天带着大家一起学习一下5GNR中一个非常非常重要的参考信号------------------CSI-RS信号，CSI-RS不是持续发送，UE只能在网络明确配置了CSI-RS的情况下才能使用其进行信道测量。前言对于CSI-RS，肯定还离不开前面所说的CSI（channelstateinformation），前面也讲过CSI对于MIMO
5G标准学习笔记06-基于AI/ML波束管理刘孬孬沉迷学习 5G 学习笔记
5G标准学习笔记06-基于AI/ML波束管理前言前面对于孬孬学习了波束管理的概述，下面要进一步来看一下传统波束管理和现在3GPP中推动的AL/ML波束管理之前的区别联系。一、传统波束管理方法流程传统BM流程主要包括以下步骤：波束扫描（BeamSweeping）：gNB通过顺序发送多个窄波束（SSB或CSI-RS），覆盖整个服务区域，UE测量每个波束的信号质量（如L1-RSRP或L1-SINR）。波
5G标准学习笔记03- CSI 反馈增强概述刘孬孬沉迷学习 5G 笔记学习
5G标准学习笔记03-CSI反馈增强概述大家好，最近在研究AI/ML3gpp标准NR空口的有关内容，后面可能会给大家介绍一下对应的有关内容AI/ML在3GPP标准中的研究进展在AI/ML在NR空口的应用中，对应标准主要聚焦了3个case进行讨论研究分别是：CSI反馈增强；波束管理；定位精度增强；这三个内容可能比较涉及RAN1/2的具体内容，后面会基于这个进行一定的介绍。今天主要是主要介绍CSI反馈
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
LLaMA 学习笔记 AI算法网奇深度学习基础人工智能深度学习
目录LLaMA模型结构：模型微调手册：推理示例：指定位置加载模型测试ok：模型下载：llama-stack下载modelscope下载LLaMA优化技术RMSNormSwiGLU激活函数旋转位置编码（RoPE）LLaMA模型结构：llama3结构详解-CSDN博客模型微调手册：大模型微调LLaMA详细指南（准备环境、数据、配置微调参数+微调过程）_llama微调-CSDN博客显存占用：FP16/B
BOOT_KEY按键（学习笔记）小高Baby@ 学习笔记
先来让我们了解一下GPIO是什么吧，它在单片机中也有很重要的作用，接下来我们来看看吧。esp32C3是QFN32封装（一种集成电路（IC）封装类型），GPIO引脚一共有22个，从GPIO-0到GPIO-21。从理论上来说，所有的IO引脚都可以复用为任何外设功能，但有些引脚用作连接芯片内部FLASH或者外部FLASH功能时，官方不建议用作其它用途。esp32c3的GPIO，可以用作输入、输出，可以配
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
Kotlin学习笔记 qq_26907861
1.Val和Varval:用于声明不可变量,不可变是指引用不可变;var:用于声明可变的变量;packagehello//可选的包头funmain(args:Array){//包级可见的函数，接受一个字符串数组作为参数vala="不可变的变量"//不可变的变量varn=2//可变println(a)println(n)}2.fun函数Kotlin中的函数可以这样声明:fun函数名(参数列表):返回
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr