lealzhan

机器学习：李航统计学习方法笔记

詹令
[email protected]
2017.12.19

待整理

统计学习方法

监督学习
非监督学习
半监督学习
强化学习

监督学习方法

生成方法 Generative Approach：
$\frac{P(X,Y)}{P(X)}$
- 朴素贝叶斯模型
- 隐式马尔科夫模型
判别方法 Discrimitive Approach：
- k近邻/knn
- 线性分类模型
  - 感知机
- 决策树
- 对数线性分类模型
  - logistic regression
  - 最大熵模型 maximun entropy model
- 支持向量机
- 提升方法
- 条件随机场

统计学习方法三要素

对于统计学习方法中的监督学习，包含有以下三个要素。对于非监督学习，强化学习也同样拥有这三要素。

机器学习的定义：如果一个计算机程序针对某类任务T的用P衡量的性能根据经验E来自我完善。那么我们称这个计算机程序在从经验E中学习，针对某类任务T，它的性能用P来衡量。
– Machine Learning Tom M. Mitchell

李航	Tom Mitchell
数据集	经验E
模型	任务T
策略	性能P
算法

模型

模型：从输入到输出的映射

概率模型：条件概率分布
$P (Y ∣ X)$
非概率模型：决策函数(decision function) $Y = f (X)$

模型的假设空间(hypothesis space)：所有可能的模型（输入到输出的映射）的集合

$\mathcal{F} =\lbrace \mathcal{f} | Y=f(X) \rbrace$

这是 $\mathcal{F}$ 通常是由一个参数向量 $\theta$ 决定的函数簇：

$\mathcal{F} =\lbrace \mathcal{f} | Y_{\theta} = f_{\theta} (X), \theta \in R^n \rbrace$

策略

策略就是选择恰当的风险最小化函数(也就是损失函数关于联合概率分布的期望)的估计。

先介绍相关概念。

损失函数 loss function

也称为代价函数 cost function

度量模型一次预测的好坏

常见的损失函数

0-1损失函数

$\begin{cases} 1, & Y!=f(X) \\ 0, & Y=f(X) \end{cases}$

平方损失函数 quadratic loss function

$L(Y, P(Y|X)) = (Y-f(X))^2$

绝对损失函数

$L (Y, P (Y ∣ X)) = ∣ Y - f (X) ∣$

对数损失函数/对数似然损失函数
log loss function/log-likehood function

$L (Y, P (Y ∣ X)) = - l o g P (Y ∣ X)$

风险函数和经验风险函数：

风险函数 Risk Funciton

风险函数是损失函数 $L (y, f (x))$ 关于联合分布 $P (X, Y)$ 的期望
风险函数risk funciton也称为期望损失expected loss/损失函数的期望
度量模型平均意义下的好坏

$R_{exp}(f) = E_p[L(Y, f(X))] = \int_{xy} {L(y,f(x))P(x,y)dxdy }$

在一般的学习过程中，
$P (X ∣ Y)$
是未知的, 所以期望损失 $R_{exp}(f)$ 是不可求的，一般用以下的 经验风险empirical risk来近似。

经验风险函数 Empirical Risk

度量模型关于训练集的平均损失
当样本数量N足够大，经验风险函数趋于风险函数，学习效果好。

$R_{emp}(f) = \frac{1}{N} \sum_{i=1}^N { L(y_i,f(x_i)) }$

风险最小化

经验风险最小化 Empirical Risk Minimization - ERM

$\min_{f \in F} \frac{1}{N} \sum_{i=1}^N { L(y_i,f(x_i)) }$

样本数量足够大，经验风险最小化学习效果好。样本数量不够时，出现过拟合 over fitting。

当模型是条件概率分布
$P (Y ∣ X)$
，损失函数是对数损失函数，经验风险最小化等价于极大似然估计.

推导：todo

结构风险最小化 Structural Risk Minimization

(和经验风险最小化相比而言)，结构风险最小化可以防止样本数量小时，出现过拟合。
经验风险最小化的正则化 regulagization，添加一个惩罚项 $\lambda J(f)$
正则化可以找到经验风险和模型复杂度同时小的模型

$R_{srm}(f) = \frac{1}{N} \sum_{i=1}^N { L(y_i,f(x_i)) } + \lambda J(f)$

常见的惩罚项 $J (f)$ 有

$\lambda J(f) = \frac{\lambda}{2} {||w||}^2$

$\|w\|$ 表示 $L_2$ 范数

$\lambda J(f) = \frac{\lambda}{2} ||w||_1$

$w\|_1$ 表示 $L_1$ 范数

当模型是条件概率分布
$P (Y ∣ X)$
, 损失函数是对数损失函数，模型复杂度是模型的先验概率时, 结构风险最小化等价于贝叶斯估计的最大后验概率估计(Max posterior probability estimation, MAP)

推导：todo

策略小结

所谓的策略，就是选择恰当的风险最小化函数(也就是损失函数关于联合概率分布的期望)的估计。

策略		特例
风险最小	理想的学习的目标
经验风险最小	联合概率未知，数据量大才有效，易过拟合	特例极大似然估计
结构风险最小	经验风险最小的正则化（添加模型复杂度惩罚项），不易过拟合	特例贝叶斯估计的最大后验概率估计

算法

目标函数的最优化。

全局最优
高效

概率可以有两种方法来计算

极大似然估计法
先验概率
后验概率

概率论与数理统计盛骤参数估计

样本的似然函数
：固定样本观察值 $x_1,x_2,...,x_n$ , 在 $\theta$ 取值的可能范围 $\Theta$ 内挑选时似然函数 $KaTeX parse error: Undefined control sequence: \prad at position 43: …,x_n;\theta) = \̲p̲r̲a̲d̲_{i=1}^n {p(x_i…$ 达到最大值的 $\hat \theta$ ，作为参数 $\theta$ 的估计值，即使 $L(x_1, x_2,...,x_n;\hat \theta) = max_{theta \in \Theta} L(x_1, x_2,...,x_n; \theta)$

则称 $\hat \theta$ 为 $\theta$ 的最大似然估计值

因为L(\theta)和ln(L(\theta))在同一theta出取得极值，因此theta的估计值也可从下式(对数似然方程)求得（更简单）：

$\frac{dli(L(\theta))}{d\theta} = 0$

贝叶斯估计
todo
先验概率
后验概率

先验概率： $P(c_i)$

后验概率： $P(c_i|w)$
$w$ 特征向量
$c_i$ 分类

算法4.1 朴素贝叶斯算法

基于极大似然估计或贝叶斯估计计算先验概率及条件概率
对于给定的实例，计算
确定实例x的类

$KaTeX parse error: Expected '}', got 'EOF' at end of input: …^{(j)| Y = c_k)$

KNN K近邻法

三要素确定后，k近邻法就确定了。其实完成了对特征空间的划分。

1. 距离度量

2. k值的选择
应用中，k值一般取比较小的值。通常采用交叉验证法来选取最优的k值。

3. 分类决策规则
多数表决规则等价于经验风险最小化。

k近邻法的实现：kdtree

todo

感知机 Perceptron

$f (x) = s i g n (w * x + b)$

$s i g n (x) = + 1, x > = 0; - 1, x < 0$

损失函数L
连续可微
梯度
更新方式

w<-w+eta y_i x_i & b<-b+eta y_i
由损失函数的梯度可得到更新方式，不是很理解

logistic regression 和最大熵模型

二项logistic regression

模型

$\frac{exp(w*x+b)}{1+exp{(w*x+b)}}$

$\frac{1}{1+exp{(w*x+b)}}$

其中 $x=(x^{(1)}, x^{(2)}, x^{(3)}...,x^{(n)})^T$ , $w=(w^{(1)}, w^{(2)}, w^{(3)}...,w^{(n)})^T$

也可写成

$\frac{exp(w*x)}{1+exp{(w*x)}}$

$\frac{1}{1+exp{(w*x)}}$

其中 $x=(x^{(1)}, x^{(2)}, x^{(3)}...,x^{(n)},1)^T$ , $w=(w^{(1)}, w^{(2)}, w^{(3)}...,w^{(n)},b)^T$

二项logistic regression比较两个条件概率的大小，将实例x分到概率值较大的那一类。

策略：目标函数

对数极大似然估计

$\sum_{i=1}^N [y_i(w*x_i)-log(1+exp(w*x_i)]$

学习：求解目标函数的极小值

用梯度下降或者拟牛顿法

多项logistic regression

用于多类分类

Y 的取值集合 ${1,2,...,K}$

$\frac{exp(w_k*x)}{1+\sum_{k=1}^{K-1}exp{(w_k*x)}}, k=1,2,...,K-1$

$\frac{1}{1+\sum_{k=1}^{K-1}exp{(w_k*x)}}$

这里 $\in R^{n+1}, w_k \in R^{n+1}$

最大熵模型

todo

决策树 Decision Tree

既可用于分类classify，也可用于回归 regression
不太需要对数据进行预处理
预测的复杂度是 logN， N是用于训练的数据的个数。
对结果的决策过程可以用一连串if-then进行解释(白盒模型)

决策树学习的三个步骤:特征选择, 决策树生成, 决策树修剪

1. 特征选择

如果特征数量很多，可以只选择对训练数据有分类能力的特征。 (降维)
如果你用一个特征的进行分类的结果和随机分类的结果没有很大差别，则称这个特征没有分类能力。
通常特征选择的准则是信息增益或信息增益比。

信息增益

熵 entropy

随机变量不确定性的度量
设随机变量X取有限个离散值的随机变量，其概率分布为 $P(X=x_i) = p_i, i=1,2,...,n$ , 则随机变量X的熵定义为

$H(X)=\sum_{i=1}^n{p_i log{p_i}}$

又由上一点可见，熵只依赖与X的分布p 而和X的取值无关，故熵可记为

$H(X)=H(p)=\sum_{i=1}^n{p_i log{p_i}}$

对于贝努力分布( P(X=1)=p, P(X=0)=1-p, 0<=p<=1 ), 熵为

$H(p) = -plog_2p-(1-p)log_2{(1-p)}$

条件熵 conditionary entropy

$\sum_{i=1}^n P(X=x_i)H(Y|X=x_i)$

$H(Y|X=x_i) = ?$

经验熵，经验条件熵：当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵与条件熵分别称为经验熵 empirical entropy和经验条件熵 empirical conditional entropy。

信息增益

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。
特征A 对训练数据集D 的信息增益 $g (D, A)$ ,定义为集合D的**经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)**之差，即

$g (D, A) = H (D) - H (D ∣ A)$

使数据集D的信息增益 $g (D, A)$ 越大的特征A的分类能力越强。

信息增益比

$g_R(D,A) = \frac{H(D) - H(D|A)}{H_A(D)}$

$H_A(D)? 特征数据集D关于特征A的值的熵$

概念汇总？没弄懂这几种熵的具体计算

$H (D)$ 数据集D的经验熵

$-\sum_{k=1}^K \frac{|C_k|}{|D|} log_2{\frac{C_k}{D}}$

D最终被分成了K个类,
$C_k|$
表示数据集D中属于第k个类的数量。

$H_A(D)$ 数据集D关于特征A的值的熵

$H_A(D) = -\sum_{i=1}^n \frac{|D_i|}{|D|} log_2{\frac{D_i}{D}}$

n为特征A的取值个数。

$H (D ∣ A)$
数据集D在给定特征A下的经验条件熵

$\sum_{i=1}^n \frac{|D_i|}{|D|}H(D_i) = -\sum_{i=1}^n { \frac{|D_i|}{|D|} \sum_{k=1}^K \frac{|D_ik|}{|D|} log_2{\frac{D_ik}{D_i}} }$

2.决策树生成

ID3算法

从根节点开始，对节点的所有可能的特征的计算其信息增益，选择信息增益最大的特征作为节点的特征，由该特征的不同取值建立子节点；在对子节点递归的调用以上方法，构建决策树；知道所有特征的信息增益均衡小或没有特征可以选择为止。最后得到一颗决策树。
ID3相当于用极大似然法进行概率模型的选择。？
具体的：

3.决策树修剪

CART 算法

scikit-learn uses an optimised version of the CART algorithm.

https://www.cnblogs.com/yonghao/p/5135386.html

http://scikit-learn.org/stable/modules/tree.html

SVM

x	训练数据集	模型	学习策略	学习算法
线性可分支持向量机	线性可分	分离超平面 $w^*x+b^=0$ 及决策函数 $f(x)=sign(w^*x+b^)$	硬间隔最大化	凸二次规划
线性支持向量机	近似线性可分	分离超平面 $w^*x+b^=0$ 及决策函数 $f(x)=sign(w^*x+b^)$	软间隔最大化	凸二次规划
非线性支持向量机	线性不可分		软间隔最大化

线性可分支持向量机 Linear Support Vector Machine in Linearly Seperately Case

模型

策略

算法

凸二次规划问题 Convex Quadratic Programming
todo

预处理-数据降维-PCA 主成分分析

https://www.cnblogs.com/steed/p/7454329.html

提升方法 Boosting

提升方法：从弱学习算法出发，反复学习，得到一些列弱分类器（又称为基本分类器），然后组合这些弱分类器，构成一个强分类器。

两个问题

在每一轮如何改变训练数据的权值或概率分布（针对不同的分布来学习弱分类器）
如何将弱分类器组合成一个强分类器

Adaboost

提高那些被前一轮弱分类器错误分类样本的权值
弱分类器的误差率和权重成正比

Adaboost

有代表性的提升算法。基本分类器不定。

提升树 Boosting Tree

提升树: 以决策树为基本分类器的提升方法.

$f_M(x) = \sum_{m=1}^M T(x;\theta_m)$

$T(x;\theta_m) 决策树, \theta_m 决策树参数， M表示树的颗数$

决策树

二叉分类树：分类问题
二叉回归树：回归问题

EM算法

似然

似然函数
极大似然估计

reference 周志华机器学习 p148 149

https://www.zhihu.com/question/54082000

http://blog.csdn.net/fwing/article/details/4850068

https://www.cnblogs.com/zhsuiy/p/4822020.html

http://blog.csdn.net/sunlylorn/article/details/19610589

https://www.zhihu.com/question/26201440

http://blog.sciencenet.cn/blog-520608-703219.html

http://blog.csdn.net/guohecang/article/details/52313046

https://baike.baidu.com/item/%E4%BC%BC%E7%84%B6%E5%87%BD%E6%95%B0/6011241?fr=aladdin

L(θ|x)=f(x|θ)这个等式表示的是对于事件发生的两种角度的看法。其实等式两遍都是表示的这个事件发生的概率或者说可能性。再给定一个样本x后，我们去想这个样本出现的可能性到底是多大。统计学的观点始终是认为样本的出现是基于一个分布的。那么我们去假设这个分布为f，里面有参数theta。对于不同的theta，样本的分布不一样。f(x|θ)表示的就是在给定参数theta的情况下，x出现的可能性多大。L(θ|x)表示的是在给定样本x的时候，哪个参数theta使得x出现的可能性多大。所以其实这个等式要表示的核心意思都是在给一个theta和一个样本x的时候，整个事件发生的可能性多大。就写这么多吧！希望你能够明白。明天给学生讲课也顺便讲讲。哈哈！

作者：冯龙
链接：https://www.zhihu.com/question/54082000/answer/138115757
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

http://www.jianshu.com/p/1c6efdbce226

Machine Learning - Andrew NG

Part 0: Supervised Learning
Part 1: Learning Theory
Part 2: Unsupervised Learning
- 例子
  - 基因数据
  - 图像划分
  - Cocktail party problem:
  - ICA Algorithm
Part 3: Reinforcement Learning

要经过一系列的判断才做出最终的决定。

机器人控制: 直升机/机器狗/机器人/车辆

基本的机器学习算法就像木匠的锤子和锯子，牛逼的木匠可以用锤子和锯子做出美妙的作品，类似的，基本的机器学习算法也可以被巧妙地应用

Supervised Learning

Linear Regression   
|\  
| \   
|   locally weighted regression (非常流行)  
|  
Probabilittic interpretation of Linear Regression  
|  
|  
|  
logistic regression  
|\  
| \  
|  \  
|   perceptron  
|  
Newton's Method

linear regression

例子房价预测

size， bedroom -> 房价

Model

linear regression

$\Theta^Tx$

$\Theta 表示 parameters$

策略

$\min_{\Theta}\frac{1}{2}\sum_{i=1}^m (h_{\Theta}(x^{(i)})-u^{(i)})^2$

let $J(\Theta) = \frac{1}{2}\sum_{i=1}^m (h_{\Theta}(x^{(i)})-u^{(i)})^2$
=>

$\min_{Theta} J(\Theta)$

算法

Batch Gradient Descent:

第i个特征
?
$\Theta_i := \Theta_i - \alpha \frac{d}{d\Theta_i}J(\Theta)$

$\Theta_i := \Theta_i - \alpha \sum_{j=1}^m ( h_{\Theta} ( x^{(j)}) - y^{(j)} ) * x_i^{(j)}$

板书时
a:=b 把b赋给a
a=b 进行真值判断

SGD

Repeat {
For j=1 to m {

$\Theta_i := \Theta_i - \alpha ( h_{\Theta} ( x^{(j)}) - y^{(j)} ) * x_i^{(j)}$

}
}

$\nabla_{\theta}$

$\nabla_A{f(A)}$

$t r A$

Fact:
trAB = trAB
trABC = trCBA = trBCA
…

class 2

过拟合 overfitting

二维x-y样本点，用不同阶的函数进行拟合，阶数过低出现underfit，阶数过高可能出现overfitting

参数选择

PCA?

参数学习算法 parametric learning algorithm

fixed set of parameters

非参数学习算法 non-parametric learning algorithm

# of parameters grows with m(size of train set)
即使训练后，算法依然需要跑遍整个训练集
KNN?
locally weighted regression

locally weighted regression/Loess

不用考虑特征选择?
属于非参数学习算法，每次predict都要遍历整个训练集
对要预估的x附近的训练集进行linear regression,之后基于这个linear regression对x进行predict
linear regression时的每个样本点和x的平方差的权重是基于样本点的x的距离关于高斯函数计算出来的

$w^{(i)} = exp(-\frac{(x^{(i)} - x)}{2{\tau} ^2})$

被用于了直升机的控制

Probabilistic interpretation of Linear Regression

从概率论说明使用最小二乘法的作为linear regression的策略理由
证明极大似然估计在误差是高斯分布和IID的假设下，等价于最小二乘法

/*
            1                 2                 3
 风险最小化 ---> 经验风险最小化 ---> 极大似然估计  ---> 最小二乘法
                            | 4                 5
                            ----> 结构风险最小化 ---> 贝叶斯估计的最大后验概率估计
           
 1. 联合概率未知，数据量大， 易过拟合
 2. 模型是**条件概率分布** $$P(Y\|X)$$，损失函数是**对数损失函数**
 3. 极大似然估计在误差是高斯分布和IID的假设下，等价于最小二乘法
 4. 经验风险最小的**正则化**（添加模型复杂度惩罚项），不易过拟合 
 5. ?
*/

assume $y^i = \Theta^T x^{(i)} + \epsilon^{(i)}$

$\epsilon^{(i)} = y^i - \Theta^T x^{(i)}$

其中 $\epsilon$ 表示error，符合高斯分布。 $\sigma 表示$ deviation。

$KaTeX parse error: Double superscript at position 78: …(\epsilon^{(i)}^̲2)}{2\sigma^2} …$

$P(y^{(i)} | x^{(i)};\Theta)$

$\frac{1}{\sqrt{2\pi} \sigma} exp(-\frac{ (y^{(i)} - \Theta^Tx^{(i)} )^2 }{2\sigma^2} )$

$y^{(i)}| x^{(i)};\theta ~ N(\Theta^Tx^{(i)}, \sigma^2)$

theta前的；说明theta不是作为随机变量，而是作为这个概率函数的已知参数

似然函数

$L(\Theta)$ 表示 $\Theta$ 的似然函数

the probability of data Y given X and prioritized by theta.
和概率很接近，也很容易混淆
似然函数主要强调 Y概率是以 $\Theta$ 为参数的函数
likehood of the parameter ( $\Theta$ )
probability of the data ()

$P(\epsilon^{(i)}) = P(y^{(i)} | x^{(i)};\Theta)$

开始证明：

似然函数

$\color{red}{ L(\Theta) = P(Y | X;\Theta) }$

error term are IID(independentlly identically distributed )

（m training examples were generated independently）

$\prod_{i=1}^m P(y^{(i)} | x^{(i)};\Theta)$

assume $\epsilon$ 的各个分量 $epsilon^{(i)}$ 的误差项服从相同的高斯分布

$=$

极大似然: 选择参数 $\Theta$ 使得数据出现的可能性尽可能大。

choose theta to maximize L(theta) = P(Y|X,theta)

为了数学上的便利，定义 log likehood function

$l (t h e t a) = l o g L (t h e t a)$

$\sum_{i=1} log(\frac{1}{} )$

=> max l(theta)等价于最小化 J

=> 最小化 J() ,也就是最小二乘法

证明完毕.

注意：在证明中假设error是高斯分布， IID。

logistic regression

classification

$\in {0,1}$

linear regression并不适用于分类 classification

g(z)

    /--
   /
--/

$z = theta^T x$

算法

gradient ascent
newton’s method

$f(\Theta) = 0 的根$

$\Theta^{(t+1)} = \Theta^{(t)} - \frac{ f(\Theta^{(t)}) } { f^{'}(\Theta^{(t)}) }$

类似的，找对数似然函数的极值: $l(\Theta) \quad with \quad \Theta \quad such \quad that \quad l^{'}(\Theta) = 0$

$\Theta^{(t+1)} = \Theta^{(t)} - \frac{l^{'}(\Theta^{(t)})}{l^{''}()\Theta^{(t)}}$

除了对logistic regression，牛顿法对于其他GLM的效果都不错？

如果 $\Theta$ 是向量：

$\Theta^{(t+1)} = \Theta^{(t)} - H^{-1}\nabla$

较少迭代次数

perceptron

g(z)

  __
  |
__|

$z = theta^T x$

class 4:

Logistic Regression
- Newton's Method 见上一节笔记

Exponential Family

Generalized Linear Model(GLMs)

Generalized Linear Model(GLMs)

目前为止讲了两个
$P(y|x,\Theta)$ 的模型

$\in R, Gaussian --> Least Square Regression(Linear Regression?)$

$\in \{0, 1\}, Bernoulli --> Logistic Regression$

以下将说明上述两个模型都是GLM的特例。

The exponential family

Bernoulli Dist
Gaussian Dist

The exponential family 的通用公式

$p(y;\eta) = b(y)exp(\eta^T T(y) - a(\eta) )$

其中:

$\eta$ : natural parameter of the distribution

$T (y)$ :sufficient statistic? (大多数情况: $T (y) = y$ )

$a(\eta)$ :log partition function

一组 $T, a, b$ 决定一组分布, 这组分布以 $\eta$ 为参数得到某一个具体的分布。

以下证明 Bernoulli Dist 和 Gaussian Dist 都可以由GLM的通用公式推出

Bernoulli Dist

$Ber(\phi) p(y=1;\phi) = \phi$

GLM的形式

$p(y;\phi) = \phi^y(1-\phi)^{1-y}$

$exp((log(\frac{\phi}{1-\phi})))y + log(1-\phi)$

==>

$p(y;\eta) = b(y)exp(\eta^T T(y) - a(\eta) )$

其中

$T (y) = y$

$a(\eta) = log(1+e^{\eta})$

$b (y) = 1$

Gaussian Dist

let ${\sigma}^2 = 1$

$p(y;\mu) = \frac{1}{\sqrt{2\pi}} exp(-\frac{1}{2}(y-\mu)^2)$

GLM的形式

$p(y;\mu) = \frac{1}{\sqrt{2\pi}} exp(-\frac{1}{2}y^2) exp(\mu y - \frac{1}{2}{\mu}^2 )$

==>

$p(y;\eta) = b(y)exp(\eta^T T(y) - a(\eta) )$

其中

$\eta = \mu$

$T (y) = y$

$a(\eta) = {\eta}^2/2$

$(1/\sqrt{2\pi})exp(-y^2/2)$

其他的The exponential family

The multinomial (which we’ll see later),
Poisson Distribution
- (for modelling count-data; number of visitor)
- 在特定情况下(天气，广告投放情况，节假日，促销等)，网站/店铺的访问量
the gamma and the exponential
- (for modelling continuous, non-negative random variables, such as timeintervals);
the beta and the Dirichlet (for distributions over probabilities);

如何构建 Generalized Linear Model(GLMs)

统计学习三要素(模型，策略，算法) 之模型

Assume or Design choices:

y|x;\theta ~ ExpFamily
Given x, goal is to output E[T(y)|x], want h(x) = E[T(y)|x]. mostly T(y) = y ==> h(x) = E[y|x]
$\eta = \Theta^T x$ ?

Multinomial

$T (y)! = y$

$\in {1,...,k}$

Parameters, \Pi_1

你可能感兴趣的:(机器学习,算法)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
【加密算法基础——对称加密和非对称加密】 XWWW668899 网络安全服务器笔记
对称加密与非对称加密对称加密和非对称加密是两种基本的加密方法，各自有不同的特点和用途。以下是详细比较：1.对称加密特点密钥:使用相同的密钥进行加密和解密。发送方和接收方必须共享这个密钥。速度:通常速度较快，适合处理大量数据。实现:算法相对简单，计算效率高。常见算法AES(高级加密标准)DES(数据加密标准)3DES(三重数据加密标准)RC4(流密码)应用场景文件加密磁盘加密传输大量数据时的加密2.
【算法练习】IDEA集成leetcode插件实现快速刷 2401_84102892 2024年程序员学习算法 intellij-idea leetcode
============点击右侧边leetcode->设置->配置地址、用户名、密码、存放目录、文件模板用户名要登录后在账号信息里看模板代码1.codefilename!velocityTool.camelC
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
【加密算法基础——RSA 加密】 XWWW668899 网络服务器笔记 python
RSA加密RSA（Rivest-Shamir-Adleman）加密是非对称加密，一种广泛使用的公钥加密算法，主要用于安全数据传输。公钥用于加密，私钥用于解密。RSA加密算法的名称来源于其三位发明者的姓氏：R:RonRivestS:AdiShamirA:LeonardAdleman这三位计算机科学家在1977年共同提出了这一算法，并发表了相关论文。他们的工作为公钥加密的基础奠定了重要基础，使得安全通
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

机器学习：李航 统计学习方法 笔记

统计学习方法三要素

模型

策略

损失函数 loss function

常见的损失函数

风险函数 和 经验风险函数：

风险函数 Risk Funciton

经验风险函数 Empirical Risk

风险最小化

经验风险最小化 Empirical Risk Minimization - ERM

结构风险最小化 Structural Risk Minimization

策略小结

算法

KNN K近邻法

k近邻法的实现：kdtree

感知机 Perceptron

logistic regression 和 最大熵模型

二项logistic regression

模型

策略：目标函数

学习：求解目标函数的极小值

多项logistic regression

最大熵模型

决策树 Decision Tree

1. 特征选择

信息增益

熵 entropy

条件熵 conditionary entropy

信息增益

信息增益比

概念汇总？没弄懂这几种熵的具体计算

2.决策树生成

ID3算法

3.决策树修剪

CART 算法

SVM

线性可分支持向量机 Linear Support Vector Machine in Linearly Seperately Case

预处理-数据降维-PCA 主成分分析

提升方法 Boosting

Adaboost

提升树 Boosting Tree

EM算法

似然

Supervised Learning

linear regression

Model

策略

算法

Batch Gradient Descent:

SGD

Probabilistic interpretation of Linear Regression

logistic regression

算法

perceptron

Generalized Linear Model(GLMs)

The exponential family

The exponential family 的通用公式

Bernoulli Dist

Gaussian Dist

其他的The exponential family

如何构建 Generalized Linear Model(GLMs)

Multinomial

你可能感兴趣的:(机器学习,算法)

机器学习：李航统计学习方法笔记

风险函数和经验风险函数：

logistic regression 和最大熵模型