cosθ

吴恩达机器学习笔记（自用）

吴恩达机器学习

机器学习的定义
- 什么是机器学习？
机器学习算法
- 1.监督学习（Supervised Learning）
- 2.无监督学习（Unsupervised Learning）
单变量线性回归
- 模型描述（Model Representation）
- 代价函数
- 梯度下降
- 线性回归中的梯度下降
- 凸函数（convex function）
多变量线性回归
- 多元梯度下降法
- - 特征缩放（Feature Scaling）
  - 学习率（Learning rate）
  - 特征和多项式回归
  - 正规方程(Normal equation)(区别于迭代方法的直接解法）
  - - 推导过程
    - 正规方程在矩阵不可逆的情况下的解决方式
逻辑回归(Logistic Regression)
- 假设表示(Hypothesis resprentation)
- 决策界限（Decision Boundary）
- 代价函数
- - 简化代价函数
  - 梯度下降
  - 高级优化算法
  - 多元分类（Multiclass classification）
正则化(Regularization)
- 过拟合和欠拟合(overfitting&overfitting)
- 代价函数（Cost function）
- 线性回归和逻辑回归的正则化
- - 线性回归
  - 逻辑回归
神经网络
- 模型展示
- 神经网络前向传播
- - 简单的例子
  - 多元分类
- 代价函数
- 反向传播
- - 理解反向传播
- 展开参数
- 梯度检测（Gradient checking）
- 随机初始化（Random initialization）
- Putting it together
机器学习的细节
- 评估假设(Evaluating a hypothesis)
- - 线性回归
  - 逻辑回归
- 模型选择
- 诊断方差和偏差（Diagnosing variance vs. bias）
- 正则化和偏差、方差
- 学习曲线（Learning curve）
- - 高偏差情况
  - 高方差情况
- 方法
机器学习系统设计
- 误差分析（Error analysis）
- 不对称分类的误差估计（Error metrics for skewed classes）
- - 查准率和召回率（precision recall）：
  - 两者之间的权衡：
  - $F_{1}$ score
支持向量机（SVM，也叫大间距分类器）
- 优化目标
- 间隔最大化
- - 直观理解
  - 数学原理
- 核函数
- - 和函数的分类问题
  - 如何选择landmark
  - SVM参数对性能的影响
- 使用SVM
- - 多类分类
  - Logistic regression vs. SVMs
无监督学习
- K-Means算法
- - 算法思路
  - 优化目标
  - 随机初始化
  - 选取聚类数量
降维(Dimensionality Reduction)
- 目标1：数据压缩
- 目标2：可视化
- 降维算法：主成分分析法(PCA)
- - PCA不是线性回归
  - 使用PCA算法
  - - 数据预处理
    - PCA计算过程
  - 主成分数量k的选择
  - 压缩重现
- 应用PCA的建议
- - PCA的错误用法
  - - 使用PCA算法防止过拟合
    - 在算法设计阶段直接使用PCA
异常检测（Anomaly detection）
- 高斯分布/正态分布（Guassian/Normal distribution）
- - 参数估计
- 异常检测算法
- 评估异常检测算法
- - 评估思路
- 异常检测算法VS监督学习
- 设计异常检测算法的特征
- - 特征转换
  - 增加特征
  - 特征组合
- 多变量高斯分布
- 使用多元高斯分布的异常检测
- - 步骤
  - 多元高斯分布与多个一元高斯分布
  - - 区别
    - 选择
- Summary

吴恩达机器学习课程地址

机器学习的定义

什么是机器学习？

机器学习（Machine Learning）：是研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。一个程序被认为能从经验E中学习，解决任务 T，达到性能度量值P，当且仅当，有了经验E后，经过P评判，程序在处理T时的性能有所提升。

机器学习算法

1.监督学习（Supervised Learning）

监督学习（Supervised Learning）：对于数据集中每一个样本都有对应的标签（被告知什么是所谓的正确答案），包括回归（regression）和分类（classification）

· 回归（Regression）：预测连续的数值输出
· 分类（Classification）：预测离散值的输出

2.无监督学习（Unsupervised Learning）

无监督学习（Unsupervised Learning）：数据集中没有任何的标签（只知道这里有数据，但不知道这些数据的结构，包括聚类（clustering），比如Google news（收集大量的新闻，将其分成一个个的新闻专题）。

实现公式：[W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x’)
· SVD：奇异值分解函数

单变量线性回归

模型描述（Model Representation）

·Notation:

m	训练集的样本数
x‘s	输入的变量/特征
y’s	输出的变量/目标变量
(x,y)	一个训练集中的样本
(x⁽ⁱ⁾,y(⁽ⁱ⁾)	第i个训练样本

假设函数h(hypothesis)：是一个从输入x到输出y的映射,h(x) = θ₀ +θ₁x。θ₀ 和θ₁都是模型参数

代价函数

代价函数（cost function） $\mathop{J}(θ)$ ，通常使用平方误差函数，如下：
$J(θ_{0},θ_{1}) = \frac{1}{2m} \sum_{i=1}^{m} (h(x^{(i)})-y^{(i)})^{2}，m为训练样本数$

训练的目标是为了最小化代价函数，即 $\mathop{minmize} \limits_{θ_{0},θ_{1}}J(θ_{0},θ_{1})。$

简化一下，当θ₀ = 0时，假设函数就时一个过原点的直线，此时h(x) = θ₁x。

代价函数的另外一个图形表示是等高图，如图所示：

当你的点离同心椭圆的中心点越近，说明你的拟合更准确

梯度下降

代价函数： $J(θ_{0},θ_{1})$ ,可以推广到更多元的函数 $J(θ_{0},θ_{1},θ_{2},...θ_{n})$
目标： $\mathop{minmize} \limits_{θ_{0},θ_{1}}J(θ_{0},θ_{1})。$

设置初始的 $θ_{0},θ_{1}$ ，然后更新公式:-
$θ_{j} := θ_{j} -α\frac{\partial}{\partialθ_{j}}J(θ_{0},θ_{1}) ,对于j=0，1时$

θ₀ 和 θ₁ 是要同时更新的，即在计算完θ₀后在计算θ₁时，使用的θ₀还是计算前的θ₀

$\alpha$ 被称为学习速率(learning rate),用来控制下降时幅度多大。

$\alpha$ 如果太小的话，会导致梯度下降的很慢，如果 $\alpha$ 太大的话，梯度下降可能无法收敛甚至发散

线性回归中的梯度下降

凸函数（convex function）

没有局部最优解只有全局最优解

多变量线性回归

n	特征量的数目
x⁽ⁱ⁾	第i个训练样本输入的特征值
x_j⁽ⁱ⁾	第i个训练样本中的第j个特征值

假设函数h(hypothesis)：h_θ(x) = θ₀ +θ₁x₁+θ₂x₂+…+θ_nx_n。为了方便起见，设x₀ = 1，
从而x = [x₀，x₁，x₂，…，x_n]^T, $\in \Re^{n+1}$ ,θ = [θ₀，θ₁，θ₂，…，θ_n]^T, $\theta \in \Re^{n+1}$
因此假设函数可以记为 $h_{\theta}(x) = \theta^{T}x$

多元梯度下降法

代价函数：
$J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h(x^{(i)})-y^{(i)})^{2}，此时\theta是一个n+1维的向量$
梯度下降更新公式：
$θ_{j} := θ_{j} -α\frac{\partial}{\partialθ_{j}}J(θ) ,对每个j = 0,...,n都是同步更新的$
更精确的：
$θ_{j} := θ_{j} -α\frac{1}{m} \sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}$

特征缩放（Feature Scaling）

目的：确保不同特征的取值都在相近的范围内，这样梯度下降法可以更快的收敛，通常使每个特征都近似的在 $-1\le x_{i} \le 1$ 之间（不是强制的）

归一化（Mean normalization):
$x_{i} = \frac{x_{i} - \mu}{s_{i}},其中\mu为特征x_{i}的平均值，s_{i}为特征x_{i}的范围(max-min)(也可是特征i标准差)$

学习率（Learning rate）

梯度下降更行公式： $θ_{j} := θ_{j} -α\frac{\partial}{\partialθ_{j}}J(θ)$

“debugging”：如何确保梯度下降正确运行；
选择合适的 $\alpha$ ，太小会导致收敛慢，太大可能每一次迭代过程中 $J(\theta)$ 将会不断的越过最小值，无法收敛

在运行梯度下降公式时，尝试不同的 $\alpha$ 值，（e.g.0.001，0.01，0.1，1…每十倍取一次），对于不同的α值绘制 $J(\theta)$ 随着迭代次数变化的函数，找快速下降的。
寻找一个合适的较小值和较大值，保证结果和速度的同时选取较大的值，或者稍小的合理值。

特征和多项式回归

例子: 房价预测问题

三次函数
二次函数（downdowndown）
更精确的模型

正规方程(Normal equation)(区别于迭代方法的直接解法）

对代价函数 $J(\theta)$ 求偏导并令所有的偏导为零，解出 $\theta = (X^{T}X)^{-1}X^{T}y$

推导过程

$x^{(i)}=\left( \begin{matrix} x_{0}^{(i)} \\ x_{1}^{(i)}\\ x_{2}^{(i)}\\ .\\ .\\ .\\ x_{n}^{(i)}\\ \end{matrix} \right )\in\R^{n+1}, y = \left( \begin{matrix} y_{1}\\ y_{2}\\ .\\ .\\ .\\ y_{m}\\ \end{matrix} \right )\in\R^{m}$

梯度下降和正规方程之间比较：

如果特征的数量不是很大（approximate <10000)时，正规方程通常时很好的；如果特征量很多的的话，梯度下降会好一点

正规方程在矩阵不可逆的情况下的解决方式

逻辑回归(Logistic Regression)

假设表示(Hypothesis resprentation)

逻辑回归模型： $h_{\theta}(x)$ ,让 $\le h_{\theta}(x) \le1$
在线性回归中， $h_{\theta}(x) = \theta^{T}x$ ，在逻辑回归中令 $h_{\theta}(x) = g(\theta^{T}x)$ ，，将 $\theta^{T}x$ 带入g(x)得：
$h_{\theta}(x) = \frac{1}{1+e^{-\theta^{T}x}}$
其中 $\frac{1}{1+e^{-z}}$ 被称为Sigmod函数，也叫Logistic函数。

$h_{\theta}(x) = P(y=1|x;\theta)$ ( 对于输入的x，y=1的概率估计)

决策界限（Decision Boundary）

Suppose predict: $1"\ if \; h_{\theta}(x) \ge 0.5$
predict: $\ if \ h_{\theta}(x) < 0.5$
$h_{\theta}(x) \ge 0.5 \ \longrightarrow \ z\ge 0.5 \ \longrightarrow \ \theta^{T}x\ge0$
$h_{\theta}(x) < 0.5 \ \longrightarrow \ z\le 0.5 \ \longrightarrow \ \theta^{T}x < 0$

定义 $\theta^{T}x=0$ 为决策边界，注意决策边界是假设函数的属性，取决于其参数 $\theta$ ，不是数据集的属性

代价函数

$J(\theta) = \frac{1}{m} \sum_{i=1}^{m} Cost(h_{\theta}(x^{(i)}),y^{(i)})$

Logistic regression cost function：
$Cost(h_{\theta}(x),y)=\left\{ \begin{aligned} -log(h_{\theta}(x)) \quad if \ y = 1 \\ -log(1-h_{\theta}(x)) \quad if \ y = 0 \end{aligned} \right.$
注意：y永远只能是1/0

简化代价函数

我们可以将 $Cost(h_{\theta}(x),y)$ 写成： $-ylog(h_{\theta}(x))-(1-y)log(1-h_{\theta}(x))$
所以根据最大似然法：
$J(\theta) = J(\theta) = \frac{1}{m} \sum_{i=1}^{m} Cost(h_{\theta}(x^{(i)}),y^{(i)}) = -\frac{1}{m} \sum_{i=1}^{m} ( y^{(i)}log(h_{\theta}(x^{(i)})) + (1-y^{(i)})log(1-h_{\theta}(x^{(i)})))$

拟合参数： $\mathop{min} \limits_{\theta} J(\theta)$

梯度下降

$\frac{\partial}{\partialθ_{j}}J(θ) = \frac{1}{m} \sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)} ，对每个j = 0,...,n都是同步更新的$
$θ_{j} := θ_{j} - \alpha \frac{\partial}{\partialθ_{j}}J(θ)= θ_{j} -α\frac{1}{m} \sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})x_{j}^{(i)}$

高级优化算法

1.共轭梯度法
2.BFGS

L-BFGS
优点：无需人工选择参数α \alphaα；运算速度比梯度下降更快
缺点：更加复杂

多元分类（Multiclass classification）

e.g. 天气会有晴天、多云、雨天、雪天

One-vs-all:
训练出每个 $h_{\theta}^{(i)}(x)$ 后，对一个新的输入，找哪个假设函数的值最大，说明这个数据更符合这一个

正则化(Regularization)

过拟合和欠拟合(overfitting&overfitting)

欠拟合：

欠拟合，高偏差（high bias）：说明没有很好的拟合训练数据
解决办法：增加特征，如增加多项式
过拟合：

过拟合，高方差（high variance）：拟合训练数据过于完美， $J(\theta)\approx0$ ，导致模型的泛化能力很差，对于新样本不能准确预测；
解决办法：
减少特征个数
a)人工保留合适的特征
b)采用模型选择算法(会自动选择哪些变量留下)
正规化
a)保留所有特征，减小参数 $\theta_j$ 的维度/大小

代价函数（Cost function）

Regularization：
对于参数值 $\theta_{0},\theta_{1}...,\theta_{n}$ 其值都比较小，那么我们可以：1.有一个更简单的假设模型(因为在某些参数趋于时，函数会更趋向于一个更低次的函数)。2.更不容易出现过拟合问题
线性回归代价函数：
对 $\theta_{j}$ 加入惩罚项，将除了 $\theta_{0}$ 之外的所有参数值都进行缩小：
$J(\theta) = \frac{1}{2m}[ \sum_{i=1}^{m} (h_{\theta}(x^{(i)})-y^{(i)})^{2}+\lambda\sum_{j=1}^{m}\theta_{j}^{2}] ，不对\theta_{0}进行惩罚$
逻辑回归代价函数：
$J(\theta) = -\frac{1}{m} \sum_{i=1}^{m} ( y^{(i)}log(h_{\theta}(x^{(i)})) + (1-y^{(i)})log(1-h_{\theta}(x^{(i)})))+\frac{\lambda}{2m}\sum_{j=1}^{m}\theta_{j}^{2} ，不对\theta_{0}进行惩罚$
拟合参数：：
$\mathop{min} \limits_{\theta}J(\theta)$

线性回归和逻辑回归的正则化

线性回归

为社么单独把 $\theta_{0}$ 拿出来？因为正则化不惩罚 $\theta_{0}$

逻辑回归

样子和之前的线性回归梯度下降算法一样，知识 $h_{\theta}(x)$ 是逻辑回归中的假设函数

神经网络

模型展示

$\theta$ 既可以被叫做‘’权重‘，也可被叫做’参数‘’
x0 == 1，可以画出也可以不画出

上图代表单个的神经元。神经网络即是一组神经元。典型的三层神经网络如下图所示：

第一层就叫做输入层
最后一层叫做输出层
除了输入层和输出层之外的其他层都叫隐藏层

详细解释：
$a _{i}^{(j)} ：第j层的单元i的激活项。(“activation\ of \ unit \ i\ in \ layer \ j”)（激活项就是指由一个具体的神经元计算并输出的值）$
$\Theta^{(j)}:第j层(units: s_{j} )到第j + 1层(units: s_{j+1})的权重矩阵，维数：s_{j+1}\times (s_j+1)$
$a_{1}^{(2)} = g(\Theta_{10}^{(1)}x_{0}+\Theta_{11}^{(1)}x_{1}+\Theta_{12}^{(1)}x_{2}+\Theta_{13}^{(1)}x_{3})$
$a_{2}^{(2)} = g(\Theta_{20}^{(1)}x_{0}+\Theta_{21}^{(1)}x_{1}+\Theta_{22}^{(1)}x_{2}+\Theta_{23}^{(1)}x_{3})$
$a_{3}^{(2)} = g(\Theta_{30}^{(1)}x_{0}+\Theta_{31}^{(1)}x_{1}+\Theta_{32}^{(1)}x_{2}+\Theta_{33}^{(1)}x_{3})$
$h_{\theta}(x) = a_{1}^{(3)} = g(\Theta_{10}^{(2)}a_{0}^{(2)}+(\Theta_{11}^{(2)}a_{1}^{(2)}+(\Theta_{12}^{(2)}a_{2}^{(2)}+(\Theta_{13}^{(2)}a_{3}^{(2)})$

神经网络前向传播

简单的例子

多元分类

代价函数

$L = 神经网络的总层数$
$s_{l} = 在第l层中总的计算单元数（不包括偏差单元）$
逻辑回归的代价函数：
$J(\theta) = -\frac{1}{m}[ \sum_{i=1}^{m} y^{(i)}log(h_{\theta}(x^{(i)}) + (1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]+\frac{\lambda}{2m} \sum_{j = 1}^{n}\theta_{j}^{2}$
神经网络的代价函数：
$h_{\Theta}(x) \in \Re^{K},(h_{\Theta}(x))_{i} = i^{th} output$
$J(\theta) = -\frac{1}{m} [\sum_{i = 1}^{m}\sum_{k = 1}^{K}y_{k}^{(i)}log(h_{\Theta}(x^{(i)}))_{k} + (1-y_{k}^{(i)})log(1-(h_{\Theta}(x^{(i)}))_{k})]+\frac{\lambda}{2m}\sum_{l = 1}^{L-1}\sum_{i = 1}^{s_{l}}\sum_{j= 1}^{s_{l+1}}(\Theta_{ji}^{(l)})^{2}$

计算目标： $\min \limits _{\theta}J({\Theta})$
需要计算：

$J({\Theta})$
$\frac{\partial}{\partial \Theta_{ij}^{(l)}}J(\Theta),\Theta_{ij}^{(l)} \in \mathbb{R}$

如题：

前向传播：

反向传播

$\delta_{j}^{(l)} = 第l层第j个节点的误差(error)$
对于每个输出单元： $\delta_{j}^{(4)} = a_{j}^{(4)} - y_{j}$ ，写成向量形式为： $\delta^{(4)} = a^{(4)} -y,维度为输出单元的数目$ ，由输出层逐级往上计算 $\delta^{(l)},\delta^{(l-1)},...,\delta^{(2)}$ （没有 $\delta^{(1)}$ ）:
$\delta^{(3)} = (\Theta^{(3)})^{T}\delta^{(4)}.*g'(z^{(3)}),g'(z^{(3)}) = a^{(3)}.*(1-a^{(3)})，".*"代表的是点乘$
$\delta^{(2)} = (\Theta^{(2)})^{T}\delta^{(3)}.*g'(z^{(2)}),g'(z^{(2)}) = a^{(2)}.*(1-a^{(2)})$
所以我们可以证明（忽略 $\lambda$ ，即 $\lambda = 0$ ）：
$\frac{\partial}{\partial \Theta_{ij}^{(l)}}J(\Theta) =a_{j}^{(l)}\delta_{i}^{(l+1)}$

矩阵D是梯度矩阵

理解反向传播

前向传播的理解：

理解反向传播：

$\delta$ 项是代价函数关于这些中间项的偏导数，衡量影响神经网络的权值，进而影响神经网络的输出的程度。

展开参数

实际上在上图分别多了一个θ和D的矩阵

**使用矩阵表达式的好处：**参数以矩阵的形式储存，在正向/反向传播时会更方便，也会更能充分利用向量化实现
**使用向量表达式的好处：**当拥有像thetaVec/gradientVec，在使用一些高级优化算法时可以直接用

梯度检测（Gradient checking）

使用梯度检测可以保证前向/反向传播是百分百正确的



如果得到的gradApporx ≈DVec(从反向传播中得到的)，那说明反向传播的实现是正确的

一旦验证了反向传播是正确的，那么在训练开始之前一定要关掉梯度检验，因为它会特别慢

随机初始化（Random initialization）

不能将θ初始化成0，因为如果这样做，会导致在后面的计算中绿色/红色/蓝色的权重依然是相等的即使它们不再是全0

Putting it together

对于隐藏层节点的数量，与输入特征的数量相匹配（相同/两倍/三倍）是比较好的选择

机器学习的细节

机器学习诊断法(machine learning diagnostic):

评估假设(Evaluating a hypothesis)

一种方法是将所有数据分为两部分，前70%是作为训练集，后30%是作为测试集

但是如果数据集里的数据是有特定的顺序/规律的话，那么就随机选择70%的数据为训练集，其余30%为测试集

线性回归

逻辑回归

模型选择

上面拟合后的模型是不能预测出假设对于新样本的泛化能力的，因为这些参数 $\theta$ 能很好地拟合训练集，但对于其他的数据可能就没这么好了

一般来说，我们将数据集划分成训练集（60%）、交叉验证（cross validate）集（20%）和测试集（20%）：

训练/验证/测试误差：

Training error：
$J_{train}(\theta) = \frac{1}{2m_{train}} \sum_{i = 1}^{m_{train}}(h_{\theta}(x_{train}^{(i)}) - y_{train}^{(i)})^{2},for\ linear\ regression$
$J_{train}(\theta) = -\frac{1}{m_{train}} \sum_{i=1}^{m_{train}} ( y_{train}^{(i)}log(h_{\theta}(x_{train}^{(i)})) + (1-y_{train}^{(i)})log(1-h_{\theta}(x_{train}^{(i)})))$
Cross Validiation error:
$J_{cv}(\theta) = \frac{1}{2m_{cv}} \sum_{i = 1}^{m_{cv}}(h_{\theta}(x_{cv}^{(i)})-y_{cv}^{(i)})^{2}$
$J_{cv}(\theta) = -\frac{1}{m_{cv}} \sum_{i=1}^{m_{cv}} ( y_{cv}^{(i)}log(h_{\theta}(x_{cv}^{(i)})) + (1-y_{cv}^{(i)})log(1-h_{\theta}(x_{cv}^{(i)})))$
Test error:
$J_{test}(\theta) = \frac{1}{2m_{test}} \sum_{i = 1}^{m_{test}}(h_{\theta}(x_{test}^{(i)}) -y_{test}^{(i)})^{2},对逻辑回归公式同上$

在训练集上我们学习参数 $\theta:minJ(\theta)$ ;对得到的参数 $\theta$ 选择 $J_{cv}(\theta)$ 最小的模型；最后用 $J_{test}(\theta)$ 来估计泛化误差

诊断方差和偏差（Diagnosing variance vs. bias）

一般来说，欠拟合会产生高偏差；过拟合过产生高方差；
具体来说，当模型欠拟合时，训练误差和验证误差都会较大；当模型过拟合时，训练误差很小，然而验证误差很大，如下图：

正则化和偏差、方差

如何处理高方差和高偏差问题呢？
一般来说，加入合适的正则化项可以有效地避免过拟合（即高方差）

注意 $J_{train}(\theta),J_{cv}(\theta)和J_{test}(\theta)都没有正则化项$

当正则化参数 $\lambda$ 较大时 , $\theta_{j} \approx0$ (除 $\theta_0$ 外)，假设函数趋于直线，因而会造成高偏差的问题，导致欠拟合；
当正则化参数 $\lambda$ 较小时，正则化项不起作用，模型会变得过拟合。如图：

学习曲线（Learning curve）

高偏差情况

随着训练集样本数的不断增加， $J_{cv}(\theta)和J_{train}(\theta)$ 的值越来越接近，而且都很大
如果算法是高偏差（欠拟合）的话，再怎么增加样本数也不会让交叉验证/测试集误差减小很多

高方差情况

随着训练集样本数的不断增加， $J_{cv}(\theta)和J_{train}(\theta)$ 的值会有很大的差距
如果算法是高方差（过拟合）的话，增加样本数也可能会让交叉验证/测试集误差减小

方法

一般的，对于高偏差问题（欠拟合）：

增加特征个数
增加多项式特征
降低 $\lambda$

对于高方差问题（过拟合）：

增加训练样本
减少特征个数
增加 $\lambda$

对于神经网络来说，参数越少，越有可能欠拟合；参数越多，网络结构越复杂，越有可能过拟合，应该加入正则化项。
如何选择神经网络的层数？尝试把数据集划分成上面的三部分，然后训练有一/二/三…个隐藏层的网络，然后验证哪个的 $J_{cv}(\theta)$ 最小

机器学习系统设计

误差分析（Error analysis）

开发一个复杂的机器学习系统：

e.g.设计一个垃圾邮件分类系统，发现错误识别的邮件中钓鱼邮件的数量是最多的，所以可以画更多的时间来改进钓鱼邮件的识别

不对称分类的误差估计（Error metrics for skewed classes）

查准率和召回率（precision recall）：

y = 1 in presence of rare class(稀有类别，即该类别在所给样本中比较少出现) that we want to detect

如图，如果某个类分类结果为1，如果算法预测结果也为1，称为真阳性（TP），如果算法预测结果为0，称为假阴性（FN）；如果某个类分类结果为0，如果算法预测结果也为0，称为真阴性（TN），如果算法预测结果为1，称为假阳性（FP）。

Precision： 预测为正，实际为正的概率（e.g.对所有预测患癌的患者，有多大几率真得了）
$\frac{TP}{TP+FP}$
Recall： 正例被准确预测的概率，也叫查全率，敏感性（e.g. 假设所有都得癌症了，有多大几率正确预测他们得了）
$\frac{TP}{TP+FN}$

一个算法如果有高查准率和召回率，那么说明这个算法比较好

两者之间的权衡：

对于一个逻辑回归问题，以癌症预测为例，我们之前是设定如果 $h_\theta(x)\ge0.5$ ，判断 y=1，即患癌症；如果 $h_\theta(x) < 0.5$ ，判断 y=0，即为良性肿瘤，这时候的查准率和召回率处在一个平衡的水平。

但如果以上面的方法进行预测，那么很有可能在没有准确把握的情况下将病人诊断为患癌。我们希望只有在有准确把握的情况下将病人诊断为癌症，于是修改算法如下：
$当\quad h_\theta(x)\ge0.9,\quad预测\quad y=1\\ 当\quad h_\theta(x)\le0.9,\quad预测\quad y=0$

这样子的话会导致查准率变高，召回率变低；反之，当我们想要尽可能让所有患癌的患者被正确诊断不错过最佳治疗时期，我们需要将假阴性样本提高，算法修改如下：
$当\quad h_\theta(x)\ge0.3,\quad预测\quad y=1\\ 当\quad h_\theta(x)\le0.3,\quad预测\quad y=0$

这样子的话会导致查准率变低，召回率变高。

如果我们想要比较确信为正例时才判定为正例，那么提高阈值，模型会对应高查准率，低召回率；
如果希望避免假阴性，那么降低阈值，模型会对应低查准率，高召回率

所以对大多数算法来说，我们必须要在precision和recall之间进行权衡：

$F_{1}$ score

$F_{1} = 2\frac{PR}{P+R}$
选择最大的F score

支持向量机（SVM，也叫大间距分类器）

支持向量机就是对于逻辑回归问题得到的损失函数，进行以直线替代曲线，从而起到优化的作用。

优化目标

$cost(\theta,x) = -(ylogh_{\theta}(x)+(1-y)log(1-h_{\theta}(x)))$

左图为 y=1 时得到的图像，右图是 y=0 时得到的图像。可以看到该函数为一条曲线，我们用两条直线可以得到与图中一条曲线差不多的图像，分别将左图由直线组成的函数称为 $cost_{1}(z)$ ，将右图由直线组成的函数称为 $cost_{0}(z)$ 。

逻辑回归优化目标如下：
$\mathop{min} \limits_{\theta}\frac{1}{m} \sum_{i=1}^{m} [ y^{(i)}(-log(h_{\theta}(x^{(i)})) + (1-y^{(i)})((-log(1-h_{\theta}(x^{(i)})))]+\frac{\lambda}{2m}\sum_{j=1}^{n}\theta_{j}^{2}$

我们将逻辑回归的整体优化目标做出以下改变：

将 $-logh_{\theta}(x^{(i)})$ 替换为 $cost_{1}(\theta^{T}x^{(i)})$ ,将 $-log(1-h_{\theta}(x^{(i)}))$ 替换为 $cost_{0}(\theta^{T}x^{(i)})$
由于在逻辑回归代价函数中， $\frac{1}{m}$ 只是一个常数，把它去掉并不会影响代价函数求偏导的结果，因此一般支持向量机把 $\frac{1}{m}$ 去掉；
支持向量机的正则化一般不采用在正则化项采用正则化参数 $\lambda$ ，而是在被正则化项采用参数 C 进行正则化。这在本质上没什么区别，只是写法上的不同，C 在这里的作用类似 $\frac{1}{\lambda}$

所以我们可以得到支持向量机SVM整体优化目标函数：
$\mathop{min} \limits_{\theta} C\sum_{i = 1}^{m}[y^{(i)}cost_{1}(\theta^{T}x^{(i)}) + (1-y^{(i)})cost_{0}(\theta^{T}x^{(i)})] + \frac{1}{2} \sum_{i = 1}^{n}\theta_{j}^{2}$

支持向量机并不会输出概率，而是进行直接的预测（y = 1/0）

间隔最大化

直观理解

当取到一个较大的C值时，当 $y^{(i)} = 1$ 时， $\theta^{T}x^{(i)} \ge 1$ ,当 $y^{(i)} = 0$ 时， $\theta^{T}x^{(i)} \le -1$
如果我们把优化问题看成是通过选择参数使SVM的第一项为零，那么优化问题就成为 $\mathop{min} \limits_{\theta} C \times 0 + \frac{1}{2} \sum_{i = 1}^{n}\theta_{j}^{2},s.t. \ \theta^{T}x^{(i)} \ge 1 \ if\ y^{(i)} = 1;else\ \theta^{T}x^{(i)} \le -1$
因此我们可以得到SVM的决策边界

数学原理

$\frac{1}{2} \sum_{i = 1}^{n}\theta_{j}^{2} = \frac{1}{2}(\sqrt{\theta_{1}^{2}+...+\theta_n^{2}})^{2} = \frac{1}{2}||\theta||^{2}$

进行简化：令 $\theta_{0} = 0$ ,n = 2

所以有：
$\theta^{T}x^{(i)} = p^{(i)}||\theta|| = \theta_{1}x_{1}^{(i)} + \theta_{2}x_{2}^{(i)},p^{(i)}是x^{(i)}在\theta上的投影长度（可正可负）$

决策边界转换为：

在左图中：对样本 $x^{(1)}$ ，短的红线段 $p^{(1)}$ 是样本到参数 ${{\theta }}$ 的投影，它非常短。类似地，对样本 $x^{(2)}$ ，它到 ${{\theta }}$ 的投影是粉色线段 $p^{(2)}$ ，这个投影非常短。 $p^{(2)}$ 事实上是一个负值。
由于 $p^{(i)}$ 将会是非常小的数，因此当我们考察优化目标函数的时候，对于正样本而言，我们需要 $p^{(i)}\cdot{\left|| \theta \right||} \ge1$ ,但 $p^{(i)}$ 非常小,那就表明 ${{\theta }}$ 的范数非常大。类似地，对于负样本而言 $p^{(2)}\cdot{\left|\theta \right|}<=-1$ 。 $p^{(2)}$ 会是一个非常小的数，因此唯一的办法就是 ${{\theta }}$ 的范数变大。但是我们的目标函数是希望找到一个参数 ${{\theta }}$ ，它的范数是小的。因此，这看起来不像是一个好的参数向量 ${{\theta }}$ 的选择。

为什么参数向量θ事实上是和决策边界是90度正交的？ 对任意一个线性分割样本的决策边界，看成是一个Logistic Regression。在逻辑回归中，假设已经拟合出参数θ（θ是一个向量），那么求解θ^Tx=0这个方程就可以得到决策边界。 Logistic Regression中输出函数为Sigmoid函数，临界点为z=0。 $\theta^{T} \cdot x = 0$ ，故正交。（决策边界是由 $x^{(i)}组成的$ ）

核函数

我们可以通过改造支持向量机来构造复杂的非线性分类器，这需要用到核函数。

如果我们要对以下非线性模型进行分类：

根据上图可以用f1,f2…来表示相应的多项式，那是否会有用f1,f2…表示对更好的选择？

和函数的分类问题

设定几个坐标 $l^{(i)}$ landmark；用f 值表示我们用来描述给定初始特征变量 x 与我们所给定的坐标 l (landmarks) 的接近程度：
$f_{i} = similarity(x,l^{(i)}) = k(x,l^{(i)}) = exp(-\frac{||x - l^{(i)}||^{2}}{2\sigma^2}) = exp(-\frac{\sum_{j = 1}^{n} (x_j - l_j^{(i)})^2}{2\sigma^2})$

其中 $similarity(x,l^{(i)}) = k(x,l^{(i)})$ 称为核函数，本例中使用的核函数为高斯核函数

如果 $\approx l^{(i)}$ :
$f_{i} \approx exp(-\frac{0^{2}}{2\sigma^2}) \approx 1$

如果x is far from $l^{(i)}$ :
$f_{i} \approx exp(-\frac{(large \ number)^{2}}{2\sigma^2}) \approx 0$

$\sigma$ 的值对于核函数的影响：

由上图我们可以看出， $\sigma$ 值越大，特征变量值 f 随着 x 与 $l$ 距离的变化越缓慢；反之则反。

由核函数根据输入的初始特征变量 x 和我们选择的标记点 l 计算的到的假设函数 $h_\theta(f)$ 的每一个特征变量 f，带入假设函数 $h_\theta(f)$ 并预测输入样本属于哪一类

如何选择landmark

SVM将每一个训练样本 $x^{(i)},y^{(i)})$ ,令标记 $l^{(i)}=x^{(i)}$ ，对于每一个输入 $x$ ，计算 $f_1,f_2,...,f_m$ ，令 $f_0=1$ ,生成新的特征向量 $f\in\R^{m+1}$

核函数的想法理论上可以用于其他的算法，但由于总总原因，核函数在其他算法无法很好推广，比如核函数结合逻辑回归会变得很慢

SVM参数对性能的影响

使用SVM

我们在使用SVM时不要自己手写函数，而是要调用现成的包，虽然不用具体实现SVM的细节，但我们还是要自己选择合适的参数C和核函数

在使用高斯核函数之前一定要进行特征缩放，否则可能数值大的那个特征影响大

除了高斯核函数之外也有其他的核函数，如多项式核函数（polynomial kernel）、字符串核函数（string kernel，输入是字符）…

多类分类

基本的方法与逻辑回归的多类分类思想相似。

Logistic regression vs. SVMs

已知特征数量 n（ $\in \R^{n+1}$ ,包含x₀），训练样本数量 m：

如果 $n\gg m$ ，选择l逻辑回归或线性核函数（没有核函数的SVM）。（eg. n=10,000 m=10-1000）
如果特征个数n较小，训练样本个数适当，选择高斯核函数。（eg. n=1-1000 m=10-10,000）
如果特征个数n小，训练样本非常大，增加更多特征或者选择逻辑回归或者线性核函数的SVM。（eg. n=1-1000 m=50,000+）

逻辑回归和线性核函数往往做着相似的事情，得到相似的结果。

无监督学习

K-Means算法

符号：
K : 表示我们要分类的种类个数；
$c^{(i)}$ : 当前样本 $x^{(i)}$ 所属的簇的索引或者序号；
$\mu_k$ : 表示当前第 k 个聚类的中心位置 $k\in\{1,2,...,K\}$ ；
$\mu_{c^{(i)}}$ : 当前样本 $x^{(i)}$ 所属的簇的索引代表的聚类的中心位置。

算法思路

算法输入：

K（聚簇的数目）
训练集 ${ x^{(1)}、x^{(2)}、...,x^{(m)} \}$ ,注意 $x^{(i)} \in \R^{n}(drop\ x_{0} = 1、 convention)$

思路详解：
假设我们打算将输入样本分为两个类，即 K=2。K-Means 算法在刚开始随机生成两个坐标点，这两个坐标点代表两个类。

接下来进入迭代过程：

遍历所有样本，计算每个样本与这些坐标点的距离，并将样本点归为与它距离最短的坐标点的那一类；
移动坐标点，坐标点的位置是属于该坐标点的所有样本的平均值；
迭代第一步和第二步，直到坐标点的位置不再移动。

$c^{(i)}$ 是一个索引，即如果 $x_{1},x_{3},x_{6}和x_{10}$ 都是第二簇的，那么 $c_{1},c_{3},c_{6}和c_{10}都为2$
$\mu_{k}$ 也是一个n维向量，因为 $x^{(i)}$ 都是n维向量

优化目标

$J(c^{(1)},...,c{(m)},\mu_{1},...,\mu_{K}) = \frac{1}{m} \sum_{i = 1}^{m} ||x^{(i)} - \mu_{c}^{(i)}|| ^{2}$
$\mathop{min} \limits_{c^{(1)}...,c{(m)},\mu_{1},...,\mu_{K}} J(c^{(1)},...,c{(m)},\mu_{1},...,\mu_{K})$

此代价函数也被称为失真代价函数 或者 K均值算法的失真。

KM算法分为两步，第一步相当于 $\mathop{minimize}\ J(...) \ wrt \ c^{(1)},...,c{(m)}(holding\ \mu_{1},...,\mu_{K}\ fixed)$ ，第二步相当于 $\mathop{minimize} \ J(...) \ wrt \ \mu_{1},...,\mu_{K}$

随机初始化

在随机初始化中我们一般随机选取K个样本点直接作为初始聚簇中心点。

为什么要进行随机初始化：

一眼看上去图中的样本点可以分为两个聚簇，如果随机采用样本中的两个点作为聚簇中心点，很有可能将两个聚簇中心点同时设定在同一个聚簇中，这样就会使算法陷入局部最优。解决这个问题的办法是进行多次随机初始化，找到学习结果最好的初始化聚簇中心点，如下：

如果聚类的个数比较少（2 - 10），那么多次随机初始化往往会给出一个很好的分类结果；如果要找的聚类数量很多，多次随机初始化不会有很大的改善，第一次可能就会给出一个好的结果

选取聚类数量

大多数时候聚类数量 K还是通过我们自己观察手动选取，但吴恩达老师在这里介绍了肘部法则。

作出代价函数 J 随着聚簇数量的变化的曲线，然后选取函数的畸变点（导数变化最大的点，如左图，因很像一个肘部而得名），这个点就是我们想要的聚簇分类数量最合理的点。

但大多数时候“肘部函数”会像右图那样看不出肘部在哪里，这时肘部法则的缺陷。

还有一种方法是根据其后面的表现来选择KM的聚类数：

降维(Dimensionality Reduction)

目标1：数据压缩

如果一个数据集有多个特征，且多个特征之间存在某种相关性，这样我们可以把这些具有相关性的特征通过降低维度来进行数据的压缩，以达到减少特征冗余的目的。这样既可以减少存储空间大小，也可以提高算法的速度。

2D to 1D:
3D to 2D:
把所有点投影到一个平面上

目标2：可视化

如果一个数据集包含50个特征，那么它的特征是五十维的，我们很难绘制五十维的图像来表示该数据集中的每一个样本。但如果我们把这个数据集的50个特征压缩为2个特征，那么我们可以在二维图像上清晰地看到每个样本点的分布，这样有助于我们分析问题。

降维算法：主成分分析法(PCA)

PCA算法试图找到一个低维的平面对数据进行投影，以便最小化每个样本点与投影后的对应点之间距离的平方。在使用PCA之前，要先进行均值归一化和特征规范化，使所有的特征均值为0

PCA不是线性回归

左图为线性回归，右图为PCA。虽然两种算法表面上看上去都是对样本点进行拟合。但仔细研究上图就会发现，线性回归算法根据样本点所对应的y值拟合直线；而PCA算法根据样本点同拟合直线的距离拟合直线，且PCA中的变量是平等的。

使用PCA算法

数据预处理

对于训练集： $x^{(1)},...,x^{(m)}$ ;
先计算这些样本的均值： $\mu_{j} = \frac{1}{m} \sum_{i=1}^{m} x_{j}^{(i)}$ ;
令 $x_{j}^{(i)} = x_{j}^{(i)} - \mu_{j}$ （这样的好处是能使处理后的样本均值为零）；
进行特征缩放——均值归一化。

PCA计算过程

假设我们要将数据从n维降到k维，我们首先要计算协方差（covariance matrix）：
$\Sigma = \frac{1}{m} \sum_{i=1}^{n}(x^{(i)})(x^{(i)})^{T},\Sigma是一个协方差矩阵$
$\frac{1}{m} * (X^{T}X)$

计算矩阵 $\Sigma$ 的特征向量，使用的octave公式如下（svd称为奇异值分解）：
$\times n矩阵（n*1*1*n）$
我们获得矩阵U（只需要U，不需要S和V）：
$\begin{pmatrix} | & | & & | \\ u^{(1)} & u^{(2)} & ... &u^{(n)} \\ | & | & & | \end{pmatrix} \in\R^{n \times n}$
取矩阵U的前k列，将 $\in \R^{n} \longrightarrow z \in \R^{k}$ :
$z^{(i)} = \begin{pmatrix} | & | & & | \\ u^{(1)} & u^{(2)} & ... &u^{(k)} \\ | & | & & | \end{pmatrix}^{T} x^{(i)},z^{(i)} \in \R^{k \times1},前面的矩阵也写成U_{reduce}$

主成分数量k的选择

概念一：PCA算法的平均投影误差平方：
$\frac{1}{m} \sum_{i=1}^{m}||x^{(i)} - x_{approx}^{(i)}||^{2},x^{(i)}_{approx} = U_{reduce}z^{(i)}(n*k*k*1)$

概念二：样本数据总方差（所有样本与原点距离的平方）：
$\frac{1}{m} \sum_{i=1}^{m}||x^{(i)}||^{2}$

一般来说，我们会从1开始，尝试选择最小的 k 值使得上述两个概念比值小于等于 0.01（99%的方差性会被保留）：
$\frac{\frac{1}{m} \sum_{i=1}^{m}||x^{(i)} - x_{approx}^{(i)}||^{2}}{\frac{1}{m} \sum_{i=1}^{m}||x^{(i)}||^{2}} \le0.01$

在octave中，我们可以有一个更简单的方式来进行计算：
1. 对于公式： $[U, S, V] = s v d (S i g m a)$
2. 输出矩阵S如下所示：
  $\begin{bmatrix} {s_{11}} &0&\cdots&0 \\ 0&{s_{22}}&\cdots & 0\\ \vdots&\vdots& \ddots&\vdots \\ 0&0&\cdots&{s_{nn}} \end{bmatrix} \in \R^{n \times n}$
3. 则上述选择标准公式可以用如下公式代替：
  $\frac{\sum_{i=1}^{k}s_{ii}}{\sum_{i=1}^{n}s_{ii}} \le0.01$
  $也即：\frac{\sum_{i=1}^{k}s_{ii}}{\sum_{i=1}^{n}s_{ii}} \ge 0.99$

压缩重现

可以通过 $x^{(i)}_{approx} = U_{reduce}z^{(i)}$ 来重新获得原数据（与 $x^{(i)}$ 还是有差距但基本差不多）

应用PCA的建议

监督学习中有时候输入样本的特征很多，我们也要想办法把它们减低维度，具体步骤如下：

注意：降维映射Mapping $x^{(i)} \rightarrow z^{(i)}$ 只能是在训练集中通过PCA算法运行得到，不能在交叉验证集或者测试集中一起通过PCA算法得到。在训练集中通过PCA算法得到的映射可以用于后期检验泛化程度时交叉训练集或者测试集的降维。

PCA的错误用法

使用PCA算法防止过拟合

特征数量太多是导致过拟合的一种原因。即使有时候使用PCA算法看起来可以解决过拟合的问题，但是吴恩达老师不建议这么做，最好的方式还是使用正则化，原因是：**PCA算法对于监督学习样本特征的降维是忽略掉了标签y，我们只是使用输入的 $x^{(i)}$ 让算法去寻找低维数据来近似。正因如此，PCA算法会舍弃掉一些有价值的信息。**如果使用正则化来防止过拟合的话，至少会得到与PCA相同的好结果。

在算法设计阶段直接使用PCA

在设计一个机器学习系统时，与其一上来就使用PCA进行降维，倒不如先使用原数据先跑一下，如果原数据跑得慢/占了太多内存，才考虑使用PCA来加快速度。

异常检测（Anomaly detection）

异常检测问题主要用在无监督学习。

异常检测问题可以这么理解：给定一些初始的样本，将它们称为一个类C。对于一个输入的新样本，通过算法判断该新样本是否属于类C，如果不属于，则判断该新样本存在异常（也可以这么理解：通过初始的样本训练得到一个阈值，如果新样本超出这个阈值，这判断该样本为异常样本）。

异常检测问题应用的场景是：飞机引擎的异常检测、购物网站行为不寻常用户检测、数据中心监控哪台计算机出现异常。

高斯分布/正态分布（Guassian/Normal distribution）

如果一个实数x的概率符合高斯分布（标准差为 $\sigma$ ，均值为 $\mu$ ，方差为 $\sigma^2$ ，我们把它记作 $x\approx N(\mu,\sigma^2)$
高斯分布中 $\mu$ 控制曲线的中心位置， $\sigma$ 控制曲线的宽度（ $\sigma$ 越大，曲线越矮，反之瘦高）

参数估计

对于给定的数据集，假设通过观察我们认为这些数据集的分布大致符合高斯分布。那么我们可以计算该数据集所对应的高斯分布的参数：
$\mu = \frac{1}{m} \sum^{m}_{i = 1}x^{(i)}$
$\sigma^{2} = \frac{1}{m}\sum^{m}_{i = 1}(x^{(i)} - \mu)^2$

异常检测算法

对于训练集{ ${x^{(1)},...,x^{(m)}}$ },训练集中的每个样本 $x^{(i)} \in \R^{n}$ 。我们假设训练样本的每一个特征值x_i都符合某种正态分布，则有：
$\Pi^{n} _{j = 1}p(x_{j};\mu_{j},\sigma_{j}^{2})$

得到异常算法的一般步骤：

选择可以帮我们指出那些反常样本的特征值 $x_{i}$ ；
对所选的特征值进行参数估计得到 $\mu和\sigma$
对于给定的新样本，通过上述式子计算它的正态分布概率，并与我们我设定的阈值 $\epsilon$ 作比较。如果 $\epsilon$ ，则判断该样本异常

具体的例子！！！

评估异常检测算法

对于异常检测算法，我们要有一个评估算法好坏的标准，最好是可以通过一个实数评价指标告诉我们算法的好坏。

评估思路

我们在对异常检测算法进行评估时，需要用到带标签的数据，将训练后的模型对这些带标签数据的标签预测值和带标签数据的真实标签做对比，就可以帮助我们评估一个算法的好坏。

假定我们有一些带标记的数据，y = 0时为正常样本，y = 1为异常样本。
设定训练集： $x^{(1)},x^{(2)},...,x^{(m)}$ （可假定都是正常/异常的样本)
交叉验证集合： $x_{cv}^{(1)},y_{cv}^{(1)}),...,(x_{cv}^{(m_{cv})},y_{cv}^{(m_{cv})})$
测试集： $x_{test}^{(1)},y_{test}^{(1)}),...,(x_{test}^{(m_{test})},y_{test}^{(m_{test})})$

在交叉验证集合和测试集中可以包含适当的异常样本，即y = 1的样本

步骤如下：

将训练集中的样本用高斯分布拟合，并训练出模型 $p(x_{1};\mu_{1},\sigma_{1}^{2})···p(x_{n};\mu_{n},\sigma_{n}^{2})$ ，得到 $\mu_{1},\sigma_{1}^{2},...,\mu_{n},\sigma_{n}^{2}$

你可能感兴趣的:(机器学习,人工智能,python)

视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
python相关内容二湫默 python 开发语言
1.技术面试题（1）详细描述单调栈的工作原理和应用场景答：工作原理：维护一个栈结构，栈中元素保持单调递增或单调递减的顺序。遍历数据时，新元素入栈前，弹出栈顶所有不满足单调关系的元素，再将新元素入栈，确保栈的单调性。应用场景：解决下一个元素更大的问题，如数组中后面一个元素比前面一个入栈的元素大，则需要上一个元素出栈，然后大的那个元素入栈。（2）详细描述单调队列的工作原理和应用场景答：工作原理：维护队
Python爬虫实战：利用最新技术爬取B站直播数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 html 百度
1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
基于Python的智能公示信息监控爬虫系统开发实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言音视频搜索引擎 scrapy
摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
Centos7安装uwsgi详细步骤快乐骑行^_^ 大数据 Centos7 安装uwsgi
Centos7安装uwsgi详细步骤步骤一：下载源码到centos7服务器步骤二：解压步骤三：编译环境准备步骤四：进入解压目录，并且编译uwsgi步骤五：准备测试安装是否成功的python代码testUwsgi步骤六：启动uWSGI来运行一个HTTP服务器步骤七：服务器ip+端口号访问步骤一：下载源码到centos7服务器uwsgi最新版2.0.20下载地址如下：https://github.co
uwsgi 安装
1.根据机器python环境版本进行安装pip/pip3installuwsgi安装可能报错[gcc-pthread]plugins/python/python_plugin.oInfileincludedfromplugins/python/python_plugin.c:1:plugins/python/uwsgi_python.h:2:10:fatalerror:Python.h:Nosuc
第47章 Python uWSGI 安装配置教程你得不到的念想 Python python 开发语言 linux
本文主要介绍如何部署简单的WSGI应用和常见的Web框架。以Ubuntu/Debian为例，先install依赖包：apt-getinstallbuild-essentialpython-devPythoninstalluWSGI1、通过pip命令：pipinstalluwsgi2、downloadinstall脚本：curlhttp://uwsgi.it/install|bash-sdefaul
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
Python3 内置函数 AI老李 python python
关键要点Python3的内置函数是解释器直接提供的，无需导入即可使用，涵盖数据类型转换、数学操作、序列处理等多种功能。推荐使用官方文档、菜鸟教程和腾讯云开发者社区的中文资源，适合初学者和中级学习者。资源提供详细解释和示例，学习时可结合实际项目实践。简介Python3的内置函数是编程中常用的工具，方便用户快速实现各种操作。以下是几个主要资源，帮助您学习这些函数的用法。资源推荐Python官方文档：内
安装uwsgi
安装uWSGIpip3installuwsgi启动命令/usr/local/python3/bin/uwsgi--socket0.0.0.0:8889--workersrun_server:app_server--master--processes4--threads2--stats0.0.0.0:9191在项目目录下新建[uwsgi]#web应用的入口模块名称module=run_server:
Python uWSGI 安装配置 AI老李 python python 开发语言
关键要点uWSGI安装和配置适合PythonWSGI应用，资源丰富，适合初学者和中级用户。推荐菜鸟教程和官方文档，涵盖Linux和Windows环境。配置需注意操作系统差异和框架（如Django、Flask）需求。安装步骤uWSGI安装通常通过pip或源码编译完成。以下是基本步骤：Linux：安装依赖（如build-essentialpython-dev），然后用pipinstalluwsgi或编
《Python星球日记》第35天：全栈开发（综合项目） Code_流苏 Python星球日记编程项目实战 Python全栈开发 Django Flask 后端开发博客系统
名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）专栏：《Python星球日记》，限时特价订阅中ing目录一、全栈开发概述1.全栈开发的优势2.全栈开发技能组合二、博客系统项目需求分析1.功能需求2.技术栈选择3.项目结构规划三、数据库设计1.实体关系分析2.Django模型设计四、后端开发1.Django项目创建2.视图
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
vllm本地部署bge-reranker-v2-m3模型API服务实战教程雷电法王大模型部署 linux python vscode language model
文章目录一、说明二、配置环境2.1安装虚拟环境2.2安装vllm2.3对应版本的pytorch安装2.4安装flash_attn2.5下载模型三、运行代码3.1启动服务3.2调用代码验证一、说明本文主要介绍vllm本地部署BAAI/bge-reranker-v2-m3模型API服务实战教程本文是在Ubuntu24.04+CUDA12.8+Python3.12环境下复现成功的二、配置环境2.1安装虚
《Effective Python》第十三章测试与调试——使用 pdb 进行交互式调试不学无术の码农 Effective Python 精读笔记 python 开发语言
引言本文基于《EffectivePython:125SpecificWaystoWriteBetterPython,3rdEdition》第十三章：测试与调试中的Item114:ConsiderInteractiveDebuggingwithpdb，旨在系统总结书中关于Python内置调试器pdb的使用方法，结合笔者在实际开发中的调试经验，探讨其应用场景、技巧以及延伸思考。Python开发过程中，
Python装饰器（decorator）
Python装饰器（decorator）是一种高阶函数，用于在不修改原函数代码的情况下，动态地为函数添加额外的功能。它本质上是一个接受函数作为输入并返回新函数的函数，常用于日志记录、性能测试、权限验证等场景。以下是关于Python装饰器的详细讲解：1.基本概念装饰器是一个函数，它接受一个函数作为参数，并返回一个新的函数。新函数通常会在调用原函数前后执行一些额外的逻辑。装饰器的语法糖是@decora
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
卫星分析系列之使用卫星图像量化野火烧毁面积在 Google Colab 中使用 Python 使用 Sentinel-2 图像确定森林火灾烧毁面积知识大胖 NVIDIA GPU和大语言模型开发教程 python sentinel 开发语言
简介几年前，当大多数气候模型预测如果我们不采取必要措施，洪水、热浪和野火将会发生更多时，我没想到这些不寻常的灾难现象会成为常见事件。其中，野火每年摧毁大量森林面积。如果你搜索不同地方的重大野火表格，你会发现令人震惊的统计数据，显示由于野火，地球上有多少森林面积正在消失。在本教程中，我将结合我已经发表过的关于下载、处理卫星图像和可视化野火的故事，量化加州发生的其中一场重大野火的烧毁面积。与之前的帖子
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
【收藏系列】Python 常用装饰器全解析 Gaffey大杂烩 python python 装饰器
Python常用装饰器全解析装饰器是Python中一个强大的特性，它允许我们在不修改原函数或类的情况下，扩展或修改其功能。本文将详细介绍几个最常用的内置装饰器。Python装饰器速查表（一句话用途）装饰器一句话作用概述@classmethod定义一个类方法，第一个参数是类本身（cls），常用于工厂函数或操作类属性。@staticmethod定义一个不依赖实例或类的工具方法，无需self或cls参数
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
python中plus_Python token.PLUS属性代码示例
#需要导入模块:importtoken[as别名]#或者:fromtokenimportPLUS[as别名]deftest_exact_type(self):self.assertExactTypeEqual('()',token.LPAR,token.RPAR)self.assertExactTypeEqual('[]',token.LSQB,token.RSQB)self.assertExac
三网BGP服务器——CDN加速的底层基石群联云防护小杜安全问题汇总服务器 python 运维游戏安全自动化网络
为什么跨网访问会成为业务性能杀手？场景痛点当电信用户访问联通机房的资源时，平均延迟高达120ms以上，而跨网丢包率可达15%。传统单线机房导致30%的用户体验直接下降。BGP协议的核心价值#三网路由优化模拟器（Python3）importrandomdefbgp_route_selection(user_isp,cdn_nodes):#用户ISP：1=电信2=移动3=联通#节点示例：{'node1
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
Python入门--day04--Python 推导式、常见语句和内置函数总结 the time zips by #Python基础 python 开发语言
文章目录前言一、推导式1.列表推导式2.集合推导式3.字典推导式4.生成器推导式二、常见语句1赋值语句2.控制语句2.1条件语句2.1.1if-elif-else2.1.2match-case2.2循环语句2.2.1for循环2.2.2while循环2.3循环控制语句2.3.1break2.3.2continue2.3.3pass3.range语句3.函数定义语句4.异常处理语句4.1try-ex
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

吴恩达机器学习笔记（自用）

吴恩达机器学习

机器学习的定义

什么是机器学习？

机器学习算法

1.监督学习（Supervised Learning）

2.无监督学习（Unsupervised Learning）

单变量线性回归

模型描述（Model Representation）

代价函数

梯度下降

线性回归中的梯度下降

凸函数（convex function）

多变量线性回归

多元梯度下降法

特征缩放（Feature Scaling）

学习率（Learning rate）

特征和多项式回归

正规方程(Normal equation)(区别于迭代方法的直接解法）

推导过程

正规方程在矩阵不可逆的情况下的解决方式

逻辑回归(Logistic Regression)

假设表示(Hypothesis resprentation)

决策界限（Decision Boundary）

代价函数

简化代价函数

梯度下降

高级优化算法

多元分类（Multiclass classification）

正则化(Regularization)

过拟合和欠拟合(overfitting&overfitting)

代价函数（Cost function）

线性回归和逻辑回归的正则化

线性回归

逻辑回归

神经网络

模型展示

神经网络前向传播

简单的例子

多元分类

代价函数

反向传播

理解反向传播

展开参数

梯度检测（Gradient checking）

随机初始化（Random initialization）

Putting it together

机器学习的细节

评估假设(Evaluating a hypothesis)

线性回归

逻辑回归

模型选择

诊断方差和偏差（Diagnosing variance vs. bias）

正则化和偏差、方差

学习曲线（Learning curve）

高偏差情况

高方差情况

方法

机器学习系统设计

误差分析（Error analysis）

不对称分类的误差估计（Error metrics for skewed classes）

查准率和召回率（precision recall）：

两者之间的权衡：

F 1 F_{1} F1​ score

支持向量机（SVM，也叫大间距分类器）

优化目标

间隔最大化

直观理解

数学原理

核函数

和函数的分类问题

如何选择landmark

SVM参数对性能的影响

使用SVM

多类分类

Logistic regression vs. SVMs

无监督学习

K-Means算法

算法思路

优化目标

$F_{1}$ score