二三TP

机器学习主要知识点整理

概率问题
各种对比
- LR vs SVM
- - LR 对比 SVM
  - 如何选择LR和SVM
- 决策树 vs LR
- GBDT vs LR
- AdaBoost vs GBDT
- GBDT vs XGBoost
- CART vs ID3 vs C4.5
- Boosting vs Bagging
第一章绪论
第二章模型评估与选择
- 1.评估方法
- 2.评估指标
- 3.泛化误差期望 = 偏差+方差+噪声
- 4.归一化
- 5.正则化
- - Q：L1比L2更稀疏
  - - （1）梯度值
    - （2）先验概率
    - （3）等高线图形方法
    - （4）函数叠加方法
  - Q：为什么权重变小可以缓解过拟合
- 6.过拟合与欠拟合
- - （1）降低过拟合：
  - （2）降低欠拟合：
第三章线性模型
- 1.线性模型的优点
- 2.一元线性回归
- 3.多元线性回归
- 4.对数几率回归（LR）
- - （1）二分类，广义线性模型，用Sigmoid
  - （2）优点
  - （3）缺点
  - （4）对数损失函数==极大似然函数取对数
  - （5）极大似然法求解w和b
  - （6）推导
  - （7）为什么用极大似然而不用例如平方损失做优化
  - （8）重复特征对结果没啥影响，就是慢，相当于每个特征作用变为原来1/n
  - （9）用Sigmoid的理由
  - （10）LR和SVM的相同
  - （11）LR vs SVM
  - （12）如何选择LR和SVM
  - （13）LR如何解决线性不可分问题
  - （14）LR离散化连续数值
- 5.最大熵模型：学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。
- 6.线性判别分析LDA
- - （1）优点：计算速度快、充分利用先验知识
  - （2）缺点：非高斯分布时不好（PCA同）、降维后维数最多为n-1，维度高类别少时不好使。
  - （3）投影到一条直线上，使同类样例的投影点尽可能接近、异类样例的投影点尽可能远离
  - （4）广义瑞利商：类内散度除以类间散度
- 7.多分类 OvO、OvR、MvM
- 8.数据类别不平衡：调整分类阈值、欠采样、过采样
- 9.交叉熵、相对熵（KL散度）、互信息
第六章支持向量机SVM
- 1. SVM优点
- 2. SVM缺点
- 3. 为什么SVM转换到对偶问题：对偶问题好求解；可以引入核函数
- 4. SMO算法：每次固定两个α以外的参数，然后更新这俩
- 5. 为什么映射到高维：如果原始空间是有限维，即属性数有限，那么一定存在一个高维特征空间使样本可分
- 6. 常用核函数
- 7.拉格朗日乘子法的条件：目标函数和约束条件都连续可微（目标函数为凸优化）
- 8.LR和SVM的相同
- 9.LR vs SVM
- 10.SVR是一个回归模型，允许f(x)与y有至多epsilon的误差
- 11. 缺失值情况下模型选择
第四章决策树DT
- 1.CART vs ID3 vs C4.5
- 2.信息熵 & 信息增益
- 3.信息增益率
- 4.基尼指数 & 基尼值
- 5.预剪枝和后剪枝
- 6.连续值处理：二分法进行离散化，得到众多属性，找到信息增益最大的那个作为划分点
- 7.缺失值处理（C4.5）：
- 8.CART剪枝：在训练集找到剪枝后和剪枝前损失相同时候对应的α和此时的子树，不断剪枝直到根节点，形成子树序列，根据验证集选择最优子树
- 9.决策树vs LR
- 10.预剪枝停止条件
- 11.树模型不能太稀疏
第八章集成学习
- 1.根据霍夫丁不等式，多个弱学习器集成的错误率指数下降
- 2.AdaBoost每轮调整样本权重，更关注上一次没学好的样本
- 3.分类器组合（相当于加权投票）
- 4.AdaBoost：加性模型，损失是指数函数，学习算法为前向分步算法时的二分类学习方法
- 5.GBDT：二叉cart树，分类、回归，树的累加没有α系数，先计算已有t-1树的负梯度，在平方损失下就是残差，让待学习的树去拟合负梯度（残差）
- 6.XGBoost
- - （1）目标函数在t-1那棵树上进行了二阶泰勒展开，且自带了正则化（限制树的数量和w参数二范式）
  - （2）寻找划分点
  - （3）近似算法优点：减少划分点数目，提高速度；一定程度防止过拟合；存int，开销小
  - （4）并行特征选择：XGB的并行主要是在特征选择的时候将数据放到多个block上，然后使用多线程并行得到各个特征的最佳划分点，各个基学习器还是串行训练的
  - （5）缺失值处理
  - （6）参数
  - （7）特征重要性
- 7.AdaBoost vs GBDT
- 8.GBDT vs XGBoost
- 9.GBDT vs LR
- 10.Bagging：基于自助采样，造好多树，因为采样所以树都不一样；分类投票，回归平均
- 11.RF随机森林：在Bagging基础上，引入随机属性选择，随机选k个（推荐k=log2 d）
- 12.随机森林简单易实现、计算开销小，性能不错
- 13.Boosting vs Bagging
- 14.为什么决策树当基分类器：
- 15.Bagging注重方差，Boosting注重偏差
第九章聚类
- Kmeans
- 密度聚类 DBSCAN
- 层次聚类 AGNES
深度学习
- 1.优化算法：SGD、Adam、牛顿法
- 2. 激活函数
- - sigmoid
  - Tanh（输出0均值）
  - ReLU
  - Softmax、交叉熵
- 3. 平方损失 & 交叉熵损失
- - 适合场景
  - 为什么平方损失不适合Sigmoid或Softmax
- 4. BN、LN等
- - 为什么要归一化
  - 公式
- 5.dropout
- - 以一定概率p让神经元输出，有可能就不输出
  - 但是要保证数据分布相同，训练的时候除以p，或者测试的时候乘p
  - 解决过拟合
  - 使用位置（rnn和cnn不用）
- 6.过拟合与欠拟合
- - （1）降低过拟合：
  - （2）降低欠拟合：
- 7. 参数初始化方法
- 8. RNN & LSTM & GRU
- - RNN
  - LSTM（用了三个门来控制信息传递的程度）
  - GRU（整合了一下LSTM的遗忘门和输入门，还有cell跟hidden）
- 9. 梯度消失和爆炸怎么解决
- 10.交叉熵、相对熵（KL散度）、互信息
- 11. LSTM为什么用sigmoid和tanh
- 12. LSTM的tanh能不能换ReLU
- 13. pytorch实现一个attention
- 14. [1574.删除最短的子数组使剩余数组有序](https://leetcode-cn.com/problems/shortest-subarray-to-be-removed-to-make-array-sorted/)

概率问题

贝叶斯估计推理

各种对比

LR vs SVM

LR 对比 SVM

LR是参数模型，SVM是非参数模型
LR用对数似然函数，SVM用hinge loss
SVM只考虑支持向量，LR全局
LR给概率，SVM只能分类

如何选择LR和SVM

如果Feature的数量很大，跟样本数量差不多，这时候选用LR或者是Linear Kernel的SVM
如果Feature的数量比较小，样本数量一般，不算大也不算小，选用SVM+Gaussian Kernel
如果Feature的数量比较小，而样本数量很多，需要手工添加一些feature变成第一种情况。或者上深度学习

决策树 vs LR

GBDT vs LR

决策边界：线性回归是一条直线；LR是曲线；GBDT可能是多条线
GBDT并不一定总好于其他（没有免费午餐原则）

AdaBoost vs GBDT

AdaBoost：调整样本权值；组合方式加权多数表决；一般用来分类
GBDT：向负梯度方向优化；将弱分类器叠加；用cart树；目标函数可选多；一般用来回归

GBDT vs XGBoost

Xgb是GBDT的工程实现
XGBoost显示加入了正则项，GBDT在构建完树之后才剪枝
GBDT使用一阶导，XGB用了二阶泰勒展开
GBDT用cart树，XGB支持多种，包括线性分类器
GBDT每轮用全部数据，XGBoost类似随机森林，支持采样（列抽样）
GBDT没有缺失值处理，XGBoost能处理
XGBoost并行计算

CART vs ID3 vs C4.5

Boosting vs Bagging

第一章绪论

第二章模型评估与选择

1.评估方法

留出法、交叉验证、自助法（有放回采样，bagging，没选中的概率1/e=0.368）

2.评估指标

（1）查准率Precision P = TP/(TP + FP)，查全率Recall R = TP/(TP+FN)
p-r曲线比面积，F1是调和平均，或者Fβ是加权调和平均
（2）ROC与AUC
TPR = TP/TP+FN 敏感性所有正样本中有多少被预测为正例
FPR = FP/TN+FP 特异性所有负样本中有多少被预测为正例
当正负样本的分布发生变化时，ROC曲线的形状能够基本保持不变，而P-R曲线的形状一般会发生较剧烈的变化。
（3）AUC计算方法
AUC是衡量二分类模型优劣的一种评价指标，表示预测的正例排在负例前面的概率。

计算梯形面积
算rank
另一种物理意义

3.泛化误差期望 = 偏差+方差+噪声

4.归一化

Min-Max Scaling、Z-Score Normalization，决策树不需要归一化，其它通过梯度下降的要

5.正则化

Q：L1比L2更稀疏

（1）梯度值

L1：
L2：

L2和L1在w的系数不同，导致w趋向于0的时候参数减小就很慢，而L1就容易变0。

（2）先验概率

L1范数：拉普拉斯分布 L2范数：高斯分布

（3）等高线图形方法

（4）函数叠加方法

Q：为什么权重变小可以缓解过拟合

A：在过拟合的时，拟合函数的系数往往非常大。过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。
而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。

6.过拟合与欠拟合

（1）降低过拟合：

扩增数据
降低模型复杂度（采取合适的模型、降低特征数量、BN、Dropout、EarlyStopping）
正则化
集成学习

（2）降低欠拟合：

添加特征
增加模型复杂度
减小正则化系数

第三章线性模型

1.线性模型的优点

形式简单、易于建模、有很好的可解释性

2.一元线性回归

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”
对w和b求偏导得0后解得：

3.多元线性回归

X为满秩矩阵或正定矩阵时

反之，有多个解，可引入正则化进行约束选择

4.对数几率回归（LR）

（1）二分类，广义线性模型，用Sigmoid

（2）优点

形式简单，模型的可解释性非常好
模型效果不错，可并行开发
训练速度较快
资源占用小
方便输出结果调整（输出的是概率，定阈值就行）

（3）缺点

准确率不高（模型简单）；
难处理数据不平衡；
无法筛选特征。

（4）对数损失函数==极大似然函数取对数

（5）极大似然法求解w和b

对率回归模型最大化“对数似然”（loglikelihood），即令每个样本属于其真实标记的概率越大越好

（6）推导

根据
 ，
有

一阶导：

二阶导：

梯度下降法：

牛顿法：

（7）为什么用极大似然而不用例如平方损失做优化

用极大似然函数梯度下降和xy相关，与sigmoid无关，比较稳定，如果用平方损失函数更新就与sigmoid的梯度相关，其梯度不大于0.25，训练缓慢。

（8）重复特征对结果没啥影响，就是慢，相当于每个特征作用变为原来1/n

（9）用Sigmoid的理由

伯努利分布属于指数族分布，带入后求解得到映射函数为Sigmoid
伯努利分布和指数族分布的概率公式进行对比，可以得到 $T (Y) = Y$ ，然后 $\theta$ ，其中 $\eta = w^Tx = ln \frac{\theta}{1-\theta}$ ，可以反推出 $\theta = \frac{e^\eta}{1 + e^\eta}$ ，所以有 $\frac{e^\eta}{1 + e^\eta} = \frac{e^{w^Tx}}{1 + e^{w^Tx}}$ ，也就是说连接函数的形式就是sigmoid
二分类，带入最大熵模型的特征函数求得的概率公式就是使用了Sigmoid。

（10）LR和SVM的相同

可以分类，一般二分类
可以加正则化（SVM自带）
监督学习
判别模型

（11）LR vs SVM

LR是参数模型，SVM是非参数模型
LR用对数似然函数，SVM用hinge loss
SVM只考虑支持向量，LR全局
LR给概率，SVM只能分类

（12）如何选择LR和SVM

如果Feature的数量很大，跟样本数量差不多，这时候选用LR或者是Linear Kernel的SVM
如果Feature的数量比较小，样本数量一般，不算大也不算小，选用SVM+Gaussian Kernel
如果Feature的数量比较小，而样本数量很多，需要手工添加一些feature变成第一种情况。或者上深度学习

（13）LR如何解决线性不可分问题

核函数
扩展LR算法，提出FM（因子分解）算法；
特征组合

（14）LR离散化连续数值

离散特征容易增减，易于模型快速迭代；
稀疏向量内积乘法计算快，好存储；
鲁棒性强（年龄>30，如果有个300的不离散gg）；
离散化后每个变量具有单独的权重，相当于引入非线性，提升模型表达能力；
可以特征交叉；
模型更稳定，类似鲁棒性；简化模型，防止过拟合。

5.最大熵模型：学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。

6.线性判别分析LDA

（1）优点：计算速度快、充分利用先验知识

（2）缺点：非高斯分布时不好（PCA同）、降维后维数最多为n-1，维度高类别少时不好使。

（3）投影到一条直线上，使同类样例的投影点尽可能接近、异类样例的投影点尽可能远离

（4）广义瑞利商：类内散度除以类间散度

设类内散度，
则变为

7.多分类 OvO、OvR、MvM

8.数据类别不平衡：调整分类阈值、欠采样、过采样

9.交叉熵、相对熵（KL散度）、互信息

相对熵 = 交叉熵 - 熵：

互信息（信息熵）：X,Y的联合分布P(X,Y)与乘积分布P(X)P(Y)的相对熵，等于熵-条件熵

第六章支持向量机SVM

1. SVM优点

凸优化问题全局最优
线性和非线性（核方法）都能用；
只取决于支持向量

2. SVM缺点

二次规划问题求解将涉及m阶矩阵的计算(m为样本的个数), 因此SVM不适用于超大数据集。(SMO算法可以缓解这个问题)复杂度 O(km2)
对缺失数据敏感，无处理策略
模型稳定性低，输入的微小变化会使得模型难以收敛

3. 为什么SVM转换到对偶问题：对偶问题好求解；可以引入核函数

4. SMO算法：每次固定两个α以外的参数，然后更新这俩

求解

5. 为什么映射到高维：如果原始空间是有限维，即属性数有限，那么一定存在一个高维特征空间使样本可分

6. 常用核函数

如果Feature的数量很大，跟样本数量差不多，这时候选用LR或者是Linear Kernel的SVM
如果Feature的数量比较小，样本数量一般，不算大也不算小，选用SVM+Gaussian Kernel
如果Feature的数量比较小，而样本数量很多，需要手工添加一些feature变成第一种情况。或者上深度学习

7.拉格朗日乘子法的条件：目标函数和约束条件都连续可微（目标函数为凸优化）

8.LR和SVM的相同

分类，一般二分类
可以加正则化（SVM自带）
监督学习
判别模型
缺失值敏感

9.LR vs SVM

LR是参数模型，SVM是非参数模型
LR用对数似然函数，SVM用hinge loss
SVM只考虑支持向量，LR全局
LR给概率，SVM只能分类

10.SVR是一个回归模型，允许f(x)与y有至多epsilon的误差

11. 缺失值情况下模型选择

数据量很小，用朴素贝叶斯
数据量适中或者较大，用树模型，优先 xgboost
数据量较大，也可以用神经网络
避免使用距离度量相关的模型，如KNN和SVM

第四章决策树DT

1.CART vs ID3 vs C4.5

2.信息熵 & 信息增益

信息熵

信息增益：

偏好“序号”

3.信息增益率

偏好取值数目少的

4.基尼指数 & 基尼值

基尼值

5.预剪枝和后剪枝

预剪枝：决策树生成过程中停止
后剪枝：生成完整决策树，然后判断能否替换

6.连续值处理：二分法进行离散化，得到众多属性，找到信息增益最大的那个作为划分点

7.缺失值处理（C4.5）：

缺失值属性的信息增益：无缺失值样本所占的比例乘以无缺失值样本子集的信息增益。
样本划分：将缺失值样本按不同的概率划分到了所有分支中，而概率则等于无缺失值样本在每个分支中所占的比例。
测试的时候就是得到一堆的概率分布，取概率最大的那个。

8.CART剪枝：在训练集找到剪枝后和剪枝前损失相同时候对应的α和此时的子树，不断剪枝直到根节点，形成子树序列，根据验证集选择最优子树

9.决策树vs LR

10.预剪枝停止条件

只剩一类了
信息熵不怎么变
设置最小叶子节点的样本数

11.树模型不能太稀疏

在模型都普遍带有正则项时，LR是不让权重W过大，而树控制的是深度、叶节点数量，当在高维系数数据中，某类样本刚好在某一维特征上都是1，而因为稀疏性，其他样本都是0，这样就导致树很容易根据这个维度将样本分为两类，导致在测试集上效果变差，即容易过拟合。而对于LR模型，如果针对这个维度的W特别大会被正则修正。

第八章集成学习

1.根据霍夫丁不等式，多个弱学习器集成的错误率指数下降

2.AdaBoost每轮调整样本权重，更关注上一次没学好的样本

3.分类器组合（相当于加权投票）

4.AdaBoost：加性模型，损失是指数函数，学习算法为前向分步算法时的二分类学习方法

5.GBDT：二叉cart树，分类、回归，树的累加没有α系数，先计算已有t-1树的负梯度，在平方损失下就是残差，让待学习的树去拟合负梯度（残差）

6.XGBoost

（1）目标函数在t-1那棵树上进行了二阶泰勒展开，且自带了正则化（限制树的数量和w参数二范式）

（2）寻找划分点

GBDT：遍历所有特征和所有取值找增益最大的那个分裂
XGBoost：近似算法，分箱（分位数法、加权分位数法），减少划分点；将特征的值根据候选划分点分到对应的桶中，对桶中所有样本的一阶导数值和二阶导数值进行累加，得到统计值G, H后，计算每个候选划分点的分裂增益，找到最佳划分点
加权分位数法：不是简单的均匀划分，而是对二阶导统计量占比均匀划分

（3）近似算法优点：减少划分点数目，提高速度；一定程度防止过拟合；存int，开销小

（4）并行特征选择：XGB的并行主要是在特征选择的时候将数据放到多个block上，然后使用多线程并行得到各个特征的最佳划分点，各个基学习器还是串行训练的

（5）缺失值处理

为稀疏/缺失值选择一个默认方向；将稀疏/缺失值分别放在左分支和右分支，计算各自对
应的增益。比较两者的增益来选择往左还是往右作为默认方向。
预测：如果训练的时候特征出现过缺失值，就按照当时划分的方向走，不然就默认一个

（6）参数

（7）特征重要性

①gain 增益意味着相应的特征对通过对模型中的每个树采取每个特征的贡献而计算出的模型的相对贡献。与其他特征相比，此度量值的较高值意味着它对于生成预测更为重要。
②cover 覆盖度量指的是与此功能相关的观测的相对数量。例如，如果您有100个观察值，4个特征和3棵树，并且假设特征1分别用于决定树1，树2和树3中10个，5个和2个观察值的叶节点;那么该度量将计算此功能的覆盖范围为10 + 5 + 2 = 17个观测值。这将针对所有4项功能进行计算，并将以17个百分比表示所有功能的覆盖指标。
③freq 频率（频率）是表示特定特征在模型树中发生的相对次数的百分比。在上面的例子中，如果feature1发生在2个分裂中，1个分裂和3个分裂在每个树1，树2和树3中;那么特征1的权重将是2 + 1 + 3 = 6。特征1的频率被计算为其在所有特征的权重上的百分比权重。

7.AdaBoost vs GBDT

AdaBoost：调整样本权值；组合方式加权多数表决；一般用来分类
GBDT：向负梯度方向优化；将弱分类器叠加；用cart树；目标函数可选多；一般用来回归

8.GBDT vs XGBoost

Xgb是GBDT的工程实现
XGBoost显示加入了正则项，GBDT在构建完树之后才剪枝
GBDT使用一阶导，XGB用了二阶泰勒展开
GBDT用cart树，XGB支持多种，包括线性分类器
GBDT每轮用全部数据，XGBoost类似随机森林，支持采样（列抽样）
GBDT没有缺失值处理，XGBoost能处理
XGBoost并行计算

9.GBDT vs LR

决策边界：线性回归是一条直线；LR是曲线；GBDT可能是多条线
GBDT并不一定总好于其他（没有免费午餐原则）

10.Bagging：基于自助采样，造好多树，因为采样所以树都不一样；分类投票，回归平均

11.RF随机森林：在Bagging基础上，引入随机属性选择，随机选k个（推荐k=log2 d）

12.随机森林简单易实现、计算开销小，性能不错

13.Boosting vs Bagging

14.为什么决策树当基分类器：

方便整合样本权重到训练过程，不需要过采样
调节树的层数可以调节表达能力和泛化能力
树的稳定性差，多样性好，适合，随机性高

15.Bagging注重方差，Boosting注重偏差

第九章聚类

Kmeans

流程
1. 定中心
2. 定类别
3. 反复1和2
4. 损失函数
  K-means的本质是移动中心点，使其逐渐靠近数据“中心”，即最小化目标函数，目标函数为每个点到其簇质心的距离平方和：
缺点
1. 受初值和离群值的影响，每次的结果都不稳定
2. 结果通常不是全局最优而是局部最优
3. 无法很好的解决数据簇分布差别比较大的情况
4. 不太适用于离散分类
5. 样本点只能被分到单一的类中
优点
1. 针对大数据集是可伸缩和高效的
2. 时间复杂度低
3. 局部最优已经满足基本需求
调优
1. 数据归一化和离群点处理
2. 选k值：手肘法、轮廓系数法
  
  轮廓系数（s）法就是算类内不相似度（a）和类间不相似度（b），s越大越好。
3. 采用核函数
改进
1. kmeans++
2. ISODATA：不用固定k，当某类样本数过少时，删去该类；当某类样本数过多时，分成两类

密度聚类 DBSCAN

基于密度的聚类，假设聚类结构能够通过样本分布的紧密程度确定

层次聚类 AGNES

树形聚类结构
初始将每个样本看作一个簇，距离最近的两个簇合并，该过程不断重复，直至到达预设的聚类簇个数

深度学习

1.优化算法：SGD、Adam、牛顿法

牛顿法：二阶泰勒展开求偏导为0，求解，收敛速度快，计算复杂度大
SGD：朝负梯度方向下降
动量法：当前时刻的更新与上一时刻有关
AdaGrad：更新频率低的参数可以拥有较大的更新步幅，更新频率高的参数步幅可以较小。梯度除以根号下梯度平方的累加

RMSPop：AdaGrad的改进。下面不是 $(1+\beta)$ 是 $(1-\beta)$ ，作为衰减因子引入的。

Adam：记录梯度的一阶矩和二阶矩，也就是历史与当前的平均和历史与当前的平方的平均

m是一阶矩，v是二阶矩
深度学习 — 优化入门二（SGD、动量(Momentum)、AdaGrad、RMSProp、Adam详解）

2. 激活函数

sigmoid

缺点：

梯度爆炸（不太容易）
梯度消失
幂运算，耗时
不是零均值，会导致样本只往一个方向更新

Tanh（输出0均值）

ReLU

优点：

解决梯度消失
计算速度快
收敛速度快
输出一部分0，产生稀疏性，缓解过拟合
缺点：
不是全区间可导
不是0均值
Dead ReLU Problem （初始化不合适 or 学习率太大，可以改用其他初始化方法、调节lr或者用adagrad等）

Softmax、交叉熵

Softmax
交叉熵
求导简单，对于对的那个参数直接-1，对于错的那个参数不用动
缺点：数值不稳定，可以减去最大值，有个0，分母至少就有个1了
进一步改进，不用全算完分数再求log，可以把分子分母的log变成log分子减去log分母，就不会溢出了
softmax溢出问题

3. 平方损失 & 交叉熵损失

交叉熵损失

适合场景

平方损失适合输出连续，且最后一层不含Sigmoid或Softmax的神经网络
交叉熵损失适合二分类或多分类场景

为什么平方损失不适合Sigmoid或Softmax

后一项是激活函数的导数，sigmoid的导数数值太小了，用交叉熵的话，导数是是线性的，不会出现学习速度过慢的问题

4. BN、LN等

BN是以通道为索引，对NHW（其中N是样本数）进行均值方差计算
LN是按照CHW，与batch无关

为什么要归一化

为了保证数据在每一层的数据分布都相同，不至于样本一会儿大一会儿小还得找平衡

公式

计算均值方差，归一化，变化重构还原回去

5.dropout

以一定概率p让神经元输出，有可能就不输出

但是要保证数据分布相同，训练的时候除以p，或者测试的时候乘p

解决过拟合

取平均，类似集成学习
减少神经元之间复杂的共适应关系
类似于性别在生物进化中的角色

使用位置（rnn和cnn不用）

在神经元数量多的全连接层之类的地方前面用，dropout-FC-BN-ReLU

6.过拟合与欠拟合

（1）降低过拟合：

扩增数据
降低模型复杂度（采取合适的模型、降低特征数量、BN、Dropout、EarlyStopping）
正则化
集成学习

（2）降低欠拟合：

添加特征
增加模型复杂度
减小正则化系数

7. 参数初始化方法

正交初始化（缓解RNN参数连乘的梯度消失、爆炸）
随机初始化
Xavier初始化（保持输入输出的方差一致，有ReLU的时候不对了就）
kaiming初始化（解决ReLU时候Xavier不好使的问题，a用来衡量负数的数量，抵消ReLU对方差的影响）

8. RNN & LSTM & GRU

RNN

参数固定，每一时刻信息由当前输入和上一时刻的隐藏层决定

LSTM（用了三个门来控制信息传递的程度）

遗忘门
输入门
遗忘门和输入门一起作用
输出门

GRU（整合了一下LSTM的遗忘门和输入门，还有cell跟hidden）

9. 梯度消失和爆炸怎么解决

用ReLU、maxout等激活函数
用BN
梯度裁剪
权重正则化
残差

10.交叉熵、相对熵（KL散度）、互信息

相对熵 = 交叉熵 - 熵：

互信息（信息增益）：X,Y的联合分布P(X,Y)与乘积分布P(X)P(Y)的相对熵，等于熵-条件熵

11. LSTM为什么用sigmoid和tanh

sigmoid当门控，0-1，用来遗忘和保留
tanh用来线性变换，-1~1,0中心，在0附近梯度大，收敛快

12. LSTM的tanh能不能换ReLU

ReLU在这里只能缓解梯度爆炸，不能根本上解决，而且会让RNN输出值很大（也有人实验说ReLU效果还行）

13. pytorch实现一个attention

import torch

class self_attention(torch.nn.Module):
    def __init__(self):
        super(self_attention, self).__init__()
        self.query = torch.nn.Linear(128, 128)
        self.key = torch.nn.Linear(128, 128)
        self.value = torch.nn.Linear(128, 128)
        self.softmax = torch.nn.Softmax(-1)
    def forward(self, x):
        q = self.query(x)
        k = self.key(x).permute(0,2,1)
        v = self.value(x) # 8 * 64 * 128
        attention_map = self.softmax(torch.matmul(q, k)) # 8 * 64 * 64
        output = torch.matmul(attention_map, v)
        return output

x = torch.randn([8, 64, 128])
m = self_attention()
m(x)

14. 1574.删除最短的子数组使剩余数组有序

class Solution:
    def findLengthOfShortestSubarray(self, arr: List[int]) -> int:
        n = len(arr)
        left = 0
        for i in range(1,n):
            if arr[i] >= arr[i-1]:
                left = i
            else:
                break
        if left == n-1: return 0

        right = n-1
        for i in range(n-2, -1,-1):
            if arr[i] <= arr[i+1]:
                right = i
            else:
                break
        
        ans = min(n+1-left, right)

        for i in range(left, -1,-1):
            j = right
            while j < n and arr[i] > arr[j]:
                j += 1
            ans = min(ans, j-i-1)
        return ans

你可能感兴趣的:(算法,机器学习)

手机租赁系统开发核心技术解析红点租赁系统开发其他
内容概要如果把手机租赁系统比作一台精密运转的智能管家，那它的骨架可不是用代码随便搭的乐高积木。这玩意儿得同时搞定三件事：让用户像刷短视频一样流畅下单，让风控系统比小区门禁还难糊弄，还得让物流信息比外卖小哥的定位更透明。想象一下，当你在APP里滑动挑选最新款折叠屏手机时，后台其实正在上演三重加密的信用评分大战——你的芝麻信用分、电商平台消费记录甚至社交账号活跃度，都被塞进算法熔炉里炼成租赁权限的通行
蓝桥杯Python赛道备赛——Day6：算术（二）（数学问题） SKY YEAM 蓝桥杯备赛蓝桥杯 python 职场和发展
本期博客是蓝桥杯备赛中算术（数学问题）的第二期，包括：快速幂算法、逆元（模意义下的倒数）、组合数计算和排列数计算。每一种数学问题都在给出定义的同时，给出了其求解方法的示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法算术（二）（数学问题）一、快速幂算法二、逆元（模意义下的倒数）三、组合数计算四、排列数计算一、快速幂算法1.定义：快速计算大指数幂的算法。2.算法原理：二进
蓝桥杯Python赛道备赛——Day1：基础算法 SKY YEAM 蓝桥杯备赛蓝桥杯 python 算法
本博客就蓝桥杯中的基础算法（这一部分说是算法，但更是一些简单的操作）进行罗列，包括：枚举、模拟、前缀和、差分、二分查找、进制转换、贪心、位运算和双指针。每一个算法都在给出概念解释的同时，给出了示例代码，以供低年级师弟师妹们学习和练习。前序知识：（1）Python基础语法（2）PythonOOP（面向对象编程）基础算法（操作）一、枚举二、模拟三、前缀和四、差分五、二分查找六、进制转换七、贪心八、位运
数据集格式转换——json2txt、xml2txt、txt2json【复制就能用】 kay_545 YOLO11改进有效涨点 python 人工智能机器学习
秋招面试专栏推荐：深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转本专栏所有程序均经过测试，可成功执行专栏地址：YOLO11入门+改进涨点——点击即可跳转欢迎订阅目录json2txt脚本xml2txttxt2json
量子计算+AI：未来AI Agent的计算范式 AI天才研究院计算 ChatGPT DeepSeek RL 强化学习 agent agi 推理模型智能驾驶
量子计算+AI：未来AIAgent的计算范式关键词：量子计算，人工智能，AIAgent，量子算法，量子机器学习，量子优化，量子数据处理摘要：量子计算和人工智能（AI）的结合正在改变AIAgent的计算范式。通过量子计算的超强算力和独特性质，AIAgent在数据处理、算法优化和决策能力方面展现出巨大潜力。本文将详细探讨量子计算与AI结合的核心概念、算法原理、系统架构，并通过实际案例展示量子AIAge
AI人工智能深度学习算法：在量子计算中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着科技的不断发展，人工智能和量子计算成为了当今世界的热门话题。人工智能的深度学习算法在处理大规模数据和复杂任务方面取得了显著的成果，而量子计算则具有强大的并行计算能力和高效的信息处理能力。将人工智能与量子计算相结合，为解决一些具有挑战性的问题提供了新的思路和方法。本文将探讨人工智能深度学习算法在量子计算中的应用，包括其背景、意义和应用场景。2.核心概念与联系在人工智能中，深度学习是一
Android第四次面试总结（基础算法篇）每次的天空 android 面试算法
一、反转链表//定义链表节点类classListNode{//节点存储的值intval;//指向下一个节点的引用ListNodenext;//构造函数，用于初始化节点的值ListNode(intx){val=x;}}classSolution{//反转链表的方法publicListNodereverseList(ListNodehead){//初始化前一个节点为nullListNodeprev=n
芒格的“清晰思考“方法在量子计算商业模式设计中的应用 AGI大模型与大数据研究院 DeepSeek 量子计算网络运维 ai
芒格的"清晰思考"方法在量子计算商业模式设计中的应用关键词：芒格、清晰思考方法、量子计算、商业模式设计、应用策略摘要：本文聚焦于将芒格的“清晰思考”方法应用于量子计算商业模式设计。首先介绍了背景信息，包括目的范围、预期读者等。接着阐述了核心概念，如“清晰思考”方法和量子计算商业模式的原理及联系，并给出相应示意图和流程图。详细讲解了核心算法原理及操作步骤，结合数学模型和公式进行说明。通过项目实战案例
分块查找算法 1haooo 算法 java 算法开发语言数据结构
分块的原则前一块的最大数据，小于后一窥啊中所有的数据（块内无序，块间有序）块数数量一般等于数字的个数开根号。比如：16个数字一般分为4块左右。publicclassblockSearch{publicstaticvoidmain(String[]args){int[]arr={16,5,9,12,21,18,32,23,37,26,45,34,50,48,61,52,73,66};//共18个元素
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
通俗的方式解释“零钱兑换”问题程序员龙一 C++C/C++每日一问 leetcode c++零钱兑换
“零钱兑换”是一道经典的算法题目，其主要问题是：给定不同面额的硬币和一个总金额，求出凑成总金额所需的最少硬币个数。如果没有任何一种硬币组合能组成总金额，返回-1。解题思路动态规划：使用动态规划是解决零钱兑换问题的常用方法。定义一个数组dp，其中dp[i]表示凑成金额i所需的最少硬币个数。状态转移方程：对于每个金额i，遍历所有硬币面额coin，如果i>=coin，则dp[i]=min(dp[i],d
【加密】常用加密算法 llzcxdb java 开发语言
非对称加密非对称加密是一种加密技术，也称为公钥加密。它使用一对密钥：公钥和私钥。公钥可以向任何人公开，用于加密信息，而私钥则是保密的，用于解密信息。这种加密方法确保了数据的安全传输，因为只有拥有对应私钥的人才能解密通过公钥加密的信息。非对称加密的一个主要特点是，即使公钥被他人获取，他们也无法解密密文，因为缺乏与之配对的私钥。常见的非对称加密算法包括RSA、椭圆曲线加密（ECC）和数字签名算法（DS
机器学习之向量化珠峰日记 AI理论与实践机器学习人工智能
文章目录向量化是什么为什么要向量化提升计算效率简化代码与增强可读性适配模型需求怎么做向量化数据预处理特征提取特征选择向量构建机器学习与深度学习中向量化的区别数据特征提取方式机器学习深度学习模型结构与复杂度机器学习深度学习计算资源需求机器学习深度学习数据规模适应性机器学习深度学习向量化是什么向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，现实中的各类数据，像文本、图像
从零精通机器学习：线性回归入门吴师兄大模型 0基础实现机器学习入门到精通机器学习线性回归人工智能 python 算法回归开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
基于改进ISODATA算法的负荷场景曲线聚类（matlab代码）电力程序小学童聚类 matlab ISODATA算法风电光伏
目录1主要内容聚类中心选取步骤核方法2部分代码3程序结果4程序链接1主要内容程序复现文献《基于机器学习的短期电力负荷预测和负荷曲线聚类研究》第三章《基于改进ISODATA算法的负荷场景曲线聚类》模型，该方法不止适用于负荷聚类，同样适用于风光等可再生能源聚类，只需要改变聚类的数据即可，该方法的通用性和可创新性强。该代码实现一种基于改进ISODATA算法的负荷场景曲线聚类方法，代码中，主要做了四种聚类
《基于机器学习的负荷曲线聚类算法对比与改进：K-L-isodata的创新性研究》 TWHiwhjig 机器学习算法聚类
基于机器学习的负荷曲线聚类包括kmeansisodata和改进的L-isodata以及在其基础上再次进行改进的K-L-isodata(有创新性)，四者通过评价指标进行了对比精品代码可修改性极高有参考文献ID:93150688324967700自律的电气人基于机器学习的负荷曲线聚类是一种基于数据分析和模式识别的技术，它可以帮助我们对系统的负荷变化进行分类和理解。在负荷曲线聚类的研究中，K-means
动态规划-第4篇藤椒味的火腿肠真不错动态规划算法
19.最⼤⼦数组和（medium）1.题⽬链接：53.最大子数组和-力扣（LeetCode）2..解法（动态规划）：算法思路：1.状态表⽰：对于线性dp，我们可以⽤「经验+题⽬要求」来定义状态表⽰：i.以某个位置为结尾，巴拉巴拉；ii.以某个位置为起点，巴拉巴拉。这⾥我们选择⽐较常⽤的⽅式，以「某个位置为结尾」，结合「题⽬要求」，定义⼀个状态表⽰：dp[i]表⽰：以i位置元素为结尾的「所有⼦数组」
机器学习Pandas_learn4 XW-ABAP 机器学习机器学习 pandas 人工智能
importpandasaspddefcalculate_goods_covariance():#定义商品销售数据字典goods_sales_data={"时期":["一期","二期","三期","四期"],"苹果":[15,16,3,2],"橘子":[12,14,16,18],"石榴":[11,8,7,1]}#将字典转换为DataFrame对象goods_dataframe=pd.DataFra
光学工程师中年危机光学设计培训激光雷达光学设计 zemax 光学光学工程
一、技术能力突围：向高价值领域迁移‌‌瞄准增量市场‌‌激光雷达与自动驾驶‌：将光学设计经验迁移至激光雷达光路优化（如VCSEL阵列准直算法）、热稳定性补偿算法（解决车载环境温度漂移问题）‌15。‌AR/VR光学模组‌：参与超表面透镜（Metasurface）设计，结合波导与全息技术提升显示效率，掌握LightTools或LucidShape光场仿真‌37。‌强化算法能力‌‌光学-算法交叉技能‌：从
P11451 [USACO24DEC] It‘s Mooin‘ Time B（枚举算法）爱干饭的boy 算法竞赛题目超详细解析算法 c语言 c++青少年编程贪心算法推荐算法
题目描述FarmerJohn正在试图向Elsie描述他最喜欢的USACO竞赛，但她很难理解为什么他这么喜欢它。他说「竞赛中我最喜欢的部分是Bessie说『现在是哞哞时间』并在整个竞赛中一直哞哞叫」。Elsie仍然不理解，所以FarmerJohn将竞赛以文本文件形式下载，并试图解释他的意思。竞赛被定义为一个长度为$N$（$3≤N≤20000$）的小写字母字符串。一种哞叫一般地定义为子串$c_ic_j
高亮动态物体——前景提取与动态物体检测器（opencv实现） WenJGo AI学习之路 Python之路 opencv 计算机视觉人工智能深度学习神经网络
目录代码说明1.导入库2.创建背景建模对象3.打开视频源4.逐帧处理视频5.应用背景建模获得前景掩码6.形态学操作去除噪声6.1定义形态学核6.2开运算去除噪点6.3膨胀操作填补前景区域空洞7.轮廓检测识别动态物体8.绘制轮廓和边界框9.显示处理结果10.退出控制与资源释放整体代码效果展示代码说明主要功能是通过背景建模检测视频中的运动目标。其工作流程如下：读取视频帧；利用MOG2算法生成前景掩码；
蓝桥杯Python赛道备赛——Day8：动态规划（基础）案例分析 SKY YEAM 蓝桥杯备赛蓝桥杯 python 动态规划
本博客就上一期中讨论的蓝桥杯动态规划基础问题（包括：递推、记忆化搜索、最长公共子序列和最长上升子序列），给出了六个常见的案例问题。每一个问题都给出了其求解方法的示例代码，以供低年级师弟师妹们学习和练习。如有不懂，欢迎在评论区提问。前序知识：（1）Python基础语法（2）Day1：基础算法（3）Day7：动态规划（基础）动态规划（基础）案例分析一、递推应用：爬楼梯问题二、递推应用：零钱兑换三、记忆
如何使用Python对Excel、CSV文件完成数据清洗与预处理？ Python 集中营 python数据分析应用 python excel 开发语言
在数据分析和机器学习项目中，数据清洗与预处理是不可或缺的重要环节。现实世界中的数据往往是不完整、不一致且含有噪声的，这些问题会严重影响数据分析的质量和机器学习模型的性能。Python作为一门强大的编程语言，提供了多种库和工具来帮助我们高效地完成数据清洗与预处理任务，其中最常用的库包括Pandas、NumPy、SciPy等。本文将详细介绍如何使用Python对Excel和CSV格式的数据文件进行清洗
思维链在可控核聚变等离子体控制中的应用：AI驱动的能源革命 AI大模型应用之禅 DeepSeek 人工智能能源 ai
概述《思维链在可控核聚变等离子体控制中的应用：AI驱动的能源革命》旨在探讨AI技术在可控核聚变等离子体控制中的实际应用，以及如何通过思维链实现能源革命。本文将从以下几个方面展开讨论：核聚变等离子体控制背景、思维链技术介绍、AI在等离子体控制中的应用、算法原理与实现、系统设计与实现、项目实战以及最佳实践与展望。一、核聚变等离子体控制背景核聚变是一种通过将轻原子核在高温高压下聚合成更重的原子核，释放出
AI 创业团队：技术人才与商业人才的完美搭配 yaxin0765 人工智能
目录一、技术人才的核心价值二、商业人才的关键作用三、实现完美搭配的策略在AI创业的赛道上，一个优秀的团队是决定企业成败的关键因素。而在这个团队中，技术人才与商业人才的完美搭配，如同鸟之双翼、车之两轮，缺一不可。他们各自发挥独特优势，相互协作，共同推动AI创业企业驶向成功的彼岸。一、技术人才的核心价值奠定技术根基：技术人才是AI创业企业的技术基石。他们精通各类AI算法、编程语言和开发框架，能够搭建起
理解深度学习1-简介 shangjg3 PyTorch深度学习实战深度学习人工智能
人工智能（AI）旨在打造模仿智能行为的系统。它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。深度神经网络是一类机器学习模型，将其应用到数据上的过程称为深度学习。目前，深度网络是最强大和最实用的机器学习模型之一，常见于日常生活中。我们常常用自然语言处理（Nat
使用 CryptoJS 实现 AES 解密：动态数据解密示例木觞清 javascript
在现代加密应用中，AES（高级加密标准）是一种广泛使用的对称加密算法。它的安全性高、效率好，适合用于各种加密任务。今天，我们将通过一个实际的示例，展示如何使用CryptoJS实现AES解密，解密动态数据。CryptoJS是一个基于JavaScript的加密库，它支持AES、DES等多种常见的加密算法。本文将详细介绍如何使用CryptoJS解密AES加密的数据。1.引入CryptoJS库首先，确保你
MySQL算法篇（一）先睡算法
Hash算法，也称为哈希算法或散列算法，是一种将任意长度的输入（如文本、图片等）通过某种规则转换成固定长度的输出的算法。这个输出通常被称为哈希值、哈希码或哈希摘要。以下是一些关于哈希算法的关键点：不可逆性：理论上，从哈希值不能逆向推导出原始输入数据。确定性：对于同一个输入，无论何时何地使用相同的哈希算法，都会得到相同的哈希值。快速计算：哈希算法通常设计得非常高效，可以快速计算出哈希值。抗冲突性：不
基于生成对抗网络（GAN）的图像超分辨率实战：从SRGAN到ESRGAN Evaporator Core #深度学习强化学习生成模型生成对抗网络人工智能神经网络
图像超分辨率（ImageSuper-Resolution）是一种通过算法将低分辨率图像转换为高分辨率图像的技术，广泛应用于医学影像、卫星图像和视频增强等领域。生成对抗网络（GAN）是图像超分辨率的经典方法，而增强型超分辨率生成对抗网络（ESRGAN）则通过引入残差网络和感知损失进一步提升了图像质量。本文将通过一个完整的实战案例，展示如何使用SRGAN和ESRGAN进行图像超分辨率，并提供详细的代码
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

机器学习主要知识点整理

目录

概率问题

各种对比

LR vs SVM

LR 对比 SVM

如何选择LR和SVM

决策树 vs LR

GBDT vs LR

AdaBoost vs GBDT

GBDT vs XGBoost

CART vs ID3 vs C4.5

Boosting vs Bagging

第一章 绪论

第二章 模型评估与选择

1.评估方法

2.评估指标

3.泛化误差期望 = 偏差+方差+噪声

4.归一化

5.正则化

Q：L1比L2更稀疏

（1）梯度值

（2）先验概率

（3）等高线图形方法

（4）函数叠加方法

Q：为什么权重变小可以缓解过拟合

6.过拟合与欠拟合

（1）降低过拟合：

（2）降低欠拟合：

第三章 线性模型

1.线性模型的优点

2.一元线性回归

3.多元线性回归

4.对数几率回归（LR）

（1） 二分类，广义线性模型，用Sigmoid

（2）优点

（3）缺点

（4）对数损失函数==极大似然函数取对数

（5）极大似然法求解w和b

（6）推导

（7）为什么用极大似然而不用例如平方损失做优化

（8）重复特征对结果没啥影响，就是慢，相当于每个特征作用变为原来1/n

（9）用Sigmoid的理由

（10）LR和SVM的相同

（11）LR vs SVM

（12）如何选择LR和SVM

（13）LR如何解决线性不可分问题

（14）LR离散化连续数值

5.最大熵模型：学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。

6.线性判别分析LDA

（1）优点：计算速度快、充分利用先验知识

（2）缺点：非高斯分布时不好（PCA同）、降维后维数最多为n-1，维度高类别少时不好使。

（3）投影到一条直线上，使同类样例的投影点尽可能接近、异类样例的投影点尽可能远离

（4）广义瑞利商：类内散度除以类间散度

7.多分类 OvO、OvR、MvM

8.数据类别不平衡：调整分类阈值、欠采样、过采样

9.交叉熵、相对熵（KL散度）、互信息

第六章 支持向量机SVM

1. SVM优点

2. SVM缺点

3. 为什么SVM转换到对偶问题：对偶问题好求解；可以引入核函数

4. SMO算法：每次固定两个α以外的参数，然后更新这俩

5. 为什么映射到高维：如果原始空间是有限维，即属性数有限，那么一定存在一个高维特征空间使样本可分

6. 常用核函数

7.拉格朗日乘子法的条件：目标函数和约束条件都连续可微（目标函数为凸优化）

8.LR和SVM的相同

9.LR vs SVM

10.SVR是一个回归模型，允许f(x)与y有至多epsilon的误差

11. 缺失值情况下模型选择

第四章决策树DT

1.CART vs ID3 vs C4.5

2.信息熵 & 信息增益

3.信息增益率

4.基尼指数 & 基尼值

5.预剪枝和后剪枝

6.连续值处理：二分法进行离散化，得到众多属性，找到信息增益最大的那个作为划分点

7.缺失值处理（C4.5）：

8.CART剪枝：在训练集找到剪枝后和剪枝前损失相同时候对应的α和此时的子树，不断剪枝直到根节点，形成子树序列，根据验证集选择最优子树

9.决策树vs LR

10.预剪枝停止条件

第一章绪论

第二章模型评估与选择

第三章线性模型

（1）二分类，广义线性模型，用Sigmoid

第六章支持向量机SVM

第九章聚类