晓乐丶

【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导

2021年7月11日

第0章-导学

深度学习：狭义地来说，就是具有较多层的神经网络。
整个学习过程; 先看西瓜书，在看 Datawhale吃瓜教程. ，最后要看南瓜书。
2021年7月12日

第一章绪论

1.1引言

机器学习：将“经验”以“数据”的方式存储下来 $\Rightarrow$ 产生模型算法-学习算法 $\Rightarrow$ 产生模型-分析新的数据-给出判断
训练模型-学习器

1.2基本术语

样本：记录一个事件或者一个对象的描述，通常假设 独立同分布
数据集：包含有若干个示例的样本。
属性或者特征：反映事件或对象在某方面的表现或性质的选项。 $\Rightarrow$ 张成的一个空间称为属性空间
维数：样本空间D中包含了m个示例，每个示例中是d维的样本空间，d称为维数。
训练集：训练过程中使用的数据-训练数据，每一个样本称为训练样本，集合称为训练集。
标记空间：包含样例的集合是“标记空间”或者“输出空间”。
根据预测的结果不同，学习任务的种类也会不同：
只涉及两个样本：
二分类文体 $\Rightarrow$ 一个类称为“正类”，一个称为“反类”
学习主要分为两类：
1.有监督学习 $\rightarrow$ 样本有标记，
举例：预测的是连续值 $\rightarrow$ 回归
预测的是离散值 $\rightarrow$ 分类
2.无监督学习 $\rightarrow$ 样本无标记举例：聚类-分为若干个组，每一个组称为一个“簇”，学习前无标记，并且很多标签是未知的。
测试和测试样本学习完模型后，进行预测的过程称为“测试”，被预测的样本称之为“测试样本”。
泛化能力:学习模型适应新样本的能力。

1.3 假设空间

假设空间一般很大，会存在一个假设集合，也是版本空间
书中西瓜案例的假设空间和版本空间：

PS：这个地方书中说如果所有假设不存在，不存在好瓜坏瓜。于是整个假设空间的样本数为： $4 * 3 * 3 + 1 = 37$
也就是说：
色泽：青绿、乌黑、浅白、其他
根蒂：硬挺、蜷缩、其他
敲声：清脆、混浊、浊响

1.4 归纳偏好

奥卡姆剃刀原理：如果有多个假设与观察一致，则选择最简单的那个。
前提：所有样本独立同分布，也就是说所有问题出现的机会和所有问题同等重要 $\Rightarrow$ 没有免费的午餐定理NFL定理
考虑一个二分类的总误差和学习算法的关系时，经过计算，总误差和学习算法无关！

1.5发展历程

1950年图灵测试的文章中就提到了机器学习的可能。
决策树：以信息论为基础，以信息熵的最小化为目标，模拟了人对概念进行判定的树形流程。
二十世纪五十年代：
基于神经网络的连接主义学习：感知机、Adaline
基于逻辑的符号主义学习：结构学习系统、概念学习系统、基于逻辑的归纳学习系统
以决策理论为基础的学习技术强化学习技术：学习机器。
1980年美国卡耐基梅隆大学举行了第一届机器学习研讨会。
1986年Machine Learning机器学习专刊创刊。
R.S.Michalaski把机器学习分为四类：
1.从样例中学习
2.在问题求解和规划中学习
3.通过观察和发现学习
4.从指令中学习
《人工智能手册》把机器学习分为四类：
1.机械学习——“死记硬背式学习”——没有学习只有信息存储和检索
2.示教学习
3.类比学习
4.归纳学习——“从样例中学习”
二十世纪八十年代：机器学习成为解决知识工程瓶颈问题的关键
“从样例中学习"的主流是符号学习–例如决策树
基于逻辑学习的主流代表–归纳逻辑程序设计-可看做机器学习和逻辑程序设计的交叉，使用一阶逻辑进行知识表示，通过修改和扩充逻辑表达式来完成数据的归纳。
另外一个主流是基于神经网络的连接主义学习，这个产生的是黑箱模型，最大的局限性是其试错性，学习过程涉及大量参数，参数设计缺乏理论指导，主要靠手工"调参”。
二十世纪九十年代中期：
"统计学习"闪亮登场，比如支持向量机、核方法
二十一世纪初，连接主义学习卷土重来，掀起"深度学习"的热潮，主要原因是因为数据大了，计算能力强了。

1.6应用现状

机器学习目前已经覆盖我们生活的方方面面，自动驾驶、推送、甚至影响到政治生活。
总而言之，学就完事。
2021年7月13日
PS：好多地方看傻了。。怎么可以这样算，原来还能这样算。。。

第二章模型评估与选择

2.1经验误差与过拟合

错误率：分类错误的样本数占样本总数的比例称为"错误率"。
精度：精度=1-错误率
例如：

m个样本中，有a个样本分类错误
错误率E=a/m，
精度=1-a/m

错误率：学习器中在训练集上的误差称之为"训练误差"或"经验误差"。
泛化误差：在新样本的误差。
过拟合：训练样本学习的太好了，泛化能力下降。
欠拟合：训练样本学习的较差，泛化能力也不高。
导致过拟合的原因最常见的是学习能力过于强大。
欠拟合比较容易克服，过拟合很麻烦。

评估方法

需要使用"测试集"，利用测试集的泛化误差的近似。
一般在包含m个样例的数据集D中，既要训练S，又要测试T，下面是几种常见的做法。

2.2.1留出法

直接拆分为两个互斥的集合。
问题：如果训练集S包含太多，T小，所以评估不准确，如果T多，S小， S与D的差别更大，所以T评估完也和D有很大的差别。降低了评估结果的保真性。
常见做法：2/3~4/5的样本训练，剩下的样本测试。

2.2.2交叉验证法

数据集D划分为k个子集，k折交叉验证p次，也就是最终的评估结果是p次的k折交叉验证结果的均值。
常见的：10次10折交叉验证法

交叉验证法特例：
留一法：
数据集D，包含m个样本，k=m。
缺陷：训练m个模型开销叫大。

2.2.3自助法

给定包含m个样本的数据集D，采样产生D’，每次随机从D中挑选一个样本，拷贝放入D’，然后在将该样本放入D，重复m次，所以我们就得到了包含m个样本的数据集D’，显然，D中有一部分会在D’中多次出现。
样本在m次采样中不被采到的概率是 $1-1/m）^m$

也就是说，D中的数据有36.8%的概率出现在D’中。
优点：在数据量较小的情况下有用，而且从初始数据集中产生了多个不同的训练集，对集成学习有很大的好处。
缺点：自助法产生的数据集会改变初始数据集的分布，引入估计偏差。

2.2.4调参与最终模型

参数配置不同，学得模型的性能会有显著的差别。
学习算法的很多参数在实数范围内取值，可能不行，所以要对每个参数选定范围和变化步长，但是这样的参数往往不是最佳值，但是是权衡计算开销和性能折中的结果。
例子:如果有3个参数，每个参数5个候选值，每一组训练/测试集有 $5^3=125$ 个模型考查。

2.3性能度量

2.3.1 错误率与精度

性能度量：衡量模型泛化能力的评价标准

错误率和精度的定义：

更一般的：

2.3.2 查准率、查全率与F1

TP+FP+TN+FN=样例总数

横坐标，查全率，纵坐标查准率，比较P-R曲线的面积，面积越大越好。
平衡点：查准率=查全率的值
** F1度量**

F1的一般形式F_β

β>0度量了查全率对查准率的重要性，β=1退化为F1，β>1查全率更大影响，β<1查准率更大影响。
二分类混淆矩阵时：

2.3.3 ROC与AUC

ROC全称"受试者工作特征"
横轴是：“假正例率”–FPR
纵轴是：“真正例率”–TPR

AUC的面积越大越好。ACU面积可估算为：

2.3.4 代价敏感错误率与代价曲线

2.4 比较检验

利用统计假设检验，默认错误率为性能度量，用ε表示。

2.4.1假设检验

ε=ε₀

2.4.2交叉验证t检验

PS：看哭了。。

2.4.3 McNemar检验

2.4.4 Friedman检验与Nemenyi后续检验

2.5 偏差与方差

期望预测：

方差度量了同样大小得训练集的波动所导致学习性能的变化，也就是刻画了数据扰动所造成的影响。
噪声表达了当前任务上任何学习算法所能达到的期望泛化误差的下界，刻画了学习问题本身的难度。
偏差-方差分解说买，泛化性能由学习算法的能力、数据的充分性以及学习的本身难度所共同决定的。
偏差和方差是有冲突的。如图。

2021年7月14日

第三章线性模型

3.1基本形式

这里其实可以看到，每个特征的权重比就显现出来了，而且书中说，更强大的非线性结构是引入层级结构或者高级映射获得的。所以这种线性模型非常基础也非常重要。

3.2 线性回归

将每一个属性的种类，要数字化，如果说性别，男和女，那就可以是数字1和0，如果说身高，高中低，那就是1, 0.5, 0.,如果没有关系的话那就转化为三维向量。
西红柿（1,0,0），芒果（0，1,0），西瓜（0,0,1）。
回归任务最常用的性能度量是均方误差，因为均方误差有比较好的几何意义，对应了最常用的**“欧氏距离”，最小二乘法就是基于均方误差进行模型求解的。
求解均方误差最小化的过程称为参数估计**

其实就是对w，b分别求导，令其等于0，找到最优的闭式解。
我看到这里就非常好奇，什么是闭式解
后来一看，好家伙，就是解析解。

在解组件特性相关的方程式时，大多数的时候都要去解偏微分或积分式，才能求得其正确的解。依照求解方法的不同，可以分成以下两类：解析解和数值解。
解析解(analytical solution)就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解, 他人可以利用这些公式计算各自的问题.
所谓的解析解是一种包含分式、三角函数、指数、对数甚至无限级数等基本函数的解的形式。
用来求得解析解的方法称为解析法〈analytic techniques〉，解析法即是常见的微积分技巧，例如分离变量法等。
解析解为一封闭形式〈closed-form〉的函数，因此对任一独立变量，我们皆可将其带入解析函数求得正确的相应变量。
因此，解析解也被称为闭式解（closed-form solution）
数值解(numerical solution)是采用某种计算方法,如有限元的方法, 数值逼近,插值的方法, 得到的解.别人只能利用数值计算的结果, 而不能随意给出自变量并求出计算值.
当无法藉由微积分技巧求得解析解时，这时便只能利用数值分析的方式来求得其数值解了。数值方法变成了求解过程重要的媒介。
在数值分析的过程中，首先会将原方程式加以简化，以利后来的数值分析。
例如，会先将微分符号改为差分符号等。然后再用传统的代数方法将原方程式改写成另一方便求解的形式。
这时的求解步骤就是将一独立变量带入，求得相应变量的近似解。
因此利用此方法所求得的相应变量为一个个分离的数值〈discrete values〉，不似解析解为一连续的分布，而且因为经过上述简化的动作，所以可以想见正确性将不如解析法来的好。
数值解是在特定条件下通过近似计算得出来的一个数值，而解析解为该函数的解析式。
解析解就是给出解的具体函数形式，从解的表达式中就可以算出任何对应值；数值解就是用数值方法求出解，给出一系列对应的自变量和解。

对于多元回归，会把数据集表示为m×(d+1)的矩阵，就是d个属性值后，最后一列为1.
如果满秩矩阵或者正定，那有唯一的解析解。现实中很多不是满秩矩阵，那就有很多个解，常见的做法是引入正则化项。

如果我们的线性模型是指数级变化的，那么我们就要对其取个对数，也就是让w，b试图逼近于y。

3.3对数几率回归

单位阶跃函数来了，它来了！这个主要是考虑分类任务，至于为什么这么激动，主要是因为这个在数字信号处理上面非常常见这个函数。

转化成一个连续的函数就是对数几率函数，这就是对数几率回归，不需要假设分布，不仅仅可以得到近似的概率也可以预测出类别。
最主要的：对数函数是凸函数，也就是任意阶可导，这样就非常方便寻找最优解。

自己看书的时候，后验概率其实就是一种条件概率。后面关于凸优化理论的优化方法牛顿法和梯度下降法都不太熟悉。

3.4线性判别分析

线性判别分析(LDA)的思想就是把一类的点，投影到同一条直线上，并且它们尽可能接近，不一样的点尽可能的远离。

就是说，让不同的点尽量远离，让同类的点尽量接近，这就是转化后的最大化的目标。
定义类内散度矩阵，然后再定义类间散度矩阵，最后发现LDA最大化的目标就是广义的瑞利商。

而且这个LDA可以利用贝叶斯决策理论来证明，两类数据同先验，满足高斯分布而且协方差相等的情况下，LDA达到最优分类。多分类任务中，LDA也可以做相应推广。

3.5 多分类学习

多分类问题的话，可以拆解成多个二分类，那么拆解的方法就有一对一(OvO)、一对余(OvR)，多对多(MvM)。
如果一对一的话，可以拆分 $N (N - 1) / 2$ 个二分类的任务，
如果一对余，那就是一个当正例，其他的都放在一起算做反例。可以拆分 $N$ 个二分类的任务，

如果多对多，就比较特殊，不能随便把一堆分为正，一堆分为反，需要采用比如最简单的“纠错输出码”的技术。

纠错输出码的编码越长，纠错能力也就越强。而编码越长，意味着所需要的训练分类器就越多，所以编码长度有限，而且就是说这个两个不同种类的编码距离余越远，纠错能力就越强。

3.6 类别不平衡问题

前面就是觉得每个分类的样本数大概都差不多，如果有一个998个正例，2个反例，只要将结果改成正例，那么正确率就99.8%
需要使用“再缩放”，这个基本策略主要有三种方法：
1，直接去除一些反例，使得正反案例相等。—欠采样–减少案例
2，对正例过采样，增加正例，再进行学习。—过采样–增加案例
3，原始案例不变，然后对预测值调整，-----“阈值移动”

可以很明显的看到，过采样算法开销要远远大于欠采样，同时过采样的算法非常重要，不然就会过拟合，比较著名的是SMOTE算法。对正例插值然后过采样。
欠采样比较著名的算法是EasyEnsemble，利用集成学习的机制，将反例分为若干个集合供不同的学习器学习，这样每个学习器都欠采样，全局来看又不会失去重要信息。

3.7上面是预习看书，下面是视频课的理解

机器学习的三个要素：

对于正定的验证就是求海塞矩阵，然后判断正定性。

概率质量函数的要求： P(1)=P₁ P(0)=P₀

说到这里我想到了我当时学习决策树的时候用到了这种信息论的相关知识。信息熵其实就是度量随机变量X的不确定性。
信息熵：

条件熵：

信息增益：

这个信息增益和下面这个相对熵我感觉一个东西：

2021年7月21日

第四章决策树

4.1 基本流程

决策树是一个递归流程，有三种情形会导致递归返回：
1，当前结点的样本都属于同一类，无需划分。
2，当前属性集为空，或者所有样本属性上取值相同。–该结点记作叶结点，将类别设定为该结点的所含样本最多的类别。
3，当前结点包含的样本合集为空，不能划分。

4.2 划分选择

请参考第三章扩展信息信息增益和信息熵

4.2.3 基尼指数

4.3剪枝处理

剪枝有两种，预剪枝和后剪枝

4.4 连续与缺失值

4.4.1 连续值

4.4.2 缺失值处理

推广信息增益，缺失越多降低越多的权重。

4.5 多变量决策树

使用斜划分来解决对变量决策树的问题。

2021年7月24日

第五章-神经网络

神经元模型
在这个模型中，神经元接收到来自n个其它神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值将神经元的阈值进行比较，然后通过“激活函数”处理以产生神经元的输出。

感知机与多层网络
感知机有两层神经元组成，输入层接收外层输入信号传递给输出层，输出层是M-P神经元，亦称“阈值逻辑单元”。

感知机能容易实现逻辑与、或、非运算。感知机学习规则（权重的学习），感知机权重调整方式如下：

若感知机对训练样例(x, y)预测正确，则y^ = y，则感知机不发生变化，否则将根据错误的程度进行权重调整。
感知机只有输出层神经元进行激活函数(阶跃函数)处理，即只拥有一层功能神经元，学习能力有限。与、或、非问题都是线性可分的，若两类模式是线性可分的，即存在一个线性超平面能将它们分开，则感知机的学习过程一定会收敛而求得适当的权向量w；否则感知学习过程将会发生振荡，w难以稳定下来，不能求得合适姐，eg：”异或“的非线性可分问题。
解决非线性可分问题–> 多层神经元。多层前馈神经网络。神经网络的学习过程，就是根据训练数据来调整神经元之间的“连接权”以及每个功能神经元的阈值；即神经网络学到的东西蕴涵在连接权与阈值中。
误差逆传播算法
训练多层神经网络 --> 误差逆传播算法（BP算法）。通常说“BP网络”一般是指用BP算法训练的多层前馈神经网络。
补充：神经网络输入处理：离散属性需先进行处理，若属性值间存在“序”关系则可进行连续化；否则通常转化为k维向量，k为属性值数。
BP算法基于梯度下降策略，以目标的负梯度方向对参数进行调整。BP算法的目标是要最小化训练集D上的累积误差。(补充：不同层次的学习率可设置不一样)
“标准BP算法”每次仅针对一个训练样例更新连接权和阈值，而且对不同样例进行更新的效果可能出现“抵消”现象。”累积BP算法“直接针对累积误差最小化，它在读取整个训练集D一遍后才对参数进行更新，其参数更新频率低得多。标准BP算法和累积BP算法的区别类似于随机梯度下降(SGD)与标准梯度下降之间的区别。
只需一个包含足够多神经元的隐层，多层前馈网络就能以任意精度逼近任意复杂度的连接函数 --> BP神经网络过拟合。两种策略缓解BP网络的过拟合：1.根据训练集和测试集的误差“早停”。2.正则化(网络复杂度：连接权与阈值的平方和)。λ用于对经验误差与网络复杂度这两项进行折中，常通过交叉验证法来估计。

全局最小与局部最小

参数空间内梯度为零的点，只要其误差函数值小于邻点的误差函数值，就是局部极小点。基于梯度的搜索是使用最广泛的参数寻优方法。

跳出局部极小的策略：a.多种不同参数值初始化多个神经网络，按标准方法训练后，取其中误差最小的解作为最终参数。b.使用”模拟退火“技术，模拟退火在每一步都以一定的概率接受比当前解更差的结果（次优解）。c.随机梯度下降。d.遗传算法。

其它常见神经网络
RBF（径向基函数）网络是一种单隐层前馈神经网络，它使用径向基函数作为隐层神经元激活函数，输出层则是对隐层神经元输出的线性组合。
ART（自适应谐振理论）网络[竞争型学习，无监督学习策略，网络的输出神经元相互竞争，每一时刻仅有一个竞争获胜的神经元被激活]，ART网络由比较层、识别层、识别阈值和重置模块构成。神经元数目可在训练过程中动态增长以增加新的模式类。
SOM（自组织映射）网络是一种竞争学习型的无监督神经网络，它能将高维输入数据映射到低维空间（通常为二维），同时保持输入数据在高维空间的拓扑结构，即将高维空间中相似的样本点映射到网络输出层的邻近神经元。

级联相关网络（学习网络结构），两个主要成分：”级联“和”相关“。”相关“是指通过最大化新神经元的输出与网络误差之间的相关性来训练相关的参数。级联相关网络无需设置网络层数、隐层神经元数目，且训练速度较快，但其在数据较小时易陷入过拟合。

Elman网络（递归神经网络）允许网络中出现环形结构，从而可让一些神经元的输出反馈回来作为输入信息。

Boltzmann机，基于能量的模型。Boltzmann机训练的过程是将每个训练样本视为一个状态向量，使其出现的概率尽可能大。标准的Boltzmann机是一个全连接图，现实中常用”受限Boltzmann机(RBM)“，受限Boltzmann机仅保留显层与隐层之间的连接，从而将Boltzmann机结构由完全图简化为二部图。

深度学习
增加隐层的数目比增加隐层神经元的数目更有效，因为增加隐层数不仅增加了拥有激活函数的神经元数目，还增加了激活函数嵌套的层数。But，多隐层神经网络难以直接用经典算法（eg:BP算法）进行训练，因为误差在多隐层内逆传播时，往往会”发散“而不能收敛到稳定状态。
无监督逐层训练是多隐层网络训练的有效手段：预训练+微调。
”权共享“：让一组神经元使用相同的连接权，eg：CNN，使用相同的卷积滤波器提取输入的特征。

2021年7月26日

第六章支持向量机

6.1间隔与支持向量

SVM的基本型：

6.2 对偶问题

要求满足KKT条件:

SMO算法思路：

6.3 核函数

常用核函数：

6.4 软间隔和正则化

其实这一章整个的假设都是训练的样本在整个样本空间都是线性可分的，也就是存在一个超平面可以将不同的类别完全分开。
硬间隔：就是所有都符合要求
软间隔：允许有一些样本不满足约束条件。
会有很多种损失函数：

6.5 支持向量回归

6.6 核方法

学习笔记出处：

Datawhale吃瓜教程

麻烦大家一键三连~~

Datawhale吃瓜教程.
本次组队队伍名称：冰镇西瓜队
感谢Datawhale开源社区

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
拥有断舍离的心态，过精简生活--《断舍离》读书笔记爱吃丸子的小樱桃
不知不觉间房间里的东西越来越多，虽然摆放整齐，但也时常会觉得空间逼仄，令人心生烦闷。抱着断舍离的态度，我开始阅读《断舍离》这本书，希望从书中能找到一些有效的方法，帮助我实现空间、物品上的断舍离。《断舍离》是日本作家山下英子通过自己的经历、思考和实践总结而成的，整体内涵也从刚开始的私人生活哲学的“断舍离”升华成了“人生实践哲学”，接着又成为每个人都能实行的“改变人生的断舍离”，从“哲学”逐渐升华成“
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
读书笔记|《遇见孩子，遇见更好的自己》5 抹茶社长
为人父母意味着放弃自己的过去，不要对以往没有实现的心愿耿耿于怀，只有这样，孩子们才能做回自己。985909803.jpg孩子在与父母保持亲密的同时更需要独立，唯有这样，孩子才会成为孩子，父母才会成其为父母。有耐心的人生往往更幸福，给孩子留点余地。认识到养儿育女是对耐心的考验。为失败做好心理准备，教会孩子控制情绪。了解自己的底线，说到底线，有一点很重要，父母之所以发脾气，真正的原因往往在于他们自己，
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
阅读《认知觉醒》读书笔记就看看书
本周阅读了周岭的《认知觉醒开启自我改变的原动力》，启发较多，故做读书笔记一则，留待学习。全书共八章，讲述了大脑、潜意识、元认知、专注力、学习力、行动力、情绪力及成本最低的成长之道。具体描述了大脑、焦虑、耐心、模糊、感性、元认知、自控力、专注力、情绪专注、学习专注、匹配、深度、关联、体系、打卡、反馈、休息、清晰、傻瓜、行动、心智宽带、单一视角、游戏心态、早起、冥想、阅读、写作、运动等相关知识点。大脑
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><

【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导

【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导

第0章-导学

第一章 绪论

1.1引言

1.2基本术语

1.3 假设空间

1.4 归纳偏好

1.5发展历程

1.6应用现状

第二章 模型评估与选择

2.1经验误差与过拟合

评估方法

2.2.1留出法

2.2.2交叉验证法

2.2.3自助法

2.2.4调参与最终模型

2.3性能度量

2.3.1 错误率与精度

2.3.2 查准率、查全率与F1

2.3.3 ROC与AUC

2.3.4 代价敏感错误率与代价曲线

2.4 比较检验

2.4.1假设检验

2.4.2交叉验证t检验

2.4.3 McNemar检验

2.4.4 Friedman检验与Nemenyi后续检验

2.5 偏差与方差

第三章 线性模型

3.1基本形式

3.2 线性回归

3.3对数几率回归

3.4线性判别分析

3.5 多分类学习

3.6 类别不平衡问题

3.7上面是预习看书，下面是视频课的理解

第四章 决策树

4.1 基本流程

4.2 划分选择

4.2.3 基尼指数

4.3剪枝处理

4.4 连续与缺失值

4.4.1 连续值

4.4.2 缺失值处理

4.5 多变量决策树

第五章-神经网络

全局最小与局部最小

第六章 支持向量机

6.1间隔与支持向量

6.2 对偶问题

6.3 核函数

6.4 软间隔和正则化

6.5 支持向量回归

6.6 核方法

你可能感兴趣的:(读书笔记,算法,机器学习,大数据,人工智能)

第一章绪论

第二章模型评估与选择

第三章线性模型

第四章决策树

第六章支持向量机