半儿~

机器学习西瓜书期末复习(2022HENU)

期末复习之机器学习

选择题 10 * 2
填空题 10 * 1
判断题 10 * 2
简答题 4 * 5
计算题 2 * 15

文章目录

期末复习之机器学习
第一章绪论
第二章模型评估与选择
- 习题
第三章线性模型
- 习题
第四章决策树
- 习题
第五章神经网络
- 习题
第六章支持向量机
- 习题
第七章贝叶斯分类器
- 习题
第八章集成学习
- 习题
第九章聚类（无监督学习）
- 习题

第一章绪论

机器学习的定义

机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。
经验在计算机系统中通常以数据的形式存在。
机器学习研究的主要内容是关于在计算机上从数据中产生模型的算法，即学习算法
根据训练数据是否拥有标记信息，将学习任务分为监督学习和无监督学习。
监督学习 ：分类和回归

线性回归、对数几率回归、决策树、支持向量机、贝叶斯分类器、神经网络

无监督学习：聚类

聚类算法：原型聚类：（k均值，学习向量量化，高斯混合聚类）；密度聚类（DBSVAN）;层次聚类（AGNES）。降维。话题分析。图分析。

机器学习的目标是使学得的模型能很好地适用于“新样本”。
学得模型适用于新样本的能力，称为“泛化能力”
机器学习三要素：模型、策略、算法

第二章模型评估与选择

训练误差：训练集上的误差
泛化误差：新样本上的误差
训练误差越小越好？

不是，训练误差越来越小会导致模型过拟合，则模型不具备很好的泛化能力。
泛化误差越小越好？

是的，预测的越准确越好，即泛化误差越小越好。
过拟合：学习到的模型太符合训练集的特征
欠拟合：学习到的模型没有把应该考虑进去的属性考虑进去。

减小过拟合的方法：
减少特征的数量，数据正则化

如果一个模型加入正则项，这个模型的拟合程度不一定增加。取决于正则化参数。参数过大会导致欠拟合，过小会导致过拟合。
评估模型的方法：
交叉验证法：将数据集D划分为k个大小相似的互斥子集，每次用k-1个子集的并集作为训练集，余下的子集作为测试集，一共进行k次，最终返回这k个测试结果的均值。
留出法：划分两个互斥子集，一个训练集，一个测试集。
自助法：有放回采样。
参数与性能度量回归任务最常用的性能度量是均方误差
错误率：分类错误的样本数占总样本数的比例
精度 = 1 - 错误率
查准率、查全率

P-R曲线中，
（1）若一个学习器的曲线被另一个学习器的曲线完全包住，则后者大于前者。
（2）面积越大，性能越好
（3）平衡点（查全率=查准率）越高越好

ROC曲线中横坐标为假正例率，纵坐标为真正例率

偏差与方差（都小才好）

偏差：度量了学习算法的期望预测与真实结果的偏离程度，刻画了算法本身的拟合程度。
方差：度量了同样大小的训练集的变动所导致的学习性能的变化，刻画了数据扰动带来的影响。

习题

1、以二分类任务为例，假定数据集D包含1000个样本，将其划分为训练集S和测试集T，其中S包含800个样本， T包含200个样本，用S进行训练后，如果模型在T上有50个样本分类错误，那么模型的正确率为75%。

2、PR（Precision-Recall）曲线的横轴和纵轴分别是查全率和查准率。
3、ROC曲线的横轴和纵轴分别是假正例率和真正例率。

6、有多种因素可能导致过拟合，其中最常见的情况是由于_学习能力过于强大，以至于把训练样本所包含的不太一般的特性都学到了，而欠拟合则通常是由于学习能力低下而造成的。

7、查准率和查全率是分类任务中常用的性能度量指标，请写出其公式并对这两种指标进行分析。

第三章线性模型

向量形式
均方误差是回归任务最常用的性能度量
优化求解方法：最小二乘法、梯度下降法
基于均方误差最小化来进行求解的方法称为最小二乘法
梯度下降法：求解无约束函数的迭代算法
学习率α对梯度下降的影响

α如果太小，梯度下降算法则会下降的很慢
α如果太大，梯度下降算法则不会收敛，发散或震荡。
对数几率回归：解决分类问题

对数几率函数是“Sigmoid函数”
掌握模型输出的含义：y=P(y=1|x)，给定一个样本x，输出y=1的可能性。
多分类学习

基本思路：“拆解法”：把多分类任务拆解成若干个二分类任务
一对多：n个类别，每次将一个类的样例作为正例，所有其他类作为反例来训练n个分类器。
一对一：n个类别，每次取出两个来训练模型，训练分类器的个数为n(n-1)/2

习题

1、在梯度下降过程中，学习率控制着算法每一轮迭代中的更新步长，如果学习率设置的太大容易振荡，设置太小则收敛速度太慢。

2、均方误差有非常好的几何意义，它对应了常用的欧氏距离。基于均方误差最小化来进行模型求解的方法称为__最小二乘法_。

3、如果使用数据集的全部特征，学习模型在训练集上达到100%的准确率，但在测试集上仅能达到70%左右，这说明存在过拟合问题。

4、训练对数几率回归分类模型，如果在模型中引入正则项，正则化参数会对模型的性能有很大的影响，如果设置的过大则不能缓解过拟合问题，如果设置的过小_容易导致过拟合问题。

5、在预测任务中，给定样本集D={(x_1,y_1 ),(x_2,y_2 ),…,(x_m,y_m )}，其中y_i是样本x_i的真实标记。要评估学习器f的性能，就要把学习器预测结果f(x)与真实标记y进行比较。回归任务最常用的性能度量是均方误差，对应的公式为

6. 请分析一对一和一对多策略的特点。

第四章决策树

决策树叶节点对应于决策结果，内部节点表示一个特征或属性。
划分选择

学习过程:通过对训练样本的分析来确认划分属性
预测过程：将测试示例从根结点开始，沿着划分属性所构成的判定测试序列下行，直到叶节点。

信息熵是度量样本集合纯度最常用的一种指标。
信息熵越小，样本集合的纯度越高。
信息增益
信息增益越大，则意味着使用属性α来进行划分所获得的“纯度提升越大”。

信息增益最大的作为最优划分属性，信息增益准则对可取值数目较多的属性有所偏好
信息增益率最小的作为最优划分属性，增益率对可取值数目较少的属性有所偏好。

CART决策树使用基尼指数来选择划分属性生成二叉树。
3. 剪枝处理：两种基本策略预剪枝和后剪枝

预剪枝：提前终止某些分支的生长

就是说在决策树的生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶节点。

后剪枝：生成一颗完全树，再“回头”剪枝，时间开销大

先从训练集生成一颗完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点。

连续属性离散化，：大于某个数值作为一类，小于某个数值作为另外一类，常用二分法

习题

1、决策树是一类常见的机器学习方法，是基于树结构进行决策的。一般的，一棵决策树包含两类结点：内部节点和叶结点，其中内部节点表示表示一个特征或属性，叶结点表示 决策结果。

2、在决策树学习中，一般情况下，属性a的信息增益越大，则意味着使用属性a来进行划分获得的_纯度提升越大。

3、信息增益准则对_可取值数目较多的属性有所偏好，增益率准则对_可取值数目较少的属性有所偏好。

4、在决策树学习中，C4.5决策树算法中采用_二分法_对连续属性进行离散化处理。

5、常用的决策树学习算法有ID3、C4.5和CART，介绍它们采用的特征选择准则是什么？
ID3采用信息增益准则；C4.5采用增益率准则；CART采用基尼指数准则。

6、 ID3怎样基于信息增益划分属性
从根结点开始，计算每一个属性的信息增益，选择信息增益最大的属性作为最优划分属性，然后对子结点递归调用上述过程，生成决策树。

7、请简述并分析两种剪枝策略。（见上面知识点总结）
9、根据表4.1中的西瓜数据集，计算属性“纹理”的信息增益。

第五章神经网络

神经元模型：神经元接收到来自n个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值将与神经元的阈值进行比较，然后通过“激活函数”处理以产生神经元的输出。
感知机与多层网络

感知机由两层神经元组成，输入层和输出层，输入层接受外界信号，输出层输出结果。只有一层功能神经元，学习能力有限。

感知机能容易地实现与或非，不能实现异或运算。
要解决非线性可分问题，要考虑使用多层神经网络。
一般为三层，第一层：输入层；第二层：隐藏层；第三层：输出层。
隐藏层和输出层都是拥有激活函数的功能神经元。
逆向误差传播算法BP

BP是一个迭代学习算法，BP算法基于梯度下降的策略。

BP算法学习能力较强，容易产生过拟合，解决过拟合的方法：
1. 早停：将数据集分成训练集和验证集，训练集用来计算梯度、更新连接权和阈值，验证集用来估计误差，若训练集误差降低但验证集误差升高，则停止训练，同时返回具有最小验证集误差的连接权和阈值。
2. 提高正则化参数：在误差目标函数中增加一个用于描述网络复杂度的部分。

5.BP算法的过程（简答?）

在（0.1）范围内随机初始化网格中所有连接权和阈值，到输出层产生结果，
计算输出层神经元误差，传到隐藏层，
计算隐藏层神经元误差，然后更新连接权和阈值，
重复此过程直至达到停止条件，输出连接权和阈值确定的多层前馈神经网络。

习题

答案是A
4. M-P神经元模型中，神经元接收来自其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值与神经元的阈值进行比较，然后通过激活函数处理以产生神经元的输出。

5.误差逆传播算法（BP算法）基于梯度下降策略，以目标的负梯度方向对参数进行调整。

6.假定一个单隐层的前馈神经网络，拥有m个输入神经元,n个输出神经元、q个隐层神经元，那么该神经网络中需要确定的连接权重参数有多少个？
Mq+nq+n+q

第六章支持向量机

支持向量机原理
在样本空间中，划分超平面可通过如下线性方程来描述：
不需要求解，但是要知道如何转化成求解约束的最优化问题。
核函数

用于线性不可分的问题，将样本从原始空间映射到更高维的特征空间，使得样本在这个特征空间内可分。

常用核函数：
高斯核参数很小过拟合，很大欠拟合
软间隔和硬间隔的区别：

硬间隔要求所有样本都要满足约束条件；
软间隔：允许支持向量机在一些样本上出错。
正则化：

L0范数：是指向量中非零的元素个数
L1范数：是指向量中各元素绝对值之和
L2范数：是指向量各元素的平方和然后求平方根（非零分量个数尽量稠密）
都能缓解过拟合问题。

习题

对于软间隔支持向量机，每个样本都有一个对应的松弛变量，用以表征该样本不满足原约束的程度。
在软间隔SVM的优化目标函数中，参数C表示_ C是调节间隔与准确率的因子，C值越大，越不愿放弃那些离群点；c值越小，越不重视那些离群点。
在SVM训练好之后，可以不考虑非支持向量的样本点，仍然可以对新样本进行分类。
在决定分离超平面时，只有支持向量起作用。如果移动这些实例点将改变所求的解；但是在间隔边界以外移动其他实例点，甚至去掉这些点，则解是不会改变的。
对于求解线性分类问题，线性分类支持向量机是一种非常有效的方法。如果分类问题是非线性的，可以将样本从原始空间映射到一个更高维的特征空间中，使得样本在这个特征空间内线性可分，利用核函数可以隐式地定义特征空间。

第七章贝叶斯分类器

生成式模型，判别式模型有哪些？
生成式模型：贝叶斯分类器。
判别式模型：决策树、BP神经网络、支持向量机。
朴素贝叶斯分类器采用了“属性条件独立性假设”
贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。
贝叶斯判定准则：为最小化总体风险，只需在每个样本上选择那个能使条件风险R（c|x）最小的类别标记。
后验概率
P（C）是类“先验概率”， P（x|c)是样本x相对于类标记C的类条件概率，P(X)是证据因子，不用求。
P（x|c)就转化为如何基于训练集数据D来估计P（C）和P（x|c)
P（C）通过各样本出现频率估计。
EM算法

EM算法提供一种近似计算含有隐变量概率模型的极大似然估计方法。
求解：如果最后函数是收敛的，则不能保证收敛得到全局极大值，能够收敛到局部大值。
计算题：

（本答案仅供参考，如有问题，欢迎指正！）

习题

1、朴素贝叶斯分类器采用了_属性条件独立性__假设。

2、贝叶斯分类器属于生成式模型，支持向量机属于判别式模型。

3、半朴素贝叶斯分类器的基本想法是适当考虑_一部分属性间的相互依赖信息_，从而既不需要进行完全联合概率计算，又不至于彻底忽略了比较强的属性依赖关系。

4、EM算法提供一种近似计算_含有隐变量概率模型的极大似然估计的方法。

5、EM算法时常用的估计参数隐变量的方法，是一种迭代式的方法，能收敛到局部最优解。

6、在朴素贝叶斯分类器的训练过程中，为了避免其他属性携带的信息被训练集中未出现的属性值抹“抹去”，在估计概率值时通常要进行“平滑”，常用拉普拉斯修正。

第八章集成学习

集成学习的结果通过投票法产生，即少数服从多数
个体学习器应“好而不同”，即个体学习器要有一定的“准确性”，即学习器不能太坏，并且要有“多样性”。
目前集成学习主要分为两大类：

一类是以boosting、Adaboost等算法为代表的，个体学习器间存在强依赖关系，必须串行生成的序列化方法，它试图不断增强单个学习器的学习能力。
一类是以bagging、“随机森林”（Random Forest）等算法为代表的，个体学习器之间不存在强依赖关系、可同时生成的并行化方法。
Boosting的工作机制（简答可能）

（1）先从初始训练集训练出一个基学习器；
（2）根据基学习器的表现对训练样本分布进行调整，使得先前基学习器分错的训练样本在后续得到更多关注，然后再基于调整后的样本分布来训练下一个基学习器；
（3）重复（2），直到基学习器数目达到指定值T，最终将这T个基学习器进行加权组合。
从偏差-方差分解的角度看，Boosting 主要关注降低偏差

Boosting族最著名的算法是AdaBoost
标准Adaboost只适用于二分类问题

Bagging（重）

（1）Bagging的基本流程：（简答？填空？）
通过自助采样法采样出T个含m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行组合。
（2）Bagging采用自助采样法 包外估计
（3）从偏差-方差分解的角度看，Bagging主要关注降低方差
（4） Bagging对分类任务采用：简单投票法
Bagging对回归任务采用：简单平均法
随机森林（RF）是Bagging的一个扩展变体

RF在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。

随机森林多样性体现在：采样随机性；属性选择随机性。
多样性增强的4种方法：

数据样本扰动 —自助采样法
输入属性扰动 —随机子空间算法
输出表示扰动
算法参数扰动
假设基分类器错误率相互独立，则错误率最终会趋于0
结合策略：

平均法：（回归任务）
简单平均法：适用于性能差不多的
加权平均法：适用于性能相差较大的
投票法：（分类任务）

习题

1、根据个体学习器的生成方式，目前的集成学习方法大致可以分为哪两类？
个体学习器间存在强依赖关系、必须串行生成的序列化方法，代表是Boosting
个体学习器间不存在强依赖关系、可同时生成的并行化方法，代表是Bagging和“随机森林”。

2、简述随机森林算法，分析其提高基学习器的多样性的策略；
Bagging + 决策树 = 随机森林
随机森林是指利用多棵决策树对样本进行训练并预测的一种算法，是一个包含多个决策树的算法，其输出的类别是由个别决策树输出的类别的众数来决定的。随机森林主要是应用于回归和分类这两种场景，又侧重于分类。
Bagging中基学习器的多样性仅通过样本扰动（对初始训练集采样）而来，而随机森林中基学习器的多样性不仅来自样本扰动，还来自属性扰动，这就导致最终集成的学习器的泛化性能由于个体学习器之间差异度的增加而进一步提升。
3、简述Boosting算法与Bagging算法，并分析其区别；

4、简述集成学习中的多样性增强策略；
1）样本扰动
2）输入扰动
3）输出扰动
4）算法参数扰动

第九章聚类（无监督学习）

聚类目标：将数据集中的样本划分为若干个通常不相交的子集。
簇内相似度高，簇间相似度低。
计算欧氏距离
欧式距离即两点间距离公式
距离越大，相似性越低。
给两个样本，有两个属性，要会计算欧式距离。
原型聚类：k均值算法，学习向量量化，高斯混合聚类算法

原型是指样本空间中具有代表性的点。

k均值算法流程：（也可能是个简答?不，在考试中它以计算题第一小问的形式出现了）
1. 选定簇的个数k
2. 初始化每个簇的均值向量
3. （更新）簇划分，计算每个簇的均值向量
4. 直到当前均值向量均未更新。
给一个案例，如课本p203,要会计算
密度聚类（DBSCAN算法）
层次聚类

数据集的划分可采用“自底向上”的聚合策略，也可以采用“自顶向下”的分拆策略。
AGNES是一种采用自底向上聚合策略的层次聚类算法。

习题

1.简述K均值算法；（见知识点总结）

2、给定表9.1西瓜集4.0中的前10个样本，利用K均值算法划分为3个簇，写出具体的聚类过程。（假定取前3个样本作为初始均值向量）

3.常用的原型聚类算法有哪些？
k均值算法、学习向量量化、高斯混合聚类

4.层次聚类算法的数据集划分策略有哪些？
“自底向上”的聚合策略，
“自顶向下”的分拆策略。

简答预测：（不确定不确定）
第九章 k均值计算流程
第八章 Boosting工作机制，bagging基本流程
第五章 BP算法过程
第四章预剪枝和后剪枝
第二章简述k折交叉验证法

本次总结仅供参考，欢迎大家指正!

你可能感兴趣的:(计算机期末复习,聚类,机器学习,算法)

浅谈新能源与计算机萝萝仔笔记能源计算机新能源
最刚开始听到老师说让谈新能源跟计算机的关系的时候，我是感觉怎么这两者完全扯不上什么联系，根本就是两个不同领域啊。后来想着计算机本身也是需要能源支撑着的，这不就是联系所在，而且就我现在的专业——计算机系统结构而言，现在越来越多的研究想要做到计算机的能耗与效率的负载均衡，从体系结构层次、软件层次、算法层次，都是想要尽量节约计算机的能源。再后来想着我本科的专业——物联网工程，其实就是提倡物物相连的一个概
红黑树与2-3树：插入、删除操作的时间复杂度与实现机制比较一键难忘红黑树数据结构
本文收录于专栏：算法之翼红黑树与2-3树：插入、删除操作的时间复杂度与实现机制比较红黑树（Red-BlackTree）和2-3树（2-3Tree）是两种广泛用于平衡二叉查找树的自平衡树结构。它们在插入、删除和查找操作中的性能都表现良好，并且可以确保树的高度是对数级别，从而保证了高效的操作时间。本文将对红黑树和2-3树进行深入的比较，并结合代码实例说明它们的实现和应用。1.数据结构简介1.1红黑树简
【力扣hot100】python刷题笔记之哈希 Animato. 哈希算法 leetcode 笔记
1.两数之和（简单）题目描述：给定一个整数数组nums和一个整数目标值target，请你在该数组中找出和为目标值target的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案，并且你不能使用两次相同的元素。你可以按任意顺序返回答案。示例：解法一：暴力解法：双层循环（这里就不给代码了）解法二：哈希表（时间复杂度O(n)）算法思路：（1）先创建一个空字典当做哈希表来存储已经遍历过的
程序员思维 SHIZHONGYUO 思维语言应用程序软件编程
起因首先简单说一下，为什么我会想到这个话题。主要有这么几方面的原因。当我试图回过头去总结大学在计算机专业所学习的一些理论和知识的时候。发现，在学校里面学习的一些东西，走了两个极端。一个极端是偏向了细节。比如我们学习的那些《***程序设计》的课程。看这几门课的名称的我们能够很明显的看出，***是一个形容词定语，用来修饰主题“程序设计”。但是，你却非常意外的意识到《C++面向对象程序设计》和面向对象程
左神算法之矩阵旋转90度岳轩子左神算法算法矩阵线性代数
目录旋转矩阵90度（原地操作）1.题目2.解释3.思路4.代码5.总结6.其他旋转矩阵90度（原地操作）1.题目旋转矩阵90度，且只能用有限的几个变量。比如下面的矩阵：12345678910111213141516转换结果为：139511410621511731612842.解释旋转矩阵90度是指将矩阵顺时针旋转90度。观察旋转前后的变化可以发现：原矩阵的第一行变为旋转后矩阵的最后一列原矩阵的第二
左神算法之二叉树最大路径和问题岳轩子左神算法算法深度优先
二叉树最大路径和问题（Java实现）文章目录二叉树最大路径和问题（Java实现）1.题目描述2.问题解释3.解决思路4.代码实现5.总结1.题目描述给定一棵二叉树，其中每个节点都包含一个整型权值。要求计算从根节点到叶节点的所有路径中，权值和最大的值是多少。2.问题解释必须从根节点出发到叶子节点结束需要遍历所有可能的路径找出所有路径和中最大的那个值叶子节点是指没有子节点的节点3.解决思路采用深度优先
矩阵（二维数组）局部极大/小值-python实现银河系渐入佳境编程指南算法 python 算法矩阵
题目来源：某为面试/算法第四版：Algs4-1.4.19矩阵的局部最小元素参考思路：传送CODE：importnumpyasnp'''deffindMin():arr=np.random.rand(10,10)index_arr=np.zeros((10,10))foriinrange(arr.shape[0]):forjinrange(arr.shape[1]):ifi>0andi0andj
左神算法之有序二维矩阵中的目标值查找岳轩子左神算法算法矩阵线性代数
有序二维矩阵中的目标值查找目录有序二维矩阵中的目标值查找1.题目描述2.问题解释3.解决思路方法一：逐行二分查找（适合行数较少的情况）方法二：利用行列有序特性（最优解）4.代码实现5.总结1.题目描述给定一个元素为非负整数的二维数组matrix，其中：每一行按照从左到右递增的顺序排列每一列按照从上到下递增的顺序排列再给定一个非负整数aim，请判断aim是否存在于matrix中。示例：int[][]
技术开发全流程管理：涵盖天线系统的仿真建模（HFSS/CST等）、原型设计、调试优化（网络分析仪/暗室测试）到量产导入（LDS工艺识别），需主导技术文档编写（设计规范/测试报告）。百态老人网络设计规范
以下是针对天线系统技术开发全流程管理的完整解析，涵盖仿真建模、原型设计、调试优化、量产导入及技术文档编写五大环节，结合行业实践与资料核心信息进行系统阐述：一、仿真建模（HFSS/CST）1.软件选择与算法差异HFSS：基于有限元法（FEM），擅长电小尺寸、窄带天线设计（如微带天线、滤波电路），可精确计算辐射方向图、增益、S参数等。其自适应网格技术确保高精度，但计算资源消耗大，不适于电大尺寸模型。C
基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断有Li 人工智能深度学习算法
Title题目EvaluationofaCascadedDeepLearning–basedAlgorithmforProstateLesionDetectionatBiparametricMRI基于级联深度学习算法在双参数MRI中检测前列腺病变的评估Background背景MultiparametricMRI(mpMRI)improvesprostatecancer(PCa)detectionc
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
常见的强化学习算法分类及其特点 ywfwyht 人工智能算法分类人工智能
强化学习（ReinforcementLearning,RL）是一种机器学习方法，通过智能体（Agent）与环境（Environment）的交互来学习如何采取行动以最大化累积奖励。以下是一些常见的强化学习算法分类及其特点：1.基于值函数的算法这些算法通过估计状态或状态-动作对的价值来指导决策。Q-Learning无模型的离线学习算法。通过更新Q值表来学习最优策略。更新公式：Q(s,a)←Q(s,a)
车牌识别与标注：基于百度OCR与OpenCV的实现（一）喜欢踢足球的老罗大模型应用开发实践之旅 ocr opencv 人工智能
车牌识别与标注：基于百度OCR与OpenCV的实现在计算机视觉领域，车牌识别是一项极具实用价值的技术，广泛应用于交通监控、智能停车场管理等领域。本文将介绍如何在macOS系统下，利用百度OCRAPI进行车牌识别，并结合OpenCV库在图片上绘制标注框和车牌号码，实现一个完整的车牌识别与标注流程。整个工程将使用PyCharm进行组织和开发。一、系统环境与工程结构系统环境操作系统：macOS开发工具：
深度学习中Embedding原理讲解 zhishidi ai笔记深度学习 embedding 人工智能
我们用最直白的方式来理解深度学习中Embedding（嵌入）的概念。核心思想一句话：Embedding就是把一些复杂、离散的东西（比如文字、类别、ID）转换成计算机更容易理解和计算的“数字密码”，这些“数字密码”能代表这个东西的本质特征或含义。为什么需要Embedding？想象一下，你要教计算机认识“苹果”和“橙子”：原始表示（不好用）：你告诉计算机：“苹果”的编号是1，“橙子”的编号是2。问题来
【Python】PyRoboPath：Python机器人路径规划的终极指南宅男很神经 python 开发语言
PyRoboPath：Python机器人路径规划的终极指南第1部分：PyRoboPath与路径规划基础第1章：PyRoboPath概览与核心理念1.1什么是PyRoboPath？PyRoboPath是一个先进的、开源的Python库，致力于为学术研究人员、行业工程师以及机器人爱好者提供一套完整、高效、易用且可扩展的机器人路径规划解决方案。它不仅仅是一个算法的集合，更是一个集成了机器人建模、环境表示
最新抖音 iOS 设备注册算法（配合心跳做不上榜人气用） qq_1771238069 ios 算法 cocoa
最新业务需要研究了一周时间做出来了可以配合心跳包做抖音人气用一下部分代码#-*-encoding:utf-8-*-importjson,random,time,sysimportrequestsfromurllib.parseimporturlparse,parse_qsimportratelimitfromloguruimportloggerfromspiders.reg.confimportm
Scikit-learn：机器学习的「万能工具箱」科技林总 DeepSeek学AI 人工智能
——三行代码构建AI模型的全栈指南**###**一、诞生背景：让机器学习从实验室走向大众****2010年前的AI困境**：-学术界模型难以工程化-算法实现碎片化（MATLAB/C++主导）-企业应用门槛极高>**破局者**：DavidCournapeau发起*Scikit-learn*项目，**统一算法接口**+**Python简易语法**=机器学习民主化革命---###**二、设计哲学：一致性
如何看待机器学习方法在超分子化学领域的日渐流行？ cda2024 机器学习人工智能
大家好，今天咱们来聊聊一个既时髦又接地气的话题：如何看待机器学习方法在超分子化学领域的日渐流行？想象一下，你是一位超分子化学家，正忙于设计一种新型的分子结构，这个结构需要具备特定的功能。传统的方法是通过反复实验和理论计算来优化这个结构，但过程可能非常耗时且复杂。而现在，借助机器学习，你可以更快、更准确地找到最优解。这就是为什么机器学习在超分子化学领域变得越来越受欢迎的原因之一。一、超分子化学是什么
助力您发SCI 机器学习（ML）在材料领域应用专题 YEcenfei 分子动力学催化材料机器学习人工智能 python
第一天机器学习在材料与化学常见的方法理论内容1.机器学习概述2.材料与化学中的常见机器学习方法3.应用前沿实操内容Python基础1.开发环境搭建2.变量和数据类型3.列表4.if语句5.字典6.For和while循环实操内容Python基础（续）1.函数2.类和对象3.模块Python科学数据处理1.NumPy2.Pandas3.Matplotlib第二天机器学习材料与化学应用<
Serverless架构下的持续交付实践软件工程实践软件工程最佳实践 AI软件构建大数据系统架构 serverless 架构运维 ai
Serverless架构下的持续交付实践关键词：Serverless架构、持续交付、DevOps、无服务器计算、自动化部署摘要：本文深入探讨了Serverless架构下的持续交付实践。首先介绍了Serverless架构和持续交付的背景知识，接着解释了相关核心概念及其关系，详细阐述了核心算法原理与操作步骤，通过数学模型加深理解，结合实际项目案例展示了代码实现与解读，探讨了实际应用场景，推荐了相关工具
海思Hi3519DV500方案1200万无人机吊舱套板 weixin_Todd_Wong2010 嵌入式硬件 AI 前端边缘计算图像处理
海思Hi3519DV500方案1200万无人机吊舱套板Hi3519DV500是一颗面向行业市场推出的超高清智能网络摄像头SoC。该芯片最高支持四路sensor输入，支持最高4K@30fps的ISP图像处理能力，支持2FWDR、多级降噪、六轴防抖、全景拼接、多光谱融合等多种传统图像增强和处理算法，支持通过AI算法对输入图像进行实时降躁等处理，为用户提供了卓越的图像处理能力，集成了高效的神经网络推理引
飞算 JavaAI 2.0.0和 AI 编程技术设计的 120 章 Java 系统教程 AI编程员 001AI传统＆编程语言 002AI编程工具汇总 003AI编程作品汇总开发语言深度学习 pillow AI编程人工智能
以下是基于飞算JavaAI2.0.0和AI编程技术设计的120章Java系统教程，涵盖从基础到高阶、理论到实践的全栈知识体系，结合经典案例与企业级项目实战，适合零基础到架构师的学习路径：第一部分：基础入门（第1-30章）Java开发环境配置JDK21+IntelliJIDEA+飞算AI插件安装第一个AI生成的HelloWorld程序基础语法与AI辅助编程数据类型、变量、运算符飞算AI：自动生成算法
Java猜拳小游戏 wp_tao Java从入门到精通 java 开发语言
Java猜拳小游戏使用java设计一个猜拳小游戏，要求如下：在控制台提示用户输入出拳结果（1：石头，2：剪刀，3：布）。计算机生成出拳结果。裁判判断出拳结果。输出游戏结果。com.game.Judge.java。packagecom.game;publicclassJudge{privateintplayer1;//选手一的出拳结果：1为石头，2为剪刀，3为布
算法大厨日记：猫猫狐狐带你用代码做一锅香喷喷的“预测汤” Gyoku Mint AI修炼日记猫猫狐狐的小世界人工智能人工智能机器学习 python 算法 database 深度学习数据挖掘
️【开场·今天的料理名叫“预测炖汤”】猫猫：“咱今天突发奇想，决定用机器学习代码给你炖一锅‘预测汤’喵！这不是教你代码，是要告诉你怎么把‘算法’吃进肚子里~”狐狐：“别急，她又在打比方了。这锅汤从数据准备到调参优化，就跟你平常做饭的过程没两样，只不过食材都被咱们用代码换了一遍。”【第一步·数据准备，就是挑菜啦】猫猫：“首先是挑菜（数据预处理），不能什么菜都扔进去锅里吧？要洗干净去皮（数据清洗），再
计算机基础和Java编程的练习题柳依依@ Java入门 java 开发语言
1.计算机的核心硬件是什么？各自有什么用？中央处理器（CPU）：负责执行程序中的指令，进行算术和逻辑运算，是计算机的“大脑”。内存（RAM）：临时存储CPU正在处理的程序和数据，速度快但断电后数据丢失。硬盘（HDD/SSD）：永久存储操作系统、应用程序和用户数据，断电后数据不丢失。主板：连接所有硬件组件，提供数据传输的通道。显卡（GPU）：负责图形渲染，将数字信号转换为图像显示在屏幕上。电源：为计
Python实例题：基于 KNN 算法的手写数字识别
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于KNN算法的手写数字识别要求：实现一个基于K-NearestNeighbors(KNN)算法的手写数字识别系统。支持以下功能：使用MNIST数据集训练和测试模型实现KNN分类算法可视化手写数字样本评估模型性能（准确率、混淆矩阵等）添加用户交互界面，允许用户绘制数字并进行识别。解题思路：使用sklearn加载MNIST数据
Python实例题：基于遗传算法的旅行商问题求解狐凄实例 python 开发语言
目录Python实例题题目要求：解题思路：代码实现：Python实例题题目基于遗传算法的旅行商问题求解要求：使用遗传算法解决旅行商问题（TSP）。支持以下功能：随机生成城市坐标或导入预定义城市实现遗传算法的基本操作（选择、交叉、变异）可视化进化过程和最终路径统计进化过程中的适应度变化允许用户调整遗传算法参数（种群大小、迭代次数、交叉率、变异率等）。解题思路：用列表表示城市访问顺序作为染色体。使用欧
【算法笔记】红黑树插入操作 PXM的算法星球算法笔记算法笔记
红黑树插入与调整详解一、红黑树的五大性质红黑树是一种自平衡的二叉搜索树（BST），其核心特性如下：颜色属性：每个节点非红即黑根属性：根节点必须为黑色叶子属性：所有的NIL叶子节点都是黑色红节点约束：红色节点的子节点必须为黑色（即无连续红节点）黑高平衡：从任一节点到其所有后代叶子节点的路径中，黑色节点数量相等二、插入操作流程阶段1：标准BST插入从根节点开始查找插入位置新节点总是红色按照BST规则插
什么是Sentinel? 以及优点肘击鸣的百k路 sentinel
Sentinel是阿里巴巴开源的轻量级流量治理与系统保护组件，专注于微服务架构下的实时流量控制、熔断降级和系统稳定性保障。其核心目标是通过动态规则管理防止服务因高并发、突发流量或依赖故障导致雪崩崩溃。⚙️Sentinel的核心功能流量控制基于QPS（每秒请求数）或并发线程数限制资源访问，支持直接拒绝、匀速排队（漏桶算法）、慢启动（令牌桶算法）等策略。细粒度控制：可针对特定接口、方法甚至热点参数（如
用AI给AR加“智慧”：揭秘增强现实智能互动的优化秘密 Echo_Wish 人工智能前沿技术人工智能 ar
用AI给AR加“智慧”：揭秘增强现实智能互动的优化秘密引子：增强现实，到底还能怎么更聪明？还记得当年PokémonGO火爆全球的场景吗？玩家们手机对准街头，虚拟小精灵活灵活现地跳出来，那就是增强现实（AR）最经典的应用之一。随着硬件发展和算法进步，AR正逐步从“炫酷玩具”变成生产力工具、教育助手、零售新体验。但AR想要更“聪明”，不是简单把虚拟物放到现实里那么简单，而是让虚拟世界和现实环境更自然地
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

机器学习西瓜书期末复习(2022HENU)

期末复习之机器学习

文章目录

第一章 绪论

第二章 模型评估与选择

习题

第三章 线性模型

习题

第四章 决策树

习题

第五章 神经网络

习题

第六章 支持向量机

习题

第七章 贝叶斯分类器

习题

第八章 集成学习

习题

第九章 聚类（无监督学习）

习题