可乐大牛

【机器学习】概念总结

文章目录

一、绪论
- 基本术语
- 归纳偏好
- 假设空间
二、模型评估与选择
- 经验误差与过拟合
- 评估方法
- 性能度量
- 偏差与方差
三、线性模型
- 基础知识
- 二分类任务
- 多分类任务
四、决策树
- 信息增益
- 增益率
- 基尼指数
- 剪枝
- 连续值处理
- 缺失值处理
五、神经网络
- NP神经元模型
- 多层前馈神经网络：
- 误差逆传播算法（BP）
- 参数寻优
- 其他常见神经网络
六、支持向量机
- 线性不可分
- 软间隔和损失
- 正则化
- 支持向量回归
七、贝叶斯分类器
- 朴素贝叶斯分类器
- 半朴素贝叶斯分类器
- 贝叶斯网
八、集成学习
- 基础
- Boosting
- Bagging
- 多样性度量方式
- 多样性增强
九、聚类
- 基础
- 原型聚类
- - k-means（k均值算法）
  - 学习向量量化（LVQ）
  - 高斯混合聚类
- 密度聚类
- 层次聚类
十、降维
- k近邻学习
- 降维

一、绪论

基本术语

一组记录的集合称为一个数据集
每条记录是关于一个事件或者对象的描述，称为一个实例或者样本
反应事件或者对象在某方面的表现或者性质的事项称为属性或特征，属性上的取值称为属性值，属性张成的空间称为属性空间、样本空间或者输入空间
由于空间中的每个点都对应一个坐标向量，因此也把一个示例称为一个特征向量，每个示例由d个属性描述，d称为样本的维数
从数据中学得模型的过程称为学习或训练。训练过程中使用的数据称为训练数
据，其中每个样本称为一个训练样本，训练样本组成的集合称为训练集
关于示例结果的信息称为标记 ，拥有了标记信息的示例称为样例，所有标记的集合称为标记空间或输出空间。
若预测的是离散值，此类学习任务称为分类;若预测的是连续值，此类学习任务称为回归
对只涉及两个类别的二分类任务,通常称其中-个类为正类，另一个为反类 ;涉及多个类别时，则称为多分类任务。
学得模型后，使用其进行预测的过程称为测试 ，被预测的样本称为测试样本。
聚类有助于我们了解数据的内在规律，能为更深入地分析数据建立基础。
根据训练数据是否拥有标记信息，学习任务可大致分为两大类:监督学习和无监督学习，分类和回归是前者的代表，而聚类则是后者的代表。
学得模型适用于新样本的能力，称为泛化能力。

归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好，称为归纳偏好，或简称为偏好。任何一个有效的机器学习算法必有其归纳偏好。
"奥卡姆剃刀”是-种常用的、自然科学研究中最基本的原则，
即”若有多个假设与观察一致，则选最简单的那个”。
在具体问题现实问题中，算法的归纳偏好是否与问题本身匹配，大
多数时候直接决定了算法能否取得好的性能。

假设空间

归纳与演绎是科学推理的两大基本手段。前者是从特殊到一般归纳与演绎是科学推理的两大基本手段。前者是从特殊到- -般性规律;后者则是从-般到特殊的“特化”过程，即从基础原理推演出具体状况。

二、模型评估与选择

经验误差与过拟合

错误率：分类错误的样本占样本总数的比例
误差：样本真实输出与预测输出之间的差异
训练(经验)误差：训练集上
测试误差：测试集
测试集：除训练集外所有样本
过拟合：学习器把训练样本本身特点当做所有潜在样本都会具有的一般性质.
欠拟合：训练样本的一般性质尚未被学习器学好.

评估方法

留出法：直接将数据集划分为两个互斥的部分，分层采样、随机划分，保留1/5~1/3作为测试集；

交叉验证法：将数据集划分为k个互斥的子集，其中k-1个作为训练集，1个作为测试集，将k次实验结果取平均值；

自助采样法：将数据集D有放回的采样m次得到训练集S，剩下的作为测试集T（仅在数据集较小时使用）(集成学习的bagging方法使用)；

性能度量

回归任务最常用的性能度量是“均方误差”
错误率：分类错误的样本占样本总数的比例
精度：分类正确的样本占样本总数的比例
统计真实标记和预测结果的组合可以得到“混淆矩阵”

查准率：预测为正的样本中真正为正的比例
查全率(召回率)：实际为正的样本中被预测为正的样本的比例
基于查准率和查全率可以绘制P-R曲线，查准率=查全率时候称为平衡点
F1度量：

ROC曲线：以“假正例率”为横轴，“真正例率”为纵轴
AUC值：是ROC曲线的面积，面积越大AUC值越大，性能越好

偏差与方差

偏差：描述了期望预测与真实结果之间的差异，刻画了训练器本身的泛化能力；

方差：描述了测试集的变化所带来的学习器性能的变化，刻画了数据扰动带来的影响；

噪声：描述了对于一个具体的任务任何算法学习结果的下界，刻画了一个具体问题本身的难度；

三、线性模型

优点在于计算代价低，易于逻辑实现，但是缺点在于容易欠拟合，分类精度低。

基础知识

线性模型：学得一个通过属性的线性组合来进行预测的函数
线性回归：学得一个线性模型以尽可能准确地预测实值输出标记，通过最小二乘法进行参数/模型的估计(单一属性的线性回归、多元属性的线性回归)
对数线性回归：用线性模型结果的对数形式去毕竟真实标记

二分类任务

对数几率回归：二分类任务中，模型的输出应该映射为0，1；理想情况下是使用单位阶跃函数，但是他的数学性质不友好，使用对数几率函数替代
线性判别分析（LDA）：不使用回归的思想，而是直接分类。二维好分类，但是高纬怎么操作呢？LDA就是解决这个问题的，将高维映射到低维就行了。
LDA的思想：
1、欲使同类样例的投影点尽可能接近，可以让同类样例投影点的协方差尽可能小
2、欲使异类样例的投影点尽可能远离，可以让类中心之间的距离尽可能大

多分类任务

二分类学习方法推广到多类（不常用）
利用二分类学习器解决多分类问题（常用）
思想：
1、对问题进行拆分，为拆出的每个二分类任务训练一个分类器
2、对于每个分类器的预测结果进行集成以获得最终的多分类结果
拆分策略：
1、一对一（One vs. One, OvO）
2、一对其余（One vs. Rest, OvR）
3、多对多（Many vs. Many, MvM）

四、决策树

优点是计算的复杂度不高，对中间值的缺失不敏感还可以处理不相关的特征数据，但是天生的缺点就是会出现过拟合问题；
常用算法：ID3（经典）、C4.5（最常用）、CART（可以用于回归任务）、RF随机森林（集成学习的结果，效果很强！）
决策树的基本思想是分治法，关键在于如何选择最优划分属性，使得节点的“纯度”最高（ID3信息增益越大，C4.5增益率最大，CART基尼指数越小）。

信息增益

“信息熵”：是度量样本集合纯度最常用的一种指标，信息熵越小，纯度越高

信息增益：划分前的信息熵减去划分后的信息熵，信息增益越大，则意味着使用该属性来进行划分所获得的“纯度提升”越大

ID3决策树学习算法以信息增益为准则来选择划分属性
信息增益对可取值数目较多的属性有所偏好

增益率

但是，增益率准则对可取值数目较少的属性有所偏好
因此C4.5使用了一个启发式：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选取增益率最高的

基尼指数

剪枝

目的：避免过拟合
基本策略：预剪枝和后剪枝，
预剪枝是指在划分节点之前对泛化性能进行估计，若当前节点的划分可以带来泛化性能的提升，则不进行剪枝，否则进行剪枝，预剪枝可以降低过拟合的风险，提高计算速度与性能，但是会增加欠拟合的风险；
后剪枝是指，在整棵决策树生长完成后，自底而上对节点进行考察，若把该节点对应的子树替换成叶子节点能带来泛化性能的提高，就将该子树替换为叶子节点，后剪枝也显著降低了过拟合的风险，带来泛化性能的提高而且由于预剪枝，但是训练时间开销大于预剪枝。

连续值处理

二分法：就是将属性使用 大于某个数值的作为一类，小于某个数值的作为另外一类 的规则进行划分，那么n-1种划分方式就可以把属性划分成n个离散值

缺失值处理

基本思路：样本赋权，权重划分

五、神经网络

NP神经元模型

NP神经元模型：当前神经元接受来自于前面n个神经元的信号输入，加权累加之后与阈值比较，通过激活函数处理得到输出
激活函数：理想的激活函数是单位阶跃函数，但是常用的是Sigmoid函数
感知机：感知机由两层神经元组成, 输入层接受外界输入信号传递给输出层, 输出层是M-P神经元，能容易的实现逻辑与、或、非，但是只能解决线性可分的问题
多层感知机：在输出层与输入层之间还有一层或者多层神经元, 被称之为隐层或隐含层, 隐含层和输出层神经元都是具有激活函数的功能神经元

多层前馈神经网络：

只需一个包含足够多神经元的隐层 , 多层前馈神经网络就能以任意精度逼近任意复杂度的连续函数
定义：每层神经元与下一层神经元全互联, 神经元之间不存在同层连接也不存在跨层连接
前馈：输入层接受外界输入, 隐含层与输出层神经元对信号进行加工, 最终结果由输出层神经元输出
学习：根据训练数据来调整神经元之间的“连接权”以及每个功能神经元的“阈值”

误差逆传播算法（BP）

流程：首先初始化（随机或者按照经验来）网络中所有神经元的连接权重与阈值，然后进行迭代，迭代过程为：首先计算当前网络对样本的输出值，然后计算输出层和隐层的梯度值，根据梯度下降算法更新连接权值和阈值，循环直到满足条件。

BP神经网络算法也使用梯度下降法，以单个样本的均方误差的负梯度方向对权重进行调节。可以看出：BP算法首先将误差反向传播给隐层神经元，调节隐层到输出层的连接权重与输出层神经元的阈值；接着根据隐含层神经元的均方误差，来调节输入层到隐含层的连接权值与隐含层神经元的阈值。

算法问题：常常会过拟合，且隐层的个数难以准确确定，一般使用试错法进行调整
缓解过拟合策略：
1、早停：在训练过程中，当训练误差降低，测试误差明显升高时就停止训练
2、正则化：在误差目标函数里加入一项描述网络复杂程度的值，例如连接权重与阈值的平方和

参数寻优

常见策略：不同的初始参数、模拟退火、随机扰动、遗传算法

其他常见神经网络

RBF：分类任务中除BP之外最常用，是一种单隐层前馈神经网络, 它使用径向基函数作为隐层神经元激活函数, 而输出层则是隐层神经元输出的线性组合.

SOM：最常用的聚类方法之一，竞争型的无监督神经网络

将高维数据映射到低维空间（通常为 2维） , 高维空间中相似的样本点映射到网络输出层中邻近神经元
每个神经元拥有一个权向量
目标：为每个输出层神经元找到合适的权向量以保持拓扑结构
网络接收输入样本后，将会确定输出层的“获胜”神经元（“胜者通吃”），获胜神经元的权向量将向当前输入样本移动

级联相关网络

六、支持向量机

支持向量：就是从超平面出发，往外延申，直到碰到正负样本边缘的点，这些点就组成了支持向量
间隔：就是支持碰到正样本点边缘的支持向量和负样本点边缘的支持向量，所在超平面的距离，通俗点就是两个支持向量撑开的距离

线性不可分

核映射：就是映射函数，用于将样本从原始空间映射到一个更高维的特征空间, 使得样本在这个特征空间内线性可分，且可证明：如果原始空间是有限维 (属性数有限)，那么一定存在一个高维特征空间使样本可分
推导可得，我们不需要显式地设计核映射, 而是设计核函数.
常用核函数：线性核函数（文本数据）、多项式核函数、高斯核函数（情况不明，就是高斯核）

软间隔和损失

现实中, 很难确定合适的核函数使得训练样本在特征空间中线性可分; 同时一个线性可分的结果也很难断定是否是因过拟合造成的
所以引入”软间隔”的概念, 允许支持向量机在一些样本上不满足约束.
但是为了使得不满足约束的样本点少，添加了损失函数去进行惩罚
最简单的想法是使用0/1损失函数，但是数学型态不好，可以采用一些数学性质好，一般选择0/1损失函数的上界，如hinge损失函数

正则化

支持向量回归

特点: 允许模型输出和实际输出间存在的偏差.

七、贝叶斯分类器

我们前面学习的其实都是判别式模型，即直接根据观察到的样本特点去推测样本属于哪一类；而贝叶斯分类器则属于生成式模型，先对各种类别下，属性的特点建模，再基于贝叶斯公式去计算属于某个类别的概率，选择概率最大的作为预测的输出

但是，联合概率不好算，属性可能很多，且分布未知，独立性未知

朴素贝叶斯分类器

假设：属性、取值都全部独立！

基于大数定理，用样本频率去估算概率就可以得到计算公式了

例子：

拉普拉斯修正：为了避免其他属性携带的信息被训练集中未出现的属性值“抹去”，人为再计算时候增加属性出现的个数

使用技巧：

若对预测速度要求高：预计算所有概率估值，使用时“查表”
若数据更替频繁：不进行任何训练，收到预测请求时再估值（懒惰学习）
若数据不断增加：基于现有估值，对新样本涉及的概率估值进行修正（增量学习）

半朴素贝叶斯分类器

假设：每个属性在类别之外最多仅依赖一个其他属性

贝叶斯网

借助有向无环图来刻画属性间的依赖关系，并使用条件概率表来表述属性的联合概率分布。
结构、学习还蛮复杂的，我赌一百块这个不考

推理的时候可以精确推断，即直接根据贝叶斯网定义的联合概率分布来精确计算后验概率，很困难；也可以近似推断，降低精度要求，在有限时间内求得近似解
方法：吉布斯采样

训练样本的某些属性的变量值未知怎么办？EM算法，实在理解不动了，考到就算了吧

八、集成学习

基础

集成的泛化性能通常显著优于单个学习器的泛化性能
集成个体应该好而不同；个体学习器要有一定的准确性和多样性，学习器间要有差异性

集成学习：通过构建并结合多个学习器来提升性能
同质集成：集成中只包含同种类型的“个体学习器”（基学习器），相应的学习算法称为“基学习算法”
异质集成：个体学习器由不同的学习算法生成不存在“基学习算法”

集成学习两类方法：序列化方法和并行化方法，两者的典型代表是AdaBoost和Bagging

Boosting

个体学习器存在强依赖关系，
串行生成
每次调整训练数据的样本分布

通俗解释：对于数据集的数据，先给第一个学习器，给分错的样本加权，再给下一个分类器，然后持续这个过程，直到到达最后一个学习器
从偏差-方差的角度：降低偏差，可对泛化性能相当弱的学习器构造出很强的集成

Bagging

个体学习器不存在强依赖关系
并行化生成
自助采样法

通俗解释：每个学习器都通过自助采样从训练集中获取数据，然后分别学习，对于新来的样本，投票选择类别
从偏差-方差的角度：降低方差，在不剪枝的决策树、神经网络等易受样本影响的学习器上效果更好

多样性度量方式

不合度量、相关系数、Q-统计量、K-统计量

多样性增强

数据样本扰动，例如 Adaboost 使用重要性采样、Bagging 使用自助采样，对“不稳定基学习器” (如决策树、神经网络等 ) 不适用于“稳定基学习器” （如线性分类器、SVM、朴素贝叶斯等）
输入属性扰动，例如随机子空间，典型就是随机森林算法
输出表示扰动
算法参数扰动

九、聚类

基础

目标：将数据集中的样本划分为若干个通常不相交的子集（簇）
作用：聚类既可以作为一个单独过程（用于找寻数据内在的分布结构），也可作为分类等其他学习任务的前驱过程.

性能度量：外部指标（将聚类结果与某个“参考模型”(reference model) 进行比较），内部指标（直接考察聚类结果而不用任何参考模型）
基本想法：“簇内相似度”高且“簇间相似度”低

距离计算：使用闵可夫斯基距离，p=2：欧氏距离，p=1：曼哈顿距离

原型聚类

k-means（k均值算法）

简单，但是效果没那么好，就是以均值为中心画圆，适用性不广

学习向量量化（LVQ）

思想：与一般聚类算法不同的是，LVQ假设数据样本带有类别标记，学习过程中利用样本的这些监督信息来辅助聚类.

高斯混合聚类

思想：采用概率模型来表达聚类原型，假设样本分布是由K个高斯分布叠加得到的

密度聚类

思想：假设聚类结构能通过样本分布的紧密程度来确定

层次聚类

思想：层次聚类试图在不同层次对数据集进行划分，从而形成树形的聚类结构。

十、降维

k近邻学习

朴素理解：就是把预测样本直接丢进训练集，找到最近的K个样本，然后投票就好了
优点：简单，且泛化错误率不超过贝叶斯最优分类器错误率的两倍

懒惰学习：此类学习技术在训练阶段仅仅是把样本保存起来，训练时间开销为零，待收到测试样本后再进行处理。
急切学习：在训练阶段就对样本进行学习处理的方法。

降维

要满足密采样条件所需的样本数目是无法达到的天文数字
维数灾难：在高维情形下出现的数据样本稀疏、距离计算困难等问题
方法：

多维缩放（MDS），要求原始空间中样本之间的距离在低维空间中得以保持
线性变换，对原始高维空间进行线性变换进行降维，这个是线代！终于发现能作为线代大题考的原因了
主成分分析（PCA），对于正交属性空间中的样本点，用一个超平面对所有样本进行恰当的表达。通俗解释：以xyz为例，样本点落在这个空间中，但是他们之间的关系很难用xyz描述，但是我们观察发现他们是在一个平面上的，于是我们可以对这个平面进行分析，引入新的变量dx和dy，用于描述这个平面，找到dx和dy与样本点的关系之后，我们再将dx dy转换为xyz，就得到了原样本点和xyz的关系
核化线性降维,线性降维方法假设从高维空间到低维空间的函数映射是线性的，然而，在不少现实任务中，可能需要非线性映射才能找到恰当的低维嵌入
核化线性降维,因为当前空间内可能找到不到这样一个超平面，但是通过核函数升维之后，一定能找到，找到之后，再用PCA

你可能感兴趣的:(机器学习,机器学习,聚类,算法)

C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
反光衣识别漏检率 30%？陌讯多尺度模型实测优化
在建筑工地、交通指挥等场景中，反光衣是保障作业人员安全的重要装备，对其进行精准识别是智能监控系统的核心功能之一。但传统视觉算法在实际应用中却屡屡碰壁：强光下反光衣易与背景混淆、远距离小目标漏检率高达30%、复杂场景下模型泛化能力不足[实测数据来源：某智慧工地项目2024年Q1日志]。这些问题直接导致安全监控系统预警滞后，给安全生产埋下隐患。一、技术解析：反光衣识别的核心难点与陌讯算法创新反光衣识别
【GESP】C++三级真题 luogu-B4359 [GESP202506 三级] 分糖果 CoderCodingNo GESP c++java 开发语言
GESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较简单。题目题解详见：【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoder【GESP】C++三级真题luogu-B4359[GESP202506三级]分糖果|OneCoderGESPC++三级，2025年6月真题，模拟算法，难度★★☆☆☆。本次三级题目个人感觉比较
【华为机试】HJ61 放苹果不爱熬夜的Coder 算法华为机试 golang 华为 golang 算法面试
文章目录HJ61放苹果描述输入描述输出描述示例1示例2解题思路算法分析问题本质分析状态定义与转移递推关系详解动态规划表构建算法流程图示例推导过程代码实现思路时间复杂度分析关键优化点边界情况处理递归解法对比实际应用场景测试用例分析算法特点数学原理完整题解代码HJ61放苹果描述我们需要将m个相同的苹果放入n个相同的盘子中，允许有的盘子空着不放。求解有多少种不同的分法。输入描述输入两个整数m,n(0B[
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
.NET中的安全性之数字签名、数字证书、强签名程序集、反编译 hezudao25 NET .net assembly 加密算法 reference header
本文将探讨数字签名、数字证书、强签名程序集、反编译等以及它们在.NET中的运用（一些概念并不局限于.NET在其它技术、平台中也存在）。1.数字签名数字签名又称为公钥数字签名，或者电子签章等，它借助公钥加密技术实现。数字签名技术主要涉及公钥、私钥、非对称加密算法。1.1公钥与私钥公钥是公开的钥匙，私钥则是与公钥匹配的严格保护的私有密钥；私钥加密的信息只有公钥可以解开，反之亦然。在VisualStud
数据结构：导论梁辰兴数据结构学习笔记数据结构导论算法时间复杂度空间复杂度
目录一，数据结构的研究内容二，基本概念与术语（一）数据、数据元素、数据项与数据对象（二）数据结构（三）数据类型与抽象数据类型️三，抽象数据类型的表示与实现⚙️四，算法与算法分析⚖️（一）算法的定义及特性（二）评价算法优劣的基本标准⏱️（三）算法的时间复杂度（四）算法的空间复杂度章结一，数据结构的研究内容数据结构是计算机科学的核心基础，其研究内容可概括为三大维度：数据组织形式：探索如何将现实世界中的
C++ 标准库＜numeric＞
以下对C++标准库中头文件所提供的数值算法与工具做一次系统、深入的梳理，包括算法功能、示例代码、复杂度分析及实践建议。一、概述中定义了一组对数值序列进行累加、内积、差分、扫描等操作的算法，以及部分辅助工具（如std::iota、std::gcd/std::lcm等）。所有算法均作用于迭代器区间，符合STL风格，可与任意容器或原始数组配合使用。从C++17、20起，又陆续加入了并行友好的std::r
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
android去除gps漂移代码,GPS漂移过滤算法扇贝君
GPS漂移过滤算法基本思想：逐点过滤，再经过基础过滤后，进行判断运动状态，静止状态和运动中。如果静止，则使用电子围栏；如果运动，则先过滤大速度，再过滤加速度，然后过滤距离(包括超大距离，和速度相关距离)。对于要过滤的点，采用之前最近的可靠点，进行替换，同时，无效次数+1，如果后面是有效点，则无效次数-1，如果无效次数归0，认为这个点才是真正可靠点(无效次数为正时，都为要被替换的点)。如果遇到不定点
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
项目开发日记
框架整理学习UIMgr：一、数据结构与算法1.1关键数据结构成员变量类型说明m_CtrlsList当前正在显示的所有UI页面m_CachesList已打开过、但现在不显示的页面（缓存池）1.2算法逻辑查找缓存页面：从m_Caches中倒序查找是否已有对应ePageType页面，找到则重用。页面加载：从资源管理器ResMgr加载prefab并绑定控制器/视图组件。页面关闭：从m_Ctrls移除，添加
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
《C++性能优化指南》 linux版代码及原理解读第一章 v俊逸 C++性能优化指南性能优化 C++性能优化性能优化
概述：目录概述：性能优化的必要性：C++代码优化策略总结用好的编译器并用好编译器使用更好的算法使用更好的库减少内存分配和复制移除计算使用更好的数据结构提高并发性优化内存管理性能优化的必要性：按照当今的CPU运行速度来说，执行一条指令所需要的时间是10的-9次方的时间单位，如此快速的执行速度是否就没有性能优化的必要了呢？其实不然，性能优化与CPU的执行速度并无非常大的关系，试想一下，一段代码，如果用
《C++性能优化指南》 linux版代码及原理解读第四章 v俊逸 C++性能优化指南性能优化 C++性能优化指南性能优化
目录概述为什么字符串很麻烦字符串是动态分配的字符串赋值背后的操作如何面对字符串会进行大量复制写时复制COW（copyonwrite）尝试优化字符串避免临时字符串通过预留存储空间减少内存分配通过传递引用减少实参复制使用迭代器操作减少循环中的比较操作减少返回值的复制还没有结束，使用字符数组代替字符串再次优化字符串尝试其他的算法叠加以前的优化方式使用其他的编译器使用其他字符串的库功能丰富的字符串库使用s
rtos内存管理林内克思 java linux 算法
FreeRTOS将内存分配API保留在其可移植层，提供了五种内存管理算法：heap_1：最简单，不允许释放内存。heap_2：允许释放内存，但不会合并相邻的空闲块。heap_3：简单包装了标准malloc()和free()，以保证线程安全。heap_4：合并相邻的空闲块以避免碎片化。包含绝对地址放置选项。heap_5：如同heap_4，能够跨越多个不相邻内存区域的堆。特点缺点heap_1简单、不支
c++中迭代器的本质三月微风 c++开发语言
C++迭代器的本质与实现原理迭代器是C++标准模板库(STL)的核心组件之一，它作为容器与算法之间的桥梁，提供了统一访问容器元素的方式。下面从多个维度深入解析迭代器的本质特性。一、迭代器的基本定义与分类迭代器的本质迭代器是一种行为类似指针的对象，用于遍历和操作容器中的元素。它提供了一种统一的方式来访问不同容器中的元素，而无需关心容器的具体实现细节。标准分类体系C++标准定义了5种迭代器类型，按功能
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe