Dinosoft

机器学习简明手册

面向读者：有一定机器学习基础的。不是新手入门手册。实用导向的，所以不会扣细节和具体式子，只给出算法idea。能当作复习提纲，或者学习的roadmap吧。参考资料主要有《机器学习实战》（简称《实战》），《统计机器学习》，李航著（简称《统计》)，cs229

k近邻（k nearest neighbour）

(注意名字不要跟k-means搞混了)很简单，求离样本最近的k个点中大部分是什么标签，就作为这个点的标签。计算量有点大，大数据貌似用不来的。虽然用kd树能优化到O(logN)

算法挺简单，但是传递出机器学习的一个重要思想：所谓的机器学习，从某种程度上来说，就是把一个新的样本放到历史收集到到大数据里去找某种程度的”相似”罢了，这种”相似”，有时候比较直接，有时候没那么直接。

可操作性的地方：

我们怎么衡量“距离”？
常用欧式距离（日常生活中理解的两点之间的距离）
看Mining of Massive Datasets 3.5 里面提到还有其他几种，具体用到的时候再去细看就行了。
1. Jaccard距离
2. 余弦距离
3. 编辑距离
4. 海明距离
数据需要归一化。不然算距离就不准了。比如“汽车行驶公里数”这个特征可能上万，“使用年限”只有不到10。显然不归一化的话，算距离就会被某个特征dominate
k值的选择。貌似也没啥好办法，只能试了。k值太小、太大，那个是过拟合？太小的时候过拟合，比如k=1。k=N就相当于用样本的众数来预测了，仔细想想，这样做某种程度上也说得通。

决策树

一系列的布尔节点生成的树形结构。
看个图应该就明白。

有个问题，决策树是二叉树还是多叉树？ID3和C4.5是多叉树，CART说是只能二叉树。不过多值（枚举）比如a1，a2，a3，也能转换成是否a1，是否a2，是否a3这三个布尔特征变成二叉树。

应该是很好理解，但重点就是该如何划分节点？树是递归结构，其实对每个节点就只有两个子问题：
1. 选哪个特征来分裂。
2. （对于连续变量还有）选这个特征的哪个值来分裂，布尔特征就没这个问题。

分类的目的其实就是为了让无序的数据更有序，熟悉信息论的应该马上能联想到熵了。

熵：衡量无序程度。
信息增益(information gain），也叫互信息(mutual information)：熵的减少。比如原来的一个数据集熵是A，划分后熵是B，信息增益就是A-B。具体到B的计算，比如我们选了其中一个布尔特征x来划分树，
那么B = x为0的占比 * x为0这些样本的熵 + x为1的占比 * x为1这些样本的熵。

公式是g(D,A) = H(D) - H(D|A)

信息增益特征A，训练集D, 信息增益g(D,A) 等于经验熵H(D)减去条件熵 H(D|A)

这个就是ID3算法。

以信息增益作为划分训练集的特征，存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题进行校正。
– 李航《统计学习方法》

这句话直观上怎么理解？选择取值较多的特征后，一般会变得更“有序”,我们想除去取值多(多叉树)的影响。

对比公式

ID3: 公式是g(D,A) = H(D) - H(D|A)
C4.5: 公式是gr(D,A) = g(D,A) /Ha(D) 就是原来ID3的基础上除以Ha(D)，注意不是H(D)

Ha(D)= - ∑pi *log(pi)　pi为特征a某个取值的占比。

把信息增益换成信息增益比，ID3算法就变成C4.5了。这里相当于做了归一化，有点类似于增长值和增长率的关系。

CART

CART（classification and regression tree）看名字可以知道不单单可以用于回归。限定了要二叉树。

回归树
跟k-means有点像。遍历特征j，再用启发式方法找切分点s。让划分出来的两陀尽量聚拢。
具体怎么衡量切分好坏？算出切分后两个组的y（注意是y，不是x）的圆心c1和c2，然后让属于c1的∑(yi-c1)^2 和属于c2的∑(yi-c2)^2 和最小
分类树
属于某个类的概率Pi，那么基尼指数
Gini(P)=1-∑Pi^2
就是把ID3算法的熵H换成Gini罢了。因为是二叉树，都不需要C4.5算信息增益比。

朴素贝叶斯

几个名字带“贝叶斯”的概念别搞混了。

贝叶斯概率公式

p(c|x) = p(x|c) * P(c) /p(x)

注意x是向量，c是label

这个公式怎么理解？给你一个样本的特征x，怎么判断它的类别c，即p(c|x)，比如给你一堆医学指标，然后判断是否病人有癌症。

我们可以统计训练数据里P(c)的概率，然后再统计一下 p(x|c) ，也就是得癌症的病人，出现x这种指标的概率有多大。
最后判断p(c=1|x) 和 p(c=0|x) 谁的概率大。

等等，这个好像有点扯蛋，我们如果样本里能得到p(x|c)，难道还得不到p(c|x)?

（注意到x是个向量）朴素贝叶斯发挥作用就在这里了。

p(x|c)=p(x1|c) * p(x2|c) * p(x3|c) … * p(xn|c)

这个是加个朴素贝叶斯条件独立性假设的效果后才=的，现实中通常不成立，比如x1是某指标多少厘米，x2换成英寸，那两个特征显然不独立的。但实际中运用，效果还是有些合理的。就像以前学物理计算时候为了简化模型，忽略了阻力，但结果还是比较可用的，只是精度有些问题。

注意的点：

p(x1|c)=0怎么办？相乘都是0了，平滑一下，分子多加上1，分母加上n（x∈R^n）。
p(x1|c) * p(x2|c) … 都是很小的小数，相乘结果下溢怎么办？加上一个取对数操作，然后变成加法。 ln(a*b) = ln(a) + ln(b)

这两个技巧其他地方估计也用得上吧。

LR

普通的LR就不说了。

局部加权线性回归

有点像svm里面的高斯核，就是只考虑输入x附近的点（说到距离又想起k近邻了），离太远的权重就很低了。问题就是计算量比较大，而且predict的时候要保留整个数据集才行，这种叫做non-parametric algorithm(cs229 note1第15页)

加正则项

L1正则叫做lasso
L2正则叫做岭回归（ridge regression)

sgd加速

要点

取样一定要随机，不然会有抖动（不可分的样本）。
a随着迭代减少才行。

缺失值处理

均值
特殊值，如-1
直接忽略有缺失值的样本
使用相似样本均值
使用ml方法来预测缺失值（蛋疼）

bagging

bagging全称是（bootstrap aggregating），好吧，以前还以为bagging是一个单词。

可重复抽样。然后得到多个样本进行多次训练得到多个模型。

最后，如果是分类问题就投票，回归问题就取平均。

经典的，看随机森林（random forest）吧。

boosting

思想挺简单，就是学错的样本加权，学对的样本降权，就像以前高中准备的错题本一样，哈哈。然后把weak learner合并到一起。boosting应该只是一个框架，因为只说明了思路，没说具体怎么操作，见wiki

AdaBoost

一种具体的Boost方法。

要点：

样本加权多少。每一轮训练完后重新给样本赋权am，分错的权重变大，分对的权重变小。
子模型权重多少。每一轮的子分类器的权重Wmi跟分类误差率相关。误差低的权重高

直觉上，这样做挺合理的。具体的权重式子比较复杂，就不列了。

以前觉得理解AdaBoost这样也就够了，如果式子没兴趣推导的话。后来看了《统计学习方法》8.3提到AdaBoost的算法解释还挺有意思的

AdaBoost算法是模型为加法模型，损失函数为指数函数、学习算法为前项分步算法时的二分类学习方法。

二分类：突然才发现有个问题，AdaBoost是用于分类，不能用于回归，而且分类还是二分类。
加法模型: 就是说把模型加起来。如果是线性的函数y，相加起来其实没啥用，因为可以合并成一个函数，所以表示不了复杂函数。比如y1=a1*x + b1 , y2=a2*x + b2,可以合并成y=(a1+a2)*x+(b1+b2)。不过，AdaBoost用的子模型是分类器，而且取值为{-1,1}，并且限定了最终加起来的函数是sign(x>0,y=1; x<0,y=-1}，这样有正有负，加法才有意义

比如弱分类器是阶跃函数的话（x>v或x<v)，而y={-1,1},这样可以组成复杂的函数，比如划分出[+, -, +, -}这样的区间。

损失函数为指数函数。 exp[-y*fm(x)] 可以展开为exp[-y( fm-1(x) + am * Gm(x) )] = Wmi * exp[ -y*am*Gm(x) ] ，求lose函数的极值，可以推到出am（子分类器的解）和样本权重Wmi。公式有点绕，反正意思就是加法模型我们得到A=A’+B, 那么exp(-A) = exp(-(A’+B) ) = exp(-A’)exp(-B) = w exp(-B), 样本权重w跟前项分步的结果A’跟相关，然后在给定的权重下，求解当前的子分类器B的最优解。exp(A+B)能变成exp(A)* exp(B),有没有联想起想起前面朴素贝叶斯防止下溢的技巧 ln(a*b)=ln(a)+ln(b)

从这个角度可以加深一下对AdaBoost的理解。

提升树

就是把AdaBoost的子分类器换成树，换成二分类树的话，就是前面提到的AdaBoost的特殊情况（子分类器权重都是1）而已。所以主要还是关注回归树的情况。其实就叫做GBRT。注意到加法模型的特点，对于回归的情况，第m个子回归模型直观上要拟合的是前m-1个模型的残差(residual),即r=y - fm-1(x)，不过这个其实是当误差函数为平方误差时推导出来的。当损失函数比较复杂时怎么办？类似学LR的时候有gradient descent，我们不对x对梯度，而是对加法模型累加的函数fm-1 求梯度。而且我们只是用梯度近似残差，还得再线性搜索一下。《统计》里面也没细说怎么求梯度，那先这样吧。

k-means

标准的方法都懒得说了。

但是有k不好确定的问题，所以我们可以自顶向下二分K-means(bisecting K-means)。先分成两个，再选误差大的继续分成两个。

EM（Expectation Maximization）算法

有些基础的东西还是要懂的。

Jensen不等式

貌似记住一个图就行，大可不必扣细节。

k-means

EM算法描述起来可能有点抽象，可以用k-means作为实际例子直观感知一下。具体k-means算法就不罗嗦了，很简单。

EM

主要参考资料cs229 note8。简单说，EM就是在原来的likelihood函数加上一个latent random variables z ，而且注意 z 是离散值

l (θ) = \sum i = 1 m log p (x; θ) = \sum i = 1 m log \sum z p (x, z; θ)

问题是显示求解太难，所以要用EM算法了。

(E-step) construct a lower-bound on l
(M-step) optimize that lower-bound

cs229主要是从数学式子的角度来解释，所以其实不太好理解。对应到k-means实际例子，E-step就是算当前点离哪个圆心最近，把点归属到那个类（这种叫”hard” assigment, 而一般的情况我们是算一个概率 wi , 可以让离得近的分类概率大，离得远的概率小，这种叫”soft” assigment，k-means应该也能用”soft”，就是计算会复杂点）。然后M-step就是分配完点的新类别后, 重新算圆心等参数。

Thus, we simple set the Q′is to be the posterior distribution。– 构造 Jensen不等式，并使其取等号的结论

如果要说得直白一点，E-step（ Q′is 就是latent variable z 的”soft assigment”的值）我们实际上算的是 z 的后验分布，就是当”圆心已经知道时”，算点归属到分类的概率。

而M-step就是假设当让人头痛的 z 已经知道后（记得这个是EM算法的唯一不同点），求解模型其他参数的最优值（跟以前的方法没两样了）。

这样交替迭代，有没有想起跟之前哪个很像？

The EM can also be viewed a coordinate ascent on J, in which the E-step maximizes it with respect to Q, and the M-step maximizes it with respect th θ

当然，具体的Jensen不等式的构造，收敛性证明等数学的东西就自己去看看吧。

隐马尔科夫模型

整理自《统计》

模型组成

初始概率分布
状态转移概率分布
观察概率分布

两个重要假设

齐次马尔科夫性假设。状态t只依赖状态t-1。（跟朴素贝叶斯是不是效果有些像？能大大简化模型）
观测独立性假设。观测Ot只依赖状态It。

说到状态转移有没想起PageRank？说到隐藏状态和观察序列有没想起EM算法？

EM算法是不是隐马尔可夫模型简化后的特殊情况？

隐马尔可夫模型	EM算法
时序的	“一次性”的
随着时间在一组状态中变换。(状态转移矩阵大小N*N)	latent变量 z 是离散值(可以当作1*N)
观测结果也是枚举值	也可以是离散值

基本问题

图片来自http://www.cnblogs.com/gemstone/archive/2012/09/05/2671577.html

概率计算。输入模型λ、观测序列O, 求P(O|λ)。前向和后向两种方法，感觉差不多。因为有了齐次马尔科夫性假设之后，一层一层推就好了，前向和后向就起点不同罢了。
学习问题。如入观测序列O,求模型λ，使观测序列P(O|λ)最大。
预测问题，如入观测序列O,求模型λ，使状态序列P(I|λ)最大。

Apriori

频繁项集经常出现在一块的物品集合。评价指标

支持度出现该项的记录数/总的记录数
关联规则频繁项集里的物品是否有强关联。评价指标

置信度 {尿布}->{啤酒} 的置信度= 支持度({尿布,啤酒}) / 支持度({尿布})。

所以{尿布,啤酒}即使是频繁项集，也不代表{尿布}->{啤酒}的关联规则一定存在。有点像准确率高不一定召回率也高的意思。

求解方法

只算一个项集是否频繁的话，那只能暴力扫描一遍了。如果要把所有的频繁项集都找出来就不能暴力扫了。

显然要递推，先找一个项的频繁项集。用A(1)来表示吧（下面符号不严谨，只是为了说明意思。不要太介意）。

然后怎么办？在一个项的频繁项集基础上再加上一项看看？虽然是可以，但是不够高效，比如有一项只出现过一次，根本就达不到阈值，枚举它也是徒劳。注意到一个项的频繁项集其实我们已经都找出来了，所以两个项的候选集合是A(1) * A(1) （笛卡尔积），候选集合找出来，其实还是得再过一遍判断是否subset。判断subset还是挺费的。

更一般的，A(k) = A(k-1) * A(1) 这样递推其实也行的，但历史数据利用得不够充分。

Apriori算法用的是A(k) = A(k-1)+ A(k-1)

s.t. A(k-2)=A(k-2)

就是说，直接利用两个A(k-1)的结果，但条件是其中要有k-2个元素相同，这样加起来才是有k个元素。比如说{1,2}和{1,3} ,{1}是相同的，相加一下等于{1,2,3}。显然把历史信息榨干了，这个就是Apriori算法的核心idea。

FP-growth

想想Apriori的瓶颈在哪？每次找的只能是候选集，所以还得扫一遍判断是subset的占比是否满足支持度。

FP-growth 核心idea就是利用trie树能压缩存储共有前缀的思想来表示集合元素，这样判断是否subset就没那么费了。算法只要刷两遍数据就得出结果。

算法描述起来挺绕的，但是先记住算法的核心idea，然后看看例子就很清楚了。比如这里有一个关联规则挖掘算法 FP-growth的详细讲解

有acm竞赛背景的应该很好理解的。就是很简单的东西，有些资料还写得听绕的，蛋疼。

【PHP开发900个实用技巧】405.API限流技术：Redis实现令牌桶算法的高级用法精通代码大仙 PHP开发900个实用技巧 php redis 算法程序员创富
百万并发下的生存法则：用Redis+Lua构建坚不可摧的API流量防线！本文将揭示令牌桶算法在PHP高并发场景的核心实现技巧，包括Lua原子操作、动态策略配置与深度避坑指南，让你的API从此从容应对流量风暴。API限流技术：Redis实现令牌桶高级用法01.令牌桶原理解析02.Redis为何是最强拍档03.PHP实战四步曲3.1Lua脚本原子操作3.2对象封装技巧3.3动态参数配置3.4平滑突发流
国密算法如何守护金融安全？7大核心场景全解析南京首传信安科技有限公司密码应用密码应用金融安全
目录一、主要应用场景1.基础设施安全2.身份认证与访问管理3.交易安全与不可否认性4.数据安全5.支付清算与结算6.移动金融安全7.风控与反欺诈二、商用密码应用带来的核心价值三、面临的挑战与趋势四、首传信安解决方案总结金融领域的安全需求是一个极其严苛、多层次、动态演进的体系，其核心目标是构建信任基础，确保资金安全、系统稳定、隐私合规、业务连续。商用密码算法在金融领域的应用是保障金融安全的核心技术支
算法复杂度分析每天一个秃顶小技巧算法 java 后端数据结构
算法复杂度分析前言算法（Algorithm）是指用来操作数据、解决程序问题的一组方法。对于同一个问题，使用不同的算法，也许最终得到的结果是一样的，但在过程中消耗的资源和时间却会有很大的区别。那么我们应该如何去衡量不同算法之间的优劣呢？主要还是从算法所占用的「时间」和「空间」两个维度去考量。时间维度：是指执行当前算法所消耗的时间，我们通常用时间复杂度来描述。空间维度：是指执行当前算法需要占用多少内存
数据结构—数组每天一个秃顶小技巧数据结构 golang 后端
数据结构—数组相关数据结构实现用go语言实现相关代码做题合集：https://github.com/longpi1/algorithm-pattern数组（Array）在Go中，数组是固定长度的连续内存块，长度在定义时确定且不可变。数组的使用场景较少，因为切片（slice）更加灵活，通常更常用。所以在做算法题时一般用切片进行编写定义和特点数组的长度是类型的一部分，例如[3]int和[4]int是不
Python开发从新手到专家：第三章列表、元组和集合 caifox菜狐狸 Python开发从新手到专家 python 元素集合列表元组数据结构字典
在Python开发的旅程中，数据结构是每一位开发者必须掌握的核心知识。它们是构建程序的基石，决定了代码的效率、可读性和可维护性。本章将深入探讨Python中的三种基本数据结构：列表、元组和集合。这三种数据结构在实际开发中有着广泛的应用，从简单的数据存储到复杂的算法实现，它们都扮演着不可或缺的角色。无论你是刚刚接触Python的新手，还是希望进一步提升编程技能的开发者，本章都将是你的宝贵指南。我们将
操作系统必备定义2.2 勤勉螺丝钉学习
2.2CPU调度CPU调度：是对CPU进行分配，即从就绪队列中按照一定的算法（公平高效的原则）选择一个进程，并将CPU分配给它运行，以实现进程并发的执行。CPU调度是多道程序操作系统的基础，是操作系统设计的核心问题。调度的层次：①高级调度（作业调度了）：按照某种规则，从外存上处于后备队列中的作业中挑选一个（或多个），给他（们）分配内存、I/O设备等必要的资源，并建立相应的进程，使他们获得竞争CPU
数据结构学习之栈楼田莉子数据结构学习笔记算法数据结构 c语言
本篇博客我们将深入学习数据结构中栈与队列相关的内容作者的个人gitee：楼田莉子(riko-lou-tian)-Gitee.com目录概念栈的实现初始化销毁入栈判空出栈获取栈顶元素栈的有效元素个数源代码与栈相关的算法题（力扣）有效的括号编辑概念栈是一种特殊的线性表，只允许在固定的一端进行插入删除元素的操作。进行数据插入和删除操作的一端叫栈顶，另一端叫栈底。遵循“后进先出”的原则。下图就是对栈后进先
AI Agent开发第81课-企业AI落地15大陷阱与破局之道 TGITCIC AI Agent开发大全人工智能 AI落地企业AI落地大模型落地企业大模型落地
1.技术至上：忽视业务融合1.1业务需求驱动的本质AI项目的核心价值在于解决业务痛点，而非技术炫技。某银行通过成熟的人脸识别技术将坏账率降低15%，其成功源于对业务场景的精准把握。技术选择必须基于业务需求的优先级排序，而非单纯追求算法复杂度。当零售企业用AI优化供应链时，其目标是提升库存周转率0.5个百分点，而非发表顶会论文。1.2技术与业务的错位某科技公司投入千万研发智能客服系统，最终因响应准确
Kafka 核心原理篇：深入理解分布式消息系统的内核机制真实的菜 kafka 分布式 kafka linq
Kafka核心原理篇：深入理解分布式消息系统的内核机制文章目录Kafka核心原理篇：深入理解分布式消息系统的内核机制消息存储与持久化机制日志分段存储策略️**分段文件结构****索引机制详解**高效的磁盘读写与数据压缩算法**零拷贝技术（Zero-Copy）****数据压缩策略****页缓存优化**数据过期与清理策略⏰**基于时间的清理****基于大小的清理**️**日志压缩（LogCompact
圆柱电池自动分选机：电池生产线的智能守护者 b***2511 大数据人工智能
在新能源产业的浪潮中，圆柱电池作为电动汽车、储能系统及各类便携式电子设备的核心能量单元，其性能与质量的优化成为了行业发展的关键。随着技术的不断进步和市场的日益成熟，圆柱电池的生产效率与品质要求也越来越高。而圆柱电池自动分选机，作为电池生产线上的关键设备，正以其高效、精准、智能的特点，成为提升电池生产效率与品质的重要力量。一、圆柱电池自动分选机的工作原理圆柱电池自动分选机主要利用先进的机器视觉技术和
大模型-FlashAttention 算法分析清风lsq 大模型推理算法算法大模型推理 LLM flashattention
一、FlashAttention的概述FlashAttention是一种IO感知精确注意力算法。通过感知显存读取/写入，FlashAttention的运行速度比PyTorch标准Attention快了2-4倍，所需内存也仅是其5%-20%。随着Transformer变得越来越大、越来越深，但它在长序列上仍然处理的很慢、且耗费内存。（自注意力时间和显存复杂度与序列长度成二次方），现有近似注意力方法，
基于大模型的胆囊结石全流程预测与诊疗系统技术方案
目录一、系统架构设计1.1数据采集与预处理模块1.2大模型核心算法模块二、全流程系统流程图三、系统集成方案3.1模块交互流程3.2数据流示意图四、系统部署拓扑图五、核心模块实现细节5.1术前风险预测算法5.2术中监测算法5.3术后并发症预测模型六、关键技术验证方案6.1模型验证流程6.2临床试验设计框架七、典型应用场景流程7.1腹腔镜手术决策流程一、系统架构设计1.1数据采集与预处理模块#数据采集
基于大模型的胆囊结石全流程预测与诊疗系统技术方案大纲 LCG元大模型医疗研究-方案大纲人工智能机器学习深度学习方案大纲
目录一、引言二、系统架构设计（一）数据采集与预处理模块（二）大模型核心算法模块（三）应用层功能模块三、全流程系统流程图四、术前阶段详细方案（一）患者信息采集与整合（二）胆囊结石风险预测（三）手术方案制定辅助（四）麻醉方案规划五、术中阶段详细方案（一）实时数据监测与传输（二）手术进程智能辅助六、术后阶段详细方案（一）术后恢复情况预测（二）并发症风险预测（三）护理方案调整（四）康复指导七、并发症风险预
C语言控制结构深度解析：从底层原理到高效实战技巧 Bryan Ding c语言开发语言
一、程序逻辑的核心密码程序设计的本质是对现实问题的抽象和逻辑表达。C语言作为结构化编程语言的典范，其控制结构构成了程序逻辑的骨架。三大基本结构构成所有程序的逻辑基础：顺序结构：代码的自然执行顺序选择结构：if/else语句实现分支判断循环结构：for/while实现重复操作二、选择结构的底层实现1.if语句的机器级实现if (condition){ //代码块}编译后的汇编代码示例： cmp
AppML 案例简介沐知全栈开发开发语言
AppML案例简介引言AppML，全称为“应用程序机器学习”，是一种将机器学习技术与移动应用开发相结合的技术框架。它旨在简化移动应用的机器学习功能集成，使得开发者无需深入了解复杂的机器学习算法，即可将强大的AI功能引入他们的应用中。本文将简要介绍AppML的一些成功案例，展示其在不同领域的应用和价值。AppML案例一：健康监测应用案例概述：一款名为“HealthMate”的健康监测应用利用AppM
PL-SLAM: Real-Time Monocular Visual SLAM with Points and Lines
PL-SLAM文章目录PL-SLAM摘要系统介绍综述方法综述LINE-BASEDSLAM一、基于线的SLAM二、基于线和点的BA三、全局重定位使用线条初始化地图实验结果说明位姿求解三角化LSD直线检测算法**一、核心原理**⚙️**二、实现方法****三、应用场景**⚖️**四、优缺点与优化****优缺点对比****总结**End摘要译文——众所周知，低纹理场景是依赖点对应的几何计算机视觉算法的主
Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
IDS检测原理和架构 hao_wujing 安全
大家读完觉得有帮助记得关注和点赞！！！IDS（入侵检测系统）的核心使命是**从海量网络/主机行为中精准识别攻击企图**，其技术本质是**异常行为模式识别引擎**。以下从检测原理、系统架构到技术演进进行深度解析：---###⚙️IDS核心检测原理####1.**双引擎协同机制**|**检测类型**|**原理**|**优势/局限**|**典型算法**||--------------------|---
塞浦路斯VPS MySQL 8.7量子安全索引测试 cpsvps_net mysql 安全数据库
在数字化时代背景下，数据安全已成为全球企业关注的核心议题。本文将深入解析塞浦路斯VPS环境下MySQL8.7量子安全索引的突破性测试成果，揭示其如何通过先进的加密算法重构数据库防护体系，为金融、医疗等敏感行业提供符合后量子密码学标准的解决方案。塞浦路斯VPSMySQL8.7量子安全索引测试-下一代数据库防护技术解析量子计算威胁下的数据库安全新挑战随着量子计算机的快速发展，传统加密算法正面临前所未有
8、探讨排序算法及其实际应用侯昂排序算法插入排序快速排序
探讨排序算法及其实际应用1.排序算法的重要性排序算法在计算机科学中扮演着至关重要的角色。无论是日常生活中常见的任务，还是复杂的数据处理工作，排序算法都能帮助我们更有效地管理和检索信息。以下是几个实际应用场景：字典中的单词：字典中的单词按顺序排列，忽略大小写差异。这使得查找特定单词变得非常容易。目录中的文件：目录中的文件通常按排序顺序列出，方便用户快速找到所需文件。书籍索引：一本书的索引是排序过的，
基于MATLAB平台设计并实现自适应噪声抵消器（Adaptive Noise Canceller, ANC） AI Dog 自动控制 matlab 自适应噪声抵消器 ANC 信号去噪
本课题旨在基于MATLAB平台设计并实现自适应噪声抵消器（AdaptiveNoiseCanceller,ANC），以有效去除信号中的背景噪声，提升语音、医疗或通信系统中的信噪比。系统采用自适应滤波算法，如最小均方误差（LMS）或归一化LMS（NLMS）算法，通过参考噪声信号估计并抵消主通道信号中的噪声成分，实现动态降噪。研究内容包括信号采集与仿真建模、自适应滤波器结构设计、算法参数调整及降噪性能评
教育技术学读计算机论文的提示词东方-教育技术博主学术学习相关 AI
角色：你是一位经验丰富的计算机专业教授，擅长用通俗易懂的语言向初学者解释复杂概念。我现在正在学习阅读计算机科学领域的算法论文，但我的基础比较薄弱（了解编程基础如变量、循环、函数，了解一点数据结构和算法概念如数组、链表、排序，但对高级术语和数学证明不熟悉）。同时又是一个教育技术学教授。任务：请帮我解释以下论文内容中我不理解的部分。如果遇到初学者可能不懂的地方，我需要你用最清晰、最简洁、最易懂的方式解
【Java】已解决java.sql.SQLRecoverableException异常屿小夏 java 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
如何用Python实现基础的文生视频AI模型 AI学长带你学AI AI人工智能与大数据应用开发 AI应用开发高级指南 python 音视频人工智能 ai
如何用Python实现基础的文生视频AI模型关键词：文生视频、AI生成、扩散模型、多模态对齐、视频生成算法、Python实现、时间一致性摘要：本文系统讲解基于扩散模型的文生视频（Text-to-Video,T2V）AI模型的核心原理与Python实现方法。从技术背景到数学模型，从算法设计到项目实战，逐步拆解文本-视频跨模态对齐、时间序列建模、扩散生成等关键技术。通过PyTorch实现一个基础版文生
深度学习流体力学【干货】人工智能交叉前沿技术，人工智能深度学习 python 机器学习
深度学习作为一种新兴的机器学习技术，为流体科学的研究提供了新的思路和方法。通过对大量数据的学习和分析，深度学习模型可以自动提取特征和模式，为流体科学中的复杂问题提供解决方案。然而，深度学习在流体科学中的应用还面临一些挑战，需要进一步研究和探索。未来，深度学习与传统流体力学方法的结合将成为流体科学研究的重要方向，多模态数据的融合、模型的可解释性、实时预测和控制等将是深度学习在流体科学中发展的重点。相
使用GPU进行机器学习训练时，如果GPU-Util计算核心满载工作但是显存占用较少，应该如何优化？十子木机器学习深度学习人工智能
是否需要优化？如果任务运行正常：无需干预（GPU设计本就是优先榨干计算性能）。如果出现卡顿或效率低下：增大batch_size：提升显存占用，减少数据搬运次数（但需避免OOM）。启用混合精度：torch.cuda.amp可减少显存占用并加速计算。检查CPU到GPU的数据流：避免频繁的小数据拷贝（如DataLoader的num_workers设置）。
机器学习中为什么要用混合精度训练十子木机器学习机器学习人工智能
目录FP16与显存占用关系机器学习中一般使用混合精度训练：FP16计算+FP32存储关键变量。FP16与显存占用关系显存（VideoRAM，简称VRAM）是显卡（GPU）专用的内存。FP32（单精度浮点）：传统深度学习默认使用32位浮点数每个参数占用`4字节`例如：1亿参数的模型→约400MB显存FP16（半精度浮点）：每个参数占用`2字节`（直接减半）相同模型→约200MB显存双精度浮点（FP6
yolov算法详解_yolo 目标检测算法个人总结（yolov1） CHAO JIANG yolov算法详解
yolo目标检测算法个人总结目前yolo目标检测有两个版本，分别为v1和v2。因工作需要用yolo算法检测人物，所以这段时间重点看了这两篇论文，并实现了对应的tensorflow代码。这里记录下在论文阅读过程中的一些细节信息，留给自己，同时也希望各位能指出本人理解错误的地方，谢谢！一：yolov1关于yolov1算法的详解在网上已经非常多了，在这里我大概叙述下算法的流程，以及在开发过程中遇到的一些
高精度相机：工业自动化的“慧眼”，驱动智能制造新未来 lingling009 数码相机
在当今工业4.0时代，自动化技术的飞速发展正重塑制造业格局。作为工业视觉系统的核心组件，高精度相机扮演着“智慧之眼”的角色，帮助企业在复杂环境中实现精准识别与高效操作。迁移科技，自2017年成立以来，已成长为行业领先的3D工业相机和3D视觉系统供应商。凭借在硬件、算法及软件领域的技术积累，我们打造了稳定、易用、高回报的AI+3D视觉解决方案，服务于新能源、汽车、化工、家电、金属制造等行业。本文将聚
结构光相机：重塑工业自动化的“智慧之眼”，驱动智能制造新未来 lingling009 数码相机
一、迁移科技——3D视觉领域的创新引擎迁移科技成立于2017年，凭借结构光相机核心技术，已成为全球领先的3D工业视觉系统供应商。累计融资数亿元，深耕硬件、算法与软件三位一体技术，打造“稳定、易用、高回报”的AI+3D视觉解决方案，服务新能源、汽车、化工等10+行业，赋能工业自动化转型升级。二、结构光相机如何破解工业四大痛点1：高精度定位——汽车装配的“毫米级守护者”痛点：传统2D视觉无法捕捉曲面零
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

机器学习简明手册

机器学习简明手册

k近邻（k nearest neighbour）

可操作性的地方：

决策树

CART

朴素贝叶斯

LR

局部加权线性回归

加正则项

sgd加速

缺失值处理

bagging

boosting

AdaBoost

提升树

k-means

EM（Expectation Maximization）算法

Jensen不等式

k-means

EM

隐马尔科夫模型

模型组成

两个重要假设

基本问题

Apriori

求解方法

FP-growth

你可能感兴趣的:(算法,机器学习,机器学习手册)