我们家没有秃头的基因

机器学习笔试面试题——day3

选择题

1、下列方法中，不可以用于特征降维的方法包括
A 主成分分析PCA
B 线性判别分析LDA
C 深度学习SparseAutoEncoder
D 矩阵奇异值分解SVD

特征降维方法主要有：PCA,SVD,LDA，LLE，Isomap
AutoEncoder：AutoEncoder的结构与神经网络的隐含层相同，由输入L1,输出 L2组成，中间则是权重连接。L2可以尽可能的保存L1的信息,通常大多数情况下升维。

2、下列哪些不特别适合用来对高维数据进行降维
A LASSO
B 主成分分析法
C 聚类分析
D 小波分析法
E 线性判别法
F 拉普拉斯特征映射

lasso通过参数缩减达到降维的目的；
LDA通过找到一个空间使得类内距离最小类间距离最大所以可以看做是降维；
小波分析有一些变换的操作降低其他干扰可以看做是降维

3、下列属于无监督学习的是
A k-means
B SVM
C 最大熵
D CRF

4、下列哪个不属于CRF（条件随机场）模型对于HMM和MEMM模型的优势（）
A 特征灵活
B 速度快
C 可容纳较多上下文信息
D 全局最优

CRF（序列标注）是在给定待标记的观察序列的条件下，使用维特比算法，计算整个标记序列的联合概率分布。
CRF优点：
1）特征设计灵活
2）没有HMM那样严格的独立性假设条件，，因而可以容纳更多的上下文信息
3) CRF计算全局最优输出节点的条件概率，客服了最大熵马尔可夫模型标记偏置的缺点
CRF缺点
速度慢

5、以下哪个是常见的时间序列算法模型
A RSI
B MACD
C ARMA
D KDJ

RSI：相对强弱指数，通过比较一段时期内的平均收盘涨数和平均收盘跌数来分析市场买沽盘的意向和实力 , 从而作出未来市场的走势 
MACD：移动平均聚散指标，是根据均线的构造原理 , 对股票价格的收盘价进行平滑处理 , 求出算术平均值以后再进行计算 , 是一种趋向类指标 
KDJ：随机指标，是根据统计学的原理 , 通过一个特定的周期 ( 常为 9 日 ,9 周等 ) 内出现过的最高价 , 最低价及最后一个计算周期的收盘价及这三者之间的比例关系 , 来计算最后一个计算周期的未成熟随机值 RSV, 然后根据平滑移动平均线的方法来计算 K 值 , D 值与 J 值 , 并绘成曲线图来研判股票走势 .

6、下列不是SVM核函数的是
A 多项式核函数
B logistic核函数
C 径向基核函数
D Sigmoid核函数

SVM核函数：线性核、多项式核、径向基核、高斯核、幂指数核、拉普拉斯核、sigmod核（用sigmod核时，SVM是实现的是一种多层感知器神经网路，能求得全局最优值且对于未知样本的良好泛化能力）
核函数的选择方法：
1）利用专家的先验知识
2）采用交叉验证法，分别使用不同的核函数，归纳误差最小的
3）混合核函数，是目前的主流方法

7、解决隐马模型中预测问题的算法是
A 前向算法
B 后向算法
C Baum-Welch算法
D 维特比算法

解决预测问题：维特比算法
解决概率计算问题：前向后向算法
解决参数估计问题：Baum-Welch算法

8、一般，k-NN最近邻方法在（）的情况下效果较好
A 样本较多但典型性不好
B 样本较少但典型性好
C 样本呈团状分布
D 样本呈链状分布

KNN主要依靠的是周围的点，如果样本过多，那么难以区分
整体样本应该具有典型性好

9、在一个n维的空间中，最好的检测outlier(离群点)的方法是（）
A 作正态分布概率图
B 作盒形图
C 马氏距离
D 作散点图

10、对数几率回归（logistics regression）和一般回归分析有什么区别？
A 对数几率回归是设计用来预测事件可能性的
B 对数几率回归可以用来度量模型拟合程度
C 对数几率回归可以用来估计回归系数
D 以上所有

LR回归是用来解决分类问题的，可以检验模型对数据的拟合度
模型建立好后，就可以根据独立的特征，估计相关的回归系数

11、bootstrap数据是什么意思？（提示：考“bootstrap”和“boosting”区别）
A 有放回地从总共M个特征中抽样m个特征
B 无放回地从总共M个特征中抽样m个特征
C 有放回地从总共N个样本中抽样n个样本
D 无放回地从总共N个样本中抽样n个样本

boosting的训练集是整个样本集合
bagging的训练集有放回的从N样本选取n个样本
boostrap其实就是bagging

12、“过拟合”只在监督学习中出现，在非监督学习中，没有“过拟合”，这是（）
A 对的
B 错的

13、对于k折交叉验证, 以下对k的说法正确的是（）
A k越大, 不一定越好, 选择大的k会加大评估时间
B 选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集)
C 在选择k时, 要最小化数据集之间的方差
D 以上所有

Bias:度量了学习算法的期望输出与真实结果的偏离程度, 刻画了算法的拟合能力
     Bias 偏高表示预测函数与真实结果差异很大。
Variance：则代表“同样大小的不同的训练数据集训练出的模型”与“这些模型的期望输出值”之间的差异。
     训练集变化导致性能变化， Variance 偏高表示模型很不稳定。
Noise：刻画了当前任务任何算法所能达到的期望泛化误差的下界，
      刻画了问题本身的难度。

k越大, bias越小, 训练时间越长. 在训练时, 也要考虑数据集间方差差别不大的原则. 
比如, 对于二类分类问题, 使用2-折交叉验证, 如果测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会很差.

14、回归模型中存在多重共线性, 你如何解决这个问题？
1 去除这两个共线性变量
2 我们可以先去除一个共线性变量
3 计算VIF(方差膨胀因子), 采取相应措施
4 为了避免损失信息, 我们可以使用一些正则化方法, 比如, 岭回归和lasso回归
A 1
B 2
C 2和3
D 2, 3和4

解决多重公线性:
1)用相关矩阵去除相关性过高的变量
2）VIF法, 如果VIF值<=4说明相关性不是很高, VIF值>=10说明相关性较高
3）用岭回归核lasso回归的带有惩罚正则项的方法
4）加上一些随机噪声，使变量不同，但是要小心使用

15、模型的高bias是什么意思, 我们如何降低它？
A 在特征空间中减少特征
B 在特征空间中增加特征
C 增加数据点
D B和C
E 以上所有

17、对于信息增益, 决策树分裂节点, 下面说法正确的是（）
1 纯度高的节点需要更多的信息去区分
2 信息增益可以用”1比特-熵”获得
3 如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的
A 1
B 2
C 2和3
D 所有以上

纯度越高，表示不确定越少，更少的信息就可以区分

19、假设我们要解决一个二分类问题, 我们已经建立好了模型, 输出是0或1, 初始时设阈值为0.5, 超过0.5概率估计, 就判别为1, 否则就判别为0 ; 如果我们现在用另一个大于0.5的阈值, 那么现在关于模型说法, 正确的是 :
1 模型分类的召回率会降低或不变
2 模型分类的召回率会升高
3 模型分类准确率会升高或不变
4 模型分类准确率会降低
A 1
B 2
C 1和3
D 2和4
E 以上都不是

	预测正	预测负
实际正	TP	FN
实际负	FP	TN

Precision= TP/(TP+FP)表示预测实际为正的样本在所有预测为正的样本的百分比

Recall = TP/(TP+FN)表示预测实际为正的样本在所有实际为正的样本的百分比

Accuracy = TP+TN/所有样本表示预测正确的样本在所有样本的比例

20、“点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, 而且有了99%的预测准确率, 我们可以下的结论是
A 模型预测准确率已经很高了, 我们不需要做什么了
B 模型预测准确率不高, 我们需要做点什么改进模型
C 无法下结论
D 以上都不对

22、数据科学家可能会同时使用多个算法（模型）进行预测，并且最后把这些算法的结果集成起来进行最后的预测（集成学习），以下对集成学习说法正确的是
A 单个模型之间有高相关性
B 单个模型之间有低相关性
C 在集成学习中使用“平均权重”而不是“投票”会比较好
D 单个模型都是用的一个算法

23、在有监督学习中，我们如何使用聚类方法？

我们可以先创建聚类类别，然后在每个类别上用监督学习分别进行学习
我们可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习
在进行监督学习之前，我们不能新建聚类类别
我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习
A 2 和 4
B 1 和 2
C 3 和 4
D 1 和 3

24、以下说法正确的是

一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的
如果增加模型复杂度，那么模型的测试错误率总是会降低
如果增加模型复杂度，那么模型的训练错误率总是会降低
我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习
A1
B2
C3
D2和3
E都错

25、对应GradientBoosting tree算法，以下说法正确的是:

当增加最小样本分裂个数，我们可以抵制过拟合
当增加最小样本分裂个数，会导致过拟合
当我们减少训练单个学习器的样本个数，我们可以降低variance
当我们减少训练单个学习器的样本个数，我们可以降低bias
A2 和 4
B2 和 3
C1 和 3
D1 和 4

26、如果一个训练好的模型在测试集上有100%的准确率，这是不是意味着在一个新的数据集上，也会有同样好的表现？
A是的，这说明这个模型的范化能力已经足以支持新的数据集合了
B不对，依然后其他因素模型没有考虑到，比如噪音数据

27、下面的交叉验证方法
i. 有放回的Bootstrap方法
ii. 留一个测试样本的交叉验证
iii. 5折交叉验证
iv. 重复两次的5折交叉验证
当样本是1000时，下面执行时间长短的顺序，正确的是
Ai > ii > iii > iv
Bii > iv > iii > i
Civ > i > ii > iii
Dii > iii > iv > i

Boostrap方法是传统地随机抽样，验证一次的验证方法，只需要训练1次模型，所以时间最少。
留一个测试样本的交叉验证，需要n次训练过程（n是样本个数），这里，要训练1000个模型。
5折交叉验证需要训练5个模型。
重复2次的5折交叉验证，需要训练10个模型。

28、变量选择是用来选择最好的判别器子集，如果要考虑模型效率，我们应该做哪些变量选择的考虑？

多个变量其实有相同的用处
变量对于模型的解释有多大作用
特征携带的信息
交叉验证
A1 和 4
B1, 2 和 3
C1,3 和 4
D以上所有

考虑模型效率，所有不需要考虑模型的解释性

29、对于线性回归模型，包括附加变量在内，以下的可能正确的是 :

R-Squared 和 Adjusted R-squared都是递增的
R-Squared 是常量的，Adjusted R-squared是递增的
R-Squared 是递减的， Adjusted R-squared 也是递减的
R-Squared 是递减的， Adjusted R-squared是递增的
A1 和 2
B1 和 3
C2 和 4
D以上都不是

R方的定义是衡量模型拟合度的一个量，被解释为方差/总方差
用R方的时候，不断添加变量能让效果提升，但是这种提升是虚假的
利用调整R方能对添加的非显著变量给出惩罚，即随意添加一个变量不一定能让模型拟合度上升

手撕代码

1 找到1-n中的重复数字

public class FindNumber{
	//哈希：时间复杂度O(n),空间复杂度O(n),不用移动原数组，不用改动原数组
	public int soultion1(int[] nums){
		Hashset set = new HashSet();
		List result = new ArrayList();
		for(int i=0;ileft&&nums[i]<=mid)
					count++;
			}
			if(left+count>mid+1)
				right = mid;
			else
				left = mid+1;
		}
		return left;	
	}
}

2 求1-n之间的素数的个数

public int soultion(int[] nums){
		//标记位标记是否为质数
		boolean index;
		for(int i=1;i

 
  3 给一个字典和一个长字符串，判断字符串能不能拆成字典的组合 / 
  //对字典进行遍历，每次遍历都用当前字典元素和源字符串截取等长的字符串进行比较；当相等的时候就让开始截取的位置向前移动前一个已匹配的元素的长度，如此递归遍历，直到将所有字典遍历完毕
public class dict{
	public static boolean wordSpilt(String s,Set dict,int start){
		if(start == s.length())
			return true;
		for(String a :dict){
			int len = a.length();
			int end = start + len;
			if(end
 
  4 找到一串自然数的缺失值 
  //1到n的自然数，其中减少了x个数，顺序也被打乱，放在一个n-x的数组里，请找出丢失的数字。  
//声明一个新的长度是n+1的数组arr，然后遍历被打乱顺序且缺失数字的数组src，比如src中遍历到的数据a，让 arr[a]=1;由于，数组元素存在则格式化为 1 缺失则默认赋值为 0 ，那么只需找到数组元素为0的下标值

public class FindMissingNumber{
    public static String getMissingNumber(int[] src, int n) {
        StringBuffer result = new StringBuffer();
        int[] arr = new int[n + 1];
        arr[0] = 1;
        for (int i = 0; i < src.length; i++) {
            int num = src[i];
            arr[num] = 1;
           }
        for (int i = 0; i < arr.length; i++) {
            int num = arr[i];
            if (num != 1) {
            result.append(i + ",");
           }
        }
        if (result.length() > 0) {
            result.deleteCharAt(result.length() - 1);
        }
        return result.toString();
        }
}  
  机器学习算法 
  1 决策树算法 
  1 决策的结果是一个西瓜是否为好瓜，判断的特征属性有：颜色、响声、瓜蒂。。。
决策树的关键在于选择最优的划分属性，选择方法可以有:
1)信息增益ID3算法
    信息增益表示已知特征x,在x的条件下数据集Y不确定性减少的程度
2）信息增益率C4.5算法
    改善ID3算法易于偏向取值多的特征的缺点
3）基尼指数CART算法

2 为了防止过拟合，决策树采用剪枝策略，主动去除一些分支
1）预剪枝
    对根据某一个属性划分前后的分支的泛化性能进行估计，如果划分后的验证集的精度 > 划分前的，那么划分
    优点：使很多分支都不用展开减少过拟合风险，还减少了训练时间和测试开销。
    缺点：基于”贪心“的本质，很多分支没展开可能导致欠拟合
2）后剪枝
    先生成一颗完整的树，通过最后一个分支来决定要不要剪掉
    优点：保留更多的分子，欠拟合风险小，泛化能力往往优于预剪枝；
    缺点：训练时间开销大
3 连续值和缺失值处理
1）遇到连续属性值
    C4.5算法采用二分法来对连续值进行处理。比如西瓜的密度，先把密度从小到大排序，然后找到候选划分点，把每个候选划分点的信息增益算出来，取max的值作为密度的信息增益。
2）缺失值处理
    如果遇到17个属性只有14个有值的情况：14个属性计算Gain，然后Gain*14/17，当作17个样本的信息增益，进行后续计算；
    如果遇到某一个样本y在属性x（值有1，2，3）上缺失，那么这个样本在1，2，3的三个分支里都会出现，知识样本权重不是1,而是这三个分支中除y外各个样本的比例。
 
  2 各类梯度下降方法 
  梯度下降的过程类似于在下山的过程中找到最陡峭的地方（梯度），
在这个地方沿着高度下降的方向（梯度相反的反向）走，
每走一段路程（步长，学习率）就需要测量以下是否是最陡峭的。
J是一个可微分的损失函数，目标就是要找到J的最小值，当前在0点，下一步1点： 
   
   
    
     
     梯度下降方法 
     优点 
     缺点 
     
     
     全量梯度下降BGD 
     每次学习用整个数据集，收敛于全局极点 
     学习时间太长 
     
     
     随机梯度下降SGD 
     一轮迭代只用一条随机选取的数据，学习很快 
     损失函数波动剧烈收敛时浮动，不稳定 
     
     
     小批量梯度下降 
     综合了BGD和SGD的优点 
     弱化了他们的缺点 
     
     
     Momentum梯度下降法 
     避免了BGD,SGD的震荡（震荡是由于之前频繁更改方向），加入了冲量 
       
     
    
   
  对于Momentum梯度下降方法加入了冲量之后： 
  1）当本次梯度下降方向与上次更新量的方向相同时，上次的更新量能够对本次的搜索起到一个正向加速的作用。 
  2）当本次梯度下降方向与上次更新量的方向相反时，上次的更新量能够对本次的搜索起到一个减速的作用 
  3 三类HMM算法和EM算法 
   
    
     
     已知参数，根据可见状态链得到隐藏状态链 
     预测问题，解码问题 
     维特比算法 
     
     
     已知参数，根据可见状态链得到某条隐藏状态链的概率 
     模型评价问题 
     后向算法 
     
     
     部分参数未知，根据可见状态链进行参数估计 
     参数估计问题 
     Baum-Welch算法 
     
    
   
  Baum-Welch是期望最大化算法（EM）在HMM里的具体体现：

如何在FastAPI中打造坚不可摧的Web安全防线？
url:/posts/9d6200ae7ce0a1a1a523591e3d65a82e/title:如何在FastAPI中打造坚不可摧的Web安全防线？date:2025-06-28T08:37:03+08:00lastmod:2025-06-28T08:37:03+08:00author:cmdragonsummary:Web安全三要素包括机密性、完整性和可用性。机密性通过加密算法保护数据传输和
算法竞赛备考冲刺必刷题（C++） | 洛谷 P8814 解密热爱编程的通信人算法 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：P8814[CSP-J2022]解密-洛
Java Fork/Join 框架详解 empti_ 数据结构与算法 java
JavaFork/Join框架详解Fork/Join框架是Java7引入的一个并行编程框架，专门设计用来高效地实现分治算法（Divide-and-Conquer）。它通过工作窃取（Work-Stealing）算法来最大化多核处理器的利用率。一、核心概念1.基本组成ForkJoinPool：特殊的线程池，管理工作线程ForkJoinTask：表示任务的抽象类，有两个重要子类：RecursiveAct
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
游戏寻路之A*算法（GUI演示） jforgame 从零开始搭建游戏服务器框架 java A星自动寻路
一、A*算法介绍A*算法是一种路径搜索算法，用于在图形网络中找到最短路径。它结合了Dijkstra算法和启发式搜索的思想，通过综合利用已知的最短路径和估计的最短路径来优化搜索过程。在游戏自动寻路得到广泛应用。二、A*算法的基本思想在图形网络中选择一个起点和终点。维护两个列表：开放列表和关闭列表。开放列表用于存储待考虑的节点，关闭列表用于存储已考虑过的节点。将起点加入开放列表。循环以下工作当open
疲劳检测与行为分析：工厂智能化实践智驱力人工智能安全智慧城市行为识别人员属性识别疲劳检测抽烟检测徘徊检测
视觉分析算法赋能工厂疲劳与安全管理一、背景与需求在制造业中，疲劳作业是导致安全事故和效率下降的核心因素之一。传统人工巡检存在覆盖面不足、响应滞后等问题，而基于视觉分析的智能监控系统通过多算法协同，可实现全天候、高精度的疲劳检测与行为管理。本文围绕疲劳检测算法、人员计数算法、抽烟检测算法及徘徊检测算法，探讨其在工厂场景中的技术实现与应用价值。二、技术实现疲劳检测算法原理：基于PERCLOS（眼睑闭合
010 【入门】链表入门题目-合并两个有序链表要天天开心啊算法专栏链表数据结构
合并两个有序链表|[算法]-[中级]-[链表]▶JDK8+|⏱️O(m+n)核心代码实现packageclass010;//将两个升序链表合并为一个新的升序链表并返回//新链表是通过拼接给定的两个链表的所有节点组成的//测试链接:https://leetcode.cn/problems/merge-two-sorted-lists/publicclassMergeTwoLists{//链表节点定义
008 【入门】算法和数据结构简介要天天开心啊算法专栏算法数据结构
算法与数据结构系统概览|[算法]-[基础]-[通用]一、算法分类与应用1.硬计算类算法|[算法]-[中级]-[通用]特点应用场景复杂度特征-精确求解问题-可能带来较高计算复杂度-大厂笔试/面试-ACM竞赛-所有程序员岗位必考⏱️通常为O(n)~O(n²)//[示例]快速排序算法-分治思想核心实现publicvoidquickSort(int[]arr,intleft,intright){if(le
莫队算法 —— 将暴力玩出花秒啦算法
莫队算法——将暴力玩出花一、为什么需要莫队？——暴力法的瓶颈我们已经学会了用分块处理一些在线的区间问题。现在，我们来看一类特殊的离线区间查询问题。“离线”意味着我们可以把所有查询先读进来，再按我们喜欢的顺序去处理它们。思考一个问题：给定一个长度为N的数组，M次询问。每次询问一个区间[l,r]，问区间内有多少种数字至少出现了2次？那我们回到最朴素的暴力。纯暴力：对于每个询问(l,r)，都for一遍，
Web3前沿科技：开启数字资产交易新征程 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据 web3 科技 ai
Web3前沿科技：开启数字资产交易新征程关键词：Web3、数字资产交易、区块链、智能合约、去中心化金融摘要：本文聚焦于Web3前沿科技在数字资产交易领域的应用与发展。详细阐述了Web3的核心概念、相关技术原理，包括区块链、智能合约等。通过具体的算法原理和Python代码示例，深入剖析了数字资产交易在Web3环境下的运行机制。同时，结合实际项目案例，讲解了开发环境搭建、代码实现与解读。探讨了Web3
高斯混合模型GMM&K均值（十三-1）——K均值是高斯混合模型的特例 phoenix@Capricornus 模式识别与机器学习均值算法机器学习算法
EM算法与K均值算法的关系K均值可以看成是高斯混合模型的特例。对K均值算法与EM算法进行比较后，可以发现它们之间有很大的相似性。K均值算法将数据点硬（hard）分配到聚类中，每个数据点唯一地与一个聚类相关联，而EM算法基于后验概率进行软（soft）分配。事实上，可以从EM算法推导出K均值算法。考虑一个高斯混合模型，其中混合分量的协方差矩阵由σ2I{\sigma^2}Iσ2I给出，其中σ2{\sig
Practical TLA+ 项目中的Dekker算法形式化验证焦习娜Samantha
PracticalTLA+项目中的Dekker算法形式化验证practical-tla-plusSourceCodefor'PracticalTLA+'byHillelWayne项目地址:https://gitcode.com/gh_mirrors/pr/practical-tla-plus概述本文分析PracticalTLA+项目中关于Dekker互斥算法的形式化规范。Dekker算法是解决多线
【C++算法竞赛】前缀和+桶数组 YLCHUP C++算法技巧算法 c++开发语言数据结构哈希算法 c语言笔记
文章目录1.前缀和基础2.算法原理3.例题讲解[P1114“非常男女”计划](https://www.luogu.com.cn/problem/P1114)[P11965[GESP202503七级]等价消除](https://www.luogu.com.cn/problem/P11965)[P10724[GESP202406七级]区间乘积](https://www.luogu.com.cn/pro
【机器学习与数据挖掘实战 | 医疗】案例18：基于Apriori算法的中医证型关联规则分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘 Apriori python 关联规则人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
提示词编程语言设计艺术探索 AI天才研究院计算 AI人工智能与大数据 AI大模型企业级应用开发实战 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《提示词编程语言设计艺术探索》关键词：提示词编程语言，设计艺术，编程语言设计，核心算法，实例分析，项目实战摘要：本文旨在深入探讨提示词编程语言的设计艺术，从基础概念到核心算法，再到实际应用和未来趋势，全面解析这一领域的关键技术和设计理念。通过具体的实例分析和项目实战，帮助读者更好地理解和掌握提示词编程语言的设计与实现。引言与概述1.1提示词编程语言的背景和重要性提示词编程语言（Prompt-Bas
误差的回响：反向传播算法与神经网络的惊天逆转田园Coder 人工智能科普人工智能科普
当专家系统在20世纪80年代初期大放异彩，成为人工智能实用化的耀眼明星时，另一股曾经被宣判“死刑”的力量——连接主义（神经网络）——正在寒冬的冻土下悄然涌动，孕育着一场惊天动地的复苏。马文·明斯基和西摩·帕尔特在1969年《感知机》专著中那精准而冷酷的理论批判，如同沉重的封印，将多层神经网络的研究禁锢了近二十年。他们指出的核心死结——缺乏有效算法来训练具有隐藏层的网络——仿佛一道无法逾越的天堑。单
C++ Lambda表达式详解：从入门到精通 Jay_515 c++Lambda
Lambda表达式是C11引入的最重要特性之一，它彻底改变了我们在C中编写函数对象的方式。本文将带你全面掌握Lambda表达式的使用技巧！1.什么是Lambda表达式？Lambda表达式是C++11引入的一种匿名函数对象，它允许我们在需要函数的地方内联定义函数，无需单独命名。Lambda的出现极大简化了代码，特别是在使用STL算法时。为什么需要Lambda？简化代码：避免为简单操作单独编写函数对象
Tiktok App 登录账号、密码、验证码 XOR 加密算法
抖音App登录账号、密码、验证码XOR加密算法%E9n+z,\&R1a4b.^流程分析登录TiktokAPP时，通过抓包发现账号密码是非明文传输的。getUserProfile($userId,$secUid);echo"\n\n视频列表：\n";echo$tiktok->getMixList($userId);//示例：加密后的密码hex字符串$encrypted_hex="7472607771
mongodb和redis的区别： huangbfeng mongodb redis 数据库
1、内存管理机制Redis数据全部存在内存，定期写入磁盘，当内存不够时，可以选择指定的LRU算法删除数据。MongoDB数据存在内存，由linux系统mmap实现，当内存不够时，只将热点数据放入内存，其他数据存在磁盘。2、支持的数据结构Redis支持的数据结构丰富，包括hash、set、list等。MongoDB数据结构比较单一，但是支持丰富的数据表达，索引，最类似关系型数据库，支持的查询语言非常
数据库系统工程师简要概括笔记 Mint_Datazzh 数据库系统工程师数据库笔记数据库系统工程师
文章内容仅为粗略总结知识，便于个人复习思考原文链接:数据库系统工程师简要概括笔记–笔墨云烟数据库系统工程师—1.1计算机硬件基础知识数据库系统工程师—1.2计算机体系结构与存储系统数据库系统工程师—1.3安全性、可靠性与系统性能评测基础知识数据库系统工程师—2.程序语言基础知识数据库系统工程师—3.1~3.4线性结构、数组和矩阵、树和二叉树、图数据库系统工程师—3.5排序算法数据库系统工程师—3.
结构化数据增强的生成式算法案例：客户交易数据增强 python游乐园数据深度学习大数据算法学习
1基础信息1.1案例背景这是一个用于增强结构化客户交易数据的生成式算法。这种类型的数据增强在金融、电子商务等领域非常有用，可以帮助解决数据不平衡问题或在小数据集上提高模型性能。1.2问题定义给定原始交易数据集D={x₁,x₂,...,xₙ}，其中每条记录包含：交易金额交易时间客户年龄客户收入水平交易类别地理位置是否为欺诈交易(标签)目标：生成与原始数据分布相似但多样化的新样本，同时保持字段间的合理
LLMs基础学习（八）强化学习专题（7）汤姆和佩琦 NLP 学习 Actor-Critic 算法
LLMs基础学习（八）强化学习专题（7）文章目录LLMs基础学习（八）强化学习专题（7）Actor-Critic算法基础原理算法流程细节算法优缺点分析算法核心总结视频链接：https://www.bilibili.com/video/BV1MQo4YGEmq/?spm_id_from=333.1387.upload.video_card.click&vd_source=57e4865932ea6c
【基数排序介绍】 wdwc2 算法设计算法数据结构排序算法
文章目录前言一、基数排序是什么？二、基数排序的步骤（LSD低位优先）1.找出最大数的位数2.对每一位进行排序（从最低位到最高位）三、C++实现1.主函数：基数排序实现四、时间复杂度分析五、基数排序的适用场景六、与其他排序算法对比七、扩展：处理负数的思路总结前言在处理大规模整数排序问题时，比较类排序（如快速排序）可能无法发挥最优性能。本篇博客将详细介绍一种非比较类排序算法：基数排序（RadixSor
前端开发者必看：Node.js实战技巧大揭秘大厂前端小白菜前端开发实战 node.js vim 编辑器 ai
前端开发者必看：Node.js实战技巧大揭秘关键词：前端开发者、Node.js、实战技巧、模块化开发、性能优化、Express框架、Webpack摘要：本文专为前端开发者打造，旨在深入揭秘Node.js的实战技巧。首先介绍了Node.js的背景和对前端开发的重要性，接着详细阐述了Node.js的核心概念与联系、核心算法原理及具体操作步骤，通过数学模型和公式进一步加深理解。然后结合实际案例，从开发环
10个基于Python的计算机视觉实战项目云博士的AI课堂基于Python计算机视觉 python 计算机视觉机器视觉人工智能
10个基于Python的计算机视觉实战项目，涵盖多个领域和应用场景，每个项目均附有GitHub地址、概述、解决的问题及应用场景：1.PCV图像处理与计算机视觉库GitHub地址:jesolem/PCV概述:提供计算机视觉基础算法的Python实现，包括图像分割、直方图均衡化、图像增强等。解决的问题:简化图像处理流程，支持快速实现算法原型。应用场景:学术研究、教学实验、图像预处理任务。2.基于朴素贝
实现并查集数据结构的技术指南一键难忘数据结构算法并查集
本文收录于专栏：算法之翼https://blog.csdn.net/weixin_52908342/category_10943144.html订阅后本专栏全部文章可见。实现并查集数据结构的技术指南并查集（DisjointSetUnion，简称并查集）是一种常用的数据结构，用于管理元素之间的等价关系。它主要支持两种操作：合并（Union）和查找（Find）。并查集通常用于解决各种问题，如图论中的连
MATLAB实现WOA-BP鲸鱼优化算法优化BP神经网络多输入单输出回归预测（含模型描述及示例代码） nantangyuxi MATLAB 含模型描述及示例代码算法 matlab 神经网络大数据人工智能深度学习机器学习
目录MATLAB实现WOA-BP鲸鱼优化算法优化BP神经网络多输入单输出回归预测（多指标，多图）1项目背景介绍...1项目目标与意义...2项目挑战...3项目特点与创新...5<
华为OD机试 2025 B卷 - 抢7游戏 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD机试华为OD机试 2025B卷华为OD2025B卷华为OD机考2025B卷
抢7游戏华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷100分题型题目描述A、B两个人玩抢7游戏，游戏规则为：A先报一个起始数字X（10≤起始数字≤10000），B报下一个数字Y（X-Y<3），A再报一个数字Z（Y-Z<3），以此类推，直到其中一个抢到7，抢到7即为胜者；在B赢得比赛的情况下，一共有多少种组合？输入描述起始数字M。
C#推箱子游戏源代码解析与实践指南 Boa波雅
本文还有配套的精品资源，点击获取简介：C#推箱子游戏是一个经典的益智游戏，适合编程初学者学习C#语言和游戏开发的基础知识。本篇文章将深入探讨使用C#语言开发推箱子游戏的源代码，涉及面向对象编程、图形用户界面(GUI)、事件驱动编程、数据结构与算法、状态管理、错误检查与边界条件、游戏逻辑以及调试技巧。通过学习本课程，初学者将能够掌握C#编程的基础和游戏逻辑的实现，并能够创建用户友好的界面。1.面向对
量子机器学习前沿：量子神经网络与混合量子-经典算法软考和人工智能学堂人工智能 #深度学习 Python开发经验量子计算
1.量子计算基础1.1量子比特与量子门importnumpyasnpfromqiskitimportQuantumCircuit,Aer,executefromqiskit.visualizationimportplot_histogram#单量子比特操作演示defsingle_qubit_demo():qc=QuantumCircuit(1)qc.h(0)#Hadamard门创建叠加态qc.rz
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

机器学习笔试面试题——day3

选择题

手撕代码

1 找到1-n中的重复数字

2 求1-n之间的素数的个数

3 给一个字典和一个长字符串，判断字符串能不能拆成字典的组合 /

4 找到一串自然数的缺失值

机器学习算法

1 决策树算法

2 各类梯度下降方法

$\theta_1 = \theta_0 - \alpha \delta J(\theta)$

3 三类HMM算法和EM算法

你可能感兴趣的:(找工作,算法秋招)

梯度下降方法	优点	缺点
全量梯度下降BGD	每次学习用整个数据集，收敛于全局极点	学习时间太长
随机梯度下降SGD	一轮迭代只用一条随机选取的数据，学习很快	损失函数波动剧烈收敛时浮动，不稳定
小批量梯度下降	综合了BGD和SGD的优点	弱化了他们的缺点
Momentum梯度下降法	避免了BGD,SGD的震荡（震荡是由于之前频繁更改方向），加入了冲量

已知参数，根据可见状态链得到隐藏状态链	预测问题，解码问题	维特比算法
已知参数，根据可见状态链得到某条隐藏状态链的概率	模型评价问题	后向算法
部分参数未知，根据可见状态链进行参数估计	参数估计问题	Baum-Welch算法