sun123704

机器学习能力自测题——常见简单机器学习问题，帮助理解应用

转自https://www.cnblogs.com/JZ-Ser/articles/7659920.html

一直苦于没有办法自测一下机器学习知识掌握程度，最近看到一篇Ankit Gupta写的博客：Solutions for Skilltest Machine Learning : Revealed。有40题机器学习自测题，马上可以看看你的机器学习知识能打几分？顺便还能查漏补缺相关术语，以及SVM, 隐马尔科夫, 特征选择, 神经网络, 线性回归等众多知识点.

以下是试题, 附答案：

Q1：在一个n维的空间中，最好的检测outlier(离群点)的方法是：

A. 作正态分布概率图

B. 作盒形图

C. 马氏距离

D. 作散点图

答案：C

马氏距离是基于卡方分布的，度量多元outlier离群点的统计方法。更多请详见：这里和”各种距离“。

Q2：对数几率回归（logistics regression）和一般回归分析有什么区别？：

A. 对数几率回归是设计用来预测事件可能性的

B. 对数几率回归可以用来度量模型拟合程度

C. 对数几率回归可以用来估计回归系数

D. 以上所有

答案：D

A: 这个在我们第八期#8提到过，对数几率回归其实是设计用来解决分类问题的

B: 对数几率回归可以用来检验模型对数据的拟合度

C: 虽然对数几率回归是用来解决分类问题的，但是模型建立好后，就可以根据独立的特征，估计相关的回归系数。就我认为，这只是估计回归系数，不能直接用来做回归模型。

Q3：bootstrap数据是什么意思？（提示：考“bootstrap”和“boosting”区别）

A. 有放回地从总共M个特征中抽样m个特征

B. 无放回地从总共M个特征中抽样m个特征

C. 有放回地从总共N个样本中抽样n个样本

D. 无放回地从总共N个样本中抽样n个样本

答案：C

需要集成学习基础知识，详情请见：bootstrap, boosting, bagging 几种方法的联系

Q4：“过拟合”只在监督学习中出现，在非监督学习中，没有“过拟合”，这是：

A. 对的

B. 错的

答案：B

我们可以评估无监督学习方法通过无监督学习的指标，如：我们可以评估聚类模型通过调整兰德系数（adjusted rand score）

Q5：对于k折交叉验证, 以下对k的说法正确的是 :

A. k越大, 不一定越好, 选择大的k会加大评估时间

B. 选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集)

C. 在选择k时, 要最小化数据集之间的方差

D. 以上所有

答案：D

k越大, bias越小, 训练时间越长. 在训练时, 也要考虑数据集间方差差别不大的原则. 比如, 对于二类分类问题, 使用2-折交叉验证, 如果测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会很差.

如果不明白bias和variance的概念, 务必参考下面链接:

Gentle Introduction to the Bias-Variance Trade-Off in Machine Learning
Understanding the Bias-Variance Tradeoff

Q6：回归模型中存在多重共线性, 你如何解决这个问题？

A. 去除这两个共线性变量

B. 我们可以先去除一个共线性变量

C. 计算VIF(方差膨胀因子), 采取相应措施

D. 为了避免损失信息, 我们可以使用一些正则化方法, 比如, 岭回归和lasso回归.

以下哪些是对的:

A. 1

B. 2

C. 2和3

D. 2, 3和4

答案: D

解决多重公线性, 可以使用相关矩阵去去除相关性高于75%的变量 (有主观成分). 也可以VIF, 如果VIF值<=4说明相关性不是很高, VIF值>=10说明相关性较高.

我们也可以用岭回归和lasso回归的带有惩罚正则项的方法. 我们也可以在一些变量上加随机噪声, 使得变量之间变得不同, 但是这个方法要小心使用, 可能会影响预测效果.

Q7：模型的高bias是什么意思, 我们如何降低它 ?

A. 在特征空间中减少特征

B. 在特征空间中增加特征

C. 增加数据点

D. B和C

E. 以上所有

答案: B

bias太高说明模型太简单了, 数据维数不够, 无法准确预测数据, 所以, 升维吧 !

如果不明白bias和variance的概念, 务必参考下面链接:

Gentle Introduction to the Bias-Variance Trade-Off in Machine Learning
Understanding the Bias-Variance Tradeoff

Q8：训练决策树模型, 属性节点的分裂, 具有最大信息增益的图是下图的哪一个:

A. Outlook

B. Humidity

C. Windy

D. Temperature

答案: A

信息增益, 增加平均子集纯度, 详细研究, 请戳下面链接:

A Complete Tutorial on Tree Based Modeling from Scratch (in R & Python)
Lecture 4 Decision Trees (2): Entropy, Information Gain, Gain Ratio

Q9：对于信息增益, 决策树分裂节点, 下面说法正确的是:

A. 纯度高的节点需要更多的信息去区分

B. 信息增益可以用”1比特-熵”获得

C. 如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的

A. 1

B. 2

C.2和3

D. 所有以上

答案: C

详细研究, 请戳下面链接:

A Complete Tutorial on Tree Based Modeling from Scratch (in R & Python)
Lecture 4 Decision Trees (2): Entropy, Information Gain, Gain Ratio

Q10：如果SVM模型欠拟合, 以下方法哪些可以改进模型 :

A. 增大惩罚参数C的值

B. 减小惩罚参数C的值

C. 减小核系数(gamma参数)

答案: A

如果SVM模型欠拟合, 我们可以调高参数C的值, 使得模型复杂度上升.

LibSVM中，SVM的目标函数是:

而, gamma参数是你选择径向基函数作为kernel后,该函数自带的一个参数.隐含地决定了数据映射到新的特征空间后的分布.

gamma参数与C参数无关. gamma参数越高, 模型越复杂.

Q11：下图是同一个SVM模型, 但是使用了不同的径向基核函数的gamma参数, 依次是g1, g2, g3 , 下面大小比较正确的是 :

A. g1 > g2 > g3

B. g1 = g2 = g3

C. g1 < g2 < g3

D. g1 >= g2 >= g3

E. g1 <= g2 <= g3

答案: C

参考Q10题

Q12：假设我们要解决一个二类分类问题, 我们已经建立好了模型, 输出是0或1, 初始时设阈值为0.5, 超过0.5概率估计, 就判别为1, 否则就判别为0 ; 如果我们现在用另一个大于0.5的阈值, 那么现在关于模型说法, 正确的是 :

A. 模型分类的召回率会降低或不变

B. 模型分类的召回率会升高

C. 模型分类准确率会升高或不变

D. 模型分类准确率会降低

A. 1

B. 2

C.1和3

D. 2和4

E. 以上都不是

答案: C

这篇文章讲述了阈值对准确率和召回率影响 :

Confidence Splitting Criterions Can Improve Precision And Recall in Random Forest Classifiers

Q13：”点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, 而且有了99%的预测准确率, 我们可以下的结论是 :

A. 模型预测准确率已经很高了, 我们不需要做什么了

B. 模型预测准确率不高, 我们需要做点什么改进模型

C. 无法下结论

D. 以上都不对

答案: B

99%的预测准确率可能说明, 你预测的没有点进去的人很准确 (因为有99%的人是不会点进去的, 这很好预测). 不能说明你的模型对点进去的人预测准确, 所以, 对于这样的非平衡数据集, 我们要把注意力放在小部分的数据上, 即那些点击进去的人.

详细可以参考这篇文章: article

Q14：使用k=1的knn算法, 下图二类分类问题, “+” 和 “o” 分别代表两个类, 那么, 用仅拿出一个测试样本的交叉验证方法, 交叉验证的错误率是多少 :

A. 0%

B. 100%

C. 0% 到 100%

D. 以上都不是

答案: B

knn算法就是, 在样本周围看k个样本, 其中大多数样本的分类是A类, 我们就把这个样本分成A类. 显然, k=1 的knn在上图不是一个好选择, 分类的错误率始终是100%

Q15：我们想在大数据集上训练决策树, 为了使用较少时间, 我们可以 :

A. 增加树的深度

B. 增加学习率 (learning rate)

C. 减少树的深度

D. 减少树的数量

答案: C

增加树的深度, 会导致所有节点不断分裂, 直到叶子节点是纯的为止. 所以, 增加深度, 会延长训练时间.
决策树没有学习率参数可以调. (不像集成学习和其它有步长的学习方法)
决策树只有一棵树, 不是随机森林.

Q16：对于神经网络的说法, 下面正确的是 :

1. 增加神经网络层数, 可能会增加测试数据集的分类错误率
2. 减少神经网络层数, 总是能减小测试数据集的分类错误率
3. 增加神经网络层数, 总是能减小训练数据集的分类错误率

A. 1

B. 1 和 3

C. 1 和 2

D. 2

答案: A

深度神经网络的成功, 已经证明, 增加神经网络层数, 可以增加模型范化能力, 即, 训练数据集和测试数据集都表现得更好. 但是, 在这篇文献中, 作者提到, 更多的层数, 也不一定能保证有更好的表现. 所以, 不能绝对地说层数多的好坏, 只能选A

Q17：假如我们使用非线性可分的SVM目标函数作为最优化对象, 我们怎么保证模型线性可分 :

A. 设C=1

B. 设C=0

C. 设C=无穷大

D. 以上都不对

答案: C

C无穷大保证了所有的线性不可分都是可以忍受的.

Q18：训练完SVM模型后, 不是支持向量的那些样本我们可以丢掉, 也可以继续分类:

A. 正确

B. 错误

答案: A

SVM模型中, 真正影响决策边界的是支持向量

Q19：以下哪些算法, 可以用神经网络去构造:

1. KNN
2. 线性回归
3. 对数几率回归

A. 1和 2

B. 2 和 3

C. 1, 2 和 3

D. 以上都不是

答案: B

1. KNN算法不需要训练参数, 而所有神经网络都需要训练参数, 因此神经网络帮不上忙
2. 最简单的神经网络, 感知器, 其实就是线性回归的训练
3. 我们可以用一层的神经网络构造对数几率回归

Q20：请选择下面可以应用隐马尔科夫(HMM)模型的选项:

A. 基因序列数据集

B. 电影浏览数据集

C. 股票市场数据集

D. 所有以上

答案: D

只要是和时间序列问题有关的 , 都可以试试HMM

Q21：我们建立一个5000个特征, 100万数据的机器学习模型. 我们怎么有效地应对这样的大数据训练 :

A. 我们随机抽取一些样本, 在这些少量样本之上训练

B. 我们可以试用在线机器学习算法

C. 我们应用PCA算法降维, 减少特征数

D. B 和 C

E. A 和 B

F. 以上所有

答案: F

Q22：我们想要减少数据集中的特征数, 即降维. 选择以下适合的方案 :

1. 使用前向特征选择方法
2. 使用后向特征排除方法
3. 我们先把所有特征都使用, 去训练一个模型, 得到测试集上的表现. 然后我们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 如果表现比原来还要好, 我们可以去除这个特征.
4. 查看相关性表, 去除相关性最高的一些特征

A. 1 和 2

B. 2, 3和4

C. 1, 2和4

D. All

答案: D

前向特征选择方法和后向特征排除方法是我们特征选择的常用方法
如果前向特征选择方法和后向特征排除方法在大数据上不适用, 可以用这里第三种方法.
用相关性的度量去删除多余特征, 也是一个好方法

所有D是正确的

Q23：对于随机森林和GradientBoosting Trees, 下面说法正确的是:

在随机森林的单个树中, 树和树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的.
这两个模型都使用随机特征子集, 来生成许多单个的树.
我们可以并行地生成GradientBoosting Trees单个树, 因为它们之间是没有依赖的, GradientBoosting Trees训练模型的表现总是比随机森林好

A. 2

B. 1 and 2

C. 1, 3 and 4

D. 2 and 4

答案: A

随机森林是基于bagging的, 而Gradient Boosting trees是基于boosting的, 所有说反了,在随机森林的单个树中, 树和树之间是没有依赖的, 而GradientBoosting Trees中的单个树之间是有依赖关系.
这两个模型都使用随机特征子集, 来生成许多单个的树.

所有A是正确的

Q24：对于PCA(主成分分析)转化过的特征 , 朴素贝叶斯的”不依赖假设”总是成立, 因为所有主要成分是正交的, 这个说法是 :

A. 正确的

B. 错误的

答案: B.

这个说法是错误的, 首先, “不依赖”和”不相关”是两回事, 其次, 转化过的特征, 也可能是相关的.

Q25：对于PCA说法正确的是 :

1. 我们必须在使用PCA前规范化数据
2. 我们应该选择使得模型有最大variance的主成分
3. 我们应该选择使得模型有最小variance的主成分
4. 我们可以使用PCA在低维度上做数据可视化

A. 1, 2 and 4

B. 2 and 4

C. 3 and 4

D. 1 and 3

E. 1, 3 and 4

答案: A

PCA对数据尺度很敏感, 打个比方, 如果单位是从km变为cm, 这样的数据尺度对PCA最后的结果可能很有影响(从不怎么重要的成分变为很重要的成分).
我们总是应该选择使得模型有最大variance的主成分
有时在低维度上左图是需要PCA的降维帮助的

Q26：对于下图, 最好的主成分选择是多少 ? :

A. 7

B. 30

C. 35

D. Can’t Say

答案: B

主成分选择使variance越大越好，在这个前提下，主成分越少越好。

Q27：数据科学家可能会同时使用多个算法（模型）进行预测，并且最后把这些算法的结果集成起来进行最后的预测（集成学习），以下对集成学习说法正确的是 :

A. 单个模型之间有高相关性

B. 单个模型之间有低相关性

C. 在集成学习中使用“平均权重”而不是“投票”会比较好

D. 单个模型都是用的一个算法

答案: B

详细请参考下面文章:
- Basics of Ensemble Learning Explained in Simple English
- Kaggle Ensemble Guide
- 5 Easy questions on Ensemble Modeling everyone should know

Q28：在有监督学习中，我们如何使用聚类方法？ :

A. 我们可以先创建聚类类别，然后在每个类别上用监督学习分别进行学习

B. 我们可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习

C. 在进行监督学习之前，我们不能新建聚类类别

D. 我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习

A. 2 和 4

B. 1 和 2

C. 3 和 4

D. 1 和 3

答案: B

我们可以为每个聚类构建不同的模型，提高预测准确率。

“类别id”作为一个特征项去训练，可以有效地总结了数据特征。

所以B是正确的

Q29：以下说法正确的是 :

A. 一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的

B. 如果增加模型复杂度，那么模型的测试错误率总是会降低

C. 如果增加模型复杂度，那么模型的训练错误率总是会降低

D. 我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习

A. 1

B. 2

C. 3

D. 1 and 3

答案: C

考的是过拟合和欠拟合的问题。

Q30：对应GradientBoosting tree算法，以下说法正确的是 :

A. 当增加最小样本分裂个数，我们可以抵制过拟合

B. 当增加最小样本分裂个数，会导致过拟合

C. 当我们减少训练单个学习器的样本个数，我们可以降低variance

D. 当我们减少训练单个学习器的样本个数，我们可以降低bias

A. 2 和 4

B. 2 和 3

C. 1 和 3

D. 1 和 4

答案: C

最小样本分裂个数是用来控制“过拟合”参数。太高的值会导致“欠拟合”，这个参数应该用交叉验证来调节。
第二点是靠bias和variance概念的。

Q31：以下哪个图是KNN算法的训练边界 :

A) B

B) A

C) D

D) C

E) 都不是

答案: B

KNN算法肯定不是线性的边界，所以直的边界就不用考虑了。另外这个算法是看周围最近的k个样本的分类用以确定分类，所以边界一定是坑坑洼洼的。

Q32：如果一个训练好的模型在测试集上有100%的准确率，这是不是意味着在一个新的数据集上，也会有同样好的表现？ :

A. 是的，这说明这个模型的范化能力已经足以支持新的数据集合了

B. 不对，依然后其他因素模型没有考虑到，比如噪音数据

答案: B
没有一个模型是可以总是适应新数据的。我们不可能可到100%准确率。

Q33：下面的交叉验证方法 :

i. 有放回的Bootstrap方法

ii. 留一个测试样本的交叉验证

iii. 5折交叉验证

iv. 重复两次的5折教程验证

当样本是1000时，下面执行时间的顺序，正确的是：

A. i > ii > iii > iv

B. ii > iv > iii > i

C. iv > i > ii > iii

D. ii > iii > iv > i

答案: B

Boostrap方法是传统地随机抽样，验证一次的验证方法，只需要训练1次模型，所以时间最少。
留一个测试样本的交叉验证，需要n次训练过程（n是样本个数），这里，要训练1000个模型。
5折交叉验证需要训练5个模型。
重复2次的5折交叉验证，需要训练10个模型。

所有B是正确的

Q34. Removed

Q35：变量选择是用来选择最好的判别器子集，如果要考虑模型效率，我们应该做哪些变量选择的考虑？ :

1. 多个变量其实有相同的用处
2. 变量对于模型的解释有多大作用
3. 特征携带的信息
4. 交叉验证

A. 1 和 4

B. 1, 2 和 3

C. 1,3 和 4

D. 以上所有

答案: C

注意，这题的题眼是考虑模型效率，所以不要考虑选项2.

Q36：对于线性回归模型，包括附加变量在内，以下的可能正确的是 :

1. R-Squared 和 Adjusted R-squared都是递增的
2. R-Squared 是常量的，Adjusted R-squared是递增的
3. R-Squared 是递减的， Adjusted R-squared 也是递减的
4. R-Squared 是递减的， Adjusted R-squared是递增的

A. 1 和 2

B. 1 和 3

C. 2 和 4

D. 以上都不是

答案: D

R-squared不能决定系数估计和预测偏差，这就是为什么我们要估计残差图。但是，R-squared有R-squared 和 predicted R-squared 所没有的问题。
每次你为模型加入预测器，R-squared递增或不变.

详细请看这个链接：discussion.

Q37：对于下面三个模型的训练情况，下面说法正确的是 :

1. 第一张图的训练错误与其余两张图相比，是最大的
2. 最后一张图的训练效果最好，因为训练错误最小
3. 第二张图比第一和第三张图鲁棒性更强，是三个里面表现最好的模型
4. 第三张图相对前两张图过拟合了
5. 三个图表现一样，因为我们还没有测试数据集

A. 1 和 3

B. 1 和 3

C. 1, 3 和 4

D. 5

答案: C

Q38：对于线性回归，我们应该有以下哪些假设？ :

1. 找到利群点很重要, 因为线性回归对利群点很敏感
2. 线性回归要求所有变量必须符合正态分布
3. 线性回归假设数据没有多重线性相关性

A. 1 和 2

B. 2 和 3

C. 1,2 和 3

D. 以上都不是

答案: D

利群点要着重考虑, 第一点是对的
不是必须的, 当然, 如果是正态分布, 训练效果会更好
有少量的多重线性相关性是可以的, 但是我们要尽量避免

Q39：当我们构造线性模型时, 我们注意变量间的相关性. 在相关矩阵中搜索相关系数时, 如果我们发现3对变量的相关系数是(Var1 和Var2, Var2和Var3, Var3和Var1)是-0.98, 0.45, 1.23 . 我们可以得出什么结论:

1. Var1和Var2是非常相关的
2. 因为Var和Var2是非常相关的, 我们可以去除其中一个
3. Var3和Var1的1.23相关系数是不可能的

A. 1 and 3

B. 1 and 2

C. 1,2 and 3

D. 1

答案: C

Var1和Var2相关系数是负的, 所以这是多重线性相关, 我们可以考虑去除其中一个.
一般地, 如果相关系数大于0.7或者小于-0.7, 是高相关的
相关性系数范围应该是 [-1,1]

Q40：如果在一个高度非线性并且复杂的一些变量中, 一个树模型可能比一般的回归模型效果更好. 只是:

A. 对的

B. 错的

答案: A

你可能感兴趣的:(机器学习)

计算广告（一）爱学习的菜鸟罢了搜广推人工智能
计算广告学是一个十分庞大的学科，里面涵盖了自然语言处理、机器学习、推荐系统等众多研究方向。而且广告作为互联网行业的三大盈利模式（广告、电商、游戏）之一，也是这三大模式中最有技术含量的，计算广告学一直都吸引着无数学术界/工业界的精英投入其中（ps：计算广告学也是机器学习在商业界最成功的应用之一）。行业分类例子盈利搜索引擎Google百度广告社交网络腾讯facebook广告增值服务游戏电商网站亚马逊阿
如何从Oracle Autonomous Database加载文档 fGVBSAbe 数据库 oracle python
OracleAutonomousDatabase是一种云数据库，利用机器学习来自动化数据库调优、安全性、备份、更新以及其他传统由数据库管理员(DBAs)执行的例行管理任务。在本文中，我们将演示如何从OracleAutonomousDatabase加载文档。我们将使用连接字符串或TNS配置来进行连接。技术背景介绍OracleAutonomousDatabase通过自动化的方式极大地简化了数据库管理的
基于数据可视化+SpringBoot+Vue的医院综合管理平台设计和实现(源码+论文+部署讲解等) java李杨勇 Java精品毕设实战案例 Java毕业设计实战案例信息可视化 spring boot vue.js 医院综合管理平台 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
自动检测和机器审核系统实现 ╰つ゛木槿 java easyui javascript python java 自然语言处理
目录一、自动检测和机器审核实现步骤1.文本预处理步骤细节：2.关键词检测步骤细节：3.情感分析与情境理解步骤细节：4.机器学习模型训练步骤细节：5.深度学习模型步骤细节：6.多模态审查步骤细节：7.用户行为分析与违规预测步骤细节：总结二、常用的分词工具1.jieba2.THULAC3.HanLP4.SnowNLP5.LAC（LexicalAnalysisofChinese）6.PyLDAvis（结
【CV】25.1.7 arxiv更新速递 hinmer arxiv CV每日更新 python 人工智能计算机视觉 chatgpt 目标检测 ai AIGC
—第1篇----关键词:手势识别,计算机视觉,低光照条件,机器学习,RaspberryPi,OpenCV论文链接-摘要:手势识别是一种基于计算机视觉技术的感知用户界面，允许计算机将人类动作解释为命令，使用户无需使用手与计算机交流，从而使鼠标和键盘变得多余。手势识别的主要弱点是光线条件，因为手势控制依赖于摄像头。摄像头用于在2D和3D中解释手势，因此提取的信息可能因光源而异。系统的限制是无法在黑暗环
【包邮送书】你好！Python Mindtechnist 粉丝福利 python 网络开发语言机器学习
欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源！博主介绍：CSDN博客专家，CSDN优质创作者，CSDN实力新星，CSDN内容
基于遗传算法的城市旅行问题（TSP）求解 NovakG_ 深度学习 python 算法深度学习神经网络
1.遗传算法背景介绍遗传算法是一种基于生物进化论中的自然选择和遗传机制的优化算法，模拟了生物进化过程以搜索最优解。通过仿真染色体的交叉、变异等操作，遗传算法将求解过程转换为类似生物进化的迭代运算。该算法在解决复杂的组合优化问题时，通常比常规优化算法更高效，且具有广泛应用，包括组合优化、机器学习、信号处理、自适应控制和人工生命等领域2.遗传算法基本解题思路遗传算法的设计思路主要受到大自然中生物体进化
【2025 ODA teigha .NET系列开发教程第五章】给CAD实体添加附属数据XDATA，包括源码三好学生～张旺 ODA Teigha .NET开发教程 .net
系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章Python机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档2025ODAteigha.NET系列开发教程系列文章目录AutoCADXData扩展数据开发指南什么是XData？XData的两种存储方式1.全局字典存储(XRecord)2.实体附加存储步骤1：注册应
【数据挖掘实战】房价预测机器学习司猫白数据挖掘人工智能 python 机器学习
本次对kaggle中的入门级数据集，房价回归数据集进行数据挖掘，预测房屋价格。本人主页：机器学习司猫白机器学习专栏：机器学习实战PyTorch入门专栏：PyTorch入门深度学习实战：深度学习ok，话不多说，我们进入正题吧概述本次竞赛有79个解释变量（几乎）描述了爱荷华州艾姆斯住宅的各个方面，需要预测每套住宅的最终价格。数据集描述本次数据集已经上传，大家可以自行下载尝试文件说明train.csv-
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶网罗开发 AI 大模型人工智能机器学习
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Copilot 概述计算机萍萍学姐 copilot copilot 人工智能机器学习
Copilot是什么？它有什么用途？Copilot是由人工智能公司和GitHub合作开发的一个基于人工智能的代码提示工具，它可以利用机器学习技术和大量训练数据生成高质量的代码。Copilot的目标是在保持代码质量和可读性的前提下，提高开发者的编码效率，使得编码工作更为高效和便捷。Copilot的出现是解决编程过程中可能遇到的一些难点和瓶颈问题，特别是在快速迭代的敏捷开发场景中，提高编码效率和减少编
让旅游更智能：基于AR的旅游导览应用解析 Echo_Wish Python 笔记 Python算法旅游 ar restful
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶人工智能机器学习深度学习
摘要随着系统规模的扩大和复杂性增加，传统基于规则的日志分析方法难以识别隐藏的复杂异常模式。本文将介绍基于机器学习的日志异常检测技术，包括模型选择、特征工程及实现步骤。通过具体的代码示例与图表，展示如何高效检测异常日志，并提供应用场景与优化策略。引言日志是系统运行状态的关键数据来源，但面对海量日志数据，传统规则式分析显得力不从心。机器学习能够根据日志的历史数据和行为模式，通过训练模型检测异常情况，不
【Python】已完美解决：ERROR: Could not find a version that satisfies the requirement re 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
下载马斯克Grok-1模型的实战代码 herosunly 大模型 grok-1 下载模型实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了下载马斯克Grok-1模型的实战代码，希望能对学习大模型的同学们有所帮助
吴恩达深度学习笔记（七）——机器学习策略子非鱼icon 深度学习自学笔记深度学习机器学习人工智能神经网络吴恩达
一、正交化通俗的理解就是：要能够诊断出系统性能瓶颈在哪里，以有策略刚好解决这个问题。一个“按钮”只负责解决一件事情。二、单一数字评估指标准确率（precision）：在分类器中标记为猫的例子中，有多少是真的猫召回率（recall）：对于所有的真猫图片，你的分类器正确识别了多少。但如果有两个评估指标，就很难去选择一个更好的分类器，如下图所示。所以有一个结合这两个指标的标准方法，也即F1分数，定义如下
数据挖掘：定义、挑战与应用黑色叉腰丶大魔王数据挖掘人工智能
一、数据挖掘的定义（一）概念阐述数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它融合了数据库技术、统计学、机器学习、人工智能等多学科的理论和方法，旨在通过对数据的深入分析和处理，发现有价值的模式、关联、趋势等，从而为决策提供支持。（二）与相关概念的区别与联系数据库管理：数据库管理侧重于数据的存储、组织、检索和维护
使用Google Vertex AI Search进行企业级高级搜索 hgSdaegva 人工智能 python
技术背景介绍GoogleVertexAISearch（前称为EnterpriseSearchonGenerativeAIAppBuilder）是GoogleCloud提供的VertexAI机器学习平台的一部分。VertexAISearch允许组织快速建立由生成式AI驱动的搜索引擎，为客户和员工提供服务。它基于各种GoogleSearch技术，包括语义搜索，通过使用自然语言处理和机器学习技术来推断内
在EverlyAI上运行LLM模型——以LLAMA为例 HGWAcsdgvs llama python
在EverlyAI上运行LLM模型——以LLAMA为例技术背景介绍EverlyAI是一个强大的云平台，允许你在云中大规模运行机器学习模型。它还提供了对多种大型语言模型（LLM）的API访问。在这篇文章中，我们将展示如何使用EverlyAI的API来调用LLAMA模型。通过这种方式，你可以在云端轻松地运行和测试你的语言模型。核心原理解析LLAMA模型是一个强大的变压器模型，它具有数十亿个参数，能够处
自动化评估：利用机器学习算法评估 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1评估的意义评估在各个领域都扮演着至关重要的角色，例如教育、人力资源、医疗保健等。传统评估方式通常依赖人工，费时费力且容易受到主观因素的影响。随着机器学习技术的不断发展，自动化评估逐渐成为一种趋势，它能够提高评估效率、降低成本并减少人为偏差。1.2机器学习在评估中的优势机器学习算法能够从大量数据中学习规律，并根据这些规律对新的数据进行预测或分类。在评估领域，机器学习可以用于：自动评
Level2逐笔成交逐笔委托毫秒记录：今日分享优质股票数据20250122 2401_89140926 python 金融数据库大数据
逐笔委托逐笔成交下载链接:https://pan.baidu.com/s/1WP6eGLip3gAbt7yFKg4XqA?pwd=7qtx提取码:7qtxLevel2逐笔成交逐笔委托数据分享下载通过Level2逐笔成交和逐笔委托这种每一笔的毫秒级别的数据可以分析出很多有用的点，包括主力意图，虚假动作，让任何操作无所遁形。适合交易大师来分析主力规律，也适合人工智能领域的机器学习，数据量大且精准。以下
机器学习-分类算法评估标准赛丽曼机器学习机器学习分类人工智能
一.准确率accuracy将预测结果和测试集的目标值比较，计算预测正确的百分比准确率越高说明模型效果越好fromsklearnimportdatasetsfromsklearn.model_selectionimporttrain_test_splitfromsklearn.neighborsimportKNeighborsClassifier#加载鸢尾花数据X,y=datasets.load_i
Jetbrains Ai Assistant插件越来越好用了 Ai 编码 Ai编码工具人工智能 android
在IntelliJIDEA中，JetBrainsAI是JetBrains集成的人工智能功能，旨在提高开发效率，辅助开发者更智能地编写、优化和理解代码。JetBrainsAI作为IntelliJIDEA的一部分，通过自然语言处理和机器学习技术，提供了许多智能代码建议和自动化功能。点击这里：获取JetbrainsAiAssistant插件以下是JetBrainsAI在IntelliJIDEA中的一
机器学习算法（八）：基于BP神经网络的乳腺癌的分类预测墨枣机器学习算法神经网络分类人工智能
机器学习算法（八）：基于BP神经网络的乳腺癌的分类预测本项目链接：https://www.heywhale.com/home/column/64141d6b1c8c8b518ba97dcc1.算法简介和应用1.1算法简介BP（BackPropagation）网络是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经
AI驱动电商搜索导购：技术创新与应用 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
文章标题《AI驱动电商搜索导购：技术创新与应用》关键词：人工智能，电商搜索导购，机器学习，深度学习，推荐系统，自然语言处理，个性化搜索，图像识别，应用案例，未来展望。摘要：本文旨在探讨人工智能（AI）在电商搜索导购领域的应用，分析其技术创新和实际应用案例，探讨AI驱动电商搜索导购的未来发展趋势。文章首先介绍了AI在电商搜索导购中的角色和优势，然后深入探讨了AI基础理论和搜索导购技术原理。接着，文章
【机器学习实战入门】使用OpenCV进行性别和年龄检测精通代码大仙数据挖掘深度学习 python 机器学习 python opencv 数据挖掘人工智能
GenderandAgeDetectionPython项目首先，向您介绍用于此高级Python项目的性别和年龄检测中的术语：什么是计算机视觉？计算机视觉是一门让计算机能够像人类一样观察和识别数字图像和视频的学科。它面临的挑战大多源于对生物视觉有限的了解。计算机视觉涉及获取、处理、分析和理解数字图像，旨在从现实世界中提取高维数据，从而生成可用来做决策的符号或数值信息。该过程通常包括物体识别、视频跟踪
机器学习笔记 - 机器学习/深度学习实战案例合集坐望云起深度学习从入门到精通机器学习深度学习人工智能案例应用神经网络
一、简述如何学习机器学习/深度学习，理论和实践都很重要，理论上的内容需要看课程、读教材。但是实践需要自己动手，实践之后自然会对理论有更深入的理解。怎么实践？借用欧阳修《卖油翁》的话”无他，但手熟尔“。就是多看多写多跑。下面创建这个github的目的是为了存放一些图像处理/计算机视觉/机器学习/深度学习的示例代码集合，不定期会添加新的示例，可供参考。GitHub-bashendixie/ml_too
Java 大视界 -- Java 与大数据分布式机器学习平台搭建（58）青云交大数据新视界 Java 大视界大数据分布式机器学习 Apache Spark Hadoop Apache Flink 平台搭建架构设计
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。一、欢迎加入【福利社群
AI 对程序员的冲击剖析程序员WANG 工具人工智能机器学习语言模型
摘要随着人工智能（AI）技术的飞速发展，其影响力已逐渐渗透到各个行业，程序员群体也面临着前所未有的冲击。本文深入探讨AI对程序员在编程工作模式、技能需求以及职业发展路径等方面带来的冲击，并分析程序员应对这些冲击的策略与方向，旨在为程序员在AI时代的职业发展提供参考。一、引言AI技术近年来取得了突破性进展，其在自然语言处理、机器学习、深度学习等领域的应用日益广泛。在软件开发领域，AI不再仅仅是辅助工
svm python 模型绘图_1SVM处理数据并绘图张炜大师傅 svm python 模型绘图
爬虫Python基础、数据分析扩展包Numpy、pandas、matplotlib，Python读取MySQL数据，Python爬虫及Scrapy框架，无监督机器学习算法聚类分析等，以及案例：互联网金融行业客户价值分析等。机器学习机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数