Crescent_P

机器学习期末题库

1.属于监督学习的机器学习算法是：贝叶斯分类器

2.属于⽆监督学习的机器学习算法是：层次聚类

3.⼆项式分布的共轭分布是：Beta分布

4.多项式分布的共轭分布是：Dirichlet分布

5.朴素贝叶斯分类器的特点是：假设样本各维属性独⽴

6.下列⽅法没有考虑先验分布的是：最⼤似然估计

7.对于正态密度的贝叶斯分类器，各类协⽅差矩阵相同时，决策函数为：线性决策函数

8.下列属于线性分类⽅法的是：感知机

9.下列⽅法不受数据归⼀化影响的是：决策树

10.下列分类⽅法中不会⽤到梯度下降法的是：最⼩距离分类器

11.下列⽅法使⽤最⼤似然估计的是：Logistic回归

12.关于线性鉴别分析的描述最准确的是，找到⼀个投影⽅向，使得：类内距离最⼩，类间距离最⼤

13.SVM的原理的简单描述，可概括为：最⼤间隔分类

14.SVM的算法性能取决于：以上都有（核函数的选择、核函数的参数、软间隔参数C）

15.⽀持向量机的对偶问题是：凸⼆次优化

16.以下对⽀持向量机中的⽀撑向量描述正确的是：最⼤间隔⽀撑⾯上的向量

17.假定你使⽤阶数为2的线性核SVM，将模型应⽤到实际数据集上后，其训练准确率和测试准确率均为100%。现在增加模型复杂度（增加核函数的阶），会发⽣以下哪种情况：过拟合

18.避免直接的复杂⾮线性变换，采⽤线性⼿段实现⾮线性学习的⽅法是：核函数⽅法

19.关于决策树节点划分指标描述正确的是：信息增益越⼤越好

20.以下描述中，属于决策树策略的是：最⼤信息增益

21.集成学习中基分类器的选择如何，学习效率通常越好：分类器多样，差异⼤

22.集成学习中，每个基分类器的正确率的最低要求：50%以上

23.下⾯属于Bagging⽅法的特点是：构造训练集时采⽤Bootstraping的⽅式

24.下⾯属于Bagging⽅法的特点是：构造训练集时采⽤Bootstraping的⽅式

25.随机森林⽅法属于：Bagging⽅法

26.假定有⼀个数据集S，但该数据集有很多误差，采⽤软间隔SVM训练，阈值为C，如果C的值很⼩，以下哪种说法正确：会发⽣误分类现象

27.软间隔SVM的阈值趋于⽆穷，下⾯哪种说法正确：只要最佳分类超平⾯存在，它就能将所有数据全部正确分类

28.⼀般，K-NN最近邻⽅法在什么情况下效果好：样本较少但典型性较好

29.回归问题和分类问题的区别：前者预测函数值为连续值，后者为离散值

30.最⼩⼆乘回归⽅法的等效回归⽅法：线性均值和正态误差的最⼤似然回归

31.正则化的回归分析，可以避免：过拟合

32.“啤酒-纸尿布”问题讲述的是，超市购物中，通过分析购物单发现，买了纸尿布的男⼠，往往⼜买了啤酒。这是⼀个什么问题：关联分析

33.KL散度是根据什么构造的可分性判据：类概率密度

34.密度聚类⽅法充分考虑了样本间的什么关系：密度可达

35.混合⾼斯聚类中，运⽤了以下哪种过程：EM算法

36.主成分分析是⼀种什么⽅法：降维⽅法

37.PCA在做降维处理时，优先选取哪些特征：中⼼化样本的协⽅差矩阵的最⼤特征值对应特征向量

38.过拟合现象中：训练样本的测试误差最⼩，测试样本的正确识别率却很低

39.如右图所⽰有向图，节点G的马尔可夫毯为：{D,E,F,H,I,J}

40.如右图所⽰⽆向图，节点G的马尔可夫毯为：{D,E,I,J}

41.多层感知机⽅法中，可⽤作神经元的⾮线性激活函数：Logistic函数

42.在有限⽀撑集上，下⾯分布的熵最⼤：均匀分布

43.已知均值和⽅差，下⾯哪种分布的熵最⼤：⾼斯分布

44.以下模型中属于概率图模型的是：受限玻尔兹曼机

45.如右图所⽰有向图，以下陈述正确的有：B和G关于{C,F}条件独⽴

46.在标准化公式中，使⽤的⽬的是：防⽌分母为零

47.梯度下降算法的正确步骤是什么：4,3,1,5,2 （初始化-输⼊-计算误差-改变权重以减⼩误差-迭代更新）
（1）计算预测值和真实值之间的误差
（2）迭代跟新，直到找到最佳权重
（3）把输⼊传⼊⽹络，得到输出值
（4）初始化随机权重和偏差
（5）对每⼀个产⽣误差的神经元，改变相应的（权重）值以减⼩误差
48.假如使⽤⼀个较复杂的回归模型来拟合样本数据，使⽤岭回归，调试正则化参数，来降低模型复杂度。若λ较⼤时，关于偏差和⽅差，下列说法正确的是：若λ较⼤时，偏差减⼩，⽅差减⼩

49.以下哪种⽅法会增加模型的⽋拟合风险：数据增强

50.以下说法正确的是：除了EM算法，梯度下降也可求混合⾼斯模型的参数

51.在训练神经⽹络时，如果出现训练error过⾼，下列哪种⽅法不能⼤幅度降低训练error：增加训练数据

52.以下哪种激活函数可以导致梯度消失：Tanh

53.增加以下哪些超参数可能导致随机森林模型过拟合数据：（2）决策树的深度

54.以下关于深度⽹络训练的说法正确的是：D
A.训练过程需要⽤到梯度，梯度衡量了损失函数相对于模型参数的变化率
B.损失函数衡量了模型预测结果与真实值之间的差异
C.训练过程基于⼀种叫做反向传播的技术
D.其他选项都正确
55.以下哪⼀项在神经⽹络中引⼊了⾮线性：ReLU

56.在线性回归中使⽤正则项，你发现解的不少coefficient都是0，则这个正则项可能是：
L0-norm、L1-norm
57.关于CNN，以下结论正确的是：Pooling层⽤于减少图⽚的空间分辨率

58.关于k-means算法，正确的描述是：初始值不同，最终结果可能不同

59.下列关于过拟合现象的描述中，哪个是正确的：训练误差⼩，测试误差⼤

60.以下关于卷积神经⽹络，说法正确的是：卷积神经⽹络可以有多个卷积核，可以不同⼤⼩

61.LR模型的损失函数是：交叉熵

62.GRU和LSTM的说法正确的是：GRU的参数⽐LSTM的参数少

63.以下⽅法不可以⽤于特征降维的有：Monte Carlo method

64.下列哪个函数不可以做激活函数：y=2x

65.有两个样本点，第⼀个点为正样本,它的特征向量是(0,-1);第⼆个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建⼀个线性SVM分类器的分类⾯⽅程是：x+2y=3

66.在其他条件不变的前提下，以下哪种做法容易引起机器学习中的过拟合问题：SVM算法中使⽤⾼斯核代替线性核

67.下⽅法中属于⽆监督学习算法的是：K-Means聚类

68.Bootstrap数据是什么意思：有放回地从总共N个样本中抽样n个样本

69.下⾯关于贝叶斯分类器描述错误的是：是基于后验概率，推导出先验概率

70.下⾯关于Adaboost算法的描述中，错误的是：同时独⽴地学习多个弱分类器

71.以下机器学习中，在数据预处理时，不需要考虑归⼀化处理的是：树形模型

72.⼆分类任务中，有三个分类器h1,h2,h3，三个测试样本x1,x2,x3。假设1表⽰分类结果正确，0表⽰错误，h1在x1,x2,x3的结果分别(1,1,0)，h2,h3分别为(0,1,1)，(1,0,1)，按投票法集成三个分类器，下列说法正确的是：集成提⾼了性能

73.有关机器学习分类算法的Precision和Recall，以下定义中正确的是（假定tp = true positive, tn = true negative, fp = false positive, fn =false negative）：

Precision= tp / (tp + fp), Recall = tp / (tp + fn)

74.下列哪个不属于常⽤的⽂本分类的特征选择算法：主成分分析

75.在HMM中，如果已知观察序列和产⽣观察序列的状态序列，那么可⽤以下哪种⽅法直接进⾏参数估计：极⼤似然估计

76.以下哪种距离会侧重考虑向量的⽅向：余弦距离

77.解决隐马模型中预测问题的算法是：维特⽐算法

78.在Logistic Regression 中,如果同时加⼊L1和L2范数,会产⽣什么效果：可以做特征选择，并在⼀定程度上防⽌过拟合

79.普通反向传播算法和随时间的反向传播算法（BPTT）有什么技术上的不同：与普通反向传播不同的是，BPTT会在每个时间步长内叠加所有对应权重的梯度

80.梯度爆炸问题是指在训练深度神经⽹络的时候，梯度变得过⼤⽽损失函数变为⽆穷。在RNN中，下⾯哪种⽅法可以较好地处理梯度爆炸
问题：梯度裁剪

81.当训练⼀个神经⽹络来作图像识别任务时，通常会绘制⼀张训练集误差和验证集误差图来进⾏调试。在下图中，最好在哪个时间停⽌训
练：C

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ctS8tH71-1655199702381)(C:\Users\Crescent_P\AppData\Roaming\Typora\typora-user-images\image-20220612170843797.png)]

第 1 题

一个计算机程序从经验E中学习任务T，并用P来衡量表现。并且，T的表现P随着经验E的增加而提高。
假设我们给一个学习算法输入了很多历史天气的数据，让它学会预测天气。什么是P的合理选择？

A. 计算大量历史气象数据的过程
B. 以上都不
C. 正确预测未来日期天气的概率
D. 天气预报任务

第 2 题

假设你正在做天气预报，并使用算法预测明天气温（摄氏度/华氏度），你会把这当作一个分类问题还是一个回归问题？

A. 分类
B. 回归

第 3 题

假设你在做股市预测。你想预测某家公司是否会在未来7天内宣布破产（通过对之前面临破产风险的类似公司的数据进行训练）。你会把这当作一个分类问题还是一个回归问题？

A. 分类
B. 回归

第 4 题

下面的一些问题最好使用有监督的学习算法来解决，而其他问题则应该使用无监督的学习算法来解决。以下哪一项你会使用监督学习？（选择所有适用的选项）在每种情况下，假设有适当的数据集可供算法学习。

A. 根据一个人的基因（DNA）数据，预测他/她的未来10年患糖尿病的几率

B. 根据心脏病患者的大量医疗记录数据集，尝试了解是否有不同类患者群，我们可以为其量身定制不同的治疗方案

C. 让计算机检查一段音频，并对该音频中是否有人声（即人声歌唱）或是否只有乐器（而没有人声）进行分类

D. 给出1000名医疗患者对实验药物的反应（如治疗效果、副作用等）的数据，发现患者对药物的反应是否有不同的类别或“类型”，如果有，这些类别是什么

第 5 题

哪一个是机器学习的合理定义？

A. 机器学习从标记的数据中学习

B. 机器学习能使计算机能够在没有明确编程的情况下学习

C. 机器学习是计算机编程的科学

D. 机器学习是允许机器人智能行动的领域

第 6 题

基于一个学生在大学一年级的表现，预测他在大学二年级表现。
令x等于学生在大学第一年得到的“A”的个数（包括A-，A和A+成绩）学生在大学第一年得到的成绩。预测y的值：第二年获得的“A”级的数量
这里每一行是一个训练数据。在线性回归中，我们的假设hθ(x)=θ0+θ1x，并且我们使用m来表示训练示例的数量。

| x    | y    |  
| 3    | 2    |  
| 1    | 2    |  
| 0    | 1    |  
| 4    | 3    |

对于上面给出的训练集（注意，此训练集也可以在本测验的其他问题中引用），m的值是多少？

第 7 题

对于这个问题，假设我们使用第一题中的训练集。并且，我们对代价函数的定义是J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2
求J(0,1)

第 8 题

令问题1中，线性回归假设的θ0=−1,θ1=2，求hθ(6)？

第 9 题

代价函数J(θ0,θ1)与θ0,θ1的关系如图2所示。“图1”中给出了相同代价函数的等高线图。根据图示，选择正确的选项（选出所有正确项）

A. 从B点开始，学习率合适的梯度下降算法会最终帮助我们到达或者接近A点，即代价函数J(θ0,θ1)在A点有最小值

B. 点P（图2的全局最小值）对应于图1的点C

C. 从B点开始，学习率合适的梯度下降算法会最终帮助我们到达或者接近C点，即代价函数J(θ0,θ1)在C点有最小值

D. 从B点开始，学习率合适的梯度下降算法会最终帮助我们到达或者接近A点，即代价函数J(θ0,θ1)在A点有最大值

E. 点P（图2的全局最小值）对应于图1的点A

第 10 题

假设对于某个线性回归问题（比如预测房价），我们有一些训练集，对于我们的训练集，我们能够找到一些θ0,θ1，使得J(θ0,θ1)=0。
以下哪项陈述是正确的？（选出所有正确项）

A. 为了实现这一点，我们必须有θ0=0,θ1=0，这样才能使J(θ0,θ1)=0

B. 对于满足J(θ0,θ1)=0的θ0,θ1的值，其对于每个训练例子(x(i),y(i))，都有hθ(x(i))=y(i)

C. 这是不可能的：通过J(θ0,θ1)=0的定义，不可能存在θ0,θ1使得J(θ0,θ1)=0

D. 即使对于我们还没有看到的新例子，我们也可以完美地预测y的值（例如，我们可以完美地预测我们尚未见过的新房的价格）

第 11 题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eIxCOuA6-1655199702382)(C:\Users\Crescent_P\AppData\Roaming\Typora\typora-user-images\image-20220612171415306.png)]

第 12 题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HeGb32rU-1655199702382)(C:\Users\Crescent_P\AppData\Roaming\Typora\typora-user-images\image-20220612171402929.png)]

第 13 题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6ZkiMIL2-1655199702383)(C:\Users\Crescent_P\AppData\Roaming\Typora\typora-user-images\image-20220612171356197.png)]

第 14 题

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rHrPn3OV-1655199702383)(C:\Users\Crescent_P\AppData\Roaming\Typora\typora-user-images\image-20220612171343679.png)]

第 15 题

令A和B是3x3矩阵，以下哪一项一定是正确的（选出所有正确项）

A. A+B=B+A
B. 如果v是一个3维向量，那么A∗B∗v是三维向量
C. A∗B∗A=B∗A∗B
D. 如果C=A∗B，那么C是个6x6矩阵

第 16 题¶

假设m=4个学生上了一节课，有期中考试和期末考试。你已经收集了他们在两次考试中的分数数据集，如下所示：

期中得分	(期中得分)^2	期末得分
89	7921	96
72	5184	74
94	8836	87
69	4761	78

你想用多项式回归来预测一个学生的期中考试成绩。具体地说，假设你想拟合一个hθ(x)=θ0+θ1x1+θ2x2的模型，其中x1是期中得分，x2是（期中得分）^2。此外，你计划同时使用特征缩放（除以特征的“最大值-最小值”或范围）和均值归一化。

标准化后的x2(4)特征值是多少？（提示：期中=89，期末=96是训练示例1）

第 17 题

用α=0.3进行15次梯度下降迭代，每次迭代后计算J(θ)。你会发现J(θ)的值下降缓慢，并且在15次迭代后仍在下降。基于此，以下哪个结论似乎最可信？

A. α=0.3是学习率的有效选择。

B. 与其使用α当前值，不如尝试更小的α值（比如α=0.1）

C. 与其使用α当前值，不如尝试更大的α值（比如α=1.0）

第 18 题

假设您有m=14个训练示例，有n=3个特性（不包括需要另外添加的恒为1的截距项），正规方程是θ=(XTX)−1XTy。对于给定m和n的值，这个方程中θ,X,y的维数分别是多少？

A. X 14×3, y 14×1, θ 3×3
B. X 14×4, y 14×1, θ 4×1
C. X 14×3, y 14×1, θ 3×1
D. X 14×4, y 14×4, θ 4×4

第 19 题

假设您有一个数据集，每个示例有m=1000000个示例和n=200000个特性。你想用多元线性回归来拟合参数θ到我们的数据。你更应该用梯度下降还是正规方程？

A. 梯度下降，因为正规方程中θ=(XTX)−1中计算非常慢

B. 正规方程，因为它提供了一种直接求解的有效方法

C. 梯度下降，因为它总是收敛到最优θ

D. 正规方程，因为梯度下降可能无法找到最优θ

第 20 题

以下哪些是使用特征缩放的原因？

A. 它可以防止梯度下降陷入局部最优

B. 它通过降低梯度下降的每次迭代的计算成本来加速梯度下降

C. 它通过减少迭代次数来获得一个好的解，从而加快了梯度下降的速度

D. 它防止矩阵XTX（用于正规方程）不可逆（奇异/退化）

第 26 题

假设您已经训练了一个逻辑分类器，它在一个新示例x上输出一个预测hθ(x)=0.4。这意味着（选出所有正确项）：

A. 我们对P(y=0∣x;θ)的估计是0.4

B. 我们对P(y=1∣x;θ)的估计是0.6

C. 我们对P(y=0∣x;θ)的估计是0.6

D. 我们对P(y=1∣x;θ)的估计是0.4

第 27 题

假设您有以下训练集，并拟合logistic回归分类器hθ(x)=g(θ0+θ1x1+θ2x2)

以下哪项是正确的？选出所有正确项

A. 添加多项式特征（例如，使用hθ(x)=g(θ0+θ1x1+θ2x2+θ3x12+θ4x1x2+θ5x22)）可以增加我们拟合训练数据的程度

B. 在θ的最佳值（例如，由fminunc找到）处，J(θ)≥0

C.添加多项式特征（例如，使用hθ(x)=g(θ0+θ1x1+θ2x2+θ3x12+θ4x1x2+θ5x22)将增加J(θ)，因为我们现在正在对更多项进行求和

D.如果我们训练梯度下降迭代足够多次，对于训练集中的一些例子x(i)，可能得到hθ(x(i))>1

第 28 题

对于逻辑回归，梯度由∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))xj(i)给出。以下哪项是学习率为α的逻辑回归的正确梯度下降更新？选出所有正确项

A. θ:=θ−α1m∑i=1m(θTx−y(i))x(i)

B. θj:=θj−α1m∑i=1m(11+e−θTx(i)−y(i))xj(i)（同时更新所有j）

C. θj:=θj−α1m∑i=1m(hθ(x(i))−y(i))x(i)（同时更新所有j）

D. θj:=θj−α1m∑i=1m(hθ(x(i))−y(i))xj(i)（同时更新所有j）

第 29 题

以下哪项陈述是正确的？选出所有正确项

A. 对于逻辑回归，梯度下降有时会收敛到一个局部最小值（并且无法找到全局最小值）。这就是为什么我们更喜欢更先进的优化算法，如fminunc（共轭梯度/BFGS/L-BFGS/等等）

B. sigmoid函数g(z)=11+e−z数值永远不会大于1

C.用m≥1个例子训练的逻辑回归的代价函数J(θ)总是大于或等于零

D. 使用线性回归+阈值的方法做分类预测，总是很有效的

第 30 题

假设训练一个逻辑回归分类器hθ(x)=g(θ0+θ1x1+θ2x2)。假设θ0=6,θ1=−1,θ2=0，下列哪个图表示分类器找到的决策边界？

Week 3 | 2 正则化

第 31 题

你正在训练一个分类逻辑回归模型。以下哪项陈述是正确的？选出所有正确项

A. 将正则化引入到模型中，总是能在训练集上获得相同或更好的性能

B. 在模型中添加许多新特性有助于防止训练集过度拟合

C. 将正则化引入到模型中，对于训练集中没有的例子，总是可以获得相同或更好的性能

D. 向模型中添加新特征总是会在训练集上获得相同或更好的性能

第 32 题

假设您进行了两次逻辑回归，一次是λ=0，一次是λ=1。其中一次，得到参数θ=[81.4712.69]，另一次，得到θ=[13.010.91]。
但是，您忘记了哪个λ值对应于哪个θ值。你认为哪个对应于λ=1？

A. θ=[13.010.91]

B. θ=[81.4712.69]

第 33 题

以下关于正则化的陈述哪一个是正确的？选出所有正确项

A. 使用太大的λ值可能会导致您的假设与数据过拟合；这可以通过减小λ来避免

B. 使用非常大的值λ不会影响假设的性能；我们不将λ设置为太大的唯一原因是避免数值问题

C. 考虑一个分类问题。添加正则化可能会导致分类器错误地分类某些训练示例（当不使用正则化时，即当λ=0时，它正确地分类了这些示例）

D. 由于逻辑回归的输出值0≤hθ(x)≤1，其输出值的范围无论如何只能通过正则化来“缩小”一点，因此正则化通常对其没有帮助

第 34 题

下列哪一个图片的假设与训练集过拟合？

第 35 题

下列哪一个图片的假设与训练集欠拟合？

第 36 题

以下哪项陈述是正确的？选择所有正确项

A. 神经网络中隐藏单元的激活值，在应用了sigmoid函数之后，总是在（0，1）范围内

B. 在二进制值（0或1）上的逻辑函数可以（近似）用一些神经网络来表示

C. 两层（一个输入层，一个输出层，没有隐藏层）神经网络可以表示异或函数

D. 假设有一个三个类的多类分类问题，使用三层网络进行训练。设a1(3)=(hΘ(x))1为第一输出单元的激活，并且类似地，有a2(3)=(hΘ(x))2和a3(3)=(hΘ(x))3。那么对于任何输入x，必须有a1(3)+a2(3)+a3(3)=1

第 37 题

考虑以下两个二值输入x1,x2∈{0,1}和输出hΘ(x)的神经网络。它（近似）计算了下列哪一个逻辑函数？

A. OR
B. AND
C. NAND (与非)
D. XOR (异或)

第 38 题

考虑下面给出的神经网络。下列哪个方程正确地计算了a1(3)的激活？注：g(z)是sigmoid激活函数

A. a1(3)=g(Θ1,0(2)a0(2)+Θ1,1(2)a1(2)+Θ1,2(2)a2(2))

B. a1(3)=g(Θ1,0(1)a0(1)+Θ1,1(1)a1(1)+Θ1,2(1)a2(1))

C. a1(3)=g(Θ1,0(1)a0(2)+Θ1,1(1)a1(2)+Θ1,2(1)a2(2))

D. 此网络中不存在激活a1(3)

第 39 题

你有以下神经网络：

你想计算隐藏层a(2)∈R3的激活，一种方法是使用以下Octave代码：

您需要一个矢量化的实现（即，一个不用循环的实现）。下列哪个实现正确计算a(2)？选出所有正确项

A. z = Theta1 * x; a2 = sigmoid (z)
B. a2 = sigmoid (x * Theta1)
C. a2 = sigmoid (Theta2 * x)
D. z = sigmoid(x); a2 = sigmoid (Theta1 * z)

第 40 题

您正在使用下图所示的神经网络，并已学习参数Θ(1)=[112.411.73.2]（用于计算a(2)）和Θ(2)=[10.3−1.2]（用于作用在a(2)的函数，计算a(3)的值）。

假设您交换第一个隐藏层的2个单元的参数Θ(1)=[11.73.2112.4]，并且还交换输出层Θ(2)=[1−1.20.3]。这将如何改变输出hΘ(x)的值？

A. 不变
B. 变大
C. 变小
D. 信息不全，可能变大也可能变小

第 41 题

您正在训练一个三层神经网络，希望使用反向传播来计算代价函数的梯度。
在反向传播算法中，其中一个步骤是更新
Δij(2):=Δij(2)+δi(3)∗(a(2))j
对于每个i，j，下面哪一个是这个步骤的正确矢量化？

A. Δ(2):=Δ(2)+(a(2))T∗δ(3)
B. Δ(2):=Δ(2)+(a(3))T∗δ(2)
C. Δ(2):=Δ(2)+δ(3)∗(a(2))T
D. Δ(2):=Δ(2)+δ(3)∗(a(3))T

第 42 题

假设Theta1是一个5x3矩阵，Theta2是一个4x6矩阵。令thetaVec=[Theta1(;);Theta2(:)]。下列哪一项可以正确地还原Theta2？

A. reshape(thetaVec(16:39),4,6)
B. reshape(thetaVec(15:38),4,6)
C. reshape(thetaVec(16:24),4,6)
D. reshape(thetaVec(15:39),4,6)
E. reshape(thetaVec(16:39),6,4)

第 43 题

设J(θ)=2θ3+2，设θ=1,ϵ=0.01。用公式JJ(θ+ϵ)−J(θ−ϵ)2ϵ来数值计算在θ=1时的逼近。你将得到什么值？（当θ=1时，精确导数为dJ(θ)dθ=6）

A. 8
B. 6
C. 5.9998
D. 6.0002

第 44 题

以下哪项陈述是正确的？选择所有正确项

A. 使用较大的λ值不会影响神经网络的性能；我们不将λ设置为太大的唯一原因是避免数值问题

B. 如果我们使用梯度下降作为优化算法，梯度检查是有用的。然而，如果我们使用一种先进的优化方法（例如在fminunc中），它没有多大用处

C. 使用梯度检查可以帮助验证反向传播的实现是否没有bug

D. 如果我们的神经网络过拟合训练集，一个合理的步骤是增加正则化参数λ

第 45 题

以下哪项陈述是正确的？选择所有正确项

A. 假设参数Θ(1)是一个方矩阵（即行数等于列数）。如果我们用它的转置(Θ(1))T代替Θ(1)，那么我们并没有改变网络正在计算的功能。

B. 假设我们有一个正确的反向传播实现，并且正在使用梯度下降训练一个神经网络。假设我们将J(Θ)绘制为迭代次数的函数，并且发现它是递增的而不是递减的。一个可能的原因是学习率α太大。

C. 假设我们使用学习率为α的梯度下降。对于逻辑回归和线性回归，J(Θ)是一个凸优化问题，因此我们不想选择过大的学习率α。
然而，对于神经网络，J(Θ)可能不是凸的，因此选择一个非常大的α值只能加快收敛速度。

D. 如果我们使用梯度下降训练一个神经网络，一个合理的调试步骤是将J(Θ)绘制为迭代次数的函数，并确保每次迭代后它是递减的（或至少是不递增的）。

第 46 题

你训练一个学习算法，发现它在测试集上的误差很高。绘制学习曲线，并获得下图。算法是否存在高偏差、高方差或两者都不存在？

A. 高偏差
B. 高方差
C. 两者都不

第 47 题

假设您已经实现了正则化逻辑回归来分类图像中的对象（即，还没有实现图像识别）。然而，当你在一组新的图像上检验你的模型时，你会发现它对新图像的预测有误差非常大。然而，你的假设在训练集上拟合的很好。以下哪个做法可以改善？选出所有正确项

A. 尝试添加多项式特征
B. 获取更多训练示例
C. 尝试使用较少的特征
D. 少用训练的例子

第 48 题

假设您已经实现了正则化的逻辑来预测客户将在购物网站上购买哪些商品。然而，当你在一组新的客户身上测试你的模型时，你发现它在预测中的误差很大。此外，该模型在训练集上表现不佳。以下哪个做法可以改善？选出所有正确项

A. 尝试获取并使用其他特征
B. 尝试添加多项式特征
C. 尝试使用较少的特征
D. 尝试增加正则化参数λ

第 49 题

以下哪项陈述是正确的？选出所有正确项

A. 假设您正在训练一个正则化的线性回归模型。选择正则化参数λ值的推荐方法是选择交叉验证误差最小的λ值。

B. 假设您正在训练一个正则化的线性回归模型。选择正则化参数λ值的推荐方法是选择给出最小测试集误差的λ值。

C. 假设你正在训练一个正则化线性回归模型，推荐的选择正则化参数λ值的方法是选择给出最小训练集误差的λ值。

D. 学习算法在训练集上的性能通常比在测试集上的性能要好。

第 50 题

以下哪项陈述是正确的？选出所有正确项

A. 在调试学习算法时，绘制学习曲线有助于了解是否存在高偏差或高方差问题。

B. 如果一个学习算法受到高方差的影响，增加更多的训练实例可能会改善测试误差。

C. 我们总是喜欢高方差的模型（而不是高偏差的模型），因为它们能够更好地适应训练集。

D. 如果一个学习算法有很高的偏差，仅仅增加更多的训练实例可能不会显著改善测试误差。

第 51 题

你正在研究一个垃圾邮件分类系统，准备使用正则化的逻辑回归。“垃圾邮件”是正类（y=1），“非垃圾邮件”是负类（y=0）。您已经训练了分类器，交叉验证集中有m=1000个示例。预测类与实际类的图表为：

| Actual Class: 1    | Actual Class: 0 |  
| Predicted Class: 1 | 85              |  
| Predicted Class: 0 | 15              |

供参考：
准确度Accuracy=（真阳性+真阴性）/（总示例）
精度Precision =（真阳性）/（真阳性+假阳性）
召回Recall=（真阳性）/（真阳性+假阴性）
F1分数=（2精确召回）/（精确+召回）

分类器的召回是多少？

第 52 题

假设一个庞大的数据集可以用来训练一个学习算法。当以下两个条件成立时，对大量数据进行训练可能会产生良好的性能。两个条件是哪两个？

A. 特征x包含足够的信息来精确地预测y。（例如，一个验证这一点的方法是，当只给x时，人类专家是否能够自信地预测y）。

B. 我们训练一个具有少量参数的学习算法（因此不太可能过拟合）。

C. 我们训练具有大量参数的学习算法（能够学习/表示相当复杂的函数）。

D. 我们训练一个不使用正则化的模型。

第 53 题

假设您已经训练了一个输出hθ(x)的逻辑回归分类器。
目前，如果hθ(x)≥threshold，则预测1，
如果hθ(x)≤threshold，则预测0，当前阈值设置为0.5。

假设您将阈值增加到0.9。以下哪项是正确的？选出所有正确项

A. 现在分类器的精度可能更低。

B. 分类器的准确度和召回率可能不变，但准确度较低。

C. 分类器的准确度和召回率可能不变，但精度较高。

D. 分类器现在可能具有较低的召回率。

假设您将阈值降低到0.3。以下哪项是正确的？选出所有正确项

A. 分类器现在可能具有更高的召回率。

B. 分类器的准确度和召回率可能不变，但精度较高。

C. 分类器现在可能具有更高的精度。

D. 分类器的准确度和召回率可能不变，但准确度较低。

第 54 题

假设您正在使用垃圾邮件分类器，其中垃圾邮件是正例（y=1），非垃圾邮件是反例（y=0）。您有一组电子邮件训练集，其中99%的电子邮件是非垃圾邮件，另1%是垃圾邮件。以下哪项陈述是正确的？选出所有正确项

A. 一个好的分类器应该在交叉验证集上同时具有高精度precision和高召回率recall。

B. 如果您总是预测非垃圾邮件（输出y=0），那么您的分类器在训练集上的准确度accuracy将达到99%，而且它在交叉验证集上的性能可能类似。

C. 如果您总是预测非垃圾邮件（输出y=0），那么您的分类器的准确度accuracy将达到99%。

D. 如果您总是预测非垃圾邮件（输出y=0），那么您的分类器在训练集上的准确度accuracy将达到99%，但在交叉验证集上的准确率会更差，因为它过拟合训练数据。

E. 如果总是预测垃圾邮件（输出y=1），则分类器的召回率recall为0%，精度precision为99%。

F. 如果总是预测非垃圾邮件（输出y=0），则分类器的召回率recall为0%。

G. 如果您总是预测垃圾邮件（输出y=1），那么您的分类器将具有召回率recall 100%和精度precision 1%。

H. 如果您总是预测非垃圾邮件（输出y=0），那么您的分类器的准确度accuracy将达到99%。

第 55 题

以下哪项陈述是正确的？选出所有正确项

A. 在构建学习算法的第一个版本之前，花大量时间收集大量数据是一个好主意。

B. 在倾斜的数据集上（例如，当有更多的正面例子而不是负面例子时），准确度不是一个很好的性能度量，您应该根据准确度和召回率使用F1分数。

C. 训练完逻辑回归分类器后，必须使用0.5作为预测示例是正是负的阈值。

D. 使用一个非常大的训练集使得模型不太可能过度拟合训练数据。

E. 如果您的模型不适合训练集，那么获取更多数据可能会有帮助。

第 56 题

假设您使用训练了一个高斯内核的支持向量机，它在训练集上学习了以下决策边界：

你觉得支持向量机欠拟合了，你应该试着增加或减少C吗？或者增加或减少σ2？

A. 降低C，增加σ2
B. 降低C，降低σ2
C. 增加C，增加σ2
D. 增加C，降低σ2

第 57 题

高斯核的公式是由similarity(x,l(1))=exp⁡(−||x−l(1)||22σ2)给出的。

下图显示了当σ2=1时，f1=similarity(x,l(1))的曲线图。

当σ2=0.25时，下列哪个是f1的曲线图？

第 58 题

支持向量机求解minθ C∑i=1my(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i))+∑j=1nθj2，其中函数cost0(z)和cost1(z)图像如下：

目标中的第一项是：C∑i=1my(i)cost1(θTx(i))+(1−y(i))cost0(θTx(i)).
如果以下四个条件中有两个为真，则第一项为零。使这个项等于零的两个条件是什么？

A. 对于y(i)=1的每个例子，有θTx(i)≥1

B. 对于y(i)=0的每个例子，有θTx(i)≤−1

C. 对于y(i)=1的每个例子，有θTx(i)≥0

D. 对于y(i)=0的每个例子，有θTx(i)≤0

第 59 题

假设您有一个具有n=10个特征和m=5000个示例的数据集。在用梯度下降训练逻辑回归分类器之后，您发现它与训练集欠拟合，并且在训练集或交叉验证集上没有达到所需的性能。以下哪个步骤有望改善？选出所有正确项

A. 尝试使用具有大量隐藏单元的神经网络。

B. 减少训练集中的示例数。

C. 使用不同的优化方法，因为使用梯度下降训练逻辑可能会导致局部最小。

D. 创建/添加新的多项式特征。

第 60 题

以下哪项陈述是正确的？选出所有正确项

A. 假设您使用支持向量机进行多类分类，并希望使用“一对所有”方法。如果你有K个不同的类，你将训练K−1个不同的支持向量机。

B. 如果数据是线性可分的，那么不管C值是多少，线性内核的支持向量机都将返回相同的参数θ（即，θ的结果值不依赖于C）。

C. 高斯核的最大值（即sim(x,l(1))）是1。

D. 在使用高斯核之前进行特征归一化是很重要的。

第 61 题

对于以下哪些任务，K-means聚类可能是一种合适的算法？选出所有正确项

A. 给定一个关于用户信息的数据库，自动将用户分组到不同的市场细分中。

B. 根据超市中大量产品的销售数据，找出哪些产品可以组成组合（比如经常一起购买），因此应该放在同一个货架上。

C. 根据历史天气记录，预测明天的降雨量

D. 给定超市中大量产品的销售数据，估计这些产品的未来销售额。

E. 给出一组来自许多不同新闻网站的新闻文章，找出所涉及的主要主题。

F. 基于许多电子邮件，确定它们是垃圾邮件还是非垃圾邮件。

G. 从网站上的用户使用模式，找出哪些不同的用户群体存在。

H. 根据历史天气记录，预测明天的天气是晴还是雨。

第 62 题

假设我们有三个簇中心μ1=[12],μ2=[−30],μ3=[42]。此外，我们还有一个训练示例x(i)=[−21]。在一个集群分配步骤之后，c(i)将是什么？

A. c(i)=2
B. c(i)未被分配
C. c(i)=1
D. c(i)=3

第 63 题

K-means是一种迭代算法，在其内部循环中重复执行以下两个步骤。哪两个？

A. 移动簇中心，更新簇中心μk。

B. 分配簇，其中参数c(i)被更新。

C. 移动簇中心μk，将其设置为等于最近的训练示例c(i)

D. 簇中心分配步骤，其中每个簇质心μi被分配（通过设置c(i)）到最近的训练示例x(i)。

第 64 题

假设您有一个未标记的数据集{x(1),…,x(m)}。你用50个不同的随机数运行K-means初始化，并获得了50个不同的聚类。选择这50个组合中的哪一个的方法是什么？

A. 唯一的方法是我们需要数据标签y(i)。

B. 对于每一个分类，计算1m∑i=1m||x(i)−μc(i)||2，并选择这个值最小的一个。

C. 答案模棱两可，没有好的选择方法。

D. 总是选择找到的最后一个（第50个）聚类，因为它更有可能收敛到一个好的解决方案。

第 65 题

以下哪项陈述是正确的？选出所有正确项

A. 如果我们担心K-means陷入局部最优解，一种改善（减少）这个问题的方法是尝试使用多个随机初始化。

B. 初始化K-均值的标准方法是将μ1=…=μk设置为等于零的向量。

C. 由于K-Means是一种无监督的学习算法，它不能对数据进行过度拟合，因此最好在计算上尽可能多的聚类。

D. 对于某些数据集，K（集群数量）的“正确”值可能是不明确的，甚至对于仔细查看数据的人类专家来说也很难做出决定。

E. 无论簇中心的初始化如何，K-均值都会给出相同的结果。

F. 初始化K-means的一个好方法是从训练集中选择K个（不同的）示例，并设置与这些选定示例相等的簇质心。

G. 在K-均值的每次迭代中，代价函数J(c(1),…,c(m),μ1,…,μk)（失真函数）要么保持不变，要么减小，特别是不应增加。

H. 一旦一个例子被分配到一个特定的簇中心，它将永远不会被重新分配到另一个不同的簇中心。

第 66 题

考虑以下二维数据集：

下列哪个图片对应的PCA可能返回的u(1)（第一特征向量/第一主成分）的值？选出所有正确项

第 67 题

以下哪一项是选择主成分k数量的合理方法？（n是输入数据的维度mm是输入示例的数量）

A. 选择至少保留99%的方差的k的最小值

B. 选择k，使逼近误差1m∑i=1m||x(i)−xapprox(i)||2。

C. 选择至少保留1%的方差的k的最小值

D. 选择k为99%的n（即k=0.99∗n四舍五入至最接近的整数）。

第 68 题

假设有人告诉你，他们运行主成分分析的方式是“95%的方差被保留”，什么是与此等价的说法？

A. 1m∑i=1m||x(i)||21m∑i=1m||x(i)−xapprox(i)||2≥0.05
B. 1m∑i=1m||x(i)||21m∑i=1m||x(i)−xapprox(i)||2≤0.05
C. 1m∑i=1m||x(i)−xapprox(i)||21m∑i=1m||x(i)||2≤0.05
D. 1m∑i=1m||x(i)||21m∑i=1m||x(i)−xapprox(i)||2≤0.95

第 69 题

以下哪项陈述是正确的？选择所有正确项

A. 仅给出z(i)和Ureduce，就没有办法重建x(i)的任何合理的近似。

B. 即使所有的输入特征都在非常相似的尺度上，在运行PCA之前，我们仍然应该执行均值归一化（这样每个特征的均值为零）。

C. PCA易受局部最优解的影响；尝试多次随机初始化可能会有所帮助。

D. 给定输入数据x∈Rn，仅用满足k≤n的k值运行PCA是有意义的（特别是，用k=n运行PCA是可能的，但没有帮助，k>n没有意义）

第 70 题

以下哪项是PCA的推荐应用？选择所有正确项

A. 作为线性回归的替代：对于大多数模型应用，PCA和线性回归给出了基本相似的结果。

B. 数据压缩：减少数据的维数，从而减少占用的内存/磁盘空间。

C. 数据可视化：获取二维数据，并在二维中找到不同的绘制方法（使用k=2）。

D. 数据压缩：减少输入数据x(i)的维数，该维数将用于监督学习算法（即，使用PCA以使监督学习算法运行更快）。

Week 9 | 1 异常检测

第 71 题

对于下列哪一个问题，异常检测是一个合适的算法？

A. 给定一张脸的图像，确定它是否是某个特定名人的脸。

B. 给定信用卡交易的数据集，识别异常交易，将其标记为可能存在欺诈。

C. 给定信用卡交易的数据，根据购买类型对每个交易进行分类（例如：食物、交通工具、衣服）。

D. 从大量的初级保健患者记录中，找出可能有异常健康状况的个人。

第 72 题

假设您已经训练了一个异常检测系统，当p(x)<ϵ时标记异常，并且您在交叉验证集中发现它有太多的误报（标记太多的东西为异常）。你该怎么办？

A. 增大ϵ
B. 减小ϵ

第 73 题

假设您正在开发一个异常检测系统来捕获飞机发动机中的制造缺陷。你的模型用p(x)=∏j=1np(xj;μj,σj2)。
有两个特性x1=振动强度，x2=产生的热量，x1,x2的值都在0到1之间（并且严格大于0）。
对于大多数“正常”发动机，你期望x1≈x2。其中一个可疑的异常是，即使不产生太多热量，发动机也会剧烈振动（大x1，小x2），即使x1和x2的特定值可能不在其典型值范围之外。
您应该构造哪些特征x3来捕获这些类型的异常：

A. x3=x12×x2
B. x3=x1x2
C. x3=x1+x2
D. x3=x1×x2

第 74 题

以下哪项是正确的？选择所有正确项

A. 如果没有任何标记的数据（或者如果所有数据都有标记y=0），则仍然可以学习p(x)，但可能更难评估系统或选择一个好的值。

B. 如果你有一个带有许多正例子和许多负例子的训练集，那么异常检测算法的性能可能与有监督的学习算法（如支持向量机）一样好。

C. 如果您正在开发异常检测系统，则无法使用标记的数据来改进您的系统。

D. 在为异常检测系统选择特征时，最好为异常示例寻找具有异常大值或小值的特征。

第 75 题

您有一个一维数据集{x(1),…,x(m)}，并且希望检测数据集中的异常值。首先绘制数据集，它如下所示：

假设将高斯分布参数μ1μ1和σ21σ12拟合到此数据集。对于μ1,σ12，可以得到下列哪个值？

A. μ1=−3,σ12=4
B. μ1=−6,σ12=4
C. μ1=−3,σ12=2
D. μ1=−6,σ12=4

1.一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别 4 种不同的人员：狱警，小偷，送餐员，其他。下面哪种学习方法最适合此种应用需求：

A.回归问题

B.二分类问题

C.多分类问题

D.K-means 聚类问题

2.以下哪种技术对于减少数据集的维度会更好

A.删除缺少值太多的列

B.删除数据差异较大的列

C.删除不同数据趋势的列

D.都不是

3.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？

A.频繁模式挖掘

B.分类和预测

C.数据预处理

D.数据流挖掘

4.下列不是 SVM 核函数的是( )

A.多项式核函数

B.逻辑核函数

C.径向基核函数

D.线性核函数

5.数据科学家可能会同时使用多个算法（模型）进行预测，并且最后把这些算法的结果集成起来进行最后的预测（集成学习），以下对集成学习说法正确的是

A.单个模型之间有高相关性

B.单个模型之间有低相关性

C.在集成学习中使用“平均权重”而不是“投票”会比较好

D.单个模型都是用的一个算法

6.‌ 在以下不同的场景中,使用的分析方法不正确的有（）‎

A.根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级

B.根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式

C.用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫

D.根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

7.‍bootstrap 数据的含义是‏

A.有放回的从整体 M 中抽样 m 个特征

B.无放回的从整体 M 中抽样 m 个特征

C.有放回的从整体 N 中抽样 n 个样本

D.无放回的从整体 N 中抽样 n 个样本

8.在逻辑回归中,如果同时加入 L1 和 L2 范数,不会产生什么效果‌

A.以做特征选择,并在一定程度上防止过拟合

B.能解决维度灾难问题

C.能加快计算速度

D.可以获得更准确的结果

9.‌ 对于在原空间中线性不可分问题，支持向量机（）。‏

A.在原空间中寻找非线性函数的划分数据

B.无法处理

C.在原空间中寻找线性函数划分数据

D.将数据映射到核空间中

10.‌ 回归问题和分类问题的区别是？

A.回归问题有标签，分类问题没有

B.回归问题输出值是离散的，分类问题输出值是连续的

C.回归问题输出值是连续的，分类问题输出值是离散的

D.回归问题与分类问题在输入属性值上要求不同

11.‌ 以下关于降维的说法不正确的是？‎

A.降维是将训练样本从高维空间转换到低维空间

B.降维不会对数据产生损伤

C.通过降维可以更有效地发掘有意义的数据结构

D.降维将有助于实现数据可视化

12.‌ 向量 x=[1,2,3,4,-9,0]的 L1 范数是多少？‌

A.1

B.19

C.6

13.‍ 假设 X 和 Y 都服从正态分布，那么 P(X<5,Y<0)就是一个（），表示 X<5,Y<0 两个条件同时成立的概率，即两个事件共同发生的概率。‍

A.先验概率

B.后验概率

C.联合概率

D.以上说法都不对

14.‌ 假设会开车的本科生比例是 15%，会开车的研究生比例是 23%。若在某大学研究生占学生比例是 20%，则会开车的学生是研究生的概率是多少？

‎A.80%

B.16.6%

C.23%

D.27.71%

15.‏ 假设有 100 张照片，其中，猫的照片有 60 张，狗的照片是 40 张。

‏ 识别结果：TP=40，FN=20，FP=10，TN=30，则可以得到：( )。

A.Accuracy=0.8

B.Precision=0.8

C.Recall=0.8

D.以上都不对

16.以下关于训练集、验证集和测试集说法不正确的是( )。

‍A.测试集是纯粹是用于测试模型泛化能力

B.训练集是用来训练以及评估模型性能

C.验证集用于调整模型参数

D.以上说法都不对

17.‏ 下列哪种方法可以用来缓解过拟合的产生：( )。‎

A.增加更多的特征

B.正则化

C.增加模型的复杂度

D.以上都是

18.‎ 假设有 6 个二维数据点：D={(2,3),(5,7),(9,6),(4,5),(6,4),(7,2)}，第一次切分时候，切分线为( )。‍

A.x=5

B.x=6

C.y=5

D.y=6

19.‏ 两个向量的长度分别为 1 和 2，两者之间的夹角为 60 度，则以下选项错误的是( )。‎

A.余弦相似度为 0.5

B.余弦相似度为正

C.余弦相似度没法计算，因为没给出具体坐标值

D.余弦相似度的值与向量的长度无关，只和向量之间的夹角有关

20.‏LightGBM 与 XGBoost 相比，主要的优势不包括( )‌

A.更快的训练速度

B.更低的内存消耗

C.更好的准确率

D.采用二阶泰勒展开加快收敛

21.‏ 关于 BP 算法优缺点的说法错误的是 ( )。‌

A.BP 算法不能用于处理非线性分类问题

B.BP 算法训练时间较长

C.BP 算法容易陷入局部最小值

D.BP 算法训练时候可能由于权值调整过大使得激活函数达到饱和

22.‍ 神经网络算法有时会出现过拟合的情况，那么采取以下哪些方法解决过拟合更为可行（）。‏

A.为参数选取多组初始值，分别训练，再选取一组作为最优值

B.增大学习的步长

C.减少训练数据集中数据的数量

D.设置一个正则项减小模型的复杂度

23.‎SVM 算法的最小时间复杂度是 O(n^2)。基于这一点，以下哪种规格的数据集并不适用于该算法?( )‎

A.大数据集

B.小数据集

C.中数据集

D.不受数据集大小的影响

24.‍ 一个正例(2,3)，一个负例(0,-1)，下面哪个是 SVM 超平面?（）

‎A.2x+y-4=0

B.2y+x-5=0

C.x+2y-3=0

D.无法计算

25.‌ 下列关于 Kmeans 聚类算法的说法错误的是( )。

A.对大数据集有较高的效率并且具有可伸缩性

B.是一种无监督学习方法

C.K 值无法自动获取，初始聚类中心随机选择

D.初始聚类中心的选择对聚类结果影响不大

26.‍ 简单地将数据对象集划分成不重叠的子集，使得每个数据对象恰在一个子集中，这种聚类类型称作( )。‍

A.层次聚类

B.划分聚类

C.非互斥聚类

D.密度聚类

27.‎ 以下关于 PCA 说法正确的是 ( )。‎

A.PCA 是一种监督学习算法

B.PCA 在转换后的第一个新坐标轴选择的是原始数据中方差最小的方向

C.PCA 转换后选择的第一个方向是最主要特征

D.PCA 不需要对数据进行归一化处理

28.‌ 关于 Apriori 和 FP-growth 算法说法正确的是( )。‌

A.Apriori 比 FP-growth 操作更麻烦

B.FP-growth 算法需要对项目进行配对，因此处理速度慢

C.FP-growth 只需要一次遍历数据，扫描效率高

D.FP-growth 算法在数据库较大时，不适宜共享内存

29.‌ 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？( )‎

A.关联规则发现

B.聚类

C.分类

D.自然语言处理

30.‍ 置信度(confidence)是衡量兴趣度度量( )的指标。‎

A.简洁性

B.确定性

C.实用性

D.新颖性

2.多选(每题 2 分)

31.‎ 下面哪些是分类算法？

‌A. 根据肿瘤的体积、患者的年龄来判断良性或恶性？

B.根据用户的年龄、职业、存款数量来判断信用卡是否会违约？

C.身高 1.85m，体重 100kg 的男人穿什么尺码的 T 恤？

D.根据房屋大小、卫生间数量等特征预估房价

32.‎ 以下哪些是使用数据规范化(特征缩放)的原因？

‌A.它通过降低梯度下降的每次迭代的计算成本来加速梯度下降

B.它通过减少迭代次数来获得一个好的解，从而加快了梯度下降的速度

C.它不能防止梯度下降陷入局部最优

D.它防止矩阵不可逆(奇异/退化)

33.‎ 影响 KNN 算法效果的主要因素包括( )。

‎A.K 的值

B.距离度量方式

C.决策规则

D.最邻近数据的距离

34.‏ 支持向量机有哪些常用的核函数( )。

A.高斯核

B.拉普拉斯核

C.线性核

D.多项式核

35.‏ 以下关于支持向量机的说法正确的是 ( )。‏

A.SVM 适用于大规模数据集

B.SVM 分类思想就是将分类面之间的间隔最小化

C.SVM 方法简单，鲁棒性较好

D.SVM 分类面取决于支持向量

36.‌ 关于 BP 算法优点说法正确的是（）。

A.BP 算法能够自适应学习

B.BP 算法有很强的非线性映射能力

C.BP 算法反向传播采用链式法则，推导过程严谨

D.BP 算法泛化能力不强

37.‏ 下面关于支持向量机的描述正确的是( )。

‏A.是一种监督学习的方法

B.可用于多分类的问题

C.支持非线性的核函数

D.是一种生成模型

38.‎ 下面属于降维常用的技术的有：( )。

‌A.主成分分析

B.特征提取

C.奇异值分解

D.离散化

39.‌PCA 算法获取的超平面应具有哪些性质（）。

A.最近重构性

B.信息增益最大性

C.最大可分性

D.局部极小性

40.‎ 关于关联规则，正确的是：( )。

‌A.关联规则挖掘的算法主要有：Apriori 和 FP-Growth

B.一个项集满足最小支持度，我们称之为频繁项集

C.啤酒与尿布的故事是聚类分析的典型实例

D.支持度是衡量关联规则重要性的一个指标

3.判断(每题 1 分)

41.‏ 支持向量是那些最接近决策平面的数据点

‍A.正确

B.错误

42.‍ 相关变量的相关系数可以为零，对吗？

‏A.正确

B.错误

43.‌PCA 会选取信息量最少的方向进行投影。

‌A.正确

B.错误

44.‍ 大部分的机器学习工程中，数据搜集、数据清洗、特征工程这三个步骤绝大部分时间，而数据建模，占总时间比较少。

A.正确

B.错误

45.‏ 随机梯度下降，每次迭代时候，使用一个样本。

‌A.正确

B.错误

46.‎ 朴素贝叶斯法的基本假设是条件独立性。

‌A.正确

B.错误

47.SMOTE 算法是用了上采样的方法。

‍A.正确

B.错误

48.L2 正则化得到的解更加稀疏。

A.正确

B.错误

49.‍ID3 算法只能用于处理离散分布的特征。

A.正确

B.错误

50.‏ 集成学习的数据不需要归一化或者标准化。

‎A.正确

B.错误

51.‎BP 算法“喜新厌旧”，在学习新样本后，会把旧样本逐渐遗忘。

‌A.正确

B.错误

52.逻辑回归分类的精度不够高，因此在业界很少用到这个算法

‍A.正确

B.错误

53.‌SMOTE 算法是用了上采样的方法。

‌A.正确

B.错误

54.‍100 万条数据划分训练集、验证集、测试集，数据可以这样划分：98%，1%，1% 。‌

A.正确

B.错误

55.‎K 均值是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。‌

A.正确

B.错误

56.朴素贝叶斯法的基本假设是条件独立性。

‏A.正确

B.错误

57.特征空间越大，过拟合的可能性越大。

‎A.正确

B.错误

58.‍ 两个向量的余弦相似度越接近 1，说明两者越相似。

‌A.正确

B.错误

59.‍K 均值是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定。‎

A.正确

B.错误

60.‍ID3 算法的核心思想就是以信息增益来度量特征选择，选择信息增益最大的特征进行分裂。

A.正确

B.错误

你可能感兴趣的:(机器学习,人工智能)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class