Pisces_DYL

机器学习期末复习

一、前言

接下来是对于机器学习期末复习题的问答与解析，按照知识点分布包括下面几个部分：

二、模型评估与选择
三、对数几率回归
四、决策树
五、神经网络
六、支持向量机
七、聚类分析
八、K-NN与PCA

二、模型评估与选择

2.单选题 (2分)
”点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, 而且有了99%的预测准确率, 我们可以下的结论是 : ( )
A 以上都不对
B 模型预测准确率已经很高了, 我们不需要做什么了
C 模型预测准确率不高, 我们需要做点什么改进模型
D 无法下结论
答案：D

3.单选题 (2分)
假设你需要调整参数来最小化代价函数(cost function),会使用下列哪项技术?()
A 穷举搜索
B Bayesian优化
C 随机搜索
D 梯度下降
答案：D

代价函数 梯度下降中的梯度指的是代价函数对各个参数的偏导数，偏导数的方向决定了在学习过程中参数下降的方向，学习率（通常用α表示）决定了每步变化的步长，有了导数和学习率就可以使用梯度下降算法（Gradient Descent Algorithm）更新参数了。
代价曲线在非均等代价下，代价曲线能直接反映出学习器的期望总体代价。 代价曲线横轴是取值为 [0 ，1]的正例概率代价。其中 p 是样例为正例的概率。纵轴是取值为 [0 ， 1] 的归一化代价。代价曲线的绘制： ROC 曲线上每一点对应了代价平面上的一条线段，设ROC 曲线上点的坐标为 (TPR， FPR) ，则可相应计算出 FNR，然后在代价平面上绘制一条从 (0，FPR) 到 (1，FNR) 的线段，线段下的面积即表示了该条件下的期望总体代价;如此将 ROC 曲线土的每个点转化为代价平面上的一条线段，取所有线段的下界，围成的面积（积分）即为在所有条件下学习器的期望总体代价。

4.单选题 (2分)
在数据预处理阶段,我们常常对数值特征进行归一化或标准化(standardization, normalization)处理。这种处理方式理论上不会对下列哪个模型产生很大影响?()
A k-NN
B 决策树
C k-Means
答案：B
k-Means和k-NN都需要使用距离。而决策树对于数值特征，只在乎其大小排序，而非绝对大小。不管是标准化或者归一化，都不会影响数值之间的相对大小。关于决策树如何对数值特征进行划分

6.单选题 (2分)
关于欠拟合(under-fitting),下面哪个说法是正确的()?
A 训练误差较大,测试误差较大
B 训练误差较大,测试误差较小
C 训练误差较小,测试误差较大
答案：A

问题	过拟合	欠拟合
特征	模型在训练集上表现很好，但在测试集上却表现很差(相当于死记硬背）如学习一片叶子，带锯齿的叶片被判定为不是叶子	模型复杂度低，模型在训练集上表现很差，没法学习到数据背后的规律，发生在训练刚开始的时候。
解决	1.获取和使用更多的数据（数据集增强）——解决过拟合的根本性方法 2.采用合适的模型（控制模型的复杂度）3. 降低特征的数量	增加网络复杂度或者在模型中增加特征或多次训练

14.单选题 (2分)
混淆矩阵可以不能用来评估下面哪类模型的表现?()
A 聚类算法
B 二元分类器
C 多元分类器
答案：A 混淆矩阵总结分类模型，不总结聚类模型

混淆矩阵
混淆矩阵是机器学习中总结分类模型预测结果的情形分析表，以矩阵形式将数据集中的记录按照真实的类别与分类模型预测的类别判断两个标准进行汇总。
其中矩阵的行表示真实值，矩阵的列表示预测值

15.单选题 (2分)
对于k折交叉验证, 以下对k的说法正确的是 )
A k越大, 不一定越好, 选择大的k会加大评估时间
B 选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集)
C 以上所有
D 在选择k时, 要最小化数据集之间的方差
答案：C
在训练时, 也要考虑数据集间方差差别不大的原则. 比如, 对于二类分类问题, 使用2-折交叉验证, 如果测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会很差。所以一般在做交叉验证时，也有使用标签按比例分配原则。
k折交叉验证

应用场景
评估泛化误差，模型调优，找到使得模型泛化性能最优的超参值
2.过程如图

18.单选题 (2分)
下面的交叉验证方法 : () i. 有放回的Bootstrap方法 ii. 留一个测试样本的交叉验证 iii. 5折交叉验证 iv. 重复两次的5折交叉验证当样本是1000时,下面执行时间的顺序,正确的是:
A ii > iii > iv > i
B ii > iv > iii > i
C iv > i > ii > iii
D i > ii > iii > iv
答案：B

自助法（BootStrap）
a.给定包含m个样本的数据集D，我们对它进行采样产生数据集D’:
b.每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到;（有放回）
c.这个过程重复执行m次后,我们就得到了包含m个样本的数据集D’，这就是自助采样的结果.
d.D作训练集，D\D’作测试集,D中有36.8%样本未出现在测试集中。

自助法在数据集较小难以有效划分训练集和测试集时很有用。

交叉验证-留一法（Leave-One-Out，LOO）
假定数据集D中包含m个样本,若令k = m ,则得到了交叉验证法的一个特例:留一法(Leave-One-Out,简称LOO).显然，留一法不受随机样本划分方式的影响。但计算开销难以忍受

23.单选题 (2分)
对于下面三个模型的训练情况，下面说法正确的是（） :
1.第一张图的训练错误与其余两张图相比，是最大的
2.最后一张图的训练效果最好，因为训练错误最小
3.第二张图比第一和第三张图鲁棒性更强，是三个里面表现最好的模型
4.第三张图相对前两张图过拟合了
5.三个图表现一样，因为我们还没有测试数据集

A 1 和 2
B 1, 3 和 4
C 1 和 3
D 5
答案：B 显然
24.单选题 (2分)
在不同的应用任务中,我们可根据任务需求来采用不用的截断点,例如若要重视“查准率”,则可选择排序中靠_____的位置进行截断;若更重视“查全率”,则可选择靠____的位置进行截断. ()
A 后后
B 前后
C后前
D前前
答案：B
查全率与查准率，P-R曲线，F1值
1.查准率（precision）：算法挑出来的西瓜中有多少比例是好西瓜；

查全率（recall）：所有的好西瓜中有多少比例被算法挑了出来。
2.T（true）、F（false）、P（positive）、N（negative）的解释：P表示算法预测这个样本为1（好西瓜）、N表示算法预测这个样本为0（坏西瓜）；T表示算法预测的和真实情况一样，即算法预测正确，F表示算法预测的和真实情况不一样，即算法预测不对。

TP：正确地标记为正，即算法预测它为好西瓜，这个西瓜真实情况也是好西瓜（双重肯定是肯定）；
FP：错误地标记为正，即算法预测它是好西瓜，但这个西瓜真实情况是坏西瓜；
FN：错误地标记为负，即算法预测为坏西瓜，（F算法预测的不对）但这个西瓜真实情况是好西瓜（双重否定也是肯定）；
TN：正确地标记为负，即算法标记为坏西瓜，（T算法预测的正确）这个西瓜真实情况是坏西瓜。
所以有：

所以有P-R曲线：

F1度量的准则是：F1值越大算法性能越好。

在一些实际使用中，可能会对查准率或者查全率有偏重，比如：逃犯信息检索系统中，更希望尽量少的漏掉逃犯，此时的查全率比较重要。会有下面F1的一般形式。

当beta>1时查全率重要，beta<1时查准率重要

25.单选题 (2分)
下面哪个统计量可能大于1?()
A logloss
B ROC AUC
C 皮尔逊相关系数
答案：A

log loss

y表示样本的真实标签(1或0)，p 表示模型预测为正样本的概率。

ROC AUC

1.ROC（受试者工作特征）
评价”一般情况”下泛化性能的好坏
所有的负样本中有多少被预测为正例，称为”假正例率”，是ROC曲线的横坐标

等同于recall，称为”真正例率”，是ROC曲线的纵坐标
2.AUC
可以看做ROC曲线和X轴（即FPR）围成的面积。AUC考虑样本预测的排序质量，因此与样本误差有紧密联系，

皮尔逊相关系数
见20题

30.单选题 (2分)
下面有关分类算法的准确率,召回率,F1 值的描述,错误的是?( )
A 准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率
B 正确率、召回率和 F 值取值都在0和1之间,数值越接近0,查准率或查全率就越高
C 召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率
D 为了解决准确率和召回率冲突问题,引入了F1分数
答案：B F1可以大于1，见24公式

41.多选题 (4分)
自助法是模型训练中重要的方法,它适用于哪种训练集D?()
A 训练样本有明显的特征差异
B 难以有效划分训练/测试集
C 数据集较大
D 数据集较小
答案：BD 见18题

43.多选题 (4分)
在现实机器学习当中首先进行特征选择的原因中正确的是 ( )
A 保留多样特征
B 降低学习任务难度
C 减轻维数灾难问题
D 去除不相关特征
答案：BCD

44.多选题 (4分)
数据集D进行适当处理产生出训练集S和测试集T的方法有()
A 交叉验证法
B 留出法
C 自助法
答案：ABC

三、对数几率回归

5.单选题 (2分)
线性回归模型一般简写为y=ωTx +b,若将输出标记的对数作为模型逼近的目标,则写成lny=ωTx +b在形式上为_____,实质上为____.()
A 线性回归非线性函数映射
B 线性回归线性函数映射
C 非线性回归线性函数映射
D 非线性回归非线性函数映射
答案：A
在数学中这是一种经典的处理方法即对等式两端取对数，在物理实验中也可通过相关方法画出线形图，如匀加速运动中位移与时间的二次方成线性关系。但在实际中是非线性的。

9.单选题 (2分)
对应的模型称为“对数几率回归”,变化为ln1-y =ωTx +b,若将y视为样本x作为正例的可能性,则1-y是其反例可能性,两者的比值“几率反应了x作为( )的相对可能性”
A 反例
B 正例
答案：B 详见西瓜书P58 公式（3.21）

20.单选题 (2分)
当我们构造线性模型时, 我们注意变量间的相关性. 在相关矩阵中搜索相关系数时, 如果我们发现 3 对变量的相关系数是(Var1 和 Var2, Var2 和 Var3, Var3 和 Var1)是-0.98, 0.45, 1.23 . 我们可以得出什么结论:

Var1 和 Var2 是非常相关的
因为 Var 和 Var2 是非常相关的, 我们可以去除其中一个
Var3 和 Var1 的 1.23 相关系数是不可能的
A 1,2 and 3
B 1 and 3
C 1 and 2
D 1
答案：A 线性代数，概率论的相关知识
相关系数公式，分子为协方差，分母为方差

31.单选题 (2分)
对数几率回归模型的优点有:( )
A 可得到近似概率预测
B 可被许多数值优化算法直接用于求取最优解
C 无需事先假设数据分布
D 以上都是
答案：D

38.单选题 (2分)
关于Logistic回归和SVM,以下说法错误的是?( )
A Logistic回归的目标函数是最小化后验概率
B Logistic回归可用于预测事件发生概率的大小
C SVM可以有效避免模型过拟合
D SVM的目标的结构风险最小化
答案：A

四、决策树

26.单选题 (2分)
决策树学习算法对付“过拟合”的主要手段是( )
A增加树的深度
B剪枝
C增加树的广度
答案：B
决策树——有监督学习
1.过程

特征选择
特征选择决定了使用哪些特征来做判断。在训练数据集中，每个样本的属性可能有很多个，不同属性的作用有大有小。因而特征选择的作用就是筛选出跟分类结果相关性较高的特征，也就是分类能力较强的特征。

在特征选择中通常使用的准则是：信息增益。
首先求出信息熵：

再求出信息增益：

其中Entropy为信息熵，减数为条件熵。

CART算法使用基尼系数。
决策树生成
选择好特征后，就从根节点触发，对节点计算所有特征的信息增益，选择信息增益最大的特征作为节点特征，根据该特征的不同取值建立子节点；对每个子节点使用相同的方式生成新的子节点，直到信息增益很小或者没有特征可以选择为止。

决策树剪枝
剪枝的主要目的是对抗「过拟合」，通过主动去掉部分分支来降低过拟合的风险。
1.预剪枝
预剪枝（pre-pruning）：预剪枝就是在构造决策树的过程中，先对每个结点在划分前进行估计，若果当前结点的划分不能带来决策树模型泛华性能的提升，则不对当前结点进行划分并且将当前结点标记为叶结点。
判断的标准就是看划分前后的泛化性能是否有提升，也就是如果划分后泛化性能有提升，则划分；否则，不划分。
2.后剪枝
后剪枝（post-pruning）：后剪枝就是先把整颗决策树构造完毕，然后自底向上的对非叶结点进行考察，若将该结点对应的子树换为叶结点能够带来泛华性能的提升，则把该子树替换为叶结点。

2.优点
决策树易于理解和解释，可以可视化分析，容易提取出规则；
可以同时处理标称型和数值型数据；
比较适合处理有缺失属性的样本；
能够处理不相关的特征；
测试数据集时，运行速度比较快；
在相对短的时间内能够对大型数据源做出可行且效果良好的结果
3.缺点
容易发生过拟合（随机森林可以很大程度上减少过拟合）；
容易忽略数据集中属性的相互关联；
对于那些各类别样本数量不一致的数据，在决策树中，进行属性划分时，不同的判定准则会带来不同的属性选择倾向；信息增益准则对可取数目较多的属性有所偏好（典型代表ID3算法），而增益率准则（CART）则对可取数目较少的属性有所偏好，但CART进行属性划分时候不再简单地直接利用增益率尽心划分，而是采用一种启发式规则）（只要是使用了信息增益，都有这个缺点，如RF）。
ID3算法计算信息增益时结果偏向数值比较多的特征。

34.单选题 (2分)
目标变量在训练集上的 8 个实际值 [0,0,0,1,1,1,1,1],目标变量的熵是多少? ()
A -(5/8 log(5/8) + 3/8 log(3/8))
B 3/8 log(5/8) + 5/8 log(3/8)
C 5/8 log(3/8) – 3/8 log(5/8)
D 5/8 log(5/8) + 3/8 log(3/8)
答案：A
在通信原理中有这样一个概念：信息量。如果一个事件发生的概率越大，则信息量越小，反之如果发生的概率越小则信息量越大。比如你的老师告诉你下节课要进行测验，明天沙漠地区会有一场暴雨……。在数学中使用概率的负对数来描述：
其中底数可以取2，e，10等等，对应的单位分别为比特，奈特，哈莱特，而信息熵可以看成

五、神经网络

1.单选题 (2分)
卷积神经网络(Convolutional Neural Network)中通常包含卷积层和全链接层,它们的主要作用分别是 ( )
A 进行分类、提取特征
B 提取特征、提取特征
C 提取特征、进行分类

神经网络

由具有适应性的简单单元组成的广泛并行互联的网络，它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应

卷积神经网络（CNN）

学习方法
使用梯度下降算法进行学习，卷积神经网络的输入特征需要进行标准化处理
构成
卷积神经网络和全连接神经网络相同，主要由输入层、隐藏层、输出层组成，隐藏层中又包括卷积层（核心层），ReLU层、池化（Pooling）层和全连接层。
卷积层
卷积层的功能是对输入数据进行特征提取，其内部包含多个卷积核，组成卷积核的每个元素都对应一个权重系数和一个偏差量（bias vector），类似于一个前馈神经网络的神经元（neuron）。

卷积层参数包括卷积核大小、步长和填充，三者共同决定了卷积层输出特征图的尺寸，是卷积神经网络的超参数。其中卷积核大小可以指定为小于输入图像尺寸的任意值，卷积核越大，可提取的输入特征越复杂。
池化层
在卷积层中处理后的特征图传送至池化层进行特征选择和信息过滤
全连接层&输出层
对提取的特征进行非线性组合（分类）以得到输出，输出层使用逻辑函数或归一化指数函数输出分类标签

7.单选题 (2分)
下图显示,当开始训练时,误差一直很高,这是因为神经网络在往全局最小值前进之前一直被卡在局部最小值里。为了避免这种情况,我们可以采取下面哪种策略?()

A 增加参数数目,这样神经网络就不会卡在局部最优处
B 其他都不对
C 一开始将学习速率减小10倍,然后用动量项(momentum)
D 改变学习速率,比如一开始的几个训练周期不断更改学习速率
答案：D 可以将陷于局部最小值的神经网络提取出来

8.单选题 (2分)
如果增加多层感知机(Multilayer Perceptron)的隐藏层层数,分类误差便会减小。这种陈述正确还是错误? ()
A 错误 B 正确
答案：A 层数增加可能导致过拟合，从而可能引起错误增加

多层感知机（MLP，Multilayer Perceptron）
也叫人工神经网络（ANN，Artificial Neural Network），除了输入输出层，它中间可以有多个隐层，最简单的MLP只含一个隐层，即三层的结构.

10.单选题 (2分)
考虑某个具体问题时,你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络?()
A 把除了最后一层外所有的层都冻住,重新训练最后一层
B 对新数据重新训练整个模型
C 对每一层模型进行评估,选择其中的少数来用
D 只对最后几层进行调参(fine tune)
答案：D
如果有个预先训练好的神经网络, 就相当于网络各参数有个很靠谱的先验代替随机初始化.
若新的少量数据来自于先前训练数据(或者先前训练数据量很好地描述了数据分布, 而新数据采样自完全相同的分布), 则冻结前面所有层而重新训练最后一层即可;
但一般情况下, 新数据分布跟先前训练集分布有所偏差, 所以先验网络不足以完全拟合新数据时, 可以冻结大部分前层网络, 只对最后几层进行训练调参(这也称之为fine tune)

11.单选题 (2分)
梯度下降算法的正确步骤是什么？
1.计算预测值和真实值之间的误差
2. 重复迭代，直至得到网络权重的最佳值
3.把输入传入网络，得到输出值
4. 用随机值初始化权重和偏差
5. 对每一个产生误差的神经元，调整相应的（权重）值以减小误差

A 1, 2, 3, 4, 5
B 5, 4, 3, 2, 1
C 3, 2, 1, 5, 4
D 4, 3, 1, 5, 2
答案：D
梯度下降算法

作用
最小化损失函数(如均方误差）
原理
损失函数里一般有两种参数，一种是控制输入信号量的权重(Weight, 简称w），另一种是调整函数与真实值距离的偏差（Bias，简称 b）。若是损失函数最下，可以求其偏导（梯度），然后使用学习率（步长）来找到最小值。

16.单选题 (2分)
构建一个神经网络,将前一层的输出和它自身作为输入。下列哪一种架构有反馈连接?()

A 都不是
B 循环神经网络
C 限制玻尔兹曼机
D 卷积神经网络
答案：B
循环神经网络（RNN）

结构
特点
RNN对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，因此需要上下文

17.单选题 (2分)
在一个神经网络中,知道每一个神经元的权重和偏差是最重要的一步。如果知道了神经元准确的权重和偏差,便可以近似任何函数,但怎么获知每个神经的权重和偏移呢?()
A 赋予一个初始值,然后检查跟最佳值的差值,不断迭代调整权重
B 随机赋值,听天由命
C 以上都不正确的
D 搜索每个可能的权重和偏差组合,直到得到最佳值
答案：D 梯度下降就是这样式的

21.单选题 (2分)
在一个神经网络中,下面哪种方法可以用来处理过拟合?()
A Dropout
B 正则化(regularization)
C分批归一化(Batch Normalization)
D 都可以
答案：D

DropOut
dropout 是指在深度学习网络的训练过程中（CNN），按照一定的概率将一部分神经网络单元暂时从网络中丢弃，相当于从原始的网络中找到一个更瘦的网络，增加泛化能力和鲁棒性
正则化
目的：防止模型过拟合
原理：在损失函数上加上某些规则（限制），缩小解空间，从而减少求出过拟合解的可能性
分批归一化
批量归一化可以看作在每一层输入和上一层输出之间加入了一个新的计算层，对数据的分布进行额外的约束，从而增强模型的泛化能力。但是批量归一化同时也降低了模型的拟合能力，

22.单选题 (2分)
对于一个图像识别问题(在一张照片里找出一只猫),下面哪种神经网络可以更好地解决这个问题?()
A感知机
B循环神经网络
C卷积神经网络
D多层感知机
答案：C

神经网络	应用
感知机（ANN，人工神经网络）	无人驾驶，语音识别
循环神经网络（NLP）	语音识别、语言建模、机器翻译等领域有应用，也被用于各类时间序列预报
卷积神经网络（CNN）	图像识别领域
多层感知机（DNN）	语音，图像，自然语言 (文本)处理

28.单选题 (2分)
下列哪项关于模型能力(model capacity)的描述是正确的?(指神经网络模型能拟合复杂函数的能力)()
A Dropout 的比例增加,模型能力增加
B都不正确
C学习率增加,模型能力增加
D隐藏层层数增加,模型能力增加
答案：D 太瘦不好，走的太快不好

35.单选题 (2分)
神经网络模型(Neural Network)因受人类大脑的启发而得名。神经网络由许多神经元()组成,每个神经元接受一个输入,对输入进行处理后给出一个输出,请问下列关于神经元的描述中,哪一项是正确的?()
A 每个神经元可以有多个输入和一个输出
B 上述都正确
C 每个神经元可以有一个输入和一个输出
D 每个神经元可以有一个输入和多个输出
E 每个神经元可以有多个输入和多个输出
答案：B

36.单选题 (2分)
对于一个分类任务,如果开始时神经网络的权重不是随机赋值的,二是都设成 0,下面哪个叙述是正确的?()
A 其他选项都不对
B 没啥问题,神经网络会正常开始训练
C 神经网络可以训练,但是所有的神经元最后都会变成识别同样的东西
D 神经网络不会开始训练,因为没有梯度改变
答案：C

令所有权重都初始化为 0 这个一个听起来还蛮合理的想法,也许是一个我们假设中最好的一个假设了, 但结果是错误的,因为如果神经网络计算出来的输出值都一个样,那么反向传播算法计算出来的梯度值一样,并且参数更新值也一样(w=w−α∗dw)。更一般地说,如果权重初始化为同一个值,网络即是对称的, 最终所有神经元最后都会变成识别的同样的东西。

37.单选题 (2分)
增加卷积核的大小对于改进卷积神经网络的效果是必要的吗?()
A 是
B 没听说过
C 否
D 不知道

卷积核越大，可提取的输入特征越复杂。

39.单选题 (2分)
在选择神经网络的深度时,下面哪些参数需要考虑?()
1 神经网络的类型(如 MLP,CNN)
2 输入数据
3 计算能力(硬件和软件能力决定)
4 学习速率
5 映射的输出函数
A 1,3,4,5
B 2,3,4,5
C 1,2,4,5
D都需要考虑
答案：D

40.单选题 (2分)
在感知机中的任务顺序是什么?
1 随机初始化感知机的权重
2 去到数据集的下一批
3 如果预测值和输出不一致,则调整权重
4 对一个输入样本,计算输出值:
A 4, 3, 2, 1
B 1, 4, 3, 2
C 1, 2, 3, 4
D 3, 1, 2, 4

答案：B

六、支持向量机（SVM）

13.单选题 (2分)
关于SVM泛化误差描述正确的是()?
A SVM对未知数据的预测能力
B 超平面与支持向量之间距离
C SVM的误差阈值
答案：A 统计学中的泛化误差是指对模型对未知数据的预测能力。

支持向量机

简介
a. 支持向量机（support vector machines, SVM）是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机；
b.SVM还包括核技巧，这使它成为实质上的非线性分类器。 SVM的的学习策略就是间隔最大化，可形式化为一个求解凸二次规划的问题，也等价于正则化的合页损失函数的最小化问题。
c.SVM的的学习算法就是求解凸二次规划的最优化算法。

27.单选题 (2分)
SVM在下列那种情况下表现糟糕()?
A 线性可分数据
B 含噪声数据与重叠数据点
C 清洗过的数据
答案：B
当数据中含有噪声数据与重叠的点时,要画出干净利落且无误分类的超平面很难

29.单选题 (2分)
SVM中的核技巧(Kernel trick)的作用包括以下哪项()?
A 特征降维
B 特征升维
C 防止过拟合
答案：B
核技巧使用核函数将样本从原特征空间映射到更高维的空间,使得样本在更高维的空间中线性可分

32.单选题 (2分)
SVM的效率依赖于():
A 核参数
B 软间隔参数
C 以上所有
D 核函数的选择
答案：C 分别能够提高效率,降低误差和防止过拟合。
核函数
SVM核函数是用来解决数据线性不可分而提出的，把数据从源空间映射到目标空间（线性可分空间）
软间隔
允许SVM在一些样本上出错
核参数？

七、聚类分析

12.单选题 (2分)
K-Mean算法在()图上的聚类效果最好?()
A 平行一条直线
B 交叉错乱
C 凹形
D 凸形
答案：D K-means聚类时会找尽量接近的点，凹型图（U形图的两端可能会被聚到一起）
K-means算法

思想
对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大，是一种无监督学习
过程
a. 从样本中选择 K 个点作为初始质心（完全随机）
b. 计算每个样本到各个质心的距离，将样本划分到距离最近的质心所对应的簇中
c. 计算每个簇内所有样本的均值，并使用该均值更新簇的质心
d. 重复步骤 2 与 3 ，直到达到以下条件之一：
质心的位置变化小于指定的阈值（默认为 0.0001）
达到最大迭代次数

42.多选题 (4分)
下列关于聚类分析的说法中正确的有()
A 类与类之间的距离就是轮廓系数
B 在聚类过程中只需要考虑点与点之间的聚类,根据点与点之间的距离进行分类
C 聚类分析的一般规则是将距离较小的点归为一类,将距离较大的点归为不同的类
D 在聚类过程中,既要考虑点与点之间的距离,也要考虑类与类之间的距离
答案：ACD

八、K-NN与PCA

19.单选题 (2分)
对于 PCA 说法正确的是 : ( )

我们必须在使用 PCA 前规范化数据
我们应该选择使得模型有最大 variance 的主成分
我们应该选择使得模型有最小 variance 的主成分
我们可以使用 PCA 在低维度上做数据可视化

A 1, 3 and 4
B 1 and 3
C 3 and 4
D 2 and 4
E 1, 2 and 4
答案：E
主成分分析-PCA

假定有 n 个样本，每个样本共有 p个变量，构成一个 n*p 阶的数据矩阵 .
当p 较大时，在p维空间中考察问题比较麻烦。为了克服这一困难，就需要进行降维处理，即用较少的几个综合指标代替原来较多的变量指标，而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息，同时它们之间又是彼此独立的。

PCA是一个非监督学习

33.单选题 (2分)
以下几种模型方法属于判别式模型的有( )
A 隐马尔科夫模型
B 混合高斯
C 朴素贝叶斯
D KNN
答案：D
判别式模型
线性回归、逻辑回归、线性判别、集成学习、支持向量机、神经网络、条件随机场、最大熵模型
生成式模型
朴素贝叶斯、隐含马尔科夫模型、限制玻尔兹曼机、高斯混合以及其他混合模型

45.多选题 (4分)
PCA说法正确的是()
A 使所有样本点在新坐标系下尽可能密集
B PCA降维会丢掉部分信息
C 使所有样本点在新坐标系下尽可能分开
答案：BC

其中难免有错误与纰漏之处，亦有引用，若有涉及，请及时私信

你可能感兴趣的:(机器学习,人工智能,算法)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
非对称加密算法原理与应用2——RSA私钥加密文件私语茶馆云部署与开发架构及产品灵感记录 RSA2048 私钥加密
作者：私语茶馆1.相关章节（1）非对称加密算法原理与应用1——秘钥的生成-CSDN博客第一章节讲述的是创建秘钥对，并将公钥和私钥导出为文件格式存储。本章节继续讲如何利用私钥加密内容，包括从密钥库或文件中读取私钥，并用RSA算法加密文件和String。2.私钥加密的概述本文主要基于第一章节的RSA2048bit的非对称加密算法讲述如何利用私钥加密文件。这种加密后的文件，只能由该私钥对应的公钥来解密。
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
非对称加密算法————RSA理论及详情 hu19930613
转自：https://www.kancloud.cn/kancloud/rsa_algorithm/48484一、一点历史1976年以前，所有的加密方法都是同一种模式：（1）甲方选择某一种加密规则，对信息进行加密；（2）乙方使用同一种规则，对信息进行解密。由于加密和解密使用同样规则（简称"密钥"），这被称为"对称加密算法"（Symmetric-keyalgorithm）。这种加密模式有一个最大弱点
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数