携程算法笔试题知识点

判别式模型(Discriminative Model)是直接对条件概率p(y|x;θ)建模。常见的判别式模型有 线性回归模型、线性判别分析、支持向量机SVM、神经网络等。

 

生成式模型(Generative Model)则会对x和y的联合分布p(x,y)建模,然后通过贝叶斯公式来求得p(yi|x),然后选取使得p(yi|x)最大的yi,即:常见的生成式模型有 隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等。

 

准确度并不适合于衡量不平衡类别问题

当数据有一个 0 均值向量时,PCA 有与 SVD 一样的投射,否则在使用 SVD 之前,你必须将数据均值归 0。

 

Stage 是spark 中一个非常重要的概念 ,

在一个job 中划分stage 的一个重要依据是否有shuflle 发生 ,也就是是否会发生数据的重组 (重新组织数据)。

在一个stage 内部会有很多的task 被执行,在同一个stage 中 所有的task 结束后才能根据DAG 依赖执行下一个stage 中的task.

job 有很多任务组成,每组任务可以任务是一个stage

Task 是spark 中另一个很重要的概念 ,

task 跟 partition  block 等概念紧密相连 ,task 是执行job 的逻辑单元 ,在task 会在每个executor 中的cpu core 中执行

Job 是一个比task 和 stage 更大的逻辑概念,

job 可以认为是我们在driver 或是通过spark-submit 提交的程序中一个action ,在我们的程序中有很多action  所有也就对应很多的jobs

 

Batchsize就是每次把多少条数据输入给神经网络

在r 维空间中,线性决策面的VC维为r+1。

机器学习中做特征选择时可能用到的方法有:卡方,信息增益,平均互信息,期望交叉熵

你可能感兴趣的:(虚拟化与云计算)