//仅供学习,请勿转载
一:若k为整形,下述while循环的次数为()
k =1000;
while(k>1)
{
Print k;
k=k/k;
}
解:log2(1024)=10;91000)<10,所以,结果为9
二:基于二次准则函数的H-K算法较之于感知器算法的优点是();
解:1.可以判别问题是否线性可分。3:其解的适应性更好
HK算法思想很朴实,就是在最小均方误差准则下求得权矢量.
他相对于感知器算法的优点在于,他适用于线性可分和非线性可分得情况,对于线性可分的情况,给出最优权矢量,对于非线性可分得情况,能够判别出来,以退出迭代过程.
三:在统计模式分类中,当先验概率未知时,可以使用()?
1:N-P判决,2:最小最大损失准则。
在贝叶斯决策中,对于先验概率p(y),分为已知和未知两种情况。
1. p(y)已知,直接使用贝叶斯公式求后验概率即可;
2. p(y)未知,可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。而最大最小损失规则主要是使用解决最小损失规则时先验概率未知或难以计算的问题的。
四:下面函数可以作为聚类分析中的判别函数的有?
Bc
五:在()情况下,用分支定界法做特征选择计算量相对较少?BD
1:选用的可分性判据J对特征数目单调不减。2:
一般在( 可分性判据对特征个数具有单调性)和( Cnm>>n )的条件下,可以使用分支定界法以减少计算量
分支定界法:定义一个满足单调性条件的评价准则函数,对两个特征子集s1和s2而言,如果s1是s2的子集,那么s1所对应的评价函数必须要小于s2所对应的评价函数值,在定义了该评价函数的前提下,该算法对最终特征子集的选择过程可以用一棵树来描述,树根是所有特征的集合从树根可分性判据值和事先定义的最佳特征子集的特征数目,搜索满足要求的特征子集。
但是,存在三个问题:1.该算法无法对所有的特征依据其重要性进行排序,如何事先确定最优特征子集中特征的数目是一个很大的问题。2:合乎问题要求的满足单调性的可分性判据难以设计。3:当处理高维多分类问题时,算法要运行多次,计算效率低下的问题将非常明显。
六:以下()属于线性分类器最佳准则?acd
1:感知准则函数2:支持向量机3:Fisher准则
解:线性分类器有三大类:感知器准则函数,SVM,Fisher准则。
感知器准则函数:代价函数J=-(W*X+w0),分类的准则是最小化代价函数。感知器是神经网络的基础。
SVM:支持向量机也是很经典算法,优化目标是最大间隔,又称最大间隔分类器,是一种典型的线性分类器。(使用核函数可解决非线性问题)
Fisher准则:更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能的小,不同类样本距离尽可能的大,具体为最大化“广义瑞利熵”
七:有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程式()b
解:先求斜率,再求中点。x+2y=3;斜率:(3-(-1))/(2-0)=2;中点(1,1),
八:下面代码片段中,存在编译错误的语句是bcd
Byte b1=1,b2=2,b3,b6,b8;
Final byte b4=4,b5=6,b7;
b3=(b1+b2); b6=b4+b5; b8=(b1+b4); b7=(b2+b5);
解:java中的类型解析知识点,final 根据自己类型转化,b1+b2变成int型,b3是byte型,无法接受
b4+b5是byte类型,b1+b4是int类型,b2+b5是int类型。
九:SecondNamenode的正确描述是()
1:SecondNamenode会周期的进行fsimage文件的合并,防止edits文件过大,导致Namenode启动时间过长,应该与Namenode部署到同一个节点上。
2:SecondNamenode是对主Namenode的一个补充,对内存的需求和Namenode相同。
SecondNamenode是对主Namenode的一个补充,它会周期的执行对HDFS元数据的检查点。
当前的设计仅仅允许每个HDFS只有单个SecondNamenode结点。
SecondNamenode是有一个后台的进程,会定期的被唤醒(唤醒的周期依赖相关配置)执行检查点任务,然后继续休眠。
它使用ClientProtocol协议与主Namenode通信。
SecondNamenode最好与Namenode部署到不同的服务器( 应该在merge的过程中,SecondNamenode对内存的需求与Namenode是相同的,所以对于那些 大型的生产系统 中,如果将两者部署 到同台服务器 上,在 内存上会出现 瓶颈。)
十:假设x1和x2是两个以0为均值,1为标准差的正态分布,那么x1+x2的概率密度分布是b
解:以0为均值,sqrt(2)为标准差的正态分布。
若x1与x2相互独立,则E(x1+x2)=E(x1)+E(x2)=0;方差:Val(x1+x2)=Val(x1)+Val(x2)=2;
十一:
#include
int cnt=0;
int fib(int n)
{
Cnt++;
If(n==0)
Return 1;
Else if(n==1)
Return 2;
Else
Return fib(n-1)+fib(n-2);
}
Void main()
{
Fib(8);
Printf(“%d”,cnt);
}
解:从f(0),f(1)向上加;
n=0;cnt=1;
n=1;cnt=1;
n=2;cnt=3;f(2)=f(1)+f(0)+1=3
n=3;cnt=5;
…..
十二:下面有关Hive的说法正确的是()
1:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文本映射为一张数据库表,并提供简单的SQL查询功能
2:Hivez在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS中Hive设置的目录下。
Hive使用类sql语句进行相关操作,称为HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
Hive 构建在基于静态批处理的Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。因此,Hive 并不能够在大规模数据集上实现低延迟快速的查询,例如,Hive 在几百MB 的数据集上执行查询一般有分钟级的时间延迟。
Hive 并不适合那些需要低延迟的应用,例如,联机事务处理(OLTP)。Hive 查询操作过程严格遵守Hadoop MapReduce 的作业执行模型,Hive 将用户的HiveQL 语句通过解释器转换为MapReduce 作业提交到Hadoop 集群上,Hadoop 监控作业执行过程,然后返回作业执行结果给用户。Hive 并非为联机事务处理而设计,Hive 并不提供实时的查询和基于行级的数据更新操作。Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。
十三:关于input split和block的描述正确的是()
1:input split是一种记录的逻辑划分,而block是对输入数据的物理分割,两者之间有着本质的区别
一个split不会包含零点几或者几点几个Block,一定是包含大于一个整数个Block
一个split不会包含两个File的Block,不会跨界File边界
Split和Block的关系是一对多的关系
Maptask的个数最终决定于split的长度
十四:以下是strom特点的是()
1:实时性,2:容错机制3:批处理4:高可靠性
Strom是一个分布式的,容错的实时计算系统,strom的特点如下:简单的编程模型,类似于Mapreduce降低了并行批处理的复杂度,strom降低了进行实时处理的复杂性。
可以使用各种编程语言,默认支持clojure,java,ruby和python。要增加其他语言的支持,只需实现一个简单的strom通信协议即可。
容错性,strom会管理工作进程和节点的故障。
水平扩展,计算在多个线程、进程和服务器之间并行进行的。
可靠地消息处理,strom保证每个消息至少完整处理一次,任务处理失败时,它会负责从消息源重试消息。
本地模式,strom有一个本地模式,可以在处理过程中完全模拟strom集群,这让你完全快速进行开发和单元测试。
十五:以下几种模型方法属于判别式模型(Discriminative Model)的有()
1:条件随机场 2:区分度训练
解:常见的判别模型有:
支持向量机
传统神经网络
线性判别分析
线性回归
产生式模型:
高斯
朴素贝叶斯
混合多项式
混合高斯模型
隐马尔科夫模型
十六:大整数845678992357836701转化成16进制的表示,最后两位字符是()
9D
解:701拿出来Mod(16).结果为为13.最后一位为D
十七:已知数据表A中每个元素距其最终位置不远,为了节约时间,应该采取的算法是()
直接插入排序
因为每个数据里最终目标不远,说明数据基本有序,直接插入排序是数据越有序越快,最快时间复杂度可达到O(n),选择排序无论何时都是O(n^2), 快速排序越有序越慢,它要从后到前遍历找比基准小的,时间复杂度达到O(n),堆排序需要不断进行调整,时间复杂度为O(nlog2^n)
十八:下列有关k-means算法说法正确的是:
1:不能自动识别类的个数,随机挑选初始点为中心点
2:初始聚类中心的选择对聚类结果的影响很大
十九:在linux中,file.sh文件的权限为-rw-r--r-x,其对应权限用数值形式表示为()
Linux权限中,第一个指是否是目录,后面分别指对拥有者、所属组,其他人的权限,权限有三位,分别是读,写,执行,-代表0,否则代表1,所以,表示为110 100 101 =6 4 5
二十:设图的相邻矩阵如下:
0 1 1 1 1
1 0 1 0 0
1 1 0 1 1
1 0 1 0 1
1 0 1 1 0
则G的顶点有5个,边有8条
解:这是个无向图
二十一:有一段楼梯台阶有15级,以小明的脚力一步最多只能跨3级,请问他登上这个楼梯有多少种登法。
解:这是一个递归问题,对斐波那契问题的变形,f(15)=f(14)+f(13)+f(12),已知f(1)=1,f(2)=2,f(3)=4
二十二:整数240有几个因数()
解:质数分解,240=2^4*3*5;所以,因数个数(4+1)*(1+1)*(1+1)=20个
二十三:Navie Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()
解:特征变量X的各个维度是类别条件独立随机变量。
二十四:
编程题:有一楼梯共m级,刚开始时你在第一级,若每次只能跨上一级或者二级,要走上m级,共有多少种走法?注:从一级到一级有0种走法。
给定一个正整数int n,请返回一个数,代表上楼的方式数。保证n小于等于100.为了防止溢出,请返回结果Mod 100000007
二十五:
小东和三个朋友一起在楼上抛小球,他们站在楼房的不同层,假设小东占站的楼层距离地面N米,球从他手里自由落下,每次落地后反跳回上一次下落高度的一半,并以此类推知道全部落到地面不跳,求4个小球一共经过多少米?(数字都为整数)
解:利用极限思想
Res=x+2*x*(1/2+1/4+1/8+…………)=3*x
第二套:
单选题
1:在区间[-2,2]里任取2个实数,它们的平方和>1的概率是大约是( 80% )
1-小圆的面积/矩形的面积
2:已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()
K-L变换与PCA变换是不同的概念,PCA的变换矩阵是协方差矩阵,K-L变换的变换矩阵可以有很多种(二阶矩阵、协方差矩阵、总类内离散度矩阵等等)。当K-L变换矩阵为协方差矩阵时,等同于PCA。
解:1:主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小。2:在经主分量分解后,协方差矩阵成为对角矩阵3:主分量是通过求协方差矩阵的特征值得到
3:从根开始按层次(第0层->第1层->第2层)遍历一颗二叉树,需要使用什么辅助数据结构?( queue )
4:Which of the following statements are true?(acd)
A :We can create a binary tree from given inorder and preorder traversal sequences.
B:We can create a binary tree from given preorder and postorder traversal sequences.
C:For an almost sorted array, insertion sort can be more effective than Quicksort.
D:Suppose T(n) is the runtime of resolving a problem with n elements, T(n) = Θ(1) if n = 1; T(n) = 2T(n/2) + Θ(n) if > 1; so T(n) is Θ(n log n).
E:None of the above.
5:下列哪种排序算法是不稳定算法cd
快速排序 堆排序
6:对于一个分布式计算系统来说,以下哪三个指标不能同时完成?abd
1:一致性2:可用性3:区分容错性
7:以下关于PMF(概率质量函数),PDF(概率密度函数),CDF(累积分布函数)描述错误的是()
解:
1:CDF是PDF在特定区间上的积分2:PMF描述的是离散型随机变量在特定取值点的概率3:有一个分布的CDF函数H(x),则H(a)等于P(X<=a)
8:在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是()
解:将负样本重复10次,生成10w样本量,打乱顺序参与分类
9:Hadoop的核心概念之一是map/reduce,关于map/reduce以下描述错误的是( )
解:1:map/reduce是“分而治之”思想的实现模型2:用户不能直接设置map task的数量,而只能通过修改 Input Split的最小值,间接改变map task的数量3:map阶段对输入的数据划分成小块并在各个节点上并行处理,等所有节点的数据都处理完了,转入reduce阶段,对各个节点处理的结果进行合并,最终输出归并后的结果
10:在Logistic Regression 中,如果同时加入L1和L2范数,会产生什么效果()
可以做特征选择,并在一定程度上防止过拟合
11:执行程序
for file
do
tr a-z A-Z < $file > $file
done的结果是( )文件中的小写转换为大写
12:幼儿园10个小朋友排成一列,其中3个小朋友是女孩,求女孩排在一起的概率是( 1/15 )
所有人排列的情况是10! 把三个小女孩看做整体排列是8! 三个小女孩排列是3!
最后结果就是 (8!X3!)/10! 消除8!就是 3!/(10X9) 就是1/15
13:独立部署模式下的spark各角色作用描述正确是( )
1:Driver负责Spark作业的解析、生成Stage并调度Task到Executor上
2:Master是Standalone模式的主控节点,负责接收Client提交的作业,管理Worker
14:下列处理方式中,可达到Spark性能优化是( )
1:默认情况下,shuffle文件数目为map tasks * reduce tasks
2:通过修改spark.default.parallelism参数可调整reduce的数目。通常,reduce数目应设置为core数目的2到3倍
15:执行下列语句后的显示结果是什么?( )
from math import sqrt
print sqrt(3)*sqrt(3) == 3
FALSE
16:Suppose that a Selection Sort of 80 items has completed 32 iterations of the main loop. How many items are now guaranteed to be in their final spot (never to be moved again)? 32
17:设某公路上经过的货车与客车的数量之比为2:1,货车中途停车修理的概率为0.02,客车为0.01,今有一辆汽车中途停车修理,求该汽车是货车的概率( 0.8 )
18:Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()
19:以下代码的输出结果是?
public class B
{
public static B t1 = new B();
public static B t2 = new B();
{
System.out.println("构造块");
}
static
{
System.out.println("静态块");
}
public static void main(String[] args)
{
B t = new B();
}
}
构造块 构造块 构造块 静态块
20:Linux文件权限一共10位长度,分成四段,第三段表示的内容是()。
文件所有者所在组的权限