1、在一个文档中,文档的关键词能够反映文档的主题,关键词自动标注包括关键词抽取、关键词分配和社会标签推荐,下列哪些选项属于关键词抽取的方法( )
A、多标签分类方法 B、基于图的无监督方法 C、基于标注图的方法 D、基于分类的有监督方法
答案:B D
关键词选取的方法主要有两种:无监督的方法,利用候选关键词的统计性质,对他们排序,选取最高的若干个作为关键词;有监督的方法,将关键词抽取问题转换为判断每个候选关键词是否为关键词的二分类问题,他需要一个已经标注关键词的文档集合训练分类模型。
多标签分类方法是关键词分配的方法。
基于标注图的方法和基于内容的方法是社会标签推荐的方法。
具体可见清华大学博士论文《基于文档主题结构的关键词抽取方法研究》
2、在自然语言处理中,基于机械分词的方法为( )
A、最大匹配方法 B、基于字标注的方法 C、最佳匹配方法 D、最少切分方法
答案: A C D
分词方法大致可分为三大类:基于字符串匹配的分词方法(机械分词方法)、基于统计的分词方法和基于理解的分词方法。
机械分词方法主要有正向最大匹配算法、逆向最大匹配算法、双向最大匹配算法和最少切分算法。
3、下列关于主动学习说法正确的是( )
A、主动学习是一种无监督学习方法 B、它适合数据丰富、但类别号稀缺或难以获得的情况。
C、学习算法可以主动地向用户询问类标号 D、主动学习的目标是使用尽可能少的有标号的实例来获得最高准确率。
答案: B C D
主动学习方法:有时候,有类标号的数据比较稀少而没有类标号的数据相当丰富,但是对数据进行人工标注有些麻烦,此时学习算法可以主动地提出一些标注请求,将一些经过筛选的数据提交给专家进行标注。
故主动学习并不属于监督学习、无监督学习和半监督学习的范畴,因为主动学习过程中指的是主动提出标注请求,也就是需要一个外在的能够对其请求进行标注的实体(通常是相关领域专业人员),即主动学习是交互进行的。
而半监督学习指的是学习算法不需要人工干预,基于自身对未标记数据加以利用。
4、决策树是一种自顶向下的递归树归纳算法,下列哪些是决策树学习算法?( )
A、ID3 B、C4.5 C、CART D、MD5
答案:A B C
决策树学习算法主要有:ID3算法、C4.5算法和CART算法。
MD5英文全称是Message Digest Algorithm(信息摘要算法),是计算机安全领域广泛应用的一个压缩加密的哈希算法。
5、提高类不平衡数据分类准确率的方法中哪个不涉及对分类模型结构的改变?( )
A、过采样 B、欠采样 C、阈值移动 D、组合技术
答案: D
提高类不平衡数据的分类准确率一般方法包括(1)过采样(2)欠采样(3)阈值移动(4)组合技术
过采样与欠采样改变训练集的分布
阈值移动影响对新数据分类时模型如何决策
6、在特征选择过程中,我们希望得到什么样的特征?( )
A、对噪声敏感的特征 B、容易提取的特征 C、对分区不同类别的模式有效的特征 D、对不相关变形保持不变的特征
答案: B C D
7、下列属于特征选择方法的是( )
A、 模拟退火算法 B、序列浮动算法 C、分支限界算法 D、双向搜索算法
答案:A B C D
引用博客内容:https://blog.csdn.net/zhangweijiqn/article/details/9109995
8、关于K均值聚类,下面说法正确的是( )
A、算法快速,简单 B、当数据量变大,算法开销也不会变的非常大
D、聚类中心点可变 C、时间复杂度接近于线性
答案:ACD
K-Means是个简单实用的聚类算法,这里对K-Means的优缺点做一个总结。
K-Means的主要优点有:
1)原理比较简单,实现也是很容易,收敛速度快。
2)聚类效果较优。
3)算法的可解释度比较强。
4)主要需要调参的参数仅仅是簇数k。
K-Means的主要缺点有:
1)K值的选取不好把握(改进:可以通过在一开始给定一个适合的数值给k,通过一次K-means算法得到一次聚类中心。对于得到的聚类中心,根据得到的k个聚类的距离情况,合并距离最近的类,因此聚类中心数减小,当将其用于下次聚类时,相应的聚类数目也减小了,最终得到合适数目的聚类数。可以通过一个评判值E来确定聚类数得到一个合适的位置停下来,而不继续合并聚类中心。重复上述循环,直至评判函数收敛为止,最终得到较优聚类数的聚类结果)。
2)对于不是凸的数据集比较难收敛(改进:基于密度的聚类算法更加适合,比如DESCAN算法)
3)如果各隐含类别的数据不平衡,比如各隐含类别的数据量严重失衡,或者各隐含类别的方差不同,则聚类效果不佳。
4) 采用迭代方法,得到的结果只是局部最优。
5) 对噪音和异常点比较的敏感(改进1:离群点检测的LOF算法,通过去除离群点后再聚类,可以减少离群点和孤立点对于聚类效果的影响;改进2:改成求点的中位数,这种聚类方式即K-Mediods聚类(K中值))。
6)初始聚类中心的选择
9、以下不是SVM核函数的是( )
A、sigmoid核函数 B、径向基函数 C、logistic核函数 D、多项式核函数
答案:C
根据周志华的书《机器学习》第六章p128的核函数定理:满足 Mercer 定理的任意核函数必须是连续、对称的,核矩阵是 ( 半) 正定的、没有非负特征值。logistic函数部分是核函数,部分不是核函数。
SVM经典的核函数 | |
核函数名称 | 核函数表达式 |
线性核函数(Linear) | K(x,y)=x*y |
多项式核函数(Polynomial) | K(x,y)=(1+x*y)^d |
径向基核函数(RBF) | K(x,y)=e^(-(||x-y||^2/2*a^2)) |
Sigmoid核 | K(x,y)=arctan(beta*x*y+theta) |
拉普拉斯核函数 | K(x,y)=e^(-(||x-y||/2*a^2)) |
还可以通过核函数的组合得到新的核函数
10、下列属于线性分类器最佳准则的有( )
A、支持向量机 B、Fisher准则 C、贝叶斯分类 D、感知准则
答案:A B D
线性分类器三种最优准则:
1.Fisher准则:根据两类样本一般类内密集, 类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开。该种度量通过类内离散矩阵Sw和类间离散矩阵Sb实现。
2.感知准则:准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。
3.支持向量机:基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大, 它的基本出发点是使期望泛化风险尽可能小
11、下列方法不能直接对文本分类的是( )
A、决策树 B、支持向量机 C、KNN D、Kmeans
答案:D
D是聚类方法
12、用户登录成功后就会启动/etc/passwd文件配置的shell程序, linux的标准shell是bash, bash首先读取的文件是( )
A、/etc/profile B、 /etc/inittab C、.bash_profile D、/etc/basher
答案:A C
13、
下列函数的功能是( )
void f(int *p,int n)
{
int s0,s1,i,j,t,m;
i=j=*p;
s0=s1=0;
for(m=0;mi)
{
i=*(p+m);
s0=m;
}
else if(*(p+m)
A、将p所指向的含有n个元素的一维数组中第一个数和最后一个数互换位置
B、将p所指向的元素和p+n指向的元素互换位置
C、将p所指向的含有n个元素的一维数组中最大数和最小数互换位置
D、将*p和*(p+n-1)互换位置
答案:C
14、
有如下函数定义,
void fun(char *t,char *s)
{
while(*t!='\0')
t++;
while((*t++=*s++)!='\0');
}
char s1[10]="123",s2[10]="9978";
则和函数调用fun(s1,s2)等价的是( )
A、strcat(ss,aa) B、strcpy(ss,aa) C、strcmp(ss,aa) D、strlen(ss,aa)
答案: A
15、测试员小李负责监控除了应用程序前端的性能指标以外,也要监控服务器硬件的资源使用情况,那么他需要监控的服务器硬件资源包括:( )
A、中央处理器 B、光盘 C、内存 D、磁盘I/O
答案:A C D
16、调查乒乓球运动对8-9岁年龄阶层人群的爱好情况。通过“年龄”、“性别”和“爱好”这三个查询条件对进行查询:“年龄”按“8岁,9岁”查询;根据“性别”按男,女”查询;根据“爱好”按“喜欢,不喜欢”查询。利用正交表设计测试用例,可以得出( )个测试用例。
A、4 B、5 C、7 D、8
答案:A
测试用例=变量数*(每个变量的取值数-1)+1=3*(2-1)+1
17、MySQL服务器通过权限表来控制用户对数据库的访问,下列权限表不受GRANT和REVOKE语句的影响的是( )
A、user权限表 B、db权限表 C、host权限表 D、table_priv权限表
答案:C
参考:https://www.cnblogs.com/Csir/p/7889953.html
https://www.cnblogs.com/moss_tan_jun/p/7862624.html
18、自顶向下语法分析方法包括:( )
A、回溯 B、递归子程序法 C、分支法 D、LL(1)分析法
答案:B D
自顶向下的语法分析方法:
(1)递归子程序法(2)LL(1)分析法
自底向上的分析技术 有:
( 1 )简单优先分析法
( 2 )算符优先分析法
( 3 )优先函数
( 4 ) LR 分析法
19、假设机器M的时钟频率为200MHz,程序P在机器M上的执行时间为12s。对P优化时,将其所有乘4指令都换成一条左移两位的指令,得到优化后的程序P'。若在M上乘法指令的CPI为102,左移指令的CPI为2,P的执行时间是P'执行时间的1.2倍,则P中的乘法指令的条数( )。
A、200万 B、400万 C、800万 D、1600万
答案:B
CPI( Cycles Per Instruction)表示每条计算机指令执行所需的时钟周期,有时简称为指令的平均周期数。
一条乘法指令换成左移指令减少的时间为:(102-2)/(200*10^6)=0.5*10^-6
p'的执行时间为12/1.2=10s;
即p'比p少了两秒
所以替换了2/(0.5*10^-6)=400万条
20、校园网通过windows系统的DHCP服务向教务处每台计算机动态分配IP地址,关于DHCP服务租约描述正确的是( )
A、默认租期8天 B、租期过半客户端向服务器更新租约 C、租约到期客户端向服务器更新租约 D、创建作用域时可以设置无线租期
答案:A B
21、已知(1)电话线路带宽B=3000Hz,(2)S/N=30db,B=4000Hz,请分别根据奈斯科特准则与香农定理,求在无噪声信道下与有限带宽,有热噪声信道下最大数据传输速率分别为 ( )
A、6Kbps B、5Kbps C、40Kbps D、42Kbps
答案:A C
●奈奎斯公式:用于理想低通信道
C = 2W×log2 M
C = 数据传输率,单位bit/s
W = 带宽,单位Hz
M = 信号编码级数
奈奎斯公式为估算已知带宽信道的最高数据传输速率提供了依据。
●非理想信道
实际的信道上存在损耗、延迟、噪声。损耗引起信号强度减弱,导致信噪比S/N降低。延迟会使接收端的信号产生畸变。噪声会破坏信号,产生误码。持续时间0.01s的干扰会破坏约560个比特(56Kbit/s)
△香农公式:有限带宽高斯噪声干扰信道
C = W log2 (1+S/N) S/N: 信噪比
例:信道带宽W=3.1KHz,S/N=2000,则
C = 3100*log2(1+2000) ≈ 34Kbit/s
即该信道上的最大数据传输率不会大于34Kbit/s
22、某无向非连通图中有n个结点,若该无向图也可以看成是一个森林,且该森林中有m棵树,则该无向图中必有( )条边。
A、m-1 B、n-m C、n-1 D、n+m
答案:B
如果某棵树中有N0个结点,K0条边,则N0 = k0 + 1
设森林中有m棵树,其结点数分别为n1,n2,n3,.,nm
相应地,各棵树的边数分别为k1,k2,k3,...km
显然:n1 = k1 + 1,n2 = k2 + 1,.,nm = km + 1 (1)
按照题设:
n1 + n2 + n3 +.+ nm = N (2)
k1 + k2 + k3 +.+ km = K (3)
将(1) 代入(2) 得:
(k1 + 1) + (k2 + 1) + (k3 + 1) + .+ (km + 1) = N
即:
k1 + k2 + k3 + ...+ km + 1 + 1 +.+ 1 = N
按照(2):
K+ m= N
于是m = N - K
K=N-m
23、n*n的对称矩阵A,将其下三角和对角线元素压缩存储在一维数组B中(下标均从1开始),则A[i][j](i<=j)在B中的下标为()。
A、i*(i+1)/2+j B、i*(i-1)/2+j C、j*(j+1)/2+i D、j*(j-1)/2+i
答案:D
24、假设空串不是任意串的字串,则”DataStruct”的子串个数为( )。
A、9 B、10 C、45 D、55
答案:D
想像向 n 个字符中间插入两片木板,这两片木板之间的即为原串的一个子串。
总共有 n + 1 个空位可以插,第一个木板插入后,第二个还有 n 个空位。
所以共有 n(n+1) 种插法,又由于两片木板交换顺序后,子串还是同一个子串,所以子串数量应为 n(n+1)/2
25、从一个栈顶指针为top的带头结点的链栈中出栈一个元素data,应执行( )。
A、top->next=top->next->next; data=top->next->data; free(top->next);
B、data=top->next->data; free(top->next); top->next=top->next->next;
C、p=top->next; top->next=p->next; data=p->data; free(p);
D、p=top->next; top->next=top->next->next; free(p); data=p->data;
答案:C
链栈:栈顶指针指向链表的头结点 top->data = null; top -> next = pHead
26、3n2与25n(n>8时)的阶关系为:( )
A、低阶 B、高阶 C、等阶 D、无法确定
答案:A
Lim(A/B) 的极限
(1)0就是A是B高阶无穷小
(2)为无穷就说A是B的低阶无穷小
(3)为1就是等价
(4)为常数不等于1就是同阶无穷小.
27、利用回溯算法求解{1,2,3,4}的所有置换数为:( )
A、12 B、24 C、36 D、20
答案:B
直接排列数A(4,4)
28、从给定的n个数中,设计算法在最坏情况下最多进行( )次比较,可找出给定n个数的最大和最小值。
A、3n/2-2 B、3n/4-2 C、2n/3-2 D、3n/3-2
答案:A
29、函数渐进形式表示法包括:( )
A、低阶 B、高阶 C、等阶 D、中阶
答案:A B C