数理统计笔记[牛客专项练习]

目前移动设备主流的屏幕帧率是每秒(60)帧

下面数据结构能够支持随机的插入和删除操作、并具有较好的性能的是

正确答案: A

链表和哈希表
数组和链表
哈希表和队列
堆栈和双向队列

数组插入删除要移动大量元素,不满足具有较好性能

如果某系统12*5=61成立,则系统采用的是()进制

(1 * n + 2) * 5 = 6 * n + 1
n = 9

在黑盒测试方法中,设计测试用例的主要根据是

正确答案: B

程序内部逻辑
程序外部功能
程序数据结构
程序流程图

黑盒测试是对软件已经实现的功能是否满足需求进行测试和验证,黑盒测试完全不考虑程序内部的逻辑结构和内部特性,只根据程序的需求和功能规格说明,检查程序的功能是否符合它的功能说明

白盒测试又称结构测试、透明盒测试、逻辑驱动测试或基于代码的测试。白盒测试是一种测试用例设计方法,盒子指的是被测试的软件,白盒指的是盒子是可视的,你清楚盒子内部的东西以及里面是如何运作的。"白盒"法全面了解程序内部逻辑结构、对所有逻辑路径进行测试。"白盒"法是穷举路径测试。在使用这一方案时,测试者必须检查程序的内部结构,从检查程序的逻辑着手,得出测试数据。贯穿程序的独立路径数是天文数字。

对于以下代码,

char* p=new char[100];

正确的是 D

p和new出来的内存都在栈上
p和new出来的内存都在堆上
p在堆上,new出来的在栈上
p在栈上,new出来的在堆上

new 出来的对象放在堆中,局部变量放在栈中。

设 q ( n , m )是将正整数 n 划分成最大加数不大于 m 的若干不同正整数之和的划分数,则 q ( n , m )为( )。

数理统计笔记[牛客专项练习]_第1张图片
正确答案: B
递归思想,1)n=1或m=1时,n分成不大于m的正整数的和的划分数只有1一种。2)nm>1时,首先q(n,m-1)中m-1>0为正整数 所以1要排除,这一项意味着把所有将n拆解出的可能中包含m的部分去掉,然后去掉的部分等价于q(n-m,m),这个式子意味着n被默认已经拆出来一个m,然后再让他分解出的整数不大于m。

现在有一个tcp服务端监听了80端口,问最多同时能建立多少连接

正确答案: D

1023
65534
64511
非常多基本和内存大小相关

在大规模的语料中,挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。

正确答案: B

互信息
最大熵
卡方检验
最大似然比

最大熵代表了整体分布的信息,通常具有最大熵的分布作为该随机变量的分布, 不能体现两个词的相关性,但是卡方是检验两类事务发生的相关性。

下面关于ID3算法中说法错误的是()

正确答案: D

ID3算法要求特征必须离散化
信息增益可以用熵,而不是GINI系数来计算
选取信息增益最大的特征,作为树的根节点
ID3算法是一个二叉树模型

ID3算法(Iterative Dichotomiser 3 迭代二叉树3代)是一个由Ross Quinlan发明的用于决策树的算法。可以归纳为以下几点:

  1. 使用所有没有使用的属性并计算与之相关的样本熵值
  2. 选取其中熵值最小的属性
  3. 生成包含该属性的节点
    D3算法对数据的要求:
  4. 所有属性必须为离散量;
  5. 所有的训练例的所有属性必须有一个明确的值;
  6. 相同的因素必须得到相同的结论且训练例必须唯一。

ID3 算法生成的决策树是一棵多叉树,分支的数量取决于分裂属性有多少个不同的取值

执行以下代码

#define SUM(x,y) x+y
int a=3;
int b=2;
a+=a*SUM(a,b)*b;

a的值为: 正确答案: A

16
30
33
39

宏函数SUM只在预编译阶段做预处理工作,即只是简单地进行字符替换而已。

a += a*SUM(a,b)*b
a+= a*a+b*b

如果要得到C选项,宏函数就得这样写:

#define SUM(x, y) ((x)+(y))

N-gram是一种简单有效的统计语言模型,通常n采用1-3之间的值,它们分别称为unigram、bigram和trigram。现有给定训练语料合计三个文档如下:

D1: John read Moby Dick
D2: Mary read a different book,
D3: She read a book by Cher
利用bigram求出句子“John read a book”的概率大约是( )
正确答案: B

1
0.06
0.09
0.0008

2-gram公式
P(s1,s2,s3…) = P(s1)*P(s2|s1)*P(s3|s2)…
john在文章开头的概率:P(john) = 1/3
P(read | John) = 1
P(a|read) = 2/3
P(book|a) = 1/2
P(尾巴|book) = 1/2, book出现两次,其中一次是在句子结尾处
P(“John read a book”) = 1/3 * 1 * 2/3 * 1/2 * 1/2 = 1/18 ≈ 0.06,故选择B

unigram,bigram,trigram,是自然语言处理(NLP)中的问题。父词条:n-gram.
unigram: 单个word P(s1,s2,s3…) = P(s1)*P(s2)*P(s3)…
bigram: 双word
trigram:3 word P(s1,s2,s3…) = P(s1)*P(s2|s1)*P(s3|s1s2)…
比如:
西安交通大学:
unigram 形式为:西/安/交/通/大/学
bigram形式为: 西安/安交/交通/通大/大学
trigram形式为:西安交/安交通/交通大/通大学

下列有关k-mean算法说法正确的是()

正确答案: A D

不能自动识别类的个数,随机挑选初始点为中心点计算
数据数量不多时,输入的数据的顺序不同会导致结果不同
不能自动识别类的个数,不是随机挑选初始点为中心点计算
初始聚类中心的选择对聚类结果的影响很大

B: Kmeans优化目标函数的过程中,两步均是遍历所有的点,累加损失。 因此与数据的输入顺序无关。
D:传统的K-means聚类算法太依赖于聚类数目和初始聚类中心位置的选择了,聚类数目一般要人为设定,这个根据经验来定,至于位置,一般可以选择生成随机数的方法,随机数就比较随意了,如果随机数刚好落在了密度很大的数据区域,本来这个区域是最终可以聚为一类的,可是现在有好几个初始聚类中心落在这里了,那么这个区域就会被强行划分成几类,显然就会造成误检,误检就是,本来不应该形成一类,却形成了。Ref

相关性

Pearson要求连续线性
Spearman只要求单调就可以了,不一定要连续线性。
两个定序测量数据之间也用spearman相关系数,不能用pearson相关系数

正常建立一条TCP连接需要()个步骤,正常关闭一个TCP连接需要()个步骤

正确答案: B

3,3
3,4
4,4
4,3

三次握手 四次挥手

在给定文件中查找与设定条件相符字符串的命令

正确答案: B

gzip
grep
ls
find

一个有偏的硬币,抛了100次,出现1次人头,99次字。问用最大似然估计(ML)和最小均方误差(LSE)估计出现人头的概率哪个大?

正确答案: B

ML=MSE
ML>MSE
ML

解答:相等
数理统计笔记[牛客专项练习]_第2张图片数理统计笔记[牛客专项练习]_第3张图片

在移动设备息屏时,以下哪种情况不一定导致大量耗电

正确答案: D

使用gps导航
信号特别弱
电话通话中
打开过大量应用

编译程序是一种

正确答案: A

翻译程序
目标程序
汇编程序
解释程序

根据TCP/IP协议栈的分层来看HTTP协议工作在哪一层

正确答案: D

数据链路层
网络层
传输层
应用层

数理统计笔记[牛客专项练习]_第4张图片

每台物理计算机可以虚拟出 20 台虚拟机,假设一台虚拟机发生故障当且仅当它所宿主的物理机发生故障。通过 5 台物理机虚拟出100 台虚拟机,那么关于这 100 台虚拟机的故障的说法正确的是:____?

正确答案: C

单台虚拟机的故障率高于单台物理机的故障率
这 100 台虚拟机发生故障是彼此独立的
这100台虚拟机单位时间内出现故障的个数高于100台物理机单位时间内出现故障的个数
无法判断这 100 台虚拟机和 100 台物理机哪个更可靠
如果随机选出 5 台虚拟机组成集群, 那么这个集群的可靠性和 5 台物理机的可靠性相同
可能有一段时间只有 1 台虚拟机发生故障

A:相等
B:一台物理机上的虚拟机不独立
C:由于一台物理机的故障会导致这台物理机虚拟出来的20台虚拟机的故障,所以,基于5台物理机搭建的100台虚拟机故障率肯定高于100台物理机。因此,选项C正确。
F:故障至少20台

若用 ϕ ( n ) \phi(n) ϕ(n)表示欧拉函数,请问: ϕ ( 56 ) \phi(56) ϕ(56)的欧拉函数之积为?

正确答案: A

24
10
15
11

  • 对正整数n,欧拉函数是小于或等于n的正整数中与n互质的数的数目(因此φ(1)=1)。 ϕ \phi ϕ(8)=4,因为1,3,5,7均和8互质。
  • 若m,n互质, ϕ ( m n ) \phi(mn) ϕ(mn)= ϕ ( m ) \phi(m) ϕ(m) * ϕ ( n ) \phi(n) ϕ(n)

ϕ ( 56 ) \phi(56) ϕ(56)= ϕ ( 7 ) \phi(7) ϕ(7) * ϕ ( 8 ) \phi(8) ϕ(8) = 6 * 4 = 24

移动端开发中常用的数据库是

正确答案: C

MySQL
Oracle
SQLite
MongoDB

一个合法的表达式由()包围,()可以嵌套和连接,如(())()也是合法 表达式;现在有 6 对(),它们可以组成的合法表达式的个数为____

正确答案: D

15
30
64
132
256
360

Ref
C(12,6)-C(12,5)=132
解释:
卡特兰数列。
我们可以把左括号看做1,右括号看做0,这些括号的组合就是01的排列
这里需要满足从第一个数开始的任意连续子序列中,0的个数不多于1的个数,也就是右括号的个数不多于左括号的个数。
假设我们不考虑这个限制条件,那么全部的01排列共有C(2n,n)种,也就是一半0一半1的情况。现在我们想办法把其中不符合要求的数量去掉。在任何不符合条件的序列中,找出使得0的个数超过1的个数的第一个0的位置,然后在导致并包括这个0的部分序列中,以1代替所有的0并以0代表所有的1。结果总的序列变成一个有(n+1)个1和(n-1)个0的序列。而且这个过程是可逆的,也就是说任何一个有(n+1)个1和(n-1)个0构成的序列都能反推出一个不符合条件的序列,所以不符合条件的序列个数为C(2n,n-1)
所以合法的排列数有C(2n,n)-C(2n,n-1)= C(12,6)-C(12,5)=132

excel工作簿a中有两列id、age,工作簿b中有一列id,需要找到工作薄b中id对应的age,可用的函数包括

正确答案: A B

index+match
vlookup
hlookup
find
if
like

现在有M个桶,每桶都有N个乒乓球,乒乓球的颜色有K种,并且假设第i个桶第j种颜色的球个数为Cij, 比例为Rij=Cij/N,现在要评估哪个桶的乒乓球颜色纯度最高,下列哪种算法和描述是合理的?

正确答案: B C F

∑(N/K-Cij)(N/K-Cij)越小越纯
-∑CijLOG(Rij)越小越纯
∑(1-Rij
Rij)越小越纯

∑(1-Rij)(1-Rij)越小越纯
∑(1-Rij)^2 越小越纯
-∑RijLOG(Rij)越小越纯

信息熵 Ent=- ∑ R_{ij}log R_{ij}, Ent 的值越小 , 则纯度越高 .

基尼系数 Gini=1- ∑ R_ij^2, Gini 越小 , 则纯度越高 .\则DE选项 ∑ (1-R_{ij})^2 = ∑ (1-2R_{ij}+R_{ij}^2) = ∑ 1-2 ∑ R_{ij}+ ∑ R_{ij}^2 = K-2+ ∑ R_{ij}^2 越大越纯.

信息熵 H ( U ) = − ∑ i = 1 n p i log ⁡ p i H(U) =-\sum_{i = 1}^{n} p_{i} \log p_{i} H(U)=i=1npilogpi

基尼系数:
G ( p ) = ∑ k = 1 K p k ( 1 − p k ) = 1 − ∑ k = 1 K p k 2 G(p)=\sum_{k=1}^{K} p_{k}\left(1-p_{k}\right)=1-\sum_{k=1}^{K} p_{k}^{2} G(p)=k=1Kpk(1pk)=1k=1Kpk2
Gini指数越小表示集合中被选中的样本被参错的概率越小,也就是说集合的纯度越高,

在这里插入图片描述

正确答案: D

f ’ (x0)
-f ’ (x0)
2 f ’ (x0)
-2 f ’ (x0)

对立的两方争夺一个价值为1的物品,双方可以采取的策略可以分为鸽子策略和鹰策略。如果双方都是鸽子策略,那么双方各有1/2的几率获得该物品;如果双方均为鹰策略,那么双方各有1/2的概率取胜,胜方获得价值为1的物品,付出价值为1的代价,负方付出价值为1的代价;如果一方为鸽子策略,一方为鹰策略,那么鹰策略获得价值为1的物品。在争夺的结果出来之前,没人知道对方是鸽子策略还是鹰策略。当选择鸽子策略的人的比例是某一个值时,选择鸽子策略和选择鹰策略的预期收益是相同的。那么该值是( )。

正确答案: C

0.2
0.4
0.5
0.7
0.8

Ref
选鸽概率设为P 鹰为1-P。
当选择鸽时,对手是鸽的概率为P,此时赢的概率为1/2,获得价值为1,输的概率为1/2,失去价值为0,则预期收益为PP(1/21+1/20);对手为鹰的概率为1-P,此时只有一个结果,预期收益为0。
当选择鹰时,对手为鸽的概率为P,此时只有一个结果,鹰获得价值为1,则预期收益为(1-P)P1;对手为鹰的概率为1-P,此时赢的概率为1/2,获得价值为0,输的概率为1/2,失去价值为1,则预期收益为(1-P)(1-P)(1/20+1/2*(-1))。
所以得到等式PP(1/21+1/20)=(1-P)P1+(1-P)(1-P)(1/20+1/2*(-1))解得 P=1/2

从sd卡加载一张图片为bitmap并显示到屏幕上的一个view,该view占用的内存主要和什么因素有关

正确答案: D

图片文件大小及压缩格式
图片原始分辨率
view的尺寸
bitmap分辨率和颜色位数

bitmap必须包含的字段中(图中第二列semioptional+No部分),大小(第三列)可变的是color table(决定颜色位数)和pixel array(决定分辨率)
数理统计笔记[牛客专项练习]_第5张图片

以下表的设计,最合理的是

正确答案: A

学生{id,name,age} ,学科{id,name} 分数{学生 id,学科 id,分数}
学生{id,name,age} ,分数{学生 id, 学科id, 学科 name , 分数}
分数{学生id, 学生 name,学生age, 学科id,学科名称, 分数, }
学科{id,name},分数{学生id,学生姓名,学生age,学科 id,分数}

数据库的第一范式、第二范式、第三范式:
第一范式(确保每列保持原子性)即每列不再需要拆分
第二范式(确保表中的每列都和主键相关)
第三范式(确保每列都和主键列直接相关,而不是间接相关)

你可能感兴趣的:(牛客专项练习,数据分析)