K均值聚类的核心目标是将给定的数据集划分为K个簇,并给出每个数据对应的簇中心点。()
正确
其次,根据原文,这个图的纵坐标是该层的梯度向量的模,越大表示学习速率越快,即图上写的speed of learning。
因此,梯度消失导致前面的隐藏层比后面的隐藏层学习得慢,因此,最下面的曲线学习速率最慢,是第一层隐藏层,以此类推。
由于反向传播算法进入起始层,学习能力降低,这就是梯度消失。换言之,梯度消失是梯度在前向传播中逐渐减为0, 按照图标题所说, 四条曲线是4个隐藏层的学习曲线, 那么第一层梯度最高(损失函数曲线下降明显), 最后一层梯度几乎为零(损失函数曲线变成平直线). 所以D是第一层, A是最后一层。
平方损失函数适合输出为连续的场景,而交叉熵损失则更适合二分类或多分类的场景
假设把整数关键字K Hash到有N个槽的散列表,以下哪些散列函数比较合适()
H(K)=k/N
H(k)=k mod N
H(k)=1
H(k)=(k+Random(N))mod N,其中Random(N)返回0到N-1的整数
D是错误的,Random(N)返回0-N的整数,在查找的时候会出现问题,再次使用Random(N)不一定和上次存储产生的数字一样,这样子就会发生找不到的情况,而且题库还有道题与这个题目一样的,答案是B
Precision= tp / (tp + fp), Recall = tp / (tp + fn)
链接:https://www.nowcoder.com/questionTerminal/5a4a4d5e20c14176bc51f0beaf59e0e9
来源:牛客网
已知表t
est(name)的记录如下,
tom
tom_green
tomly
lily
代码select * from test where name rlike 'tom.*'的结果有几条记录C
1
2
3
0
rlike和like差不多,但它支持正则,.*表示匹配n个字符
批规范化(Batch Normalization)的好处都有啥?A
让每一层的输入的范围都大致固定
它将权重的归一化平均值和标准差【是对数据进行归一化,而不是权重】
它是一种非常有效的反向传播(BP)方法
这些均不是
一幅数字图像是(B)
一个观测系统
一个有许多像素排列而成的实体
一个2-D数组中的元素
一个3-D空间的场景
容斥原理(先容后斥):至少甲+至少 乙 + 至少 丙-(至少甲乙+至少甲丙+至少乙丙 )+至少甲 乙丙 = 50-X
40+36+30-(28+26+24)+20=50-X
X = 2;
现在在hadoop集群当中的配置文件中有这么两个配置,请问假如集群当中有一个节点宕机,主节点namenode需要多长时间才能感知到?
26秒
34秒
30秒
20秒
dfs.heartbeat.interval意思是:datanode会按照此间隙(单位是s)向namenode发送心跳,默认发送10次。
heartbeat.recheck.interval意思是:namenode按照此间隙(单位是ms)检查datanode的相关进程,默认检查2次
HDFS集群的datnaode掉线超时时长的计算公式为: timeout = 10 * dfs.heartbeat.interval + 2 * heartbeat.recheck.interval,不过heartbeat.recheck.interval的单位是ms,dfs.heartbeat.interval的单位是s (10*3)s+(2*2000)ms=34s
基于统计的分词方法为()
正向最大匹配法
逆向最大匹配法
最少切分
条件随机场
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
以上三种是机械分词方法:
条件随机域(场)(conditional random fields,简称 CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。
条件随机场(CRF)由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,基于统计学,可以作为一种分词方法
目前的分词方法归纳起来有3 类:
第一类是基于语法和规则的分词法。其基本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到的精确度远远还不能令人满意, 目前这种分词系统还处在试验阶段。
第二类是机械式分词法(即基于词典)。机械分词的原理是将文档中的字符串与词典中的词条进行逐一匹配, 如果词典中找到某个字符串, 则匹配成功, 可以切分, 否则不予切分。基于词典的机械分词法, 实现简单, 实用性强, 但机械分词法的最大的缺点就是词典的完备性不能得到保证。据统计, 用一个含有70 000 个词的词典去切分含有15 000 个词的语料库, 仍然有30% 以上的词条没有被分出来, 也就是说有4500 个词没有在词典中登录。
第三类是基于统计的方法。基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合, 相邻的字同时出现的次数越多, 就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映它们成为词的可信度。
最大匹配是指以词典为依据,取词典中最长单词为第一个次取字数量的扫描串,在词典中进行扫描,这是基于词典分词的方法
1.正向最大匹配法
2.逆向最大匹配法
3.最少切分法:使每一句中切出的词数最小,这也是基于词典分词的方法
条件随机场是一个基于统计的序列标记和分割的方法,属于基于统计的分词方法范畴。它定义了整个标签序列的联合概率,各状态是非独立的,彼此之间可以交互,因此可以更好地模拟现实世界的数据.
下列哪个不属于CRF模型对于HMM和MEMM模型的优势( )
特征灵活
速度快
可容纳较多上下文信息
全局最优
CRF 的优点:特征灵活,可以容纳较多的上下文信息,能够做到全局最优
CRF 的缺点:速度慢
链接:https://www.nowcoder.com/questionTerminal/88228d860ec54e0cba0abb528b797767
来源:牛客网
Apriori算法在机器学习和数据挖掘中被广泛使用,已知有1000名球迷看奥运会,分为AB两队,每队各500人,其中A队有500人看了乒乓球比赛,同时又有450人看了羽毛球比赛;B队有450人看了羽毛球比赛,如下表所示:
那么 乒乓球→羽毛球的支持度、置信度和提升度分别是( )
0.45 0.9 1
P(X,Y)=两者都喜欢的有450在HMM中,如果已知观察序列和产生观察序列的状态序列,那么可用以下哪种方法直接进行参数估计()
EM算法
维特比算法
前向后向算法
极大似然估计
EM算法: 只有观测序列,无状态序列时来学习模型参数,即Baum-Welch算法
维特比算法: 用动态规划解决HMM的预测问题,不是参数估计
前向后向:用来算概率
极大似然估计:即观测序列和相应的状态序列都存在时的监督学习算法,用来估计参数
故应选D
(参考李航博士《统计学习方法》)
书架上有编号为1-19的19本书,从中拿5本,问5本编号都不相邻的拿法有多少种?
2002
3003
知识点:相邻问题用隔板法+逆向思维
详细说明:考虑要吧5本新书放回14本旧书中,新书不可以相邻,显然用隔板发,15个空位,选择5个位插入即可,有C 15 5 种方法
半调输出技术可以()
改善图像的空间分辨率
改善图像的幅度分辨率
利用抖动技术实现
消除虚假轮廓现象
半调输出技术牺牲空间分辨率以提高幅度分辨率。
解决隐马模型中预测问题的算法是?D
前向算法
后向算法
Baum-Welch算法
维特比算法
评估问题:前向后向算法,是概率计算方式,即给定一个模型,通过求某固定观测序列的概率评估模型好坏选出最优模型;
学习问题:Baum-Welch算法,模型参数估计,主要通过EM无监督(只有观测序列,对数似然评估)方法训练;
解码问题:维特比算法,序列预测,给定模型和输出序列,求最可能产生该输出序列的输入状态序列。
准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量,下面关于召回率描述正确的是( )
衡量的是提取出的正确信息多少是准确的
召回率 = 提取出的正确信息条数 / 提取出的信息条数
召回率 = 提取出的正确信息条数 / 样本中相关的信息条数
召回率 = 提取出的正确信息条数 / 样本中总的信息条数
下列关于分类器的说法中不正确的是(C)
SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,属于结构风险最小化
Naive Bayes是一种特殊的Bayes分类器,其一个假定是每个变量相互条件独立。
Xgboost是一种优秀的集成算法,其优点包括速度快、对异常值不敏感、支持自定义损失函数等等
随机森林中列采样的过程保证了随机性,所以就算不剪枝,也不容易出现过拟合。
随机森林不需要剪枝,因为本类就很大方差,防止过拟合
GBDT核心在于每一棵树学的是之前所有树的结论和的残差,残差是一个加预测值后能得到真实值得累加量,xgboost和GBDT差不多,不过还支持线性分类器
xgboost可以自定损失函数,速度很快,但是对异常值很敏感
从使用的主要技术上看,可以把分类方法归结为哪几种类型
规则归纳方法
贝叶斯分类方法
决策树分类方法
基于距离的分类方法
从使用技术上来分,可以分为四种类型:基于距离的分类方法、决策树分类方法、贝叶斯分类方法和规则归纳方法。基于距离的分类方法主要有最邻近方法;决策树方法有ID3、C4.5、VFDT等;贝叶斯方法包括朴素贝叶斯方法和EM算法;规则归纳方法包括AQ算法、CN2算法和FOIL算法。
假设我们有一个如下图所示的隐藏层。隐藏层在这个网络中起到了一定的降纬作用。假如现在我们用另一种维度下降的方法,比如说主成分分析法(PCA)来替代这个隐藏层
那么,这两者的输出效果是一样的吗?
是
否
PCA降维的特点在于使用矩阵分解求特征值的方式,提取的是数据分布方差比较大的方向,提取的是主要成分;hidden layer主要是点乘+非线性变换,目的是特征的提取,转换
整数240有几个因数()
36
54
20
28
先将240因式分解,得到
240=(2^4)*(3^1)*(5^1),
在选择因子的时候可采用x=2^m*3^n*5^k;
而m,n,k各有5(4+1),2(1+1),2(1+1)种选法,且相互独立,故一共有5*2*2=20个因子。
Zookeeper 对节点的 watch 监听通知是永久的吗?
是
不是
zookeeper的监听是暂时的,每次监听发生变化后,都得重新进行监听。
一个watch事件是一个一次性的触发器,当被设置了watch的数据发生了改变的时候,服务器会讲这个改变发送给客户端。如果是永久监听,那么数据的频繁变动会使得服务器压力变大
下面关于支持向量机(SVM)的描述错误的是( )?
是一种监督式学习的方法
可用于多分类的问题
是一种生成式模型
支持非线性的核函数
判别式模型(Discriminative Model)是直接对条件概率p(y|x;θ)建模。
常见的判别式模型有 线性回归模型、线性判别分析、支持向量机SVM、神经网络等。
生成式模型(Generative Model)则会对x和y的联合分布p(x,y)建模,然后通过贝叶斯公式来求得p(yi|x),然后选取使得p(yi|x)最大的yi,
常见的生成式模型有 隐马尔可夫模型HMM、朴素贝叶斯模型、高斯混合模型GMM、LDA等。
判别式模型:
线性回归,逻辑回归,线性判别分析,SVM,CART,神经网络,高斯过程,条件随机场
生成式模型:
朴素贝叶斯,K近邻,混合高斯模型
下面哪项操作能实现跟神经网络中Dropout的类似效果?
Boosting
Bagging
Stacking
Mapping
典型的神经网络其训练流程是将输入通过网络进行正向传导,然后将误差进行反向传播,Dropout就是针对这一过程之中,随机地删除隐藏层的部分单元,进行上述过程。步骤为:1)随机删除网络中的一些隐藏神经元,保持输入输出神经元不变;2)将输入通过修改后的网络进行前向传播,然后将误差通过修改后的网络进行反向传播;3)对于另外一批的训练样本,重复上述操作。他的作为从Hinton的原文以及后续的大量实验论证发现,dropout可以比较有效地减轻过拟合的发生,一定程度上达到了正则化的效果。A:Boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数。B:bagging同样是弱分类器组合的思路,它首先随机地抽取训练集(training set),以之为基础训练多个弱分类器。然后通过取平均,或者投票(voting)的方式决定最终的分类结果。因为它随机选取训练集的特点,Bagging可以一定程度上避免过渡拟合(overfit)。C:stacking:它所做的是在多个分类器的结果上,再套一个新的分类器。这个新的分类器就基于弱分类器的分析结果,加上训练标签(training label)进行训练。一般这最后一层用的是LR。D:Sammon Mapping降维算法。
Bagging和Boosting的区别:
1)样本选择上:
Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。
Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
2)样例权重:
Bagging:使用均匀取样,每个样例的权重相等
Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。
3)预测函数:
Bagging:所有预测函数的权重相等。
Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。
4)并行计算:
Bagging:各个预测函数可以并行生成
Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。
5)bagging是减少variance,而boosting是减少bias
假设你需要调整超参数来最小化代价函数(cost function),会使用下列哪项技术?
穷举搜索
随机搜索
Bayesian优化
都可以
《同义词词林》的词类分类体系中,将词分为大类、种类、小类,下列说法正确的是()
大类以小写字母表示
小类以大写字母表示
中类以阿拉伯数字表示
中类有94个
大类用大写字母表示,中类用小写字母表示,小类用阿拉伯数字表示。
京东仓库中对某种商品进行合格性检验,已知这种商品的不合格率为0.001,即1000件商品中会有一件次品。现有现有一种快速检验商品方法,它的准确率是0.99,即在商品确实是次品的情况下,它有99%的可能抽检显示红色。它的误报率是5%,即在商品不是次品情况下,它有5%的可能抽检显示红色。现有有一件商品检验结果为红色,请问这件商品是次品的可能性有多大?
已知 : P(次品)= 0.001, P(红|次品)= 0.99, P(红|正品) = 0.05
则,
P(正品)=1 - 0.001 = 0.999,
P(红色且次品) = P(红|次品) x P(次品)
P(红色且正品) = P(红|正品) x P(正品)
P(红) = P(红色且次品) + P(红色且正品)=0.99x0.001 + 0.05x0.999=0.05094
根据贝叶斯公式,
P(次品|红)= P(红|次品) x P(次品) / P(红)= 0.99 x 0.001 / 0.50094 = 0.02
图像中虚假轮廓的出现就其本质而言是由于()
图像的灰度级数不够多造成的
图像的空间分辨率不够高造成
图像的灰度级数过多造成的
图像的空间分辨率过高造成
五个球从盒子里拿出来,打乱顺序放回去,均不在原位的排列数是多少()
36
44
32
错排公式:
D(n) = (n-1) * ( D(n-1) + D(n-2) ),n>=3
且:D(1) = 0 , D(2) = 1
已知中国人的血型分布约为A型:30%,B型:20%,O型:40%,AB型:10%,则任选一批中国人作为用户调研对象,希望他们中至少有一个是B型血的可能性不低于90%,那么最少需要选多少人?
下面的颜色空间表示中,能较好的分离图像亮度和色度信息的是( )?
Lab
RGB
HSV
CMY
硬币游戏:连续扔硬币,直到 某一人获胜,A获胜条件是先正后反,B获胜是出现连续两次反面,问AB游戏时A获胜概率是?
F 考虑先抛两次,共4种情况:正正,正反,反正,反反;
正反 A胜,反反 B胜;
正正 情况下,接着抛,如果是正,游戏继续;如果是反,A胜。所以这种情况下最终也是A胜。
反正 情况下也是类似的,最终也是A胜。
所以A得胜率是3/4.
链接:https://www.nowcoder.com/questionTerminal/20ea182d3b824467bac9b273aec54ff0
来源:牛客网
现有一 1920*1080 的单通道图像,每个像素用 float32 存储,对其进行 4 个 3*3 核的卷积(无 padding),卷积核如下:
复制代码
1 2 3 |
|
若原图像由于量化问题出现了 100 个 INFINITY,而其他的值都在(-1,1)区间内,则卷积的结果至少有多少个 NaN?()
256
284
296
324
四个角落,每个角落25个inf对称着贴着边,那么第一个filter的map无nan,第二个25+25+21+21,第三个同第二个,第四个25+25+25+25,共100+92+92
你有一个3X3X3的立方体。你现在在正面左上的顶点,需要移动到对角线的背面右下的顶点中。每次移动不限距离,但只能从前至后、从左至右、从上至下运动,即不允许斜向或后退。有多少种方法?
总共需要走9步,其中选择三步为从前至后,三步为 从左至右、三步为从上至下。即为C(9,3)*C(6,3)
假如你用logistic Regression 算法去预测用户在网上的购买项目,然而,当你在新的用户集上验证你的假设时,你发现预测值有很大的偏差。并且你的假设在训练集上表现也很差,下面那些步骤你应该采纳,选择出正确的选项()
尝试着减小正则项 λ
尝试增加交叉特征
减小样本量
尝试更小的测试集或者特征
欠拟合:训练误差和验证误差都很大。
解决:增加特征项;增加模型复杂度,如使用核函数;减小正则化系数;集成学习方法。
欠拟合是指模型在训练集、验证集和测试集上均表现不佳的情况;
过拟合是指模型在训练集上表现很好,到了验证和测试阶段就大不如意了,即模型的泛化能力很差
解决过拟合(高方差)的方法
1. 增加训练数据数
• 发生过拟合最常见的现象就是数据量太少而模型太复杂
• 过拟合是由于模型学习到了数据的一些噪声特征导致,增加训练数据的量能够减少噪声的影响,让模型更多地学习数据的一般特征
• 增加数据量有时可能不是那么容易,需要花费一定的时间和精力去搜集处理数据
• 利用现有数据进行扩充或许也是一个好办法。例如在图像识别中,如果没有足够的图片训练,可以把已有的图片进行旋转,拉伸,镜像,对称等,这样就可以把数据量扩大好几倍而不需要额外补充数据
• 注意保证训练数据的分布和测试数据的分布要保持一致,二者要是分布完全不同,那模型预测真可谓是对牛弹琴了
2. 使用正则化约束
• 在代价函数后面添加正则化项,可以避免训练出来的参数过大从而使模型过拟合。使用正则化缓解过拟合的手段广泛应用,不论是在线性回归还是在神经网络的梯度下降计算过程中,都应用到了正则化的方法。常用的正则化有l1正则和l2正则,具体使用哪个视具体情况而定,一般l2正则应用比较多
3. 减少特征数
• 欠拟合需要增加特征数,那么过拟合自然就要减少特征数。去除那些非共性特征,可以提高模型的泛化能力
4. 调整参数和超参数
• 不论什么情况,调参是必须的
5. 降低模型的复杂度
• 欠拟合要增加模型的复杂度,那么过拟合正好反过来
6. 使用Dropout
• 这一方法只适用于神经网络中,即按一定的比例去除隐藏层的神经单元,使神经网络的结构简单化
7. 提前结束训练
• 即early stopping,在模型迭代训练时候记录训练精度(或损失)和验证精度(或损失),倘若模型训练的效果不再提高,比如训练误差一直在降低但是验证误差却不再降低甚至上升,这时候便可以结束模型训练了
以下哪些学科和数据挖掘有密切联系()
计算机组成原理
矿产挖掘
统计
人工智能
Zookeeper 都有哪些功能
集群管理
主节点选举
分布式锁
命名服务
zookeeper提供的服务主要有以下几点:
1.统一命名服务:
在分布式环境下,经常需要对应用/服务进行统一命名,便于识别
2.统一配置管理
(1)分布式环境下,配置文件同步非常常见
a.一般要求一个集群中,所有节点的配置信息是一致的,比如Kafka集群
b.对配置文件修改后,希望能够快速同步到各个节点上
(2)配置管理可以交由zookeeper实现
a.可将配置信息写入zookeeper上的一个Znode
b.各个客户端服务器监听这个Znode
c.一旦Znode中的数据被修改,Zookeeper将通知各个客户端服务器
3.统一集群管理
(1)分布式环境中,实时掌握每个节点的状态是必要的
a.可根据节点实时状态做出一些调整
(2)Zookeeper可以实现实时监控节点状态变化
a.可将节点信息写入Zookeeper上的一个Znode
b.监听这个Znode可获取它的实时状态变化
4.服务器节点动态上下线
客户端实时洞察到服务器上下线的变化
5.软负载均衡
在Zookeeper中记录每台服务器的访问数,让访问数最少的服务器处理最新的客户端请求
关于Word2vec,下列哪些说法是正确的()
Word2vec是无监督学习
Word2vec利用当前特征词的上下文信息实现词向量编码,是语言模型的副产品
Word2vec能够表示词汇之间的语义相关性
Word2vec没有使用完全的深度神经网络模型
Word2vec可以采用负采样的方式来节省计算开销
在统计模式识分类问题中,当先验概率未知时,可以使用()?
最小损失准则
N-P判决
最小最大损失准则
最小误判概率准则
在贝叶斯决策中,对于先验概率p(y),分为已知和未知两种情况。
1. p(y)已知,直接使用贝叶斯公式求后验概率即可;
2. p(y)未知,可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。
而最大最小损失规则主要就是使用解决最小损失规则时先验概率未知或难以计算的问题的
下列层次聚类算法中,哪些更适合处理大数据?( )
CURE算法
ROCK算法
Chameleon算法
BIRCH算法
关于线性回归的描述,以下正确的有:
基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
基本假设包括随机干扰项是均值为0的同方差正态分布
在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
在违背基本假设时,模型不再可以估计
可以用DW检验残差是否存在序列相关性
多重共线性会使得参数估计值方差减小
一元线性回归的基本假设有
1、随机误差项是一个期望值或平均值为0的随机变量;
2、对于解释变量的所有观测值,随机误差项有相同的方差;
3、随机误差项彼此不相关;
4、解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
5、解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
6、随机误差项服从正态分布
违背基本假设的计量经济学模型还是可以估计的,只是不能使用普通最小二乘法进行估计。
当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。
杜宾-瓦特森(DW)检验,计量经济,统计分析中常用的一种检验序列一阶 自相关 最常用的方法。
所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响
(1)完全共线性下参数估计量不存在
(2)近似共线性下OLS估计量非有效
多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)
(3)参数估计量经济含义不合理
(4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外
(5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。
关于正态分布,下列说法错误的是:
正态分布具有集中性和对称性
正态分布的均值和方差能够决定正态分布的位置和形态
正态分布的偏度为0,峰度为1[正态分布的偏度和峰度均为0.]
标准正态分布的均值为0,方差为1
链接:https://www.nowcoder.com/questionTerminal/09a31793e4394dfa9bf5d0f0fff6cc71
来源:牛客网
下列的哪种方法可以用来降低深度学习模型的过拟合问题?
1 增加更多的数据
2 使用数据扩增技术(data augmentation)
3 使用归纳性更好的架构
4 正规化数据
5 降低架构的复杂度
1 4 5
1 2 3
1 3 4 5
所有项目都有用
防止过拟合的几种方法
在下面哪种情况下,一阶梯度下降不一定正确工作(可能会卡住)?
B对于深度学习模型的优化来说,鞍点比局部极大值点或者极小值点带来的问题更加严重
抛一枚均匀的硬币若干次,一旦发现其正面朝上的次数达到n次,就不再抛硬币,记随机变量X为抛硬币的总次数,X的数学期望为:
n
2n
关于HDFS安全模式说法正确的是?()
在安全模式下只能写不能读
在安全模式下只能读不能写
在安全模式下读写都不允许
在安全模式下读写都可以
集群刚启动会启动安全模式,安全模式下,只能读而不能做修改文件的操作。目的是为了保证数据块的完整性,高低于配置文件的副本率的时候会删除或者增加相应副本数。虽然不能进行修改文件的操作,但是可以浏览目录结构、查看文件内容的。以下命令可以控制安全模式的进入、退出、查看。但是建议等集群自动退出安全模式再进行文件操作。
命令 hadoop fs -safemode get 查看安全模式状态
命令 hadoop fs -safemode enter 进入安全模式状态
命令 hadoop fs -safemode leave 离开安全模式
考虑某个具体问题时,你可能只有少量数据来解决这个问题。不过幸运的是你有一个类似问题已经预先训练好的神经网络。可以用下面哪种方法来利用这个预先训练好的网络?
把除了最后一层外所有的层都冻结,重新训练最后一层
对新数据重新训练整个模型
只对最后几层进行调参(fine tune)
对每一层模型进行评估,选择其中的少数来用
不同数据集下使用微调:
数据集1-数据量少,但数据相似度非常高-在这种情况下,我们所做的只是修改最后几层或最终的softmax图层的输出类别。
数据集2-数据量少,数据相似度低-在这种情况下,我们可以冻结预训练模型的初始层(比如k层),并再次训练剩余的(n-k)层。由于新数据集的相似度较低,因此根据新数据集对较高层进行重新训练具有重要意义。
数据集3-数据量大,数据相似度低-在这种情况下,由于我们有一个大的数据集,我们的神经网络训练将会很有效。但是,由于我们的数据与用于训练我们的预训练模型的数据相比有很大不同,使用预训练模型进行的预测不会有效。因此,最好根据你的数据从头开始训练神经网络(Training from scatch)。
数据集4-数据量大,数据相似度高-这是理想情况。在这种情况下,预训练模型应该是最有效的。使用模型的最好方法是保留模型的体系结构和模型的初始权重。然后,我们可以使用在预先训练的模型中的权重来重新训练该模型。
对于以下代码,
char* p=new char[100];
正确的是
p在栈上,new出来的在堆上
p是一个指针,所以存储在栈上,p中存储的是新建的动态内存的地址,新建的动态内存在堆上。
假定一枚硬币抛出落地后,正面及反面出现的概率分别为1/2,那么抛10次和抛100次硬币(分别称为P10和P100)相比,以下正确的说法是:
P100出现正面多于反面的概率比P10出现正面多于反面的概率大
P100正面次数的方差小于P10出现正面次数的方差
P100出现连续10次以上正面的概率约为1%
下面偏序集( )能构成格 。
格的首先的性质就要求一个偏序集中的每对元素存在最小上界和最大下界。这里有个很重要的修饰词——每对,任意对元素的集合都必须得存在最小上界和最大下界。
1 上面两个节点有共同最大下界, 但没有最小上界
3 上面两个节点无共同的最小上界
4 中间的四个点最小上界(或最大上界)不确定(有两个).
所以选2
有关 TensorFlow API,以下说法中正确的是:()
tf.Variable和一般编程语言中“变量(Variable)”的含义完全相同。【
A 选项 tf中 变量的定义和初始化是分开的,一般编程语言定义即初始化。如tf.Varialbe(3, name='x'), 只是定义,或者说"画"好流程图,还需要使用 run(tf.global_variables_initializer()) 初始化图中所有变量或其他初始化变量的方式。
】
tf.placeholder定义的对象,对应于深度神经网络中的“超参数(Hyperparameter)”。【
B 选项 tf.placeholder() 通俗讲作用为占位符,先定义好过程,在执行的时候再”喂"具体值(输入数据)
】
通过tf.constant定义的对象,因为是常量,所以,在session.run()运行前就可以用eval()方法获得对象的值。【
C 选项 可以同A选项一同解释,必须要等到run之后才能得到具体值。
】
session.run()运行一个训练过程时,TensorFlow会使用符号执行(SymbolicExecution)对计算图进行优化。【D 选项 TensorFlow使用了向量运算的符号图方法,事先定义图,然后使用SymbolicExecuption进行优化。 正确】
关于累加器,下面哪个是错误的
支持加法
支持数值类型
可并行
不支持自定义类型【当然支持自定义,我们经常会用到map类型的自定义累加器】
如果我们用了一个过大的学习速率会发生什么?
神经网络会收敛
不好说
都不对
神经网络不会收敛【学习率过小,收敛太慢,学习率过大,震荡不收敛】
一幅256*256的图像,若灰度级数为16,则存储它所需的比特数是()
256k
因为每个像素要代表16个灰度值,也就是2的4次幂
总共256*256个像素
所以总共256*256*4个比特 256=2^8
256*256*4=2^(8+8+2)=2^18
所以256*256*4/1024 = 2^8=256kb
设随机变量 ξ的概率密度函数为
,
=(
1/3
)
. 先对中的概率密度函数进行求解原函数,其中1/sqrt(1-x^2)的原函数为arcsin(x),所以原函数为1*arcsin(x)/pi
2. 对所求概率范围的区间进行求解,积分带入区间,即为 1*arcsin(-1/2)/pi - 1*arcsin(1/2)/pi = 1/3
在大规模的语料中,挖掘词的相关性是一个重要的问题。以下哪一个信息不能用于确定两个词的相关性。
互信息
最大熵
卡方检验
最大似然比
B
最大熵原理是一种选择随机变量统计特性最符合客观情况的准则,也称为最大信息原理。随机量的概率分布是很难测定的,一般只能测得其各种均值(如数学期望、方差等)或已知某些限定条件下的值(如峰值、取值个数等),符合测得这些值的分布可有多种、以至无穷多种,通常,其中有一种分布的熵最大。选用这种具有最大熵的分布作为该随机变量的分布,是一种有效的处理方法和准则。这种方法虽有一定的主观性,但可以认为是最符合客观情况的一种选择。在投资时常常讲不要把所有的鸡蛋放在一个敏感词里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理。
下面选项中不是双目摄像头的内参的是( )。
焦距(Focal length)
基础矩阵(Fundamental
matrix)
扭曲值(Distortion)
光点中心(Optical center)
双目摄像头的内参有:焦距(Focal length)、扭曲值(Distortion)、光电中心(Optical center)。
我们常用 ( ) 版。
apache 版
cdh 版
Hortonworks版本
当前国内A股市场的新股发行采取的是抽签申购的方式。假设最多可以申购某新股X 1万股,以1千股为单位分配一个号码进行抽签,每个号码抽中与否是相互独立的且概率为0.5%,X的发行价是10元,涨至15元和20元的概率均为50%,那么在最大申购的情况下盈利的期望是____。
10*0.5%*(50%*5+50%*10)*1000=375
最大申购10支,在乘以中奖概率0.5%(相互独立的)求出中签几支股;
题目求的为盈利的期望,所以中签的股中50%的涨5块,50%的涨10块
最后乘以总每支的股份数1000
抽中的概率:(10000/1000)*0.5%=5%
股票数:1000*5%=50
盈利=((15-10)*50%+(20-10)*50%)*50=375
6支笔,其笔身和笔帽颜色相同:但6支笔颜色各不相同,求全部笔身都戴错笔帽的可能性有多少种?
错位重拍
265 T(n)=(n-1)*[T(n-1)+T(n-2)]
Zookeeper在 config 命名空间下,每个znode最多能存储()数据?
1M
设事件A,B 相互独立,且已知
则P(B)= ( )
1/16
1/4
1/10
4/10
0.7=0.6+P(B)+0.6*P(B)
若串str="xunlei",其子串的数目是()
32
31
21
22别忘了空串
子串: n(n+1)/2 + 1
非空子串:n(n+1)/2
非空真子串:n(n+1)/2 - 1
以下关于正则化的描述正确的是()
正则化可以防止过拟合
L1正则化能得到稀疏解
L2正则化约束了解空间
Dropout也是一种正则化方法
某服务请求经负载均衡设备分配到集群A、B、C、D进行处理响应的概率分别是10%、20%、30%和40%。已知测试集群所得的稳定性指标分别是90%、95%、99%和99.9%。现在该服务器请求处理失败,且已排除稳定性以外的问题,那么最有可能在处理该服务请求的集群是________。
A
B
C
D
令L代表服务器请求处理失败,A,B,C,D分别代表对应的集群处理响应。
则有P(A)=10%,P(B)=20%,P(C)=30%,P(D)=40%
P(L|A)=10%,P(L|B)=5%,P(L|C)=1%,P(L|D)=0.1%
题目要求P(X|L),X可取A,B,C,D,求其中的最大值。
根据贝叶斯概率公式
P(A|L)P(L)=P(L|A)P(A)=0.01
P(B|L)P(L)=P(L|B)P(B)=0.01
P(C|L)P(L)=P(L|C)P(C)=0.003
P(D|L)P(L)=P(L|D)P(D)=0.0004
其中,P(L)虽然未知,但不用计算,即可比较大小,得P(A|L)=P(B|L)>P(C|L)>P(D|L)
所以选A,B
可以用f(x,y)来表示()
一幅2-D数字图像
一个在3-D空间中的客观景物的投影
2-D空间XY中的一个坐标的点的位置
在坐标点(X,Y)的某种性质F的数值
三个骰子摇到的点数之和为()的概率最大?
9
10
11
12
三个骰子摇到的点数之和为()的概率最大?
换个角度来看:
每次摇一个骰子,摇n次之后,摇的点数的期望是多少?
这个问题就简单多了,3.5,对吧。
期望又称平均数,就是最有可能出现的情况。那么摇三次呢?直接乘以3应该可以这样算吧,10.5,所以就选10和11咯
王师傅 是卖鞋的,一双鞋进价 90 元,现亏本甩卖顾客来 35 元买了一双鞋,给了王师傅 100 元假钱,王师傅没零钱,于是找邻居换了 100 元,事后邻居存钱过程职工发现钱是假的,被银行没收了,王师傅又赔了邻居 100 ,请问王师傅一共亏了多少()
155
正常100元赔了90-35=55元
100元假钱又赔了100,故赔了100+55=155元。
银行和隔壁邻居啥也没得到。赚钱的只有顾客。他无偿得到了65元现金和一双价值90元的鞋,共计155元。而这笔钱就是老王亏的
从1,2,3,4...8,9里任意选择一部分数(至少1个),能得到多少种不同的乘积
144
把所有数分解为质数再作乘法,可以避免考虑重复的情况,其中4,6,8,9需要用2,3分别做质因数分解,问题转化为从7个2 ,4个3,一个5,一个7里任意选择一部分数(至少1个),能得到多少种不同的乘积,7个2与4个3相乘本来有8*5=40种结果,但因为2^7 * 3^0 和 2^0 * 3^4 这两种情况不存在(2^7要求6被选中,3^0要求6不被选中,另一种同理)再考虑5和7是否被选中,则有(40-2)*4=152种。
ResNet-50 有多少个卷积层? ()
48
49
50
ResNet-50就是因为它有50层网络,这50层里只有一个全连接层,剩下的都是卷积层,所以是50-1=49
执行以下代码
#define SUM(x,y) x+y
int a=3;
int b=2;
a+=a*SUM(a,b)*b;
a的值为
16
30
33
39
#define SUM(x,y) x+y
这是在定义宏 宏不仅替换字符串 还替换参数列表
原式a=a+a*SUM(a,b)*b=a+a*a+b*b=16
六个人排成一排,甲与乙不相邻,且甲与丙不相邻的不同排法数是多少()
1,首先将甲乙丙拿出来,剩下三个做全排列,有A(3,3)=6种排列,
2,将甲乙两个插入第一步三个人的四个空隙中,有A(4,2)=12种
3,剩下丙插入到前五个人中的六个空隙中,其中甲的左右两侧不符合,
还有4个符合条件的空隙,C(4,1)=4
4,总共有6*12*4=288
强度为 λ 的泊松过程的点间间距是相互独立的随机变量,且服从均值为( )同一指数分布
λ
1/λ
λ的平方
1
以下几种模型方法属于判别式模型的有
1)混合高斯模型
2)条件随机场模型
3)区分度训练
4)隐马尔科夫模型
2 3
公式上看
生成模型: 学习时先得到 P(x,y),继而得到 P(y|x)。预测时应用最大后验概率法(MAP)得到预测类别 y。
判别模型: 直接学习得到P(y|x),利用MAP得到 y。或者直接学得一个映射函数 y=f(x)。
直观上看
生成模型: 关注数据是如何生成的
判别模型: 关注类别之间的差别
Dropout作用于每份小批量训练数据,由于其随机丢弃部分神经元的机制,相当于每次迭代都在训练不同结构的神经网络。()
正确 袋中有红球,黄球,白球各一个,每次任意取一个放回,如此连续3次,则3次取到的颜色不全相同的概率是:
不全相同的情况有很多,从对立事件出发即全相同,共三种情况,红红红、黄黄黄、绿绿绿;则1—3/3^3=8/9
从一副牌(52张,不含打小怪)里抽出两张牌,其中一红一黑的概率是
25/51
1/3
1/2
26/51
52张牌从中抽两张,就是C522种情况,一红一黑是C261 * C261种情况,概率P = C261 * C261 / C522 =26/51
在三角形的三个顶点上各有一只蚂蚁,它们向另一个顶点运动,目标随机(可能为另外两个顶点的任意一个)。问三只蚂蚁不相撞的概率是多少?
1/4
1/5
1/6
其他
每个蚂蚁可以选择的路径有2种,则3只蚂蚁可选的总路径为:2^3=8;
满足3只蚂蚁不相撞的路径只有:顺时针+逆时针2种;
故概率为:2/8=1/4.
Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()
各类别的先验概率P(C)是相等的
以0为均值,sqr(2)/2为标准差的正态分布
特征变量X的各个维度是类别条件独立随机变量
P(X|C)是高斯分布
朴素贝叶斯的基本假设就是条件独立性
下列属于无监督学习的是:
k-means
SVM
最大熵
CRF
CRF是一个干扰项,CRF是条件随机场,主要用在语音识别和文本识别,前提,一个标记了的观察序列,计算需要验证的标签序列的联合概率。这里就有了标记集合和识别集合的概念,所以是监督室学习
训练CNN时,可以对输入进行旋转、平移、缩放等预处理提高模型泛化能力。这么说是对,还是不对?
对
【输入进行旋转、平移、缩放等预处理相当于做了数据增强,数据增强了,训练出的CNN泛化能力自然会提高】
梯度下降算法的正确步骤是什么?
d.用随机值初始化权重和偏差
c.把输入传入网络,得到输出值
a.计算预测值和真实值之间的误差
e.对每一个产生误差的神经元,调整相应的(权重)值以减小误差
b.重复迭代,直至得到网络权重的最佳值
dcaeb
推理:24个人,每人至少养一种宠物,养鸟、狗、鱼、猫的分别为13、5、10、9人,同时养鸟和狗的2人,同时养鸟和鱼、鸟和猫、鱼和猫的各为4人,养狗的既不养猫也不养鱼。问只养一种宠物的总共几人?同时养鸟鱼猫的几人?
11,1
12,1
类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是?
伪逆法
感知器算法【样本线性不可分时,感知器算法不收敛。】
基于二次准则的H-K算法
势函数法
|
3
1
2
4
圆内接三角形是锐角三角形概率是多少()
1/4
链接:https://www.nowcoder.com/questionTerminal/a0d05de7237541d8b62f79b05ad4c7c7
来源:牛客网
前提:
圆内接三角形的最大角一定大于等于60度;
如果三角形是锐角三角形,最大角一定小于90度;
分析:
内接三角形的最大角的变化范围60-180;
是锐角的变化范围:60-90;
(90-60)/(180-60)
1-16十六个数字分别填入十六格方框内,要求从左至右的数字是从小到大排列,从上至下的数字也是从小到大排列,问:有多少种排列方式。
24024