刚刚完成了腾讯的2017年腾讯基础研究笔试题,谈一下感受。
考题分为选择题(26/60分钟)和简答题(3/60分钟),选择题很基础,尽管我基本上不会,但如果按照考研的那个水平,那是完全不用担心的,不知道以前的高数都还给谁了,内容很基础的,其中涉及到:
选择题:
1) 概率计算问题:期望、方差、协方差、计算概率问题等
2)矩阵:矩阵计算、特征值计算、秩,线代第二章看看基本上没问题了
3)高数:定积分和不定积分计算、求偏导
4)数据结构:时间复杂度,排序
5)统计:分层抽样
6)数据库:基本命令考察
简答题:
1)原假设和备择假设问题
2)神经网络优缺点
3)艺人生活行为的挖掘问题
大公司一般笔试会很注重基础重基础重基础,因为腾讯不让公开笔试题,所有,列个考点。
校招前好好备战,加油,让自己的努力跟的上一线城市的房价。
第1题 求定积分结果∫101dx
答案:1
第2题 已知总标准差=25,随着样本增加均值怎么变化。
第3题 已知K是第四名,A的年龄不是最大但比D老,D不是第二名,年龄第2小的是第二名,第三名的年龄大于第一名,B比第三名年轻,求A、B、D和K的排名顺序。
答案:D>B>A>K
第4题 y=sin(x)+cos(x)的极大值
答案:2√
第5题 max={Cx | Ax<=b, x>=0}为最优解,z>=0,当C、b被v和v/2乘时一下结果正确的是…
第6题 u检验的应用条件是:两样本来源得总体符合正太分布…
第7题 设某商品需求满足:yi=β0+β1∗xi+εi,参数估计量…
第8题 齐次线性方程组Ax=0存在无穷解,其行列式m行、n列实数矩阵,则满足:
A.m > n B.m < n C.rank(A) = m D.rank(A) = n
第9题 已知x0=(1,1),求f(x)=4∗x1+6∗x2−2∗x12−2∗x1∗x2−2∗x22极大值。x1坐标为:
A.(1,1) B.(-1,1) C.(-1/2,1) D.(1/2,1)
第10题 相同样本量下,重复抽样与不重复抽样平均误差大小关系是:相同、重复抽样大、不重复抽样大选项
第11题 n阶矩阵A行列式|A|=1,则|A−1|=?
第12题 一对夫妇两孩子,已知一个是男孩,求两个都是男孩的概率。猜测答案是0.5
第13题 x1,x2,x3...xn来自(μ,σ2)一个样本,x¯为均值,S2为方差。其中答案包括:S2/σ2∼x(n−1)
第14题 随机变量x概率分布:x=2 f(x)=0.2、x=4 f(x)=0.3 、x=7 f(x)=0.4 、x=8 f(x)=0.1,x的标准差是。
第15题 一盒装有6个乒乓球,4个位新球,第一次随机取2个,使用后放回盒子;第二次随机取2个,求第二次取全新的概率。
第16题 商品销售量、方差分析,excel表分析颜色特征对结果的影响。
第17题 k1、k2是矩阵A两个不同特征值,a与b是A分别属于k1、k2的特征向量,则a、b满足,选项包括线性无关、线性相关等。
第18题 青蛙掉入21米井里,每天向上爬10米,晚上再掉下7米,问几天爬出。
答案:5天
第19题 人工批量盆景虎皮兰,平均高度70cm,标准差5cm,随机搬出100盘,则说法正确的是:选项包括至少75盆以上在70-80cm之间等。
第20题 行列式的值是多少:
第21题 数据库系统描述错误的是:
A.DBMS是数据库管理系统简称
B.Hive是开源的数据库系统
C.数据库事务有ACID属性
D.SQL中create属于DML语言
答案:D
分析:终于看到第一道与编程、OS、DB相关的题目了,泪流满面啊!故简单讲解下:DBMS就是数据库管理系统(Database Management System),事务包括ACID性质(原子性Atomicity、一致性Consistency、隔离性Isolation、持久性Durability),Hive是属于Hadoop的数据仓库工具。而create属于DDL(数据库模式定义语言),Insert、delete、update属于DML(数据库操纵语言)、Select属于DQL(数据库查询语言)、grant属于DCL(数据库控制语言)。
第22题 甲乙两人比射箭,水平一样。甲射101箭,乙射100箭,求甲射中次数比乙射中次数多的概率。
第23题 一个对数组A(n个元数组)排序,代码如下:
for i=i to length(A)-1
j=i
while j>0 and A[j-1]>A[j]
swap A[j] and A[j-1]
j=j-1
求代码的时间复杂度:O(n2)
第24题 mysql中选课表learn(stu_id int, course_id int ),其中学生id和课程id,则获取每个学生所选课程个数的语句是:
A.select stu_id, count(course_id) from learn;
B.select stu_id, sum(course_id) from learn;
C.select stu_id, count(course_id) from learn group by student_id;
D.select stu_id, sum(course_id) from learn group by student_id;
分析:count计数和sum求和的区别,group by分组
第25题 两家工厂A和B,技术相同,合格率一样平均80%,A大规模工厂,B小规模工厂,没有出现故障某家企业合格率仅为70%,问哪家工厂的可能性更大?
第一题
进行特征选择时,即分析哪些协变量对目标变量有较大影响时,有哪些常用的方法?你本人更看好其中哪些?为什么?
第二题
网络上流传一个故事,关于数据的神奇性:某商场向一位未婚少女邮寄一些用于保胎的商品目标和折扣券,其父亲发火,后证实该少女确实怀孕,解释一下如何做到的?
个人从一下几个方面答的,可能存在错误或不足之处:
1.搜索引擎与推荐系统及算法
2.数据挖掘相关的关联规则挖掘算法,经典尿布与啤酒
3.知识图谱 问答系统实现理解人类语言(毕设相关)
第三题
QQ空间相册替换墙换一换功能。把聚类好的人脸进行圈人标注,系统根据用户历史标注记录,分析每张照片最可能身份,用户进行确认和否认。每次只从聚类人脸中抽取5张进行展示。假设利用信息是每个人脸的相似度矩阵G,而且第k+1次抽样并不知道第k次抽出的样本,可用人脸数量N始终大于50张。
(1) 如何设计抽样算法,抽样碰撞率尽可能低;
(2) 如果抽样完成后,抽出5张人脸从中删除,如何设计抽样算法,使得相邻两次间抽样碰撞率尽可能低?
面试了阿里和腾讯的NLP和数据挖掘相关的算法方向,个人感觉腾讯的题目偏重数学统计概率,其中选择题就3道与程序和数据库相关,而且比较简单,更多的是数学知识;而三个大题感觉还是不错的,很贴近生活和腾讯的实际产品,让我也学到很多知识。但是阿里的题目都至少偏向算法点,自己需要学习的东西还是非常多,也认识到了自己很多不足之处!接下来继续努力吧。
作者:offer快来吧给跪了还不行吗
链接:https://www.nowcoder.com/discuss/25919?type=0&order=0&pos=8&page=1
来源:牛客网
作者:牛客470556号
链接:https://www.nowcoder.com/discuss/5098
来源:牛客网
1. 数学问题:3sigma原理,T分布,特征根,特征值,最大似然估计,马尔科夫链。
(1)3sigma原理
在正态分布中σ代表标准差,μ代表均值x=μ即为图像的对称轴,三σ原则即为:
数值分布在(μ—σ,μ+σ)中的概率为0.6526
数值分布在(μ—2σ,μ+2σ)中的概率为0.9544
数值分布在(μ—3σ,μ+3σ)中的概率为0.9974
工程中,当质量特性呈正态分布时(实际上,当样本足够大时,二项分布、泊松分布等均趋近于正态分布),3Sigma水平代表了99.73%的合格率(2700PPM);
(2)t-分布
在概率论和统计学中,学生t-分布(Student's t-distribution),可简称为t分布。应用在估计呈正态分布的母群体之平均数。它是对两个样本均值差异进行显著性测试的学生t检定的基础。学生t检定改进了Z检定(Z-test),因为Z检定以母体标准差已知为前提。虽然在样本数量大(超过30个)时,可以应用Z检定来求得近似值,但Z检定用在小样本会产生很大的误差,因此必须改用学生t检定以求准确。
t-检验近似于Z检验,通俗地说,是样本量小于45时用于减小误差的改进Z检验。改进原理就是抛弃母体标准差,而直接用样本点构造分布。
(3)特征根、特征值、特征向量、特征空间
设 A 是n阶方阵,如果存在数m和非零n维列向量 x,使得 Ax=λx 成立,则称 m 是A的一个特征值(characteristic value)或本征值(eigenvalue)。
非零n维列向量x称为矩阵A的属于(对应于)特征值m的特征向量或本征向量,简称A的特征向量。
特征根对应特征方程,是( A-λE)X=0的解。特征值对应矩阵及特征向量,是矩阵的属性。
λ是A的一个特征值,则一定是特征方程的根, 因此又称特征根。
特征空间:就是由所有有着相同特征值的特征向量组成的空间,还包括零向量,但要注意零向量本身不是特征向量。
那么特征值、特征向量究竟有什么用?链接(邵庆贤)
应用非常广泛:
图像处理中的PCA方法,选取特征值最高的k个特征向量来表示一个矩阵,从而达到降维分析+特征显示的方法。
还有图像压缩的K-L变换,以及很多人脸识别、数据流模式挖掘分析等方面。
在力学中,惯量的特征向量定义了刚体的主轴。惯量是决定刚体围绕质心转动的关键数据。
在谱系图论中,一个图的特征值定义为图的邻接矩阵A的特征值,或者(更多的是)图的拉普拉斯算子矩阵, Google的PageRank算法就是一个例子。
曾经有这么一句话:「有振动的地方就有特征值和特征向量」
只要你真正理解了线性空间的矩阵的意义,你就明白了,几乎无处不在。
网上还有一种更好理解的说法:
如果你把A*x=λ*x中的A看做一种变换或作用,那么那些在这种作用下,只改变长短不改变方向的那些向量x就是特征向量;而特征值就是λ,是伸缩系数,起能量增幅或者削减作用。
具体的说,求特征向量的关系,就是把矩阵A所代表的空间,进行正交分解,使得A的向量集合可以表示为每个向量a在各个特征向量上面的投影长度。
特征向量和特征值的几何意义
(4)极大似然估计
这一方法是基于这样的思想:我们所估计的模型参数,要使得产生这些给定样本的可能性最大。即:
找到最佳的模型参数,使得模型实现对样本的最大程度拟合,也就使样本集出现的可能性最大,从而用样本估计总体。。
举个例子:一个随机试验如有若干个可能的结果A,B,C,…。若在仅仅作一次试验中,结果A出现,则一般认为试验条件对A出现有利,也即A出现的概率很大。一般地,事件A发生的概率与参数theta相关,A发生的概率记为P(A,theta),则theta的估计应该使上述概率达到最大,这样的theta顾名思义称为极大似然估计。
求极大似然函数估计值的一般步骤:(1) 写出似然函数;(2) 对似然函数取对数,并整理;(3) 求导数 ;(4) 解似然方程 。
应用举例:在机器学习的异常检测中,根据模型(通过学习得来的)计算一个数据点出现的概率,如果这个概率小于某个我们事先设定的值,就把它判为异常。我们基于的是一个小事件的思想:如果一件可能性极小的事情竟然发生了,那么就极有可能是异常。举个例子,我这辈子跟奥巴马成为哥们的可能性几乎为零,如果哪一天我跟奥巴马在烧烤摊喝3块钱一瓶的啤酒,那么绝对叫异常。
极大似然估计
(5)马尔科夫链
基本思路:指数学中具有马尔可夫性质的离散事件随机过程。该过程中,在给定当前知识或信息的情况下,过去状态对于预测将来的状态是无作用的。
马尔科夫性质的方程(条件概率方程)
应用:隐马尔科夫模型,用于中文分词。