京东面试-数据分析

1. 在软件开发过程中,我们可以采用不同的过程模型,下列有关 增量模型描述正确的是()

A. 是一种线性开发模型,具有不可回溯性

B. 把待开发的软件系统模块化,将每个模块作为一个增量组件,从而分批次地分析、 设计、编码和测试这些增量组件

C. 适用于已有产品或产品原型(样品),只需客户化的工程项目

D. 软件开发过程每迭代一次,软件开发又前进一个层次

2. 下面有关值类型和引用类型描述正确的是()?

A. 值类型的变量赋值只是进行数据复制,创建一个同值的新对象,而引用类型变量赋值,仅仅是把对象的引用的指针赋值给变量,使它们共用一个内存地址。

B. 值类型数据是在栈上分配内存空间,它的变量直接包含变量的实例,使用效率相对较高。而引用类型数据是分配在堆上,引用类型的变量通常包含一个指向实例的指针,变量通过指针来引用实例。

C. 引用类型一般都具有继承性,但是值类型一般都是封装的,因此值类型不能作为其 他任何类型的基类。

D. 值类型变量的作用域主要是在栈上分配内存空间内,而引用类型变量作用域主要在分配的堆上。

3. 如何在多线程中避免发生死锁?

A. 允许进程同时访问某些资源。

B. 允许进程强行从占有者那里夺取某些资源。

C. 进程在运行前一次性地向系统申请它所需要的全部资源。

D. 把资源事先分类编号,按号分配,使进程在申请,占用资源时不会形成环路。

4. 以下为求0到1000以内所有奇数和的算法,从中选出描述正确的算法( )

A. ①s=0;②i=1;③s=s+i;④i=i+2;⑤如果i≤1000,则返回③;⑥结束

B. ①s=0;②i=1;③i=i+2;④s=s+i;⑤如果i≤1000,则返回③;⑥结束

C. ①s=1;②i=1;③s=s+i;④i=i+2;⑤如果i≤1000,则返回③;⑥结束

D. ①s=1;②i=1;③i=i+2;④s=s+i;⑤如果i≤1000,则返回③;⑥结束

5. 关于递归法的说法不正确的是( )

A. 程序结构更简洁

B. 占用CPU的处理时间更多

C. 要消耗大量的内存空间,程序执行慢,甚至无法执行

D. 递归法比递推法的执行效率更高

1. B 
2. A,B,C
3. A,B,C,D
4. A
5. D

6. 字符串”ABCD”和字符串”DCBA”进行比较,如果让比较的结果为真,应选用关系运算符()

A. >

B. <

C. =

D. >=

本题注意点:ASCII值'a'=97 'A'=65 '0'=58 两字符串若有一个为子串,则字符串长度长度长的大,若没有子串关系,字符串的大小是由左边开始最前面的字符决定的. 比较规则是ASCII码

7. 下面是一段关于计算变量s的算法: ①变量s的初值是0 ②变量i从1起循环到n,此时变量s的值由下面的式子表达式计算 ③s=s+(-1)*i ④输出变量s的值 这个计算s值的算法中,s的代数式表示是( )。

A. 1-2+3-4+„+(-1)n*(n-1)

B. 1-2+3-4+„+(-1)n-1*n

C. 1+2+3+4+...+(n-1)+n

D. -1-2-3-4-...-n

8. 以下运算符中运算优先级最高的是( )

A. +

B. OR

C. >

D. \

运算符负责规则,单目乘除位关系,逻辑先后赋值.

9. 采用哪种遍历方法可唯一确定一棵二叉树?( )

A. 给定一棵二叉树的先序和后序遍历序列

B. 给定一棵二叉树的后序和中序遍历序列

C. 给定先序、中序和后序遍历序列中的任意一个即可

D. 给定一棵二叉树的先序和中序遍历序列

 数据结构课本上的说法
 前序(DLR)  中序(LDR) 后序(LRD)
 前序遍历+中序遍历
 后续遍历+中序遍历 
 给出中序遍历之后再给一个其他的遍历就能够确定了,之后前序和后序则不能确定,因为一个根在前,一个根在后,

10. 已知小顶堆:{51,32,73,23,42,62,99,14,24,3943,58,65,80,120},请问62对应节点的左子节点是

A. 99

B. 73

C. 3943

D. 120

解题思路: 小顶堆: 在完全二叉树中,根节点大于左右节点或者根节点小于左右节点的形式分别称为大顶堆和小顶堆,
先按照完全二叉树将数字依次填入,填入后,找到最后一个最小节点从它的父节点(23)开始调整,根据性质,小的数字往上移动.
6.B  7.D  8.D  9.BD 10.B

11. 若串S=”UP!UP!JD”,则其子串的数目

A. 33

B. 37

C. 39

D. 35

12. 一颗二叉树的叶子节点有5个,出度为1的结点有3个,该二叉树的结点总个数是?

A. 11

B. 12

C. 13

D. 14

13. 以下哪种排序算法一趟结束后能够确定一个元素的最终位置?

A. 简单选择排序

B. 基数排序

C. 堆排序

D. 二路归并排序

14. 权值分别为9、3、2、8的结点,构造一棵哈夫曼树,该树的带权路径长度是?

A. 36

B. 40

C. 45

D. 46

 哈夫曼树是一种带权路径最短的二叉树,
 节点之间的路径长度:从一个节点到另一个节点之间的分支数量称为两节点之间的路径长度
 树的路径长度: 从根节点到树中每一个节点的路径长度之和.
 节点的带权路径长度:从该节点到根节点之间的路径长度和节点上权的乘积
 树的带权路径长度:树中所有叶子节点大带权路径长度之和.
# 定理: 对于具有n个叶子节点的哈夫曼树,一共需要2*n-1个节点,
  一共有3种类型节点,即度数为2的节点,度数为1的节点,度数为0的节点,
  而哈夫曼树的非叶子节点都是由两个节点合并产生,所以不会出现度数为1的节点,而生成的非叶子节点的个数为叶子节点个数减-1,所以 n个叶子节点的哈夫曼树,一共需要2*n-1个节点
  
  创建步骤: 
  1.  根据给定的n个权值{w1,w2,..wn}构建n颗二叉树的集合 F={T1,T2...},F集合中每颗二叉树都只有一个根节点.
  2. 选举F集合中两个根节点的权值最小的树作为左,5子树以构建啊?一颗新的二叉树
  3. 将新的啊?二叉树加入到F结合中,并啊?删除(2)步中被选中的两棵树,
  4. 重复2,3 步直到F集合中只剩下一棵树,这颗树就是哈夫曼树.

15. 在()中,只要指出表中任何一个结点的位置,就可以从它出发依次访问到表中其他所有结点。

A. 线性单链表

B. 双向链表

C. 线性链表

D. 循环链表

11. B  12.B  13.C  14.40  15.D 

16. 网络管理员把优盘上的源代码给程序员参考,但要防止程序误删除或修改,以下正确的加载方式是( )

A. mount -o defaults /dev/sdb1 /tools

B. mount -r /dev/sdb1 /tools

C. mount -o ro /dev/sdb1 /tools

D. mount -o ro /dev/sdb /tools

考察linux磁盘管理----        任何块设备都不能直接访问,需挂载在目录上访问        挂载: 将额外文件系统与根文件系统某现存的目录建立起关联关系,进而使得此目录做为其它文件访问入口的行为(挂载的设备必须有文件系统)                mount [-选项] DEVICE(设备) MOUNT_POINT(挂载点)           (1)device :指明要挂载的设备           ① 设备文件:例如/dev/sda5           (2)挂载选项-          -r:readonly ,只读挂载,不能进行其他操作,和权限无关,介质只能读,多用于冷备份。在mount 查询时时显示 ro 
          -o options:( 挂载文件系统的选项) ,多个选项使用逗号分隔 
          -o ro:只读 rw:读写(defaults) 
    
     挂载mounmount -r /dev/sdb1 /tools    --r即只可读,read,要求是不能删除或者修改,    A- 默认选项--错误    B- 可以    C-可以    D- sdb 和sdb1的差别。sdb表示整个SD卡设备名
 sdb1表示SD卡的第一个分区。相应的,如果还有一个分区的话,表示为sdb2
 用fdisk -l命令查看U盘的盘符。 一般为/dev/sdb1

17. 下列有关软连接描述正确的是

A. 与普通文件没什么不同,inode 都指向同一个文件在硬盘中的区块

B. 不能对目录创建软链接

C. 保存了其代表的文件的绝对路径,是另外一种文件,在硬盘上有独立的区块,访问时替换自身路径

D. 不可以对不存在的文件创建软链接

18. Ext3日志文件系统的特点是:

A. 高可用性

B. 数据的完整性

C. 数据转换快

D. 多日志模式

19. DHCP是动态主机配置协议的简称,其作用是

A. 动态分配磁盘资源

B. 动态分配内存资源

C. 为网络中的主机分配IP地址

D. 为集群中的主机分配IP地址

20. 以下命令可以用于获取本地ip地址的是:

A. ifconfig

B. uptime

C. top

D. netstat

16.B,C  17.B  18.ABCD  19.C  20.A  

21. 以下命令可以用于获取本机cpu使用率的是:

A. ifconfig

B. uptime

C. top

D. netstat

 ifconfig 查询IP地址
 uptime  显示系统已经运行了多长时间,它依次显示下列信息:当前时间、系统已经运行了多长时间、目前有多少登陆用户、系统在过去的1分钟、5分钟和15分钟内的平均负载    
 top 命令实时显示进程的状态。默认状态显示的是cpu密集型的进程,并且每5秒钟更新一次。
 netstat命令 是一个监控TCP/IP网络的非常有用的工具,它可以显示路由表、实际的网络连接以及每一个网络接口设备的状态信息 

22. 以下命令用于设置环境变量的是:

A. export

B. cat

C. echo

D. env

23. 下列对TCP/IP结构及协议分层不正确的是:

A. 网络接口层:Wi-Fi、ATM 、GPRS、EVDO、HSPA。

B. 网际层:IP、ICMP、IGMP 。

C. 传输层:TCP、UDP、TLS、ssh。

D. FTP、TELNET、DNS、SMTP.

24. 以下哪种设备工作在数据链路层?

A. 中继器

B. 集线器

C. 交换机

D. 路由器

25. 打电话使用的数据传输方式是(),手机上网使用的数据传输方式是()?

A. 电路交换,电路交换

B. 电路交换,分组交换

C. 分组交换,分组交换

D. 分组交换,电路交换

21.C  22.A  23.C  24.C  25.B  

26.后退N帧协议的发送窗口大小是(),接收窗口的大小是()?

A. =1,=1

B. =1,>1

C. >1,>1

D. >1,=1

27. TCP释放连接第二次挥手时ACK(),第三次挥手时ACK()?

A. 不存在,不存在,

B. 不存在,值是1

C. 值是1,值是1

D. 值是1,不存在

28. TCP协议的拥塞控制就是防止过多的数据注入到网络中,这样可以使网络中的路由器或链路不致过载。常用的方法有:

A. 慢启动、窗口滑动

B. 慢开始、拥塞控制

C. 快重传、快恢复

D. 快开始、快恢复

29. 对于京东商城高流量访问,预防Ddos的方法可以有?

A. 限制同时打开SYN半链接的数目。

B. 缩短SYN半链接的Time out 时间。

C. 关闭不必要的服务。

D. 限制客户端请求服务器时长。

30. 重复的数据,会增加磁盘空间的占有率,延长操作数据的时间。可以使用规范化处理数据冗余,以下对符合第一范式的表述正确的是:

A. 非键属性和键(主键)属性间没有传递依赖

B. 非键属性和键(主键)属性间没有部分依赖

C. 表中不应该有重复组。列重复拆成另外一张表;行重复拆成多行

D. 一个表中的列值与其他表中的主键匹配

26.D  27.C  28.BC  29.ABC  30. C

31. 以下哪条SQL语句可以返回table1中的全部的key:

A. select tabel1.key from table1 join tabel2 on table1.key=table2.key

B. select tabel1.key from table1 right outer join tabel2 on table1.key=table2.key

C. select tabel1.key from table1 left semi join tabel2 on table1.key=table2.key

D. select tabel1.key from table1 left outer join tabel2 on table1.key=table2.key

32. 以下关于Mysql数据库引擎MyISAM的描述错误的是?

A. 支持行锁

B. 如果表主要是用于插入新记录和读出记录,那么选择MyISAM引擎能实现处理高效率

C. 在执行查询语句(SELECT)前,会自动给涉及的所有表加读锁,在执行更新操作(UPDATE、DELETE、INSERT等)前,会自动给涉及的表加写锁

D. 不支持事务

33. Mysql中表user的建表语句如下,

CREATE TABLE `user` (
  `id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '主键Id',
  `name` varchar(255) DEFAULT NULL COMMENT '名称',
  `age` int(11) DEFAULT NULL COMMENT '年龄',
  `address` varchar(255) DEFAULT NULL COMMENT '地址',
  `created_time` datetime DEFAULT NULL COMMENT '创建时间',
  `updated_time` datetime DEFAULT NULL COMMENT '更新时间',
  PRIMARY KEY (`id`),
  KEY `idx_com1` (`name`,`age`,`address`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用户表';

以下哪个查询语句没有使用到索引idx_com1?
A. select * from user where name='张三' and age = 25 and address='北京大兴区';

B. select * from user where name='张三' and address='北京大兴区';

C. select * from user where age = 25 and address='北京大兴区';

D. select * from user where address='北京大兴区' and age = 25 and name='张三'

索引在使用的时候要遵守最左原则,这里的复合索引最左字段为name,在创建`idx_com1`(`name`,`age`,`address`)索引的时候,实际上时创建了name,(name,age),(name,age,address)三种索引,

34. DELETE和TRUNCATE TABLE都是删除表中的数据的语句,它们的不同之处描述正确的是:

A. TRUNCATE TABLE比DELETE的速度快

B. 在删除时如果遇到任何一行违反约束(主要是外键约束),TRUNCATE TABLE仍然删除,只是表的结构及其列、约束、索引等保持不变,但DELETE是直接返回错误

C. 对于被外键约束的表,不能使用TRUNCATE TABLE,而应该使用不带WHERE语句的DELETE语句。

D. 如果想保留标识计数值,要用DELETE,因为TRUNCATE TABLE会对新行标志符列使用的计数值重置为该列的种子

35用户表中有两列name/country。现在要查询用户表中每个国家(country)的用户人数,应使用以下哪个语句

A. select count(*) from users group by country

B. select name from users where country = 'xx'

C. select count(country) from users

D. select country from users

31.D  32.A  33.C  34.ABCD  35. A 

36.下列程序打印结果为( )

import re
m = re.search('[0-9]','a1b2c3d4')
print(m.group(0))

A. 1

B. 1234

C. None

D. 其他几项都不对

37. 下列程序打印结果为( )

import datetime
t1 = datetime.datetime(2017,10,10,21,40)
t2 = datetime.datetime(2017,10,8,23,40)
tt1 = datetime.timedelta(seconds = 1200)
tt2 = datetime.timedelta(weeks = 3)
print(t1 - t2)

A. 600

B. 3600

C. 1 day, 02:00:00

D. 1 day, 22:00:00

38. 将Person表中Name字段为"Lilei"的AGE字段递增1,可以使用哪个SQL语句( )

A. UPDATE Person SET AGE = AGE + 1 WHERE Name = 'Lilei'

B. Alter Person SET AGE = AGE + 1 WHERE Name = 'Lilei'

C. UPDATE Person SET AGE = AGE + 1 WHERE Name = Lilei

D. SET AGE = AGE + 1 FROM Person WHERE Name = 'Lilei'

39. 将编码为gbk的字符串s转码为utf-8编码,以下操作正确的是

A. s.encode('utf-8')

B. s.decode('gbk')

C. s.encode('gbk').decode('utf-8')

D. s.decode('gbk').encode('utf-8')

40.以下关于range/xrange说法错误的是:

A. range返回的是list

B. xrange返回的是list

C. 生成大的数字序列时,适宜用range

D. 生成大的数字序列时,适宜用xrange

当需要生成很大的数字序列时用xrange会比range性能优很多,因为不需要一上来就开辟一块很大的内存空间,
36.A  37.D  38.A  39.D  40.  

41. python函数中支持args和*kwargs。

关于二者的区别以下说法错误的是:
A.
args要位于kwargs之前
B.
kwargs是将相应的传值以字典形式呈现
C.
args是将相应的传值以list的形式呈现
D.

42. 系统管理员编写扫描临时文件的shell程序tmpsc.sh, 测试该程序时提示拒绝执行,解决的方法有( )

A. chmod 644 tmpsc.sh

B. chmod 755 tmpsc.sh

C. chmod a+x tmpsc.sh

D. chmod u+x tmpsc.sh

读 4 写2 执行1 
chmod u+x file.sh表示当前目录下的file.sh文件的所有者增加可执行的权限,
chmod a+x 是给所有人加上可执行权限,包括所有者,所属组,和其他人
o+x 只是给其他人添加可执行权限

43. 在bash编程中,算术比较大于、大于等于的运算符是( )

A. >

B. >=

C. ge

D. gt

44. echo expr 3/4的执行结果

A. 0

B. 1

C. 0.75

D. 3/4

45. 文件目录data当前权限为rwx --- ---,只需要增加用户组可读权限,但不允许写操作,具体方法为:

A. chmod +050 data

B. chmod +040 data

C. chmod +005 data

D. chmod +004 data

41.C  42.B,C,D  43.CD  44.D  45.A

46. bash脚本文件一般第一行开头是

A. //

B. ##

C. #!

D. #/

47.如何获取上一条命令执行的返回码

A. $!

B. 0

C. $?

D. $#

48.Shell 脚本(shell script),是一种为 shell 编写的脚本程序。现有一个test.sh文件,且有可执行权限,文件中内容为:

#!/bin/bash
aa='Hello World !'

49. 请问下面选项中哪个能正常显示Hello World !

A. sh test.sh >/dev/null 1 && echo $aa

B. ./test.sh >/dev/null 1 && echo $aa

C. bash test.sh >/dev/null 1 && echo $aa

D. ../test.sh >/dev/null 1 && echo $aa

49.1 以下哪个命令是将标准输出和错误重定向到a.txt文件

A. &>a.txt

B. &|a.txt

C. a.txt < &

D. a.txt | &

50.假设一种基因同时导致两件事情,一是使人喜欢抽烟,二是使这个人和肺癌就是()关系,而吸烟和肺癌则是()关系。

A. 因果;相关

B. 相关;因果

C. 并列;相关

D. 因果;并列

45.A  46.C  47.C  48.D  491.D  49.A  50.A

51.若一个学习器的ROC曲线被另外一个学习器低的曲线完全“包住”,则断言后者的性能优于前者;若两个学习器的曲线出现交叉,该如何处理最为合适?

A. 比较ROC曲线线上的面积

B. 使用AUC进行比较

C. 目测进行判断

D. 通过其他方法判断两个学习器的优劣

52.关于随机森林的训练过程下列描述正确的是:

A. 样本扰动

B. 属性扰动

C. 样本扰动并且属性扰动

D. 不存在扰动现象

53. ( )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。

A. 数据清洗

B. 数据集成

C. 数据变换

D. 数据归约

54. 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为()

A. 0.821

B. 1.224

C. 1.458

D. 0.716

55. 下列关于脏数据的说法中,正确的是()

A. 格式不规范

B. 编码不统一

C. 意义不明确

D. 与实际业务关系不大

E. 数据不完整

51.B  52.C  53.D  54.D  55.ABCDE

56. 图像挖掘中常用卷积神经网络(DNN)作为基础结构,以下关于卷积操作 (conv)和池化 ( pooling)的说法正确的是?

A. conv基于平移不变性,pooling基于局部相关性

B. conv和pooling都基于平移不变性

C. conv基于局部相关性,pooling基于平移不变性

D. conv和pooling都基于局部相关性

57. 京东展开足球比赛,已知:joy队和Jder队。假设65%的比赛joy队胜出,剩余的比赛Jder队获胜。joy队获胜的比赛中只有30%是在Jder队的主场,而Jder队取胜的比赛中75%是主场获胜。如果下一场比赛在Jder队的主场进行Jder队获胜的概率为

A. 0.75

B. 0.35

C. 0.4678

D. 0.5738

  思路1: 
  已知P(wy)= 0.65     p(wr) = 0.35
      p(z|wy) = 0.3   p(z|wr) = 0.75
      求p(wr|z)
      1. 根据贝叶斯公式 p(wr|z) = p(z|wr)*p(wr) /p(z)
      由于p(z|wr),p(wr)已知,只需求p(z)
      2. 根据全概率公式 p(z) = p(wy)*p(z|wy)+p(wr)*p(z|wr)
      


58. 为了培养员工和子女的亲密度,京东开展亲子活动。活动中进行分组,一组有4对亲子(父子,母女,父女,母子),分组后同一组坐在同一张圆桌旁。活动中规定,孩子旁边只能是其他小孩或者自己父母 ,那么4对亲子在圆桌上有几种坐法?

A. 144

B. 240

C. 576

D. 480

59. 有三道门d1,d2,d3,兔子出现在各道门后的概率相同,选手猜中兔子在哪道门后面,就能赢得大奖。假设选手现在选门d1,主持人这时候去观察另外两扇门d2,d3,并明确告诉选手d3后面没有兔子。此时选手可以更改自己的选择,以便最大可能赢得奖励。以下说法正确的是?

A. 选手应该选择d1,且猜中概率为1/2

B. 选手应该选择d1,且猜中概率为2/3

C. 选手应该选择d2,且猜中概率为1/2

D. 选手应该选择d2,且猜中概率为2/3

60.分布函数具有可加性的性质很重要,以下说法正确的是?

(1) 均匀分布
(2) 二项分布
(3) 泊松分布
(4) 正态分布
(5) 伽马分布
(6) 卡方分布
A. 除了(1),其它具有可加性

B. 除了(2),其它具有可加性

C. 除了(3),其它具有可加性

D. 都具有可加性

56.A  57.C  58.D  59.D  60.A

61. 京东Joy是个懂得分享的小朋友,他有10个相同的糖果,分给3个Jder,每个人至少要得到一个。有多少不同的发配方法?

A. 33

B. 34

C. 35

D. 36


D

62. 京东图书开展赠书活动,采取一种排列规则。有20名Jder有幸被选中参加赠书活动。20名Jder配安排站为4排,每排5个人。从中任选4Jder赠送一本最新的图书,那么我们选的人都在不同排的概率为()

A. 5^4*5!15!/20!

B. 4^5*5!15!/20!

C. 5^4*4!16!/20!

D. 4^5*4!16!/20!

C

63. 京东Joy有有若干5g和7g的砝码,任何大于( )克都能够用5g和7g的砝码组合出。

A. 35

B. 23

C. 12

D. 53

B
因为组成任意个数1是必须要的

你可能感兴趣的:(京东面试-数据分析)