Begimwer

大数据综合考试总结

大数据综合考试一

1、Linux是单用户、多任务的操作系统。❌

2、使用shutdown -k 5 表示5分钟后关闭计算机。❌

3、Linux内核版本又分为稳定版和开发板，两种版本是相互关联的。⭕

4、Windows server的服务器市场占有率比Linux的更大。❌

5、Windows是封闭的，系统的可定制性很差，而Linux是开源的，可定制性强。⭕

6、没有安装操作系统的计算机，通常被称为裸机。⭕

7、操作系统的作用主要作用是管理好硬件设备，并为用户和应用程序提供一个简单的接口，以便于使用。⭕

8、关于虚拟机的描述是否正确虚拟机【Virtual Machine】指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。⭕

9、C语言的可移植性比最开始Unix中的B语言可移植性更差。❌

10、VIM编辑器是从VI发展出来的一个性能更强大的文本编辑器，有三种模式，分别是一般模式、编辑模式和指令模式。✔

11、Linux系统中一切皆文件。⭕

12、Linux使用ls -all命令将列出当前目录中的文件和子目录名。❌

13、Linux版本有：Ubuntu、RedHat、Fedora、openSUSE、Linux Mint、Debian、Manjaro、Mageia、CentOS、Arch⭕

14、显示当前登录用户账户的命令：whoami⭕

15、Linux在终端下输入Ctrl + C 作用是：停止进程⭕

16、Linux中home目录存放普通用户的主目录，在Linux中每个用户都有一个目录，一般该目录是以用户的账户命名。⭕

17、Linux文件权限一共10位长度，分成四段，第三段表示的内容是文件所有者所在组的权限。⭕

18、在使用mkdir命令创建新的目录时，在其父目录不存在时先创建父目录的命令：mkdir -p⭕

19、Linux查看文件的命令，若查看的文件较大应使用 less 命令比较高效。⭕

20、对名为fido的文件用chmod 551 fido 进行了修改，则它的许可权是：-r-xr-x--x⭕

21、用ls -al命令列出下面的文件列表，是软链接的是：lrwxr--r-- hel users 2024 Sep 12 08:12 cheng -> /home/hel/test。⭕

22、在VIM编辑器的一般模式中，

y3y 表示从光标所在行开始往后复制3行

yw 表示复制一个词

Shift + ^ 表示移动到行头

dd 表示删除光标所在行

23、在VIM的指令模式中，可以通过/?执行搜索、:w / ZZ进行保存、:q退出、ZZ表示没有修改文件直接退出，如果修改了文件保存后退出。 :wq! 表示强制保存并退出。

24、改变文件所有者的命令为：chown⭕

25、userdel -r + 用户名可以删除一个用户并同时删除用户的主目录。⭕

26、cat f1.txt > f2.txt 可以把f1.txt 复制为 f2.txt。⭕

将cat f1.txt所得到的内容，覆盖到f2.txt中(将f2.txt内容全部替换为cat f1.txt的内容)。

27、Linux中权限最大的账户是：root⭕

28、使用 ln -s 可以为指定的文件建立一个软链接。⭕

ln -s 指定文件的绝对路径软链接名

29、/etc/passwd 文件用来存储创建的用户信息和相关的参数。⭕

30、使用 groupmod 命令可以更改指定组的相关信息。⭕

groupmod 组名用户名 ————>即可修改指定用户的所属组

31、在Linux下用来查看网络设备信息所使用的命令是：ifconfig⭕

32、在Linux下使用echo 将"aaa"追加到bbb.txt所使用的追加符号是：>>⭕

echo "aaa" >> bbb.txt

33、使用 rm -rf /tmp/* 即可删除目录 /tmp 下的所有文件及子目录。⭕

-r：递归、-f：强制执行

34、Linux存放基本命令的目录是：/bin⭕

35、使用命令：vi /etc/inittab 查看该文件的内容，不想保存所修改的内容：在末行模式下，输入 :q!⭕

考察指令模式：:w 保存、:q：退出、:! 强制执行、:set nu 显示行号、:set nonu 关闭行号

36、Linux系统是参照Unix系统演变而来的。⭕

UNIX————>MINIX—————>LINUX

37、在Linux中使用 tar -c ：建立一个打包文件【产生.tar打包文件】，tar -x：解开一个打包文件。【解包.tar文件、⭕

-c：产生.tar打包文件

-x: 解压.tar打包文件

-v: 显示详细过程

-f: 指定压缩后的文件名

-z: 打包同时压缩

38、指定su命令相当于su root，输入密码即可切换为root用户。⭕

【su 用户名】只能获得用户操作权限，不能获得用户的环境变量

【su -用户名】可以获得用户操作权限和环境变量

39、Linux系统安全管理的内容包括：普通用户的系统安全、文件系统的安全、进程安全、文件内容的安全。⭕

40、文件权限对应的数字：r——4，w——2，x——1，- ——0⭕

41、rwx------的数字表示是700，rwxr-x---的数字表示是750，rw-rw-r-x的数字表示是665，rwxr-x-wx的数字表示是753。⭕

42、find指令将从指定目录向下递归地遍历其各个子目录，将满足条件的文件显示。

find -name：按照指定的文件名查找模式查找文件

find -user：查找属于指定用户名所有文件

find -size：按照指定的文件大小查找文件

43、gzip houge.txt 表示压缩文件，将houge.txt文件压缩为houge.txt.gz文件，源文件不会保留⭕

gunzip houge.txt.gz 表示解压houge.txt.gz，解压后产生一个houge.txt文件，houge.txt.gz压缩文件不会保留。⭕

44、关于drwxr-xr-x的描述：

该文件的所有者对文件有可读、可写‘可执行的权限

所有者的同组用户对该文件有可读、可执行权限

其他用户拥有该文件的可读、可执行权限

45、groupadd——新增组，groupdel——删除组，groupmod——修改组，cat /etc/group 可以查看我们创建了哪些组

46、passwd jinghang 表示设置【修改】用户jinghang的密码

id zhangsan 表示查看用户zhangsan是否存在

usermod -g root jinghang 表示修改用户jinghang 所在的组为root

47、在/data/old 目录下创建一个 oldboy.txt 文件，但是执行如下命令后报错

[root@oldboyedu ~] cd /data/old

-bash: cd: /data/old: No such file or directory

Q1：为何出现这样的错误 ? Q2：如何解决这个错误 ?

A1：因为要进入的文件目录不存在

A2：创建目录:

mkdir -p /data/old

cd /data/old

touch oldboy.txt

48、列出至少10个Linux中常用的命令，并说明他们的含义 ?

mkdir 创建目录

touch 创建一个空文件

useradd 添加一个新用户

echo 输出内容到控制台

userdel 删除用户

chown 修改文件或者目录的所有者

chmod 修改文件或者目录的操作权限

rm -rf 强制递归删除目录

rmdir 删除一个空的目录

ln -s 创建一个软链接

groupadd 添加一个组

49、解释以下内容的含义：

drwxr-xr-x 3 root root 4096 12月 12 15:23 test

d 表示该文件是一个目录，而非一个文件

rwxr-xr-x
表示该目录所属用户拥有可读、可写、可执行的权限，

该目录所属用户的所属组拥有可读、可执行的权限，

其他用户拥有可读、可执行的权限

root root 该目录所属用户为root用户，该目录所属组为root组

4096 该目录的大小为4096Kb

12月 12 15:23 表示该目录的创建时间为十二月十二号的下午三点二十三分

test 表示该目录的名称为test

50、假设你是系统管理员，需要增加一个新的用户账号zheng，为新用户设置初始密码，用户账号chang进行了违规操作，需要删除用户账号chang并删除用户目录

需要增加一个新的用户账号zheng

useradd zheng

为新用户设置初始密码

passwd zheng

删除用户账号chang并删除用户目录

userdel -r chang

大数据综合考试二

1、每分钟清空/tmp/内容

*/1 * * * * /bin/rm -rf /tmp/*

2、每个星期三的下午6点和8点的第5到15分钟之间备份 /home/jinghang 文件夹下的数据到/opt/software

5-15 18,20 * * 3 /bin/cp /home/jinghang/* /opt/software

3、Linux如何查看进程和杀死进程 ?

ps -aux 查看所有用户所有进程

ps -ef 查看子父进程之间的关系

ps -aux | grep 进程名称

kill -9 pid (进程号)

killall 进程名称

4、Linux如何安装软件 ? 有几种方式，相关参数有什么含义 ?

rpm 安装本地软件包

rpm -qa 软件包名查询RPM软件包的安装状态

rpm -qi 软件包

rpm -e 软件包卸载RPM软件

rpm -ihv 软件包名安装软件，显示详细信息和安装的进度条

-i install 安装 -v 显示详细信息 -h 展示安装的进度条

yum -y 【选项】软件名 -y：对所有提问默认为yes

install 安装rpm软件包

update 更新rpm软件包

check-update 检查是否有可用的更新rpm软件包

remove 删除指定的rpm软件包

list 显示软件包信息

clean 清理yum 过期的缓存 yum clean all

deplist 显示yum软件包的所有依赖关系

5、在Shell 中的特殊变量 $1、$0、$@、$#、$*、$?分别表示什么含义 ? $@、$*有区别吗?

$n(n代表数字)

$1 表示获取脚本中第一个参数

$0 可以获取运行脚本的名称

$# 可以获取所有输入参数的个数

$* 这个变量代表命令行中所有的参数

$@ 这个变量也代表命令行中所有的参数

$? 返回执行命令的状态 0: 一般表示命令执行成功，非0：一般表示执行不成功

$* $*把所有的参数看成一个整体

$@ $@把每个参数区分对待

6、Shell编程语言是一门解释性语言，Java是编译型语言。⭕

7、Linux中crontab可以设置定时任务，-e 表示编辑定时任务，-l：表示获取定时任务列表，-r 表示删除定时任务⭕

8、ps aux 可以查看所有用户所有进程⭕

9、top -d 5 表示5秒钟更新一次进程的状态信息。⭕

10、在shell 中创建变量a=3，该变量在整个针对所有会话和所有用户都可以访问。❌

11、在shell中创建变量可以以数字开头，例如0a=1 该变量是有效的。❌

12、在shell中使用unset可以撤销readonly修饰的变量。❌

13、【-r file.txt】执行后使用echo $? 返回结果为0，说明该文件有可读权限；返回结果为1，说明该文件没有可读权限。⭕

14、一个bash shell脚本的第一行是：#!/bin/bash 或者 #!/bin/env bash⭕

15、export 用来定义shell 的环境变量⭕

16、显示用户的主目录的命令是：echo $HOME⭕

17、以下对于shell 用户变量的定义，不对的是：0_Linux=2.6.30⭕

18、统计/root文件夹下的文件的个数的命令是：ls -l /root | grep "^-" | wc -l⭕

19、【-e /home/jinghang/cls.txt】表示判断/home/jinghang/cls.txt目录中的文件是否存在的命令。⭕

20、echo $RANDOM | md5sum | cut -c 1-8 表示使用RANDOM函数获取随机数字，然后通过MD5加密，剪切加密后的数字串的前8位字符。⭕

21、编写一个脚本计算1~100之间所有偶数的和

#!/bin/bash
:<

 
  22、以下关于条件判断描述不正确的是 
  A. -lt 小于 两个整数之间比较 
  B. -gt 大于 两个整数之间比较 
  C. -ne 不等于 两个整数之间比较e 
  D.  -ge 大于 两个整数之间比较 
  23、shell中自定义函数可以return一个返回值，返回的值只能是一个数字，并且在0~255之间。 
  24、以下关于运算符表达式的计算不能得到5的是 
  A. expr  2 + 3 
  B. expr 2+3 
  C. echo $[2+3] 
  D. echo $[ 2 + 3 ] 
    
  25、【$a == $b】和【$a -eq $b】有什么区别 ? 
          【$a == $b】——用于字符串比较，【$a -eq $b】——用于数字比较 
  26、下列运行脚本的方式不正确的是（） 
  A. sh  shell01.sh 
  B. bash  shell01.sh 
  C. bash  /home/jinghang/shell01.sh 
  D. 不需要给脚本添加(chmod +x shell01.sh)执行权限，直接使用相对路径运行脚本 ./shell01.sh 
  27、下列关于RPM描述不正确的是（） 
  A. rpm -ihv  rpm软件包 命令可以安装软件包 
  B. rpm -ihv rpm软件包 命令可以下载并安装软件包 
  C. rpm -e rpm软件包 命令可以卸载软件包 
  D. rpm -qa 查询所安装的所有rpm软件包 
  28、以下关于Linux的命令描述正确的是（） 
  A. mount  命令用来挂载设备 
  B. umount 命令用来卸载设备 
  C. du 查看指定目录的磁盘占用情况 
  D. fdisk -l 查看磁盘分区详情 
  29、下列关于shell常用的判断条件描述正确的是（） 
  A. -f 文件存在并且是一个常规的文件（file） 
  B. -e 文件存在（existence） 
  C. -d 文件存在并是一个目录（directory） 
  D. -dir 文件存在并是一个目录（directory） 
   
    
   
  30、下列关于Shell中的数组操作正确的是（） 
  A. 创建数组一个元素包含1~6的数组 arr=(1,2,3,4,5,6) 
  B. 读取数组中的第一个元素echo ${arr[0]} 
  C. 读取获取数组的长度echo ${#arr[@]} 
  D. 读取获取数组中的所有元素 echo ${arr[*]}[/*] 
  31、以下哪些是shell中的文本处理工具 
  A. awk 
  B. sed 
  C. sort 
  D. cut 
  32、下列关于正则表达式的描述正确的是（） 
  A. \d 单字符匹配表示匹配数字0~9 
  B. [^a-z] 单字符匹配表示不匹配a-z之间的字符 
  C. . 匹配除了换行符之外的任意字符 
  D. ^ 匹配以...开头 
  33、以下哪些是shell的解释器（ ） 
  A. /bin/bash 
  B. /bin/tcsh 
  C. /bin/csh 
  D. /bin/bsh 
   
    
   
    
  大数据综合考试三 
   
  1、下面属于Linux系统发行版本的是 
  A. Centos 
  B. Mac 
  C. Ubuntu 
  D. Red Hat 
  2、下面的命令描述正确的是 
  A. 创建一个名称为test组的命令：groupadd test 
  B. 改用户Tom设置密码命令：passwd Tom 
  C. 删除用户名为Tom的命令：userdel Tom 
  D. 切换当前用户帐户为 admin的命令：su admin 
  【3】、搜索文件内容的命令是 
  A. grep 
  B. cd 
  C. ls 
  D. find 
  4、修改文件权限的命令是 
  A. chown 
  B. chgrp 
  C. chuser 
  D. chmod 
  5、使用shutdown -r 命令 
  A. 并不真正使系统关机，而只是给用户提出警告 
  B. 关闭计算机 
  C. 重启计算机 
  D. 是计算机休眠 
  【6】、某客户端在采用ping命令检测网络连接故障时，发现可以ping通127.0.0.1及本机的IP地址，但无法ping通同一网段内其他工作正常的计算机的IP地址，说明该客户端的故障是 
  A. TCP/IP协议不能正常工作 
  B. 本机网卡不能正常工作 
  C. 本机网络接口故障 
  D. 本机DNS服务器地址设置错误 
  7、查看网络是否通畅命令是：ping 
  8、为了保证windows用户和Linux主机间用户能够正常地进行映射，用户必需保证在这两个系统上拥有相同的帐号。❌ 
  9、HDFS中的一个块设计的大小为128M，是因为程序为了减小寻址开销，减低namenode的元数据存储。⭕ 
  10、YARN服务功能中的Container对任务运行环境的抽象，封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。⭕ 
  11、ResourceManager可以启动并监控ApplicationMaster。⭕ 
  12、Hadoop的三种运行模式一般指单机版、伪分布式版和全分布式版。⭕ 
  13、Hadoop1.x和Hadoop2.x区别之一，后则将mapreduce中的资源调度模块拆分为yarn。⭕ 
  14、Hadoop 2.x中默认50070是hdfs的web管理端口，19888是JobHistory的web管理 端口，8080是yarn的web管理端口。❌ 
  15、Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); FSDataOutputStream fis = fs.open("/123"); 以上代码没有任何错误。❌ 
  16、MapReduce是一个分布式的运算程序编程框架。⭕ 
  17、NameNode是主节点，不可以存储以下数据 
  A. 元数据的文件名 
  B. 元数据的文件目录结构 
  C. 存储文件块数据 
  D. 元数据的文件属性 
  18、在当前目录下解压归档文件this.tar.gz我们可以使用命令：tar -zxvf this.tar.gz 
  19、下面对HDFS描述错误的是(  ) 
  A. 文件切分成块，默认大小100M，以块为单位，每个块有多个副本存储在不同的机器上，副本数可在文件生成时指定，默认2 
  B. NameNode是主节点(master)，存储文件的元数据 
  C. DataNode在本地文件系统存储文件块数据 
  D. HDFS可以完成创建、删除、移动或重命名文件夹等操作 
  20、下列那个命令不可以从linux本地文件系统中上传文件到hdfs文件系统上的命令 
  A. Hdfs dfs -put 
  B. Hdfs dfs -moveFromLocal 
  C. Hdfs dfs -copyFromLocal 
  D. Hdfs dfs -get 
  21、[linux] 表示主机名与IP地址映射关系的文件是(  ) 
  A. /etc/host.conf 
  B. /etc/hostname 
  C.  /etc/hosts 
  D. /etc/resolv.conf 
  22、hdfs的核心服务(  ) 
  A. namenode和datanode、secondarynamenode 
  B. resourcemanager和yarn 
  C. yarn和hdfs 
  D. resourcemanager和nodemanager 
  23、下面描述正确的选项有(  ) 
  A. 启动hdfs命令 start-yarn.sh 
  B. 启动yarn命令：start-dfs.sh 
  C. 启动hdfs命令 start-dfs.sh 
  D. 启动yarn命令：start-yarn.sh 
  24、HDFS的特点有哪些 
  A. 高可靠性 
  B. 高容错性 
  C. 低容量 
  D. 低扩展 
   
    
   
  25、下列属于hadoop的发行版本的是() 
  A. Apache 
  B. Cloudera 
  C. Hortonworks 
  D. Centos 
   
    
   
  26、Hadoop是依据以下哪些论文内容作为框架的基本思想（） 
  A. GFS 
  B. DFS 
  C. Map-Reduce 
  D. BigTable 
   
    
   
  27、配置hadoop时我们需要添加相关配置，自定义配置时修改的.xml文件有哪些（） 
  A. yarn-site.xml 
  B. mapred-site.xml 
  C. hdfs-site.xml 
  D. core-site.xml 
  28、以下关于单点启动hdfs相关服务命令正确的是（） 
  A. hadoop-daemon.sh  start   namenode 
  B. hadoop-daemon.sh  start  datanode  
  C. hadoop-daemon.sh  start secondarynamenode 
  D. hadoop-daemon.sh  start  yarn 
  29、列出常用的hdfs文件操作的命令，并说明含义，至少列出11个 
   
   Hadoop fs | hdfs dfs 命令分类 
   本地文件 ->  HDFS    
 -put   将本地数据上传至hdfs    
 -copyFromLocal 将本地文件数据拷贝到hdfs    
 -moveFromLocal 将本地文件数据移动到hdfs，成功后本地数据会删除    
 -appendToFile 追加一个本地文件到hdfs已经存在的文件末尾
   
   HDFS与HDFS之间    
 -ls  查看hdfs文件目录    
 -mkdir 在HDFS上创建目录    
 -rm 删除文件或者文件夹    
 -rmr   递归删除    
 -cp  从一个目录拷贝文件至另一目录    
 -mv 在HDFS目录中移动文件    
 -chown  修改文件所属用户权限    
 -chmod  修改文件所属读写权限    
 -du -h   文件夹暂用的空间大小    
 -df -h   查看系统分区情况    
 -cat 查看文件     

 HFDS -> 本地    
 -get  从hdfs下载文件至本地    
 -getmerge  合并hdfs目录下的文件至本地    
 -copyToLocal  从hdfs拷贝文件至本地 
   
  30、是否可以自行搭建Hadoop集群？请自行设计一个hadoop集群，并简述基本搭建流程。 
   
   是的，只要对Hadoop环境足够熟悉，你完全可以这么做。 
   这个答案不唯一，完全可以按照日常搭集群的步骤写  
   设计集群可以做如下设计 3台（hadoop默认的副本数是3） 
    
     
      
      hadoop01 
      hadoop02 
      hadoop03 
      
      
      namenode 
      resourcemanager 
      secondarynamenode 
      
      
      datanode 
      datanode 
      datanode 
      
      
      nodemanager 
      nodemanager 
      nodemanager 
      
      
      historyserver 
        
        
      
     
    
   Ⅰ、修改静态ip、修改主机名 
 Ⅱ、安装JDK并配置环境变量（/etc/profile）
 Ⅲ、关闭防火墙
 Ⅳ、配置hosts文件，方便hadoop通过主机名访问（/etc/hosts）
 Ⅴ、设置ssh免密码登录
 Ⅵ、解压缩hadoop安装包，并配置环境变量
 Ⅶ、修改配置文件、设置java jdk路径和相关的节点配置（$HADOOP_HOME/etc/hadoop）
 Ⅷ、第一次启动需要格式化hdfs文件系统 （hadoop namenode -format）
 Ⅸ、启动hadoop集群，可单点启动，可群起 （$HADOOP_HOME/sbin/start-dfs.sh  $HADOOP_HOME/sbin/start-yarn.sh）
 Ⅹ、使用jps查看节点进程 
   
  31、如何重启Namenode？如果一个namenode或者datanode使用命令无法停止，怎么办？ 
   
   方式一：输入stop-dfs.sh,再输入start-dfs.sh
 方式二：输入hadoop-demains.sh stop namename ,再输入hadoop-demains.sh start namename
 如果采用命令的方式无法停止NameNode或者DataNode，则可以使用kill -9  + 进程id强制杀死进程后再重新启动 
   
  35、HDFS默认的Block块大小是多少？为什么块的大小不能设置太小，也不能设置太大？ 
   
   （1）默认的块大小是128M，
 （2）因为HDFS的块设置太小，会增加寻址时间，程序一直在找块的开始位置；
 如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。
 导致程序在处理这块数据时，会非常慢。其实HDFS块的大小设置主要取决于磁盘传输速率。 
    
   
  36、谈谈你对hdfs的理解？ 
   
   HDFS（Hadoop Distributed File System），
 它是一个分布式文件系统，用于存储文件，通过目录树来定位文件；
 适合一次写入，多次读出的场景，且不支持文件的修改；
 具有高容错性，可以构建在廉价的服务器上，主要是为了解决海量数据的存储问题 
   
  37、hdfs分布式文件系统中，namenode、datanode、senconarynamenode作用分别是什么？ 
   
   NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等；
 DataNode(dn)：在本地文件系统存储文件块数据，以及数据块的校验；
 Secondary NameNode(2nn)：用来辅助namenode，并不是namenode的热备，主要工作完成Fsimage和edits用户编辑日志的合并工作 
   
  38、以下哪些命令可以实现服务器之间的文件分发 
  A. cp -r 
  B. scp -r 
  C. rsync -av 
  D. sync -av 
  39、以下关于ssh说法正确的是 
  A. SSH 为 [url=https://baike.baidu.com/item/Secure%20Shell]Secure Shell[/url] 的缩写，是一个网络安全协议 
  B. ssh-keygen -t rsa 可以生成公钥和私钥 
  C. 要实现免密登录我们需要将本机的公钥通过 ssh-copy-id 主机名 将公钥给其他服务器 
  D. ssh采用的是对称加密 
    
  大数据综合考试四 
   
    
  1、简单描述Shuffle过程环形缓冲区的作用? 
   
   Key，value从map( )方法输出，被outputCollector收集通过getPartitioner( )方法获取分区号，在进入环形缓冲区。默认情况下，环形缓冲区大小值为100MB。当map输入的数据进入环形缓冲区的量达到80MB以上时，那么开始执行溢写过程，溢写过程中如果有其他数据进入，那么由剩余的百分之20反向写入。溢写过程会根据key，value先进行分区，后进行排序，最终maptask溢写文件经过归并排序后落入本地磁盘，reduceTask将多个mapTask下相同分区的数据copy到不同的reduceTask中进行归并排序后一次读取一组数据给reduce( )函数。 
   
    
  2、HDFS默认的Block块大小是多少 ? 为什么块的大小不能设置太小，也不能设置太大? 
   
   默认的块大小是128M， 
   因为HDFS的块设置太小，会增加寻址时间，程序一直在块的开始位置； 
   如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢。其实HDFS块的大小设置主要取决于磁盘传输速率。 
   
    
  3、简述HDFS的默认副本策略 ?  这样做有什么好处?  
   
   第一个副本在客户端所处的的节点上。如果客户端在集群外【意思就是执行上传的服务器不属于集群的节点】，则随机在机架上选一个； 
   第二个副本和第一个副本位于相同机架随机节点上； 
   第三个副本位于不同机架，随机节点。 
   优点： 
   该策略减少了机架间的写流量、通常可以提高写性能。机架故障大的机会远小于节点故障的机会。所以此策略不会影响数据的可靠性和可用性保证。 
   
    
  4、简单描述你对Hadoop集群SafeMode模式的理解 ? 
   
   集群处于安全模式，不能执行重要操作(写操作)，集群属于只读状态。但是严格来说，只是保证HDFS元数据信息的访问，而不保证文件的访问。集群启动完成后，自动退出安全模式，如果集群处于安全模式，想要完成写操作，需要离开安全模式。 
    
     
      
      SafeMode模式相关的命令 
      功能描述 
      
     
     
      
      bin/hdfs dfsadmin -safemode get 
      查看安全模式状态 
      
      
      bin/hdfs dfsadmin -safemode enter 
      进入安全模式状态 
      
      
      bin/hdfs dfsadmin -safemode leave 
      离开安全模式状态 
      
      
      bin/hdfs dfsadmin -safemode wait 
      等待安全模式状态 
      
     
    
   对于全新创建的HDFS集群，NameNode启动后不会进入安全模式，因为没有Block信息 
   
    
  5、用一句话总结Combiner的作用和意义，使用它有什么前提 ? 
   
   Combiner的意义就是对每一个MapTask的输出进行局部汇总，以减小网络传输量 
   
    
  6、简述HDFS的文件上传流程?  
   
   Ⅰ、客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否存在，父目录是否存在。 
   Ⅱ、NameNode返回是否可以上传 
   Ⅲ、客户端请求第一个Block上传到哪几个DataNode服务器上。 
   Ⅳ、NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。 
   Ⅴ、客户端通过FsDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。 
   Ⅵ、dn1、dn2、dn3逐级应答客户端。 
   Ⅶ、客户端开始往dn1上传第一个Block(先从磁盘读取数据放到一个本地内存缓存)，以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。 
   Ⅷ、当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。 
   
    
  7、HDFS的web管理url中的端口50070是不能修改的。❌ 
  8、Hadoop2.x版本中的数据块副本数可以设置为1024。【副本数设置为1024来存储数据没有意义】❌ 
  9、NodeManager主动向ResourceManager发送心跳，NameNode也是主动向DataNode发送心跳。❌ 
   
   NameNode是接收DataNode发送的心跳及块状态的。 
   
  10、ReduceTask是负责从MapTask上远程读取输入数据后对数据排序，将数据分组传递给用户编写的reduce进行处理。⭕ 
  11、MapReduce是一个分布式的运算程序编程框架，适合处理大量的离线数据，有良好的扩展性和高容错性。⭕ 
  12、Secondary NameNode就是NameNode出现问题时的备用节点，必要时可以直接取代NameNode。❌ 
   
   Secondary NameNode主要功能是辅助NameNode将Fsimage和Edits文件合并。 
   
  13、HDFS是分布式的海量文件存储系统。⭕ 
  14、web页面访问http://192.168.153.88:50070可以查看hadoop的datanode存活和数据存储的URL地址。⭕ 
  15、NameNode全权管理数据块的复制，它周期性地从集群中地每个DataNode接收心跳信号和块状态报告(Blockreport)，接收到心跳信号意味着该DataNode节点工作正常。⭕ 
  16、ResourceManager负责对NodeManager资源进行统一管理和调度。⭕ 
  17、Hadoop1.x 和 Hadoop2.x 区别之一，后者将mapreduce中资源调度模块拆分为yarn。⭕ 
  18、下面哪些是对reduceTask阶段任务正确理解： 
  A、对多个mapTask任务输出key、value，按照不同地分区通过网络copy到不同地reduceTask节点处理 
  B、对多个mapTask任务的输出进行合并、排序。再reduce函数中实现自己的逻辑，对输入的key、value处理，转换成新的key、value输出。 
  C. outputformat把reducer输出的key，value保存到文件中。 
  D. reduceTask阶段不会根据key进行分组和排序 
  19、执行一个job, 如果这个job的输出路径已经存在，那么程序会  
  A. 覆盖这个输出路径 
  B. 抛出警告，但是能够继续执行 
  C. 抛出一个异常，然后退出程序的执行 
  D. 会抛出文件路径已存在的异常 
  20、对mapreduce数据类型理解正确 
  A. 数据类型都实现Writable接口 
  B. hadoop的序列化中数据可以被序列化进行网络传输和文件存储 
  C. Mapreduce中的数据类型和java一模一样 
  D. Mapreduce中的数据类型完全覆写java中基本类型 
  21、下面对Combiner描述正确的是 
  A. 合理利用Combiner可以提高程序执行效率 
  B. Combiner的作用可以减少对本地磁盘的访问次数。 
  C. Combiner过程设置则执行，否则不执行，默认过程中没有执行Combiner 
  D. 任何情况下我们都能够使用Combiner，不会对业务又任何影响 
  22、Container封装节点上多维度资源包括  
  A. 内存 
  B. CPU 
  C. 磁盘 
  D. 网络 
  23、对ApplicationMaster描述正确的是(  ) 
  A. ApplicationMaster是HDFS组件 
  B. 负责协调来自ResourceManager分配的资源 
  C. 通过NodeManager监视任务的执行和资源使用 
  D. ApplicationMaster是一个长应用，分配的任务执行完毕后，不会消失(释放) 
  24、下列说法正确的是() 
  A. mapreduce总体上分为maptask阶段和reducetask阶段 
  B. shfflue阶段由maptask的后半部分和reducetask的前半部分组成 
  C. shfflue阶段可能会造成数据倾斜 
  D. shfflue阶段不会对数据进行排序和分区 
  25、下列说法正确的是 ( ) 
  A. inputformat阶段会对文件进行切片，切片过程是物理上的切片 
  B. inputformat阶段会对文件进行切片切片规则，单个文件切一片，当单个文件的大小超过128M的1.1倍时，默认按照128M进行切片 
  C. 切片的数量决定了maptask的数量，maptask任务并行执行 
  D. inputformat会将文件转换为key value输出到mapper类的map()方法 
  26、关于hadoop的序列化，下列描述正确的是() 
  A. 序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。 
  B. 使用hadoop的序列化时我们必须实现Writable接口 
  C. hadoop序列化的优点紧凑、快速、支持多语言操作，只对必要的数据进行序列化 
  D. hadoop序列化是一个重量级的序列化框架，会附带很多额外的信息 
  27、下列描述正确的是( ) 
  A. ReduceTask默认值就是1，所以输出文件个数为一个 
  B. 如果数据分布不均匀，就有可能在Reduce阶段产生数据倾斜 
  C. 具体多少个ReduceTask，需要根据集群性能而定。 
  D. ReduceTask的数量越多越好，这样处理数据执行的效率越高 
  28、下面对MapReduce描述错误的是(  ) 
  A. 适合海量离线数据计算、分析处理 
  B. 具有很好的容错性和扩展性 
  C. 启动开销小、可以使用很少的磁盘来效率提高 ，执行快 
  D. Shuffle连接Mapper和Reducer 
  29、下面描述正确的是(  ) 
  A. NameNode是一个中心服务器(master端)，负责管理文件系统的名字空间、元数据的存储、以及客户端对文件的访问 
  B. DataNode负责元数据操作，文件内容相关的数据流经过会DataNode. 
  C. 副本存放在那些DataNode上由NameNode和DataNode协商控制分配 
  D. DataNode全权管理数块的存储，接受心跳信号和块状态报告 
  30、下列描述错误的是(  ) 
  A. Hadoop在完全参照GSF项目的基础上演变而来 
  B. Hadoop充分吸收google三大论文的思想 
  C. Hadoop解决了大数据中海量数据的存储和海量数据的计算问题 
  D. Hadoop现目前属于apache 基金组织，属于top项目之一 
  31、关于ssh协议中的免登录，下列理解错误的是(  ) 
  A. 可以用命令 ssh-keygen -t rsa 生成公私密钥对 
  B. ssh协议是一种采用的是非对称加密 
  C. 可以用 ssh-copy-id 命令来发送公钥到别的服务器 
  D. ssh的私钥不是必须保留在服务器上，可以进行分发，保证数据的安全性。 
  32、默认的SecondaryNamenode web管理端口是 (  ) 
  A. 50070 
  B. 8020 
  C. 50090 
  D. 22 
  33、下面关于Shuffle过程的分区描述正确的是(  ) 
  A. 可以通过继承Partitioner类实现自定义分区 
  B. 默认情况，MapReduce没有使用分区 
  C. 设置不设置分区和不分区都一样。 
  D. mapreduce中只能通过继承Partitioner类实现将数据结果输出到多个文件 
  34、在整个maprduce运行阶段，数据是以(  )形式存在的 
  A. key/value 
  B. LongWritable 
  C. Text 
  D. IntWritable 
  35、下面不属于Shuffle操作的是(  ) 
  A. 排序 
  B. 归并排序 
  C. 分组 
  D. reduceTask key value的输出 
  36、Java 语言中提供了一个(  )线程，自动回收动态分配的内存。 
  A. 异步 
  B. 消费者 
  C. 守护 
  D. 垃圾收集 
  37、[linux] 表示主机名与IP地址映射关系的文件是(  ) 
  A. /etc/host.conf 
  B. /etc/hostname 
  C. /etc/hosts 
  D. /etc/resolv.conf 
  38、Hadoop项目主要包括四个模块，下面那个是描述错误(  ) 
  A. Hadoop Common ：为其他Hadoop模块提供基础设施，是其他模块的公共部分。 
  B. Hadoop DFS：高可靠、高吞吐量的分布式文件系统，解决海量数据的存储问题 
  C. Hadoop MapReduce：分布式的离线并行计算框架，解决海量数据的分析和计算问题 
  D. Hadoop YARN：新的MapReduce框架，监控DFS 
  39、元数据中包含两个文件是(  ) 
  A. newedits和imaging 
  B. fsimage和imaging 
  C. fsimage和edits 
  D. 两个fsimage 
  40、在执行MapReduce过程中用哪个方法提交作业 (  ) 
  A. JoB.addCacheFile() 
  B. JoB.waitForCompletion() 
  C. JoB.setMapperClass() 
  D. JoB.setJarByClass() 
  41、在shuffle过程中，环形缓冲区的内存达到一定数值将执行溢写操作，这个数值的大小是（默认情况下）(  ) 
  A. 100 
  B. 90 
  C. 80 
  D. 60 
  42、关于 SecondaryNameNode 哪项是正确的(  ) 
  A. 它是 NameNode 的热备，必要时可以取代namenode 
  B. 它对内存没有要求 
  C. 它是辅助NameNode ，它的目的是帮助 NameNode 合并编辑日志，减少 NameNode 启动时间和压力，提高NameNode的整体性能 
  D. 都不正确 
  43、下列那个配置描述是错误的(  ) 
  A. fs.defaultFS是定义hdfs集群的命名空间 
  B. dfs.replication是定义hdfs文件系统副本数 
  C. dfs.datanode.data.dir是定义hdfs文件系统元数据存放目录 
  D. dfs.namenode.name.dir是定义hdfs文件系统元数据存放目录 
  44、下面对fsimage和edits描述错误的是(  ) 
  A. FsImage文件：HDFS文件系统元数据的一个永久性的检查点，其中包含HDFS文件系统的所有目录和文件inode的序列化信息。 
  B. Edits文件：存放HDFS文件系统的所有更新操作的路径，文件系统客户端执行的所有写操作首先会被记录到Edits文件中。 
  C. DataNode启动时会加载fsimage和edits文件到内存. 
  D. SecondaryNode实时的辅助备份fsimage和edits，辅助NameNode，协助其完成元数据和编辑文件的合并工作 
  45、下列那些不属于mapreduce的基本类型(  ) 
  A. BooleanWritable 
  B. LongWritable 
  C. NullWritable 
  D. Integer 
    
  大数据综合考试五 
   
  1、Yarn的默认配置是不允许JVM重用，但用户可以通过配置来允许JVM重用，一个task运行在一个JVM上，开启重用的话，该
 task在JVM上运行完毕后，JVM继续运行其他task。⭕ 
  2、Hadoop集群添加节点有两种方式，
 ①静态添加：关闭Hadoop集群，配置相应配置，重启集群。
 ②动态添加：不关闭Hadoop集群，配置相关配置，刷新节点即可。⭕ 
  3、一个集群里可以添加多个ResourceManager，但是只会有一个处于【active】存活状态，其他的处于【standby】状态。⭕ 
  4、在整个工作流程当中，ResourceManager和NodeManager都是通过心跳保持联系的。⭕ 
  5、DataNode负责接收客户端发送过来的信息，然后将文件存储信息位置发送给提交的客户端，由客户端直接与DataNode进行 
  联系，进行部分文件的运算与操作。❌ 
  负责接收客户端发送过来的信息，然后将文件存储信息位置发送给提交请求的客户端的是NameNode。 
  6、Hadoop的三种运行模式一般指单机模式(本地模式)、伪分布式和完全分布式。⭕ 
  7、Namenode是一个中心服务器(master端)，负责管理文件系统的名字空间以及客户端对文件的访问请求。⭕ 
  8、HDFS中的一个块设计的大小为128M，是因为程序为了减小寻址开销，减低namenode的元数据存储。⭕ 
  9、kill -9 命令可以向一个进程发送信号，强行终止进程的运行。⭕ 
  10、Zookeeper分布式集群中，选举机制，谁的服务器ID最大，就选谁作为Leader。❌ 
  11、Zookeeper得特性中得数据更新得原子性，表示一次数据的更新操作要么成功要么失败，不存在成功了一半这种状态。⭕ 
  12、实现高可用最关键的策略是消除单点故障。HA严格来说应该分为各个组件的HA机制即：HDFS的HA和YARN的HA。⭕ 
  13、Zookeeper中观察者角色既能完成非事务性操作，也可以参与Leader的投票选举。❌ 
  14、NameNode机器发生意外，如宕机，或者机器需要升级等，集群将无法使用。⭕ 
  15、HDFS高可用模式下，无论是处于Active的namenode还是处于standby的namenode都可以将edits编辑日志写入journal文件管理系统中。❌ 
  16、Yarn的HA高可用中，可以同时有两个resourcemanager处于active状态。❌ 
   
   Yarn的HA高可用中，只能有一个resourcemanager处于active状态，其他的resourcemanager的是standby状态 
   
  17、MapReducer框架在Reducer阶段给用户提供以下哪些方法 
  A. setup() 
  B. reduce() 
  C. map() 
  D. cleanup() 
   
    
   
  18、下面的命令描述正确的是 
  A. 创建一个名称为test组的命令：groupadd test 
  B. 改用户Tom设置密码命令：passwd Tom 
  C. 删除用户名为Tom的命令：userdel Tom 
  D.切换当前用户账户为admin的命令：su admin 
  19、为了能够使用ls程序列出目录的内容，并且能够使用cd进入该目录，操作者需要有( )该目录的权限。 
  A. 读 
  B. 写 
  C. 执行 
  D. 递归 
  20、下面描述正确的是( ) 
  A. HDFS将数量众多的廉价机器使得硬件错误称为常态。 
  B. HDFS支持多种软硬件平台中的可移植性。 
  C. HDFS上的一个文件大小是G或T数量级的，支持的文件数量达到千万数量级。 
  D. HDFS上的文件可以任意修改。 
  21、YARN服务描述正确的是( ) 
  A. YARN总体上仍然是Master/Master结构 
  B. YARN服务组件不包括ApplicationMaster 
  C. YARN总体上仍然是Master/Slave结构 
  D. ApplicationMaster，它负责向ResourceManager申请资源，并要求NodeManager启动可以占用一定资源的任务。 
  22、YARN服务组件包括( ) 
  A. NameManager 
  B. ApplicationMaster 
  C. Container 
  D.ResourceManager 
  23、Secondary NameNode描述正确的是( ) 
  A. Secondary NN 通知NameNode切换edit编辑日志 
  B. Secondary NN 从NameNode获得fsimage和edit编辑日志进行合并 
  C. Secondary NN 将fsimage和edit 文件载入内存，然后开始合并文件 
  D. Secondary NN 将新合并的fsimage（此时文件名还不叫Fsimage）发回给NameNode 
  24、生成RSA密钥对的命令是( ) 
  A. ssh-keygen -t rsa 
  B. ssh-keygen -t rsa -P "" 
  C. ssh -t rsa -P " 
  D. keygen -t rsa 
   
   使用A项，需要连续三次回车，获得私钥和公钥。 
   使用B项，只需要一次回车即可获得私钥和公钥。 
   
  25、对NodeManager服务描述正确的是( ) 
  A. 整个集群有多个NodeManager、NodeManager负责单节点资源管理和使用 
  B. NodeManager管理当前节点的Container资源抽象 
  C. 通过心跳机制定时地向ResourceManager汇报本节点上的资源使用情况 
  D. NodeManager服务器跟ResourceManager毫无关系 
  26、HDFS文件块描述正确的是( ) 
  A. Hadoop2.x版本文件切分成块（默认大小128M），以块为单位。 
  B. Hadoop2.x版本文件切分成块（默认大小256M），以块为单位。 
  C. Hadoop2.x版本文件切分成块（默认大小64M），以块为单位。 
  D. 文件关闭之后不能修改文件内容，只能完成追加操作。 
  27、配置机架感知的下面哪项正确( ) 
  A. 如果一个机架出问题，不会影响数据读写 
  B. 写入数据的时候会写到不同机架的DataNode中 
  C. MapReduce会根据机架获取离自己比较近的网络数据 
  D. 随机找寻DataNode节点进行数据的存储。 
  28、Client端上传文件的时候下列哪项正确 
  A. 数据经过NameNode传递给DataNode 
  B. Client端将文件切分为Block块，namenode匀速上传文件后，与datanode建立连接，依次将数据传到DataNode中落盘。 
  C. Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作 
  D. 当某个DataNode失败，客户端会继续传给其它DataNode 
  29、以下描述HDFS的计数器描述正确的是 (  ) 
  A. 计数器相当于是一个全局变量 
  B. 计数器的值在job运行过程中是不稳定的 
  C. 枚举类型计数器比字符串类型计数器更加灵活 
  D. 计数器每次增加的值一般都是1 
  30、以下哪些是Yarn的调度器描述正确的是（ ） 
  A. FIFO 先进先出 
  B. 公平调度器 （Fair Scheduler） 
  C. 容量调度器（Capacity Scheduler） 
  D. Hadoop 2.7.2 默认的是公平调度器 （Fair Scheduler） 
   
   解析：Hadoop 2.7.2 默认的是容量调度器（Capacity Scheduler） 
   
  31、下列关于正则表达式的描述正确的是（） 
  A. \d 单字符匹配表示匹配数字0~9 
  B. [^a-z] 单字符匹配表示不匹配a-z之间的字符 
  C. . 匹配除了换行符之外的任意字符 
  D. ^ 匹配以...开头 
  32、以下哪些命令可以实现服务器之间的文件分发（ ） 
  A. cp -r 
  B. scp -r 
  C. rsync -av 
  D. xsync -av 
  33、下列说法正确的是 
  A. inputformat阶段会对文件进行切片，切片过程是物理上的切片 
  B. inputformat阶段会对文件进行切片切片规则，单个文件切一片，当单个文件的大小超过128M的1.1倍时，默认按照128M进行切片 
  C. 切片的数量决定了maptask的数量，maptask任务并行执行 
  D. inputformat会将文件转换为key value输出到mapper类的map()方法 
  34、下列是继承自FileInputFormat的类的是（ ） 
  A. CombineTextInputFormat 
  B. TextInputFormat 
  C. NLineInputFormat 
  D. KeyValueTextInputFormat  
   
    
    
   
    
  35、下列属于hadoop的发行版本的是（ ） 
  A. Apache 
  B. Cloudera 
  C. Hortonworks 
  D. Centos  
  36、关于hadoop的压缩格式下列描述正确的是（  ） 
  A. DEFLATE，hadoop自带，支持切片，和文本处理一样，不需要修改 
  B. bzip2，hadoop自带，支持切片，和文本处理一样，不需要修改 
  C. LZO，需要安装才能使用，支持切片，和文本处理一样，不需要修改 
  D. Snappy，需要安装才能使用，不支持切片，和文本处理一样，不需要修改 
   
    
   
  37、Shuffle中的Partitioner设置分区发生在哪个过程(  ) 
  A. 溢写过程 
  B. 本地Merge 
  C. reduce阶段 
  D. map阶段 
   
   由Map输出的以形式传输的数据，经过outputCollector的getPatition方法获得分区，然后写入环形缓冲区，进入下一个阶段。 
   
  38、在执行MapJoin过程中用哪个方法提交缓存文件小表数据 (  ) 
  A. Job.addCacheFile() 
  B. Job.waitForCompletion() 
  C. Job.setMapperClass() 
  D. Job.setJarByClass() 
  39、运行WordCount命令(  ) 
  A. hadoop jar hadoop-examples-2.7.2.jar wordcount /data/input /data/output 
  B. hadoop fs -hadoop-examples-2.7.2.jar wordcount /data/input /data/output 
  C. hadoop fs -hadoop-examples-2.7.2/jar wordcount /data/input /data/output 
  D. hadoop jar hadoop-examples-2.7.2/jar wordcount /data/input /data/output 
  40、HDFS和YARN均是(  )架构 
  A. 单一 
  B. 主从 
  C. 多服务交换 
  D. 链式 
  41、hdfs系统的模块启动脚本是(  ) 
  A. dfs-start.sh 
  B. start-dfs.sh 
  C. hdfs-daemon.sh start namenode 
  D. hadoop-daemon.sh start datanode 
  42、hdfs HA中JournalNodes的数量至少几个（ ） 
  A. 1 
  B. 2 
  C. 3 
  D. 5 
  43、ZKFC是由哪个框架提供的服务进程(  ) 
  A. hadoop 
  B. zookeeper 
  C. Linux 
  D. Flume  
  44、检查是否已安装NTP服务命令正确的是(  ) 
  A. rmp -qa ntp 
  B. rpm -a ntp 
  C. rpm -q ntp 
  D. rpm -qa ntp 
  45、下列那个命令不可以查看hadoop的日志文件(  ) 
  A. Cat hadoop-root-datanode-hadoop01.log 
  B. less  hadoop-root-datanode-hadoop01.log 
  C. More  hadoop-root-datanode-hadoop01.log 
  D. Text hadoop-root-datanode-hadoop01.log 
  46、下面那个不是Hadoop Safe Mode命令(  ) 
  A. hadoop dfsadmin -safemode get 
  B. hadoop dfsadmin -safemode wait 
  C. hadoop dfsadmin -safemode out 
  D. hadoop dfsadmin -safemode enter 
  47、通常情况下，下列那个不属于短应用程序(  ) 
  A. ApplicationMaster 
  B. YarnChild 
  C. Container 
  D. ResourceManager 
  48、Hadoop 由开源的(  )程序所编写 
  A. C语言 
  B. JAVA 
  C. C++语言 
  D. Linux 
    
  49、zookeeper集群的角色和作用？ 
   
   Leader: 
   Zookeeper集群工作的核心,事务请求（写操作）的唯一调度和处理者，保证集群事务处理的顺序性，集群内各个服务器的调度者；对于 create, setData, delete 等有写操作的请求，则需要统一转发给leader 处理.leader 需要决定编号、执行操作，这个过程称为一个事务。   
   Follower: 
   处理客户端非事务（读操作）请求，转发事务请求给Leader，参与集群Leader选举投票。   
   Observer： 
   对于访问量比较大的集群，可以新增观察者角色, 处理客户端非事务（读操作）请求，不参与leader的选举投票。  
   
    
  50、Zookeeper有哪几种节点类型? 
   
   永久（Persistent）：客户端和服务器端断开连接后，创建的节点不删除  
   临时（Ephemeral）：客户端和服务器端断开连接后，创建的节点自己删除  
   （1）永久化目录节点 客户端与Zookeeper断开连接后，该节点依旧存在  
   （2）永久化顺序编号目录节点 客户端与Zookeeper断开连接后，该节点依旧存在，只是Zookeeper给该节点名称进行顺序编号 （3）临时目录节点 客户端与Zookeeper断开连接后，该节点被删除  
   （4）临时顺序编号目录节点 客户端与Zookeeper断开连接后，该节点被删除，只是Zookeeper给该节点名称进行顺序编号。     
   
  51、简答描述以下TextInputFormat怎么进行文件切分？ 
   
   TextInputFormat根据文件大小将文件拆分成splits，如果单个文件较小小于128的1.1倍，则每个文件为一个split，并将文件按行分割形成对，如果单个文件较大。超过block块（128M）默认大小得1.1倍，则会将文件切分为多个split。这一步由MapReduce框架自动完成，其中偏移量包括了回车所占的字符数。将分割好的对交给用户定义的map方法进行处理，在map方法中根据业务逻辑处理后生成新的对输出。 
   
  52、简单描述MapReduce不合适对哪些场景的使用？ 
   
   (1).MapReduce不适合做低延迟数据访问场景的使用。 
   (2).MapReduce不适合存储大量小文件。  
   (3).MapReduce不支持多用户写入及任意修改文件。 
   
  53、yarn有哪几部分组成，作用分别是什么？调度器主要有哪三种，hadoop默认的是哪一种？ 
   
   由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成；  
   ResourceManager:处理客户端请求、监控NodeManager、启动或监控ApplicationMaster、资源的分配与调度  
   NodeManager:管理单个节点上的资源、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令  
   ApplicationMaster:负责数据的切分、为应用程序申请资源并分配给内部的任务、任务的监控与容错  
   Container:Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等。  
   FIFO、Capacity Scheduler（容量调度器）和Fair Scheduler（公平调度器）。 
   Hadoop2.7.2默认的资源调度器是Capacity Scheduler（容量调度器） 
   
  54、请简述ZooKeeper的选举机制? 
   
   半数机制：集群中半数以上机器存活，集群可用。所以Zookeeper适合安装奇数台服务器。  
   （1）全新集群选举：  假设目前有5台服务器，每台服务器均没有数据，它们的编号分别是1,2,3,4,5,按编号依次启动，它们的选举过程如下：  服务器1启动，给自己投票，然后发投票信息，由于其它机器还没有启动所以它收不到反馈信息，服务器1的状态一直属于LOOKING。  服务器2启动，给自己投票，同时与之前启动的服务器1交换结果，由于服务器2的编号大所以服务器2胜出，但此时投票数没有大于半数，所以两个服务器的状态依然是LOOKING。  服务器3启动，给自己投票，同时与之前启动的服务器1,2交换信息，由于服务器3的编号最大所以服务器3胜出，此时投票数正好大于半数，所以服务器3成为领导者，服务器1,2成为Follower。  服务器4启动，给自己投票，同时与之前启动的服务器1,2,3交换信息，尽管服务器4的编号大，但之前服务器3已经胜出，所以服务器4只能成为Follower。  服务器5启动，后面的逻辑同服务器4成为Follower。 
   （2）非全新集群选举  对于运行正常的zookeeper集群，中途有机器down掉，需要重新选举时，选举过程就需要加入数据ID、服务器ID和逻辑时钟。  其中:   数据ID：数据新的version就大，数据每次更新都会更新version。   服务器ID：就是我们配置的myid中的值，每个机器一个。   逻辑时钟：这个值从0开始递增,每次选举对应一个值。 如果在同一次选举中,这个值是一致的。   这样选举的标准就变成：         逻辑时钟小的选举结果被忽略，重新投票；         统一逻辑时钟后，数据id大的胜出；         数据id相同的情况下，服务器id大的胜出；   根据这个规则选出leader。  
   
  55、使用Java编写代码，将hdfs上/a.txt文件下载到本地  
  提示信息：Configuration、FileSystem、FSDataInputStream、FileOutputStream、IOUtils(IOUtils.copyBytes、IOUtils.closeStream) 
   
   public void customGet() throws IOException {         
    Configuration configuration = new Configuration();         
    FileSystem fileSystem = FileSystem.get(                           
               URI.create("hdfs://jinghang100:9000"),
               configuration,
               "jinghang"         
               );         
    //设置HDFS数据文件的路径       
    Path hdfsPath = new Path("/a.txt");         
    //使用HDFS文件系统对象打开文件         
    FSDataInputStream inputStream = fileSystem.open(hdfsPath);         
    //指定要下载到本地的文件路径         
    String localPath = "C:\\Users\\Administrator\\Desktop\\filetest\\a.txt";         
    //将hdfs系统文件下载值本地         
    FileOutputStream outputStream = new FileOutputStream(localPath);        
    IOUtils.copyBytes(inputStream,outputStream,configuration,true);                  
    IOUtils.closeStream(inputStream);         
    IOUtils.closeStream(outputStream);         
    fileSystem.close();     
}

SafeMode模式相关的命令	功能描述
bin/hdfs dfsadmin -safemode get	查看安全模式状态
bin/hdfs dfsadmin -safemode enter	进入安全模式状态
bin/hdfs dfsadmin -safemode leave	离开安全模式状态
bin/hdfs dfsadmin -safemode wait	等待安全模式状态

大数据技术实战---项目中遇到的问题及项目经验一个“不专业”的阿凡大数据
问题导读：1、项目中遇到过哪些问题？2、Kafka消息数据积压，Kafka消费能力不足怎么处理？3、Sqoop数据导出一致性问题？4、整体项目框架如何设计？项目中遇到过哪些问题7.1Hadoop宕机（1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存
Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
Java 大视界 -- Java 大数据在智能医疗远程会诊与专家协作中的技术支持（146）青云交大数据新视界 Java 大视界 java 大数据智能医疗远程会诊专家协作数据安全病例诊断
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Flink相关面试题努力的搬砖人. 面试 java 后端 flink
以下是150道ApacheFlink面试题及其详细回答，涵盖了Flink的基础知识、核心架构、API使用、性能调优等多个方面，每道题目都尽量详细且简单易懂：Flink基础概念类1.什么是ApacheFlink？ApacheFlink是一个开源的流处理和批处理框架，能够实现快速、可靠、可扩展的大数据处理。它既可以处理无界的数据流，也可以处理有界的数据批，提供了低延迟和高吞吐量的实时数据处理能力。Fl
2017安全之势：云、大数据、IoT、人工智能 weixin_34392906 人工智能大数据嵌入式
“新技术让信息系统变成了孙悟空，开始无所不能，但安全仍是它的‘紧箍咒’！怎样解开这个‘紧箍咒’？各路安全厂商各显其能，但似乎路漫漫兮离目标还很遥远。”三未信安董事长张岳公在ZD至顶网《百位意见领袖寄语2017》中说出了这样一句话，我觉着很有道理。安全是一个永恒的话题，如果说它与新的信息技术相生相克也不过分。即便如此，我们更要尽可能的减少安全带来的束缚。2017已经到来，不妨来看看至顶网与业界大咖总
直方图梯度提升：大数据时代的极速决策引擎万事可爱^ 大数据机器学习深度学习直方图梯度提升 GBDT 算法
一、为什么需要直方图梯度提升？在Kaggle竞赛的冠军解决方案中，超过70%的获奖方案都使用了梯度提升算法。但当数据量突破百万级时，传统梯度提升树（GBDT）面临三大致命瓶颈：训练耗时剧增：每个特征的分割点计算都需要全量数据排序内存消耗爆炸：存储排序后的特征值需要额外空间处理效率低下：无法有效利用现代CPU的多核特性而梯度提升决策树（GBDT）作为集成学习的代表算法，通过迭代构建决策树实现预测能力
从原理到实践：Go 语言内存优化策略深度解析叶间清风1998 服务器 linux 网络
目录一、引言二、Go语言内存管理基础原理2.1栈与堆内存分配2.2垃圾回收机制剖析三、内存优化策略与实践3.1合理使用指针传递3.2避免不必要的内存分配3.3优化切片与映射的使用3.4控制变量作用域3.5减少闭包导致的变量逃逸四、内存优化工具与性能分析4.1pprof工具的使用4.2其他性能分析辅助手段五、不同场景下的内存优化案例分析5.1高并发Web服务场景5.2大数据处理与分析场景六、总结与展
硅谷企业的大数据平台架构什么样？看看Twitter、Airbnb、Uber的实践大数据v 分布式数据库大数据编程语言 hadoop
导读：本文分析一下典型硅谷互联网企业的大数据平台架构。作者：彭锋宋文欣孙浩峰来源：大数据DT（ID：hzdashuju）01Twitter的大数据平台架构Twitter是最早一批推进数字化运营的硅谷企业之一，其公司运营和产品迭代的很多功能是由其底层的大数据平台提供的。图7-2所示为Twitter大数据平台的基本示意图。▲图7-2Twitter大数据平台架构Twitter的大数据平台开发比较早，很多
【图像预处理】瞬间记忆深度学习 python
(4条消息)图像预处理方法总结_AI强仔的博客-CSDN博客对图像进行预处理的一些常见方法包括：调整图像大小和分辨率，以便适应模型的输入要求。对图像进行裁剪或填充，以使其大小和比例符合要求。调整图像的亮度、对比度和饱和度等图像属性。进行图像平滑或锐化操作，以去除噪声或增强图像特征。进行图像归一化或标准化，以确保各个特征在相同的尺度上。应用数据增强技术，如旋转、平移、缩放、翻转等，以扩大数据集，提高
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
Zynq PL端IP核之AXI DMA Mazy.v fpga开发嵌入式硬件 arm开发单片机
1.AXIDMA简介Zynq提供了两种DMA，一种是PS中的DMA控制器，通过GP口与PL端连接，另一种是PL中的AXIDMAIP核（软核），通过HP口与PS端连接。Zynq有4个HP接口，每一个HP接口都包含控制和数据FIFO，这些FIFO为大数据量突发传输提供缓冲，让HP接口成为理想的高速数据传输接口。AXIDMAIP内核在AXI4内存映射和AXI4StreamIP接口之间提供高带宽直接储存访
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
存算一体与存算分离：架构设计的深度解析与实现方案克里斯蒂亚诺罗纳尔多阿维罗大数据数据库
随着数据量的不断增大和对计算能力的需求日益提高，存算一体作为一种新型架构设计理念，在大数据处理、云计算和人工智能等领域正逐步引起广泛关注。在深入探讨存算一体之前，我们需要先了解存储和计算的基本概念，以及存算分离和存算一体之间的区别。什么是存算一体？存算一体，顾名思义，是将数据存储与计算资源紧密结合，形成一个统一的架构。在这种架构下，存储和计算不仅在物理层面上结合，更在架构设计上深度融合。具体来说，
LakeHouse湖仓一体成为下一站灯塔，数仓、数据湖架构即将退出群聊科杰科技大数据数据仓库
摘要：当前的大数据技术应用趋势表明，客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持，这使数仓用户可以从相同的SQL引擎查询数据湖表，但它不会使数据湖表更易于管理，也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。KeenDataLakeHouse（湖仓一体）作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架
数据让农业更聪明——用大数据激活田间地头 Echo_Wish 大数据大数据
数据让农业更聪明——用大数据激活田间地头在农业领域，随着人口增长和气候变化的影响，如何提升生产力始终是个关键话题。大数据，这个曾经只属于科技领域的概念，如今已悄然进入田间地头。今天，我以Echo_Wish的视角，和大家聊聊大数据如何赋能农业生产力，帮农民在阳光下也能掌握“科技的钥匙”。认识农业中的大数据什么是农业中的“大数据”？简单来说，就是收集和分析有关土地、气候、作物、病虫害以及市场需求等方面
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
从 0 到 1 构建 Python 分布式爬虫，实现搜索引擎全攻略七七知享 Python python 分布式爬虫搜索引擎算法程序人生网络爬虫
从0到1构建Python分布式爬虫，实现搜索引擎全攻略在大数据与信息爆炸的时代，搜索引擎已然成为人们获取信息的关键入口。你是否好奇，像百度、谷歌这般强大的搜索引擎，背后是如何精准且高效地抓取海量网页数据的？本文将带你一探究竟，以Python为工具，打造属于自己的分布式爬虫，进而搭建一个简易搜索引擎，完整呈现从底层代码编写到系统搭建的全过程。通过本文的实践，我们成功打造了Python分布式爬虫，并以
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1

hadoop01	hadoop02	hadoop03
namenode	resourcemanager	secondarynamenode
datanode	datanode	datanode
nodemanager	nodemanager	nodemanager
historyserver

d	表示该文件是一个目录，而非一个文件
rwxr-xr-x	表示该目录所属用户拥有可读、可写、可执行的权限，该目录所属用户的所属组拥有可读、可执行的权限，其他用户拥有可读、可执行的权限
root root	该目录所属用户为root用户，该目录所属组为root组
4096	该目录的大小为4096Kb
12月 12 15:23	表示该目录的创建时间为十二月十二号的下午三点二十三分
test	表示该目录的名称为test

大数据综合考试总结

大数据综合考试一

大数据综合考试二

大数据综合考试三

大数据综合考试四

1、简单描述Shuffle过程环形缓冲区的作用?

2、HDFS默认的Block块大小是多少 ? 为什么块的大小不能设置太小，也不能设置太大?

3、简述HDFS的默认副本策略 ? 这样做有什么好处?

4、简单描述你对Hadoop集群SafeMode模式的理解 ?

5、用一句话总结Combiner的作用和意义，使用它有什么前提 ?

6、简述HDFS的文件上传流程?

大数据综合考试五

你可能感兴趣的:(大数据)