Linux-1874

大数据平台Hadoop集群搭建

　　一、概念

　　Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。HDFS是一个分布式文件系统，类似mogilefs，但又不同于mogilefs，hdfs由存放文件元数据信息的namenode和存放数据的服务器datanode组成；hdfs它不同于mogilefs，hdfs把元数据信息放在内存中，而mogilefs把元数据放在数据库中；而对于hdfs的元数据信息持久化是依靠secondary name node（第二名称节点），第二名称节点并不是真正扮演名称节点角色，它的主要任务是周期性地将编辑日志合并至名称空间镜像文件中以免编辑日志变得过大；它可以独立运行在一个物理主机上，并需要同名称节点同样大小的内存资源来完成文件合并；另外它还保持一份名称空间镜像的副本，以防名称节点挂了，丢失数据；然而根据其工作机制，第二名称节点要滞后主节点，所以当主名称节点挂掉以后，丢失数据是在所难免的；所以snn（secondary name node）保存镜像副本的主要作用是尽可能的减少数据的丢失；MapReduce是一个计算框架，这种计算框架主要有两个阶段，第一阶段是map计算；第二阶段是Reduce计算；map计算的作用是把相同key的数据始终发送给同一个mapper进行计算；reduce就是把mapper计算的结果进行折叠计算（我们可以理解为合并），最终得到一个结果；在hadoop v1版本是这样的架构，v2就不是了，v2版本中把mapreduce框架拆分yarn框架和mapreduce，其计算任务可以跑在yarn框架上；所以hadoop v1核心就是hdfs+mapreduce两个集群；v2的架构就是hdfs+yarn+mapreduce；

　　HDFS架构

　　提示：从上图架构可以看到，客户端访问hdfs上的某一文件，首先要向namenode请求文件的元数据信息，然后nn就会告诉客户端，访问的文件在datanode上的位置，然后客户端再依次向datanode请求对应的数据，最后拼接成一个完整的文件；这里需要注意一个概念，datanode存放文件数据是按照文件大小和块大小来切分存放的，什么意思呢？比如一个文件100M大小，假设dn（datanode）上的块大小为10M一块，那么它存放在dn上是把100M切分为10M一块，共10块，然后把这10块数据分别存放在不同的dn上；同时这些块分别存放在不同的dn上，还会分别在不同的dn上存在副本，这样一来使得一个文件的数据块被多个dn分散冗余的存放；对于nn节点，它主要维护了那个文件的数据存放在那些节点，和那些dn存放了那些文件的数据块（这个数据是通过dn周期性的向nn发送）；我们可以理解为nn内部有两张表分别记录了那些文件的数据块分别存放在那些dn上（以文件为中心），和那些dn存放了那些文件的数据块（以节点为中心）；从上面的描述不难想象，当nn挂掉以后，整个存放在hdfs上的文件都将找不到，所以在生产中我们会使用zk（zookeeper）来对nn节点做高可用；对于hdfs来讲，它本质上不是内核文件系统，所以它依赖本地Linux文件系统；

　　mapreduce计算过程

　　提示：如上图所示，首先mapreduce会把给定的数据切分为多个（切分之前通过程序员写程序实现把给定的数据切分为多分，并抽取成kv键值对），然后启动多个mapper对其进行map计算，多个mapper计算后的结果在通过combiner进行合并（combiner是有程序员编写程序实现，主要实现合并规则），把相同key的值根据某种计算规则合并在一起，然后把结果在通过partitoner（分区器，这个分区器是通过程序员写程序实现，主要实现对map后的结果和对应reducer进行关联）分别发送给不同的reducer进行计算，最终每个reducer会产生一个最终的唯一结果；简单讲mapper的作用是读入kv键值对，输出新的kv键值对，会有新的kv产生；combiner的作用是把当前mapper生成的新kv键值对进行相同key的键值对进行合并，至于怎么合并，合并规则是什么是由程序员定义，所以combiner就是程序员写的程序实现，本质上combiner是读入kv键值对，输出kv键值对，不会产生新的kv；partitioner的作用就是把combiner合并后的键值对进行调度至reducer，至于怎么调度，该发往那个reducer，以及由几个reducer进行处理，由程序员定义；最终reducer折叠计算以后生成新的kv键值对；

　　hadoop v1与v2架构

　　提示：在hadoop v1的架构中，所有计算任务都跑在mapreduce之上，mapreduce就主要担任了两个角色，第一个是集群资源管理器和数据处理；到了hadoop v2 其架构就为hdfs+yarn+一堆任务，其实我们可以把一堆任务理解为v1中的mapreduce，不同于v1中的mapreduce，v2中mapreduce只负责数据计算，不在负责集群资源管理，集群资源管理由yarn实现；对于v2来讲其计算任务都跑在了执yarn之上；对于hdfs来讲，v1和v2中的作用都是一样的，都是起存储文件作用；

　　hadoop v2 计算任务资源调度过程

　　提示：rm（resource manager）收到客户端的任务请求，此时rm会根据各dn上运行的nm(node manager)周期性报告的状态信息来决定把客户端的任务调度给那个nm来执行；当rm选定好nm后，就把任务发送给对应nm，对应nm内部会起一个appmaster（am）的容器，负责本次任务的主控端，而appmaster需要启动container来运行任务，它会向rm请求，然后rm会根据am的请求在对应的nm上启动一个或多个container；最后各container运行后的结果会发送给am，然后再由am返回给rm，rm再返回给客户端；在这其中rm主要用来接收个nm发送的各节点状态信息和资源调度以及接收各am计算任务后的结果并反馈给各客户端；nm主要用来管理各node上的资源和上报状态信息给rm；am主要用来管理各任务的资源申请和各任务执行后端结果返回给rm；

　　hadoop生态圈

　　提示：上图是hadoop v2生态圈架构图，其中hdfs和yarn是hadoop的核心组件，对于运行在其上的各种任务都必须依赖hadoop，也必须支持调用mapreduce接口；

　　二、hadoop集群部署

　　环境说明

名称	角色	ip
node01	nn,snn,rm	192.168.0.41
node02	dn,nm	192.168.0.42
node03	dn,nm	192.168.0.43
node04	dn,nm	192.168.0.44

　　各节点同步时间

　　配置/etc/hosts解析个节点主机名

　　各节点安装jdk

yum install -y java-1.8.0-openjdk-devel

　　提示：安装devel包才会有jps命令

　　验证jdk是否安装完成，版本是否正确，确定java命令所在位置

　　添加JAVA_HOME环境变量

　　验证JAVA_HOME变量配置是否正确

　　创建目录，用于存放hadoop安装包

mkdir /bigdata

　　到此基础环境就准备OK，接下来下载hadoop二进制包

[root@node01 ~]# wget https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz
--2020-09-27 22:50:16--  https://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz
Resolving mirror.bit.edu.cn (mirror.bit.edu.cn)... 202.204.80.77, 219.143.204.117, 2001:da8:204:1205::22
Connecting to mirror.bit.edu.cn (mirror.bit.edu.cn)|202.204.80.77|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 366447449 (349M) [application/octet-stream]
Saving to: ‘hadoop-2.9.2.tar.gz’

100%[============================================================================>] 366,447,449 1.44MB/s   in 2m 19s 

2020-09-27 22:52:35 (2.51 MB/s) - ‘hadoop-2.9.2.tar.gz’ saved [366447449/366447449]

[root@node01 ~]# ls
hadoop-2.9.2.tar.gz
[root@node01 ~]#

　　解压hadoop-2.9.3.tar.gz到/bigdata/目录，并将解压到目录链接至hadoop

　　导出hadoop环境变量配置

[root@node01 ~]# cat /etc/profile.d/hadoop.sh
export HADOOP_HOME=/bigdata/hadoop
export PATH=$PATH:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin
export HADOOP_YARN_HOME=${HADOOP_HOME}
export HADOOP_MAPPERD_HOME=${HADOOP_HOME}
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_HDFS_HOME=${HADOOP_HOME}
[root@node01 ~]#

　　创建hadoop用户，并设置其密码为admin

[root@node01 ~]# useradd hadoop
[root@node01 ~]# echo "admin" |passwd --stdin hadoop
Changing password for user hadoop.
passwd: all authentication tokens updated successfully.
[root@node01 ~]#

　　各节点间hadoop用户做免密登录

[hadoop@node01 ~]$ ssh-keygen 
Generating public/private rsa key pair.
Enter file in which to save the key (/home/hadoop/.ssh/id_rsa): 
Created directory '/home/hadoop/.ssh'.
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /home/hadoop/.ssh/id_rsa.
Your public key has been saved in /home/hadoop/.ssh/id_rsa.pub.
The key fingerprint is:
SHA256:6CNhqdagySJXc4iRBVSoLENddO7JLZMCsdjQzqSFnmw [email protected]
The key's randomart image is:
+---[RSA 2048]----+
| o*==o .         |
| o=Bo o          |
|=oX+   .         |
|+E =.oo.+        |
|o.o B.oBS.       |
|.o * =. o        |
|=.+ o o          |
|oo   . .         |
|                 |
+----[SHA256]-----+
[hadoop@node01 ~]$ ssh-copy-id node01
/usr/bin/ssh-copy-id: INFO: Source of key(s) to be installed: "/home/hadoop/.ssh/id_rsa.pub"
The authenticity of host 'node01 (192.168.0.41)' can't be established.
ECDSA key fingerprint is SHA256:lE8/Vyni4z8hsXaa8OMMlDpu3yOIRh6dLcIr+oE57oE.
ECDSA key fingerprint is MD5:14:59:02:30:c0:16:b8:6c:1a:84:c3:0f:a7:ac:67:b3.
Are you sure you want to continue connecting (yes/no)? yes
/usr/bin/ssh-copy-id: INFO: attempting to log in with the new key(s), to filter out any that are already installed
/usr/bin/ssh-copy-id: INFO: 1 key(s) remain to be installed -- if you are prompted now it is to install the new keys
hadoop@node01's password: 

Number of key(s) added: 1

Now try logging into the machine, with:   "ssh 'node01'"
and check to make sure that only the key(s) you wanted were added.

[hadoop@node01 ~]$ scp -r ./.ssh node02:/home/hadoop/
The authenticity of host 'node02 (192.168.0.42)' can't be established.
ECDSA key fingerprint is SHA256:lE8/Vyni4z8hsXaa8OMMlDpu3yOIRh6dLcIr+oE57oE.
ECDSA key fingerprint is MD5:14:59:02:30:c0:16:b8:6c:1a:84:c3:0f:a7:ac:67:b3.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'node02,192.168.0.42' (ECDSA) to the list of known hosts.
hadoop@node02's password: 
id_rsa                                                                                  100% 1679   636.9KB/s   00:00    
id_rsa.pub                                                                              100%  404   186.3KB/s   00:00    
known_hosts                                                                             100%  362   153.4KB/s   00:00    
authorized_keys                                                                         100%  404   203.9KB/s   00:00    
[hadoop@node01 ~]$ scp -r ./.ssh node03:/home/hadoop/
The authenticity of host 'node03 (192.168.0.43)' can't be established.
ECDSA key fingerprint is SHA256:lE8/Vyni4z8hsXaa8OMMlDpu3yOIRh6dLcIr+oE57oE.
ECDSA key fingerprint is MD5:14:59:02:30:c0:16:b8:6c:1a:84:c3:0f:a7:ac:67:b3.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'node03,192.168.0.43' (ECDSA) to the list of known hosts.
hadoop@node03's password:  
id_rsa                                                                                  100% 1679   755.1KB/s   00:00    
id_rsa.pub                                                                              100%  404   165.7KB/s   00:00    
known_hosts                                                                             100%  543   350.9KB/s   00:00    
authorized_keys                                                                         100%  404   330.0KB/s   00:00    
[hadoop@node01 ~]$ scp -r ./.ssh node04:/home/hadoop/
The authenticity of host 'node04 (192.168.0.44)' can't be established.
ECDSA key fingerprint is SHA256:lE8/Vyni4z8hsXaa8OMMlDpu3yOIRh6dLcIr+oE57oE.
ECDSA key fingerprint is MD5:14:59:02:30:c0:16:b8:6c:1a:84:c3:0f:a7:ac:67:b3.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'node04,192.168.0.44' (ECDSA) to the list of known hosts.
hadoop@node04's password: 
id_rsa                                                                                  100% 1679   707.0KB/s   00:00    
id_rsa.pub                                                                              100%  404   172.8KB/s   00:00    
known_hosts                                                                             100%  724   437.7KB/s   00:00    
authorized_keys                                                                         100%  404   165.2KB/s   00:00    
[hadoop@node01 ~]$

　　验证：用node01去连接node02,node03,node04看看是否是免密登录了

　　创建数据目录/data/hadoop/hdfs/{nn,snn,dn},并将其属主属组更改为hadoop

　　进入到hadoop安装目录，创建其logs目录，并将其安装目录的属主和属组更改为hadoop

　　提示：以上所有步骤都需要在各节点挨着做一遍；

　　配置hadoop的core-site.xml

　　提示：hadoop的配置文件语法都是xml格式的配置文件，其中和是一对标签，里面用name标签来引用配置的选项的key的名称，其value标签用来配置对应key的值；上面配置表示配置默认的文件系统地址；hdfs://node01:8020是hdfs文件系统访问的地址；

　　完整的配置

[root@node01 hadoop]# cat core-site.xml 
"1.0" encoding="UTF-8"?>
"text/xsl" href="configuration.xsl"?>





    
        fs.defaultFS
        hdfs://node01:8020
        true
    

[root@node01 hadoop]#

View Code

　　配置hdfs-site.xml

　　提示：以上配置主要指定hdfs相关目录以及访问web端口信息，副本数量；

　　完整的配置

[root@node01 hadoop]# cat hdfs-site.xml
"1.0" encoding="UTF-8"?>
"text/xsl" href="configuration.xsl"?>





                    
                        dfs.replication
                        3
                    
                    
                        dfs.namenode.name.dir
                        file:///data/hadoop/hdfs/nn
                    
                    
                         dfs.namenode.secondary.http-address
                         node01:50090
                    
                    
                        dfs.namenode.http-address
                        node01:50070
                    
                    
                        dfs.datanode.data.dir
                        file:///data/hadoop/hdfs/dn
                    
                    
                        fs.checkpoint.dir
                        file:///data/hadoop/hdfs/snn
                    
                    
                        fs.checkpoint.edits.dir
                        file:///data/hadoop/hdfs/snn
                    


[root@node01 hadoop]#

View Code

　　配置mapred-site.xml

　　提示：以上配置主要指定了mapreduce的框架为yarn;默认没有mapred-site.xml，我们需要将mapred-site.xml.template修改成mapred.site.xml；这里需要注意我上面是通过复制修改文件名，当然属主信息都会变成root，不要忘记把属组信息修改成hadoop;

　　完整的配置

[root@node01 hadoop]# cat mapred-site.xml
"1.0"?>
"text/xsl" href="configuration.xsl"?>





                    
                        mapreduce.framework.name
                        yarn
                    


[root@node01 hadoop]#

View Code

　　配置yarn-site.xml

　　提示：以上配置主要配置了yarn框架rm和nm相关地址和指定相关类；

　　完整的配置

[root@node01 hadoop]# cat yarn-site.xml
"1.0"?>



                    
                        yarn.resourcemanager.address
                        node01:8032
                    
                    
                        yarn.resourcemanager.scheduler.address
                        node01:8030
                    
                    
                        yarn.resourcemanager.resource-tracker.address
                        node01:8031
                    
                    
                        yarn.resourcemanager.admin.address
                        node01:8033
                    
                    
                        yarn.resourcemanager.webapp.address
                        node01:8088
                    
                    
                        yarn.nodemanager.aux-services
                        mapreduce_shuffle
                    
                    
                        yarn.nodemanager.auxservices.mapreduce_shuffle.class
                        org.apache.hadoop.mapred.ShuffleHandler
                    
                    
                        yarn.resourcemanager.scheduler.class
                        org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler
                    


[root@node01 hadoop]#

View Code

　　配置slave.xml

[root@node01 hadoop]# cat slaves 
node02
node03
node04
[root@node01 hadoop]#

　　复制各配置文件到其他节点

　　到此hadoop配置就完成了；

　　接下来切换到hadoop用户下，初始化hdfs

hdfs namenode -format

　　提示：如果执行hdfs namenode -format 出现红框中的提示，说明hdfs格式化就成功了；

　　启动hdfs集群

　　提示：hdfs主要由namenode、secondarynamenode和datanode组成，只要看到对应节点上的进程启动起来，就没有多大问题；

　　到此hdfs集群就正常启动了

　　验证：把/etc/passwd上传到hdfs的/test目录下，看看是否可以正常上传？

　　提示：可以看到/etc/passwd文件已经上传至hdfs的/test目录下了；

　　验证：查看hdfs /test目录下passwd文件，看看是否同/etc/passwd文件内容相同？

　　提示：可以看到hdfs上的/test/passwd文件内容同/etc/passwd文件内容相同；

　　验证：在dn节点查看对应目录下的文件内容，看看是否同/etc/passwd文件内容相同？

[root@node02 ~]# tree /data
/data
└── hadoop
    └── hdfs
        ├── dn
        │   ├── current
        │   │   ├── BP-157891879-192.168.0.41-1601224158145
        │   │   │   ├── current
        │   │   │   │   ├── finalized
        │   │   │   │   │   └── subdir0
        │   │   │   │   │       └── subdir0
        │   │   │   │   │           ├── blk_1073741825
        │   │   │   │   │           └── blk_1073741825_1001.meta
        │   │   │   │   ├── rbw
        │   │   │   │   └── VERSION
        │   │   │   ├── scanner.cursor
        │   │   │   └── tmp
        │   │   └── VERSION
        │   └── in_use.lock
        ├── nn
        └── snn

13 directories, 6 files
[root@node02 ~]# cat /data/hadoop/hdfs/dn/current/BP-157891879-192.168.0.41-1601224158145/
current/        scanner.cursor  tmp/            
[root@node02 ~]# cat /data/hadoop/hdfs/dn/current/BP-157891879-192.168.0.41-1601224158145/current/finalized/subdir0/subdir0/blk_1073741825
root:x:0:0:root:/root:/bin/bash
bin:x:1:1:bin:/bin:/sbin/nologin
daemon:x:2:2:daemon:/sbin:/sbin/nologin
adm:x:3:4:adm:/var/adm:/sbin/nologin
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin
sync:x:5:0:sync:/sbin:/bin/sync
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown
halt:x:7:0:halt:/sbin:/sbin/halt
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin
operator:x:11:0:operator:/root:/sbin/nologin
games:x:12:100:games:/usr/games:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin
systemd-network:x:192:192:systemd Network Management:/:/sbin/nologin
dbus:x:81:81:System message bus:/:/sbin/nologin
polkitd:x:999:997:User for polkitd:/:/sbin/nologin
postfix:x:89:89::/var/spool/postfix:/sbin/nologin
sshd:x:74:74:Privilege-separated SSH:/var/empty/sshd:/sbin/nologin
ntp:x:38:38::/etc/ntp:/sbin/nologin
tcpdump:x:72:72::/:/sbin/nologin
chrony:x:998:996::/var/lib/chrony:/sbin/nologin
hadoop:x:1000:1000::/home/hadoop:/bin/bash
[root@node02 ~]#

　　提示：可以看到在dn节点上的dn目录下能够找到我们上传的passwd文件；

　　验证：查看其它节点是否有相同的文件？是否有我们指定数量的副本？

　　提示：在node03和node04上也有相同的目录和文件；说明我们设置的副本数量为3生效了；

　　启动yarn集群

　　提示：可以看到对应节点上的nm启动了；主节点上的rm也正常启动了；

　　访问nn的50070和8088，看看对应的web地址是否能够访问到页面？

　　提示：这个地址是hdfs的web地址，在这个界面可以看到hdfs的存储状况，以及对hdfs上的文件做操作；

　　提示：8088是yarn集群的管理地址；在这个界面上能够看到运行的计算任务的状态信息，集群配置信息，日志等等；

　　验证：在yarn上跑一个计算任务，统计/test/passwd文件的单词数量，看看对应的计算任务是否能够跑起来？

[hadoop@node01 hadoop]$ yarn jar /bigdata/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar   
An example program must be given as the first argument.
Valid program names are:
  aggregatewordcount: An Aggregate based map/reduce program that counts the words in the input files.
  aggregatewordhist: An Aggregate based map/reduce program that computes the histogram of the words in the input files.
  bbp: A map/reduce program that uses Bailey-Borwein-Plouffe to compute exact digits of Pi.
  dbcount: An example job that count the pageview counts from a database.
  distbbp: A map/reduce program that uses a BBP-type formula to compute exact bits of Pi.
  grep: A map/reduce program that counts the matches of a regex in the input.
  join: A job that effects a join over sorted, equally partitioned datasets
  multifilewc: A job that counts words from several files.
  pentomino: A map/reduce tile laying program to find solutions to pentomino problems.
  pi: A map/reduce program that estimates Pi using a quasi-Monte Carlo method.
  randomtextwriter: A map/reduce program that writes 10GB of random textual data per node.
  randomwriter: A map/reduce program that writes 10GB of random data per node.
  secondarysort: An example defining a secondary sort to the reduce.
  sort: A map/reduce program that sorts the data written by the random writer.
  sudoku: A sudoku solver.
  teragen: Generate data for the terasort
  terasort: Run the terasort
  teravalidate: Checking results of terasort
  wordcount: A map/reduce program that counts the words in the input files.
  wordmean: A map/reduce program that counts the average length of the words in the input files.
  wordmedian: A map/reduce program that counts the median length of the words in the input files.
  wordstandarddeviation: A map/reduce program that counts the standard deviation of the length of the words in the input files.
[hadoop@node01 hadoop]$ yarn jar /bigdata/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount
Usage: wordcount  [...] 
[hadoop@node01 hadoop]$ yarn jar /bigdata/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /test/passwd /test/passwd-word-count20/09/28 00:58:01 INFO client.RMProxy: Connecting to ResourceManager at node01/192.168.0.41:8032
20/09/28 00:58:01 INFO input.FileInputFormat: Total input files to process : 1
20/09/28 00:58:01 INFO mapreduce.JobSubmitter: number of splits:1
20/09/28 00:58:01 INFO Configuration.deprecation: yarn.resourcemanager.system-metrics-publisher.enabled is deprecated. Instead, use yarn.system-metrics-publisher.enabled
20/09/28 00:58:01 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1601224871685_0001
20/09/28 00:58:02 INFO impl.YarnClientImpl: Submitted application application_1601224871685_0001
20/09/28 00:58:02 INFO mapreduce.Job: The url to track the job: http://node01:8088/proxy/application_1601224871685_0001/
20/09/28 00:58:02 INFO mapreduce.Job: Running job: job_1601224871685_0001
20/09/28 00:58:08 INFO mapreduce.Job: Job job_1601224871685_0001 running in uber mode : false
20/09/28 00:58:08 INFO mapreduce.Job:  map 0% reduce 0%
20/09/28 00:58:14 INFO mapreduce.Job:  map 100% reduce 0%
20/09/28 00:58:20 INFO mapreduce.Job:  map 100% reduce 100%
20/09/28 00:58:20 INFO mapreduce.Job: Job job_1601224871685_0001 completed successfully
20/09/28 00:58:20 INFO mapreduce.Job: Counters: 49
        File System Counters
                FILE: Number of bytes read=1144
                FILE: Number of bytes written=399079
                FILE: Number of read operations=0
                FILE: Number of large read operations=0
                FILE: Number of write operations=0
                HDFS: Number of bytes read=1053
                HDFS: Number of bytes written=1018
                HDFS: Number of read operations=6
                HDFS: Number of large read operations=0
                HDFS: Number of write operations=2
        Job Counters 
                Launched map tasks=1
                Launched reduce tasks=1
                Data-local map tasks=1
                Total time spent by all maps in occupied slots (ms)=2753
                Total time spent by all reduces in occupied slots (ms)=2779
                Total time spent by all map tasks (ms)=2753
                Total time spent by all reduce tasks (ms)=2779
                Total vcore-milliseconds taken by all map tasks=2753
                Total vcore-milliseconds taken by all reduce tasks=2779
                Total megabyte-milliseconds taken by all map tasks=2819072
                Total megabyte-milliseconds taken by all reduce tasks=2845696
        Map-Reduce Framework
                Map input records=22
                Map output records=30
                Map output bytes=1078
                Map output materialized bytes=1144
                Input split bytes=95
                Combine input records=30
                Combine output records=30
                Reduce input groups=30
                Reduce shuffle bytes=1144
                Reduce input records=30
                Reduce output records=30
                Spilled Records=60
                Shuffled Maps =1
                Failed Shuffles=0
                Merged Map outputs=1
                GC time elapsed (ms)=87
                CPU time spent (ms)=620
                Physical memory (bytes) snapshot=444997632
                Virtual memory (bytes) snapshot=4242403328
                Total committed heap usage (bytes)=285212672
        Shuffle Errors
                BAD_ID=0
                CONNECTION=0
                IO_ERROR=0
                WRONG_LENGTH=0
                WRONG_MAP=0
                WRONG_REDUCE=0
        File Input Format Counters 
                Bytes Read=958
        File Output Format Counters 
                Bytes Written=1018
[hadoop@node01 hadoop]$

　　查看计算后生成的报告

[hadoop@node01 hadoop]$ hdfs dfs -ls -R /test
-rw-r--r--   3 hadoop supergroup        958 2020-09-28 00:32 /test/passwd
drwxr-xr-x   - hadoop supergroup          0 2020-09-28 00:58 /test/passwd-word-count
-rw-r--r--   3 hadoop supergroup          0 2020-09-28 00:58 /test/passwd-word-count/_SUCCESS
-rw-r--r--   3 hadoop supergroup       1018 2020-09-28 00:58 /test/passwd-word-count/part-r-00000
[hadoop@node01 hadoop]$ hdfs dfs -cat /test/passwd-word-count/part-r-00000
Management:/:/sbin/nologin      1
Network 1
SSH:/var/empty/sshd:/sbin/nologin       1
User:/var/ftp:/sbin/nologin     1
adm:x:3:4:adm:/var/adm:/sbin/nologin    1
bin:x:1:1:bin:/bin:/sbin/nologin        1
bus:/:/sbin/nologin     1
chrony:x:998:996::/var/lib/chrony:/sbin/nologin 1
daemon:x:2:2:daemon:/sbin:/sbin/nologin 1
dbus:x:81:81:System     1
for     1
ftp:x:14:50:FTP 1
games:x:12:100:games:/usr/games:/sbin/nologin   1
hadoop:x:1000:1000::/home/hadoop:/bin/bash      1
halt:x:7:0:halt:/sbin:/sbin/halt        1
lp:x:4:7:lp:/var/spool/lpd:/sbin/nologin        1
mail:x:8:12:mail:/var/spool/mail:/sbin/nologin  1
message 1
nobody:x:99:99:Nobody:/:/sbin/nologin   1
ntp:x:38:38::/etc/ntp:/sbin/nologin     1
operator:x:11:0:operator:/root:/sbin/nologin    1
polkitd:/:/sbin/nologin 1
polkitd:x:999:997:User  1
postfix:x:89:89::/var/spool/postfix:/sbin/nologin       1
root:x:0:0:root:/root:/bin/bash 1
shutdown:x:6:0:shutdown:/sbin:/sbin/shutdown    1
sshd:x:74:74:Privilege-separated        1
sync:x:5:0:sync:/sbin:/bin/sync 1
systemd-network:x:192:192:systemd       1
tcpdump:x:72:72::/:/sbin/nologin        1
[hadoop@node01 hadoop]$

　　在8088页面上查看任务的状态信息

　　到此hadoop v2集群就搭建完毕了；

你可能感兴趣的:(大数据平台Hadoop集群搭建)

大数据平台之ranger与ldap集成，同步用户和组无级程序员大数据大数据 hadoop
ranger可以通过ranger-usersync与linux系统同步用户，但是，还有个问题，就是我们的hiveserver一般是集群，可以是多台服务器，那么我们空间同步哪一台呢，而且如果用户多了，如何管理用户登录密码呢，所以，还是要用ldap比较合理。首先是安装openldap:yum-yinstallopenldapcompat-openldapopenldap-clientsopenldap
合规视角下银行智能客服风险防控 AI 智能服务智能客服人工智能 AIGC 数据库 chatgpt
1.AI驱动金融变革的政策与技术背景政策导向：我国《新一代人工智能发展规划》明确提出发展智能金融，要求：构建金融大数据平台，提升多媒体数据处理能力；创新智能金融产品与服务形态；推广智能客服、监控等技术应用；建立智能风控预警体系。技术支撑：云计算、大数据技术成熟为AI发展奠定了基础。深度学习算法的突破则引爆了本轮AI浪潮，显著提升了复杂任务处理精度，进而推动了计算机视觉、机器学习、自然语言处理（NL
通过CDH安装Spark的详细指南暴躁哥大数据技术 spark 大数据分布式
通过CDH安装Spark的详细指南简介ClouderaDistributionofHadoop(CDH)是一个企业级的大数据平台，它集成了多个开源组件，包括Hadoop、Spark、Hive等。本文将详细介绍如何通过CDH安装和配置Spark。前提条件在开始安装之前，请确保满足以下条件：已安装CDH集群具有管理员权限所有节点之间网络互通系统时间同步足够的磁盘空间（建议至少预留20GB）安装步骤1.
什么是数据中台夜影风大数据数据仓库
最近可能大家听到“数据中台”这个词越来越频繁了，身边朋友一直在聊这个话题，但是一直不知道这到底是个什么，具有什么样的结构。所以，今天跟大家分享一下什么是数据中台。01数据中台定义我们平常所讨论的大数据平台，很多人以为大数据平台就是数据中台，其实数据中台并不是大数据平台。首先数据中台不是一个平台，也不是一个系统，如果有相关的厂商说他们有个数据中台卖给你，对不起，它要么是个骗子要么就根本不了解数据中台
种地也能玩 AI？聊聊我用 Python 打造“智慧农场”的那些事 Echo_Wish Python 进阶人工智能 python 开发语言
种地也能玩AI？聊聊我用Python打造“智慧农场”的那些事一、AI下田，不只是噱头不知道你有没有这种感觉：一说到“智慧农业”，总觉得是科研机构或者高大上的农业园区才搞得起的玩意。传感器、无人机、5G网络、大数据平台、AI模型听起来就贵。但其实，现在Python+AI的技术方案，已经能帮很多普通农业场景实现“高性价比”的智能化管理了。我们不谈什么宏观政策、不讲农业4.0的概念，今天就来实打实地聊聊
云计算、大数据平台的高可用、容灾、可扩展性、消息丢弃等问题 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2021年是数字化转型的新世纪。互联网、移动互联网、物联网、云计算、大数据、区块链等新技术的蓬勃发展，使得企业在服务能力、用户体验、商业模式等方面面临新的挑战。云计算、大数据平台的快速发展，极大的扩展了企业IT资源的利用率，让企业可以提供更好的服务，提升竞争力。同时，为了应对突发事件或自然灾害等危险因素，云计算、大数据平台也需要具备高度的可靠性和可用性，保证服务
基于大数据的数据挖掘、数据中台、数据安全架构设计方案：核心技术与架构、大数据平台与数据管理、建模平台与数据治理、应用案例与优势公众号：优享智库数字化转型数据治理主数据数据仓库大数据数据挖掘架构
本文介绍了基于大数据的数据挖掘、数据中台、数据安全架构设计方案，涵盖了从技术架构到功能应用的全方位内容。核心技术与架构IT环境融合：构建了包含网关、云端、终端、物联网、反病毒技术、PC、核心层、物理机、IOT终端、基于操作系统的文件识别、反黑客技术、大数据技术、移动、汇聚层、虚拟化、工业控制系统、基于网络的协议解析、基于大数据的数据挖掘、信创、接入层、云/容器、工业互联网、身份安全技术、基于密码的
活动邀请 | SECon 全球软件工程技术大会深圳站将于6月20—21日举办！ github
SECon全球软件工程技术大会将于6月20日——6月21日在深圳举办！大会精心设置了16个专场，内容涵盖AI前沿论文解读、大数据平台与架构实践、大前端架构实践、AI知识工程体系：从零散知识到流水线、DeepSeek技术前瞻与应用实践、AI时代数据架构的演进、从Agent到Multi-Agent的智能跃迁、高可用架构、垂直深耕：小模型、大智慧、数据分析场景中AI应用、AI+研发的智能化升级、多模态生
千万级日活大数据平台设计方案暴躁哥大数据设计方案
千万级日活大数据平台设计方案本文详细介绍如何设计一个支持千万级日活用户的大数据平台，包括数据采集、存储、计算和应用层的完整解决方案。1.系统架构概览1.1整体架构数据采集层：负责数据收集和预处理数据存储层：负责数据持久化和管理数据计算层：负责数据分析和处理数据应用层：负责数据展示和服务1.2技术选型原则高可用性：系统7*24小时稳定运行高扩展性：支持水平扩展高性能：满足实时和离线计算需求高可靠性：
输电线路巡检机器人PPT_常见的电力行业智能巡检方案.ppt yannqing 输电线路巡检机器人PPT
常见的电力行业智能巡检方案金惠科技电力行业智能巡检方案背景需求解决方案应用领域汇报提纲电力行业智能巡检背景在智能电网和物联网高速发展的今天，电力设备巡检已不再满足于人工巡检的现状，它需要融合电力设备状态检(监)测技术，整合变电站、输电线路、电缆管廊、开闭所等各类在线检(监)测数据，以大数据平台为基础，以物联网为纽带，关联PMS系统及其它异构数据，进而形成电力设备状态检修辅助决策系统。电力设备巡检现
黑马-hive学习笔记(1) 霜杀百草 hive学习笔记 hive 学习笔记
一、hadoop介绍1.hadoop定义是一个分布式的大数据平台，这个平台上会有很多的组件，HDFS,Mapreduce,hive都是它生态的一部分，HDFS是一个数据存储系统，Mapreduce是一个计算引擎，hive是一个数据仓库2.Hadoop集群Hadoop集群是一种分布式大数据存储和处理系统，主要由Hadoop文件系统（HDFS）和Hadoop资源管理器（YARN）组成，同时还常配合一些
大数据实时+离线项目架构----智慧物流大数据平台（超流行框架！）
智慧物流大数据平台文章目录智慧物流大数据平台一、项目背景二、逻辑架构三、解决方案技术亮点:数据流转四、项目的技术选型4.1流式处理平台4.2分布式计算平台4.3海量数据存储框架软件版本一、项目背景本项目基于一家大型物流公司研发的智慧物流大数据平台。该物流公司是国内综合性快递、物流服务商，并在全国各地都有覆盖的网点。经过多年的积累、经营以及布局，拥有大规模的客户群，日订单达上千万。如此规模的业务数据
【计算机毕业设计】基于HTML+CSS+JavaScript大学生心理咨询网设计毕业论文源码 (1)
精彩专栏推荐文末获取联系✍️作者简介:一个热爱把逻辑思维转变为代码的技术博主作者主页:【主页——获取更多优质源码】web前端期末大作业：【毕设项目精品实战案例(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】超炫酷的Echarts大屏可视化源码：【Echarts大屏展示大数据平台可视化(150套)】HTML+CSS+JS实例代码：【️HTML+CSS+JS实例代码
HDFS小文件治理总结数据科学和工程 hadoop 大数据 hdfs
目录背景第一部分回本溯源第二部分HDFS大量小文件的危害第三部分小文件治理方案总结第四部分总结参考文献及资料背景企业级Hadoop大数据平台在实际使用过程中，可能大部分会遭遇小文件问题，并体验它的破坏性。HDFS文件系统的inode信息和block信息以及block的位置信息，这些原数据信息均由NameNode的内存中维护，这使得NameNode对内存的要求非常高，特别是遭遇海量小文件。例如：京东
探索大数据平台TDH社区版的强大功能：数据库方言支持与CRUD能力演示数据库
前言TDH社区版产品配备了星环科技自主研发的、具备极强竞争力和高度成熟的关系型分析引擎——Inceptor。该引擎不仅在性能与扩展性方面表现出色，同时实现了对传统关系型数据库语法的高度兼容，支持包括Oracle、DB2和Teradata等主流数据库方言，能够帮助用户平滑迁移已有业务系统，降低改造成本。此外，Inceptor支持完整的PL/SQL存储过程功能，为复杂业务逻辑的实现提供了强大支持，进一
Spark on Hive表结构变更对许 #Spark #Hive Java大数据 spark hive 大数据
SparkonHive表结构变更1、表结构变更概述1、表结构变更概述在SparkonHive架构中，表结构（Schema）变更是一个常见且重要的操作。理解其背景、使用场景以及具体方式对于大数据平台管理至关重要1.1、SparkonHive元数据管理HiveMetastore（HMS）：核心组件。它是一个独立的关系型数据库（如MySQL、PostgreSQL），存储了Hive表、分区、列、数据类型、
大数据平台搭建与数据分析喜欢编程就关注我大数据数据分析数据挖掘大数据平台搭建与数据分析代码
大数据平台搭建与数据分析摘要在当今数字化时代，大数据已成为企业决策和业务创新的核心驱动力。搭建一个高效稳定的大数据平台，并运用先进的数据分析技术挖掘数据价值，对于企业的成功至关重要。本文将深入探讨大数据平台的搭建过程，涵盖从基础设施构建到数据分析模型实现的全流程，并结合实际案例与代码示例，为读者提供一套实用的解决方案。关键词：大数据平台；数据分析；Hadoop；Spark；机器学习一、引言随着互联
hive的数据库操作 Supplant hive 数据库 hadoop
前言基于hadoop集群搭建hive仓库，hadoop集群搭建和hive数据仓库搭建。关于hive的表和数据库详细操作。一、数据库操作1.创建数据库语法格式如下。CREATEDATABASE[IFNOTEXISTS]database_name[COMMENTdatabase_comment][LOCATIONhdfs_path][WITHDBPROPERTIES(property_name=pro
HTML学生作业网页：使用HTML+CSS技术实现非遗文化网页设计题材【汉服文化—共12个页面】 @码出未来-web网页设计 html css 前端
精彩专栏推荐文末获取联系✍️作者简介:一个热爱把逻辑思维转变为代码的技术博主作者主页:【主页——获取更多优质源码】web前端期末大作业：【毕设项目精品实战案例(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】超炫酷的Echarts大屏可视化源码：【Echarts大屏展示大数据平台可视化(150套)】HTML+CSS+JS实例代码：【️HTML+CSS+JS实例代码
数据服务自动化部署：加速大数据上线大数据洞察自动化大数据网络 ai
数据服务自动化部署：加速大数据上线关键词：数据服务、自动化部署、CI/CD、DevOps、容器化、基础设施即代码、大数据平台摘要：本文系统解析数据服务自动化部署的核心技术体系，围绕容器化、CI/CD流水线、基础设施即代码（IaC）等关键技术，构建从代码提交到生产环境部署的全链路自动化流程。通过详细的技术原理剖析、Python代码实现、项目实战案例，阐述如何将大数据服务的部署周期从传统模式的数天级缩
Flink基于Yarn多种启动方式详解北漂老男人 Flink flink java 大数据
Flink基于Yarn多种启动方式详解随着大数据实时计算需求的日益增长，Flink已成为业界主流的流处理引擎。而在企业级大数据平台中，资源管理和作业调度一般交由Yarn完成。Flink与Yarn深度集成后，不仅充分利用Hadoop生态资源，还能灵活应对各种作业调度和资源隔离需求。本文将系统介绍FlinkonYarn的多种启动方式、适用场景、配置方法及常见问题。一、Yarn简介Yarn（YetAno
hadoop集群搭建-克隆虚拟机，安装jdk，hadoop 花不完根本花不完大数据 hadoop java linux
2.2hadoop运行环境的搭建2.2.1环境准备1）安装模板虚拟机，IP地址192.168.10.100，主机名hadoop100，内存41GB，硬盘50GB2）虚拟机配置首先测试虚拟机是否可以正常上网，测试方法pingwww.baidu.com3）安装epel-release注：ExtraPackagesforEnterpriseLinux是为“红帽系”的操作系统提供额外的软件包，适用于RHE
HTML网页规划与设计【冬季奥林匹克运动会——带报告5200字】HTML+CSS+JavaScript IT-司马青衫 html css javascript
精彩专栏推荐文末获取联系✍️作者简介:一个热爱把逻辑思维转变为代码的技术博主作者主页:【主页——获取更多优质源码】web前端期末大作业：【毕设项目精品实战案例(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】超炫酷的Echarts大屏可视化源码：【Echarts大屏展示大数据平台可视化(150套)】HTML+CSS+JS实例代码：【️HTML+CSS+JS实例代码
信息安全-数据安全-字节大数据平台安全与权限治理实践码者人生信息安全数据安全安全数据安全大数据安全权限治理权限回收
导读：本次分享题目为字节跳动大数据平台安全与权限治理实践，文章会围绕下面四点展开：字节大数据安全体系现状和难点细粒度权限管控和治理资产保护能力数据删除能力分享嘉宾｜许从余火山引擎数据平台产品经理编辑整理｜杨佳慧出品社区｜DataFun01字节大数据安全体系现状和难点第一部分首先分享字节跳动大数据平台安全与权限治理平台的完整体系以及目前的现状和面临的难点。1.字节跳动大数据安全产品体系数据分类分级：
大数据平台在互联网行业的应用 Leo.yuan 大数据可视化大数据互联网可视化
本文是58同城信息系统部高级经理余中洋对大数据在互联网行业应用的总结。以实际经验讲解了大数据从雏形到发展，以及发展过程中传统数据仓库到大数据平台的转化和大数据的可视化应用。大数据显雏形——发展所有公司在一开始时，数据的建设都是比较落后的，但随着互联网的环境推动，以及公司计划2013年在纽约交易所上市，这时候面临一个很大的问题。在上市之前，公司的数据，无论是流量数据还是财务产品数据都需要经过非常严格
数据网格(Data Mesh)架构：下一代大数据平台设计理念 AI天才研究院计算 AI大模型应用入门实战与进阶 AI Agent 应用开发架构大数据 ai
数据网格(DataMesh)架构：下一代大数据平台设计理念关键词：数据网格(DataMesh)、大数据架构、域驱动设计、数据作为产品、自服务平台、联邦治理、数据中台摘要：在企业数据规模呈指数级增长的背景下，传统集中式大数据平台逐渐暴露出数据孤岛、协作低效、治理困难等问题。数据网格（DataMesh）作为一种新兴的分布式数据架构理念，通过“域导向治理+数据产品化+自服务平台+联邦计算”四大支柱，重新
假期数仓项目笔记 s_yellowfish 笔记 big data 数据库数据仓库
数仓项目笔记sqoop(将数据从传统关系型数据库导出到大数据平台上)测试Sqoop是否能够成功连接数据库bin/sqooplist-databases--connectjdbc:mysql://hadoop102:3306/--usernameroot--passwordxxxxxx(mysql密码)将mysql中gmall库的user_info表中id,login_name(1=1andidcr
kafka channle的应用案例 weixin_33849215 大数据 shell 运维
kafkachannle的应用案例作者：尹正杰版权声明：原创作品，谢绝转载！否则将追究法律责任。最近在新公司负责大数据平台的建设，平台搭建完毕后，需要将云平台（我们公司使用的Ucloud的云服务器，大概320多台，还在扩容中），公司每个月光大数据服务费用就接近50万人民币。老板考虑成本问题，花了接近200万的前采购了50台服务器用于大数据平台的建设。我已经将集群部署好了，正准备将云上的环境原样搬到
数据采集与接入：Kafka、Flume、Flink CDC、Debezium（实时/离线数据获取方式）晴天彩虹雨 kafka flume flink 大数据
数据采集是大数据平台中的关键步骤，它负责将数据从多个数据源传输到数据处理系统。对于大数据处理平台来说，数据的实时与离线获取方式至关重要，能够确保系统的响应性与可扩展性。在本篇文章中，我们将深入探讨四种常见的数据采集与接入技术：Kafka、Flume、FlinkCDC、Debezium，并分析它们的适用场景。1.Kafka-分布式流处理平台概述：Kafka是一个分布式流平台，用于高吞吐量、低延迟的数
【web课程设计】HTML+CSS仿QQ音乐网站程序员-html网页设计网页设计与制作课程设计 html 前端
精彩专栏推荐文末获取联系✍️作者简介:一个热爱把逻辑思维转变为代码的技术博主作者主页:【主页——获取更多优质源码】web前端期末大作业：【毕设项目精品实战案例(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】超炫酷的Echarts大屏可视化源码：【Echarts大屏展示大数据平台可视化(150套)】HTML+CSS+JS实例代码：【️HTML+CSS+JS实例代码
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，