kaku812814843

Hadoop学习笔记

大数据4V特征：Volume（海量的数据规模，体积数据量大），Variety（多样的数据类型，种类多数据关联性大），Velocity（快速的数据流转，变化速度快），Value（价值密度低）

Hadoop技术大多来源于Google大数据技术，Google大数据技术可以在普通计算机上使用，Google只发表了论文并没有将大数据技术实现代码开源，Hadoop组织根据论文将其进行代码实现并进行了开源，Hadoop大数据技术HDFS对应Google大数据技术GFS技术解决存储容量问题，Hadoop大数据技术HBase对应Google大数据技术BigTable技术解决读写速度问题，Hadoop大数据技术MapReduce技术对应Google大数据技术MapReduce技术解决计算效率问题

Hadoop官方网址http://hadoop.apache.org/

分布式文件系统HDFS（Hadoop Distributed File System）特点：扩展性，容错性，海量数据存储

上传到分布式文件系统HDFS的文件，会被分成指定大小的数据块（默认128M）并以多副本形式存放在多台机器上

资源调度系统YARN（Yet Another Resource Negotiate）：负责整个集群资源的管理和调度，通用的资源管理系统，为上层应用提供统一的资源管理和调度，特点：扩展性，容错性，多框架资源统一调度

分布式计算框架MapReduce特点：扩展性，容错性，海量数据离线处理

MapReduce处理过程：Input将文件加载到内存通过Splitting按照一定策略进行分割拆分成多个文件交给Mapping进行处理，Shuffling将Mapping处理的结果按照一定策略进行分组，最后Reducing进行将分组后的结果按组进行合并统计，Final result将所有组的结果进行合并统计

Hadoop可靠性：数据多副本存储，任务作业错误会重新调度作业计算

Hadoop扩展性：存储/计算资源不够时，可以横向的线性扩展廉价的普通机器，一个集群可以包含数以千计的节点

Hadoop生态系统：

Hive：SQL Query（SQL查询）由Facebook开源，定义了类似SQL的HiveQL语言，会将HiveQL语言转换成MapReduce作业在Hadoop集群上运行，数据仓库工具，可以将Hadoop下的原始结构化数据变成Hive的表，使用一种几乎和SQL完全相同的语言HiveQL，但不支持更新、索引、事务等

R Connectors：R语言用于统计分析

Mahout：Machine Learning机器学习

Pig：Scripting脚本语言，可以将脚本转换成MapReduce作业在Hadoop集群上运行，使用类似SQL的面向数据流的语言Pig Latin，Pig Latin可以完成排序，过滤，求和，聚组，关联等操作，可以支持自定义函数，Pig会将Pig Latin映射为MapReduce作业上传到集群运行，减少Java代码的编写，Pig的三种运行方式：Grunt shell，脚本方式，嵌入式

Oozie：Workflow工作流，配置有依赖关系的作业，按照依赖关系顺序执行

ZooKeeper：Google Chubby的开源实现，coordination协调和谐管理，协调管理Hadoop集群上的多个框架之间的关系，用于协调分布式系统上的各种服务，应用场景HBase、实现NameNode的自动切换

Flume：LogCollector日志收集，将日志文件收集到Hadoop集群上进行处理统计分析

Sqoop（SQL to Hadoop）：Data Exchange，传统关系型数据库数据与Hadoop集群数据之间的数据转换框架，使用JDBC接口

HBase：Columnar Store列式存储的数据库，可以在大数据里进行快速查询，列式数据库，可集群化，可以使用shell，web，api等多种方式访问，适合搞读写（insert）的场景，HQL查询语言，NoSQL的典型代表产品

Avro：数据序列化工具，用于支持大批量数据交换的应用，支持二进制序列化方式，可以便捷快速的处理大量数据，动态语言友好，Avro提供的机制是动态语言可以方便的处理Avro数据，Thrift接口

Chukwa：架构在Hadoop之上的数据采集与分析架构，主要进行日志采集和分析，通过安装在手机节点的代理采集最原始的日志数据，代理将数据发给收集器，收集器定时将数据写入Hadoop集群，指定定时启动的MapReduce作业对数据进行加工处理和分析，Hadoop基础管理中心（HICC）最终展示数据

Cassandra：NoSQL，分布式的Key-Value型数据库，由Facebook贡献，与HBase类似，也是鉴于Google BigTable的思想体系，只有顺序写，没有随机写的设计，满足高负荷情形的性能需求

Hadoop常用发行版：

Apache Hadoop：Hadoop生态圈可以单个框架使用，多个框架同时使用会出现jar包冲突等问题，兼容性差，安全性低，常用于学习

CDH：Cloudera Distributed including Apache Hadoop，提供Hadoop核心（可扩展存储和分布式计算），可以使用CM框架通过Web界面浏览器安装Hadoop生态系统，但CM框架不开源，在Apache Hadoop的稳定版基础上进行了改进，使用CDH相同版本基本可以免除多个框架之间的jar包冲突等问题，版本更新速度快划分清晰，支持Kerberos安全认证，支持多种方式安装（Cloudera Manager、Yum、Rpm、Tarball），公司生产环境常用，官方Cloudera Manager下载地址：https://archive.cloudera.com/cm5/官方CDH下载地址：https://archive.cloudera.com/cdh5/

HDP：Hortonworks Data Platform，使用原生的Apache Hadoop，开源，具有沙盒

MapR：支持Linux/Unix文件系统

EMR：亚马逊托管

HDFS是一个M/S（master/slave）架构一个master（NameNode/NN）带领多个slave（DataNode/DN），一个文件会被拆分成多个Block（blocksize默认128M）

NameNode/NN：负责客户端请求的响应，负责 metadata元数据（文件的名称、副本系数、权限、Block存放的DataNode/DN）的管理，metadata元数据在集群启动时加载到内存，定期会持久化到fsimage磁盘文件中，edits记录对metadata的操作日志

SecondaryNameNode/SNN：不是NN的备份但可以做备份，SNN主要负责帮助NN合并edits log、fsimage文件减少NN的启动时间，配置文件中fs.checkpoint.period指定SNN合并时间间隔默认3600秒，fs.checkpoint.size指定edits log文件的最大值默认64M

DataNode/DN：负责存储用户的文件对应的数据块（Block），定期（默认3秒，默认超过10分钟表示DataNode节点丢失）向NN发送心跳信息，回报本身及其所有的block信息，健康状况

NameNode与DataNode可以部署在同一个节点（即廉价计算机上），一般建议部署在不同节点上

NameNode（Filename，numReplicas，block-ids），文件全路径名，r:文件副本系数数值（即文件被复制成几份保存），{DataNode节点id [，DataNode节点id对应文件副本系数的数值个数]}

HDFS副本存放策略：第一个副本在存放源文件相同机架的相同节点上（若源文件在集群外部主机上，则随机挑选一台磁盘不满，CPU不忙的主机节点），第二个副本在与第一个副本不同的随机一个机架上的随机节点上，第三个副本在与第二副本相同机架的不同节点上，更多副本随机节点存放

HDFS文件权限与Linux文件权限类似，

Hadoop伪分布式安装步骤：

Jdk安装：解压tar –zxvf jdk的压缩包 –C 安装目录

添加环境变量，一般为用户环境变量：~/.bash_profile

export JAVA_HOME=java安装目录全路径

export PATH=$JAVA_HOME/bin:$PATH

使环境变量生效：source ~/. bash_profile

验证java是否配置成功：java -version

安装ssh：

Ubuntu Linux系统安装ssh：

sudo apt-get install ssh

sudo apt-get install rsync

CentOS Linux系统安装ssh：

sudo yum install ssh

由于NameNode与DataNode节点之间需要通信，为了方便需要设置节点通信免密码登录：

ssh-keygen -t rsa 使用rsa（基于因式分解在时间上不对称的加密算法）加密产生秘钥对（公钥和私钥，用公钥加密的文件只能通过私钥解密，用私钥加密的文件只能通过公钥解密）

cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys 在本机免密码登录配置文件authorized_keys中加入允许免密码连接本机的主机生成的公钥（authorized_keys文件中包含的主机的公钥对应的主机连接当前主机免密码）

systemctl restart sshd 重启SSH服务，防止密码不生效

有可能会因为ssh-agent中未添加秘钥导致ssh免密码登录失效，使用ssh-agent bash、eval "(ssh-agent -s)"和ssh-add命令添加秘钥

ssh原理：ssh 主机名，本机连接到指定主机名的主机，本机先发送连接请求（默认附加端口22），主机服务器将ssh公钥发送给本机，本机收到公钥后使用其他加密方式生成一个随机256位的会话通信密钥，并将会话通信密钥使用主机服务器公钥加密后发送给服务器主机，服务器主机用私钥解密用公钥加密的会话通信密钥，服务器主机与本机之间使用会话通信密钥进行通信（rsa密钥的加密算法工作量大，不适合做通信），服务器主机请求本机输入用户名密码，本机发送用户名密码，服务器主机验证用户名密码，根据验证是否正确接受或拒绝本机连接

下载并解压Hadoop，下载CDH的地址http://archive.cloudera.com/cdh5/cdh/5/

解压tar –zxvf Hadoop的CDH版压缩包 –C 安装目录

在hadoop-env.sh文件中配置java的环境变量JAVA_HOME

Hadoop配置文件修改（文件位置Hadoop的安装目录/etc/hadoop/）：

core-site.xml:

fs.defaultFS

hdfs://主机名:端口号（单机的主机名可以为localhost，端口号Hadoop1默认为9000，Hadoop2默认为8020）

（配置Hadoop文件目录，防止电脑重启后删除Hadoop的数据）

hadoop.tmp.dir

系统绝对路径

hdfs-site.xml:

dfs.replication

文件副本系数（默认为3，单机模式为1）

slaves配置节点主机名，单机模式可以为localhost或主机名，集群模式配置IP地址

启动HDFS：

格式化文件系统：hdfs/hadoop namenode –format（第一次使用HDFS系统时使用，格式化清除数据）

Hadoop命令hdfs是Hadoop2中默认命令，hadoop是Hadoop1默认命令，hadoop虽然过时但还能使用，建议使用hdfs

启动HDFS：sbin/start-dfs.sh

验证是否启动成功：使用查看与java有关的进程命令jps会有DataNode，SecondaryNameNode，NameNode进程或者通过浏览器进入http://主机名（或者IP地址）:50070/查看启动状态

jps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有java进程PID的命令，jps [-q/m/l/v] 显示当前所有Java进程[只显示PID/显示传递给进程主函数的参数/显示进程主函数完成的package全包名或进程程序的jar文件完整路径名/显示传递给JVM的参数]PID和进程主函数名

通过hadoop shell命令方式上传到集群的文件，会采用hdfs-site.xml中设置的副本系数，通过java api方式上传到集群的文件，如果本地java资源文件里没有hdfs-site.xml文件配置，则默认使用hadoop的副本系数3

HDFS系统：

Client：发送读写请求

NameNode：协调控制所有请求，节点数量为1

DataNode：负责数据存储，节点数量可以有很多

HDFS上传数据写操作：Client收到写操作命令请求后，通过解析配置文件信息中用户名（权限认证根据用户名匹配）、存储块的大小以及文件副本系数，将数据拆分成相应数据块，然后发送请求给NameNode，按顺序发送数据块，并表明文件存储块的大小和文件副本系数，NameNode接收请求后根据文件副本系数，找到对应文件副本系数数量的可用DataNode，并将DataNode的信息按照距离Client的远近从近到远进行排序后返回给Client（作业调度是优先调度到最近的DataNode上），Client开始发送数据到第一个DataNode，第一个DataNode在接收数据的同时将收到的数据发送给下一个DataNode，依次按照顺序发送给下一个DataNode直到最后一个DataNode，最后一个DataNode接收完这个数据块的所有数据后，所有DataNode发送消息给NameNode表明该数据块存储完成，NameNode返回该数据块接收完成的消息给Client，Client接收返回的消息后按照数据块顺序将剩下的数据块重复以上步骤依次发送直到所有数据块发送完成，Client发送关闭文件流的请求，然后NameNode关闭文件流并记录源数据信息（数据块的数量，id以及存储数据的DataNode信息等）

HDFS下载数据读操作：Client收到读操作命令请求后，发送需要读取的文件名称信息（用户名，权限认证根据用户名匹配）给NameNode，NameNode根据文件名称通过计算将该文件对应的所有数据块以及每个块对应的文件副本数量和文件副本所在的DataNode信息按照距离Client的远近从近到远进行排序后返回给Client，Client收到返回的信息后去和第一个DataNode（即距离Client最近的）交互获取相应数据块

HDFS缺点：低延迟的数据访问，不适合小文件存储

MapReduce1的架构：Master/Slave架构，1个JobTracker带多个TaskTracker

JobTracker/JT：作业的管理者，负责资源管理和作业调度，将作业分解成一堆的任务Task（MapTask和ReduceTask），将作业分给TT运行，监控作业，处理容错（task作业挂了，重启task的机制），在一定的时间间隔内未收到TT的心跳信息，认为该TT可能挂了，将该TT上运行的任务分配到其他TT上执行

TaskTracker/TT：任务的执行者，在TT上执行Task（MapTask和ReduceTask）定期向JobTracker汇报本节点的健康状况、资源使用情况、作业执行情况等心跳信息，接收JobTracker的启动/结束/停止作业任务的命令

MapReduce1存在的缺点问题：由于集群里只有一个JobTracker所以有单点故障问题，由于JobTracker需要和所有Client以及TaskTracker交互信息，所以节点压力大不易扩展，只能支持MapReduce作业不支持其他作业调度

HDFS2.x使用Federation（联邦）解决HDFS1.x的单点故障等问题，通过可以水平扩展多个NameNode/Namespace将元数据的存储和管理以及负载分散到多个节点上（解决内存受限问题），可以通过多个Namespace隔离存储和管理不同类型的应用的元数据

YARN框架为了提高资源利用率减少运维成本，将所有小集群合并在一起运行调度各种任务，不同的计算框架可以共享同一个HDFS集群上的数据，使用整体的资源调度

YARN的优点：与其他计算机框架共享集群资源，按资源需要分配，进而提高集群资源利用率

YARN的架构：

ResourceManager/RM：负责集群资源的统一调度和管理，处理客户端的提交/结束作业请求，监控所有NM，当某个NM挂了，将该NM上运行的任务信息提交给对应的AM请求处理，整个集群同一时间提供服务的RM只有一个（一般有两个，另一个是备用状态）

NodeManager/NM：单个节点资源管理，负责本身节点资源管理和使用，定时向RM汇报本节点的资源使用情况，定时向RM汇报本节点的资源使用情况，接收RM的各种命令启动Container，整个集群中有多个

ApplicationMaster/AM：每一个应用程序对应一个AM，负责应用程序的管理，为应用程序向RM申请资源，分配给内部task，需要与NM交互启动/停止task，task与AM都是运行在Container里

Container：封装了集群里的资源的一个容器，是一个任务运行环境的抽象

Client：通过命令提交/结束作业，查看作业的运行进度

YARN执行流程：

Client向RM提交作业，RM为该作业分配一个NodeManager启动一个Container运行AM，AM与RM注册交互（注册完成后Client可以查看任务作业运行情况）申请该作业需要的资源，AM得到资源后到对应的NodeManager上启动对应的Container执行作业任务

YARN环境的搭建：

修改配置文件：

mapred-site.xml:

（配置指定MapReduce的框架为YARN）

mapreduce.framework.name

yarn

（配置JobHistory的服务IPC地址以及端口）

mapreduce.jobhistory.address

ubuntu:10020

MapReduce JobHistory Server IPC host:port

（配置JobHistory的服务web访问地址以及端口）

mapreduce.jobhistory.webapp.address

ubuntu:19888

MapReduce JobHistory Server Web UI host:port

（配置JobHistory作业完成时的存放目录）

mapreduce.jobhistory.done-dir

/history/done

（配置JobHistory作业正在运行的存放目录）

mapreduce.jobhistory.intermediate-done-dir

/history/done_intermediate

yarn-site.xml:

（配置指定YARN的NodeManager的服务）

yarn.nodemanager.aux-services

mapreduce_shuffle

（配置YARN的日志收集聚合功能）

yarn.log-aggregation-enable

true

启动YARN相关的进程：sbin/start-yarn.sh

验证是否启动成功：jps查看进程是否有ResourceManager和NodeManager或者通过浏览器进入http://主机名（或者IP地址）:8088/查看应用状态

停止YARN相关进程sbin/stop-yarn.sh

YARN命令式提交作业：hadoop jar MapReduce作业的jar包执行类执行类相应的参数

MapReduce作业的案例：hadoop安装目录/share/hadoop/mapreduce/ MapReduce作业jar包

Split：交由MapReduce作业处理的数据块，是MapReduce中最小的计算单元

Block：HDFS中最小的存储单元，默认blocksize为128M

默认情况下Split与Block是相对应的，可以配置进行修改（不建议）

InputFormat：将输入的数据进行分片（Split），常用的是处理文本格式的数据TextInputFormat

OutputFormat：数据的输出

Combiner：在reduce之前进行合并，减少Map Tasks输出的数据量及数据网络传输量，使用场景适合相加操作，不适合求平均数操作

Partitioner：

MapReduce框架处理数据是将数据文件拆分成键值对方式并按照键值对方式进行计算处理

Map Task：解析每条记录的数据，交给自己的map方法处理，将map的输出结果写到本地磁盘（有些作业只要Map操作没有Reduce操作）

Reduce Task：将Map Task输出的数据进行读取，按照数据进行分组传给reduce方法处理，输出结果到HDFS

数据文件通过InputFormat类读取并拆分成多个Split（默认Split个数与Block个数对应），通过RecordReader将每个Split中的数据按照一定规则读取到Map，一个Split对应一个Mapper Task，Map处理完成后将数据按照相同或者一定规则的key原则排序后发送给不同的Shuffle，Shuffle进行分组合并后发送给Reduce，Reduce Task进行value计算统计处理，最后交给OutputFormat将数据存储到HDFS中，文件输出个数与Reduce Task个数对应

Maven编译：mvn clean package –DskipTests

上传到服务器：scp 源文件路径服务器路径

运行命令：hadoop jar 应用程序包运行的主类全类名相关执行参数

相同的代码和脚本再次执行会报文件已经存在的错误，在MapReduce中，输出的文件是不能事先存在的，可以输入命令删除或者在代码中完成自动检测文件是否存在删除

jobhistory：记录已经运行完的MapReduce信息到指定的HDFS目录下，默认未开启，需要在mapred-site.xml中配置开启，配置完成后需要启动JobHistory的服务：./mr-jobhistory-daemon.sh start historyserver

验证JobHistory的服务是否启动成功：jps查看是否有JobHistoryServer进程

数据处理流程：

1、数据采集

2、数据清洗

3、数据处理

4、处理结果入库

5、数据的可视化

Ubuntu系统修改用户名：

sudo –i su root 切换到root用户

修改/etc/passwd，/etc/shadow，/etc/group文件中用户名为指定用户名

mv /home/用户名 /home/指定用户名修改用户家目录

su 用户名或者重启系统切换用户或者重启系统

Hadoop分布式集群环境搭建：

前置安装配置：

集群所有主机时间同步：

安装ntp，使用时间服务器（通过网络请求时间服务器返回时间）同步时间，使用命令ntpdate -u 时间服务器域名或IP地址设置时间服务器为指定的域名或IP地址

网络互通检查，ping网络是否相通

修改集群主机名：

Ubuntu系统修改：

sudo –i su root 切换到root用户

修改/etc/hostname文件中主机名为指定主机名重启系统

CentOS系统修改：

使用root权限修改/etc/sysconfig/network文件中主机名为指定主机名，CentOS7主机名配置文件/etc/hostname

修改集群hosts文件中IP地址以及主机名

对每个主机节点合理分配角色即NameNode/SecondaryNameNode/DataNode（一般SecondaryNameNode与NameNode不分配到同一台主机上）和ResourceManager/NodeManager

配置主机节点之间免密码登录：

在每台主机上运行ssh-keygen -t rsa命令生成免密码的秘钥

在集群主节点即NameNode与ResourceManager所在的主机节点上运行ssh-copy-id -i ~/.ssh/id_rsa.pub 所有主机节点的主机名，将主节点的公共秘钥分发到所有主机节点上，有可能会因为ssh-agent中未添加秘钥导致ssh免密码登录失效，使用eval "(ssh-agent -s)"和ssh-add命令添加秘钥

jdk安装：

tar -zxvf jdk安装包 –C 安装目录

在~/.bash_profile中配置环境变量：

export JAVA_HOME=java安装目录全路径

export PATH=$JAVA_HOME/bin:$PATH

Hadoop集群安装

tar –zxvf Hadoop的CDH版压缩包 –C 安装目录

添加Hadoop的环境变量：

export HADOOP_HOME=hadoop安装目录全路径

export PATH=$HADOOP_HOME/bin:$PATH

source ~/.bash_profile使环境变量生效

Hadoop配置文件修改（文件位置Hadoop的安装目录/etc/hadoop/）：

创建masters文件，加入SecondaryNameNode主机名或IP地址，不指定默认与NameNode同一主机节点

hadoop-env.sh:

export JAVA_HOME=java安装目录全路径

core-site.xml:

fs.defaultFS

hdfs://主机名:端口号（单机的主机名可以为localhost，端口号Hadoop1默认为9000，Hadoop2默认为8020）

（配置Hadoop文件目录，防止电脑重启后删除Hadoop的数据）

hadoop.tmp.dir

系统绝对路径

hdfs-site.xml:

配置文件系统存放的目录

dfs.namenode.name.dir

NameNode节点存放目录的绝对路径

dfs.datanode.data.dir

DataNode节点存放目录的绝对路径

dfs.replication

文件副本系数（默认为3，单机模式为1）

dfs.namenode.secondary.http-address（配置SecondaryNameNode的Web访问地址）

IP地址或主机名:端口号（默认50090）

（配置Federation允许多个NameNode）

dfs.nameservices（配置自定义名称服务即命名空间，命名规则是以字母开头的数字和字符组合）

NameNode名称[,NameNode名称]

[（配置Federation的多个NameNode）

dfs.namenode.rpc-address.NameNode名称

主机名:端口号

dfs.namenode.http-address.NameNode名称

主机名:端口号

dfs.namenode.secondary.http-address.NameNode名称

主机名:端口号

]

yarn-site.xml:

（配置指定YARN的NodeManager的服务）

yarn.nodemanager.aux-services

mapreduce_shuffle

（配置YARN的ResourceManager）

yarn.resourcemanager.hostname

指定角色为ResourceManager的主机节点主机名

（配置YARN的日志收集聚合功能）

yarn.log-aggregation-enable

true

mapred-site.xml:

（配置指定MapReduce的框架为YARN）

mapreduce.framework.name

yarn

（配置JobHistory的服务IPC地址以及端口）

mapreduce.jobhistory.address

ubuntu:10020

MapReduce JobHistory Server IPC host:port

（配置JobHistory的服务web访问地址以及端口）

mapreduce.jobhistory.webapp.address

ubuntu:19888

MapReduce JobHistory Server Web UI host:port

（配置JobHistory作业完成时的存放目录）

mapreduce.jobhistory.done-dir

/history/done

（配置JobHistory作业正在运行的存放目录）

mapreduce.jobhistory.intermediate-done-dir

/history/done_intermediate

slaves配置所有DataNode节点主机名，指定集群中所有的DataNode节点主机

分发主节点上的安装包到其他主机节点上：

scp –r 安装位置的文件夹其他所有主机节点用户名@主机名:安装位置的文件夹，-r表示源文件目录下所有文件

scp ~/.bash_profile其他所有主机节点用户名@主机名:安装位置的文件夹，分发环境变量文件，并在其他所有主机节点上使用source命令使环境变量生效

在主节点上Hadoop安装目录的bin目录下格式化文件系统：./（hdfs/hadoop）namenode –format

在主节点上启动Hadoop集群：sbin/start-all.sh

验证Hadoop集群启动成功：

jps验证：主节点即NameNode和ResourceManager节点主机有SecondaryNameNode，NameNode，ResourceManager进程，其他主机节点即DataNode和NodeManager节点主机有DataNode，NodeManager进程

WEBUI验证：http://主节点主机名（或者主节点IP地址）:50070/查看Hadoop启动状态，http://主节点主机名（或者主节点IP地址）:8088/查看YARN启动状态

集群停止：sbin/stop-all.sh

Hadoop项目在集群上运行：

上传运行数据到集群机器上后转到hdfs上，上传开发的jar包到主节点的lib目录下，使用hadoop jar MapReduce作业的jar包执行类执行类相应的参数命令运行

NameNode启动时先经过一个安全模式阶段，该阶段不会产生数据写，会将持久化的磁盘文件fsimage和edits文件进行合并生产并持久化新的fsimage文件和空的edits文件（由NameNode进行合并不是SecondaryNameNode操作，SecondaryNameNode在集群运行时进行合并操作），然后NameNode在此阶段是收集各个DataNode的报告，当数据块达到最小副本数以上认为是安全的，检测到副本系数不足的数据块时会复制该数据块直到达到最小副本数，在一定比例（可设置）的数据被认为安全后，经过一段时间，安全模式会自动结束

hdfs dfsadmin –safemode enter/leave 开启/关闭安全模式

HDFS的可靠性机制包括：冗余副本策略，机架策略，心跳机制，安全模式，校验和，回收站，元数据保护，快照机制

校验和：在文件建立时，每个数据块都会产生校验和，校验和会作为一个单独隐藏文件保存在命名空间下，客户端获取数据时可以检查校验和是否相同来确定数据块是否损坏，如果损坏可以读取其他副本

回收站：删除文件时，其实是放入回收站/trash中，回收站中的文件可以恢复，回收站可以设置时间阈值，当回收站中的文件存放时间超过阈值会被彻底删除释放占用的数据库

元数据保护：映像文件和事务日志是NameNode的核心数据，可以设置拥有多个副本，增加副本会降低NameNode的处理速度，但会增加安全性，NameNode虽有副本，但还是单节点，需要手动切换副本

快照：支持存储某个时间点的映像，需要时可以使数据重返这个时间点的状态

/etc/resolv.conf 文件中保存着DNS服务器的域名

nslookup 查看DNS服务器里域名对应的IP地址

Hadoop大集群搭建即节点很多（成百上千）：

密钥分发可以使用NFS（网络文件系统）将密钥文件共享整个集群

hosts文件配置可以使用DNS代替（一般Linux的DNS服务器配置软件使用bind）

hadoop目录广播分发可以使用cat ./slave | awk '{print "scp -rp 文件路径用户名@"$1":文件路径"}' > 文件名生成分发主节点上的安装包到所有主机节点上脚本命令到一个文件里，chmod a+x 文件名赋予文件执行权限，sh ./文件名执行文件里所有命令进行广播分发hadoop目录

在已经启动的hadoop集群里添加节点：

需要在新节点上安装hadoop以及修改相应配置文件，或者从集群里的节点上复制文件到新节点，修改slave文件增加新节点，设置ssh免密码登录，最好是重启集群，如果集群不能停，可以单独启动新节点上的相应进程即使用命令hadoop-daemon.sh start 进程名，然后运行start-balancer.sh进行数据负载均衡，当节点出现故障或增加新节点，数据块分布可能不均匀，负载均衡可以重新平衡各个DataNode上数据块的分布

性能调优：reducer数量配置在mapred-site.xml文件中mapred.reduce.tasks（默认1）设置，数量少数据大的文件处理速度比数量多数据小的文件快，减少网络传输即压缩map的输出，通过参数配置优化每个节点能运行的任务数量

任务执行优化：

推测式执行即主节点发现有节点任务执行比其他节点慢，会另启一个节点执行相同的备份任务，然后节点任务和备份节点任务有一个先执行完成会把另一个kill，因此在监控页面上会看到正常执行的任务被kill，推测式执行默认打开，在mapred-site.xml文件中可以配置关闭，如果是程序本身问题，推测式执行会让集群更慢

重用JVM，可以省去启动新的JVM消耗的时间，在mapred-site.xml文件中可以配置hadoop集群启动的单个JVM运行的最大任务数量（默认1，-1表示无限制）

忽略模式，任务再读取数据失败2次后，会将数据位置告诉主节点，主节点重新启动该任务并且在遇到所记录的坏数据时直接跳过（默认关闭状态，可用SkipBadRecord方法打开）

主节点会根据心跳（周期1分钟）去检测任务节点是否故障，当任务节点在执行map任务并且未完成发生故障时，主节点会在其他任务节点重新启动这个map任务，当任务节点在执行reduce任务并且未完成发生故障时，主节点会在其他任务节点继续执行为完成的reduce任务

审计日志，可以在log4j.properties配置文件中的log4j.logger.org.apache.hadoop.fs.FSNamesystem.aduit=WARN改为INFO，即不仅仅是发生WARN事件才记录日志，任何INFO信息事件都会记录日志

Hadoop使用stream流的形式执行，可以运行其他语言的MapReduce作业任务：hadoop jar hadoop的stream流的jar包 –input 文件输入全路径 –output 文件输出全路径 –mapper 指定map函数的文件全路径名 –reducer 指定reduce函数的文件全路径名

HDFS可以使用NFS实现HA，但NFS本身也存在单点故障问题，一般使用QJM实现HA

HDFS使用QJM实现高可用HA原理：多台NameNode并存，仅有一台NameNode处于Active状态，其他NameNode处于Standby，SecondaryNameNode合并文件的操作交由处于standby状态的NameNode操作，多台JournalNode组成的集群存储管理共享元数据文件给多台NameNode，多台ZooKeeper组成的集群管理整个集群节点

HDFS使用QJM实现高可用HA配置：

给集群所有主机节点分配好角色：NameNode，DataNode，JournalNode，ZooKeeper，ZKFailoverController

时间同步，测试网络连通性，配置主机之间免秘钥登录，修改hosts文件，检查防火墙，解压安装文件（JDK，ZooKeeper，Hadoop）

删除masters文件修改配置文件：

core-site.xml

fs.defaultFS（指定HDFS集群访问地址）

hdfs://名称服务名

hadoop.tmp.dir

/home/kaku/tmp/hadoop

hdfs-site.xml

dfs.nameservices（配置名称服务）

自定义名称服务名

dfs.ha.namenodes.名称服务名（多个NameNode节点的名称）

NameNode节点名称[,NameNode节点名称]

[

dfs.namenode.rpc-address.名称服务名. NameNode节点名称

主机名:端口号（指定名称服务名的NameNode节点名称的Remote Procedure Call 远程过程调用RPC地址，默认端口8020）

dfs.namenode.http-address.名称服务名. NameNode节点名称

主机名:端口号（指定名称服务名的NameNode节点名称的Web访问地址，默认端口50070）

]

dfs.namenode.shared.edits.dir（指定用于管理NameNode节点的元数据fsimage和edits的JournalNode集群主机节点）

qjournal://主机名:8485（默认端口8485）[;主机名:8485]/名称服务名

dfs.client.failover.proxy.provider.名称服务名（指定自动故障迁移，）

org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

dfs.ha.fencing.methods

sshfence（指定集群免秘钥方式）

dfs.ha.fencing.ssh.private-key-files

私钥文件全路径名（指定免秘钥的私钥文件地址）

dfs.journalnode.edits.dir（指定JournalNode集群存放元数据的目录）

文件全路径名

配置ZooKeeper：

修改ZooKeeper安装目录/conf/zoo.cfg配置文件

tickTime=2000 ZooKeeper请求时间间隔

dataDir=文件路径名 ZooKeeper数据保存数据目录，默认/tmp目录下开启重启数据会被清除

clientPort=2181 ZooKeeper端口

initLimit=5

syncLimit=2

[server.数值=主机名:2888:3888] 配置指定数值为ID的ZooKeeper集群服务器，默认两个端口2888，3888（ZooKeeper集群服务器数量一般是大于等于3的奇数）

在dataDir指定的ZooKeeper数据保存路径下创建myid文件保存主机的服务ID，每台ZooKeeper集群节点使用zkServer.sh start/status/stop/restart 启动/查看状态/停止/重启 ZooKeeper命令，在执行命令的当前路径下会生产ZooKeeper日志文件ZooKeeper.out

修改Hadoop的配置文件hdfs-site.xml添加：

dfs.ha.automatic-failover.enabled（启用ZooKeeper管理高可用，默认false不启用）

true

core-site.xml添加：

ha.zookeeper.quorum（指定ZooKeeper集群）

主机名:2181（默认端口2181）[,主机名:2181]

在每台JournalNode节点上使用hdfs --daemon start journalnode命令启动JournalNode，在一台NameNode主机节点上使用hdfs namenode -format格式化NameNode并使用hdfs --daemon start namenode命令启动NameNode，在其他没有格式化的NameNode节点上使用hdfs namenode -bootstrapStandby命令同步格式化的NameNode节点（也可手动复制指定文件完成同步）

使用hdfs zkfc -formatZK命令格式化ZooKeeper集群

使用start-dfs.sh启动使用QJM配置的高可用HA的HDFS

使用QJM的高可用HA的HDFS搭建完成后可以在每台ZooKeeper集群节点上使用命令启动ZooKeeper集群，使用使用start-dfs.sh启动使用QJM配置的高可用HA的HDFS，JournalNode和ZKFailoverController在使用QJM配置的高可用HA的HDFS搭建完成后会跟随自动启动和关闭不需要手动启动和关闭

配置启动高可用HA后无法自动切换active的NameNode可能需要系统yum install psmisc

MapReduce的Split大小由计算框架自动完成分片也可通过max.split(单位M数值)/min.spilt(单位M数值)/block(单位M数值)进行指定Split最大/Split最小/存储块大小，计算框架自动Split的规则max(min.split,min(max.split,block))

Shuffler对Map的数据结果进行Partition分区分组（默认对Reduce数量取模%）指定处理该分组数据的Reduce，每一个Map任务都有一个内存缓冲区（默认100M）存储Map输出的结果，当缓冲区到达指定阈值（spill.percent默认0.8）时会缓冲区的数据由单独线程（不影响往缓冲区写Map结果数据的线程）以临时文件的形式进行Sort排序（默认字典排序）和Combiner（简单合并，可以减少数据网络传输和Reduce的合并工作量，默认不进行Combiner操作）并溢写（Spill）到磁盘以及临时文件数据合并，Reduce会从磁盘上获取通过分区分给自己处理的数据进行排序（默认字典排序）合并等处理

计算框架Shuffler中Partition和Sort有默认计算方式可以重写修改，Combiner、Map和Reduce无默认计算方式，需要自己编写计算方式

Hadoop集群高可用一般都交由ZooKeeper集群管理，ZooKeeper使用自己管理的文件系统数据库管理Hadoop集群高可用信息（例如名称服务名）

Hadoop集群使用ZooKeeper集群管理实现高可用的配置：

在高可用HA的HDFS基础上修改配置文件：

mapred-site.xml:

（配置指定MapReduce的框架为YARN）

mapreduce.framework.name

yarn

（配置JobHistory的服务IPC地址以及端口）

mapreduce.jobhistory.address

主机名:10020

MapReduce JobHistory Server IPC host:port

（配置JobHistory的服务web访问地址以及端口）

mapreduce.jobhistory.webapp.address

主机名:19888

MapReduce JobHistory Server Web UI host:port

（配置JobHistory作业完成时的存放目录）

mapreduce.jobhistory.done-dir

/history/done

（配置JobHistory作业正在运行的存放目录）

mapreduce.jobhistory.intermediate-done-dir

/history/done_intermediate

yarn.app.mapreduce.am.env

HADOOP_MAPRED_HOME=${HADOOP_HOME}

mapreduce.map.env

HADOOP_MAPRED_HOME=${HADOOP_HOME}

mapreduce.reduce.env

HADOOP_MAPRED_HOME=${HADOOP_HOME}

yarn-site.xml:

（配置指定YARN的NodeManager的服务）

yarn.nodemanager.aux-services

mapreduce_shuffle

（指定ResourceManager开启高可用）

yarn.resourcemanager.ha.enabled

true

（指定ResourceManager的集群id，类似名称服务名，由于ZooKeeper集群是根据名称服务名管理Hadoop集群高可用信息，所以为避免与HDFS高可用的名称服务名冲突，一般与HDFS高可用的名称服务名不一致）

yarn.resourcemanager.cluster-id

集群ID名称

（指定ResourceManager集群服务器的名称）

yarn.resourcemanager.ha.rm-ids

ResourceManager名称[,ResourceManager名称]

[（指定ResourceManager名称的主机节点）

yarn.resourcemanager.hostname.ResourceManager名称

主机名

（指定ResourceManager名称的Web UI访问地址）

yarn.resourcemanager.webapp.address.ResourceManager名称

主机名:端口号（默认8088）

]

（指定管理ResourceManager高可用信息的ZooKeeper集群）

yarn.resourcemanager.zk-address

主机名:2181[,主机名:2181]

Hadoop集群使用ZooKeeper集群管理的高可用配置完成后启动ZooKeeper集群后可以使用start-all.sh脚本启动高可用的Hadoop集群，可以使用yarn-daemon.sh start/stop resourcemanager命令启动/停止ResourceManager

Hadoop的依赖jar包文件hadoop安装目录/share/hadoop

Hadoop的官方离线文档hadoop安装目录/share/doc/hadoop

Hadoop的官方离线API文档hadoop安装目录/share/doc/hadoop/api

Configuration 配置名=new Configuration();//创建配置，默认加载src目录下的配置文件（*-site.xml文件）

FileSystem 文件系统名= FileSystem.get(new URI(HDFS的RPC地址),配置名,"用户名");通过配置文件获取指定用户名和RPC地址的文件系统对象

System.setProperty("HADOOP_USER_NAME", "用户名"); 指定程序执行时的用户名

FileSystem.mkdirs(new Path(HDFS路径)); 创建目录

FSDataInputStream HDFS数据输入流名=文件系统名.open(new Path(HDFS路径名)); 获取HDFS数据输入流对象

IOUtils.copyBytes(输入对象,输出对象,输出大小); 以指定大小复制数据到指定对象

HDFS数据输入流名.close(); 关闭HDFS数据输入流

FSDataOutputStream HDFS输出流名=文件系统名.create(new Path(HDFS路径名)); 获取HDFS输出流对象

HDFS输出流名.write(字符串.getBytes()); 以字节流形式写入字符串

HDFS输出流名.flush(); 刷新HDFS输出流

HDFS输出流名.close(); 关闭HDFS输出流

文件系统名.rename(旧HDFS路径名,新HDFS路径名); 重命名文件

文件系统名.copyFromLocalFile(本机路径名,HDFS路径名); 复制本机文件到HDFS

文件系统名.copyToLocalFile(HDFS路径名, 本机路径名); 复制HDFS文件到本机

FileStatus[] 文件状态组名= 文件系统名.listStatus(new Path(路径名)); 获取文件状态对象组

文件状态名

文件系统名.delete(new Path(路径名)); 删除文件

SequenceFile.Writer 文件写入流名= SequenceFile.createWriter(文件系统名,配置名,路径, 键的类,值的类); 获取序列文件（小文件合并成大文件，小文件以key/value保存，小文件名为key，小文件内容为value）的写入流

File 目录文件名=new File(目录文件路径名);

for (File 文件名: 目录文件名.listFiles()) {

writer.append(new Text(文件名.getName()), new Text(FileUtils.readFileToString(文件名)));

}

SequenceFile.Reader 文件写入流名=SequenceFile.create Reader(文件系统名, 路径,配置名); 获取序列文件输出流

public class WordCountApp { Hadoop的MapReduce任务入口类

public class WordCountMapper extends Mapper{

protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException { 执行Mapper任务的类需要继承Mapper类重写map方法

super.map(key, value, context);

String string = value.toString();

String[] strings = StringUtils.split(string,' ');

for (String s : strings) {

context.write(new Text(s),new IntWritable(1));

}

public class WordCountReducer extends Reducer{

protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException { 执行Reduce任务的类需要继承Reduce类重写reduce方法

super.reduce(key, values, context);

int sum = 0;

for (IntWritable i : values) {

sum += i.get();

}

context.write(key,new IntWritable(sum));

}

public static void main(String[] args) throws Exception{

Configuration configuration=new Configuration();

Job job=Job.getInstance(configuration); 获取任务Job实例对象

job.setJarByClass(WordCountApp.class); 指定任务的入口类

job.setMapperClass(WordCountMapper.class); 指定任务的Mapper类

job.setMapOutputKeyClass(Text.class); 指定Mapper输出的key类型

job.setMapOutputValueClass(IntWritable.class); 指定Mapper输出的value类型

job.setReducerClass(WordCountReducer.class); 指定任务Reducer类

job.setOutputKeyClass(Text.class); 指定Reducer输出的key类型

job.setOutputValueClass(NullWritable.class); 指定Reducer输出的value类型

job.setCombinerClass(WordCountReducer.class); 指定Combiner类

job.setPartitionerClass(TqPartition.class); 指定Partition类

job.setSortComparatorClass(TqSort.class); 指定排序类

job.setGroupingComparatorClass(TqGroup.class); 指定分组类

job.setNumReduceTasks(3); 指定Reduce的数量

FileInputFormat.addInputPath(job,new Path("")); 指定任务的输入数据文件

Path outPath=new Path("");

FileSystem fileSystem=FileSystem.get(configuration);

if (fileSystem.exists(outPath)){ 判断文件是否存在，已存在删除

fileSystem.delete(outPath,true);

}

FileOutputFormat.setOutputPath(job,new Path("")); 指定任务的输出文件，输出文件已存在会出现错误

boolean flag = job.waitForCompletion(true); 等待判断任务是否执行完成

if (flag) {

System.out.println("job success!");

}

MapReduce任务执行分为本地测试环境（使用Java多线程模拟任务执行）和服务器环境（程序提交至Hadoop集群执行）

本地测试环境（Window）：

Windows下配置Hadoop的环境变量，复制debug工具（winutils.exe）到hadoop安装目录/bin目录下，修改相应的Hadoop源码（NativeIO类的access方法直接return true），src目录下删除hadoop的配置文件，手动指定配置

configuration.set("fs.defaultFS","HDFS活跃主机的RPC地址"); 手动指定HDFS活跃主机的RPC地址

configuration.set("yarn.resourcemanager.hostname","ResourceManager活跃的主机名或IP地址"); 手动指定ResourceManager活跃的主机名或IP地址

服务器环境：

本地提交服务器hadoop集群执行任务：

src目录下放置服务器的hadoop配置文件（*-site.xml），将MapReduce任务程序打jar包，修改hadoop源码（NativeIO类的access方法直接return true），手动指定jar包位置configuration.set("mapred.jar","路径名");

服务器命令执行任务：

src目录下放置服务器的hadoop配置文件（*-site.xml），将MapReduce任务程序打jar包上传至服务器，使用hadoop jar jar包路径名 MapReduce任务入口类的全类名执行任务

在Maven配置中指定MapReduce任务入口类的全类名后可以直接使用hadoop jar jar包路径名执行MapReduce任务：

org.apache.maven.plugins

maven-jar-plugin

MapReduce任务入口类的全类名

true

lib/

MapReduce程序中使用自定义数据类型的类进行处理，自定义数据类型的类需要实现WritableComparable<泛型>接口，一般需要重写序列化的write方法和反序列化readFields方法以及compareTo比较方法，MapReduce计算框架默认调用compareTo方法实现比较排序

自定义Partition类需要继承HashPartitioner重写getPartition方法，方法处理内容尽量简单，因为每个Mapper与Reducer都会执行分区方法，分区方法影响MapReduce程序的效率

自定义Sort排序类需要继承WritableComparator类，重写构造方法super(数据类型的类,true);和比较方法compare

自定义Group分组类需要继承WritableComparator类，重写构造方法super(数据类型的类,true);和比较方法compare

PageRank是Google的算法，用于计算衡量特定网页相对搜索引擎索引中的其他网页而言的重要程度，由Google创始人拉里佩奇和谢尔盖布林于1997年创造，PageRank实现了将链接价值概念作为排名因素

PageRank可以通过站长工具进行查询

PageRank算法原理：

入链（投票）：其他网页指向本网页的链接，到达指定网页的链接相当于为指定网页投一票

出链：本网页指定其他网页的链接

入链数量：网页收到其他网页链接的数量

入链质量：质量高的网页通过链接向其他页面传递更多的权重

每个页面的PageRank初始值相同（Google的PageRank算法初始值为1），不断重复的迭代递归计算每个页面的PageRank值会趋于一个稳定的值（收敛），最终理想状态每个页面的PageRank值与上次计算的PageRank值相等，由于无法达到理想状态，一般设定一个差值标准（即每个页面的PageRank值与上次计算的PageRank值相差小于设定的差值标准则认为收敛），设定一个百分比（即百分比的页面满足条件则认为收敛）

由于存在出链为0即存在不链接其他网页的页面（孤立网页）但入链不为0，因此修改PageRank计算公式，加入阻尼系数（Damping Factor）q，q一般取值为0.85

修正后的PageRank计算公式：网页总数N

PageRankpi=1-qN+qpjPageRank(pj)L(pj)

Cloudera Manager是一个管理CDH端到端的应用，可以对Hadoop生态圈整个集群进行管理、监控、诊断和集成

Cloudera Manager架构：客户端或API与Cloudera Manager主节点Server进行交互对集群代理Agent进行管理，代理的集群以及管理的数据存放在Database中，Management Service对集群硬件软件进行监控，Cloudera Manager主节点Server与Agent进行心跳机制，默认心跳次数为5，Agent通过Python语言调用Shell脚本对集群软件进行配置和管理

Cloudera Manager安装部署环境准备（CentOS）：

网络配置（静态IP和hosts）

IP地址配置文件/etc/sysconfig/network-scripts/ifcfg-网卡接口名

hosts配置文件/etc/hosts

SSH免秘钥登录（所有机器节点之间）

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

防火墙配置开放相应端口或关闭

service iptables stop 临时关闭防火墙

chkconfig iptables off 关闭防火墙开机启动

设置SELinux模式或关闭

setenforce 0 临时关闭

SELinux配置文件/etc/selinux/config设置SELINUX=disabled 永久关闭

安装JDK配置环境变量

export JAVA_HOME=JDK安装目录

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOMdE/lib/dt.jar:$JAVA_HOME/lib/tools.jar（CLASSPATH可省略）

时间同步（安装NTP）

设置开机启动 chkconfig ntpd on

设置时间同步 ntpdate -u s2m.time.edu.cn

安装配置数据库（MySQL）

GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY '密码' WITH GRANT OPTION;设置权限

flush privileges; 刷新权限

chkconfig mysqld on设置MySQL开机自启动

下载安装第三方依赖包（CentOS）：chkconfig、python、bind-utils、psmisc、libxslt、zlib、sqlite、cyrus-sasl-plain、cyrus-sasl-gssapi、fuse、fuse-libs、redhat-lsb

Cloudera Manager离线安装（CentOS）：

所有主机节点安装Cloudera Manager Server、Agent

mkdir /opt/cloudera-manager 创建Cloudera Manager默认安装目录

tar xvzf cloudera-manager*.tar.gz -C /opt/cloudera-manager 安装包解压到默认安装目录

所有主机节点创建用户cloudera-scm

useradd --system --no-create-home --shell=/bin/false --comment "Cloudera SCM User" cloudera-scm 创建Cloudera Manager默认Linux用户

配置CM Agent

修改文件/opt/cloudera-manager/cm-5.10.0/etc/cloudera-scm-agent/config.ini中 server_host（指定Cloudera Manager主节点Server的主机名或IP地址）以及server_port（Cloudera Manager默认通信端口7182）

配置CM Server数据库

拷贝mysql的jar包文件到目录 /usr/share/java/（jar包名称要修改为mysql-connector-java.jar）Cloudera Manager默认MySQL的jar包位置

create user '用户名' @ '访问主机' identified by '密码'; 新版MySQL创建用户

grant 权限列表 on 数据库 to '用户名' @ '访问主机'; 新版MySQL赋予权限，修改权限时后加with grant option

grant all on *.* to 'temp'@'%' identified by 'temp' with grant option; 创建Cloudera Manager的MySQL用户

cd /opt/cloudera-manager/cm-5.10.0/share/cmf/schema/ 进入脚本目录

./scm_prepare_database.sh mysql（数据库类型） temp（数据库名） -h node1（数据库服务的主机名或IP地址） -utemp（连接数据库的用户名） -ptemp（连接数据库的密码） --scm-host node1（Cloudera Manager的主节点Server主机名或IP地址） scm scm scm 执行脚本创建相应数据库文件

创建Parcel目录（离线安装CDH需要事先创建指定安装目录）

Server节点

mkdir -p /opt/cloudera/parcel-repo Cloudera Manager的主节点Server创建指定CDH安装目录

chown cloudera-scm:cloudera-scm /opt/cloudera/parcel-repo Cloudera Manager的主节点Server修改相应文件权限

Agent节点

mkdir -p /opt/cloudera/parcels Cloudera Manager的节点Agent创建指定CDH安装目录，Cloudera Manager的主节点Server会自动分发安装文件到Agent的指定安装目录中

chown cloudera-scm:cloudera-scm /opt/cloudera/parcels Cloudera Manager的节点修改相应文件权限

制作CDH本地源

将下载的CDH离线安装文件CDH-5.4.0-1.cdh5.4.0.p0.27-el6.parcel、CDH-5.4.0-1.cdh5.4.0.p0.27-el6.parcel.sha（CDH离线安装文件对应版本的hash码，下载时可能会包含，不包含需要手动创建与CDH离线安装文件名一致的.sha后缀的文件并保存通过manifest.json中相应版本的hash码，为了防止字符集问题在Linux系统上创建）、manifest.json（JSON格式文件的配置的CDH版本对应的组件的版本以及版本的hash码）文件放到Cloudera Manager的主节点Server的/opt/cloudera/parcel-repo目录下

启动CM Server、Agent

cd /opt/cloudera-manager/cm-5.10.0/etc/init.d/ Cloudera Manager默认启动路径

./cloudera-scm-server start 启动Cloudera Manager Server

Sever首次启动会自动创建表以及数据，不能立即关闭或重启，否则需要删除所有表和所有数据文件重新安装（一般虚拟机可以创建快照防止启动失败），一般通过日志信息查看是否真正启动成功

./cloudera-scm-agent start 启动Cloudera Manager Agent

Cloudera Manager默认访问地址：http://ManagerHost:7180，默认用户名admin密码admin

Windows10 Edge浏览器访问Cloudera Manager的web界面可能会出现问题，以防在使用界面部署集群时出现问题，一般不使用Windows10 Edge浏览器

Cloudera Manager相关名词：

主机：host

机架：rack

集群：Cluster

服务：service

服务实例：service instance

角色：role

角色实例：role instance

角色组：role group

主机模板：host template

parcel：CDH的压缩安装文件包

静态服务池：static service pool

动态资源池：dynamic resource pool

Hue是一个基于Python Web框架Django实现的开源的Apache Hadoop UI系统，支持任何版本的Hadoop，Hue在浏览器端的Web控制台上与Hadoop集群进行交互分析处理数据

Hue提供的支持：基于文件浏览器（File Browser）访问HDFS、基于web编辑器来开发和运行Hive查询、支持基于Solr进行搜索的应用，并提供可视化的数据视图，报表生成、通过web调试和开发impala交互式查询、spark调试和开发、Pig开发和调试、oozie任务的开发，监控，和工作流协调调度、Hbase数据查询和修改，数据展示、Hive的元数据（metastore）查询、MapReduce任务进度查看，日志追踪、创建和提交MapReduce，Streaming，Java job任务、Sqoop2的开发和调试、Zookeeper的浏览和编辑、数据库（MySQL，PostGres，SQlite，Oracle）的查询和展示

你可能感兴趣的:(学习笔记)

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
5G标准学习笔记14 - CSI--RS概述刘孬孬沉迷学习 5G 学习笔记信息与通信
5G标准学习笔记14-CSI–RS概述大家好~，这里是刘孬孬，今天带着大家一起学习一下5GNR中一个非常非常重要的参考信号------------------CSI-RS信号，CSI-RS不是持续发送，UE只能在网络明确配置了CSI-RS的情况下才能使用其进行信道测量。前言对于CSI-RS，肯定还离不开前面所说的CSI（channelstateinformation），前面也讲过CSI对于MIMO
5G标准学习笔记06-基于AI/ML波束管理刘孬孬沉迷学习 5G 学习笔记
5G标准学习笔记06-基于AI/ML波束管理前言前面对于孬孬学习了波束管理的概述，下面要进一步来看一下传统波束管理和现在3GPP中推动的AL/ML波束管理之前的区别联系。一、传统波束管理方法流程传统BM流程主要包括以下步骤：波束扫描（BeamSweeping）：gNB通过顺序发送多个窄波束（SSB或CSI-RS），覆盖整个服务区域，UE测量每个波束的信号质量（如L1-RSRP或L1-SINR）。波
5G标准学习笔记03- CSI 反馈增强概述刘孬孬沉迷学习 5G 笔记学习
5G标准学习笔记03-CSI反馈增强概述大家好，最近在研究AI/ML3gpp标准NR空口的有关内容，后面可能会给大家介绍一下对应的有关内容AI/ML在3GPP标准中的研究进展在AI/ML在NR空口的应用中，对应标准主要聚焦了3个case进行讨论研究分别是：CSI反馈增强；波束管理；定位精度增强；这三个内容可能比较涉及RAN1/2的具体内容，后面会基于这个进行一定的介绍。今天主要是主要介绍CSI反馈
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
LLaMA 学习笔记 AI算法网奇深度学习基础人工智能深度学习
目录LLaMA模型结构：模型微调手册：推理示例：指定位置加载模型测试ok：模型下载：llama-stack下载modelscope下载LLaMA优化技术RMSNormSwiGLU激活函数旋转位置编码（RoPE）LLaMA模型结构：llama3结构详解-CSDN博客模型微调手册：大模型微调LLaMA详细指南（准备环境、数据、配置微调参数+微调过程）_llama微调-CSDN博客显存占用：FP16/B
BOOT_KEY按键（学习笔记）小高Baby@ 学习笔记
先来让我们了解一下GPIO是什么吧，它在单片机中也有很重要的作用，接下来我们来看看吧。esp32C3是QFN32封装（一种集成电路（IC）封装类型），GPIO引脚一共有22个，从GPIO-0到GPIO-21。从理论上来说，所有的IO引脚都可以复用为任何外设功能，但有些引脚用作连接芯片内部FLASH或者外部FLASH功能时，官方不建议用作其它用途。esp32c3的GPIO，可以用作输入、输出，可以配
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
Kotlin学习笔记 qq_26907861
1.Val和Varval:用于声明不可变量,不可变是指引用不可变;var:用于声明可变的变量;packagehello//可选的包头funmain(args:Array){//包级可见的函数，接受一个字符串数组作为参数vala="不可变的变量"//不可变的变量varn=2//可变println(a)println(n)}2.fun函数Kotlin中的函数可以这样声明:fun函数名(参数列表):返回
WPF学习笔记（2）——x名称空间详解上幽冥宇少 WPF C#WPF学习笔记初学者 C#VS2013
先说一些基本的，.NET的模块称为程序集（Assembly）。一般情况下，用VS创建的是解决方案（Solution），一个解决方案就是一个完整的程序。解决方案中包含若干个项目（Project），每个项目是可以独立编译的，他的编译结果是一个程序集。常见的程序集是以.exe为扩展名的可执行程序或者是以.dll为扩展名的动态链接库，大多数情况下，我们说“引用其他程序集”的时候，说的是动态链接库。因为.N
初学者的指针学习笔记（1）近津薪荼学习笔记
1.内存和地址1.1内存像学生宿舍一样，被分成许多个房间，每个房间都有自己的房号，每个房间能住8个学生内存被分成许多个单元（小为1Byte），每个单元都有自己的编号，每个单元里能住8个小比特（bite）c语言中，指针就是该单元内存的编号也就是地址，我们可以通过指针快速找到我们要访问的内存1.2编址计算机中的内存编址，是通过硬件设计来完成的，也就是说他被做出来的时候各个内存单元的地址就已经确定了。计
初学者关于自定义类型结构体的学习笔记近津薪荼学习笔记数据结构
1.结构的特殊声明//匿名结构体类型struct{inta;charb;floatc;}x;struct{inta;charb;floatc;}a[20],*p;p=&x;不可取，本质上是两个不同类型的结构体上述代码的声明方式，该结构体类型，如果不重命名的话，只能用一次（声明时顺便创建变量）2.结构体的自引用structNode{intdata;structNodenext;};上述代码，结构体中
Xilinx系FPGA学习笔记（三）Vivado的仿真及ILA使用贾saisai FPGA学习 fpga开发学习笔记
系列文章目录文章目录系列文章目录前言仿真验证（类似modelsim）ILA在线调试工具添加ILAILA的例化ILA的使用前言接着学习vivado的使用方法仿真验证（类似modelsim）首先类似添加.v文件的方法，在File-AddSource中选择Addorcreatesimulationsources或者直接在Sources里面选就行然后就编写testbench，类似之前介绍的modelsim
学习笔记day1
Linux基础Linux到底是什么？Linux主要指的是内核（主机中的CPU）,它也是我们系统的大脑Ubuntu跟Linux的关系：Ubuntu是Linux系统的一个分支。为什么要选⽤Linux?开源的，用户可以根据自己的喜好和需求来定制系统。性免费，企业可以减少开发成本。安全性可移植性高Linux跟我们⽇常使⽤的windows的区别？操作习惯不⼀样：windows是以图形交互为主；Linux操作
【机器学习|学习笔记】用 Python 结合 graphviz 生成 ID3、C4.5、CART 三种决策树的结构示意图。
【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图文章目录【机器学习|学习笔记】用Python结合graphviz生成ID3、C4.5、CART三种决策树的结构示意图用Python结合graphviz生成ID3、C4.5、CART三种
Text2Reward学习笔记
1.提示词请问，“glew”是一个RL工程师常用的工具库吗？请问,thiscodebase主要是做什么用的呀？1.1解释代码是否可以请您根据thiscodebase的主要功能，参考PyTorch的文档格式和文档风格，使用Markdown格式为选中的代码行编写一段相应的文档说明呢？2.项目环境配置2.1新建环境[official]2.1.1Featurizecondacreate-p~/work/d
pandas学习笔记 kara_486 pandas 学习笔记
pandas是python中一个性能强大的数据处理库，能进行复杂的数据处理。pandas的数据结构分为三种类型，分别为series,DataFrame和index,对于初学者而言，series和DataFrame这两种结构最为重要。下面作者将重点介绍series和DataFrame这两部分。series的介绍series按照作者的目前的理解是pandas库中最基础的组成部分，seriers是由索引
英语学习笔记2.0 飞升不如收破烂~ 学习笔记
✅正确表达：“HowlonghaveyoubeenteachingEnglish?”或者更简单地问：“HowlongdoyouteachEnglish?”（这个句子语法对，但用在现在习惯性的行为上）用法说明：如果你想问：️“你教英语多久了？”✅用现在完成时（表示一段持续的时间）：HowlonghaveyoubeenteachingEnglish?️你可以这样试试新的句子：Howlonghaveyo
C语言笔记
学习笔记仅供参考基础介绍程序就是一组计算机能识别的指令，计算机的一切操作都是由程序控制的。人和计算机都能识别的语言就是就是计算机语言，计算机工作是基于二进制的。计算机能直接识别的二进制代码就是机器指令，机器指令的集合就是机器语言。机器语言与人们习惯使用的语言差别太大，所以人们创造出了符号语言，计算机不能直接识别符号语言的指令，需要汇编程序软件将符号语言指令转成机器指令(二进制代码)。机器语言与汇编
黑马程序员_学习笔记2——wpf计算器马林雷
WPF学习笔记（27）科学计算器三千道应用题 C#实例 WPF学习笔记 wpf
科学计算器1.前端界面2.功能代码1.前端界面2.功能代码usingSystem;usingSystem.Collections.Generic;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingSystem.Windows;usingSystem.Windows.Controls;usingSystem.Wind
【机器学习笔记Ⅰ】10 特征工程
特征工程（FeatureEngineering）详解特征工程是机器学习和数据科学中的核心环节，旨在通过对原始数据的转换、组合和提取，构建更适合模型的高质量特征。其质量直接决定模型性能上限（“数据和特征决定了模型的上限，而算法只是逼近这个上限”）。1.特征工程的核心目标提升模型性能：增强特征与目标变量的相关性。降低计算成本：减少冗余特征，加速训练。改善泛化能力：避免过拟合，提高鲁棒性。2.特征工程的
Java基础学习笔记2 qichi333 学习笔记 java eclipse
今天是Java基础学习第二天，加油！！！下面是我今天记的一些笔记。（有点懒惰了，爬虫今天没学，因为赖床了(bushi)，但我会勤奋起来的^_^，一定一定！明天不能偷懒了天！！）一、运算符例子：inta=10;intb=20;intc=a+b;其中，“+”是运算符，且是算术运算符；“a+b”是表达式，且是算术表达式。1.算术运算符例1：publicclassdemo3{publicstaticvoi
SystemVerilog LRM 学习笔记 -- clocking块
1clocking...endclocking块clocking块是SV新feature，主要是为了更好解决testbench和DUT之间的timing和同步建模的问题，可以使user基于clockcycle在更高的抽象层次上写testbench(如“##3”，表示三个clock)。clocking只能在module/interface/checker/program中声明，不能在function
JavaWeb（苍穹外卖）--学习笔记03（登录生成令牌）老虎0627 JavaWeb（苍穹外卖）学习笔记 java
前言本片文章是学习B站黑马程序员苍穹外卖的学习笔记。在Day01（如果学到登录界面这里卡住了，可以看看这篇文章），登陆界面的后端实现大致可以分为两部分登录功能和登录校验，其中登陆校验的实现是基于令牌JWT技术来实现会话追踪（校验部分还有拦截器Interceptor这个我没太学懂视频也没提，以后在更）JWT令牌基本概念JWT是一种在Web应用程序，简单且安全地处理用户身份验证和信息交换的技术，首先我
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一