wbj0110

手动装配Hadoop Cloudera CDH4.2版本

第1章概要说明4

1.1 Hadoop是什么?4

1.2 为什么选择CDH版本?4

1.3 集群配置环境4

1.4 网络结构图5

第2章安装hadoop环境6

2.1 准备安装包6

2.2 默认用户组root:root6

2.3 卸载自带的jdk6

2.4 安装和配置jdk环境6

2.5 配置/etc/hosts6

2.6 配置ssh无密码登陆7

2.7 处理防火墙7

2.8 将hadoop-2.0.0-cdh4.2.0.zip上传到/opt，并解压缩9

2.9 编辑core-site.xml文件9

2.10 编辑hdfs-site.xml文件9

2.11 编辑slaves文件10

2.12 编辑mapred-site.xml文件10

2.13 编辑yarn-site.xml文件11

2.14 编辑.bashrc文件13

2.15 将master01机上的/opt/hadoop拷贝到其他机器上14

2.16 第一次启动hadoop需要先格式化NameNode14

2.17 在master01机上启动hdfs：14

2.18 在master01机上启动mapreduce,historyserver14

2.19 查看master01机的MapReduce15

2.20 查看slave01,slave02的节点15

2.21 检查各台机器的集群进程15

2.22 关闭服务15

第3章 Zookeeper安装16

3.1 准备安装包16

3.2 解压16

3.3 修改zoo.cfg文件16

3.4 修改环境变量17

3.5 创建data文件夹及修改myid文件17

3.6 将文件复制至其他机器17

3.7 启动18

3.8 检查是否成功18

3.9 停止服务18

3.10 参考文档18

第4章 Hive的安装19

4.1 准备安装包19

4.2 准备机器19

4.3 访问mysql19

4.4 配置hive-site.xml文件，将meta信息保存在mysql里19

4.5 将mysql-connector-java-5.1.18.tar.gz解压22

4.6 Mysql的一些操作22

4.7 查看日志记录22

4.8 Hive导入本地数据命令22

第5章 Hive+Thrift+PHP整合23

5.1 准备安装包23

5.2 编辑代码23

5.3 启动hiveserver24

5.4 查看默认开启的10000端口24

5.5 测试24

5.6 出错提示及解决办法24

第6章 sqoop安装使用25

6.1 准备安装包25

6.2 前提工作25

6.3 安装25

6.4 放置mysql驱动包25

6.5 修改configure-sqoop文件25

6.6 将路径加入PATH25

6.7 使用测试26

6.8 出错提示及解决办法27

6.9 参考27

第1章概要说明

1.1 Hadoop是什么?

Hadoop一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的数据。

1.2 为什么选择CDH版本?

Ø CDH基于稳定版Apache Hadoop，并应用了最新Bug修复或者Feature的Patch。Cloudera常年坚持季度发行Update版本，年度发行Release版本，更新速度比Apache官方快，而且在实际使用过程中CDH表现无比稳定，并没有引入新的问题。

Ø Cloudera官方网站上安装、升级文档详细，省去Google时间。

Ø CDH支持Yum/Apt包，Tar包，RPM包，Cloudera Manager四种方式安装

Ø 获取最新特性和最新Bug修复；安装维护方便，节省运维时间

1.3 集群配置环境

[root@master01 ~]# lsb_release -a

LSBVersion: :base-4.0-ia32:base-4.0-noarch:core-4.0-ia32:core-4.0-noarch:graphics-4.0-ia32:graphics-4.0-noarch:printing-4.0-ia32:printing-4.0-noarch

Distributor ID: CentOS

Description: CentOS release 6.4 (Final)

Release: 6.4

Codename: Final

1.4 网络结构图

第2章安装hadoop环境

2.1 准备安装包

jdk-7-linux-i586.rpm [77.2M]

hadoop-2.0.0-cdh4.2.0 [129M] 此安装包URL下载：http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

2.2 默认用户组root:root

2.3 卸载自带的jdk

[root@master01 local]# rpm -qa | grep jdk

java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.i686

yum -y remove java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.i686

yum -y remove java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.i686

2.4 安装和配置jdk环境

[root@master01 local]# rpm -ivh jdk-7-linux-i586.rpm

Preparing... ########################################### [100%]

1:jdk ########################################### [100%]

& 注意

下面有设置JAVA_HOME环境的清单，写在~/.bashrc.sh文件里

另外请注意：生产环境下一般为64位机，请下载相应的64位JDK包进行安装

2.5 配置/etc/hosts

vi /etc/hosts

192.168.2.18 master01

192.168.2.19 master02

192.168.2.163 slave01

192.168.2.38 slave02

192.168.2.212 slave03

& 注意：其他机器也要修改

rsync -vzrtopgu --progress /etc/hosts 192.168.2.38:/etc/hosts

2.6 配置ssh无密码登陆

ssh-keygen -t rsa

ssh-copy-id -i ~/.ssh/id_rsa.pub root@slave01

ssh-copy-id -i ~/.ssh/id_rsa.pub root@slave02

& 注意

Master01机本身也要设置一下哦！

cd ~

cat id_rsa.pub >>authorized_keys

2.7 处理防火墙

service iptables stop

& 说明

如果不关闭防火墙，让datanode通过namenode机的访问，请配置slave01,slave02等相关机器的iptables表，各台机器都要能互相访问

vi /etc/sysconfig/iptables

添加：

-I INPUT -s 192.168.2.18 -j ACCEPT

-I INPUT -s 192.168.2.38 -j ACCEPT

-I INPUT -s 192.168.2.87 -j ACCEPT

开启master01的8088和50070端口，方便WEB访问namenode和mapreduce

图1

图2

2.8 将hadoop-2.0.0-cdh4.2.0.zip上传到/opt，并解压缩

tar xzvf hadoop-2.0.0-cdh4.2.0.tar.gz

mv hadoop-2.0.0-cdh4.2.0 hadoop

cd hadoop/etc/hadoop/

2.9 编辑core-site.xml文件

vi core-site.xml

fs.defaultFS

hdfs://master01

fs.trash.interval

10080

fs.trash.checkpoint.interval

10080

2.10 编辑hdfs-site.xml文件

vi hdfs-site.xml

dfs.replication

hadoop.tmp.dir

/opt/data/hadoop-${user.name}

dfs.namenode.http-address

master01:50070

dfs.secondary.http.address

master02:50090

dfs.webhdfs.enabled

true

2.11 编辑slaves文件

vi slaves

slave01

slave02

2.12 编辑mapred-site.xml文件

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

mapreduce.framework.name

yarn

mapreduce.jobhistory.address

master01:10020

mapreduce.jobhistory.webapp.address

master01:19888

2.13 编辑yarn-site.xml文件

vi yarn-site.xml

yarn.resourcemanager.resource-tracker.address

master01:8031

yarn.resourcemanager.address

master01:8032

yarn.resourcemanager.scheduler.address

master01:8030

yarn.resourcemanager.admin.address

master01:8033

yarn.resourcemanager.webapp.address

master01:8088

Classpath for typical applications.

yarn.application.classpath

$HADOOP_CONF_DIR,$HADOOP_COMMON_HOME/share/hadoop/common/*,

$HADOOP_COMMON_HOME/share/hadoop/common/lib/*,

$HADOOP_HDFS_HOME/share/hadoop/hdfs/*,$HADOOP_HDFS_HOME/share/hadoop/hdfs/lib/*,

$YARN_HOME/share/hadoop/yarn/*,$YARN_HOME/share/hadoop/yarn/lib/*,

$YARN_HOME/share/hadoop/mapreduce/*,$YARN_HOME/share/hadoop/mapreduce/lib/*

yarn.nodemanager.aux-services

mapreduce.shuffle

yarn.nodemanager.aux-services.mapreduce.shuffle.class

org.apache.hadoop.mapred.ShuffleHandler

yarn.nodemanager.local-dirs

/opt/data/yarn/local

yarn.nodemanager.log-dirs

/opt/data/yarn/logs

Where to aggregate logs

yarn.nodemanager.remote-app-log-dir

/opt/data/yarn/logs

yarn.app.mapreduce.am.staging-dir

/user

1.1 编辑.bashrc文件

cd ~

vi .bashrc

#export LANG=zh_CN.utf8

export JAVA_HOME=/usr/java/jdk1.7.0

export JRE_HOME=$JAVA_HOME/jre

export CLASSPATH=./:$JAVA_HOME/lib:$JRE_HOME/lib:$JRE_HOME/lib/tools.jar

export HADOOP_HOME=/opt/hadoop

export HIVE_HOME=/opt/hive

export HBASE_HOME=/opt/hbase

export HADOOP_MAPRED_HOME=${HADOOP_HOME}

export HADOOP_COMMON_HOME=${HADOOP_HOME}

export HADOOP_HDFS_HOME=${HADOOP_HOME}

export YARN_HOME=${HADOOP_HOME}

export HADOOP_YARN_HOME=${HADOOP_HOME}

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HDFS_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export YARN_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin

source .bashrc

1.2 将master01机上的/opt/hadoop拷贝到其他机器上

rsync -vzrtopgu --progress hadoop slave01:/opt/

rsync -vzrtopgu --progress hadoop slave02:/opt/

或者

rsync -vzrtopgu --progress hadoop 192.168.2.38:/opt/

rsync -vzrtopgu --progress hadoop 192.168.2.163:/opt/

& rsync命令参数解释

-v, --verbose 详细模式输出

-z, --compress 对备份的文件在传输时进行压缩处理

-r, --recursive 对子目录以递归模式处理

-t, --times 保持文件时间信息

-o, --owner 保持文件属主信息

-p, --perms 保持文件权限

-g, --group 保持文件属组信息

-u, --update 仅仅进行更新，也就是跳过所有已经存在于DST，并且文件时间晚于要备份的文件。(不覆盖更新的文件)

1.3 第一次启动hadoop需要先格式化NameNode

/opt/hadoop/bin/hadoop namenode -format

& 说明：

该操作只做一次。当修改了配置文件时，需要重新格式化

1.4 在master01机上启动hdfs：

/opt/hadoop/sbin/start-dfs.sh

1.5 在master01机上启动mapreduce,historyserver

/opt/hadoop/sbin/start-yarn.sh

/opt/hadoop/sbin/mr-jobhistory-daemon.sh start historyserver

1.6 查看master01机的MapReduce

http://192.168.2.18:8088/cluster

1.7 查看slave01,slave02的节点

http://192.168.2.163:8042/node/node

1.8 检查各台机器的集群进程

[root@master01 ~]# jps

5389 NameNode

5980 Jps

5710 ResourceManager

7032 JobHistoryServer

[root@slave01 ~]# jps

3187 Jps

3124 SecondaryNameNode

[root@slave02~]# jps

3187 Jps

3124 DataNode

5711 NodeManager

1.9 关闭服务

/opt/hadoop/sbin/stop-all.sh

第2章 Zookeeper安装

2.1 准备安装包

zookeeper-3.4.5-cdh4.2.0.tar.gz

2.2 解压

tar xzvf zookeeper-3.4.5-cdh4.2.0.tar.gz

mv zookeeper-3.4.5-cdh4.2.0 zookeeper

2.3 修改zoo.cfg文件

cd conf/

cp zoo_sample.cfg zoo.cfg

vi zoo.cfg

# The number of milliseconds of each tick

tickTime=2000

# The number of ticks that the initial

# synchronization phase can take

initLimit=10

# The number of ticks that can pass between

# sending a request and getting an acknowledgement

syncLimit=5

# the directory where the snapshot is stored.

# do not use /tmp for storage, /tmp here is just

# example sakes.

dataDir=/opt/zookeeper/data

#dataLogDir=/opt/zookeeper/log

# the port at which the clients will connect

clientPort=2181

# Be sure to read the maintenance section of the

# administrator guide before turning on autopurge.

# http://zookeeper.apache.org/doc/current/zookeeperAdmin.html#sc_maintenance

# The number of snapshots to retain in dataDir

#autopurge.snapRetainCount=3

# Purge task interval in hours

# Set to "0" to disable auto purge feature

#autopurge.purgeInterval=1

server.1=master01:2888:3888

server.2=master02:2888:3888

server.3=slave01:2888:3888

server.4=slave02:2888:3888

2.4 修改环境变量

vi ~/.bashrc

export ZOOKEEPER_HOME=/opt/zookeeper

export PATH=$PATH:$ZOOKEEPER_HOME/bin

2.5 创建data文件夹及修改myid文件

mkdir /opt/zookeeper/data

touch myid

vi myid

第一台机器写入数字1

第二台机器写入数字2

依此类推

2.6 将文件复制至其他机器

rsync -vzrtopgu --progress zookeeper master02:/opt/

rsync -vzrtopgu --progress zookeeper slave01:/opt/

rsync -vzrtopgu --progress zookeeper slave02:/opt/

2.7 启动

sh /opt/zookeeper/bin/zkServer.sh start

[root@master01 zookeeper]# jps

3459 JobHistoryServer

6259 Jps

2906 NameNode

3171 ResourceManager

6075 QuorumPeerMain

2.8 检查是否成功

/opt/zookeeper/bin/zkCli.sh -server master01:2181

或者

sh /opt/zookeeper/bin/zkServer.sh stop

2.9 停止服务

sh /opt/zookeeper/bin/zkServer.sh stop

2.10 参考文档

http://archive.cloudera.com/cdh4/cdh/4/zookeeper-3.4.5-cdh4.2.0/

第3章 Hive的安装

3.1 准备安装包

hive-0.10.0-cdh4.2.0 [43.2M]

mysql-connector-java-5.1.18.tar.gz [3.65M]

3.2 准备机器

slave03机器，安装hive+thrift+sqoop,专门作为数据分析用途。

3.3 访问mysql

和mysql整合前，请务必配置好各机器间能访问Mysql服务器机

GRANT select, insert, update, delete ON *.* TO 'hadoop'@'slave01' IDENTIFIED BY 'hadoop';

flush privileges;

show grants for 'hive'@'slave03';

revoke all on *.* from 'hadoop'@'slave01';

drop user 'hive'@'slave03';

& 说明

测试环境下，本人仍然用slave03机做mysql服务器。在实际生产环境中，建议用专门的机器做Mysql。

3.4 配置hive-site.xml文件，将meta信息保存在mysql里

cd /opt/hive

vi hive-site.xml

javax.jdo.option.ConnectionURLjdbc:mysql://slave03:3306/hive?createDatabaseIfNotExist=true&characterEncoding=UTF-8

JDBC connect string for a JDBC metastore

javax.jdo.option.ConnectionDriverName

com.mysql.jdbc.Driver

Driver class name for a JDBC metastore

javax.jdo.option.ConnectionUserName

hadoop

username to use against metastore database

javax.jdo.option.ConnectionPassword

hadoop

password to use against metastore database

mapred.job.tracker

master01:8031

mapreduce.framework.name

yarn

hive.metastore.warehouse.dir

/opt/data/warehouse-${user.name}

location of default database for the warehouse

hive.exec.scratchdir

/opt/data/hive-${user.name}

Scratch space for Hive jobs

hive.querylog.location

/opt/data/querylog-${user.name}

Location of Hive run time structured log file

hive.support.concurrency

Enable Hive's Table Lock Manager Service

false

hive.hwi.listen.host

master01

This is the host address the Hive Web Interface will listen on

hive.hwi.listen.port

9999

This is the port the Hive Web Interface will listen on

hive.hwi.war.file

lib/hive-hwi-0.10.0-cdh4.2.0.war

This is the WAR file with the jsp content for Hive Web Interface

3.5 将mysql-connector-java-5.1.18.tar.gz解压

tar xzvf mysql-connector-java-5.1.18.tar.gz

mv mysql-connector-java-5.1.18-bin.jar /opt/hive/lib

3.6 Mysql的一些操作

create database hive;

alter database hive character set latin1;

& 注意：

如果不设置上述命令，则会出现如下：

Specified key was too long; max key length is 767 bytes

3.7 查看日志记录

tail /tmp/root/hive.log

3.8 Hive导入本地数据命令

1) CREATE TABLE mytest2(num INT, name STRING) COMMENT 'only a test' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE;

2) LOAD DATA LOCAL INPATH '/var/22.txt' INTO TABLE mytest2;

第4章 Hive+Thrift+PHP整合

4.1 准备安装包

Thrift.zip [71.7K] 下载URL：http://download.csdn.net/detail/jiedushi/3409880

PHP安装，略过

4.2 编辑代码

vi test.php

$GLOBALS['THRIFT_ROOT'] = '/home/wwwroot/Thrift/';

require_once $GLOBALS['THRIFT_ROOT'] . 'packages/hive_service/ThriftHive.php';

require_once $GLOBALS['THRIFT_ROOT'] . 'transport/TSocket.php';

require_once $GLOBALS['THRIFT_ROOT'] . 'protocol/TBinaryProtocol.php';

$transport = new TSocket('slave03', 10000);

$protocol = new TBinaryProtocol($transport);

$client = new ThriftHiveClient($protocol);

$transport->open();

#$client->execute('add jar /opt/hive/lib/hive-contrib-0.10.0-cdh4.2.0.jar ');

$client->execute("LOAD DATA LOCAL INPATH '/var/22.txt' INTO TABLE mytest2");

$client->execute("SELECT COUNT(1) FROM mytest2");

var_dump($client->fetchAll());

$transport->close();

& 说明：

/var/22.txt文件内容为：

1 jj

2 kk

与上一章2.5的操作同步

4.3 启动hiveserver

/opt/hive/bin/hive --service hiveserver >/dev/null 2>/dev/null &

4.4 查看默认开启的10000端口

netstat -lntp|grep 10000

4.5 测试

php test.php

4.6 出错提示及解决办法

Ø Warning: stream_set_timeout(): supplied argument is not a valid stream resource in /home/wwwroot/Thrift/transport/TSocket.php on line 213

修改php.ini中的disable_functions

disable_functions = passthru,exec,system,chroot,scandir,chgrp,chown,shell_exec,proc_get_status,ini_alter,ini_alter,ini_restore,dl,openlog,syslog,readlink,symlink,popepassthru

第5章 sqoop安装使用

5.1 准备安装包

sqoop-1.4.2-cdh4.2.0.tar.gz [6M]

5.2 前提工作

按第一章的介绍步骤配置好hadoop，环境变量HADOOP_HOME已经设置好。

5.3 安装

cd /opt/

tar xzvf sqoop-1.4.2-cdh4.2.0.tar

mv sqoop-1.4.2-cdh4.2.0 sqoop

5.4 放置mysql驱动包

将mysql-connector-java-5.1.18-bin.jar包放至/opt/sqoop/lib下

5.5 修改configure-sqoop文件

vi /opt/sqoop/bin/configure-sqoop

因为没安装hbase，请注释

#if [ ! -d "${HBASE_HOME}" ]; then

# echo "Warning: $HBASE_HOME does not exist! HBase imports will fail."

# echo 'Please set $HBASE_HOME to the root of your HBase installation.'

#fi

5.6 将路径加入PATH

vi ~/.bashrc

export PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$ANT_HOME/bin:/opt/sqoop/bin

5.7 使用测试

Ø 列出mysql数据库中的所有数据库命令

sqoop list-databases --connect jdbc:mysql://slave03:3306/ --username hadoop --password hadoop

Ø 列出表名：

sqoop list-tables -connect jdbc:mysql://slave03/ggg -username hadoop -password hadoop

Ø 将关系型数据的表结构复制到hive中

sqoop create-hive-table --connect jdbc:mysql://master01:3306/ggg --table hheccc_area --username hadoop --password hadoop --hive-table ggg_hheccc_area

Ø 从关系数据库导入文件到hive中

sqoop import -connect jdbc:mysql://slave03/ggg -username hadoop -password hadoop -table sp_log_fee -hive-import --hive-table hive_log_fee --split-by id -m 4

& 参照

一般导入：

import \
       --append \
       --connect $DS_BJ_HOTBACKUP_URL \
       --username $DS_BJ_HOTBACKUP_USER \
       --password $DS_BJ_HOTBACKUP_PWD \
       --table 'seven_book_sync' \
       --where "create_date >= '${par_31days}' and create_date < '${end_date}'" \
       --hive-import \
       --hive-drop-import-delims \
       --hive-table ${hive_table} \        //可以点分法识别schema.table
       --m 1

以时间作为增量条件是最好的办法

并行导入：

sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --target-dir $hdfsPath --m 12 --split-by CLIENTIP --table $oralceTableName --columns $columns --fields-terminated-by '\001' --where "data_desc='2011-02-26'"

增量导入：

sqoop import --connect jdbc:mysql://master01:3306/ggg --username hadoop --password hadoop --table hheccc_area --columns "id,name,reid,disorder" --direct --hive-import --hive-table hheccc_area --incremental append --check-column id --last-value 0

sqoop job --exec area_import

以上为网上找来的命令，经测试，不起作用。留着仅供参考。

Ø 将hive中的表数据导出到mysql中

sqoop export --connect jdbc:mysql://master01:3306/ggg --username hadoop --password hadoop --table mytest2 --export-dir /opt/data/warehouse-root/ggg_hheccc_area

& 备注

分区保存：/user/hive/warehouse/uv/dt=2011-08-03

5.8 出错提示及解决办法

Ø Encountered IOException running import job: org.apache.hadoop.fs.FileAlreadyExistsException: Output directory hdfs://master01/user/root/hheccc_area already exists

/opt/hadoop/bin/hadoop fs -rm -r /user/root/hheccc_area

5.9 参考

http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html

http://sqoop.apache.org/docs/1.4.2/SqoopUserGuide.html

你可能感兴趣的:(Cloudera,CDH)

2023 下半年信息安全工程师考试真题答案 rockmelodies 安全网络安全
一、单项选择如下有关信息安全管理员职责旳论述，不对旳旳是（）A.信息安全管理员应当对网络旳总体安全布局进行规划B.信息安全管理员应当对信息系统安全事件进行处理C.信息安全管理员应当负责为顾客编写安全应用程序D.信息安全管理员应当对安全设备进行优化配置国家密码管理局于2023年公布了“无线局域网产品须使用旳系列密码算法”，其中规定密钥协商算法应使用旳是（）A.DHB.ECDSAC.ECDHD.CPK
kafka消费者重复消费同一个topic 小琳ai 大数据 kafka 重复消费 consumer
我的需求是我有多个消费者，需要重复消费某一个topic。场景是sparkstreaming消费kafka数据在这里sparkstream和kafka都是单节点的集群模式。同时起两个不同的groupid的应用，发现会发生后起来的应用消费不到数据。按理来讲不同的groupid属于不同的消费组，不会相互影响。由于是使用的cdh集成的kafka，不知道cdh里的zookeeper管理kafka的数据存在了
Django HelloWorld 部署 SkTj
第一阶段：搭建Django框架mkdirdjango//创建一个文件夹命名为djangocddjango//进入django文件夹django-adminstartprojectHelloWorld//创建一个Project命名为HelloWorldcdHelloWorld//进入HelloWorld查看一下目录，结果有两个文件：HelloWorld//该目录用于存放一些配置信息manage.py
9.迁移CM和数据库-2 大勇任卷舒
9.1将原CM节点数据迁移至新节点9.1.1备份原CM节点数据主要备份CM的监控数据和管理信息，数据目录包括:/var/lib/cloudera-host-monitor/var/lib/cloudera-service-monitor/var/lib/cloudera-scm-server/var/lib/cloudera-scm-eventserver/var/lib/cloudera-scm
大数据基础之Flume——Flume基础及Flume agent配置以及自定义拦截器 Clozzz Flume 大数据 flume hadoop
Flume简介Flume用于将多种来源的日志以流的方式传输至Hadoop或者其他目的地 -一种可靠、可用的高效分布式数据收集服务Flume拥有基于数据流上的简单灵活架构，支持容错、故障转移与恢复由Cloudera2009年捐赠给Apache，现为Apache顶级项目Flume架构Client：客户端，数据产生的地方，如Web服务器Event：事件，指通过Agent传输的单个数据包，如日志数据通常对
Flume介绍及调优桓桓桓桓分布式大数据日志搜集
一、概述Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前Flume有两个版本Flume0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，与Flu
大数据技术之Flume okbin1991 大数据 flume java hadoop 开发语言
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。1.2Flume基础架构Flume组成架构如下图所示。1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、Sink。1.2.2Sourc
hue升级文档 101之歌
首先，确定我们的两个安装包：hue.zip（这个包也可以从我们的git仓库下载，具体链接我会发给你）huetool.zip然后，在CDH的管理界面停止hue的服务：1，进入hue2，选择实例3，选择HueServer4，选择“操作”-->“停止此HueServer”停止了hue服务以后，进入shell，开始安装kerberos：1，解压huetool.zip2，进入，打开krb5.conf3，修改
实训day37（8.27） Tʀᴜsᴛ⁴¹⁷487 linux
一、dockerfile应用[root@docker~]#mkdirhttp0[root@docker~]#cdhttp0/[root@dockerhttp0]#vimabc.sh[root@dockerhttp0]#lsabc.sh[root@dockerhttp0]#vimabc.sh#!/bin/bashrm-rf/run/*httpd*exec/sbin/httpd-DFOREGROUND
ubuntu16.04安装 ambari 2.7.3的环境准备工作 lbl251
0、登录官网先看下资料https://docs.cloudera.com/HDPDocuments/Ambari-2.7.3.0/bk_ambari-installation/content/setup_options.html1、准备好安装包（ambari安装包）（要用root用户最好）https://docs.hortonworks.com/HDPDocuments/Ambari-2.7.3.
CDH 之 hive 数据迁移啊这 CDH hive hadoop 大数据迁移学习
当你想切换了集群想把hive迁移至新集群，两个集群之间又互不相通，一个最简单快捷的方法，就是批量导出元数据信息，同时把数据文件下载上传至新服务器的数据文件存放目录下1.导出元数据信息#database即是数据库名称hive-e"use;showtables;"|xargs-I'{}'sh-c'hive-e"use;showcreatetable'{}';"'>tables.sql2.将原服务器中h
Gitlab CI/CD 配置 netkiller- 运维手札编程手札 gitlab ci/cd git
CI/CDhttps://gitlab.com/gitlab-examplesGitlab(仓库)->GitlabRunner（持续集成/部署）->Remotehost（远程部署主机）11.5.1.远程服务器配置为远程服务器创建www用户，我们将使用该用户远程部署，远程启动程序。[root@netkiller~]#groupadd-g80www[root@netkiller~]#adduser-o
在linux机器中安装配置hadoop BigData_C linux hadoop
1.首先我们要把hadoop包上传到我们的liunx机器中（运用外链软件上传如：Xshell+xftp）（用我们的外链软件连接成功后，进行hadoop包的上传）上传到我们想要的目录路径下，比如我的是上传到/home/hadoop目录下。（我们可以看到红色字体的hadoop包已经上传成功）2.进行解压，运用命令：tar-zxvfhadoop-2.6.0-cdh5.7.6.tar.gz进行解压，解压后
基于Hadoop平台的电信客服数据的处理与分析④项目实现：任务16：数据采集/消费/存储我非夏日大数据开发---电信项目大数据大数据技术开发 hadoop
任务描述“数据生产”的程序启动后，会持续向callLog.csv文件中写入模拟的通话记录。接下来，我们需要将这些实时的数据通过Flume采集到Kafka集群中，然后提供给HBase消费。Flume：是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据
天猫超市优惠获取渠道，天猫超市内部优惠劵领取方法使用教程氧惠全网优惠
天猫超市是一个不错的购物平台，满足用户所需，基本次日达，很方便的购物平台，那么有人问我，天猫超市优惠获取渠道在哪？怎么能够优惠的购买，今天分享给大家；1、天猫超市优惠券抢好券：天猫超市首页每天可以领取满199减30、满235减35、满299减50、满399减60、满166减30等优惠券，领劵方法复制下条口令打开淘宝进入领劵会场；隐藏神券、实时爆款、天天更新！戳>(CZ9185ZatcdhNADlJ
CDH 启停使用HiveServer2 金刚_30bf
翻译：https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_hiveserver2_start_stop.html版本：5.14.2HiveServer2是HiveServer的改进版本，支持Kerberos身份验证和多客户端并发访问。您可以使用Beeline客户端访问HiveServer2。警告：如果以远程模
大数据开源框架技术汇总浪尖聊大数据-浪尖数据仓库 hive flume 分布式 scipy makefile crm lighttpd
主要基于对现阶段一些常用的大数据开源框架技术的整理，只是一些简单的介绍，并不是详细技术梳理。可能会有疏漏，发现再整理。参考的太多，就不一一列出来了。这只是作为一个梳理，对以后选型或者扩展的做个参考。目录系统平台（Hadoop、CDH、HDP）监控管理（CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle）文件系统（HDFS、GPFS、Ceph、Gluster
【python】密码字典生成器 HarryXYC 我的Python朋友 python 网络安全密码字典生成
项目源码仓库：harry-passwd-dict-creator:根据简单的表达式生成密码字典文件(gitee.com)一、介绍harry-passwd-dict-creator（下简称pdc）集合了一些哈里自写的密码字典生成工具。二、安装确保已安装gitgitclonehttps://gitee.com/harryxiaocn/harry-passwd-dict-creator.gitcdhar
开源大数据管理平台选型大数据AI 大数据从入门到精通大数据
随着CDH和HDP的闭源，还有国内信创需求，经过前期调研和后期实践，目前主要有两个产品满足要求：apachebigtop和DataSophon符合要求。因为这两个产品都是完全开源的，自助可控。一apachebigtop项目地址：https://bigtop.apache.orgApacheBigtop是一个开源项目，旨在提供一套完整的开源软件栈，用于构建、测试和部署大数据应用程序。该项目的主要目标
16.用Hadoop命令向CDH集群提交MR作业大勇任卷舒
16.1实验环境介绍内容概述环境准备Kerberos环境和非Kerberos集群测试环境Kerberos集群CDH5.11.2，OS为Redhat7.2非Kerberos集群CDH5.13，OS为CentOS6.5前置条件CDH集群运行正常本地开发环境与集群网络互通且端口放通16.2示例这里使用的代码是没有加载CDH集群的xml配置的，因为使用hadoop命令提交时会加载集群的配置信息（如hdfs
[CDH] Spark 属性、内存、CPU相关知识梳理枪枪枪 Spark spark scala big data
version：2.4.0-cdh6.3.0文章目录sparkproperties常用配置sparktasksparktask使用的cpu核数sparkarchitecturesparkmemorysparkonyarn问题1：什么情况下使用spark.executor.memoryOverhead问题2:什么情况下使用spark.executor.memory小总结：归根结底，spark中的cp
大数据分析学习第十五课自建云服务器集群离线安装Ambari2.7.5和HDP3.1.5(一) 猫头鹰数据分析大数据 Java Hive hadoop ambari 大数据 centos hdfs
之前了解了很多关于大数据平台一站式部署管理的工具，比如ApacheAmbari和CDH，目前最新的CDH已经没有了社区版，也就是说以后使用新版本的ClouderaManager和CDH都是要收费的，这对于很多小公司来说，可能无法承受。转向Ambari是他们的一个可选项。Ambari是Apache的一个顶级开源项目，开源是其最大的优势，开源也意味着Ambari可以灵活地进行扩展，集成更多的数据组件，
生产环境下，应用模式部署flink任务，通过hdfs提交但行益事莫问前程 flink flink
前言通过通过yarn.provided.lib.dirs配置选项指定位置，将flink的依赖上传到hdfs文件管理系统1.实践（1）生产集群为cdh集群，从cm上下载配置文件，设置环境exportHADOOP_CONF_DIR=/home/conf/authexportHADOOP_CLASSPATH=`hadoopclasspath` （2）上传flink的lib和plugins、自己
Apache DolphinScheduler中ZooKeeperCDH不兼容问题的解决方案 DolphinScheduler社区大数据
背景看到ApacheDolphinScheduler社区群有很多用户反馈和讨论这块问题，针对不兼容的问题，不仅需要自己重新编译各一个新包，而且因为默认是使用zk-3.8的配置，所以会出现不兼容问题。使用zk-3.4配置即可适配3.4.x解决办法（一）#切换到项目源码的根路径中执行mvncleanpackage-T1C-Prelease'-Dmaven.test.skip=true''-Dcheck
linux7软件选择最小,[CentOS7] - 最小化安装CentOS7后可以选择安装的软件 weixin_39946429 linux7软件选择最小
所有命令最后一个‘--’后面是这命令的注释，无需执行选择需要安装的软件进行安装1.登陆root使用root的账户和密码登陆root。2.连接网络如果要连接无线网络使用以下步骤：ipaddrshow--列出网卡信息，找到你的无线网卡wpa_supplicant-B-i无线网卡名称-cdhclient无线网卡名称--获取动态ip如果要使用静态IP连接网络使用一下步骤：ipaddrshow--列出网卡信
最小化安装centos7配置ip_最小化安装CentOS7后的步骤 h8liu
所有命令最后一个‘--’后面是这命令的注释，无需执行选择需要安装的软件进行安装1.登陆root使用root的账户和密码登陆root。2.连接网络如果要连接无线网络使用以下步骤：ipaddrshow--列出网卡信息，找到你的无线网卡wpa_supplicant-B-i无线网卡名称-cdhclient无线网卡名称--获取动态ip如果要使用静态IP连接网络使用一下步骤：ipaddrshow--列出网卡信
Apache DolphinScheduler中ZooKeeperCDH不兼容问题的解决方案数据库
背景看到ApacheDolphinScheduler社区群有很多用户反馈和讨论这块问题，针对不兼容的问题，不仅需要自己重新编译各一个新包，而且因为默认是使用zk-3.8的配置，所以会出现不兼容问题。使用zk-3.4配置即可适配3.4.x解决办法（一）切换到项目源码的根路径中执行mvncleanpackage-T1C-Prelease'-Dmaven.test.skip=true''-Dchecks
大数据开发之Sqoop详细介绍只是甲
备注:测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在Sqoop的帮助下，轻松地把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中；同时也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Sqoop是一个在结构化数据和Had
华为OD机试】连续字母长度-python 小念念不唠叨华为od python 开发语言
python-连续字母长度题目代码总结用到知识点代码编写总结题目题目描述给定一个字符串：只包含大写字母：求在包含同一个字母的子串中,长度第k长的子串的长度;相同字母只取最长的那个子串。若子串中只包含同一个字母的子串数小于k;则输出-1.输入描述：第一行有一个字符串：只包含大写字母第二行有一个数字：表示k的值输出描述：输出连续出现次数第k多的字母的次数示例1：输入AAAAHHHBBCDHHHH3输出
FPGA_工程_基于rom的vga显示哈呀_fpga fpga开发 fpga 图像处理学习信号处理系统架构
一框图二代码修改moduleDisplay#(parameterH_DISP=1280,parameterV_DISP=1024,parameterH_lcd=12'd150,parameterV_lcd=12'd150,parameterLCD_SIZE=15'd10_000)(inputwireclk,inputwirerst_n,inputwire[11:0]lcd_xpos,//lcdho
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?