luoz_python

基于centos7的hadoop2.7、zookeeper3.5、hbase1.3、spark2.3、scala2.11、kafka2.11、hive3.1、flume1.8、sqoop1.4组件部署

部署前准备

修改主机名

1、修改主机名（6台机器都要操作,以Master为举例）

hostnamectl set-hostname Master（永久修改主机名）

reboot（重启系统）

修改hosts

将第一行127.0.0.1 xxxx注释掉，加上：

195.168.2.127 master

195.168.2.128 slave1

195.168.2.129 slave2

确认网卡信息

vi /etc/sysconfig/network-scripts/ifcfg.ens0

BOOTRPROTO=static

IPADDR=192.168.2.127

NETMASK=255.255.255.0

GATEWAY=192.168.2.1

DNS1=192.168.2.1

DNS2=8.8.8.8

NAME=ens32

ONBOOT=yes

DEVICE=ens32

systemctl restart network

修改以上三个后> reboot

重启后确认IP是否都是设置那样了

ssh

1、 ssh生成密钥（6台机器都要操作）

ssh-keygen -t rsa （连续三次回车）

2、将3台的id_rsa_pub合并到一个authorized_keys上

分别登陆slave1、slave2，输入：

> scp .ssh/id_rsa.pub master:/home/kfs/.ssh/id_rsa_slave1

> scp .ssh/id_rsa.pub master:/home/kfs/.ssh/id_rsa_slave2

在master输入：

> cat ~/.ssh/id_rsa* >> authorized_keys

> scp .ssh/ authorized_keys slave1:/home/kfs/.ssh/

> scp .ssh/ authorized_keys slave2:/home/kfs/.ssh/

每台都修改权限：

> chmod 600 authorized_keys

每台各自登陆

（首次ssh会输入yes，所以需要进行这一步）

slave1、salve2同样进行以上步骤

防火墙

systemctl stop firewalld.service

安装jdk

卸载原来的jdk

1、安装jdk之前，先检查是否已经安装了open的jdk，有的话需要先卸载（6台机器都要卸载）

java -version

2、查看有jdk的存在，需要先卸载然后再安装oracle的jdk

rpm -qa | grep java （查询java版本）

3、rpm -e --nodeps xxx （逐个删除完）

解压配置新的JDK

1、登陆kfs用户，解压到/home/kfs/下

> tar- zxvf jdk-8u144-linux-x64.tar.gz -C ~/

2、.jdk的环境变量配置（使用的是在root目录下的全局配置文件/etc/profile，6台机器都要配置，master举例）

> vi ~/.bashrc

export JAVA_HOME=/home/kfs/jdk1.8.0_141

export PATH=$PATH:$JAVA_HOME/bin

保存退出之后使用命令让配置生效

> source /etc/profile

验证版本

>java -version

安装架构

安装的软件明细

	JDK	scala	hadoop	hive	mysql	sqoop	zookeeper	hbase	flume	spark	kafka
Master	√	√	√				√	√	√	√	√
Slave1	√	√	√	√	√	√	√	√	√	√	√
Slave2	√	√	√				√	√	√	√	√

安装的软Hadoop HA件明细

	QuorumPeerMain	journalnode	namenode	nodemanager	DFSZKFailover	datanode	resourcemanager
master	√	√	√	√	√	√
slave1	√	√	√	√	√	√	√
slave2	√	√		√		√	√

服务说明

QuorumPeerMain

是zookeeper集群的启动类，用于加载配置启动QuorumPeer线程，确定了基于paxos算法的zookeeper集群数量；QuorumPeer线程是zookeeper的Laeder选举的启动类，负责选举算法、zk数据恢复、启动leader选举等。

在zookeeper/conf/zoo.cfg server.x个数确定；

启动不起来，根据报错信息排查zoo.cfg的server.x=master:2888:3888、dataDir=xx是否包含myid（从1开始）。

Journalnode

实现两个NameNode之间的数据同步，通过一组JournalNodes（JNs）的独立进程进行相互通信，当active状态的namenode的命名空间有变化，会通知大部分的JournalNode进程。Standby的namenode有能力读取JNs的变更信息，并监控edit log的变化，同时将变化应用于自己的命名空间，保证了集群出错时，acitive和standby的空间状态是一致的。

Namenode

负责客户端（web）请求的相应；元数据的管理、查询。

启动时，将fsimage（镜像）载入到内存，并执行（replay）编辑日志editlog的各项操作；一旦在内存建立文件系统元数据映射，则创建一个新的fsimage文件（元数据镜像文件：保存文件系统的目录树）、一个空的editlog（元数据操作日志：针对目录树的修改操作）文件；

开始监听RPC和HTTP请求。

DFSZKFailover

Failover故障转移需要两个组件：Zookeeper quorum（仲裁：驱动ZKFC的运转）、ZKFCFailoverController进程（ZKFC）。

ZKFC：每个NameNode上运行的zookeeper一个zookeeper进程，主要是监控namenode的健康状态、zookeeper会话管理、基于zookeeper的选举。

Datanode

负责管理所在节点上存储的数据读写，及存储数据；每三秒datanode节点向namenode发送心跳信号和文件块状态报告；执行数据的流水线复制。

Resourcemanager & Nodemanager & ApplicationMasters

1、ResourceManager（RM），是集群资源的仲裁者，它包括两部分：一个是可插拔式的调度Scheduler，一个是ApplicationManager，用于管理集群中的用户作业。

2、NodeManagers (NMs)从ResourceManager获取指令并管理本节点的可用资源（Container使用情况）

3、ApplicationMasters (AMs)的职责是从ResourceManager谈判资源（Containers），为NodeManagers启动容器，并且和NodeManager交互来执行和监控具体的task。

Hmaster & HRegionserver

Hmaster 作用：管理用户对table表的增删改查；管理HRegion服务器的负载均衡，调整HRegion的分布；在HRgion分裂后，负责新的HRegion的分配;HRegion停机后，负责失效HRegion服务器上HRegion的迁移。

HRegionsServer一般和DataNode在同台机器运行，实现数据的本地行。HRegionsServer包含多个HRegion，由HLog(副本机制，防止hbase宕机)、BlockCache（读缓存，默认 on-heap LRUBlockCache 和 BucketCache）、HStore(HBase的存储核心，memStore和storeFile组成)、HFile（HbasekeyValue数据、Hadoop的二进制）组成。

jobhistory & historyServer

historyServer同时启动两个定时任务线程，分别解析eventLog和清理过期的eventLog日志文件，默认18080.

Runjar（metadata、metastore、hiveserver2）

metadata（需要初始化）：hive元数据定义的表名，一般存在mysql中，在测试阶段也可以用hive内置Derby数据库。

metastore：hivestore服务端。主要提供将DDL，DML等语句转换为MapReduce，提交到hdfs中。默认监听端口是:9083

hiveserver2：hive服务端，提供hive服务，可以通过beeline、jdbc（java代码连接）等多种方式多客户端连接到hive。基于Thrift RPC的实现是HiveServer的改进版本。默认10002端口，可以master:10002/jmx获取指标。

端口列表

组件	Daemon	端口	配置	说明
HDFS	DataNode	50010	dfs.datanode.address	datanode服务端口，用于数据传输
		50075	dfs.datanode.http.address	http服务的端口
		50475	dfs.datanode.https.address	https服务的端口
		50020	dfs.datanode.ipc.address	ipc服务的端口
	NameNode	50070	dfs.namenode.http-address	http服务的端口
		50470	dfs.namenode.https-address	https服务的端口
		8020	fs.defaultFS	接收Client连接的RPC端口，用于获取文件系统metadata信息。
	journalnode	8485	dfs.journalnode.rpc-address	RPC服务
		8480	dfs.journalnode.http-address	HTTP服务
	ZKFC	8019	dfs.ha.zkfc.port	ZooKeeper FailoverController，用于NN HA
YARN	ResourceManager	8032	yarn.resourcemanager.address	RM的applications manager(ASM)端口
		8030	yarn.resourcemanager.scheduler.address	scheduler组件的IPC端口
		8031	yarn.resourcemanager.resource-tracker.address	IPC
		8033	yarn.resourcemanager.admin.address	IPC
		8088	yarn.resourcemanager.webapp.address	http服务端口
	NodeManager	8040	yarn.nodemanager.localizer.address	localizer IPC
		8042	yarn.nodemanager.webapp.address	http服务端口
		8041	yarn.nodemanager.address	NM中container manager的端口
	JobHistory Server	10020	mapreduce.jobhistory.address	IPC
		19888	mapreduce.jobhistory.webapp.address	http服务端口
HBase	Master	60000	hbase.master.port	IPC
		60010	hbase.master.info.port	http服务端口
	RegionServer	60020	hbase.regionserver.port	IPC
		60030	hbase.regionserver.info.port	http服务端口
	HQuorumPeer	2181	hbase.zookeeper.property.clientPort	HBase-managed ZK mode，使用独立的ZooKeeper集群则不会启用该端口。
Hive	Metastore	9083	/etc/default/hive-metastore中export PORT=来更新默认端口
	HiveServe2r	10002	/etc/hive/conf/hive-env.sh中export HIVE_SERVER2_THRIFT_PORT=来更新默认端口
ZooKeeper	Server	2181	/etc/zookeeper/conf/zoo.cfg中clientPort=	对客户端提供服务的端口
		2888	/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn]，标蓝部分	follower用来连接到leader，只在leader上监听该端口。
		3888	/etc/zookeeper/conf/zoo.cfg中server.x=[hostname]:nnnnn[:nnnnn]，标蓝部分	用于leader选举的。只在electionAlg是1,2或3(默认)时需要。

安装zookeeper

单数台10-3、20-5，选举的半数机制保证运行

解压、配置一个配置文件conf/下cp zoo_sample.cfg zoo.cfg、根目录下新建两个文件夹data log、data下新建文件myid内容为1或2（不同主机不同myid）..

dataDir=/home/kfs/zookeeper-3.4.5/data

dataLogDir=/home/kfs/zookeeper-3.4.5/log

clientPort=2181

server.1=master:2888:3888

server.2=salve1:2888:3888

server.3=salve1:2888:3888

> echo “1” > data/myid

不用在profile增加环境变量，运行都是bin/zkServer.sh start

安装hadoop

先对一个进行配制好，然后scp到集群每台上运行

四个配置文件core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves

在hadoop-2.8.4/etc/hadoop下

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

yarn.nodemanager.aux-services mapreduce_shuffle

yarn.resourcemanager.recovery.enabled true

yarn.resourcemanager.store.class org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore

yarn.nodemanager.resource.memory-mb 8192

yarn.nodemanager.resource.cpu-vcores 8

yarn.scheduler.maximum-allocation-mb 8192

yarn.scheduler.maximum-allocation-vcores 4

slaves

两个脚本文件设置java环境：hadoop-env.sh、yarn-env.sh

需要主要windows复制过去的话，换行符的格式的问题。

vi **.sh

set ff=unix

sed -i “s/\r//” **.sh

kfs用户修改/home/kfs/.bashrc文件

> source /home/kfs/.bashrc

新建文件夹hadoop.tmp.dir、dfs.journalnode.edits.dir的目录

> mkdir /home/kfs/data/hadoop-data/tmp

> mkdir /home/kfs/data/hadoop-data/journaldata

启动（包括zookeeper）

首次启动

1、首先启动各个节点的Zookeeper，在各个节点上执行以下命令：

> bin/zkServer.sh start

2、在每个journalnode节点用如下命令启动journalnode

> sbin/hadoop-daemon.sh start journalnode

3、在主namenode节点格式化namenode和journalnode目录

> hdfs namenode -format ns

4、在主namenode节点启动namenode进程

> sbin/hadoop-daemon.sh start namenode

5、在备namenode节点执行第一行命令，这个是把备namenode节点的目录格式化并把元数据从主namenode节点copy过来，并且这个命令不会把journalnode目录再格式化了！然后用第二个命令启动备namenode进程！

> hdfs namenode -bootstrapStandby

> sbin/hadoop-daemon.sh start namenode

6、在某一个namenode节点执行如下命令，创建命名空间

> hdfs zkfc -formatZK

7、在两个namenode节点都执行以下命令

> sbin/hadoop-daemon.sh start zkfc

8、启动dfs

> sbin/start-all.sh

9、启动备regionserver

> sbin/yarn-daemon.sh start resourcemanager

用jps查看一下起的进程是否正确

后续启动

（zookeeper）节点启动：zookeeper/bin/zkServer.sh start

（yarn）两个rm节点分别运行：hadoop-2.8.4/sbin/yarn-daemon.sh start resourcemanager

（yarn）在主或者备节点启动：hadoop-2.8.4/sbin/start-yarn.sh

（zkfc namenode datanode）所有：hadoop-2.8.4/sbin/start-all.sh

确保每个zookeeper集群启动成功后，再启动dfs，这个步骤可能需要多次；

停止stop-dfs.sh、stop- yarn.sh、stop-all.sh

（Historyserver）Historyserver：sbin/mr-jobhistory-daemon.sh start/stop historyserver

可访问的地址

Hadoop hdfs：http:// slave1:50070/dfshealth.html#tab-overview

一个active，一个standy

Hadoop hdfs datanode : http://slave1:50075/datanode.html

Hadoop yarn resourcemanager：http://master:8088

如果配置了mapreduce的historyserver

则通过./sbin/mr-jobhistory-daemon.sh start/stop historyserver

访问http://master:19888

实操

hadoop fs（使用范围最广，对象：可任何对象）；hdfs dfs（只HDFS文件系统相关，常用），下面测试两者一样。

创建三个测试文件

创建目录，将测试文本Put到目录上

#本地的/home/hdfs/input/文件夹下有多个txt文件，每个单词单独一行

hadoop fs -mkdir -p /hadoop/test

hadoop fs -ls /hadoop/test/

hadoop fs -put test/* /hadoop/test/

运行测试（testout不能存在）

hadoop-mapreduce-examples-2.7.0.jar在路径share/hadoop/mapreduce下

yarn jar ~/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.4.jar wordcount /hadoop/test /hadoop/testout

hadoop dfs -ls /hadoop/testout

hadoop dfs -cat /hadoop/testout/part-r-00000

hadoop fs -rm -r -skipTrash /hadoop/testout

原理

Yarn

Hdfs

mapreduce.map.java.opts控制maptask堆内存大小。（不够会报错 java.lang.outofmemoryerror）

安装hbase（scp每台都需要启动）

/home/data目录下创建hbase-data存放hbase的数据 data和log、pids、tmp

修改hbase-site.xml、hbase-env.sh、regionservers

hbase-site.xml

hbase-env.sh

regionservers

复制hadoop/etc/hadoop下的core-site.xml和hdfs-site.xml文件到hbase的conf下

拷贝新建的文件夹data、hbase的文件夹到别的节点上

> scp -r /home/kfs/data/hbase-data/ slave1:/home/kfs/data/

> scp -r /home/kfs/hbase-1.2.6/ slave1:/home/kfs/

启动

返回kfs用户启动主HMaster

> ./hbase-1.2.6/bin/start-hbase.sh

启动Slave1作为备份的HMaster

> ./hbase-1.2.6/bin/ start-hbase.sh start master

其他节点，有个别节点没有启动HRegionserver，则单独启动

> ./hbase-1.2.6/bin/hbase-daemon.sh start regionserver

失败可改大时间（需要集群时间一致，不然会报错！！）

hbase的hbase-site.xml配置文件下添加hbase.master.maxclockskew

可访问地址

主Hmaster、备:Hmaster、HRegionServer，其他：HRegionServer

Master:16010、Slave1:16010

安装spark

cluster模式和client模式

cluster模式：Driver程序在YARN中运行，Driver所在的机器是随机的，应用的运行结果不能在客户端显示只能通过yarn查看，所以最好运行那些将结果最终保存在外部存储介质（如HDFS、Redis、Mysql）而非stdout输出的应用程序，客户端的终端显示的仅是作为YARN的job的简单运行状况。

client模式：Driver运行在Client上，应用程序运行结果会在客户端显示，所有适合运行结果有输出的应用程序（如spark-shell）

spark on Standalone

bin/spark-submit --master spark://master:6066 --deploy-mode cluster --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.3.2.jar 1000 --num-executors 3

bin/spark-submit --master spark://master:7077 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.3.2.jar 1000 --num-executors 3

spark on yarn

启动HDFS和YARN(不用启动master和woker），在client节点配置中spark-env.sh添加JDK和HADOOP_CONF_DIR目录，Spark程序将作为yarn的客户端用户提交任务。HADOOP_CONF_DIR是Saprk On Yarn与StandAlone重要区别。

yarn-client和yarn-cluster提交任务的方式：

# --master yarn（默认client模式）　等价于　yarn-client（已弃用）和--master yarn --deploy-mode client

./bin/spark-submit --master yarn --driver-memory 1g --executor-memory 1g --executor-cores 2 --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.3.2.jar 1000

./bin/spark-submit --master yarn --deploy-mode cluster --class org.apache.spark.examples.SparkPi examples/jars/spark-examples_2.11-2.3.2.jar 1000

# 如果按照集群cluster的方式提交任务，--num-executors 3也都是2，如果客户端，则三个exector都有任务。

先安装scala

root用户下的usr创建一个scala文件夹将scala安装包复制到其中然后解压

/etc/profile

查看scala版本

scala -version

解压spark，配置conf/spark-env.sh、slaves、spark-defaults.conf

spark-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_141

export SCALA_HOME=/usr/scala/scala-2.13.6

export HADOOP_HOME=/home/kfs/hadoop-2.8.4

export HADOOP_CONF_DIR=/home/kfs/hadoop-2.8.4/etc/hadoop

export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:2181,slave1:2181,slave2:2181 -Dspark.deploy.zookeeper.dir=/spark"

slaves

下面有的，就会运行woker，一般master运行worker

将spark拷贝到其他节点 /etc/profile

scp -r spark-2.3.0-bin-hadoop2.7/ slave1:/home/kfs/spark-2.3.0-bin-hadoop2.7/

启动spark集群

./sbin/start-all.sh

启动不起来一般就是slaves或者是spark-env.sh配置错了。

备用的运行: sbin/start-master.sh

查看master:8080

master:8080和http://master:8088/cluster （一个会显示alive，一个是standby）

如果需要看历史

cp spark-defaults.conf.template spark-defaults.conf

需要记住三个字段

spark.eventLog.dir hdfs://ns1/ sparklog

spark.history.fs.logDirectory hdfs://ns1/sparklog

spark.yarn.historyServer.address master:18080

hdfs创建目录

实操测试

./spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 2G --num-executors 2 ../examples/jars/spark-examples_2.11-2.3.2.jar 100

如果报错：Spark context stopped while waiting for backend，则修改hadoop/yarn-site.xml，重启hadoop

同时检查conf/spark-env.sh

运行成功后，可以在18080查看。

（以上都是针对yarn的情况，Standalone比较简单，但是env.sh和conf都需要修改！）

安装kafka（除了主都需要）

解压缩搜，修改配置文件server.properties，注意该文件不同的主机不同的配置

broker.id=0

port=9092

log.dirs=/home/data/kafka-data/log-0

zookeeper.connect=localhost:2181

#日志保存天数（3天或者更短）

新建文件夹/home/data/kafka-data/log-0 ，scp后，每台对应修改host.name、broker.id

启动kakfa服务（除主外都启动）

./bin/kafka-server-start.sh config/server.properties &

测试

# 创建topic

kafka/bin/kafka-topics.sh --create --zookeeper slave1:2181 --replication-factor 2 --partitions 1 --topic lztest

# 创建消费者

kafka/bin/kafka-console-consumer.sh --zookeeper slave1:2181 --topic lztest --from-beginning

# 创建生产者

kafka/bin/kafka-console-producer.sh --broker-list slave1:9092 --topic lztest

# 测试直接在生产者输入内容，即可在消费者看到数据

安装hive （一台即可）

与hbase区别

排查原来的数据库是否存在并卸载，重新安装Mysql

卸载

安装

rpm安装包

rpm -ivh mysql-（common/community-lib/community-client/community-server）-8.0.1.rpm

绿色版

https://blog.csdn.net/qq_40053836/article/details/104113347

（root）tar -zxvf 解压到 /usr/local/mysql8.0.11下载，在目录下创建log、data文件夹

检查创建mysql用户和mysql组：

useradd mysql

给文件夹修改用户和组

chgrp -R mysql mysql8.0.11/

chown -R mysql mysql8.0.11/

初始化mysql（要用绝对路径）

./bin/mysqld --initialize --user=mysql --basedir=/usr/local/mysql/ --datadir=/usr/local/mysql/data/

初始化成功后后面会出现密码。

在etc下面创建我们的配置文件和运行参数文件

配置文件

touch /etc/my.cnf

运行参数文件

vi /etc/my.cnf

启动服务

mysql/support-files/mysql.server start

如果报错/tmp/xx.sock，则创建一个软连接到报错的路径上：

ln -s /usr/local/mysql-8.0.11/mysql.sock /tmp/mysql.sock，再启动即可。

登录到mysql，修改root密码和Host

ALTER(create) USER 'root'@'localhost' IDENTIFIED BY 'lz..';

update user set host='%' where user='root';

FLUSH PRIVILEGES;

创建hive数据库，并修改编码

mysql>drop database hive;

mysql>create database hive;

mysql>ALTER DATABASE hive character set latin1;

创建一个hive的用户并设置权限（要不要都行，可以在hive配置文件用着root）

hive 配置（conf下新增hive-site.xml、mysql-connector-java-8.0.11.jar复制到hive的lib）

将mysql-connector-java-8.0.11.jar复制到hive的lib目录下

/etc/profile

export HIVE_HOME=/home/kfs/apache-hive-2.3.2-bin

:$HIVE_HOME/bin:$HIVE_HOME/conf

启动hive 服务

初始化元数据库

bin/schematool -initSchema -dbType mysql -verbose

./bin/hive --service metastore &

./bin/hive –service hiveserver2 &

查看jps有两个RunJar

实操

启动hive

/bin/hive

show tables;

create table test1(a string,b int)

show tables;

优化

数据倾斜的负载均衡

数据倾斜：就是大量的相同key被partition分配到一个分区里，map /reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长。

办法：增加jvm内存、增加reduce的个数、自定义分区partition、重新设计key、使用combinner合并（map red之间）。

> hive

> set hive.groupby.skewindata=true;

默认该参数的值为false，表示不启用，要启用时，可以set hive.groupby.skewindata=ture;进行启用。

当启用时，能够解决数据倾斜的问题，但如果要在查询语句中对多个字段进行去重统计时会报错。

部署报错

下面的两个报错气都都是要做的

启动服务报错MetaException(message:Version information not found in metastore. )

1、配置文件加上

hive.metastore.schema.verification false

2、mysql中hive数据库的编码

mysql> alter database hive character set latin1;

hive中创建数据库失败Error: Table 'CTLGS' already exists (state=42S01,code=1050)

手动初始化元数据库

bin/schematool -initSchema -dbType mysql -verbose

"Host '192.168.2.129' is blocked because of many connection errors; unblock with 'mysqladmin flush-hosts'"

mysql root的错误链接次数已满，运行：./bin/mysqladmin -uroot -p -h localhost flush-hosts

配置文件需要确保用户具备%的host

Error: Table 'CTLGS' already exists (state=42S01,code=1050)

这是再次执行格式化元数据（bin/schematool -initSchema -dbType mysql -verbose）的报错，可以删掉mysql的hive数据库重建，再执行格式化元数据库就不会报错。也可以直接启动hive服务进行使用。

安装Flume (除了主外都需要)

数据源-> source -> channel -> sink

解压缩后，编辑两个文件conf/flume-env.sh、conf/flume-conf.properties

flume-env.sh

cp flume-env.sh.template flume-env.sh

export JAVA_HOME=/usr/java/jdk1.8.0_141

flume-conf.properties

scp -r /home/kfs/apache-flume-1.8.0-bin/ slave2:/home/kfs/

启动flume

./bin/flume-ng agent --conf ./conf/ --conf-file ./conf/flume-conf.properties --name agent -Dflume.root.logger=INFO,console -Dflume.monitoring.type=http -Dflume.monitoring.port=12345

启动成功

ps -aux | grep flume

ps -aux | grep flume | awk '{print $2}' | xargs kill

与kafka交互配置

# 在matser运行flume

./bin/flume-ng agent --conf ./conf/ --conf-file ./conf/flume-conf.properties --name agent -Dflume.root.logger=INFO,console -Dflume.monitoring.type=http -Dflume.monitoring.port=12345

# 在slave1创建topic

kafka/bin/kafka-topics.sh --create --zookeeper master:2181,slave1:2181,slave2:2181 --replication-factor 3 --partitions 1 --topic cmcc

# 查看有没有生成目标topic

bin/kafka-topics.sh --list --zookeeper hadoop02:2181

# 在slave2创建消费者，消费数据

bin/kafka-console-consumer.sh --bootstrap-server slave1:9092 --topic topicName --from-beginning

# 生产者：./bin/kafka-console-producer.sh --broker-list localhost:9092 --topic first_topic

# 另起一个ssh，telnet master 4444 ，输入内容即可在slave2看到数据，在slave1也有topic数据的新增。

目录hdfs存入

=左右不能有空格，DataStream这样hdfs的文件就不会有乱码。

# 在master 新建/data/flume-data/spooldir文件夹，hdfs上新建/flume/events/21-8-4

hdfs dfs -mkdir /flume/events

# 在master 运行flume

./bin/flume-ng agent --conf ./conf/ --conf-file ./conf/flume-conf.properties --name agent -Dflume.root.logger=INFO,console -Dflume.monitoring.type=http -Dflume.monitoring.port=12345

windows上telnet master 5555

输入一些内容即可在hdfs上看到数据

# 在master的flume/data文件夹下随便写入一些数据到一个文件下

echo "Hello Flume 111 !!!" > file1.txt

# 可以看到flume有日志输出到shell上，通过网页50070或者hdfs命令可以查看数据

hdfs dfs -cat /flume/FlumeData.1627392071366

文件下沉到hdfs

只需要修改两行

# Describe/configure tail -F source1

a1.sources.r1.type=exec

a1.sources.r1.command =tail -F /export/taillogs/access_log

failover和负载均衡load_balancer

主节点（采集数据source） slave1、slave2下沉到hdfs

安装Sqoop

在备1配置运行即可

解压，配置conf/sqoop-env.sh

cp sqoop-env-template.sh sqoop-env.sh

.jar包的移动

将sqoop-1.4.7.jar复制到 $HADOOP_HOME/share/hadoop/mapreduce/

将JDBC.jar包拷贝到sqlserver和MySQL分别需要用到的jar包拷贝至lib下（自己选择拷贝什么jar）

./bin/sqoop list-databases --connect jdbc:mysql://slave1:3306/ --username root --password lz..

bin/sqoop import --connect jdbc:mysql://slave1:3306/hive --username root --password lz.. --table TBLS --columns id,name,sex -m 1 --target-dir '/sqoop/hive'

你可能感兴趣的:(大数据平台运维,hadoop,大数据,spark,flume,kafka)

LEO、LSO、AR、ISR、HW都表示什么含义？ jasen91 kafka 大数据
LEO（LogEndOffset）：日志末端位移值或末端偏移量，表示日志下一条待插入消息的位移值。举个例子，如果日志有10条消息，位移值从0开始，那么，第10条消息的位移值就是9。此时，LEO=10。LSO（LogStableOffset）：这是Kafka事务的概念。如果你没有使用到事务，那么这个值不存在（其实也不是不存在，只是设置成一个无意义的值）。该值控制了事务型消费者能够看到的消息范围。它经
Kafka常见问题之 org.apache.kafka.common.errors.RecordTooLargeException 王多鱼的梦想～ Kafka修炼手册 kafka apache 分布式运维
文章目录Kafka常见问题之org.apache.kafka.common.errors.RecordTooLargeException:Themessageis1,048,576byteswhenserializedwhichislargerthanthemaximumrequestsize.1.错误解析2.错误原因3.错误复现案例3.1生产者发送超大消息4.解决方案4.1方法1：调整Kafka
Kafka常见问题之Kafka 报错：org.apache.kafka.common.errors.NotLeaderOrFollowerException 王多鱼的梦想～ Kafka修炼手册 kafka 分布式
Kafka常见问题之Kafka报错：org.apache.kafka.common.errors.NotLeaderOrFollowerException文章目录Kafka常见问题之Kafka报错：org.apache.kafka.common.errors.NotLeaderOrFollowerException0.NotLeaderOrFollowerException描述1.NotLeade
RabbitMQ面试题汇总 Blocking The Sky 项目 rabbitmq java rabbitmq 分布式 java spring boot
RabbitMQ面试题一、RabbitMQ基础1.什么是RabbitMQ，它的基本架构是怎样的？2.RabbitMQ支持哪些协议？3.说一下AMQP协议？4.为什么要使用RabbitMQ？5.MQ的应用场景有哪些？6.解耦、异步、削峰是什么？7.消息队列有什么缺点？8.Kafka、ActiveMQ、RabbitMQ、RocketMQ有什么优缺点？9.简单说一下RabbitMQ的缺点？10.说说Ra
move移动语义详解 Say-hai C++c++面试
move移动语义移动语义是C++11引入的一种机制，用于提高程序的性能和资源管理效率，特别是在涉及大数据对象的场景下。移动语义通过转移资源所有权，而不是复制资源，减少了不必要的拷贝操作。一、为什么需要移动语义？当对象需要被复制时（如函数返回值或传参），通常会调用复制构造函数（copyconstructor）。复制操作往往意味着需要分配新资源并将原资源的数据拷贝到新资源中；而如果不需要保留原对象的内
大数据毕业设计hadoop+spark+hive豆瓣图书数据分析可视化大屏豆瓣图书爬虫图书推荐系统 qq_79856539 javaweb java 大数据 hadoop 课程设计
系统总体目标基于Spark的个性化书籍推荐系统是一种基于大数据技术的智能推荐系统，它可以根据用户的历史行为和偏好，为用户提供个性化的书籍推荐。该系统采用Spark技术，可以实现大数据的实时处理，从而提高推荐系统的准确性和可靠性。此外，该系统还可以根据用户的习惯和偏好，提供更加个性化的书籍推荐，从而满足用户的需求。系统的使用者包含普通用户和管理员两类，普通用户是系统的主要服务对象，主流人群是经常查看
企业IT数字化运维运营平台（总体架构、总体蓝图）建设方案公众号：优享智库数字化转型数据治理主数据数据仓库运维架构
这份文件是关于企业IT数字化运维运营平台的建设方案，主要介绍了业务背景、解决方案、成功应用案例等核心内容。以下是文件的核心要点总结：业务背景概述：IT运维趋势：随着万物互联时代的到来，IT设备数量激增，运维成为保障业务高效运转的基础。IT运维重要性：IT监控运维是企业业务正常与高效运转的基础保障，直接影响业务的收益和成本。IT运维现状：当前运维模式多为被动救火式，存在基础设施分散、管理困难、缺少自
企业IT数字化运维运营平台（总体架构、总体蓝图）建设方案PPT 公众号：优享智库数字化转型数据治理主数据数据仓库数据库运维大数据人工智能
原文《企业IT数字化运维运营平台（总体架构、总体蓝图）建设方案》PPT格式，主要从构建IT一体化运营能力、构建统一IT运营管理体系、建立统一的应用系统监控视图、构建智能化、主动式的IT监控与运维能力进行建设一套企业IT统一智能运营管理平台。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库一、管理体系·构建面向业务的主动式统一运营理体系统一运营分析管理能力、统一运维监控管理
企业数字化规划蓝图、企业数字化运营分析管理大数据平台建设方案公众号：优享智库数字化转型数据治理主数据数据仓库大数据
**企业数字化规划蓝图及运营分析管理大数据平台建设方案****一、企业数字化规划蓝图**1.**数字化目标设定**企业在规划数字化进程时，首先需要明确数字化目标。这些目标应当与企业的整体战略和发展规划相一致，包括但不限于提高运营效率、优化客户体验、创新业务模式等。同时，目标应具体、可衡量，以便于后续的实施和评估。2.**技术平台规划**技术平台是支撑企业数字化的基础。在规划阶段，需要确定所需的技术
使用Flink进行流式图处理 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
使用Flink进行流式图处理1.背景介绍1.1大数据时代的到来随着互联网、物联网和移动互联网的快速发展,数据呈现出爆炸式增长。根据IDC的预测,到2025年,全球数据量将达到175ZB。传统的批处理系统已经无法满足对实时数据处理的需求。因此,流式计算应运而生,成为大数据处理的重要组成部分。1.2流式计算的概念流式计算是一种新兴的数据处理范式,它能够持续不断地处理来自各种数据源的数据流。与传统的批处
PostgreSQL 常用运维SQL整理尚雷_TechTalk01 PostgreSQL postgresql 运维 sql
一、查询并杀会话--查询会话selectpid,usename,client_addr,client_port,query_start,query,wait_eventfrompg_stat_activity;--杀会话selectpg_terminate_backend('pid号');--使用如下命令自动生成杀会话语句selectdatid,datname,pid,usesysid,usena
python与excel整合全教程刘同学Python学习日记 python excel 开发语言
Python与Excel的整合非常强大，尤其适合处理大数据、自动化表格操作以及进行高级数据分析。以下是一个全教程，涵盖常用的Python库及其应用：1.准备工作安装必要的库：使用以下命令安装常用库：pipinstallopenpyxlpandasxlrdxlsxwriterpywin32openpyxl:用于操作Excel的.xlsx文件（推荐）。pandas:强大的数据分析工具，支持读取和写入E
【PostgreSQL 】运维篇——PostgreSQL 高可用性架构 AI人H哥会Java sql 数据库 postgresql 运维
数据库的可用性和可靠性是至关重要的，随着业务需求的增长，系统必须能够持续运行，并在发生故障时迅速恢复。高可用性（HA）解决方案确保数据库系统能够在出现硬件故障、软件故障或其他意外情况下保持可用性，从而最小化停机时间和数据丢失。PostgreSQL提供了多种高可用性解决方案，包括主从复制、流复制和故障转移。这些解决方案可以帮助企业实现数据的冗余备份、负载均衡和快速恢复。以下是对这些解决方案的详细讨论
云原生架构的核心原则：微服务、容器与DevOps zhousenshan 论文素材云原生架构微服务
云原生架构正以前所未有的速度席卷各行各业，成为众多企业迈向高效、敏捷与创新之路的关键力量。据Gartner预测，到2025年，将有95%的新建数字工作负载基于云原生平台，这一数据直观地反映出云原生架构在未来企业技术布局中的核心地位。云原生架构之所以备受瞩目，源于它能充分释放云计算的潜能，为企业带来诸多显著优势。它打破了传统架构的诸多束缚，让应用开发、部署与运维变得更加灵活、高效，极大提升了企业应对
网络工程师：华为设备BGP命令大全 wljslmz 网络技术华为 BGP 路径矢量协议
华为（Huawei）作为全球领先的信息与通信技术（ICT）解决方案供应商，其网络设备广泛应用于企业网络和运营商网络中。边界网关协议（BorderGatewayProtocol，BGP）是互联网的主要路由协议，用于在不同自治系统（AS）之间交换路由信息。掌握华为设备的BGP命令对于网络工程师至关重要，因为这不仅涉及日常的网络运维，还影响到网络的整体性能和安全性。本文将详细介绍华为设备中的BGP命令，
分层架构设计概念祈遇& java
技术架构分层设计系统分层设计是一种设计思想（分而治之），是让每层对象都有一个独立职责，再让多层对象协同（耦合）完成一个完整的功能。这样做可以更好提高系统可扩展性,但同时也会增加系统整体运维的难度springBoot技术简介和特性 SpringBoot是Java软件开发框架（很多人现在把它理解为一个脚手架），其设计目的是用来简化Spring项目的初始搭建以及开发过程。该框架使用了特定的注解方式
如何写一份合格的大数据简历（附简历模板）教程 itLeeyw573 老板必点的高分简历 sqlite oracle mysql sql zookeeper kafka big data
一、简历的重要性简历是求职者给招聘者的第一印象，一份合格的简历能够快速让招聘者了解你的基本信息、工作经历、技能特长等，从而决定是否给予你面试机会。它是开启理想工作大门的钥匙，所以一定要重视起来。【编辑/下载】：大数据开发简历范文二、简历结构基本信息：包含姓名、性别、联系方式（电话、邮箱）、求职意向。姓名要突出显示，联系方式务必准确无误，求职意向明确且具体，比如“Java开发工程师”，让招聘者一眼就
【spark床头书系列】Spark Streaming 编程权威使用指南 BigDataMLApplication spark 大数据流数据处理#大数据 spark 大数据分布式
SparkStreaming编程权威使用指南文章目录SparkStreaming编程权威使用指南概述快速示例基本概念链接初始化StreamingContext离散化流（DStreams）输入DStreams和Receivers基本源文件流基于自定义接收器的流作为流的RDD队列高级源自定义源接收器的可靠性在DStreams上的转换操作updateStateByKey操作transform操作窗口操作
一个真正可用的docker-compse部署单机版kafka 版本2.x garen_dimon 软件研究 docker kafka 容器
注意：kafka3.x版本，Kafka3.x需要Java11或更高版本。确保系统已安装合适的Java版本。Kafka3.x推荐使用ZooKeeper3.5.x或更高版本。确保ZooKeeper集群与Kafka版本兼容。如果你计划使用KRaft模式替换传统的ZooKeeper模式，请确保你已经了解新模式的要求和配置。在网上搜索单机docker-compose部署kafka，出现最多的内容如下：ver
Docker-Compose以KRaft模式快速部署Kafka LUCIAZZZ docker kafka 容器 java 运维 spring boot
我们创建一个docker-compose.yaml文件然后后台启动我们的DockerComposedocker-composeup-d我们修改配置后可以关闭后重启docker-composedowndocker-compose.yaml文件内容version:"3"services:kafka:image:'bitnami/kafka:latest'user:rootenvironment:-KA
Kafka（一）使用Docker Compose安装单机Kafka以及Kafka UI_docker 部署单机kafka 2401_84166396 2024年程序员学习 kafka docker ui
开启JMX监控JMX_PORT=9998KAFKA_JMX_OPTS=-Dcom.sun.management.jmxremote-Dcom.sun.management.jmxremote.authenticate=false-Dcom.sun.management.jmxremote.ssl=false-Djava.rmi.server.hostname=kafka-Dcom.sun.mana
Spark Streaming的背压机制的原理与实现代码及分析 weixin_30777913 spark 大数据 python
SparkStreaming的背压机制是一种根据JobScheduler反馈的作业执行信息来动态调整Receiver数据接收率的机制。在Spark1.5.0及以上版本中，可以通过设置spark.streaming.backpressure.enabled为true来启用背压机制。当启用背压机制时，SparkStreaming会自动根据系统的处理能力来调整数据的输入速率，从而在流量高峰时保证最大的吞
Kafka 副本 leader 是怎么选举的？？思维导图代码示例（java 架构) 用心去追梦 kafka java 架构
Kafka中的副本（Replica）Leader选举是确保数据高可用性和容错性的重要机制。当一个分区的Leader副本不可用时，Kafka需要从该分区的ISR（In-SyncReplicas）列表中选择一个新的Leader来继续处理生产者和消费者的请求。ISR列表包含所有与Leader保持同步的副本。Kafka副本Leader选举思维导图KafkaReplicaLeaderElection├──触
MongoDB 大俗大雅，上来问分片真三俗 -- 4 分什么分 Austindatabases mongodb 数据库
开头还是介绍一下群，如果感兴趣PolarDB,MongoDB,MySQL,PostgreSQL,Redis,OceanBase,SqlServer等有问题，有需求都可以加群群内有各大数据库行业大咖，可以解决你的问题。加群请联系liuaustin3，（共2710人左右1+2+3+4+5+6+7+8+9）(123456群均已爆满，7群400+，开8群9群)这是MongoDB宣传周的第五篇，这周真漫长，
大数据技术在数据安全治理中的应用罗思付之技术屋综合技术探讨及方案专栏大数据
摘要面对新形势下的数据安全治理挑战，顺应数据安全领域的技术发展趋势，针对大型国企在数据安全治理实际应用中突出的关键权限人员识别问题，提出了一种基于图算法的关键权限人员识别技术。该技术可以发现系统中潜在的权限影响因素，并可从多个角度衡量不同含义的权重影响力，识别结果可解释性强。针对数据安全治理中的用户与实体行为异常检测问题，提出一种基于生成对抗网络的用户与实体行为异常检测方法，实验结果表明，所提方法
Kafka 深入客户端 — 事务黄名富微服务 kafka 分布式 java 微服务 zookeeper
Kafka事务确保了数据在写入Kafka时的原子性和一致性。1幂等幂等就是对接口的多次调用所产生的结果和调用一次是一致的。Kafka生产者在进行重试的时候可能会写入重复的消息，开启幂等性功能后就可以避免这种情况。将生产者客户端参数enable.idempotence设置为true即可。1.1实现原理Kafka引入了producerid（简称PID）和序列号（sequencenumber）这两个概念
Kafka原理总结 DEMOAHUI mq中间件 kafka
Kafka是一个开源的分布式流式处理平台，在这个平台上可以发布、订阅以及处理数据流，具有强大的吞吐能力，让Kafka成为了一个高性能的发布与订阅消息系统一：概念理解Broker部署Kafka进程的服务被称之为Broker，Broker会接收Producer的消息，持久化到本地，然后Comsumer通Pull的形式进行消息拉取，通常使用集群的形式进行部署Producer生产者，即发送消息的一方，往B
kafka系列-日志存储 chayangdz Kafka Kafka
kafka中的消息，是以主题进行归类的，每个主题分为一个或多个分区，主题和分区是逻辑上的概念。消息在发送时，会按照规则追加到其中一个分区中。分区里的每一条消息，都会被分配一个唯一的序列号，也就是偏移量（offset）分区是逻辑上的概念，往分区追加消息时，其实是写到日志（Log）中，为了防止日志过大，kafka还有日志分段（LogSegment）的概念，Log在物理上是以文件夹的形式存储，每个Log
阿里巴巴大数据系统体系架构大连赵哥大数据架构
数据应用层：这是最顶层，面向不同的用户群体提供服务，包括对内（公司内部使用）、对平台（平台用户）、对商家（商家使用）、对公众（普通消费者）。数据服务与基础工具层：这一层提供了一些基础服务和工具，例如：OneService：可能是一种服务或工具，用于统一数据服务。TDDL+MySQL：TDDL是淘宝分布式数据层的缩写，与MySQL结合使用，提供数据库服务。HBase：一个分布式列存储系统，适合于存储
1-structedStreaming-基本流程(2.3.1) github_28583061 java spark 大数据 mysql hadoop
基本流程--spark2.3.1新定义接口--中间使用了一些过度接口为了兼容老版本如：BaseStreamingSourceDataSource为一个类，定义了可插拔的数据源，对应一些列旧的数据源DataSourceV2spark2.3.1新接口，只是一个接口，没有任何方法，需要配合ReadSupport或者WriteSupport接口等一起MicroBatchReadSupport--实现创建M
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他