emprere

亿级数据从 MySQL 到 Hbase 的三种同步方案与实践

1.导语

大家好，我是光城，下面是我之前在gitchat上发布的一个资料，今天全部开源！源码全部存放在本人github仓库，地址：https://github.com/Light-City/dbSyncScheme，欢迎大家提issue与star！接下来进入本节chat内容！PPT点击阅读原文可直达。

本节亿级数据从 MySQL 到 Hbase 的三种同步方案与实践将主要围绕下面架构图中的三种方法进行实践与讲解。

2.工欲善其事，必先利其器

2.1 环境需知

我的实验环境为：Ubuntu16.04+hadoop伪分布式(所以重点会介绍伪分布式环境部署)，本节实验可以适用于大部分Linux。

实验的环境有：

MySQL
Hadoop伪分布式/完全分布式
HBase
Phoenix
Zookeeper
Kafka
Maxwell
Flink

所以，本节内容先从以上环境部署讲起，再来逐步分析亿级数据从 MySQL 到 Hbase 的三种同步方案与实践。

注意：本节不会非常深入的去讲解HBase、Phoenix、Kafka、Maxwell、Flink等内容，因为涉及的面非常多，光一个就可以讲很多天了，所以本节将具体的某一块与我们的场景相结合进行阐述，谈谈他们的具体应用与使用，相信大家看完后，对这些会有更加深入的理解！

2.2 伪分布式环境部署

2.2.1.准备工作

【JAVA】

Hadoop环境需要JAVA环境，所以首先得安装Java，而Ubuntu默认Java为OpenJdk，需要先卸载，再安装Oracle。除此之外，也可以不用卸载OpenJDK，将Oracle JAVA设为默认的即可。

★
https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
”

关于java配置只要输入java或者javac看到输出，配置成功。

【用户】

在Ubuntu或者类Unix系统中，用户可以通过下列命令添加创建用户：

sudo useradd -s /bin/bash -g hadoop -d /home/hadoop -m hadoop

如果提示hadoop不再sudoers文件中，执行下列命令：

vi /etc/sudoers

编辑上述文件：

# User privilege specification
root    ALL=(ALL:ALL) ALL
hadoop    ALL=(ALL:ALL) ALL  # 添加此行

再执行上述命令：

light@city:~$ sudo useradd -s /bin/bash -g hadoop -d /home/hadoop -m hadoop
useradd：“hadoop”组不存在

添加用户组：

light@city:/home$ sudo groupadd hadoop

再次执行即可：

light@city:~$ sudo useradd -s /bin/bash -g hadoop -d /home/hadoop -m hadoop

设置或修改密码：

sudo passwd hadoop

【SSH】

安装ssh

sudo apt-get install openssh-server

配置免密登陆

su - hadoop
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

然后输入

ssh localhost

此时不需要输入密码，说明成功!

注意：关于ssh免秘登陆失败问题，大家可以通过以下方法进行尝试，大部分问题在于目录及文件权限！

sudo chmod 755 $HOME
sudo chmod 600 id_rsa
sudo chmod 600 id_rsa.pub
sudo chmod 644 authorized_keys

2.2.2 伪分布式

【Hadoop】

下载及安装

在下列镜像中下载Hadoop版本，我下载的3.0.2。

★
https://mirrors.cnnic.cn/apache/hadoop/common/
”

wget https://mirrors.cnnic.cn/apache/hadoop/common/hadoop-3.0.2/hadoop-3.0.2.tar.gz
tar zxvf hadoop-3.0.2.tar.gz
sudo mv hadoop-3.0.2 /usr/local/hadoop

配置

编辑etc/hadoop/core-site.xml，configuration配置为


    
        fs.defaultFS
        hdfs://localhost:9000

注意：一定要看本机的9000端口是否被占用，如果被占用了，后面就启动不出来NameNode!

关于查看本机的9000端口是否被占用：

sudo netstat -alnp | grep 9000

会发现9000端口被php-fpm给占用了，所以这里得修改为其他端口，比如我修改为9012，然后可以再次执行这个命令，会发现没被占用，说明可行！

编辑etc/hadoop/hdfs-site.xml，configuration配置为


    
        dfs.replication
        1

初始化

格式化HDFS

bin/hdfs namenode -format

注意：格式化执行一次即可！

启动NameNode和DataNode

sbin/start-dfs.sh

这时在浏览器中访问http://localhost:9870/，可以看到NameNode相关信息。

http://localhost:9864/查看DataNode相关信息。

由于hadoop3.x版本与2.x版本监听端口不一样，所以如果还是原先的50070便访问不到相关信息,不知道上述9870或者9864，没关系，可以通过下面命令查看！

输入netstat命令即可查看tcp监听端口：

sudo netstat -ntlp

jps_ntlp

上述两个重要端口，9864后面可以看到进程ID为17270，通过JPS查看可以看到对应DataNode，9870类似方法。

hadoop

配置YARN

编辑etc/hadoop/mapred-site.xml，configuration配置为


    
        mapreduce.framework.name
        yarn

编辑etc/hadoop/yarn-site.xml，configuration配置为


    
        yarn.nodemanager.aux-services
        mapreduce_shuffle

启动YARN

sbin/start-yarn.sh

查看进程：

Jps
NodeManager
SecondaryNameNode
NameNode
ResourceManager
DataNode

YARN就是上述的资源管理：ResourceManager。

同理，可以通过上述方法查看ResourceManager的端口，默认为8088。

浏览器输入：http://localhost:8088/cluster

hadoop

启动与停止

启动：

sbin/start-dfs.sh
sbin/start-yarn.sh

停止：

sbin/stop-dfs.sh
sbin/stop-yarn.sh

至此，伪分布式搭建完毕！后面开始HBase与Phoenix搭建！

【HBase】

下载安装

★
https://mirrors.cnnic.cn/apache/hbase/
”

wget https://mirrors.cnnic.cn/apache/hbase/stable/hbase-1.4.9-bin.tar.gz
tar zxvf hbase-1.4.9-bin.tar.gz
sudo mv zxvf hbase-1.4.9-bin /usr/local/hbase

单机HBase配置

编辑conf/hbase-site.xml，configuration配置为


  
    hbase.rootdir
    hdfs://localhost:9012/hbase
  
  
    hbase.zookeeper.property.dataDir
    /home/hadoop/zookeeper

启动

bin/start-hbase.sh

jps查看进程：

HMaster
Jps

终端

bin/hbase shell

hbaseshell

如果想要关闭HBase，则输入：

bin/stop-hbase.sh

HBase伪分布式配置

编辑conf/hbase-site.xml，configuration中添加


  hbase.cluster.distributed
  true

然后修改root由本地文件系统到HDFS，编辑conf/hbase-site.xml，hbase.rootdir值由

file:///home/hadoop/hbase

修改为

hdfs://localhost:9012/hbase

★
注意后面的端口号9012，需要保证与Hadoop DFS配置中的fs.defaultFS相同！
”

这样子修改后，会在hdfs文件系统中看到HBase目录，当然你也可以不用配置此项！

上述配置完毕后，保存后，重启HBase即可！

【封装】

每次启动这些输入太多命令，太繁琐，直接一个bash脚本搞定,首先进入/usr/local，然后再运行这个脚本！

启动脚本：

#!/bin/bash
hadoop/sbin/start-dfs.shkuangjia
hadoop/sbin/start-yarn.sh
hbase/bin/start-hbase.sh

停止脚本：

#!/bin/bash
hadoop/sbin/stop-dfs.sh
hadoop/sbin/stop-yarn.sh
hbase/bin/stop-hbase.sh

【zookeeper】

由于Hbase自带了zookeeper，一开始使用自带的，后来发现出了很多问题，换成自己配置zookeeper，配置方法如下：

最近做的数据迁移，当上游数据流向下游过大的时候，HBase就会崩溃。HBase自带的Zookeeper出了问题，就尝试自己安装独立的Zookeeper。

（1）禁用HBase自带的Zookeeper

修改 ./conf/hbase-env.sh

export HBASE_MANAGES_ZK=false（如果值为true，则使用自带的Zookeeper，会随着HBase一起启动）

（2）安装及配置独立Zookeeper

Zookeeper最新的版本可以通过官网获取

wget http://apache.fayea.com/zookeeper/zookeeper-xxx/zookeeper-xxx.tar.gz
tar xfz zookeeper-xxx.tar.gz
mv zookeeper-xxx /usr/local/zookeeper

★
拷贝配置文件
”

cd zookeeper-xxx/conf/
cp zoo_sample.cfg zoo.cfg

★
修改配置项
”

dataDir=/usr/local/zookeeper/data
dataLogDir=/usr/local/zookeeper/logs

dataDir：Zookeeper保存节点数据的目录。dataLogDir：Zookeeper保存节点数据的日志。

如果没有这个目录，就创建一下。

（3）HBase配置

★
拷贝 zoo.cfg 到 hbase/conf/ 目录下
”

cp zoo.cfg /usr/local/hbase/conf/

这是官方文档推荐的做法，如果不拷贝 zoo.cfg，在 hbase-site.xml 中也可以对Zookeeper进行相关配置，但HBase会优先使用 zoo.cfg（如果有的话）的配置

★
修改 hbase-site.xml
”

在原文件上加入：


     hbase.cluster.distributed
     true

如果不加的话，在启动独立安装的Zookeeper后，HBase不能正常启动。

（4）启动Zookeeper

./bin/zkServer.sh start

（5）检查服务是否启动

ps -ef | grep zookeeper

（6）启动HBase

在成功启动Zookeeper后，就可以启动HBase了：

./bin/start-hbase.sh

【Phoenix】

版本要与HBase相匹配！

下载apache-phoenix-4.14.2-HBase-1.4-bin.tar.gz

★
安装
”

tar -xvf apache-phoenix-4.14.2-HBase-1.4-bin.tar.gz
mv apache-phoenix-4.14.2-HBase-1.4-bin.tar.gz /usr/local/phoenix

★
配置
”

将hbase-site.xml配置文件拷贝到phoenix的bin目录下

★
启动
”

首先启动zookeeper与hbase。

hadoop@city:  ./start_zk.sh
ZooKeeper JMX enabled by default
Using config: /usr/local/zookeeper/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
hadoop@city: ./start_hbase.sh
running master, logging to /usr/local/hbase/logs/hbase-hadoop-master-city.out
: running regionserver, logging to /usr/local/hbase/logs/hbase-hadoop-regionserver-city.out

启动phoenix:

sqlline.py localhost

install_phoenix

【Kafka】

★
什么是Kafka？
”

Kafka 是一种分布式的，基于发布 / 订阅的消息系统。在这里可以把Kafka理解为生产消费者模式。

Kafka是使用Java开发的应用程序，Kafka需要运行Zookeeper，两者都需要Java，所以在需要安装Zookeeper和Kafka之前，先安装Java环境。

★
启动Zookeeper
”

直接输入zkServer.sh start即可！

zookeeper_start

★
Kafka安装及配置
”

Kafka下载地址：

★
http://kafka.apache.org/downloads
”

同上述安装，这里下载.tgz文件，也是解压后移动到/usr/local即可！

关于配置文件可以直接采用默认的即可。

★
启动Kafka
”

./bin/kafka-server-start.sh ./config/server.properties

enter image description here

★
Topic创建
”

当使用下面maxwell提取出来的binlog信息的时候，默认使用kafka进行消费。

./kafka/bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test

★
发布与订阅
”

向Topic上发布消息，按Ctrl+D结束：

./kafka-console-producer.sh --broker-list localhost:9092 --topic test

enter image description here

从Topic上接收消息，按Ctrl+C结束：

./kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic test --from-beginning

recv_mesg

【Maxwell】

★
Maxwell是什么？
”

官网原语：Maxwell's daemon, a mysql-to-json kafka producer。

这里解释一下Maxwell是将mysql binlog中的insert、update等操作提取出来，并以json数据返回作为kafka生产者。

当然自己也可以用编程实现binlog数据提取，并返回一个json数据。

★
下载地址：http://maxwells-daemon.io/
”

安装方式同上。

★
mysql配置Maxwell
”

Maxwell配置文件中默认用户名密码均为maxwell，所以需要在mysql中做相应的授权。

mysql> GRANT ALL on maxwell.* to'maxwell'@'%' identified by 'maxwell';
mysql> GRANT SELECT, REPLICATION CLIENT,REPLICATION SLAVE on *.* to 'maxwell'@'%';
mysql> flush privileges;

★
配置Maxwell
”

cp config.properties.example config.properties
vi config.properties

maxwell配置：

log_level=info
# 默认生产者
producer=kafka
kafka.bootstrap.servers=localhost:9092

# mysql login info
host=localhost
user=maxwell
password=maxwell

# kafka配置
kafka_topic=test
kafka.compression.type=snappy
kafka.acks=all
kinesis_stream=test

★
启动maxwell
”

./maxwell/bin/maxwell --user='maxwell' --password='maxwell' --host='127.0.0.1' --producer=kafka --kafka.bootstrap.servers=localhost:9092 --kafka_topic=test

当然也可以把上述封装成一个启动脚本：

#!/bin/bash
./maxwell/bin/maxwell --user='maxwell' --password='maxwell' --host='127.0.0.1' --producer=kafka --kafka.bootstrap.servers=localhost:9092 --kafka_topic=test

直接启动：

./start_maxwell.sh

maxwell

【Flink】

★
什么是Flink?
”

干说Flink比较抽象，直接举个例子吧，就拿本节的同步来说，本节使用的Flink就是做实时流计算的一个场景ETL，数据仓库的实时同步，当上游下发数据到Kafka队列中，然后通过Flink程序做window的收集，并将数据sink到Hbase中。

★
下载：https://flink.apache.org/
”

安装的时候，直接进行解压缩并配置path环境即可！

★
解压缩
”

tar -zxf xxx.tgz
mv xxx /usr/local

★
配置环境变量
”

vim ~/.bashrc
export FLNK_HOME=/usr/local/flink
export PATH=$FLINK_HOME/bin:$PATH

使上述生效：

source ~/.bashrc

★
启动与关闭flink
”

cd flink/bin
./start-cluster.sh # 启动
stop-cluster.sh  # 关闭

3.亿级MySQL数据插入

本节题目为：亿级数据从 MySQL 到 Hbase 的三种同步方案与实践，首先需要了解如何快速插入MySQL。

那么MySQL数据插入将会从以下几个方法入手：

load data infile
Python 单条插入
Python 多线程插入

当然也可以使用其他语言进行实现！！！

下面来逐步谈谈数据插入！

数据插入之前，需要了解我们的数据，先来看一下数据字段描述：

数据以ASCII文本表示，以逗号为分隔符，以回车换行符(0x0D 0x0A)结尾。数据项及顺序：车辆标识、触发事件、运营状态、GPS时间、GPS经度、GPS纬度,、GPS速度、GPS方向、GPS状态
车辆标识：6个字符
触发事件：0=变空车，1=变载客，2=设防，3=撤防，4=其它
运营状态：0=空车，1=载客，2=驻车，3=停运，4=其它
GPS时间：格式yyyymmddhhnnss，北京时间
GPS经度：格式ddd.ddddddd，以度为单位。
GPS纬度：格式dd.ddddddd，以度为单位。
GPS速度：格式ddd，取值000-255内整数，以公里/小时为单位。
GPS方位：格式ddd，取值000-360内整数，以度为单位。
GPS状态：0=无效，1=有效
结束串:回车符+换行符

数据举例：

154747,4,2,20121130001607,116.6999512,39.9006233,0,128,1
078245,4,0,20121130001610,116.3590469,39.9909782,0,92,1
194086,4,1,20121130001610,116.5017776,40.0047951,25,220,1

那么只需要将上述的数据字段与数据对上就行了，一行为一条数据记录。

首先编写创建数据库与表命令：

create database loaddb;
CREATE TABLE loadTable(id int primary key not null auto_increment,
carflag VARCHAR(6),touchevent CHAR(1),opstatus CHAR(1),gpstime DATETIME,
gpslongitude DECIMAL(10,7),gpslatitude DECIMAL(9,7),gpsspeed TINYINT,
gpsorientation SMALLINT,gpsstatus CHAR(1))engine=MyISAM;

注意：上述选择了MyISAM引擎是因为load命令使用的时候，保证数据插入的效率！

3.1 load data infile

load data infile在导入大数据场景下非常的快！具体的说明后面会在比较的时候详细说，这里说一下使用语法，如下：

load data local infile "/home/light/mysql/gps1.txt" into table loadTable fields terminated by ',' lines terminated by "\n"  (carflag, touchevent, opstatus,gpstime,gpslongitude,gpslatitude,gpsspeed,gpsorientation,gpsstatus);

在使用这个命令的时候，是在MySQL的clinet端使用，登陆后敲这个命令即可！在数据字段描述中大家会看到几个关键点：以逗号为分隔符，以回车换行符，对应于上述代码是：

fields terminated by ',' lines terminated by "\n"

注意：更换自己的数据集路径！

3.2 Python 批量插入

Python单条插入使用的是pymysql库。下面是部分代码，完整代码见：

批量提交源码

with open('/home/light/mysql/gps1.txt', 'r') as fp:
    for line in fp:
        ...
        ...
        ...
        count += 1
        if count and count%70000==0:
            # 执行多行插入，executemany(sql语句,数据(需一个元组类型))
            self.cur.executemany(sql, data_list)
            # 提交数据,必须提交，不然数据不会保存
            self.conn.commit()
            data_list = []
            print("提交了：" + str(count) + "条数据")

if data_list:
    # 执行多行插入，executemany(sql语句,数据(需一个元组类型))
    self.cur.executemany(sql, data_list)
    # 提交数据,必须提交，不然数据不会保存
    self.conn.commit()
    print("提交了：" + str(count) + "条数据")
self.cur.close()  # 关闭游标
self.conn.close()  # 关闭pymysql连接

上述有个关键点需要说明一下：

（1）使用executemany而非execute，这个提交速度要快！（2）使用批量插入，而非单条插入提交，这样会提升效率！

3.3 Python 多线程插入

原始数据为一个gps1.txt文件，这个数据太大，如果直接使用多线程插入，不太方便，所以先使用文件切分方法，然后进行多线程的插入。

关于文件切分，可以点击这里：文件切分源码。

Python中使用多线程源码

def multicore(self):
    file_list = [1,2324,4648,6972,9298]
    m1 = mp.Process(target=self.run, args=(file_list[0],file_list[1],'m1',))
    m2 = mp.Process(target=self.run, args=(file_list[1]+1,file_list[2],'m2',))
    m3 = mp.Process(target=self.run, args=(file_list[2]+1,file_list[3],'m3',))
    m4 = mp.Process(target=self.run, args=(file_list[3]+1,file_list[4],'m4',))
    m1.start()
    m2.start()
    m3.start()
    m4.start()
    m1.join()
    m2.join()
    m3.join()
    m4.join()

具体插入思路是使用四个线程分别读取每个区间段的数据，然后再对数据进行批量插入！如果这一块不懂的伙伴，欢迎留言哈~

3.4 MySQL数据导入方法对比

★
load命令与普通的insert区别
”

相同点	不同点
两者都是通过读取本地txt文件，按照相同的分隔来读取进行插入。	程序插入法实质为insert语句间接执行。load data设计用于在单个操作中大量加载表格数据。

★
效率比较
”

两者耗时如下：

第一种：load data (这里截取的是Innodb引擎表的插入结果，当使用MyISAM时，会比现在还快！)

enter image description here

用时1h11分。

第二种：程序插入法(这里只截取了批量插入的！)

用时：27322.45/36=7.58h

上述对比可知，load data效率非常高，原因在于使用的是load data infile方式，而第二种则为传统的insert方式。

究其根源主要是MySQL内部对于load 和 insert的处理机制不同。

Load的处理机制是:在执行load之前,会关掉索引,当load全部执行完成后,再重新创建索引.

Insert的处理机制是:每插入一条则更新一次数据库,更新一次索引.

另外,load与insert的不同还体现在load省去了sql语句解析,sql引擎处理,而是直接生成文件数据块,所以会比Insert快很多.

4.同步利器

4.1 简单粗暴Sqoop

首先来回顾一下Sqoop架构图：

架构图

这里大家记住一个规则：大数据需要切分！如果不切分，这个亿级数据直接导入会崩溃！！！

★
什么是Sqoop?
”

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的开源工具，可以将一个关系型数据库中的数据导进到Hadoop的HDFS或者HBase等。

sqoop核心参数与代码解释：

sqoop import --connect jdbc:mysql://localhost:3306/loaddb --username root --password xxxx --query "${sql}" --hbase-row-key id --hbase-create-table --column-family info --hbase-table mysql_data --split-by id  -m 4

--connect 指定连接的数据库，如果你的数据库不是本地的，记得修改地址！--username 用户名 --password 密码 --query sql语句 --hbase-row-key 指定rowkey，如果存在则修改为该值 --hbase-create-table 创建Hbase表 --column-family 列簇 --hbase-table hbase表名

注意：当-m 设置的值大于1时，split-by必须设置字段!

由于数据太大，需要分片导入，具体导入代码见仓库：

up=185941000
for((i=1; i>0; i++))
do
    start=$(((${i} - 1) * 40000 + 1))
    end=$((${i} * 40000))
    if [ $end -ge $up ]
    then
        end=185941000
    fi

    sql="select id,carflag, touchevent, opstatus,gpstime,gpslongitude,gpslatitude,gpsspeed,gpsorientation,gpsstatus from loaddb.loadTable1 where id>=${start} and id<=${end} and \$CONDITIONS";
    
    sqoop import --connect jdbc:mysql://localhost:3306/loaddb --username root --password xxxx --query "${sql}" --hbase-row-key id --hbase-create-table --column-family info --hbase-table mysql_data --split-by id  -m 4
    echo Sqoop import from: ${start} to: ${end} success....................................
    if [ $end -eq $up ]
    then
        break
    fi

done

思路是每隔4万导入一次，当然您也可以修改。

耗时：（使用linux的time统计bash脚本运行时间）

enter image description here

导入结果：

enter image description here

如果遇到问题，显示虚拟内存溢出，不断新开进程，杀死之前的进程，解决方案：关闭虚拟内存。

enter image description here

修改yarn-site.xml


  yarn.nodemanager.vmem-check-enabled
  false

以上就是MySQL同步Hbase方案1。

4.2 Kafka-thrift同步

enter image description here

4.2.1 binlog

binlog是sever层维护的一种二进制日志，与innodb引擎中的redo/undo log是完全不同的日志。

可以简单的理解该log记录了sql标中的更新删除插入等操作记录。通常应用在数据恢复、备份等场景。

★
开启binlog
”

对于我的mysql的配置文件在下面这个文件夹，当然直接编辑my.cnf也是可以的。

vi /etc/mysql/mysql.conf.d/mysqld.cnf

对配置文件设置如下：

openbinlog

★
查看是否启用
”

进入mysql客户端输入：

show variables like '%log_bin%';

binlog

★
binlog介绍
”

我的log存放在var下面的log的mysql下面：

loglook

在mysql-bin.index中包含了所有的log文件，比如上述图就是包含了1与2文件，文件长度超过相应大小就会新开一个log文件，索引递增，如上面的000001，000002。

★
binlog实战
”

首先创建一个表：

create table house(id int not null primary key,house int,price int);

向表中插入数据：

insert into loaddb.house(id,house,price) values(1,2,3);

上面提到插入数据后，binlog会更新，那么我们去查看上面log文件，应该会看到插入操作。

Mysql binlog日志有ROW，Statement，MiXED三种格式；

set global binlog_format='ROW/STATEMENT/MIXED'

命令行：

show variables like 'binlog_format'

row

对于mysql5.7的，binlog格式默认为ROW，所以不用修改。

那么为何要了解binlog格式呢，原因很简单，我要查看我的binlog日志，而该日志为二进制文件，打开后是乱码的。对于不同的格式，查看方式不一样！

对于ROW模式生成的sql编码需要解码，不能用常规的办法去生成，需要加上相应的参数，如下代码：

sudo /usr/bin/mysqlbinlog mysql-bin.000002 --base64-output=decode-rows -v

使用mysqlbinlog工具查看日志文件：

binlog

4.2.2 启动thrift接口

thrift为其他语言与hbase操纵接口。启动目的为后面数据插入做准备。

enter image description here

4.2.3 kafka-thrift流程小结

使用github仓库代码将原始数据进行每2w一个文件切分!

切分输出：

split

上述切分速度非常快，2分钟左右即可切完，可以自定义文件大小。

编写Kafka数据入Hbase，完整代码见github仓库代码:

def batchTokafka(self,start_time,table_name):
    table = self.conn.table(table_name)
    i = 1
    with table.batch(batch_size=1024*1024) as bat:
        for m in self.consumer:
            t = time.time()
            database = json.loads(m.value.decode('utf-8'))["database"]
            name = json.loads(m.value.decode('utf-8'))["table"]
            row_data = json.loads(m.value.decode('utf-8'))["data"]
            if database=='loaddb'and name == 'sqlbase1':
                row_id = row_data["id"]
                row = str(row_id)
                print(row_data)
                del row_data["id"]
                data = {}
                for each in row_data:
                    neweach = 'info:' + each
                    data[neweach] = row_data[each]
                data['info:gpslongitude'] = str(data['info:gpslongitude'])
                data['info:gpslatitude'] = str(data['info:gpslatitude'])
                data['info:gpsspeed'] = str(data['info:gpsspeed'])
                data['info:gpsorientation'] = str(data['info:gpsorientation'])
                # self.insertData(table_name, row, data)
                print(data)
                bat.put(row,data)
                if i%1000==0:
                    print("===========插入了" + str(i) + "数据!============")
                    print("===========累计耗时：" + str(time.time() - start_time) + "s=============")
                    print("===========距离上次耗时"+ str(time.time() - t)  +"=========")
                i+=1

上述运行后，开始MySQL数据插入，这里插入采用4个多进程进行程序插入，速度非常快。

当MySQL数据在插入的同时，数据流向如下：

mysql插入->入库mysql->记录binlog->maxwell提取binlog->返回json给kafka->kafka消费端通过thrift接口->写入hbase。

上述同步的结果如下，为了明确是否真正数据同步，只看了一条数据，作为验证。

★
多个进程插入图
”

mutprocess

★
kafka消费入hbase图
”

enter image description here

★
MySQL数据图
”

enter image description here

★
Hbase数据图
”

enter image description here

以上就是从Mysql到Hbase的同步方案2。

4.3 Kafka-Flink

enter image description here

4.3.1 实时同步Flink

方案3为方案2的改进，上述是通过Python写入Hbase，这里改成java，并使用最新的流处理技术：Flink。

Flink在ETL场景中使用频繁，非常适合数据同步，于是在这个方案中采用Flink进行同步。

核心代码实现，完整代码见github仓库地址：

SingleOutputStreamOperator student = env.addSource(
new FlinkKafkaConsumer011<>(
        "test",   //这个 kafka topic 需要和上面的工具类的 topic 一致
        new SimpleStringSchema(),
        props)).setParallelism(9)
        .map(string -> JSON.parseObject(string, Student.class))
        .setParallelism(9);

long start =System.currentTimeMillis();
student.timeWindowAll(Time.seconds(3)).apply(new AllWindowFunction, TimeWindow>() {
    @Override
    public void apply(TimeWindow window, Iterable values,
    Collector> out) throws Exception {
        ArrayList students = Lists.newArrayList(values);
        if (students.size() > 0) {
            System.out.println("1s内收集到 mysql表 的数据条数是："
            + students.size());
            long end =System.currentTimeMillis();
            System.out.printf("已经用时time:%d\n",end-start);
            out.collect(students);
        }
    }
}).addSink(new SinkToHBase()).setParallelism(9);

使用Flink进行批量入Hbase。

4.3.2 Flink小结

首先启动maxwell与kafka，hbase也要启动，接着在数据写入端，可以采用load data infile或者python程序插入法进行数据插入，数据会通过maxwell到kafka再到Flink，然后sink到Hbase。

★
插入端为load data infile的同步
”

flink_sink

★
插入端为Python程序的同步
”

flink_load

5.Phoenix组件和原生Hbase查询的时间性能对比

原生Hbase查询时间：

count 'mysql_data'

enter image description here

Hbase查询时间为3856秒大约1小时7分钟

Hbase查询优化

count 'mysql_data', INTERVAL => 10000000

每隔一千万查询一次：

enter image description here

间隔查询3372.5740秒，大约耗时：56分钟。

协处理器

enter image description here

耗时：1874188毫秒=1874.188s秒，大约31分钟。

Phoenix查询时间：

可以看到Hbase查询时间为3956秒大约1小时多一点。

而Phoenix查询时间为2015.033秒，大约33分钟左右。

综上可得出，速度快慢**：协处理器>Phoenix查询>间隔count>普通count>全表scan**。

6.同步效率对比

sqoop导入，大约50h左右。kafka-thrift单条插入约等于sqoop导入。kafka-thrift批量插入，大约7h。kafka-flink，大约3-7h。

不同的同步方式，大家可以看到效率有着明显的差别，其中使用Flink效率最高，并且如果自己电脑是集群模式，那么效率就会更加的高！

优化点：Flink窗口收集设置，上游插入速度调整，下游接收调整等。

最后，几点策略总结如下：

大数据需分割、批量插入
插入有序
phoenix大数据查询需设超时时间。
Flink最稳定、效率最高、根据计算机性能影响。
Python thrift，可以批量与单条插入结合。
Sqoop需切分、虚拟内存需关闭。
HBase若崩溃，赶紧查Zookeeper。

本节到此，就结束了，如果你能坚持看到这里，就表示你学会了很多同步与插入方法，本节比较适合上手实践，欢迎大家与我进行交流！

你可能感兴趣的:(亿级数据从 MySQL 到 Hbase 的三种同步方案与实践)

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说造命者说
底层逆袭到底有多难，不甘平凡的你准备好了吗？让吴起给你说说我叫吴起，生于公元前440年的战国初期，正是群雄并起、天下纷争不断的时候。后人说我是军事家、政治家、改革家，是兵家代表人物。评价我一生历仕鲁、魏、楚三国，通晓兵家、法家、儒家三家思想，在内政军事上都有极高的成就。周安王二十一年（公元前381年），因变法得罪守旧贵族，被人乱箭射死。我出生在卫国一个“家累万金”的富有家庭，从年轻时候起就不甘平凡
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
想家爆米花机
也许不同于大家对家乡的思念，我对家乡甚至是疯狂的不舍。还未踏出车站就感觉到幸福，我享受这里的夕阳、这里的浓烈柴火味、这里每一口家常菜。我是宅女，我贪恋家的安逸。刚刚踏出大学校门，初出茅庐，无法适应每年只能国庆和春节回家。我焦虑、失眠、无端发脾气，是无法适应工作的节奏，是无法接受我将一步步离开家乡的事实。我不想承认自己胸无大志，选择再次踏上征程。图片发自App
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
瑶池防线谜影梦蝶
冥华虽然逃过了影梦的军队，但他是一个忠臣，他选择上报战况。败给影梦后成逃兵，高层亡尔还活着，七重天失守......随便一条，即可处死冥华。冥华自然是知道以仙界高层的习性此信一发自己必死无疑，但他还选择上报实情，因为责任。同样此信送到仙宫后，知道此事的人，大多数人都认定冥华要完了，所以上到仙界高层，下到扫大街的，包括冥华自己，全都准备好迎接冥华之死。如果仙界现在还属于两方之争的话，冥华必死无疑。然而
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文