小徐xfg

快学Big Data -- Hbase导数据的几种方式（十九）

Hbase导数据的几种方式

测试数据请到Blog中下载：http://blog.csdn.net/xfg0218/article/details/51712157

1-1）、hive-hbase-handler导数据

A）、反编译JAR包

http://www.apache.org/dyn/closer.cgi/hive/选择apache-hive-1.2.1-src.tar.gz点击下载之后使用MyEclipse进行反编译,或者使用作者反编译好的JAR 链接：http://pan.baidu.com/s/1hscaORi 密码：wv6p

放在/opt/hive-1.2/lib/下记得备份之前的JAR包

B）、修改配置文件

在hive的conf目录下修改一下文件

[root@skycloud1 conf]# vi hive-site.xml

在之前的基础上添加以下内容

hive.aux.jars.path

file:///opt/hive-1.2/lib/hive-hbase-handler-1.2.1.jar,file:///opt/hive-1.2/lib/guava-14.0.1.jar,file:///opt/hbase-1.2.1/lib/hbase-common-1.2.1.jar,file:///opt/hbase-1.2.1/lib/hbase-client-1.2.1.jar,file:///opt/hive-1.2/lib/zookeeper-3.4.6.jar

hbase.zookeeper.quorum

skycloud1:2181,skycloud2:2181,skycloud3:2181

C）、创建Hive的表结构

Hive > create table hive_hbase_test(id int,name string,age int);

D）、插入数据

hive> insert into hive_hbae_test(id,name,age) values(1,"xiaozhang","18");

hive> insert into hive_hbase_test(id,name,age) values(2,"xiaowang","19");

E）、查看Hive中的数据

hive> select * from hive_hbase_test;

1 xiaozhang 18

2 xiaowang 19

Time taken: 0.081 seconds, Fetched: 2 row(s)

F）、映射Hbase的表

A）、常见内表

Hive > create table hive_hbase_pro(row_key string,id bigint,name string,age int)

STORED BY "org.apache.hadoop.hive.hbase.HBaseStorageHandler" WITH SERDEPROPERTIES

("hbase.columns.mapping" = ":key,info:id,info:name,info:age")

TBLPROPERTIES ("hbase.table.name"="hive_hbase_pro");

B）、创建外表

Hive > create external table hive_hbase_pro(row_key string,id bigint,name string,age int)

STORED BY "org.apache.hadoop.hive.hbase.HBaseStorageHandler" WITH SERDEPROPERTIES

("hbase.columns.mapping" = ":key,info:id,info:name,info:age")

TBLPROPERTIES ("hbase.table.name"="hive_hbase_pro");

说明：org.apache.hadoop.hive.hbase.HBaseStorageHandler是Hbase的储存方式

Hbase.columns.mapping：是作为Hbase的映射rowkey与列族

hive_hbase_pro：映射给Hbase的表名字

external : 可创建外表，Hbase中已经存在的表映射到hive用词操作，区别请查看一下解释

G）、查看HBase中表结构

hbase(main):020:0> describe 'hive_hbase_pro'

Table hive_hbase_pro is ENABLED

hive_hbase_pro

COLUMN FAMILIES DESCRIPTION

{NAME => 'info', BLOOMFILTER => 'ROW', VERSIONS => '1', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCODING =>

'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIONS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLICATION_SCOP

E => '0'}

1 row(s) in 0.0170 seconds

H）、插入到映射Hbase表中的数据

-- 关闭hbase的WAL,有点事提高了写入速度，缺点是如果出现错误无法查找日志

hive> set hive.hbase.wal.enabled=false;

-- 开启大量导入配置

hive> set hive.hbase.bulk=true;

-- 设置扫描的缓存

hive> set hbase.client.scanner.caching=1000000;

hive> insert overwrite table hive_hbase_pro select id as row_key,id,name,age from hive_hbase_test;

I）、查看映射表的数据

hive> select * from hive_hbase_pro;

1 1 xiaozhang 18

2 2 xiaowang 19

Time taken: 0.121 seconds, Fetched: 2 row(s)

J）、查看Hbase表中的数据

hbase(main):021:0> scan 'hive_hbase_pro'

ROW COLUMN+CELL

1 column=info:age, timestamp=1510126017074, value=18

1 column=info:id, timestamp=1510126017074, value=1

1 column=info:name, timestamp=1510126017074, value=xiaozhang

2 column=info:age, timestamp=1510126016682, value=19

2 column=info:id, timestamp=1510126016682, value=2

2 column=info:name, timestamp=1510126016682, value=xiaowang

2 row(s) in 0.0420 seconds

K）、映射Hbase已经存在的表

Hive > create external table hive_hbase_xiaoxu(row_key string,id bigint,name string,age int)

STORED BY "org.apache.hadoop.hive.hbase.HBaseStorageHandler" WITH SERDEPROPERTIES

("hbase.columns.mapping" = ":key,info:id,info:name,info:age")

TBLPROPERTIES ("hbase.table.name"="hive_hbase_pro");

L）、查看Hive表中的结构

hive> desc hive_hbase_xiaoxu;

row_key string from deserializer

id bigint from deserializer

name string from deserializer

age int from deserializer

Time taken: 0.357 seconds, Fetched: 4 row(s)

M）、查看数据

hive> select * from hive_hbase_xiaoxu;

1 1 xiaozhang 18

2 2 xiaowang 19

N）、总结

使用hive-hbase-handler往hbase中插入数据是按照一条一条的的形式插入的，速度是比较慢的，如果数量级在百万千万级别机器比较好的情况下可以使用这种方式，执行的速度大概在每妙2-3W之间

O）、官网说明

https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration

P）、增量更新与增量更新的说明

增量更新，建立的是Hive外表；而全量覆盖建立的是Hive内部表；

增量更新，必须先创建HBase表；而全量覆盖不需要事先建立HBase表；

增量更新，是在原有的HBase表的基础上新增数据，不改变原有数据；而全量覆盖则会覆盖原有数据

Q）、Hive 读取Hbase数据的说明

优点

可以方便的使用SQL的形式查看Hbase中的数据，也可以利用MapReduce的优势针对HBase存储的大量内容进行离线的计算和分析

缺点

查询速度性能的损失，hive有这样的功能, 他支持通过类似sql语句的语法来操作hbase中的数据, 但是速度慢

1-2）、Bulkload方式导数据

优势：

1、BulkLoad 不会写 WAL，也不会产生 flush 以及 split

2、如果我们大量调用 PUT 接口插入数据，可能会导致大量的 GC 操作。如果没有对Hbase的表进行预分区，会导致单太机器的热点问题，

严重时甚至可能会对 HBase 节点的稳定性造成影响，采用 BulkLoad 无此顾虑。

过程中没有大量的接口调用消耗性能。

A）、按照需要的数据的字段把数据导出到HDFS中

hive> insert overwrite directory "/tmp/sp_addr_bulktable" row format delimited FIELDS terminated by '\t' select sa.ID,sa.PLACE_CODE,sa.PLACE_NAME from xiaoxu.sp_address sa;

Query ID = root_20170403234442_c34e1570-f478-4c8b-bacf-83485f94b567

Total jobs = 3

Launching Job 1 out of 3

Number of reduce tasks is set to 0 since there's no reduce operator

Starting Job = job_1491287068852_0001, Tracking URL = http://hadoop1:8088/proxy/application_1491287068852_0001/

Kill Command = /opt/hadoop-2.6.4/bin/hadoop job -kill job_1491287068852_0001

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0

2017-04-03 23:45:28,478 Stage-1 map = 0%, reduce = 0%

2017-04-03 23:46:01,357 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 1.46 sec

MapReduce Total cumulative CPU time: 1 seconds 460 msec

Ended Job = job_1491287068852_0001

Stage-3 is selected by condition resolver.

Stage-2 is filtered out by condition resolver.

Stage-4 is filtered out by condition resolver.

Moving data to: hdfs://mycluster/tmp/sp_addr_bulktable/.hive-staging_hive_2017-04-03_23-44-42_657_7591325811272483144-1/-ext-10000

Moving data to: /tmp/sp_addr_bulktable

MapReduce Jobs Launched:

Stage-Stage-1: Map: 1 Cumulative CPU: 1.46 sec HDFS Read: 250195 HDFS Write: 166508 SUCCESS

Total MapReduce CPU Time Spent: 1 seconds 460 msec

Time taken: 81.082 seconds

B）、利用importtsv命令生成Hfile文件

[root@skycloud1 conf]# HADOOP_CLASSPATH=`hbase classpath` hadoop jar /opt/hbase-1.2.1/lib/hbase-server-1.2.1.jar importtsv -Dimporttsv.columns=HBASE_ROW_KEY,sp_address:ID,sp_address:PLACE_CODE,sp_address:PLACE_NAME -Dimporttsv.bulk.output="/tmpbulkdata/sp_addr_data" sp_address_bulkload "/tmp/sp_addr_bulktable"

详细的执行过程可以查看：http://blog.csdn.net/xfg0218/article/details/69063014

资料请查看：http://hbase.apache.org/book.html#importtsv

C）、查看Hbase中的表

hbase(main):011:0> list

TABLE

sp_address_bulkload

2 row(s) in 0.1430 seconds

=> ["sp_address_bulkload",]

D）、把Hfile文件导入到Hbase中

方式一：

[root@skycloud1 conf]# HADOOP_CLASSPATH=`hbase classpath` hadoop jar /opt/hbase-1.2.1/lib/hbase-server-1.2.1.jar completebulkload "/tmpbulkdata/sp_addr_data" sp_address_bulkload

详细的执行过程可以查看：http://blog.csdn.net/xfg0218/article/details/69063137

方式二：

[root@skycloud1 conf]# export HADOOP_CLASSPATH=`hbase classpath`

[root@skycloud1 conf]# yarn jar /opt/hbase-1.2.1/lib/hbase-server-1.2.1.jar completebulkload completebulkload "/tmpbulkdata/sp_addr_data" sp_address_bulkload

E）、总结

在这几种导数据的速度上这种方式是最快的，原理是按照Hfile进行的，一次性处理多条数据，建议使用这种方式。本次测试由于是自己的虚拟机所以会比较慢，在真是环境中会相当快的快，我们测试的是4亿多条的数据，20分钟搞定。

官网介绍：https://cwiki.apache.org/confluence/display/Hive/HBaseBulkLoad

1-3）、Phoneix导入Hbase数据

Phoenix 官网：https://phoenix.apache.org/pig_integration.html

在下载时注意版本的问题。

A）、安装Phoneix

[root@hadoop1 bin]# chmod a+x apache-phoenix-4.8.2-HBase-1.2-bin.tar.gz

[root@hadoop1 bin]# tar -zxvf apache-phoenix-4.8.2-HBase-1.2-bin.tar.gz

[root@hadoop1 bin]# mv apache-phoenix-4.9.0-HBase-1.1-bin phoenix-4.8.2-HBase-1.2

[root@hadoop1 bin]# cd phoenix-4.8.2-HBase-1.2/

移动phoenix的以下的JAR到Hbase集群中

[root@hadoop1 bin]# cp phoenix-core-4.8.2-HBase-1.2.jar phoenix-4.8.2-HBase-1.2-server.jar /opt/hbase-1.2.1/lib/

复制到其他的机器中：

[root@hadoop1 bin]# scp -r phoenix-core-4.8.2-HBase-1.2.jar phoenix-4.8.2-HBase-1.2-server.jar hadoop2:/opt/hbase-1.2.1/lib/

[root@hadoop1 bin]# scp -r phoenix-core-4.8.2-HBase-1.2.jar phoenix-4.8.2-HBase-1.2-server.jar hadoop3:/opt/hbase-1.2.1/lib/

复制Hbase的hbase-site.xml和Hadoop的core-site.xml和hdfs-site.xml到phoenix的bin目录下：

[root@hadoop1 bin]# cd /opt/hbase-1.2.1/conf/

[root@hadoop1 bin]# cp hbase-site.xml /opt/phoenix-4.8.2-HBase-1.2/bin/

[root@hadoop1 bin]# cd /opt/hadoop-2.6.4/etc/hadoop/

[root@hadoop1 bin]# cp core-site.xml hdfs-site.xml /opt/phoenix-4.8.2-HBase-1.2/bin/

B）、启动Phoneix

[root@hadoop1 bin]# cd /opt/phoenix-4.8.2-HBase-1.2/

[root@hadoop1 bin]# chmod 777 psql.py sqlline.py

重启Hbase集群使配置文件生效

[root@hadoop1 bin]# ./sqlline.py

Setting property: [incremental, false]

Setting property: [isolation, TRANSACTION_READ_COMMITTED]

issuing: !connect jdbc:phoenix: none none org.apache.phoenix.jdbc.PhoenixDriver

Connecting to jdbc:phoenix:

SLF4J: Class path contains multiple SLF4J bindings.

SLF4J: Found binding in [jar:file:/opt/phoenix-4.9.0-HBase-1.1/phoenix-4.9.0-HBase-1.1-client.jar!/org/slf4j/impl/StaticLoggerBinder.class]

SLF4J: Found binding in [jar:file:/opt/hadoop-2.6.4/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]

SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.

17/04/07 00:25:29 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Connected to: Phoenix (version 4.8.2)

Driver: PhoenixEmbeddedDriver (version 4.9)

Autocommit status: true

Transaction isolation: TRANSACTION_READ_COMMITTED

Building list of tables and columns for tab-completion (set fastconnect to true to skip)...

87/87 (100%) Done

Done

sqlline version 1.2.0

0: jdbc:phoenix:>

也可以制定端口运行：

[root@hadoop1 bin]# sqlline.py hadoop1:2181

Hadoop1:主机的名字

2181:当前执行的端口

C）、修改超时时间

[root@hadoop1 bin]# cd /opt/phoenix-4.9.0-HBase-1.1/bin

[root@hadoop1 bin]# vi hbase-site.xml

追加一下配置文件

phoenix.query.timeoutMs

3600000

hbase.rpc.timeout

3600000

D）、Phoneix常用命令

1-1）、查看全部的表的信息

0: jdbc:phoenix:> !tables

可以看出有比较好的列的名字与分割线

1-2）、查看一个表的结构

0: jdbc:phoenix:> !describe "STATS"

1-3）、删除表

0: jdbc:phoenix:> DROP TABLE “STATS”

1-4）、查询语句

Phoneix支持常用的SQL语句，不过在查询时使用””与不适用””的区别。

1-5）、Phoenix支持的类型

INTEGER 整形

UNSIGNED_INT 无符号整形

BIGINT 长整形

UNSIGNED_LONG 无符号长整形

TINYINT 短整形

UNSIGNED_TINYINT 无符号短整型

SMALLINT 小整形

UNSIGNED_SMALLINT 无符号短整型

FLOAT 浮点型

UNSIGNED_FLOAT 无符号浮点型

DOUBLE 双精度浮点型

UNSIGNED_DOUBLE 无符号双精度浮点型

DECIMAL 长精度双精度浮点型

BOOLEAN 布尔类型

TIME 时间类型

DATE 日期类型

TIMESTAMP 时间戳类型

UNSIGNED_TIME 无符号时间类型

UNSIGNED_DATE 无符号日期类型

UNSIGNED_TIMESTAMP 无符号时间戳类型

VARCHAR 字符串类型

CHAR 字符类型

BINARY 二进制类型

VARBINARY 可变长二进制类型

ARRAY 数组类型

1-6）、常用的函数

A）、聚合函数

AVG：求平均，如果没有返回NULL

SUM：求和函数

COUNT：求行数，如果指定某列，则返回该列非空个数，如果为*或1,则返回所有行，加上distinct则返回不相同的行数

MAX：求最大值

MIN：求最小值

PERCENTILE_CONT：指定

PERCENTILE_DISC：指定占比的列具体值是多少

PERCENT_RANK：指定值占的百分比，PERCENT_RANK( 39 ) WITHINGROUP (ORDER BY id ASC)

STDDEV_SAMP：样本标准差

STDDEV_POP：总体标准差

B）、支持的字符串函数

SUBSTR：取子串，默认是基于1的，如果想基于0，则指定0，如果指定为负数，则是从字符串结尾算起

TRIM：去除字符串头尾空格

LTRIM:去除字符串左侧空格

RTRIM:去除字符串右侧空格

LENGTH:返回字符串长度

REGEXP_SUBSTR:通过指定正则表达式获取子串

REGEXP_REPLACE:正则替换

UPPER:大写转换

LOWER:小写转换

REVERSE:字符串反转

TO_CHAR:将日期、时间、时间戳或数字格式化为一个字符串。默认日期格式为yyyy-MM-dd HH:mm:ss,数字格式为#，##0.###。

C）、支持的时间、日期函数

ROUND：四舍五入

TRUNC:截断

TO_DATE:转换为date类型

CURRENT_DATE:返回RS上当前日期

CURRENT_TIME:返回RS上当前时间

D）、支持的时间、日期函数

TO_NUMBER:转换日期、时间、时间戳为一个数字，可接受格式化串

COALESCE:指定默认值，如果相应值为null

E）、往Hbase中导入数据

1-1）、数据从hive中导出成phoenix支持的csv格式

hive> insert overwrite directory '/tmp/sp_address' row format delimited FIELDS TERMINATED BY ',' select * from sp_address;

1-2）、查看HDFS上的信息

[root@hadoop1 bin]# hadoop fs -du -h -s /tmp/sp_address

234.0 K /tmp/sp_address

1-3）、在phoenix中创建表

创建表在Hbase,必须制定主键

0: jdbc:phoenix:> create table sp_address(id integer primary key,place_type varchar,place_code varchar,place_name varchar,up_place_code varchar);

No rows affected (3.185 seconds)

1-4）、使用phoenix将数据导入hbase

[root@hadoop1 phoenix-4.9.0-HBase-1.1]# HADOOP_CLASSPATH=/opt/hbase-1.2.1/lib/hbase-protocol-1.2.1.jar:/etc/hbase/conf/ hadoop jar /opt/phoenix-4.8.2-HBase-1.2/phoenix-4.8.2-HBase-1.2-client.jar org.apache.phoenix.mapreduce.CsvBulkLoadTool --table SP_ADDRESS --input /tmp/sp_address/*

***********************************

详细的运行日志请查看：http://blog.csdn.net/xfg0218/article/details/69669632

1-4）、Hbase导出数据

、导成制定格式的文件

[root@hadoop1 ~]# vi exportHbase.sh

# get current path

SCRIPT_DIR=`cd $(dirname $0) && pwd`

# export data

echo "scan 'portrayal',{LIMIT=>10}" | hbase shell > $SCRIPT_DIR/ExportHbase.txt

查看数据

[root@hadoop1 ~]# tail -n 5 ExportHbase.txt

00000075d9d93dc17e163d5c6dd335f8 column=tag:es_jcsx_rksx_xm, timestamp=1491033321055, value=***

00000075d9d93dc17e163d5c6dd335f8 column=tag:es_jcsx_rksx_xz, timestamp=1491033321055, value=\xE7\x8B\xAE\xE5\xAD\x90

00000075d9d93dc17e163d5c6dd335f8 column=tag:es_jcsx_rksx_zjlx, timestamp=1491033321055, value=1

10 row(s) in 0.4260 seconds

B）、Import/Export导出到序列化的文件

1-1）、构造数据

hbase(main):008:0> create 'xiaoxu','cf'

0 row(s) in 4.2890 seconds

=> Hbase::Table - xiaoxu

hbase(main):009:0> put 'xiaoxu','001','cf:name','xiaozhang'

0 row(s) in 0.1870 seconds

hbase(main):010:0> put 'xiaoxu','001','cf:age','18'

0 row(s) in 0.0340 seconds

hbase(main):011:0> scan 'xiaoxu'

ROW COLUMN+CELL

001 column=cf:age, timestamp=1491364070907, value=18

001 column=cf:name, timestamp=1491364050527, value=xiaozhang

1 row(s) in 0.0970 seconds

hbase(main):012:0>

1-2）、导出数据

[root@hadoop1 ~]#hbase org.apache.hadoop.hbase.mapreduce.Export xiaoxu /xiaoxu/test-output-001

***************************

详细的执行过程请查看：http://blog.csdn.net/xfg0218/article/details/69231258

1-3）、查看HDFS上的数据

[[email protected] ~/xiaoxu]$ hadoop fs -cat test-output-001/part-m-00000

SEQ1org.apache.hadoop.hbase.io.ImmutableBytesWritable%org.apache.hadoop.hbase.client.ResultР5ƀ¹z,N001F

001cfage ᱫ(218

001cfname ࠬ桳+(2 xiaozhang

因为是序列化的数据所以会乱码

1-4）、清空表中的数据

hbase(main):014:0> truncate 'xiaoxu'

Truncating 'xiaoxu' table (it may take a while):

- Disabling table...

- Truncating table...

0 row(s) in 3.6910 seconds

hbase(main):015:0> scan 'xiaoxu'

ROW COLUMN+CELL

0 row(s) in 0.3180 seconds

1-5）、导入数据

[root@hadoop1 ~]#hbase org.apache.hadoop.hbase.mapreduce.Import xiaoxu /xiaoxu/test-output-001

***************************

详细的导入的过程请查看：http://blog.csdn.net/xfg0218/article/details/69231415

1-6）、查看Hbase导入后的数据

hbase(main):016:0> scan 'xiaoxu'

ROW COLUMN+CELL

001 column=cf:age, timestamp=1491364070907, value=18

001 column=cf:name, timestamp=1491364050527, value=xiaozhang

1 row(s) in 0.0110 seconds

C）、利用pig从HBase中导出csv格式文件

1-1）、安装pig

官网：http://mirror.bit.edu.cn/apache/pig/

或者下载：链接：http://pan.baidu.com/s/1bpmu0px 密码：gw05

[root@hadoop1 opt]# chmod a+x pig-0.16.0-src.tar.gz

[root@hadoop1 opt]# tar -zxvf pig-0.16.0-src.tar.gz

1-2）、修改配置文件

[root@hadoop1 opt]# vi /etc/profile

export PIG_HOME=/opt/pig-0.16.0

export PIG_CLASSPATH=$HADOOP_HOME

export PATH=$PATH:$PIG_HOME/bin:$PIG_CLASSPATH

1-3）、查看Pig是否能使用

[root@hadoop1 opt]# pig -help

Cannot locate pig-core-h2.jar. do 'ant -Dhadoopversion=23 jar', and try again

1-4）、使用pig导出csv文件

[root@hadoop1 opt]# vi ExportHbase.pig

x=LOAD 'hbase://sp_address_src' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('

sp_address:place_code,

sp_address:place_type

','-loadKey true');

STORE x INTO 'sp_address.csv' USING PigStorage(',');

-loadKey true' : 是显示主键，以，为分割并把文件导出到HDFS的sp_address.csv中

1-5）、运行脚本

[root@hadoop1 opt]# pig -x mapreduce ExportHbase.pig

D）、使用Phoenix 导出csv文件

官网：http://pig.apache.org/

1-1）、准备脚本

脚本一：table查询方式

[root@hadoop1 testSh]# vi example1.pig

rows = load 'hbase://table/sp_address_orc' USING org.apache.phoenix.pig.PhoenixHBaseLoader('hadoop1:2181,hadoop2:2181,hadoop3:2181');

STORE rows INTO 'sp_address_orc.csv' USING PigStorage(',');

脚本二：query查询方式

[root@hadoop1 testSh]# vi example2.pig

rows = load 'hbase://query/SELECT * FROM SP_ADDRESS' USING org.apache.phoenix.pig.PhoenixHBaseLoader('hadoop1,hadoop2,hadoop3:2181');

STORE rows INTO 'SP_ADDRESS.csv' USING PigStorage(',');

运行脚本：

[root@hadoop1 testSh]# pig -x local example1.pig

详细运行日志请查看：http://blog.csdn.net/xfg0218/article/details/69675774

你可能感兴趣的:(大数据书籍)

java如何快速入门Hadoop大数据技术？ xyzkenan 大数据 hadoop 大数据书籍大数据开发
给大家推荐一本比较系统的Hadoop大数据书籍，方便大家快速入门图书简介：本书以Hadoop及其周边框架为主线，介绍了整个Hadoop生态系统主流的大数据开发技术。全书共16章，第1章讲解了VMware中CentOS7操作系统的安装；第2章讲解了大数据开发之前对操作系统集群环境的配置；第3~16章讲解了Hadoop生态系统各框架HDFS、MapReduce、YARN、ZooKeeper、HBase
python大数据书籍推荐-大数据入门书籍推荐《Python 大数据基础》 weixin_39527078
本书系统地讲解了大数据处理相关的过程，并通过Python程序的例子讲解了如何使用Python语言对数据进行采集、存储、分析及可视化。本书的章节设计以目标为导向，首先介绍大数据处理各个环节要做什么事情，然后讲解如何使用Python达到对应的目标。本书有配套的课件、代码和课后练习题答案，有需要的读者可登录出版社网站，免费下载。书中给出的例子和数据文件都保存在source目录下对应章节的子目录下。目录第
学习大数据开发需要读的书籍有哪些？大数据开发书籍推荐介绍彧11
学习大数据少不了平时的技术经验的积累，只有不断的积累才能在熟能生巧中精益求精。今天向大家推荐一批大数据书籍，大家可以在业余的时候阅读，加深对大数据的了解，科多大数据分享给大家看看~1.数据之巅内容简介：在《数据之巅》这本书中，从小数据时代到大数据的崛起，作者以宏大的历史观、文化观、大数据观，给我们描绘了一幅数据科学、智慧文化的全景图。全书从美国建国之基讲起，通过阐述初数时代、内战时代、镀金时代、进
大数据书籍推荐 bruinmin 大数据大数据
注：本篇博客摘自OURJS网站，主要作为笔记历史大浪淘沙经过5次信息革命，终于迎来大数据时代，给信息领域灌入了强劲的血液，催生了很多新生力量，而各行各业谁也无法离开数据存活。尤其近几年来，全球范围内掀起了一股“大数据”热，各地政府、大小企业都在布局大数据，抢占先机。这个局到底怎么设，很少有人能说出清晰的脉络。一个新事物的出现，除了带给人们惊喜之外，还有毫无思绪的迷茫。据可靠数据显示，截止到2016
这些大数据书籍配合实验操作更爽哦！实验楼
我们学习任何一门技术，肯定都会选择一本不错的书籍，我想学大数据也不例外，你会挑选不错的书籍，看书学习。同时我们也知道光看书是不行的，还需要不断的动手实战练习。所以不禁会想，有没有可以边看书边动手操作呢，毕竟看书的时候很多地方都想动手去操作看看。如果你是同我一样的想法，那么看这篇文章就对了，这里整理了6门图灵教育发布的课程，全部都是大数据课程，这些课程配合书籍食用更爽哦~Hadoop图处理--《ha
送30本高质量Python、Java、大数据书籍 weixin_44747961
来给大家送一波福利，这次联系了9个好友一起给各位送书，每个号送3本，一共30本，还包邮哦，具体书籍种类、介绍信息文中有详细介绍，确实是几本精选书籍。这10个公众号，也是在各个领域非常优秀的公众号，也能帮助大家学到更多有用知识感谢清华大学出版社对本次活动的赞助。>>书怎么送>>本次参加的公众号>书籍介绍<<1、Python机器学习算法原理、实现与案例《Python机器学习算法：原理、实现与案例》用平
100g 技术类图书分享 java书籍大数据书籍等沙赞
电子书库链接：https://pan.baidu.com/s/1EbI4fWw0Vhn9LpH10Ve64Q密码：knp5由于文件比较大,链接容易失效。若失效，可看下面的子分类链接------------------------------------------------------------------------------大数据链接：https://pan.baidu.com/s/1d
第2周：继续扫盲大数据 | 一年读书300本郦无悔
用一小时时间速读，用一生时间精读，这是郦无悔在2017年阅读的第10~12本书关键词：大数据大数据只会越来越火爆，没有第二种可能2017第2周删除-大数据取舍之道Delete:TheVirtureofForgettingintheDigitalAge维克托·迈尔-舍恩伯格(作者)浙江人民出版社又是一本维克托大神的大数据书籍。此书开篇就给了一个非常残酷的事实：你在互联网上留下的，都有记录，即使你删除
厘清大数据的十个问题刘gfdx
忽如一夜春风来，千“数”万“数”梨花开。近年来，大数据成为最时髦、最火热的话题，国家出台大数据产业发展规划，大数据科技公司如雨后春笋般冒出，电视节目中经常有各种大数据统计，就连微信段子也有戏说大数据。然而，虽置身于大数据时代，我们却多多少少不识其庐山真面目。通过阅读《大数据时代》《为数据而生》《数据之巅》《爆发》等有关大数据书籍，笔者试图通过以下十个方面认识大数据。1.到底什么是大数据（BIGDA
数据新常态技术分享会吉子珑
本周六西安技术分享会继续进行。本周共读书籍数据新常态，一本非常好的大数据书籍我们技术分享会初衷：一本书，一群人，没有手机的周末两小时生活方式，让技术回归到技术，让我们一起共同找回，我们踏上技术路的那份最纯初心把，抛去所有包袱和附加一切，重新轻装出发。我们将学习，讨论，分享一切和技术相关的内容，如果喜欢就来加入我们，和我们一起打怪升级。作为学生的你，肯定需要了解职场的最新动态，作为加入职场十多年老兵
大数据书籍精选十本书猎阳
1.《大数据时代》作者：[英]维克托·迈尔-舍恩伯格，[英]肯尼思·库克耶，翻译：盛杨燕，周涛这本书，会让你形成大数据的概念，即知道这么几点：1、绝不是有很多数据就叫大数据；2、大数据是一种数据分析方式，与传统数据分析方式有着本质上的不同；3、大数据的特点是“关注相关性，不关注因果”，这是大数据最核心的东西，一定要真正理解，并牢牢记住，不然你就很容易被别人忽悠；4、大数据采用的是统计的方法；5、大
学习大数据开发需要读的书籍有哪些？大数据开发书籍推荐介绍大数据05
学习大数据少不了平时的技术经验的积累，只有不断的积累才能在熟能生巧中精益求精。今天向大家推荐一批大数据书籍，大家可以在业余的时候阅读，加深对大数据的了解，科多大数据分享给大家看看~1.数据之巅大数据学习QQ群：716581014内容简介：在《数据之巅》这本书中，从小数据时代到大数据的崛起，作者以宏大的历史观、文化观、大数据观，给我们描绘了一幅数据科学、智慧文化的全景图。全书从美国建国之基讲起，通过
java如何快速入门Hadoop大数据技术？ qunqun8889 大数据大数据 Hadoop
给大家推荐一本比较系统的Hadoop大数据书籍，方便大家快速入门图书简介：本书以Hadoop及其周边框架为主线，介绍了整个Hadoop生态系统主流的大数据开发技术。全书共16章，第1章讲解了VMware中CentOS7操作系统的安装；第2章讲解了大数据开发之前对操作系统集群环境的配置；第3~16章讲解了Hadoop生态系统各框架HDFS、MapReduce、YARN、ZooKeeper、HBase
今天向大家推荐一批大数据书籍，大家可以在业余的时候阅读，加深对大数据的了解 duozhishidai 大数据
原文链接：http://www.duozhishidai.com1.数据之巅内容简介：在《数据之巅》这本书中，从小数据时代到大数据的崛起，作者以宏大的历史观、文化观、大数据观，给我们描绘了一幅数据科学、智慧文化的全景图。全书从美国建国之基讲起，通过阐述初数时代、内战时代、镀金时代、进步时代、抽样时代、大数据时代的特征，系统梳理了美国数据文化的形成，阐述了其数据治国之道，论述了中国数据文化的薄弱之处
云计算和大数据书籍人在IT之IT女汉子知识分享
业余收集希望对大家有帮助链接：https://pan.baidu.com/s/1qKeC7e53OPgwduRybOYKYA提取码：z2cu
实战可依赖的20本大数据书籍（收藏） fenghuo9527 sh
前言书要读懂，先求不懂。因为很多人私信问我大数据应该读什么书比较好，所以小编特意找了二十本大数据实战可依赖的书籍，想要转职或者深入学习大数据的朋友可以注意了，点赞收藏加转发，鼓励一下小编的良苦用心分享之前我还是要推荐下我自己创建的大数据学习交流Qun531629188无论是大牛还是想转行想学习的大学生小编我都挺欢迎，今天的已经资讯上传到群文件，不定期分享干货，包括我自己整理的一份最新的适合2018
推公式到写代码-序言 Master苏
本专辑内容的阅读对象是有一定的高数和线性代数基础，但是缺少编程训练的人。曾经我只能对着数学公式发呆，现在学会怎么在现实世界中使用了。现在大数据火了，各种培训机构和大数据书籍层出不穷，喊口号更是惊人，像什么‘从零入门机器学习’，‘21天从入门到精通大数据’，‘从零开始挑战30万年薪’等等，其火热程度不逊于当年Java。大数据被吹得神乎其神，似乎只要上了大数据，就能翻云覆雨，业绩蹭蹭蹭蹭，追赶BAT不
大数据Spark “蘑菇云”行动第87课：Hive嵌套查询与Case、When、Then案例实战段智华 hive
大数据Spark“蘑菇云”行动第87课：Hive嵌套查询与Case、When、Then案例实战Hive的趋势是做大数据书籍仓库的标准，通过框架的架构，底层的引擎可以是Tez、Spark、MapReduce等；上一节课的数据库连接资源释放代码/***4、释放资源*/publicstaticvoidrelease(Connectioncon,Statementst,ResultSetrs){if(rs
Hadoop云计算大数据书籍分享 hadoop
1. 推荐书名大数据云计算利器: Hadoop， The Definitive Guide, 1Ed.pdf（第1版）大数据云计算利器: Hadoop， The Definitive Guide, 2Ed.pdf（第2版）大数据云计算利器: Hadoop， The Definitive Guide, 3E
大数据书籍目录大数据
大数据：大数据之好书推荐 1. 解读大数据想全面了解大数据的方方面面，绝对不能错过《大数据时代—生活、工作与思维的变革》这本书。一本很容易读懂的书，不需要过多的专业知识，里面的每个点能让你有这样一种冲动——如果我把这个点不断扩大，是不是我就是下一个Facebook! 非专业人员请不要有什么顾虑，即使你对信息领域毫无经验，也能像品味张爱玲的小说那样，读得津津有味；
读《大数据时代》彭苏云大数据时代
周末两天加上今天的时间，算是仔细的读完了《大数据时代》这本书，这本书既是我导师推荐给我们的大数据书籍，也是我第一次尝试一口气读完一本书。对于这本书，作者的牛逼之处就不用我在这里废口水了。这里主要说说的体会。现在谈论大数据的人真的很多，但是能全面的讲述大数据的人我个人的感觉是不多的。作者从非技术这个角度，从思维、价值、隐私、管理这些角度来细致的讲述大数据，这点我觉得是值得我们学习的，而且书中例子的结
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本