Imflash

Sqoop

Apache Sqoop

二、 Apache Sqoop

1． sqoop介绍

Apache Sqoop是在Hadoop生态体系和 RDBMS 体系之间传送数据的一种工具。来自于Apache软件基金会提供。

Sqoop工作机制是将导入或导出命令翻译成mapreduce程序来实现。在翻译出的mapreduce中主要是对inputformat和outputformat进行定制。

Hadoop生态系统包括：HDFS、Hive、Hbase等

RDBMS体系包括：Mysql、Oracle、DB2等

Sqoop可以理解为：“SQL 到 Hadoop 和 Hadoop 到SQL”

站在Apache立场看待数据流转问题，可以分为数据的导入导出:

Import：数据导入。RDBMS----->Hadoop

Export：数据导出。Hadoop---->RDBMS

2． sqoop安装

安装sqoop的前提是已经具备java和hadoop的环境。

最新稳定版： 1.4.6

配置文件修改：

cd $SQOOP_HOME/conf
mv sqoop-env-template.sh sqoop-env.sh
vi sqoop-env.sh
export HADOOP_COMMON_HOME=/export/servers/hadoop-2.7.5 
export HADOOP_MAPRED_HOME=/export/servers/hadoop-2.7.5
export HIVE_HOME=/export/servers/hive

加入mysql的jdbc驱动包

cp /hive/lib/mysql-connector-java-5.1.32.jar $SQOOP_HOME/lib/

验证启动

bin/sqoop list-databases \
 --connect jdbc:mysql://localhost:3306/ \
 --username root --password hadoop

本命令会列出所有mysql的数据库。

到这里，整个Sqoop安装工作完成。

三、 Sqoop导入

“导入工具”导入单个表从RDBMS到HDFS。表中的每一行被视为HDFS的记录。所有记录都存储为文本文件的文本数据

下面的语法用于将数据导入HDFS。

$ sqoop import (generic-args) (import-args)

Sqoop测试表数据

在mysql中创建数据库userdb，然后执行参考资料中的sql脚本：

创建三张表: emp雇员表 、 emp_add雇员地址表 、 emp_conn雇员联系表。

1．全量导入mysql表数据到HDFS

下面的命令用于从MySQL数据库服务器中的emp表导入HDFS。

bin/sqoop import \
--connect jdbc:mysql://192.168.16.32:3306/userdb \
--username root \
--password password \
--delete-target-dir \
--target-dir /sqoopresult \
--table emp --m 1 #m代表分几个maptask，配合split-by id（根据什么切割成split，找最大值和最小值）使用

其中**–target-dir可以用来指定导出数据存放至HDFS的目录；**

mysql jdbc url 请使用 ip 地址。

为了验证在HDFS导入的数据，请使用以下命令查看导入的数据：

hdfs dfs -cat /sqoopresult/part-m-00000

可以看出它会在HDFS上默认用逗号,分隔emp表的数据和字段。可以通过

–fields-terminated-by '\t’来指定分隔符。

1201,gopal,manager,50000,TP
1202,manisha,Proof reader,50000,TP
1203,khalil,php dev,30000,AC
1204,prasanth,php dev,30000,AC
1205,kranthi,admin,20000,TP

2．全量导入mysql表数据到HIVE

2.1．方式一：先复制表结构到hive中再导入数据

将关系型数据的表结构复制到hive中

bin/sqoop create-hive-table \
--connect jdbc:mysql://192.168.16.32:3306/userdb \
--table emp_add \
--username root \
--password password \
--hive-table myhive.emp_add_sp

其中：

–table emp_add为mysql中的数据库sqoopdb中的表。

–hive-table emp_add_sp 为hive中新建的表名称。

从关系数据库导入文件到hive中

bin/sqoop import \
--connect jdbc:mysql://node-1:3306/sqoopdb \
--username root \
--password hadoop \
--table emp_add \
--hive-table test.emp_add_sp \
--hive-import \
--m 1

2.2．方式二：直接复制表结构数据到hive中

bin/sqoop import \
--connect jdbc:mysql://192.168.16.32:3306/userdb \
--username root \
--password password \
--table emp \
--hive-import \
--m 1 \
--hive-database myhive;

3．导入表数据子集(where过滤)

–where可以指定从关系数据库导入数据时的查询条件。它执行在数据库服务器相应的SQL查询，并将结果存储在HDFS的目标目录。

bin/sqoop import \
--connect jdbc:mysql://192.168.16.32:3306/userdb \
--username root \
--password password \
--where "city ='sec-bad'" \
--target-dir /wherequery \
--table emp_add --m 1

4．导入表数据子集(query查询)

注意事项：

使用query sql语句来进行查找不能加参数–table ;

并且必须要添加where条件;

并且where条件后面必须带一个$CONDITIONS 这个字符串;

并且这个sql语句必须用单引号，不能用双引号;

bin/sqoop import \
--connect jdbc:mysql://192.168.16.32:3306/userdb \
--username root \
--password password \
--target-dir /wherequery12 \
--query 'select id,name,deg from emp WHERE  id>1203 and $CONDITIONS' \
--split-by id \
--fields-terminated-by '\t' \
--m 2

sqoop命令中，–split-by id通常配合-m 10参数使用。用于指定根据哪个字段进行划分并启动多少个maptask。

5．增量导入

在实际工作当中，数据的导入，很多时候都是只需要导入增量数据即可，并不需要将表中的数据每次都全部导入到hive或者hdfs当中去，这样会造成数据重复的问题。因此一般都是选用一些字段进行增量的导入， sqoop支持增量的导入数据。

增量导入是仅导入新添加的表中的行的技术。

–check-column (col)

用来指定一些列，这些列在增量导入时用来检查这些数据是否作为增量数据进行导入，和关系型数据库中的自增字段及时间戳类似。

注意:这些被指定的列的类型不能使任意字符类型，如char、varchar等类型都是不可以的，同时-- check-column可以去指定多个列。

–incremental (mode)

append：追加，比如对大于last-value指定的值之后的记录进行追加导入。lastmodified：最后的修改时间，追加last-value指定的日期之后的记录

–last-value (value)

指定自从上次导入后列的最大值（大于该指定的值），也可以自己设定某一值

5.1． Append模式增量导入

执行以下指令先将我们之前的数据导入：

bin/sqoop import \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password hadoop \
--target-dir /appendresult \
--table emp --m 1

使用hadoop fs -cat查看生成的数据文件，发现数据已经导入到hdfs中。
然后在mysql的emp中插入2条增量数据:

insert into `userdb`.`emp` (`id`, `name`, `deg`, `salary`, `dept`) values ('1206', 'allen', 'admin', '30000', 'tp');
insert into `userdb`.`emp` (`id`, `name`, `deg`, `salary`, `dept`) values ('1207', 'woon', 'admin', '40000', 'tp');

执行如下的指令，实现增量的导入:

bin/sqoop import \
--connect jdbc:mysql://node-1:3306/userdb \
--username root  --password hadoop \
--table emp --m 1 \
--target-dir /appendresult \
--incremental append \
--check-column id \
--last-value  1205

最后验证导入数据目录可以发现多了一个文件里面就是增量数据

5.2． Lastmodified模式增量导入

首先创建一个customer表，指定一个时间戳字段：

create table customertest(id int,name varchar(20),last_mod timestamp default current_timestamp on update current_timestamp);

此处的时间戳设置为在数据的产生和更新时都会发生改变.

分别插入如下记录:

insert into customertest(id,name) values(1,'neil');
insert into customertest(id,name) values(2,'jack');
insert into customertest(id,name) values(3,'martin');
insert into customertest(id,name) values(4,'tony');
insert into customertest(id,name) values(5,'eric');

执行sqoop指令将数据全部导入hdfs:

bin/sqoop import \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password hadoop \
--target-dir /lastmodifiedresult \
--table customertest --m 1

查看此时导出的结果数据：

再次插入一条数据进入customertest表

insert into customertest(id,name) values(6,'james')

使用incremental的方式进行增量的导入:

bin/sqoop import \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password hadoop \
--table customertest \
--target-dir /lastmodifiedresult \
--check-column last_mod \
--incremental lastmodified \
--last-value "2019-05-28 18:42:06" \
--m 1 \
--append

此处已经会导入我们最后插入的一条记录,但是我们却发现此处插入了2条数据，这是为什么呢？

这是因为采用lastmodified模式去处理增量时，会将大于等于last-value值的数据当做增量插入。

5.3． Lastmodified模式:append、merge-key

使用lastmodified模式进行增量处理要指定增量数据是以append模式(附加)还是merge-key(合并)模式添加

下面演示使用merge-by的模式进行增量更新,我们去更新 id为1的name字段。

update customertest set name = 'Neil' where id = 1;

更新之后，这条数据的时间戳会更新为更新数据时的系统时间.

执行如下指令，把id字段作为merge-key:

bin/sqoop import \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password hadoop \
--table customertest \
--target-dir /lastmodifiedresult \
--check-column last_mod \
--incremental lastmodified \
--last-value "2019-05-28 18:42:06" \
--m 1 \
--merge-key id

由于merge-key模式是进行了一次完整的mapreduce操作，

因此最终我们在lastmodifiedresult文件夹下可以看到生成的为part-r-00000这样的文件，会发现id=1的name已经得到修改，同时新增了id=6的数据。

四、 Sqoop导出

将数据从Hadoop生态体系导出到RDBMS数据库导出前，目标表必须存在于目标数据库中。

export有三种模式：

默认操作是从将文件中的数据使用INSERT语句插入到表中。

更新模式：Sqoop将生成UPDATE替换数据库中现有记录的语句。

调用模式：Sqoop将为每条记录创建一个存储过程调用。

以下是export命令语法：

$ sqoop export (generic-args) (export-args)

1．默认模式导出HDFS数据到mysql

默认情况下，sqoop export将每行输入记录转换成一条INSERT语句，添加到目标数据库表中。如果数据库中的表具有约束条件（例如，其值必须唯一的主键列）并且已有数据存在，则必须注意避免插入违反这些约束条件的记录。如果INSERT语句失败，导出过程将失败。此模式主要用于将记录导出到可以接收这些结果的空表中。通常用于全表数据导出。

导出时可以是将Hive表中的全部记录或者HDFS数据（可以是全部字段也可以部分字段）导出到Mysql目标表。

1.1．准备HDFS数据

在HDFS文件系统中“/emp/”目录的下创建一个文件emp_data.txt：

1201,gopal,manager,50000,TP
1202,manisha,preader,50000,TP
1203,kalil,php dev,30000,AC
1204,prasanth,php dev,30000,AC
1205,kranthi,admin,20000,TP
1206,satishp,grpdes,20000,GR

1.2．手动创建mysql中的目标表

mysql> USE userdb;
mysql> CREATE TABLE employee ( 
   id INT NOT NULL PRIMARY KEY, 
   name VARCHAR(20), 
   deg VARCHAR(20),
   salary INT,
   dept VARCHAR(10));

1.3．执行导出命令

bin/sqoop export \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password hadoop \
--table employee \
--export-dir /emp/

1.4．相关配置参数

--input-fields-terminated-by '\t'

指定文件中的分隔符

--columns

选择列并控制它们的排序。当导出数据文件和目标表字段列顺序完全一致的时候可以不写。否则以逗号为间隔选择和排列各个列。没有被包含在–columns后面列名或字段要么具备默认值，要么就允许插入空值。否则数据库会拒绝接受sqoop导出的数据，导致Sqoop作业失败

--export-dir

导出目录，在执行导出的时候，必须指定这个参数，同时需要具备–table或–call参数两者之一，–table是指的导出数据库当中对应的表，

–call是指的某个存储过程。

--input-null-string --input-null-non-string

如果没有指定第一个参数，对于字符串类型的列来说，“NULL”这个字符串就回被翻译成空值，如果没有使用第二个参数，无论是“NULL”字符串还是说空字符串也好，对于非字符串类型的字段来说，这两个类型的空串都会被翻译成空值。比如：

--input-null-string "\\N" --input-null-non-string "\\N"

2．更新导出（updateonly模式）

2.1．参数说明

– update-key，更新标识，即根据某个字段进行更新，例如id，可以指定多个更新标识的字段，多个字段之间用逗号分隔。

– updatemod，指定updateonly（默认模式），仅仅更新已存在的数据记录，不会插入新纪录。

2.2．准备HDFS数据

在HDFS “/updateonly_1/”目录的下创建一个文件updateonly_1.txt：

1201,gopal,manager,50000
1202,manisha,preader,50000
1203,kalil,php dev,30000

2.3．手动创建mysql中的目标表

mysql> USE userdb;
mysql> CREATE TABLE updateonly ( 
   id INT NOT NULL PRIMARY KEY, 
   name VARCHAR(20), 
   deg VARCHAR(20),
   salary INT);

2.4．先执行全部导出操作

bin/sqoop export \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password hadoop \
--table updateonly \
--export-dir /updateonly_1/

2.5．查看此时mysql中的数据

可以发现是全量导出，全部的数据

2.6．新增一个文件

updateonly_2.txt。修改了前三条数据并且新增了一条记录。上传至/updateonly_2/目录下：

1201,gopal,manager,1212
1202,manisha,preader,1313
1203,kalil,php dev,1414
1204,allen,java,1515

2.7．执行更新导出

bin/sqoop export \
--connect jdbc:mysql://node-1:3306/userdb \
--username root --password hadoop \
--table updateonly \
--export-dir /updateonly_2/ \
--update-key id \
--update-mode updateonly

2.8．查看最终结果

虽然导出时候的日志显示导出4条记录：

但最终只进行了更新操作

3．更新导出（allowinsert模式)

3.1．参数说明

– update-key，更新标识，即根据某个字段进行更新，例如id，可以指定多个更新标识的字段，多个字段之间用逗号分隔。

– updatemod，指定allowinsert，更新已存在的数据记录，同时插入新纪录。实质上是一个insert & update的操作。

3.2．准备HDFS数据

在HDFS “/allowinsert_1/”目录的下创建一个文件allowinsert_1.txt：

1201,gopal,manager,50000
1202,manisha,preader,50000
1203,kalil,php dev,30000

3.3．手动创建mysql中的目标表

mysql> USE userdb;
mysql> CREATE TABLE allowinsert ( 
   id INT NOT NULL PRIMARY KEY, 
   name VARCHAR(20), 
   deg VARCHAR(20),
   salary INT);

3.4．先执行全部导出操作

bin/sqoop export \
--connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password hadoop \
--table allowinsert \
--export-dir /allowinsert_1/

3.5．查看此时mysql中的数据

可以发现是全量导出，全部的数据

3.6．新增一个文件

allowinsert_2.txt。修改了前三条数据并且新增了一条记录。上传至/ allowinsert_2/目录下：

1201,gopal,manager,1212
1202,manisha,preader,1313
1203,kalil,php dev,1414
1204,allen,java,1515

3.7．执行更新导出

bin/sqoop export \
--connect jdbc:mysql://node-1:3306/userdb \
--username root --password hadoop \
--table allowinsert \
--export-dir /allowinsert_2/ \
--update-key id \
--update-mode allowinsert

3.8．查看最终结果

导出时候的日志显示导出4条记录：

数据进行更新操作的同时也进行了新增的操作

五、 Sqoop job作业

1． job 语法

$ sqoop job (generic-args) (job-args)
   [-- [subtool-name] (subtool-args)]

$ sqoop-job (generic-args) (job-args)
   [-- [subtool-name] (subtool-args)]

2．创建job

在这里，我们创建一个名为itcastjob，这可以从RDBMS表的数据导入到HDFS作业。

下面的命令用于创建一个从DB数据库的emp表导入到HDFS文件的作业

bin/sqoop job --create itcastjob -- import --connect jdbc:mysql://node-1:3306/userdb \
--username root \
--password hadoop \
--target-dir /sqoopresult333 \
--table emp --m 1

#注意import前要有空格

3．验证job

‘–list’ 参数是用来验证保存的作业。下面的命令用来验证保存Sqoop作业的列表。

bin/sqoop job --list
```![在这里插入图片描述](https://img-blog.csdnimg.cn/20190830184311483.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly90dXlvdXhpYW5ibG9ncy5ibG9nLmNzZG4ubmV0,size_16,color_FFFFFF,t_70)

![在这里插入图片描述](https://img-blog.csdnimg.cn/20190830184257280.png)



#### 4． 检查job

**‘--show’** 参数用于检查或验证特定的工作，及其详细信息。以下命令和样本输出用来验证一个名为itcastjob的作业。

```shell
bin/sqoop job --show itcastjob

5．执行job

‘–exec’ 选项用于执行保存的作业。下面的命令用于执行保存的作业称为itcastjob。

bin/sqoop job --exec itcastjob

6．免密执行job

sqoop在创建job时，使用–password-file参数，可以避免输入mysql密码，如果使用–password将出现警告，并且每次都要手动输入密码才能执行job，sqoop规定密码文件必须存放在HDFS上，并且权限必须是400。

#注意不要自己手写入密码，执行以下密码
echo -n "123456" > itcastmysql.pwd

并且检查sqoop的sqoop-site.xml是否存在如下配置：

<property>
    <name>sqoop.metastore.client.record.passwordname>
    <value>truevalue>
    <description>If true, allow saved passwords in the metastore.
    description>
property>

bin/sqoop job --create itcastjob1 -- import --connect jdbc:mysql://cdh-1:3306/userdb \
--username root \
--password-file /input/sqoop/pwd/itcastmysql.pwd \
--target-dir /sqoopresult333 \
--driver com.mysql.jdbc.Driver \
--table emp --m 1

你可能感兴趣的:(大数据工具)

5118优惠券优惠链接是多少？5118优惠码怎么用？白杨SEO营销百度
5118是一个大数据工具，可以提供多种功能，如关键词挖掘、行业词库、站群权重监控、关键词排名监控、指数词、流量词挖掘工具等，是做SEO排名工作人员和网站运营者的必备工具！5118优惠券优惠链接是多少？5118优惠券优惠链接是：https://www.5118.com?promote=baiyang你也可以在使用时填写5118优惠码【baiyang】,用上它，可以有10%左右的优惠！5118优惠码怎
大数据技术汇总转身成为了码农大数据 hadoop hive spark 数据仓库
HadoopHadoop入门概述Hadoop运行模式介绍HadoopHDFS的运行流程HadoopMapReduce的运行流程Hadoopyarn的运行流程Hadoop内HDFS、MapReduce和YARN交互过程HadoopHDFS常用命令HadoopYARN常用命令Hive大数据工具Hive介绍大数据工具Hive架构设计原理大数据之Hive常用命令大数据之Hive常用聚合函数大数据之Hive
一文读懂大数据工具Phoenix：让你的数据管理更高效！知识分享小能手学习心得体会大数据大数据数据库数据分析
介绍：Phoenix，最初由saleforce开发并开源，后成为Apache基金会的顶级项目。它是一个构建在HBase上的SQL层，可以使用标准的JDBCAPIs而不是HBase客户端APIs来创建表、插入数据和查询HBase中的数据。此外，Phoenix还完全使用Java编写，作为HBase内嵌的JDBC驱动，将SQL查询转换为一个或多个HBase扫描。Phoenix的主要特点包括：将SQL查询
湖仓架构的演进土豆马铃薯数据湖架构大数据
1.数据仓库架构的历史演进起初，业界数据处理首选方式是数仓架构。通常数据处理的流程是把一些业务数据库，通过ETL的方式加载到DataWarehouse中，再在前端接入一些报表或者BI的工具去展示。数据仓库概念是Inmon于1990年提出并给出了完整的建设方法。随着互联网时代来临，数据量暴增，开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代，架构上并没有根本的区别，可以把这个架构叫
对比Pig、Hive和SQL，浅看大数据工具之间的差异 MayerBin
【编者按】在笔者看来，语言和工具之争从来都没有太大的意义，所谓存在既有道理，如何在场景下做出最合适的选择才至关重要。本文，DeZyre公司专家ManishaNandyMazumder对比了Pig、Hive和SQL的区别，并为读者浅谈了一些选择标准。以下为译文有人说对于大数据分析来说Hadoop才是炙手可热的新技术，SQL虽然久经考验但已经有些过时了。这话说得不错，但有非常多的项目都用Hadoop作
大数据大价值 X_dmword 数据分析大数据数据分析案例
大数据的大价值：大数据五大成功案例深度解析2017年09月24日17:44:18阅读数：2719大数据的热潮并未有消褪迹象，相反，包括航空、金融、电商、政府、电信、电力甚至F1赛车等各个行业的企业都在纷纷掘金大数据。可以看出，在推动大数据企业应用方面，真正看到大数据潜在商业价值的企业比大数据技术厂商还要着急。例如IT经理网曾经报道过沃尔玛大数据实验室直接参与到大数据工具的开发和开源工作中。但是在国
EXCEL竟靠这招碾压大数据，网友:以前不会用真是瞎了眼了喜欢下厨的数据分析师
曾几何时，EXCEL在数据界可谓是独树一帜，引领风骚，在职场中无人不知，无人不晓。但是随着大数据的出现，EXCEL便风光不再，江河日下，一度被其他大数据工具挤到了后面，逐渐被边缘化了。而我是一个EXCEL忠实用户，从最开始的EXCEL2003用到了最新的EXCEL2016，每一次更新换代都感觉EXCEL的功能一次比一次强大，也更加地人性化。但是面对大数据的来势汹汹，EXCEL毕竟只是轻量级的工具，
大数据技术4：Lambda和Kappa架构区别 Java架构何哥大数据治理 Lambda和Kappa区别 Lambda架构 Kappa架构
前言：在大数据处理领域，两种突出的数据架构已成为处理大量数据的流行选择：Lambda架构和Kappa架构。这些架构为实时处理和批处理提供了强大的技术解决方案，使组织能够从其数据中获得有价值的见解。随着互联网时代来临，数据量暴增，开始使用大数据工具来替代经典数仓中的传统工具。此时仅仅是工具的取代，架构上并没有根本的区别，可以把这个架构叫做离线大数据架构。后来随着业务实时性要求的不断提高，人们开始在离
同样都是打工人，为何别人会建模，而你只会用EXCEL? 喜欢下厨的数据分析师
小李是一家外企的数据分析师，平时处理的都是亿万行级别数据量的报表，为了可以胜任这份工作，小李早早地就学会了各种大数据工具，而且做出来的数据模型高度自动化，效率极高，为公司创造了非常大的价值。因为小李出色的表现，公司年底计划把他提升为公司的数据总监。而小王是一家电商公司的数据专员，除了EXCEL其他的数据工具均不会，如果遇到数据量大的表格，小王就要和同事们一起去加班完成了。因此小王的工作效率非常低，
如何优化 Elasticsearch 以获得更好的搜索性能 vvoennvv elasticsearch 大数据搜索引擎
当今世界，数据大量生成，为了利用数据进行生产，需要对提取的数据进行转换、存储、维护、管理和分析。这些过程只有通过大数据工具所基于的分布式架构和并行处理机制才能实现。Elasticsearch是最流行的开源数据存储之一，可以满足大多数用例。Elasticsearch是一个分布式数据存储和搜索引擎，具有容错和高可用性功能。为了充分利用Elasticsearch的搜索功能，需要正确配置。由于一个简单的配
大数据工具-kafkaUi-lite 人猿宇宙大数据-玩转数据-工具大数据
1、kafkaUI-litev1.0已经发布，此版本更新内容包括：可以实现kafak/zookooper/redis的界面化操作kafka:多环境管理、生产消息、消费消息、创建topic、删除topiczookeeper：多环境管理、查看节点、查看节点数据redis:多环境管理、查询数据2、kafkaUI-lite介绍史上最轻便好用的kafkaui界面工具，提供了对kafka的界面化操作可以在界面
Hadoop和大数据：60款顶级开源工具 yoku酱
说到处理大数据的工具，普通的开源解决方案（尤其是ApacheHadoop）堪称中流砥柱。弗雷斯特调研公司的分析师MikeGualtieri最近预测，在接下来几年，“100%的大公司”会采用Hadoop。MarketResearch的一份报告预测，到2011年，Hadoop市场会以58%的年复合增长率（CAGR）高速增长；到2020年，市场产值会超过10亿美元。IBM更是非常看好开源大数据工具，派出
大数据工具千千万，到底谁才是最强王者？丨程序之道丨
外面有成千上万的大数据工具。它们都承诺可以为你节省时间和资金，并帮助发掘之前从来见过的业务洞察力。虽然确实如此，可是面对那么多的选择，想理清这么多的工具谈何容易。哪一种工具适合你的技能组合?哪一种工具适合你的项目?为了替你节省一点时间，并帮助你首次选对工具，我们列出了我们青睐的几款数据工具，涉及数据提取、存储、清理、挖掘、可视化、分析和整合等领域。数据存储和管理如果你准备处理大数据，就要考虑该如何
Maxcompute批量分区删除 Wesin
ps:Maxcompute数据仓库建设的分享。Maxcompute大致介绍下Maxcompute,Maxcompute是阿里的一个大数据工具，基于Maxcompute阿里搭建了一个Datawork的数据平台。可以很“方便”的从各种数据源导入数据，做数据分析、机器学习等。“方便"之所以加个引号，是因为某些方面的确很方便，当然业务实在复杂了，很多时候也存在用的很难受的地方。更多介绍去阿里官网了解吧。回
HBase入门精要独行侠梦 hbase笔记 java hbase hadoop 大数据数据库
前言HBase，是基于GoogleBigtable实现的开源、分布式、可伸缩的列式存储数据库。诞生于Hadoop，也是Hadoop生态的重要一环，如今作为一个Apache顶级项目，早已经不能将其仅仅看作Hadoop的一部分，基于Storm，Spark等框架的数据处理方案中，都有它的身影，可以说它已经成为大数据工具箱中非常重要的一种数据存储工具，也因此必然会被很纳入很多人学习计划。对于任何一个新技术
100款大数据框架和工具汇总羋学僧
本文列举出全球100款大数据工具，包括数据存储、数据计算、资源调度以及可视化等软件，这里面肯定有你需要的。如果你有更好的大数据软件推荐，欢迎留言啊。1、TalendOpenStudio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次，其开源软件提供了数据整合功能。其用户包括美国国际集团（A
如何使用固态硬盘+硬盘盒子+U盘创造移动双系统 JSU_曾是此间年少 ubuntu 笔记
本文背景这学期上了一节鸟水课《大数据实践》，老师要求扩展硬盘盒，以部署大数据工具进行机器挖掘等大数据领域工作参考视频链接：无需启动盘，用虚拟机将ubuntu安装到移动硬盘上_哔哩哔哩_bilibili项目使用设备1.绿联（urgeen）M.2移动硬盘盒子NVMe/SATA双协议Type-C3.2硬盘盒子2.梵想（FANXIANG）1TBSSD固态硬盘M.2接口PCIe4.0（新的比较好）3.64G
163 胡聪勇 23 调查报告（大数据）小年糕i
帆布鞋如何进行网络营销？大数据工具：百度指数我通过百度指数分析得出以下结论：地域分布1.人群主要分布在东南方，广东人最多。西北地区则比较少。所以我认为应把重点放在东南地区，物流仓库等也应聚集在这片区域。资讯指数2.帆布鞋的热度在春季较为突出。需求图谱3.帆布鞋相关词搜索最高的是帆布鞋品牌排行，其次为板鞋，品牌。所以说人们以帆布鞋的品牌来作为依据，应该多注重品牌方面。近半年整体趋势4.发现帆布鞋的整
excel中使用python代码 hqw921054 python 人工智能 r语言
这次我们会介绍如何使用xlwings将Python和Excel两大数据工具进行集成，更便捷地处理日常工作。说起Excel，那绝对是数据处理领域王者般的存在，尽管已经诞生三十多年了，现在全球仍有7.5亿忠实用户，而作为网红语言的Python，也仅仅只有700万的开发人员。Excel是全世界最流行的编程语言。对，你没看错，自从微软引入了LAMBDA定义函数后，Excel已经可以实现编程语言的算法，因此
如何在Excel中调用Python脚本，实现数据自动化处理 Wang_AI 编程语言 python 数据分析 eclipse 人工智能
这次我们会介绍如何使用xlwings将Python和Excel两大数据工具进行集成，更便捷地处理日常工作。说起Excel，那绝对是数据处理领域王者般的存在，尽管已经诞生三十多年了，现在全球仍有7.5亿忠实用户，而作为网红语言的Python，也仅仅只有700万的开发人员。Excel是全世界最流行的编程语言。对，你没看错，自从微软引入了LAMBDA定义函数后，Excel已经可以实现编程语言的算法，因此
大数据工具比较：R 语言和 Spark 谁更胜一筹？ weixin_34161083 大数据 r语言人工智能
本文有两重目的，一是在性能方面快速对比下R语言和Spark，二是想向大家介绍下Spark的机器学习库背景介绍由于R语言本身是单线程的，所以可能从性能方面对比Spark和R并不是很明智的做法。即使这种比较不是很理想，但是对于那些曾经遇到过这些问题的人，下文中的一些数字一定会让你很感兴趣。你是否曾把一个机器学习的问题丢到R里运行，然后等上好几个小时？而仅仅是因为没有可行的替代方式，你只能耐心地等。所以
学习大数据月薪过万的秘密金光闪闪耶
什么是大数据？大家对大数据的定义不尽相同，但作为学习者和使用者来说，如何使用大数据工具和技术从大数据中提取、分析出有价值的信息和数据，指导各个行业用户做出准确决策才是更值得关心的。大数据好就业吗？根据全球最顶尖管理咨询公司麦肯锡(McKinsey)出具的一份详细分析报告显示，预计到2018年，大数据或者数据工作者的岗位需求将达到150万!大数据学习扣裙：740041381大数据工资高吗？事实上，大
全球100款大数据工具汇总大数据架构师
1、TalendOpenStudio是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次，其开源软件提供了数据整合功能。其用户包括美国国际集团（AIG）、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。2、DYSON探码科技自主研发的DYSON智能分析系统，可以
【大数据工具】Zookeeper 分布式集群和伪分布式安装程序员胖五大数据工具安装 java-zookeeper zookeeper 分布式
Zookeeper安装zookeeper安装包下载地址：https://archive.apache.org/dist/zookeeper/1.伪分布式部署说明：伪分布即在一台服务器上通过不同端口模拟出分布式集群的效果，分布式一般3台起，一主两从。说明：伪分布安装在了Windows开辟的虚拟机上，主机名为bigdata1.将zookeeper安装包zookeeper-3.4.10.tar.gz导入
【大数据工具】HBase 集群搭建与基本使用程序员胖五大数据工具安装 hbase hadoop 大数据
HBase集群搭建HBase安装包下载地址：https://archive.apache.org/dist/hbase/安装HBase的前提：ZooKeeper集群OKHadoop集群OK1.HBase集群安装1.将HBase软件包上传至Hadoop0解压并重命名使用FileZilla将hbase-1.3.1-bin.tar.gz上传至Hadoop0的/software/目录下解压hbase-1.
【大数据工具】Hive 安装程序员胖五大数据工具安装 hive 大数据 mysql
Hive环境搭建与基本使用Hive安装包下载地址：https://dlcdn.apache.org/hive/注：安装Hive前要先安装好MySQL1.MySQL安装MySQL安装包下载地址：https://dev.mysql.com/downloads/mysql/archives/community/MySQL%20::%20Download%20MySQL%20Community%20Ser
【大数据工具】Flume、Sqoop、Azkaban 安装程序员胖五大数据工具安装大数据 flume sqoop azkaban
1.Flume1、上传解压重命名tar-zxvfapache-flume-1.9.0-bin.tar.gzmvapache-flume-1.9.0-binflume2、修改配置文件cdflume/conf/mvflume-env.sh.templateflume-env.sh#flume-env.sh配置JavaexportJAVA_HOME=/software/jdk2.Sqoop1、上传解压重
【大数据工具】Kafka伪分布式、分布式安装和Kafka-manager工具安装与使用程序员胖五大数据工具安装 kafka 大数据分布式 Kafka-manager
Kafka安装Kafka安装包下载地址：https://archive.apache.org/dist/kafka/1.Kafka伪分布式安装1.上传并解压Kafka安装包使用FileZilla或其他文件传输工具上传Kafka安装包：kafka_2.11-0.10.0.0.tgz解压安装包[root@bigdatasoftware]#tar-zxvfkafka_2.11-0.10.0.0.tgz2
【大数据工具】Spark 伪分布式、分布式集群搭建程序员胖五大数据工具安装 spark 大数据分布式
Spark集群搭建Spark安装包下载地址：https://archive.apache.org/dist/spark/1.Spark伪分布式安装安装前提：安装Spark前需要先安装好JDK1.上传并解压Spark安装包使用fileZilla或其他文件传输工具上传Spark安装包：spark-2.1.0-bin-hadoop2.7.tgz解压安装包[root@bigdatasoftware]#ta
【大数据工具】Flink集群搭建程序员胖五大数据工具安装大数据 flink scala
Flink集群安装1.单机版Flink安装与使用1、下载Flink安装包并上传至服务器下载flink-1.10.1-bin-scala_2.11.tgz并上传至Hadoop0/software下2、解压[root@hadoop0software]#tar-zxvfflink-1.10.1-bin-scala_2.11.tgz3、创建快捷方式[root@hadoop0software]#ln-sfl
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S

Sqoop

Apache Sqoop

二、 Apache Sqoop

1． sqoop介绍

2． sqoop安装

三、 Sqoop导入

1． 全量导入mysql表数据到HDFS

2． 全量导入mysql表数据到HIVE

2.1． 方式一：先复制表结构到hive中再导入数据

2.2． 方式二：直接复制表结构数据到hive中

3． 导入表数据子集(where过滤)

4． 导入表数据子集(query查询)

5． 增量导入

5.1． Append模式增量导入

5.2． Lastmodified模式增量导入

5.3． Lastmodified模式:append、merge-key

四、 Sqoop导出

1． 默认模式导出HDFS数据到mysql

1.1． 准备HDFS数据

1.2． 手动创建mysql中的目标表

1.3． 执行导出命令

1.4． 相关配置参数

2． 更新导出（updateonly模式）

2.1． 参数说明

2.2． 准备HDFS数据

2.3． 手动创建mysql中的目标表

2.4． 先执行全部导出操作

2.5． 查看此时mysql中的数据

2.6． 新增一个文件

2.7． 执行更新导出

2.8． 查看最终结果

3． 更新导出（allowinsert模式)

3.1． 参数说明

3.2． 准备HDFS数据

3.3． 手动创建mysql中的目标表

3.4． 先执行全部导出操作

3.5． 查看此时mysql中的数据

3.6． 新增一个文件

3.7． 执行更新导出

3.8． 查看最终结果