wjl7813

sqoop 基础

Sqoop

产生背景

1) RDBMS ==> Hadoop

file ==> load hive

shell ==> file ==> HDFS

MapReduce: DBInputFormat TextOutputFormat

2) Hadoop ==> RDBMS

MapReduce: TextInputFormat DBOutputFormat

存在的问题

1) MR 麻烦

2) 效率低：新的业务线写一个MR

==> 抽取一个框架

1) RDBMS层面的: driver/username/password/url/database/table/sql

2) Hadoop层面的：hdfs path/分隔符/mappers/reducers

3) 扩展一：当有一个新的业务线接入以后，那么我们只需要将新的业务线对应的参数传递给mapreduce即可

A) hadoop jar的方式来提交

B) 动态的根据业务线传入参数

4) 扩展二：OK了吗？爽了吗？ ==> 工匠精神

思路是什么？ ==> WebUI + DB Configuration ==> UIUE

使用Spring Boot微服务建构大数据平台

Sqoop是什么

Apache Sqoop(TM) is a tool designed for

efficiently transferring bulk data

between Apache Hadoop and structured datastores

such as relational databases(RDBMS 关系型数据库).

RDBMS <==> Hadoop(HDFS/Hive/HBase....)

Note that 1.99.7 is not compatible with 1.4.6 and not feature complete,

it is not intended for production deployment.

sqoop1和sqoop2是不兼容，就好比struts1和struts2

Sqoop: SQL-to-Hadoop

SQoops

连接传统数据库到Hadoop之间的一个桥梁

MapReduce：一定有Mapper和Reduce吗？

使用mapreduce来完成导入操作，是否需要reduce？

sqoop1架构

sqoop2 架构:

相关官方文档

http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.7.0/SqoopUserGuide.html

http://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html

测试环境相关：

[hadoop@node1 ~]$ echo $HIVE_HOME;echo $HADOOP_HOME

/home/hadoop/app/hive-1.1.0-cdh5.7.0

/home/hadoop/app/hadoop-2.6.0-cdh5.7.0

---- sqoop 安装配置===

[hadoop@node1 software]$ tar xf sqoop-1.4.6-cdh5.7.0.tar.gz -C /home/hadoop/app/

添加 sqoop的环境变量

[hadoop@node1 ~]$ cat /home/hadoop/.bash_profile |grep SQOOP

export SQOOP_HOME=/home/hadoop/app/sqoop-1.4.6-cdh5.7.0

export PATH=$PATH:$SQOOP_HOME/bin

修改

[hadoop@node1 conf]$ pwd

/home/hadoop/app/sqoop-1.4.6-cdh5.7.0/conf

[hadoop@node1 conf]$ cp -rp sqoop-env-template.sh sqoop-env.sh

[hadoop@node1 conf]$ echo $HIVE_HOME ;echo $HADOOP_HOME

/home/hadoop/app/hive-1.1.0-cdh5.7.0

/home/hadoop/app/hadoop-2.6.0-cdh5.7.0

echo "export HADOOP_COMMON_HOME=$HADOOP_HOME" >> sqoop-env.sh

echo "export HADOOP_MAPRED_HOME=$HADOOP_HOME" >> sqoop-env.sh

echo "export HIVE_HOME=$HIVE_HOME" >> sqoop-env.sh

# 如果需要把RDBMS导入到HBASE的时候，需要设置 export HBASE_HOME=...

# 因为环境中没有安装zookeeper，也不需要设置export ZOOCFGDIR=...

[hadoop@node1 ~]$ sqoop help

Warning: /home/hadoop/app/sqoop-1.4.6-cdh5.7.0/../hcatalog does not exist! HCatalog jobs will fail.

Please set $HCAT_HOME to the root of your HCatalog installation.

Warning: /home/hadoop/app/sqoop-1.4.6-cdh5.7.0/../accumulo does not exist! Accumulo imports will fail.

Please set $ACCUMULO_HOME to the root of your Accumulo installation.

18/02/21 17:30:53 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6-cdh5.7.0

usage: sqoop COMMAND [ARGS]

Available commands:

codegen Generate code to interact with database records

create-hive-table Import a table definition into Hive

eval Evaluate a SQL statement and display the results

export Export an HDFS directory to a database table

help List available commands

import Import a table from a database to HDFS

import-all-tables Import tables from a database to HDFS

import-mainframe Import datasets from a mainframe server to HDFS

job Work with saved jobs

list-databases List available databases on a server

list-tables List available tables in a database

merge Merge results of incremental imports

metastore Run a standalone Sqoop metastore

version Display version information

See 'sqoop help COMMAND' for information on a specific command.

上面的报错信息，可以不用在意。

如果在意的话, 可以修改$ZOOKEEPER_HOME/bin/configure-sqoop 注释掉HCatalog，Accumulo检查

$ZOOKEEPER_HOME

$ACCUMULO_HOME

这些warn如果用到了可以加到环境变量，没有用到也没关系

[hadoop@node1 software]$ cp -rp mysql-connector-java-5.1.40-bin.jar /home/hadoop/app/sqoop-1.4.6-cdh5.7.0/lib/

[hadoop@node1 software]$ unzip java-json.jar.zip

[hadoop@node1 software]$ cp -rp java-json.jar /home/hadoop/app/sqoop-1.4.6-cdh5.7.0/lib/

unzip /tmp/java-json.jar.zip

# 将mysql库中的表导入到hdfs中时，报错缺包java-json.jar

# 该包的下载地址：http://www.java2s.com/Code/Jar/j/Downloadjavajsonjar.htm

# 存在BUG，需要复制包，否则sqoop import到hive的时候报错

[hadoop@node1 ~]$ cp -rp /home/hadoop/app/hive-1.1.0-cdh5.7.0/lib/hive-common-1.1.0-cdh5.7.0.jar /home/hadoop/app/sqoop-1.4.6-cdh5.7.0/lib/

[hadoop@node1 ~]$ cp -rp /home/hadoop/app/hive-1.1.0-cdh5.7.0/lib/hive-shims-* /home/hadoop/app/sqoop-1.4.6-cdh5.7.0/lib/

sqoop list-databases --help 查看帮助

sqoop list-databases \

--connect jdbc:mysql://node1.oracle.com:3306 \

--username root \

--password oracle

Caused by: java.sql.SQLException: Access denied for user 'root'@'node1.oracle.com' (using password: YES)

grant all privileges on *.* to 'root'@'node1.oracle.com 'identified by 'oracle' with grant option;

flush privileges;

sqoop list-tables \

--connect jdbc:mysql://node1.oracle.com:3306/employees \

--username root \

--password oracle

sqoop list-tables \

--connect jdbc:oracle:thin:@192.168.137.251:1521:devdb \

--username hr \

--password hr

[hadoop@node1 ~]$ sqoop list-tables --connect jdbc:oracle:thin:@192.168.137.251:1521:devdb --username hr --password hr

MySQL数据导入到HDFS

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table emp

Oracle数据导入到HDFS 中

sqoop 默认导入的分片数量是4

sqoop import \

--connect jdbc:oracle:thin:@192.168.137.251:1521:devdb \

--username hr \

--password hr \

--table EMPLOYEES

[hadoop@node1 ~]$ hadoop fs -ls

Found 2 items

drwxr-xr-x - hadoop supergroup 0 2018-02-23 15:52 EMPLOYEES

drwxr-xr-x - hadoop supergroup 0 2018-02-23 15:44 emp

[hadoop@node1 ~]$ hadoop fs -ls /user/hadoop/

Found 2 items

drwxr-xr-x - hadoop supergroup 0 2018-02-23 15:52 /user/hadoop/EMPLOYEES

drwxr-xr-x - hadoop supergroup 0 2018-02-23 15:44 /user/hadoop/emp

[hadoop@node1 ~]$ hadoop fs -ls emp

Found 5 items

-rw-r--r-- 1 hadoop supergroup 0 2018-02-23 15:44 emp/_SUCCESS

-rw-r--r-- 1 hadoop supergroup 93 2018-02-23 15:44 emp/part-m-00000

-rw-r--r-- 1 hadoop supergroup 95 2018-02-23 15:44 emp/part-m-00001

-rw-r--r-- 1 hadoop supergroup 194 2018-02-23 15:44 emp/part-m-00002

-rw-r--r-- 1 hadoop supergroup 281 2018-02-23 15:44 emp/part-m-00003

[hadoop@node1 ~]$ hadoop fs -text emp/part-m-00003

7839,KING,PRESIDENT,null,1981-11-17,5000,null,10

7844,TURNER,SALESMAN,7698,1981-09-08,1500,0,30

7876,ADAMS,CLERK,7788,1987-07-13,1100,null,20

7900,JAMES,CLERK,7698,1981-12-03,950,null,30

7902,FORD,ANALYST,7566,1981-12-03,3000,null,20

7934,MILLER,CLERK,7782,1982-01-23,1300,null,10

作业：hadoop fs -ls和hadoop fs -ls / 的区别？

控制并行分片数量和

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table emp \

--delete-target-dir \

--num-mappers 4

[hadoop@node1 ~]$ hadoop fs -text emp/part-m-00000

7369,SMITH,CLERK,7902,1980-12-17,800,null,20

7499,ALLEN,SALESMAN,7698,1981-02-20,1600,300,30

7521,WARD,SALESMAN,7698,1981-02-22,1250,500,30

7566,JONES,MANAGER,7839,1981-04-02,2975,null,20

7654,MARTIN,SALESMAN,7698,1981-09-28,1250,1400,30

7698,BLAKE,MANAGER,7839,1981-05-01,2850,null,30

7782,CLARK,MANAGER,7839,1981-06-09,2450,null,10

7788,SCOTT,ANALYST,7566,1987-07-13,3000,null,20

7839,KING,PRESIDENT,null,1981-11-17,5000,null,10

7844,TURNER,SALESMAN,7698,1981-09-08,1500,0,30

7876,ADAMS,CLERK,7788,1987-07-13,1100,null,20

7900,JAMES,CLERK,7698,1981-12-03,950,null,30

7902,FORD,ANALYST,7566,1981-12-03,3000,null,20

7934,MILLER,CLERK,7782,1982-01-23,1300,null,10

--控制 mapreduce-job-name 名字

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table emp \

--delete-target-dir \

--num-mappers 4 \

--mapreduce-job-name emp-all \

--fields-terminated-by '\t' \

--null-non-string '0' \

--null-string ''

---控制选择那些列需要导入HDFS 中

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table emp \

--delete-target-dir \

--num-mappers 4 \

--mapreduce-job-name emp-all \

--columns "EMPNO,ENAME,JOB,SAL,COMM"

[hadoop@node1 ~]$ hadoop fs -text emp/part-m-00000

7369,SMITH,CLERK,800,null

7499,ALLEN,SALESMAN,1600,300

---控制导入指定HDFS中路径

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table emp \

--delete-target-dir \

--num-mappers 4 \

--mapreduce-job-name emp-all \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--target-dir EMP_COLUMN

---指定过滤条件导入到HDFS 中

需要注意单双引号的使用(双引号需要转义)

使用 --e或是 --query 都可以

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--delete-target-dir \

--num-mappers 1 \

--mapreduce-job-name emp-query \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--target-dir EMP_COLUMN \

--query "select * from emp where sal > 2000"

Cannot specify --query and --table together. 注意该错误

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--delete-target-dir \

--num-mappers 1 \

--mapreduce-job-name emp-query \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--target-dir EMP_COLUMN \

--query "select * from emp where sal > 2000 and \$CONDITIONS"

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--num-mappers 1 \

--delete-target-dir \

--mapreduce-job-name emp-query1 \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--target-dir EMP_QUERY1 \

--query 'select * from emp where sal>2000 and $CONDITIONS'

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--num-mappers 1 \

--delete-target-dir \

--mapreduce-job-name emp-query2 \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--target-dir EMP_QUERY2 \

--e 'select * from emp where sal>2000 and $CONDITIONS'

作业：

1) 将输出文件设置为parquet或者sequencefile格式

2) 对输出文件进行压缩

3) 将多个表的统计结果导出到HDFS

4) 导出没有主键的表，并且要使用多个mapper

===将输出文件设置为parquet或者sequencefile格式==

sqoop 默认导出的文件格式是 textfile

--as-avrodatafile

--as-parquetfile

--as-sequencefile

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table emp \

--num-mappers 4 \

--delete-target-dir \

--mapreduce-job-name emp_import_parquet \

--target-dir emp_import_parquet \

--as-parquetfile

===对输出文件进行压缩==

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table emp \

--num-mappers 4 \

--delete-target-dir \

--mapreduce-job-name emp_import_parquet_compress \

--target-dir emp_import_parquet_compress \

--as-parquetfile \

--compression-codec org.apache.hadoop.io.compress.SnappyCodec \

--fields-terminated-by '\t'

导入到HDFS中的如果文件格式是parquet的话，是不支持 BZip 压缩的

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table emp \

--num-mappers 4 \

--delete-target-dir \

--mapreduce-job-name emp_import_bzip2_compress \

--target-dir emp_import_bizip2_compress \

--compression-codec org.apache.hadoop.io.compress.BZip2Codec \

--fields-terminated-by '\t'

=====多个表的统计结果导出到HDFS====

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--num-mappers 1 \

--delete-target-dir \

--mapreduce-job-name emp-query3 \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--target-dir EMP_QUERY3 \

--e 'select * from emp e,dept d where e.deptno=d.deptno and e.sal > 2000 and $CONDITIONS'

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--num-mappers 1 \

--delete-target-dir \

--mapreduce-job-name emp--dept-join1 \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--target-dir emp_dept_join1 \

--fields-terminated-by '\t' \

--null-non-string '0' \

--null-string '' \

--e 'select * from emp e join dept d on e.deptno = d.deptno and e.sal > 2000 and $CONDITIONS'

and $CONDITIONS

====导入没有主键的表到 HDFS 中===

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table salgrage

ERROR tool.ImportTool: Error during import: No primary key could be found for table salgrage. Please specify one with --split-by or perform a sequential import with '-m 1'.

1) map = 4

2) 没主键，如何切分数据？

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table salgrage \

--split-by GRADE \

--delete-target-dir \

--num-mappers 2

作业：hadoop fs -ls和hadoop fs -ls / 的区别

测试：

-m的用法

删除目标文件

设置mr作业的名称

只抽取指定字段

设置指定路径

sqoop import \

--connect jdbc:mysql://hadoop000:3306/sqoop \

--username root \

--password root \

--table emp \

-m 1 \

--delete-target-dir \

--mapreduce-job-name emp-all \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--target-dir EMP_COLUMN \

--where "SAL>2000"

sqoop import --connect jdbc:mysql://hadoop000:3306/sqoop --username root --password root -m 1 --delete-target-dir --mapreduce-job-name emp-all --columns "EMPNO,ENAME,JOB,SAL,COMM" --target-dir EMP_COLUMN --query 'select * from emp where sal>2000 and $CONDITIONS'

作业：

1) 将输出文件设置为parquet或者sequencefile格式

2) 对输出文件进行压缩

3) 将多个表的统计结果导出到HDFS

4) 导出没有主键的表，并且要使用多个mapper

====== sqoop 导入处理分隔符和 null 值问题 ==

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table emp \

--num-mappers 1 \

--delete-target-dir \

--mapreduce-job-name emp-split \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--target-dir EMP_SPLIT \

--fields-terminated-by '\t'

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table emp \

--num-mappers 1 \

--delete-target-dir \

--mapreduce-job-name emp-split1 \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--target-dir EMP_SPLIT1 \

--fields-terminated-by '\t' \

--null-non-string '0' \

--null-string ''

===sqoop 导入时HDFS时direct方式 ===

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table emp \

--num-mappers 1 \

--delete-target-dir \

--mapreduce-job-name emp-split1 \

--columns "EMPNO,ENAME,JOB,SAL,COMM" \

--target-dir EMP_SPLIT1 \

--fields-terminated-by '\t' \

--null-non-string '0' \

--null-string '' \

--direct

INFO tool.ImportTool: Destination directory EMP_SPLIT1 deleted.

WARN manager.DirectMySQLManager: Direct-mode import from MySQL does not support column

direct 不支持列模式

sqoop import \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table emp \

--num-mappers 1 \

--delete-target-dir \

--mapreduce-job-name emp-split2 \

--target-dir EMP_SPLIT2 \

--fields-terminated-by '\t' \

--null-non-string '0' \

--null-string '' \

--direct

INFO manager.DirectMySQLManager: Beginning mysqldump fast path import

INFO mapreduce.ImportJobBase: Beginning import of emp

==== eval的使用===

sqoop eval \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--query "select * from emp where deptno=10"

# 使用eval指定一个SQL查询，将查询的结果直接显示到控制台上

# 不再需要参数$CONDITIONS了

======= options-file的使用:工作中推荐使用==

import

--connect

jdbc:mysql://node1.oracle.com:3306/mysql

--username

root

--password

oracle

--mapreduce-job-name

FromMySQL2HDFS

--delete-target-dir

--fields-terminated-by

--num-mappers

--null-non-string

--target-dir

/user/hadoop/USER_COLUMN_SPLIT

--query

select Host,User from mysql.user where host='localhost' and $CONDITIONS

--split-by

'host'

--direct

sqoop --options-file /home/hadoop/sqoop_import.txt

# 写一个命令参数文件，文件格式是一行命令一行参数

# 需要将SQL语句两边引起来的单引号和双引号去掉，一些需要引号引起来的参数也不在需要引号了

# 因为是写入文件之中的，脱离了shell直接执行的情况，$符号不需要转义了

====sqoop export ==

sqoop export --help 查看帮助

# 使用export导出HDFS中的表到mysql中，用法和import相类似

# 区别是需要提前在mysql中创建能够存放导出数据的表，字段数量类型要一致

mysql> create table emp_demo as select * from emp where 1=2;

ERROR 1786 (HY000): CREATE TABLE ... SELECT is forbidden when @@GLOBAL.ENFORCE_GTID_CONSISTENCY = 1.

需要在MySQL 5.6 gtid 环境中的一些限制

mysql> create table emp_demo like emp;

Query OK, 0 rows affected (0.14 sec)

mysql> select * from emp_demo;

Empty set (0.00 sec)

sqoop export \

--connect jdbc:mysql://node1.oracle.com:3306/use_hive \

--username root \

--password oracle \

--table emp_demo \

--export-dir /user/hadoop/emp \

--num-mappers 1

mysql> select count(*) from emp_demo;

+----------+

| count(*) |

+----------+

| 14 |

+----------+

1 row in set (0.02 sec)

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
hive学习笔记之五：分桶程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》的第五篇
学习大数据DAY43 Sqoop 安装，配置环境和使用工科小石头大数据培训学习大数据 sqoop hive hadoop
目录sqoop安装配置mysqlsqoop安装sqoop指令集sqoop使用sqoop创建hive表sqoop全量导入表sqoop增量导入表sqoop全量导出表sqoop分区表导入表sqoop分区表导出表上机练习sqoop安装配置mysqlcreatedatabasetestDEFAULTCHARACTERSETutf8DEFAULTCOLLATEutf8_general_ci;--创建数据库sh
python读取hive数据库_利用pyhive将hive查询数据导入到mysql weixin_39939668 python读取hive数据库
在大数据工作中经常碰到需要将hive查询数据导入到mysql的需求，常见的方法主要有两种，一是sqoop，另一种则是pyhive。本文主要讲的就是python的pyhive库的安装与使用。pyhive作用远程连接hive数据库，运行hivesql，而不需要登录到安装有hive的服务器上去可以更方便处理更多连续命令，可以封装一些经常需要复用的命令脚本化，不需要编译，随时改，随时执行看结果方便对hiv
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
Sqoop一些常用命令及参数大数据小同学
常用命令列举这里给大家列出来了一部分Sqoop操作时的常用参数，以供参考，需要深入学习的可以参看对应类的源代码。命令类说明importImportTool将数据导入到集群exportExportTool将集群数据导出codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jarcreate-hive-tableCreateHiveTableTool创建Hive表evalEval
hive学习笔记之九：基础UDF 程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》的第九篇
Hadoop生态圈陈超Terry的技术屋
生态圈1.HBase的数据存储在HDFS里2.MapReduce可以计算HBase里的数据，也可以计算HDFS里的数据3.Hive是数据分析数据引擎，也是MapReduce模型，支持SQL4.Pig也是一个数据分析引擎，不支持SQL，有自己的PigLatin数据5.Sqoop是数据采集工具，针对关系数据库6.Flume是针对文件等数据的采集7.Hadoop的HA通过Zookeeper来实现8.HU
hive学习笔记之三：内部表和外部表程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》系列的第
Sqoop 入门基础香菜的开发日记 sqoop hadoop hive
简介Sqoop（SQLtoHadoop）是一个开源工具，用于在关系型数据库和Hadoop之间传输数据。它提供了一种快速高效的方式，将数据从关系型数据库导入到Hadoop集群进行分析，并支持将Hadoop集群中的数据导出到关系型数据库中。本篇教程将详细介绍Sqoop的全部用法，包括基本概念、使用方法和实例代码。我们将创建一个示例数据表，并使用Sqoop来导入和导出数据。一、准备工作在开始之前，请确保
shell脚本循环遍历日期，用于sqoop脚本茂盛哥哥
#!/bin/bashfirst="$1"second="$2"while["$first"!="$second"]dodate=`date-d"$first"+"%Y-%m-%d"`sqoopexport\--connectjdbc:mysql://\--username\--password\--tabledwd_fact_front_orderinfo\--export-dir/user/h
Sqoop你用对了吗？你值得拥有更好的12138
个人想法，有错请指出怎么让sqoop流程化1.首先创造配置表和任务表tb_configidjdbc_urluserpass_wordcolumnstablehive_tableis_incremental1jdbc:mysql....rootrootid,user,pwuseruser0taskidtask_nameconf_idstatusctimeretrys1sqoop_table_is_i
HIVE中小文件问题这孩子谁懂哈 HIVE hive hadoop 数据仓库
一、小文件产生原因1.动态分区插入数据，会产生大量小文件2.数据源本来就含有大量小文件3.数据增量导入，如Sqoop数据导入，增量insert导入数据等4.分桶表（主要是切分文件，容易产生小文件问题）1.2.3都是数据导入的问题：hive中的小文件肯定是向hive表中导入数据时产生，所以先看下向hive中导入数据的几种方式1.直接向表中插入数据insertintotableAvalues(1,'z
大数据开发之Sqoop详细介绍只是甲
备注:测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在Sqoop的帮助下，轻松地把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中；同时也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Sqoop是一个在结构化数据和Had
Datax ETL工具源码研究 Spring1985
由于公司数据共享交换产品中需要用到数据交换工具，所以对数据交换工具进行了大量的研究，目前比较流行的数据交换工具有Kittle、Sqoop、KafkaConnect、DataX；以下是个人的一点比对结果：如下四款工具除了Kittle其他的共同点都是面向插件方式开发，扩展性都比较好。Kittle优点：与大数据Hadoop结合比较好，功能比较齐全，强大，支持数据库，文件数据读写，界面拖拽方式操作；缺点：
2018-07-19 sqoop 江江江123
sqoop:数据从传统数据库到到hadoop的导入,导出安装：1.解压2.修改配置文件cdSQOOP_HOME/conf$mvsqoop-env-template.shsqoop-env.sh打开sqoop-env.sh并编辑下面几行：exportHADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.6.1/exportHADOOP_MAPRED_HOME=/
离线数仓（一）【数仓概念、需求架构】让线程再跑一会离线数仓大数据
前言今天开始学习数仓的内容，之前花费一年半的时间已经学完了Hadoop、Hive、Zookeeper、Spark、HBase、Flume、Sqoop、Kafka、Flink等基础组件。把学过的内容用到实践这是最重要的，相信会有很大的收获。1、数据仓库概念1.1、概念数据仓库（DataWarehouse），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。（数据仓库的目的
计算机毕业设计PyFlink+Hadoop+Hive民宿数据分析可视化大屏民宿推荐系统民宿爬虫民宿大数据知识图谱机器学习大数据毕业设计计算机毕业设计大神
流程1.selenium自动化爬虫框架采集民宿数据约10万条存入.csv文件作为数据集；2.使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；3.使用hive数仓技术建表建库，导入.csv数据集；4.离线分析采用hive_sql完成，实时分析利用Flink之Scala、FlinkSQL完成;5.统计指标使用sqoop导入mysql数据库；6
SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25 莫叫石榴姐 SQLBOY1000题 sql HiveSql面试题 sql
目录0需求分析1数据准备3数据分析4小结0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数据中，goods_type列，假设26代表是广告，现在有个需求，想获取每个用户每次搜索下非广告类型的商品位置自然排序，如果下效果：u
HiveSQL——条件判断语句嵌套windows子句的应用爱吃辣条byte #HIve SQL 大数据数据仓库
注：参考文章：SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25_sql剁成嵌套判断-CSDN博客文章浏览阅读920次，点赞4次，收藏4次。0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数
大数据课程综合实验案例---课设问题汇总钟良堂笔记大数据 hbase hadoop ubuntu echarts
最近翻看两年前的大数据课设，感觉这个大数据课设实验当时答辩在大数据课设实验过程中，我遇到了很多问题，在这里做出汇总：1、MySQL启动报错首先，我的MySQL有时候启动不了，当我输入这个命令的时候，会报很多信息出来：mysql-uroot-p有时候，我尝试了很多这个命令，就是打不开，一直显示这个信息。但有时候却可以启动，感觉很奇怪，很多时候得看运气：2、Sqoop连接MySQL报错在测试sqoop
sqoop导入数据到hdfs 鲲鹏猿 hdfs sqoop hadoop
Sqoop是apache旗下的一款”Hadoop和关系数据库之间传输数据”的工具导入数据：将MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据：从Hadoop的文件系统中导出数据到关系数据库2.Sqoop的工作机制将导入和导出的命令翻译成mapreduce程序实现在翻译出的mapreduce中主要是对inputformat和outputformat
2024-02-07（Sqoop，Flume）陈xr 随记日志 sqoop flume
1.Sqoop的增量导入实际工作中，数据的导入很多时候只需要导入增量的数据，并不需要将表中的数据每次都全部导入到hive或者hdfs中，因为这样会造成数据重复问题。增量导入就是仅导入新添加到表中的行的技术。sqoop支持两种模式的增量导入：append模式：根据数值类型字段进行追加导入，大于指定的last-value值Lastmodified模式：根据时间戳类型的字段进行追加，>=指定的last-
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比浪尖聊大数据-浪尖 sqoop flume flink hadoop hive
产品概述ApacheSeaTunnel是一个非常易用的超高性能分布式数据集成产品，支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据，已应用于数百家企业生产，也是首个由国人主导贡献到Apache基金会的数据集成顶级项目。SeaTunnel主要解决数据集成领域的常见问题：*数据源多样：常用的数据源有数百种，版本不兼容。随着新技术的出现，出现了更多的数据源。用户很难找到能够全面快速支持这些数据
数据采集工具Sqoop、Datax、Flume、Canal yue-verdure 大数据 sqoop flume 大数据阿里云
离线采集工具Sqoop1.环境配置解压安装包配置环境变量（记得source）添加MySQL驱动包到sqoop文件夹下的libcpmysql-connector-java-5.1.10.jar/sqoop-install-path/lib重命名文件并配置文件mvsqoop-env-template.shsqoop-env.sh#添加环境变量exportHADOOP_COMMON_HOME=/usr/
大数据系列—数据迁移(Sqoop,Flume,DataX)对比学习（stage3）道-闇影 big data 大数据 sqoop flume
Boys，Grils，Friends！MynameisJinsuo.Shi.一个不正经的大数据开发工程师，目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。个人大数据技术栈：DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…个人在学习领域：Python，P
数据同步工具对比——SeaTunnel 、DataX、Sqoop、Flume、Flink CDC 大数据_苡~ 041-数据同步与采集 sqoop flume flink 大数据
在大数据时代，数据的采集、处理和分析变得尤为重要。业界出现了多种工具来帮助开发者和企业高效地处理数据流和数据集。本文将对比五种流行的数据处理工具：SeaTunnel、DataX、Sqoop、Flume和FlinkCDC，从它们的设计理念、使用场景、优缺点等方面进行详细介绍。1、SeaTunnel简介SeaTunnel是一个分布式、高性能、支持多种数据源之间高效数据同步的开源工具。它旨在解决大数据处
2024-02-06（Sqoop）陈xr 随记日志 sqoop 大数据
1.SqoopApacheSqoop是Hadoop生态体系和RDBMS（关系型数据库）体系之间传递数据的一种工具。Sqoop工作机制是将导入或者导出命令翻译成MapReduce程序来实现。在翻译出的MapReduce中主要是对inputformat和outputformat进行定制。Hadoop生态包括：HDFS，Hive，Hbase等。RDBMS体系包括：Mysql，Oracle，DB2等。Sq
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装 WaiSaa
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装1简介Ambari跟Hadoop等开源软件一样，也是ApacheSoftwareFoundation中的一个项目，并且是顶级项目。就Ambari的作用来说，就是创建、管理、监视Hadoop集群，但是这里的Hadoop指的是Hadoop整个生态圈（例如Hive，Hbase，Sqoop，Zookeeper等），而并不仅是特指Had
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

sqoop 基础

你可能感兴趣的:(Sqoop)