刘李404not found

使用Sqoop将MySQL数据导入HDFS

文章目录

一、测试MySQL链接

1.1 查看所有数据库
1.2 查看test_mysql库中的表
1.3 查询cars表中的数据

二、导入HDFS

2.1 单表导入

2.1.1 使用默认参数导入
2.1.2 设置字段分隔符
2.1.3 指定HDFS目录
2.1.4 指定map数
2.1.5 指定文件保存格式
2.1.6 从表中导出指定的一组或多组列的数据
2.1.7 导出SQL查询的结果
2.1.8 追加已存在的数据集上
2.1.9 指定字符串代替null值

2.2 全表导入

一、测试MySQL链接

1.1 查看所有数据库

sudo -u hdfs \
sqoop list-databases \
--connect jdbc:mysql://192.168.0.20:23306 \
--username root \
--password xxxxxxxx

1.2 查看test_mysql库中的表

sudo -u hdfs \
sqoop list-tables \
--connect jdbc:mysql://192.168.0.20:23306/test_mysql \
--username root \
--password xxxxxxxx

1.3 查询cars表中的数据

sudo -u hdfs \
sqoop eval \
--connect jdbc:mysql://192.168.0.20:23306/test_mysql \
--username root \
--password xxxxxxxx \
--query "SELECT * FROM cars where id < 10;"

二、导入HDFS

import参数
    --append    将数据追加到HDFS上一个已存在的数据集上
    --as-avrodatafile    将数据导入到Avro数据文件
    --as-sequencefile    将数据导入到SequenceFile
    --as-textfile    将数据导入到普通文本文件（默认）
    --boundary-query <statement>    边界查询，用于创建分片（InputSplit）
    --columns <col,col,col…>    从表中导出指定的一组列的数据
    --delete-target-dir    如果指定目录存在，则先删除掉
    --direct    使用直接导入模式（优化导入速度）
    --direct-split-size <n>    分割输入stream的字节大小（在直接导入模式下）
    --fetch-size <n>    从数据库中批量读取记录数
    --inline-lob-limit <n>    设置内联的LOB对象的大小
    -m,--num-mappers <n>    使用n个map任务并行导入数据
    -e,--query <statement>    导入的查询语句
    --split-by <column-name>    指定按照哪个列去分割数据
    --table <table-name>    导入的源表表名
    --target-dir <dir>    导入HDFS的目标路径
    --warehouse-dir <dir>    HDFS存放表的根路径
    --where <where clause>    指定导出时所使用的查询条件
    -z,--compress    启用压缩
    --compression-codec <c>    指定Hadoop的codec方式（默认gzip）
    --null-string <null-string>    果指定列为字符串类型，使用指定字符串替换值为null的该类列的值
    --null-non-string <null-string>    如果指定列为非字符串类型，使用指定字符串替换值为null的该类列的值

2.1 单表导入

person表前20行内容

2.1.1 使用默认参数导入

命令

sudo -u hdfs \
sqoop import \
--connect jdbc:mysql://192.168.0.20:23306/test_mysql?tinyInt1isBit=false \
--username root \
--password xxxxxxxx \
--table person

HDFS目录
默认在hdfs用户目录下，目录名直接以源表名保存

[root@master ~]# sudo -u hdfs hadoop fs -ls /user/hdfs/person
Found 5 items
-rw-r--r--   3 hdfs supergroup          0 2019-08-26 17:12 /user/hdfs/person/_SUCCESS
-rw-r--r--   3 hdfs supergroup   71413655 2019-08-26 17:11 /user/hdfs/person/part-m-00000
-rw-r--r--   3 hdfs supergroup   72524741 2019-08-26 17:11 /user/hdfs/person/part-m-00001
-rw-r--r--   3 hdfs supergroup   72527645 2019-08-26 17:11 /user/hdfs/person/part-m-00002
-rw-r--r--   3 hdfs supergroup   72525860 2019-08-26 17:12 /user/hdfs/person/part-m-00003

HDFS文件内容

[root@master ~]# sudo -u hdfs hadoop fs -cat /user/hdfs/person/part-m-00000 | head -n 20
1,甲,子鼠,18,0
2,乙,丑牛,null,1
3,丙,寅虎,64,0
4,丁,卯兔,49,0
5,戊,辰龙,null,0
6,己,巳蛇,66,0
7,庚,午马,49,1
8,辛,未羊,14,1
9,壬,申猴,45,0
10,癸,酉鸡,88,1
11,,戌狗,24,0
12,,亥猪,78,0
13,,,31,1
14,llkkb,llkkbd,30,0
15,llkk,llkk,54,0
16,llkkb,llkkbd,13,1
17,llkk,llkk,7,1
18,llkk,llkk,12,0
19,llkkc,llkkc,84,1
20,llkkf,llkkf,47,1
cat: Unable to write to output stream.

2.1.2 设置字段分隔符

默认使用 ","分割
使用制表符： --fields-terminated-by '\t'
使用双引号：--fields-terminated-by '\"'
使用反斜杠：--fields-terminated-by '\\'

命令

sudo -u hdfs \
sqoop import \
--connect jdbc:mysql://192.168.0.20:23306/test_mysql?tinyInt1isBit=false \
--username root \
--password xxxxxxxx \
--table person \
--fields-terminated-by '\t' \
--delete-target-dir

HDFS目录

[root@master ~]# sudo -u hdfs hadoop fs -ls /user/hdfs/person
Found 5 items
-rw-r--r--   3 hdfs supergroup          0 2019-08-26 17:41 /user/hdfs/person/_SUCCESS
-rw-r--r--   3 hdfs supergroup   71413655 2019-08-26 17:41 /user/hdfs/person/part-m-00000
-rw-r--r--   3 hdfs supergroup   72524741 2019-08-26 17:41 /user/hdfs/person/part-m-00001
-rw-r--r--   3 hdfs supergroup   72527645 2019-08-26 17:41 /user/hdfs/person/part-m-00002
-rw-r--r--   3 hdfs supergroup   72525860 2019-08-26 17:41 /user/hdfs/person/part-m-00003

HDFS文件内容

[root@master ~]# sudo -u hdfs hadoop fs -cat /user/hdfs/person/part-m-00000 | head -n 20
1	甲		子鼠		18		0
2	乙		丑牛		null	1
3	丙		寅虎		64		0
4	丁		卯兔		49		0
5	戊		辰龙		null	0
6	己		巳蛇		66		0
7	庚		午马		49		1
8	辛		未羊		14		1
9	壬		申猴		45		0
10	癸		酉鸡		88		1
11			戌狗		24		0
12			亥猪		78		0
13					31		1
14	llkkb	llkkbd	30		0
15	llkk	llkk	54		0
16	llkkb	llkkbd	13		1
17	llkk	llkk	7		1
18	llkk	llkk	12		0
19	llkkc	llkkc	84		1
20	llkkf	llkkf	47		1
cat: Unable to write to output stream.

2.1.3 指定HDFS目录

指定/usr/hdfs/1目录：--target-dir /usr/hdfs/1

命令

sudo -u hdfs \
sqoop import \
--connect jdbc:mysql://192.168.0.20:23306/test_mysql?tinyInt1isBit=false \
--username root \
--password xxxxxxxx \
--table person \
--fields-terminated-by '\t' \
--target-dir /usr/hdfs/1 \
--delete-target-dir

HDFS目录

[root@master ~]# sudo -u hdfs hadoop fs -ls /usr/hdfs/1
Found 5 items
-rw-r--r--   3 hdfs supergroup          0 2019-08-26 17:59 /usr/hdfs/1/_SUCCESS
-rw-r--r--   3 hdfs supergroup   62664632 2019-08-26 17:58 /usr/hdfs/1/part-m-00000
-rw-r--r--   3 hdfs supergroup   63776345 2019-08-26 17:58 /usr/hdfs/1/part-m-00001
-rw-r--r--   3 hdfs supergroup   63778151 2019-08-26 17:58 /usr/hdfs/1/part-m-00002
-rw-r--r--   3 hdfs supergroup   63776312 2019-08-26 17:59 /usr/hdfs/1/part-m-00003

2.1.4 指定map数

指定1个map数：-m 1 或 --num-mappers 1

命令

sudo -u hdfs \
sqoop import \
--connect jdbc:mysql://192.168.0.20:23306/test_mysql?tinyInt1isBit=false \
--username root \
--password xxxxxxxx \
--table person \
--fields-terminated-by '\t' \
--target-dir /usr/hdfs/1 \
--delete-target-dir \
-m 1

HDFS目录
指定map为1后，只会生成一个文件

[root@master ~]# sudo -u hdfs hadoop fs -ls /usr/hdfs/1
Found 2 items
-rw-r--r--   3 hdfs supergroup          0 2019-08-26 18:01 /usr/hdfs/1/_SUCCESS
-rw-r--r--   3 hdfs supergroup  253995440 2019-08-26 18:01 /usr/hdfs/1/part-m-00000

2.1.5 指定文件保存格式

text文件格式--as-textfile（默认格式）
Parquet Data Files文件格式--as-parquetfile（推荐）
Avro Data Files文件格式 --as-avrodatafile
SequenceFiles文件格式 --as-sequencefile

2.1.6 从表中导出指定的一组或多组列的数据

导出指定列--columns "id,fname,lname"
命令

sudo -u hdfs \
sqoop import \
--connect jdbc:mysql://192.168.0.20:23306/test_mysql?tinyInt1isBit=false \
--username root \
--password xxxxxxxx \
--table person \
--fields-terminated-by '\t' \
--target-dir /usr/hdfs/1 \
--delete-target-dir \
--columns "id,fname,lname" \
-m 1

HDFS文件内容

[root@master ~]# sudo -u hdfs hadoop fs -cat /usr/hdfs/1/part-m-00000 | head -n 20
1	甲		子鼠
2	乙		丑牛
3	丙		寅虎
4	丁		卯兔
5	戊		辰龙
6	己		巳蛇
7	庚		午马
8	辛		未羊
9	壬		申猴
10	癸		酉鸡
11			戌狗
12			亥猪
13		
14	llkkb	llkkbd
15	llkk	llkk
16	llkkb	llkkbd
17	llkk	llkk
18	llkk	llkk
19	llkkc	llkkc
20	llkkf	llkkf
cat: Unable to write to output stream.

2.1.7 导出SQL查询的结果

导出id小于13的数据：--query "SELECT * FROM person where id < 13"
命令
注意查询语句要加上：WHERE $CONDITIONS
如果SQL中已经写了where条件，则加上：AND \$CONDITIONS

sudo -u hdfs \
sqoop import \
--connect jdbc:mysql://192.168.0.20:23306/test_mysql?tinyInt1isBit=false \
--username root \
--password xxxxxxxx \
--fields-terminated-by '\t' \
--target-dir /usr/hdfs/1 \
--delete-target-dir \
--query "SELECT * FROM person where id < 13 AND \$CONDITIONS" \
-m 1

HDFS文件内容

[root@master ~]# sudo -u hdfs hadoop fs -cat /usr/hdfs/1/part-m-00000 | head -n 20
1	甲	子鼠		18		0
2	乙	丑牛		null	1
3	丙	寅虎		64		0
4	丁	卯兔		49		0
5	戊	辰龙		null	0
6	己	巳蛇		66		0
7	庚	午马		49		1
8	辛	未羊		14		1
9	壬	申猴		45		0
10	癸	酉鸡		88		1
11		戌狗		24		0
12		亥猪		78		0

2.1.8 追加已存在的数据集上

追加在原有数据集上：--append
追加--append不能与--delete-target-dir一起使用
命令
追加id大于12小于20的数据

sudo -u hdfs \
sqoop import \
--connect jdbc:mysql://192.168.0.20:23306/test_mysql?tinyInt1isBit=false \
--username root \
--password xxxxxxxx \
--fields-terminated-by '\t' \
--target-dir /usr/hdfs/1 \
--query "SELECT * FROM person where id > 12 and id <20  AND \$CONDITIONS" \
--append \
-m 1

HDFS目录
多了一个文件

[root@master ~]# sudo -u hdfs hadoop fs -ls /usr/hdfs/1
Found 3 items
-rw-r--r--   3 hdfs supergroup          0 2019-08-27 10:25 /usr/hdfs/1/_SUCCESS
-rw-r--r--   3 hdfs supergroup        217 2019-08-27 10:25 /usr/hdfs/1/part-m-00000
-rw-r--r--   3 hdfs supergroup        125 2019-08-27 10:31 /usr/hdfs/1/part-m-00001

HDFS文件内容

[root@master ~]# sudo -u hdfs hadoop fs -cat /usr/hdfs/1/part-m-00001 | head -n 20
13			31		1
14	llkkb	llkkbd	30	0
15	llkk	llkk	54	0
16	llkkb	llkkbd	13	1
17	llkk	llkk	7	1
18	llkk	llkk	12	0
19	llkkc	llkkc	84	1

2.1.9 指定字符串代替null值

指定\N代替原表中字符串的null值：--null-string '\\N'
指定\N代替原表中非字符串的null值：--null-non-string '\\N'
命令

sudo -u hdfs \
sqoop import \
--connect jdbc:mysql://192.168.0.20:23306/test_mysql?tinyInt1isBit=false \
--username root \
--password xxxxxxxx \
--table person \
--fields-terminated-by '\t' \
--target-dir /usr/hdfs/1 \
--delete-target-dir \
--null-string 'NULL' \
--null-non-string 'NULL' \
-m 1

HDFS文件内容

[root@master ~]# sudo -u hdfs hadoop fs -cat /usr/hdfs/1/part-m-00000 | head -n 20
1	甲		子鼠		18		0
2	乙		丑牛		\N		1
3	丙		寅虎		64		0
4	丁		卯兔		49		0
5	戊		辰龙		\N		0
6	己		巳蛇		66		0
7	庚		午马		49		1
8	辛		未羊		14		1
9	壬		申猴		45		0
10	癸		酉鸡		88		1
11			戌狗		24		0
12			亥猪		78		0
13					31		1
14	llkkb	llkkbd	30		0
15	llkk	llkk	54		0
16	llkkb	llkkbd	13		1
17	llkk	llkk	7		1
18	llkk	llkk	12		0
19	llkkc	llkkc	84		1
20	llkkf	llkkf	47		1
cat: Unable to write to output stream.

2.2 全表导入

要使全表导入，必须满足以下条件：

每个表必须具有主键或使用–autoreset-to-one-mapper选项
导入每张表的所有列
使用默认拆分列，不能使用WHERE
不支持指定导入目录，默认目录在/user/hdfs/

其他的与单表类似
命令

sudo -u hdfs \
sqoop import-all-tables \
--connect jdbc:mysql://192.168.0.20:23306/test_mysql?tinyInt1isBit=false \
--username root \
--password xxxxxxxx \
--fields-terminated-by '\t' \
--autoreset-to-one-mapper \
-m 1

HDFS目录
有cars和person表

[root@master ~]# sudo -u hdfs hadoop fs -ls /user/hdfs/
Found 5 items
drwx------   - hdfs supergroup          0 2019-08-27 11:12 /user/hdfs/.Trash
drwx------   - hdfs supergroup          0 2019-08-27 11:14 /user/hdfs/.staging
drwxr-xr-x   - hdfs supergroup          0 2019-08-27 10:39 /user/hdfs/_sqoop
drwxr-xr-x   - hdfs supergroup          0 2019-08-27 11:14 /user/hdfs/cars
drwxr-xr-x   - hdfs supergroup          0 2019-08-27 11:14 /user/hdfs/person

hive学习笔记之五：分桶程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》的第五篇
学习大数据DAY43 Sqoop 安装，配置环境和使用工科小石头大数据培训学习大数据 sqoop hive hadoop
目录sqoop安装配置mysqlsqoop安装sqoop指令集sqoop使用sqoop创建hive表sqoop全量导入表sqoop增量导入表sqoop全量导出表sqoop分区表导入表sqoop分区表导出表上机练习sqoop安装配置mysqlcreatedatabasetestDEFAULTCHARACTERSETutf8DEFAULTCOLLATEutf8_general_ci;--创建数据库sh
python读取hive数据库_利用pyhive将hive查询数据导入到mysql weixin_39939668 python读取hive数据库
在大数据工作中经常碰到需要将hive查询数据导入到mysql的需求，常见的方法主要有两种，一是sqoop，另一种则是pyhive。本文主要讲的就是python的pyhive库的安装与使用。pyhive作用远程连接hive数据库，运行hivesql，而不需要登录到安装有hive的服务器上去可以更方便处理更多连续命令，可以封装一些经常需要复用的命令脚本化，不需要编译，随时改，随时执行看结果方便对hiv
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
Sqoop一些常用命令及参数大数据小同学
常用命令列举这里给大家列出来了一部分Sqoop操作时的常用参数，以供参考，需要深入学习的可以参看对应类的源代码。命令类说明importImportTool将数据导入到集群exportExportTool将集群数据导出codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jarcreate-hive-tableCreateHiveTableTool创建Hive表evalEval
hive学习笔记之九：基础UDF 程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》的第九篇
Hadoop生态圈陈超Terry的技术屋
生态圈1.HBase的数据存储在HDFS里2.MapReduce可以计算HBase里的数据，也可以计算HDFS里的数据3.Hive是数据分析数据引擎，也是MapReduce模型，支持SQL4.Pig也是一个数据分析引擎，不支持SQL，有自己的PigLatin数据5.Sqoop是数据采集工具，针对关系数据库6.Flume是针对文件等数据的采集7.Hadoop的HA通过Zookeeper来实现8.HU
hive学习笔记之三：内部表和外部表程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》系列的第
Sqoop 入门基础香菜的开发日记 sqoop hadoop hive
简介Sqoop（SQLtoHadoop）是一个开源工具，用于在关系型数据库和Hadoop之间传输数据。它提供了一种快速高效的方式，将数据从关系型数据库导入到Hadoop集群进行分析，并支持将Hadoop集群中的数据导出到关系型数据库中。本篇教程将详细介绍Sqoop的全部用法，包括基本概念、使用方法和实例代码。我们将创建一个示例数据表，并使用Sqoop来导入和导出数据。一、准备工作在开始之前，请确保
shell脚本循环遍历日期，用于sqoop脚本茂盛哥哥
#!/bin/bashfirst="$1"second="$2"while["$first"!="$second"]dodate=`date-d"$first"+"%Y-%m-%d"`sqoopexport\--connectjdbc:mysql://\--username\--password\--tabledwd_fact_front_orderinfo\--export-dir/user/h
Sqoop你用对了吗？你值得拥有更好的12138
个人想法，有错请指出怎么让sqoop流程化1.首先创造配置表和任务表tb_configidjdbc_urluserpass_wordcolumnstablehive_tableis_incremental1jdbc:mysql....rootrootid,user,pwuseruser0taskidtask_nameconf_idstatusctimeretrys1sqoop_table_is_i
HIVE中小文件问题这孩子谁懂哈 HIVE hive hadoop 数据仓库
一、小文件产生原因1.动态分区插入数据，会产生大量小文件2.数据源本来就含有大量小文件3.数据增量导入，如Sqoop数据导入，增量insert导入数据等4.分桶表（主要是切分文件，容易产生小文件问题）1.2.3都是数据导入的问题：hive中的小文件肯定是向hive表中导入数据时产生，所以先看下向hive中导入数据的几种方式1.直接向表中插入数据insertintotableAvalues(1,'z
大数据开发之Sqoop详细介绍只是甲
备注:测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在Sqoop的帮助下，轻松地把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中；同时也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Sqoop是一个在结构化数据和Had
Datax ETL工具源码研究 Spring1985
由于公司数据共享交换产品中需要用到数据交换工具，所以对数据交换工具进行了大量的研究，目前比较流行的数据交换工具有Kittle、Sqoop、KafkaConnect、DataX；以下是个人的一点比对结果：如下四款工具除了Kittle其他的共同点都是面向插件方式开发，扩展性都比较好。Kittle优点：与大数据Hadoop结合比较好，功能比较齐全，强大，支持数据库，文件数据读写，界面拖拽方式操作；缺点：
2018-07-19 sqoop 江江江123
sqoop:数据从传统数据库到到hadoop的导入,导出安装：1.解压2.修改配置文件cdSQOOP_HOME/conf$mvsqoop-env-template.shsqoop-env.sh打开sqoop-env.sh并编辑下面几行：exportHADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.6.1/exportHADOOP_MAPRED_HOME=/
离线数仓（一）【数仓概念、需求架构】让线程再跑一会离线数仓大数据
前言今天开始学习数仓的内容，之前花费一年半的时间已经学完了Hadoop、Hive、Zookeeper、Spark、HBase、Flume、Sqoop、Kafka、Flink等基础组件。把学过的内容用到实践这是最重要的，相信会有很大的收获。1、数据仓库概念1.1、概念数据仓库（DataWarehouse），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。（数据仓库的目的
计算机毕业设计PyFlink+Hadoop+Hive民宿数据分析可视化大屏民宿推荐系统民宿爬虫民宿大数据知识图谱机器学习大数据毕业设计计算机毕业设计大神
流程1.selenium自动化爬虫框架采集民宿数据约10万条存入.csv文件作为数据集；2.使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；3.使用hive数仓技术建表建库，导入.csv数据集；4.离线分析采用hive_sql完成，实时分析利用Flink之Scala、FlinkSQL完成;5.统计指标使用sqoop导入mysql数据库；6
SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25 莫叫石榴姐 SQLBOY1000题 sql HiveSql面试题 sql
目录0需求分析1数据准备3数据分析4小结0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数据中，goods_type列，假设26代表是广告，现在有个需求，想获取每个用户每次搜索下非广告类型的商品位置自然排序，如果下效果：u
HiveSQL——条件判断语句嵌套windows子句的应用爱吃辣条byte #HIve SQL 大数据数据仓库
注：参考文章：SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25_sql剁成嵌套判断-CSDN博客文章浏览阅读920次，点赞4次，收藏4次。0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数
大数据课程综合实验案例---课设问题汇总钟良堂笔记大数据 hbase hadoop ubuntu echarts
最近翻看两年前的大数据课设，感觉这个大数据课设实验当时答辩在大数据课设实验过程中，我遇到了很多问题，在这里做出汇总：1、MySQL启动报错首先，我的MySQL有时候启动不了，当我输入这个命令的时候，会报很多信息出来：mysql-uroot-p有时候，我尝试了很多这个命令，就是打不开，一直显示这个信息。但有时候却可以启动，感觉很奇怪，很多时候得看运气：2、Sqoop连接MySQL报错在测试sqoop
sqoop导入数据到hdfs 鲲鹏猿 hdfs sqoop hadoop
Sqoop是apache旗下的一款”Hadoop和关系数据库之间传输数据”的工具导入数据：将MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据：从Hadoop的文件系统中导出数据到关系数据库2.Sqoop的工作机制将导入和导出的命令翻译成mapreduce程序实现在翻译出的mapreduce中主要是对inputformat和outputformat
2024-02-07（Sqoop，Flume）陈xr 随记日志 sqoop flume
1.Sqoop的增量导入实际工作中，数据的导入很多时候只需要导入增量的数据，并不需要将表中的数据每次都全部导入到hive或者hdfs中，因为这样会造成数据重复问题。增量导入就是仅导入新添加到表中的行的技术。sqoop支持两种模式的增量导入：append模式：根据数值类型字段进行追加导入，大于指定的last-value值Lastmodified模式：根据时间戳类型的字段进行追加，>=指定的last-
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比浪尖聊大数据-浪尖 sqoop flume flink hadoop hive
产品概述ApacheSeaTunnel是一个非常易用的超高性能分布式数据集成产品，支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据，已应用于数百家企业生产，也是首个由国人主导贡献到Apache基金会的数据集成顶级项目。SeaTunnel主要解决数据集成领域的常见问题：*数据源多样：常用的数据源有数百种，版本不兼容。随着新技术的出现，出现了更多的数据源。用户很难找到能够全面快速支持这些数据
数据采集工具Sqoop、Datax、Flume、Canal yue-verdure 大数据 sqoop flume 大数据阿里云
离线采集工具Sqoop1.环境配置解压安装包配置环境变量（记得source）添加MySQL驱动包到sqoop文件夹下的libcpmysql-connector-java-5.1.10.jar/sqoop-install-path/lib重命名文件并配置文件mvsqoop-env-template.shsqoop-env.sh#添加环境变量exportHADOOP_COMMON_HOME=/usr/
大数据系列—数据迁移(Sqoop,Flume,DataX)对比学习（stage3）道-闇影 big data 大数据 sqoop flume
Boys，Grils，Friends！MynameisJinsuo.Shi.一个不正经的大数据开发工程师，目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。个人大数据技术栈：DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…个人在学习领域：Python，P
数据同步工具对比——SeaTunnel 、DataX、Sqoop、Flume、Flink CDC 大数据_苡~ 041-数据同步与采集 sqoop flume flink 大数据
在大数据时代，数据的采集、处理和分析变得尤为重要。业界出现了多种工具来帮助开发者和企业高效地处理数据流和数据集。本文将对比五种流行的数据处理工具：SeaTunnel、DataX、Sqoop、Flume和FlinkCDC，从它们的设计理念、使用场景、优缺点等方面进行详细介绍。1、SeaTunnel简介SeaTunnel是一个分布式、高性能、支持多种数据源之间高效数据同步的开源工具。它旨在解决大数据处
2024-02-06（Sqoop）陈xr 随记日志 sqoop 大数据
1.SqoopApacheSqoop是Hadoop生态体系和RDBMS（关系型数据库）体系之间传递数据的一种工具。Sqoop工作机制是将导入或者导出命令翻译成MapReduce程序来实现。在翻译出的MapReduce中主要是对inputformat和outputformat进行定制。Hadoop生态包括：HDFS，Hive，Hbase等。RDBMS体系包括：Mysql，Oracle，DB2等。Sq
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装 WaiSaa
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装1简介Ambari跟Hadoop等开源软件一样，也是ApacheSoftwareFoundation中的一个项目，并且是顶级项目。就Ambari的作用来说，就是创建、管理、监视Hadoop集群，但是这里的Hadoop指的是Hadoop整个生态圈（例如Hive，Hbase，Sqoop，Zookeeper等），而并不仅是特指Had
计算机毕业设计hadoop+spark+hive小说数据分析可视化大屏小说推荐系统小说爬虫小说大数据机器学习知识图谱小说网站大数据毕业设计计算机毕业设计大神
流程1.爬取17k的小说数据约5-10万，存入mysql数据库；2.使用mapreduce对mysql中的小说数据集进行数据清洗，转为.csv文件上传至hdfs文件系统；3.根据.csv文件结构，使用hive建库建表；4.一半分析指标使用hive_sql完成，一半分析指标使用Spark-Scala完成;5.将分析结果使用sqoop导入mysql数据库；6.使用Flask+echarts构建可视化大
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1

使用Sqoop将MySQL数据导入HDFS

文章目录

一、测试MySQL链接

1.1 查看所有数据库

1.2 查看test_mysql库中的表

1.3 查询cars表中的数据

二、导入HDFS

2.1 单表导入

2.1.1 使用默认参数导入

2.1.2 设置字段分隔符

2.1.3 指定HDFS目录

2.1.4 指定map数

2.1.5 指定文件保存格式

2.1.6 从表中导出指定的一组或多组列的数据

2.1.7 导出SQL查询的结果

2.1.8 追加已存在的数据集上

2.1.9 指定字符串代替null值

2.2 全表导入

你可能感兴趣的:(Sqoop)