我是A_lin呀

这两天搞sqoop1.x遇到的坑

简单分享下，我这两天搞sqoop1.x遇到的坑。

先总体总结下，首先是1.4.4的import不支持as-parquetfile。

好吧，换成1.4.6版本，倒是支持了，但是不支持--as-parquetfile和--query一起使用，报一个什么莫名的空指针异常，--as-parquetfile和--table是可以的。同时import也不支持parquetfile格式直接导入hive表，只能间接的先导入hdfs再load到hive。有个问题就是mysql的datetime类型在hive查询出来始终是null(对应的string,timestamp,bigint都试过了)。

好吧，换成最新的1.4.7版本试试，完美解决了上面所有问题，当然import也不支持parquetfile格式直接导入hive表，不过执行后有明显的提示说不兼容parquet格式直接导入hive。只是第一次运行时报一个找不到org.json.JSONObject，这个简单，网上找个java-json.jar包放到lib下就好了。-as-parquetfile和--query是支持了，不过对于mysql的datatime等时间类型，用parquet是转成bigint类型的，所以hive建表时对应类型要是bigint，转换成时间戳存储了。建成其他格式会报类型不支持。然后，继续ｍｙｓｑｌ导数据直接到ｈｉｖｅ表，又陆续报了一些错，原因是我使用的是ｈｉｖｅ１.２.０版本， sqoop1.4.7版本是不支持的．换成ｈｉｖｅ２.３.４版本成功导入．

下面详细一一道来．

1. mysql建表

CREATE TABLE `sqoop_job` (

`id` int(11) DEFAULT NULL,

`name` varchar(255) DEFAULT NULL,

`jobname` varchar(255) DEFAULT NULL,

`formatTimeStamp` datetime DEFAULT NULL,

`time` varchar(20) DEFAULT NULL

) ENGINE=InnoDB DEFAULT CHARSET=utf8

２.　插入数据

insert into sqoop_job values(1,"name1","jobname1","2015-11-09 21:00:00","2015-11-09 21:00:00");

insert into sqoop_job values(2,"name2","jobname2","2015-11-09 22:00:00","2015-11-09 22:00:00");

insert into sqoop_job values(3,"name3","jobname3","2015-11-09 23:00:00","2015-11-09 23:00:00");

insert into sqoop_job values(４,"name４","jobname４","2015-11-１０ 2１:00:00","2015-11-１０ 2１:00:00");

将mysql表结构同步到hive（实际不建议这样做，手动在ｈｉｖｅ建表）　

sqoop create-hive-table \

--connect jdbc:mysql://hadoop03:3306/test \

--username root --password root \

--table sqoop_job \

--hive-table test.sqoop_job \

--fields-terminated-by ,

查看建表语句：

show create table sqoop_job;

| CREATE TABLE `sqoop_job`(`id` int, `name` string, `jobname` string, `formattimestamp` string, `time` string)

COMMENT 'Imported by sqoop on 2019/03/02 18:49:49'

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'

WITH SERDEPROPERTIES (　　　　　　　　　　　　　　　　　　　　　　　　　

'line.delim' = '

'field.delim' = ',',

'serialization.format' = ','

)

STORED AS

INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'

OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

TBLPROPERTIES (

'transient_lastDdlTime' = '1551523804'

)

可以看出对于ｍｙｓｑｌ的ｄａｔｅｔｉｍｅ类型，默认是转成Ｓｔｒｉｎｇ类型的．

３.　ｉｍｐｏｒｔ　mysql 直接--> parquet hive表：失败（sqoop1.4.6+hive1.2.0的版本）

３.１hive建表

CREATE TABLE `parquet_sqoop_job` (

`id` int ,

`name` string ,

`jobname` string ,

`date_time` string ,

`time` string

)

row format delimited fields terminated by '\t'

stored as parquet;

注意：指定ROW FORMAT DELIMITED，在ｈｉｖｅ１.２.０版本会报错：

ROW FORMAT DELIMITED is only compatible with 'textfile', not 'parquet'(line 1, pos 0)．Ｈｉｖｅ２.３.４是可以的．

执行ｓｑｏｏｐ　ｉｍｐｏｒｔ语句

sqoop import ＼

--connect jdbc:mysql://hadoop03:3306/test　＼

--username root　＼

--password root 　＼

--table sqoop_job ＼

--hive-import 　＼

--hive-database test ＼

--hive-table parquet_sqoop_job ＼

--delete-target-dir ＼

--fields-terminated-by '\t'

-m 1 ＼

--target-dir test 　＼

--as-parquetfile

Ｓｑｏｏｐ１.４.７报错：Exception in thread "main" java.lang.NoClassDefFoundError: 　　　　　org/apache/hadoop/hive/metastore/api/NoSuchObjectException　　感觉是ｈｉｖｅ的问题，因为最后ｓｑｏｏｐ还是通过ｈｉｖｅ　ｌｏａｄ　数据到ｈｉｖｅ表的．　　　　　　　　　　　　　

４.　ｉｍｐｏｒｔ　mysql 直接-->ｔｅｘｔｆｉｌｅ hive表（sqoop1.4.6+hive1.2.0的版本）

４.１　使用自动建ｈｉｖｅ表的方式

#########每行最后的\后面不能有空格##########

sqoop import --connect jdbc:mysql://hadoop03:3306/test \

--username root --password root 　＼

--create-hive-table　＼

--direct　 \

--table sqoop_job \

--hive-overwrite \

--hive-import --hive-database test --hive-table sqoop１ \

--delete-target-dir --fields-terminated-by '\t' --target-dir sqoopjob -m 1

查询结果：

0: jdbc:hive2://hadoop03:20000/> select * from sqoop1;

+------------+--------------+-----------------+-------------------------+----------------------+

+------------+--------------+-----------------+-------------------------+----------------------+

| 1 | name1 | jobname1 | 2015-11-09 21:00:00 | 2015-11-09 21:00:00 |

| 2 | name2 | jobname2 | 2015-11-09 22:00:00 | 2015-11-09 22:00:00 |

| 3 | name3 | jobname3 | 2015-11-09 23:00:00 | 2015-11-09 23:00:00 |

| 4 | name4 | jobname4 | 2015-11-10 21:00:00 | 2015-11-10 21:00:00 |

+------------+--------------+-----------------+-------------------------+----------------------+

４.２　使用手动建ｈｉｖｅ表的方式

CREATE TABLE `sqoop_job` (

`id` int ,

`name` string ,

`jobname` string ,

`date_time` string ,

`time` string

)

row format delimited fields terminated by '\t'

stored as textfile；

执行语句：

sqoop import --connect jdbc:mysql://hadoop03:3306/test \

--username root --password root --direct \

--hive-overwrite \

--query 'SELECT id as id,name as name ,jobname as jobname,formatTimeStamp as date_time,time as time FROM test.sqoop_job WHERE $CONDITIONS \

--hive-import --hive-database test --hive-table sqoop_job \

--delete-target-dir --fields-terminated-by '\t' --target-dir sqoopjob -m 1

--query 后面跟的sql语句,如果有单引号''引起来的内容,整个语句用""双引号,使用\$转义$,否则不用.

--query "SELECT id as id,name as name ,jobname as jobname,formatTimeStamp as date_time,time as time FROM test.sqoop_job WHERE \$CONDITIONS"

查询结果：

0: jdbc:hive2://hadoop03:20000/> select * from sqoop_job;

+---------------+-----------------+--------------------+------------------------+----------------------+

+---------------+-----------------+--------------------+------------------------+----------------------+

| 1 | name1 | jobname1 | 2015-11-09 21:00:00.0 | 2015-11-09 21:00:00 |

| 2 | name2 | jobname2 | 2015-11-09 22:00:00.0 | 2015-11-09 22:00:00 |

| 3 | name3 | jobname3 | 2015-11-09 23:00:00.0 | 2015-11-09 23:00:00 |

| 4 | name4 | jobname4 | 2015-11-10 21:00:00.0 | 2015-11-10 21:00:00 |

+---------------+-----------------+--------------------+------------------------+----------------------+

问题：ｍｙｓｑｌ的ｄａｔｅｔｉｍｅ类型对应的字段多了一个．０

解决：不用－－ｑｕｅｒｙ，换成－－ｔａｂｌｅ的方式，就不会多出．０。具体原因不知道。

#Cannot specify --query and --table together.

#--table 不能和--query一起使用

５.　ｉｍｐｏｒｔ　mysql -->ｈｄｆｓ－－>parquet hive表（sqoop1.4.6+hive1.2.0的版本）

5.1 mysql -->ｈｄｆｓ:

测试hdfs路径设为hive表在hdfs的存储路径：报错

手动创建hive表:

CREATE TABLE `parquet_sqoop_job` (

`id` int ,

`name` string ,

`jobname` string ,

`date_time` string ,

`time` string

)

row format delimited fields terminated by '\t'

stored as parquet;

执行语句:

sqoop import

--connect jdbc:mysql://hadoop03:3306/test

--username root

--password root

--mapreduce-job-name FromMySQL2HDFS

--table sqoop_job

--fields-terminated-by "\t"

--delete-target-dir

--target-dir /user/hive/warehouse/test.db/parquet_sqoop_job

--null-string '\\N'

--fields-terminated-by '\t'

--null-non-string '\\N'

--num-mappers 1

--as-parquetfile

报错:（sqoop1.4.7同样）

19/03/03 23:07:02 ERROR sqoop.Sqoop: Got exception running Sqoop: org.kitesdk.data.ValidationException: Namespace test.db is not alphanumeric (plus '_')

org.kitesdk.data.ValidationException: Namespace test.db is not alphanumeric (plus '_')

--as-parquetfile 是不予许Namespace中有.的;同时Dataset中也不能有.的。

类似的问题还可以参看:https://issues.apache.org/jira/browse/SQOOP-2874

textfile是可以这样的,重复执行会覆盖源表已经有的内容.

设置target-dir路径为其他路径：

# sqoop1.4.6 --as-parquetfile 配合--query 失败，支持 --as-parquetfile和--table

sqoop import \

--connect jdbc:mysql://hadoop03:3306/test \

--username root \

--password root \

--query "SELECT * FROM sqoop_job WHERE \$CONDITIONS" \

--target-dir /sqoop/import/user_parquet \

--delete-target-dir \

--num-mappers 1 \

--as-parquetfile

报错：NullPointerException

19/03/03 00:47:32 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.NullPointerException

java.lang.NullPointerException

at org.apache.sqoop.tool.CodeGenTool.generateORM(CodeGenTool.java:97)

at org.apache.sqoop.tool.ImportTool.importTable(ImportTool.java:478)

at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:605)

at org.apache.sqoop.Sqoop.run(Sqoop.java:143)

at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)

at org.apache.sqoop.Sqoop.runSqoop(Sqoop.java:179)

at org.apache.sqoop.Sqoop.runTool(Sqoop.java:218)

at org.apache.sqoop.Sqoop.runTool(Sqoop.java:227)

at org.apache.sqoop.Sqoop.main(Sqoop.java:236)

参看： https://issues.apache.org/jira/plugins/servlet/mobile#issue/SQOOP-2582

# sqoop1.4.6 支持 --as-parquetfile和--table

sqoop import \

--connect jdbc:mysql://hadoop03:3306/test \

--username root \

--password root \

--table sqoop_job \

--target-dir /sqoop/import/user_parquet \

--delete-target-dir \

--num-mappers 1 \

--as-parquetfile

创建hive外部表:

CREATE external TABLE `ex_parquet_sqoop_job` (

`id` int ,

`name` string ,

`jobname` string ,

`date_time` string ,

`time` string

)

stored as parquet

location "/sqoop/import/user_parquet" ;

查询结果:

+-----+--------+-----------+------------+----------------------+--+

+-----+--------+-----------+------------+----------------------+--+

+-----+--------+-----------+------------+----------------------+--+

发现date_time字段为null;试过将date_time字段类型换为timestamp、bigint均为null；

无奈，果断安装sqoop1.4.7。

6. 安装sqoop1.4.7（sqoop1.4.7+hive1.2.0的版本）

下载：http://mirror.bit.edu.cn/apache/sqoop/1.4.7/

6.1 初次执行sqoop 1.4.7 :import 报错

ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver class: com.mysql.jdbc.Driver

解决：lib/下添加mysql连接jar包：

ln -s /home/software/sqoop-1.4.4.bin__hadoop-2.0.4-alpha/lib/mysql-connector-java-5.1.38-bin.jar /home/software/sqoop1.4.7/lib/mysql-connector-java-5.1.38-bin.jar

java.lang.ClassNotFoundException: org.json.JSONObject

解决：下载java-json.jar包,放到lib/目录下.下载地址: http://www.java2s.com/Code/Jar/j/Downloadjavajsonjar.htm

继续填坑:

19/03/03 16:43:50 ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.

19/03/03 16:43:50 ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf

解决:原因是缺少hive的hive-common-.jar包;找到hive/lib/下的hive-common-.jar将其添加到sqoop的lib/下(我的是hive-common-1.2.0.jar):

ln -s /home/software/apache-hive-1.2.0-bin/lib/hive-common-1.2.0.jar /home/software/sqoop1.4.7/lib/hive-common-1.2.0.jar

解决之后继续执行import出现:

19/03/03 16:50:33 INFO hive.HiveImport: Loading uploaded data into Hive

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hive/shims/ShimLoader

原因:

百度,有大佬说: shims相关类是用来兼容不同的hadoop和hive版本的

详见: https://blog.51cto.com/caiguangguang/1564601

估计是sqoop1.4.7版本与hive1.2.0版本不兼容吧,于是更新hive到hive2.3.4的版本.

7. 安装、配置hive2.3.4 （sqoop1.4.7+hive2.3.4的版本）

具体安装配置见我的另外一篇文章。。。。

7.1 替换hive-common-2.3.4.jar

删除原来hive-common-1.2.0.jar的软连接，替换为hive-common-2.3.4.jar：

ln -s /home/software/apache-hive-2.3.4-bin/lib/hive-common-2.3.4.jar /home/software/sqoop1.4.7/lib/hive-common-2.3.4.jar

7.2 修改sqoop-env.sh hive_home路径

7.3 执行import 作业 .

Mysql --> parquet hive表:失败

sqoop import --connect jdbc:mysql://hadoop03:3306/test --username root --password root --table sqoop_job --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --hive-overwrite --create-hive-table --hive-table test.sqoop --delete-target-dir -m 1 --null-string '\\N' --null-non-string '\\N' --as-parquetfile

提示: Hive import and create hive table is not compatible with importing into ParquetFile format.

表明1.4.7的也是不支持parquetfile直接导入hive表的;

同时,--as-parquetfile hive中表事先存在也不行.

Mysql --> hdfs --> parquet hive表:成功

--as-parquetfile配合--query一起使用：支持

sqoop import \

--connect jdbc:mysql://hadoop03:3306/test \

--username root \

--password root \

--query 'SELECT id as id,name as name ,jobname as jobname,formatTimeStamp as date_time,time as time FROM test.sqoop_job WHERE $CONDITIONS' \

--target-dir /sqoop/import/user_parquet \

--delete-target-dir \

--num-mappers 1 \

--as-parquetfile

hive建立外部表:

CREATE external TABLE `ex_parquet_sqoop_job` (

`id` int ,

`name` string ,

`jobname` string ,

`date_time` bigint ,

`time` string

)

stored as parquet

location "/sqoop/import/user_parquet" ;

查看结果:

0: jdbc:hive2://hadoop03:20000/> select * from ex_parquet_sqoop_job;

+--------------------------+----------------------------+-------------------------------+---------------------------------+----------------------------+

+--------------------------+----------------------------+-------------------------------+---------------------------------+----------------------------+

| 1 | name1 | jobname1 | 1447074000000 | 2015-11-09 21:00:00 |

| 2 | name2 | jobname2 | 1447077600000 | 2015-11-09 22:00:00 |

| 3 | name3 | jobname3 | 1447081200000 | 2015-11-09 23:00:00 |

| 4 | name4 | jobname4 | 1447160400000 | 2015-11-10 21:00:00 |

+--------------------------+----------------------------+-------------------------------+---------------------------------+----------------------------+

date_time是时间戳的数据存储了.

date_time类型建为除bigint类型的其他类型会报错:

Error: java.io.IOException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.UnsupportedOperationException: Cannot inspect org.apache.hadoop.io.LongWritable (state=,code=0)
Error: java.io.IOException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.ClassCastException: org.apache.hadoop.io.LongWritable cannot be cast to org.apache.hadoop.hive.serde2.io.DateWritable (state=,code=0)

注意: hive表与mysql字段名不一致时,parquet文件,还是要使用--query sql语句指定对应的别名与源mysql表中的字段对应,最好都这样做.否则,仍会发现date_time是null的情况.(上面5小节的问题应该也是这个的问题,之前没发现)

如使用这个import语句:

sqoop import \

--connect jdbc:mysql://hadoop03:3306/test \

--username root \

--password root \

--table sqoop_job \

--target-dir /sqoop/import/user_parquet \

--delete-target-dir \

--num-mappers 1 \

--as-parquetfile

最后体会,还是尽量都更新为最新的比较稳定的版本吧.

你可能感兴趣的:(sqoop,1.x)

log4j 1.x 日志输出线程以唯一ID的形式配置 &loopy& log4j 单元测试
在Log4j1.x中，直接以线程ID（如Java中的Thread.currentThread().getId()返回的ID）的形式记录日志是可行的，但Log4j1.x本身并不直接提供一个内建的、自动将每个线程ID转换为“同一时间段内唯一ID”的机制。线程ID本身在JVM的上下文中就是唯一的（直到它被回收并重用，但这种情况在大多数应用中很罕见），但它不是跨JVM或跨系统唯一的。如果你的需求是确保即使
Log4j 1.x如何升级到Log4j 2.x &loopy& log4j 单元测试
Log4j1.x升级到Log4j2.x是一个涉及多个步骤的过程，主要包括删除旧版本、添加新版本依赖、配置新版本的配置文件等。以下是一个详细的升级步骤指南：一、准备阶段了解当前项目依赖：检查项目中所有使用Log4j1.x的地方，包括jar包和配置文件（如log4j.properties）。确定项目中是否还使用了与Log4j1.x相关的其他库，如slf4j-log4j12。备份当前配置：在进行任何更改
hive学习笔记之五：分桶程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》的第五篇
spring cloud gateway实现流程介绍筱帅2021 微服务网关 java
文章目录前言一、SpringCloudGateway功能特征二、SpringCloudGateway流程分析三、Filter过滤器前言在SpringCloud微服务体系中，有个很重要的组件就是网关，在1.x版本中都是采用的Zuul网关；但在2.x版本中，zuul的升级一直跳票，SpringCloud最后自己研发了一个网关替代Zuul，那就是SpringCloudGateway。还有一点就是Gate
学习大数据DAY43 Sqoop 安装，配置环境和使用工科小石头大数据培训学习大数据 sqoop hive hadoop
目录sqoop安装配置mysqlsqoop安装sqoop指令集sqoop使用sqoop创建hive表sqoop全量导入表sqoop增量导入表sqoop全量导出表sqoop分区表导入表sqoop分区表导出表上机练习sqoop安装配置mysqlcreatedatabasetestDEFAULTCHARACTERSETutf8DEFAULTCOLLATEutf8_general_ci;--创建数据库sh
python读取hive数据库_利用pyhive将hive查询数据导入到mysql weixin_39939668 python读取hive数据库
在大数据工作中经常碰到需要将hive查询数据导入到mysql的需求，常见的方法主要有两种，一是sqoop，另一种则是pyhive。本文主要讲的就是python的pyhive库的安装与使用。pyhive作用远程连接hive数据库，运行hivesql，而不需要登录到安装有hive的服务器上去可以更方便处理更多连续命令，可以封装一些经常需要复用的命令脚本化，不需要编译，随时改，随时执行看结果方便对hiv
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
【面试题】2024前端面试真题_中国电信前端面试(1) 2401_84437604 程序员前端面试职场和发展
字节跳动一面（过了）手写代码实现一个reactmemo效果，react.meno第二个参数是什么pureComponent手写代码实现一个有状态的倒计时浏览器强缓存，cacle-control有哪些字段浏览器缓存原理微信原生小程序性能指标有没有看过qiankun的底层原理webpack5缓存有哪几种方式强缓存和协商缓存的状态码是多少HTTP2.0相当于1.X有哪些优势webpack是利用什么机制分
1.X Python基础-常用函数 iJaa Python
目录一、内置函数1.1类型比较-isinstance()二、其他函数2.1随机整数-random.randint()一、内置函数1.1类型比较-isinstance()描述用来判断一个对象是否是某个类型语法isinstance(object,classinfo)object：一个实例的对象classinfo：类型名（直接或间接的类名、以及基本类型，或者由类型名组成的元组）返回值：Bool类型（Tr
使用Tensorflow目标检测API训练自己的数据集是我真的是我
使用官方1.x的目标检测API，安装过程见：https://www.jianshu.com/p/3257a32d4c5a一、制作数据集制作自己的数据集可以参考该方式：https://www.bilibili.com/video/BV1kV411k7D8即准备好图片集，然后利用LabelImg等公开标注软件进行标注并生成指定格式的标注文件。本文使用COCO数据集制作为tf_record格式数据集:C
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
HTTP/2：网络传输的革新与优化 liuxin33445566 网络 http 网络协议
摘要HTTP/2是超文本传输协议（HTTP）的第二个主要版本，旨在解决HTTP/1.x版本中存在的一些性能问题，如队头阻塞、连接复用不足等。本文将详细介绍HTTP/2的基本概念、特性、优化机制以及如何通过这些机制改善网络传输效率。1.HTTP/2简介HTTP/2基于SPDY协议，由互联网工程任务组（IETF）标准化为RFC7540。它在保持与HTTP/1.x相同的语义的同时，引入了新的二进制框架来
Sqoop一些常用命令及参数大数据小同学
常用命令列举这里给大家列出来了一部分Sqoop操作时的常用参数，以供参考，需要深入学习的可以参看对应类的源代码。命令类说明importImportTool将数据导入到集群exportExportTool将集群数据导出codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jarcreate-hive-tableCreateHiveTableTool创建Hive表evalEval
5. 升级 Spring Boot（Upgrading Spring Boot）浅笑_微梦 #SpringBoot 中文文档 spring boot java
5.升级SpringBoot（UpgradingSpringBoot）项目wiki提供如何从SpringBoot早期版本升级的说明。请按照releasenotes部分查找要升级到的版本。升级说明总是版本说明的第一部分。如果您的版本落后一个以上，请确保您已经查看了所跳过版本的发行说明。5.1从1.x升级（UpgradingFrom1.x）如果您要从SpringBoot的1.x版本升级，请查看项目wi
dcat admin自定义操作按钮 fendouweiqian dcat admin laravel
dcatadmin自定义按钮，弹框操作，虽然有文档但是有一些地方没写清楚文档地址：https://learnku.com/docs/dcat-admin/1.x/tools-form/8125#modal运行phpartisanadmin:action命令，选择选项2，生成数据表格行操作类这里生成的代码关键部分没有点出来，跟官方文档不一样方法全部删掉，直接添加render渲染我尝试过，不删除其他的
hive学习笔记之九：基础UDF 程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》的第九篇
Hadoop生态圈陈超Terry的技术屋
生态圈1.HBase的数据存储在HDFS里2.MapReduce可以计算HBase里的数据，也可以计算HDFS里的数据3.Hive是数据分析数据引擎，也是MapReduce模型，支持SQL4.Pig也是一个数据分析引擎，不支持SQL，有自己的PigLatin数据5.Sqoop是数据采集工具，针对关系数据库6.Flume是针对文件等数据的采集7.Hadoop的HA通过Zookeeper来实现8.HU
HTTP查阅手册地址 iuiyiyut
https://developer.mozilla.org/zh-CN/docs/Web/HTTP教程HTTP概述HTTP缓存HTTPcookiesHTTP访问控制（CORS）HTTP的演变Mozillaweb安全引导HTTP消息典型的HTTP会话HTTP/1.x中的连接管理参考文档HTTP首部HTTP请求方法HTTP状态返回码CSP指令工具与资源Firefox开发者工具MozillaObserv
el-table无限滚动加载更多-翻页 coderfl
element-ui的表格与无限滚动的结合（el-table+infinite-scroll）安装（建议安装1.X版本，2.X版本目前报错无法使用）npminstall--saveel-table-infinite-scroll@1全局引入importVuefrom'vue';importelTableInfiniteScrollfrom'el-table-infinite-scroll';Vue
hive学习笔记之三：内部表和外部表程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》系列的第
Sqoop 入门基础香菜的开发日记 sqoop hadoop hive
简介Sqoop（SQLtoHadoop）是一个开源工具，用于在关系型数据库和Hadoop之间传输数据。它提供了一种快速高效的方式，将数据从关系型数据库导入到Hadoop集群进行分析，并支持将Hadoop集群中的数据导出到关系型数据库中。本篇教程将详细介绍Sqoop的全部用法，包括基本概念、使用方法和实例代码。我们将创建一个示例数据表，并使用Sqoop来导入和导出数据。一、准备工作在开始之前，请确保
shell脚本循环遍历日期，用于sqoop脚本茂盛哥哥
#!/bin/bashfirst="$1"second="$2"while["$first"!="$second"]dodate=`date-d"$first"+"%Y-%m-%d"`sqoopexport\--connectjdbc:mysql://\--username\--password\--tabledwd_fact_front_orderinfo\--export-dir/user/h
Sqoop你用对了吗？你值得拥有更好的12138
个人想法，有错请指出怎么让sqoop流程化1.首先创造配置表和任务表tb_configidjdbc_urluserpass_wordcolumnstablehive_tableis_incremental1jdbc:mysql....rootrootid,user,pwuseruser0taskidtask_nameconf_idstatusctimeretrys1sqoop_table_is_i
学习总结 - swift适配器为 Hadoop 的存储层增加对 OpenStack Swift 的支持天地不仁以万物为刍狗分布式解决方案
虽然文档内所涉及的版本有点旧，但内容很精彩，值得推荐背景在Hadoop中有一个抽象文件系统的概念，它有多个不同的子类实现，由DistributedFileSystem类代表的HDFS便是其中之一。在Hadoop的1.x版本中，HDFS存在NameNode单点故障，并且它是为大文件的流式数据访问而设计的，不适合随机读写大量的小文件。本文将探讨通过使用其他的存储系统，例如OpenStackSwift对
HIVE中小文件问题这孩子谁懂哈 HIVE hive hadoop 数据仓库
一、小文件产生原因1.动态分区插入数据，会产生大量小文件2.数据源本来就含有大量小文件3.数据增量导入，如Sqoop数据导入，增量insert导入数据等4.分桶表（主要是切分文件，容易产生小文件问题）1.2.3都是数据导入的问题：hive中的小文件肯定是向hive表中导入数据时产生，所以先看下向hive中导入数据的几种方式1.直接向表中插入数据insertintotableAvalues(1,'z
大数据开发之Sqoop详细介绍只是甲
备注:测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在Sqoop的帮助下，轻松地把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中；同时也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Sqoop是一个在结构化数据和Had
Datax ETL工具源码研究 Spring1985
由于公司数据共享交换产品中需要用到数据交换工具，所以对数据交换工具进行了大量的研究，目前比较流行的数据交换工具有Kittle、Sqoop、KafkaConnect、DataX；以下是个人的一点比对结果：如下四款工具除了Kittle其他的共同点都是面向插件方式开发，扩展性都比较好。Kittle优点：与大数据Hadoop结合比较好，功能比较齐全，强大，支持数据库，文件数据读写，界面拖拽方式操作；缺点：
2018-07-19 sqoop 江江江123
sqoop:数据从传统数据库到到hadoop的导入,导出安装：1.解压2.修改配置文件cdSQOOP_HOME/conf$mvsqoop-env-template.shsqoop-env.sh打开sqoop-env.sh并编辑下面几行：exportHADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.6.1/exportHADOOP_MAPRED_HOME=/
离线数仓（一）【数仓概念、需求架构】让线程再跑一会离线数仓大数据
前言今天开始学习数仓的内容，之前花费一年半的时间已经学完了Hadoop、Hive、Zookeeper、Spark、HBase、Flume、Sqoop、Kafka、Flink等基础组件。把学过的内容用到实践这是最重要的，相信会有很大的收获。1、数据仓库概念1.1、概念数据仓库（DataWarehouse），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。（数据仓库的目的
计算机毕业设计PyFlink+Hadoop+Hive民宿数据分析可视化大屏民宿推荐系统民宿爬虫民宿大数据知识图谱机器学习大数据毕业设计计算机毕业设计大神
流程1.selenium自动化爬虫框架采集民宿数据约10万条存入.csv文件作为数据集；2.使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；3.使用hive数仓技术建表建库，导入.csv数据集；4.离线分析采用hive_sql完成，实时分析利用Flink之Scala、FlinkSQL完成;5.统计指标使用sqoop导入mysql数据库；6
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

这两天搞sqoop1.x遇到的坑

1. mysql建表

２. 插入数据

将mysql表结构同步到hive（实际不建议这样做，手动在ｈｉｖｅ建表）

查看建表语句：

３. ｉｍｐｏｒｔ mysql 直接--> parquet hive表：失败（sqoop1.4.6+hive1.2.0的版本）

３.１hive建表

４. ｉｍｐｏｒｔ mysql 直接-->ｔｅｘｔｆｉｌｅ hive表（sqoop1.4.6+hive1.2.0的版本）

４.１ 使用自动建ｈｉｖｅ表的方式

#########每行最后的\后面不能有空格##########

４.２ 使用手动建ｈｉｖｅ表的方式

执行语句：

查询结果：

５. ｉｍｐｏｒｔ mysql -->ｈｄｆｓ－－>parquet hive表（sqoop1.4.6+hive1.2.0的版本）

5.1 mysql -->ｈｄｆｓ:

测试hdfs路径设为hive表在hdfs的存储路径：报错

手动创建hive表:

报错:（sqoop1.4.7同样）

设置target-dir路径为其他路径：

# sqoop1.4.6 --as-parquetfile 配合--query 失败，支持 --as-parquetfile和--table

# sqoop1.4.6 支持 --as-parquetfile和--table

创建hive外部表:

查询结果:

6. 安装sqoop1.4.7（sqoop1.4.7+hive1.2.0的版本）

6.1 初次执行sqoop 1.4.7 :import 报错

7. 安装、配置hive2.3.4 （sqoop1.4.7+hive2.3.4的版本）

7.1 替换hive-common-2.3.4.jar

7.2 修改sqoop-env.sh hive_home路径

7.3 执行import 作业 .

Mysql --> parquet hive表:失败

Mysql --> hdfs --> parquet hive表:成功

hive建立外部表:

查看结果:

你可能感兴趣的:(sqoop,1.x)

２.　插入数据

将mysql表结构同步到hive（实际不建议这样做，手动在ｈｉｖｅ建表）　

３.　ｉｍｐｏｒｔ　mysql 直接--> parquet hive表：失败（sqoop1.4.6+hive1.2.0的版本）

４.　ｉｍｐｏｒｔ　mysql 直接-->ｔｅｘｔｆｉｌｅ hive表（sqoop1.4.6+hive1.2.0的版本）

４.１　使用自动建ｈｉｖｅ表的方式

４.２　使用手动建ｈｉｖｅ表的方式

５.　ｉｍｐｏｒｔ　mysql -->ｈｄｆｓ－－>parquet hive表（sqoop1.4.6+hive1.2.0的版本）