qq_36881881

Sqoop全量增量将数据从SqlServer/MySQL导入HDFS/Hive，再从HDFS/Hive导出到数据库最全总结

最近总结了很全的sqoop应用，有以下内容

1.SqlServer/MySQL全量增量导入HDFS/Hive，

2.HDFS导入hive

3.hdfs导出到SqlServer/MySQL

4.hive导出到hdfs

5.hive导出到SqlServer/MySQL

6.还有以上过程的注意事项、操作过程中可能遇到的错误、改正方法

如有不正确的地方，欢迎各位指正^_^；有不太清楚的地方也可以咨询我哦。

1.参数说明

2.全量导入

2.1SqlServer表全量导入hdfs

2.2MySQL表全量导入hdfs

2.3SqlServer表全量导入hive

2.4表全量导入hive

2.5补充说明

3.增量导入

3.1SqlServer表增量导入hdfs

3.1.1 Append模式

3.1.2lastmodified模式

3.2 SqlServer表增量导入hive

4新增其他

4.1HDFS导入Hive

4.2HDFS导出到MySQL

4.3 Hive导出到HDFS

4.4 Hive导出到MySQL

4.5 Hive导出到SqlServer

5语法总结

6问题总结

6.1navicat 连接sql server出现错误提示：未发现数据源名称并且未指定默认驱动程序

6.2 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver

6.3ERROR tool.ImportTool: Import failed: No primary key could be found for table Outwork. Please specify one with --split-by or perform a sequential import with '-m 1'.

6.4ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.

6.5Error: java.io.IOException: Cannot run program "mysqldump": error=2, No such file or directory

6.6ERROR manager.SqlManager: Error executing statement: com.microsoft.sqlserver.jdbc.SQLServerException: 在有預期條件的內容中指定的非布林類型運算式，接近 '('

6.7WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by default if explicit option isn't set. For compliance with existing applications not using SSL the verifyServerCertificate property is set to 'false'. You need either to explicitly disable SSL by setting useSSL=false, or set useSSL=true and provide truststore for server certificate verification

1.参数说明

--connect : 要连接的数据库JDBC-URL

--username：登录数据库的用户名

--password：登录数据的密码

--table ：需要导出的表

--target-dir ：目标目录

--delete-target-dir hdfs导入的目录存在的话先删除

--split-by：字段的分隔符

--columns <列名> ：指定列

--where<条件>：指定条件

--query：SQL条件选择导入

-m 2 ：表示由两个mapper作业执行

--hive-import：导入hive时一定要加此参数，否则无法成功导入hive中

--fields-terminated-by "\t" ：是设置每列之间的分隔符

--lines-terminated-by "\n" ：设置的是每行之间的分隔符，此处为换行符，也是默认的分隔符

查看hdfs里的文件：hadoop fs -ls hdfs://nameservice/user/root/

删除hdfs里面的文件：hadoop fs -rmr hdfs://nameservice/user/root/t00_test

查看导入hdfs的数据：hadoop fs -cat hdfs://nameservice/user/root/t00_test/part-m-00000

查看导入hive表数据：

hadoop fs -ls hdfs://nameservice/user/hive/warehouse/testhive.db

删除hive表数据：

hadoop fs -rmr hdfs://nameservice/user/hive/warehouse/testhive.db

2.全量导入

2.1SqlServer表全量导入hdfs

直接导入全表

sqoop import --connect 'jdbc:sqlserver://192.168.1.1:1433;database=HisData00' --username aaa --password 123 --table t00_test --fields-terminated-by '\t' -m 1

导入指定列

sqoop import --connect 'jdbc:sqlserver://192.168.1.1:1433;database=HisData00' --username aaa --password 123 --table t00_test --columns 'v00, v01' --where 'v01>5' --fields-terminated-by '\t' -m 1

SQL语句导入指定列

（有条件）

sqoop import --connect 'jdbc:sqlserver://192.168.1.1:1433;database=HisData00' --username aaa --password 123 --target-dir 'hdfs://nameservice/user/root/t00_test1' --query "select v00, v01 from t00_test where v01<50 and \$CONDITIONS" --fields-terminated-by '\t' -m 1

（无条件）

注意

（1）SQL语句必须要用双引号，其他引号可单可双。

（2）必须制定目标文件的位置，--target-dir HDFS目标目录，目录如果设定在本地，则可能会提示权限不足导入失败。

（3）用sql选择导入则必须加入where \$CONDITIONS。

（4）SQL导入就不能再加--table tablename 语句了。

2.2MySQL表全量导入hdfs

跟SqlServer一样，只是数据库这里要稍作一下改变：

sqoop import --connect 'jdbc:mysql://192.168.1.1:3306/test?useUnicode=true&characterEncoding=utf-8&useSSL=false' --username test --password wells@Test123 --table t00_test --fields-terminated-by "\t" -m 1

2.3SqlServer表全量导入hive

直接导入全表

sqoop import --connect 'jdbc:sqlserver://192.168.1.1:1433;database=HisData00' --username aaa --password 123 --table t00_test --hive-database testhive --hive-import --hive-table t00_test --fields-terminated-by '\t' -m 1

导入指定列

sqoop import --connect 'jdbc:sqlserver://192.168.100.1.1:1433;database=HisData00' --username aaa --password 123 --table t00_test --hive-database testhive --hive-import --hive-table t00_test --columns 'v00, v01' --where 'v01>30' --fields-terminated-by '\t' -m 1

SQL语句导入指定列

sqoop import --connect 'jdbc:sqlserver://192.168.1.1:1433;database=HisData00' --username aaa --password 123 --target-dir 'hdfs://nameservice/user/hive/warehouse/testhive.db/t00_test' --query "select v00, v01 from t00_test where v01<50 and \$CONDITIONS" --hive-database testhive --hive-import --hive-table t00_test --fields-terminated-by '\t' -m 1

2.4MySQL表全量导入hive

直接导入全表

2.5补充说明

重要的前提：要进行导入和导出，首先必须要有访问和写入权限。
Sqoop直接从MySQL/SQLServer导入表给Hive的时候，如果HDFS里面存在这个表，即使Hive里面没有这个表，也不成功，要删掉HDFS的表才能成功。因为Sqoop直接从MySQL/SQLServer导入到Hive本质是先到HDFS，再到Hive。
-m后面的数字表示map任务数，如果设为大于1的数，即表示导入方式为并发导入，这时我们必须同时指定- -split-by参数指定根据哪一列来实现哈希分片，从而将不同分片的数据分发到不同 map 任务上去跑，避免数据倾斜。
生产环境中，为了防止主库被Sqoop抽崩，我们一般从备库中抽取数据。一般RDBMS的导出速度控制在60~80MB/s，每个map任务的处理速度5~10MB/s 估算，即-m 参数一般设置4~8，表示启动4~8个map任务并发抽取。
查看导入成功后的HDFS对应目录上的文件（此HDFS目录事先不需要自己建立，Sqoop会在导入的过程中自行建立，若是不写--target-dir 则默认是hdfs上的user/username/tablename 路径）

3.增量导入

3.1SqlServer表增量导入hdfs

-check-column #指定检索列

-last-value #从该值所在行开始导入

-incremental #指定导入模式

append模式：基于递增列的增量导入（将递增列值大于阈值的所有数据增量导入），只对数据进行附加，不支持更改

lastmodified模式：基于时间列的增量导入（将时间列大于等于阈值的所有数据增量导入），适用于对源数据进行更改，对于变动数据收集，必须记录变动时间

3.1.1 Append模式

增量导入所有列：

增量导入指定列：

sqoop import --connect 'jdbc:sqlserver://192.168.1.1:1433;database=HisData00' --username aaa --password 123 --table t00_test --check-column v00 --last-value '2019-03-17' --incremental append --columns 'v00, v01' --where 'v01>1' --fields-terminated-by '\t' -m 1

SQL语句增量导入指定列：

（有条件）

sqoop import --connect 'jdbc:sqlserver://192.168.1.1:1433;database=HisData00' --username aaa --password 123 --check-column v00 --last-value '2019-03-17' --incremental append --target-dir 'hdfs://nameservice/user/root/t00_test1' --query "select v00, v01 from t00_test where v01<50 and \$CONDITIONS" --fields-terminated-by '\t' -m 1

（无条件）

3.1.2lastmodified模式

sqoop import --connect 'jdbc:sqlserver://192.168.1.1:1433;database=HisData00' --username aaa --password 123 --table t00_test --check-column v00 --last-value '2019-03-17' --incremental lastmodified --merge-key v00 --fields-terminated-by '\t' -m 1

sqoop import --connect 'jdbc:sqlserver://192.168.1.1:1433;database=HisData00' --username aaa --password 123 --table t00_copy1 --check-column occur --last-value '2015-09-05 13:35:00' --incremental lastmodified --merge-key occur --columns 'occur, v00, v01' --fields-terminated-by '\t' -m 1

特别的

如果last-value指定的值不在表中，则会对这个值进行比较，导出比这个值大的部分，比如这张表

执行--last-value '2019-03-07

3.2 SqlServer表增量导入hive

增量导入所有列：

sqoop import --connect 'jdbc:sqlserver://192.168.1.1:1433;database=HisData00' --username aaa --password 123 --table t00_test --check-column v00 --last-value '2019-03-18' --incremental append --hive-database testhive --hive-import --hive-table t00_test --fields-terminated-by '\t' -m 1

增量导入指定列：

4新增其他

4.1HDFS导入Hive

注意：HDFS导入Hive需要提前在Hive中建好要导入的表，可以用SqlServer直接导入一张空表。

hive //进入hive

>use testhive; //进入数据库

>load data inpath 'hdfs://nameservice/user/root/t00_test' into table t00_test;

退出hive用quit;

HDFS导入

4.2HDFS导出到MySQL

MySQL导出的表必须已经存在

sqoop export --connect 'jdbc:mysql://192.168.1.1:3306/test?useUnicode=true&characterEncoding=utf-8&useSSL=false' --username test --password wells@Test123 --table t00_test1 --export-dir hdfs://nameservice/user/root/t00_test -input-fields-terminated-by '\t' -m 1

4.3 Hive导出到HDFS

>insert overwrite directory 'hdfs://nameservice/user/root/t00_test' row format delimited fields terminated by '\t' select * from t00_test ;

4.4 Hive导出到MySQL

MySQL导出的表必须已经存在

sqoop export --connect 'jdbc:mysql://192.168.1.1:3306/test?useUnicode=true&characterEncoding=utf-8&useSSL=false' --username test --password wells@Test123 --table t00_test1 --export-dir hdfs://nameservice/user/hive/warehouse/testhive.db/t00_test -input-fields-terminated-by '\t' -m 1

4.5 Hive导出到SqlServer

sqoop export --connect 'jdbc:sqlserver://192.168.1.1:1433;database=HisData00' --username aaa --password 123 --table t00_test1 --export-dir hdfs://nameservice/user/hive/warehouse/testhive.db/t00_test -input-fields-terminated-by '\t' -m 1

5语法总结

（1）对比SqlServer导入hdfs和hive，导入hive只是增加hive数据库和表的说明，即：

--hive-database testhive --hive-import --hive-table t00_test

（2）对比MySQL和SqlServer，连接数据库的方式不完全一样，MySQL要多一些规则：

'jdbc:mysql:// client1:3306/test?useUnicode=true&characterEncoding=utf-8&useSSL=false'

（3）对比Append和lastmodified，lastmodified因为可以对源数据进行更改，多了唯一主键：--merge-key key

（4）导入hive不支持增量lastmodified方式。会出现如下错误提示：

--incremental lastmodified option for hive imports is not supported. Please remove the parameter --incremental lastmodified.

6问题总结

6.1navicat 连接sql server出现错误提示：未发现数据源名称并且未指定默认驱动程序

原因是navicat没有安装sqlserver驱动，就在navicat安装目录下，找到如下文件双击安装即可。

6.2 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver

解决：把mysql-connector-java 的jar包复制到 /sqoop/lib 的目录下

cd /opt/cloudera/parcels/CDH-6.0.0/lib/sqoop/lib/

6.3ERROR tool.ImportTool: Import failed: No primary key could be found for table Outwork. Please specify one with --split-by or perform a sequential import with '-m 1'.

解决：在命令中加上-m 1

6.4ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.

解决：将hive 里面的lib下的hive-exec-**.jar 放到sqoop 的lib 下

6.5Error: java.io.IOException: Cannot run program "mysqldump": error=2, No such file or directory

命令：sqoop import --connect 'jdbc:mysql://192.168.1.1:3306/test?useUnicode=true&characterEncoding=utf-8&useSSL=false' --username test --password wells@Test123 --table t00_test --hive-database testhive --hive-import --hive-table t00_test --direct --fields-terminated-by "\t" -m 1

错误：

ERROR manager.SqlManager: Error executing statement: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure

The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server.

com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure

The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server.

解决方案：

在安装了mysql的节点中使用ROOT用户查找mysqldump在哪个目录下

find / -name mysqldump

将查找到的路径下复杂mysqldump至数据节点B、C、D中

结论：这说明了sqoop导入的2种方式的底层实现不一致，direct的方式需要使用mysqldump命令实现，具体的实现带后续研究

6.6ERROR manager.SqlManager: Error executing statement: com.microsoft.sqlserver.jdbc.SQLServerException: 在有預期條件的內容中指定的非布林類型運算式，接近 '('

命令：sqoop import --connect 'jdbc:sqlserver://192.168.1.1:1433;database=HisData00' --username aaa --password 123 --target-dir 'hdfs://nameservice/user/root/t00_test1' --query 'select v00, v01 from t00_test where \$CONDITIONS' --fields-terminated-by '\t' -m 1

解决：SQL语句改为用双引号。

6.7WARN: Establishing SSL connection without server's identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by default if explicit option isn't set. For compliance with existing applications not using SSL the verifyServerCertificate property is set to 'false'. You need either to explicitly disable SSL by setting useSSL=false, or set useSSL=true and provide truststore for server certificate verification

解决：这里MySQL数据库信息后面加useUnicode=true&characterEncoding=utf-8&useSSL=false

例：jdbc:mysql:// 192.168.1.1:3306/test?useUnicode=true&characterEncoding=utf-8&useSSL=false

hive学习笔记之五：分桶程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》的第五篇
学习大数据DAY43 Sqoop 安装，配置环境和使用工科小石头大数据培训学习大数据 sqoop hive hadoop
目录sqoop安装配置mysqlsqoop安装sqoop指令集sqoop使用sqoop创建hive表sqoop全量导入表sqoop增量导入表sqoop全量导出表sqoop分区表导入表sqoop分区表导出表上机练习sqoop安装配置mysqlcreatedatabasetestDEFAULTCHARACTERSETutf8DEFAULTCOLLATEutf8_general_ci;--创建数据库sh
python读取hive数据库_利用pyhive将hive查询数据导入到mysql weixin_39939668 python读取hive数据库
在大数据工作中经常碰到需要将hive查询数据导入到mysql的需求，常见的方法主要有两种，一是sqoop，另一种则是pyhive。本文主要讲的就是python的pyhive库的安装与使用。pyhive作用远程连接hive数据库，运行hivesql，而不需要登录到安装有hive的服务器上去可以更方便处理更多连续命令，可以封装一些经常需要复用的命令脚本化，不需要编译，随时改，随时执行看结果方便对hiv
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
Sqoop一些常用命令及参数大数据小同学
常用命令列举这里给大家列出来了一部分Sqoop操作时的常用参数，以供参考，需要深入学习的可以参看对应类的源代码。命令类说明importImportTool将数据导入到集群exportExportTool将集群数据导出codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jarcreate-hive-tableCreateHiveTableTool创建Hive表evalEval
hive学习笔记之九：基础UDF 程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》的第九篇
Hadoop生态圈陈超Terry的技术屋
生态圈1.HBase的数据存储在HDFS里2.MapReduce可以计算HBase里的数据，也可以计算HDFS里的数据3.Hive是数据分析数据引擎，也是MapReduce模型，支持SQL4.Pig也是一个数据分析引擎，不支持SQL，有自己的PigLatin数据5.Sqoop是数据采集工具，针对关系数据库6.Flume是针对文件等数据的采集7.Hadoop的HA通过Zookeeper来实现8.HU
hive学习笔记之三：内部表和外部表程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》系列的第
Sqoop 入门基础香菜的开发日记 sqoop hadoop hive
简介Sqoop（SQLtoHadoop）是一个开源工具，用于在关系型数据库和Hadoop之间传输数据。它提供了一种快速高效的方式，将数据从关系型数据库导入到Hadoop集群进行分析，并支持将Hadoop集群中的数据导出到关系型数据库中。本篇教程将详细介绍Sqoop的全部用法，包括基本概念、使用方法和实例代码。我们将创建一个示例数据表，并使用Sqoop来导入和导出数据。一、准备工作在开始之前，请确保
shell脚本循环遍历日期，用于sqoop脚本茂盛哥哥
#!/bin/bashfirst="$1"second="$2"while["$first"!="$second"]dodate=`date-d"$first"+"%Y-%m-%d"`sqoopexport\--connectjdbc:mysql://\--username\--password\--tabledwd_fact_front_orderinfo\--export-dir/user/h
Sqoop你用对了吗？你值得拥有更好的12138
个人想法，有错请指出怎么让sqoop流程化1.首先创造配置表和任务表tb_configidjdbc_urluserpass_wordcolumnstablehive_tableis_incremental1jdbc:mysql....rootrootid,user,pwuseruser0taskidtask_nameconf_idstatusctimeretrys1sqoop_table_is_i
HIVE中小文件问题这孩子谁懂哈 HIVE hive hadoop 数据仓库
一、小文件产生原因1.动态分区插入数据，会产生大量小文件2.数据源本来就含有大量小文件3.数据增量导入，如Sqoop数据导入，增量insert导入数据等4.分桶表（主要是切分文件，容易产生小文件问题）1.2.3都是数据导入的问题：hive中的小文件肯定是向hive表中导入数据时产生，所以先看下向hive中导入数据的几种方式1.直接向表中插入数据insertintotableAvalues(1,'z
大数据开发之Sqoop详细介绍只是甲
备注:测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在Sqoop的帮助下，轻松地把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中；同时也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Sqoop是一个在结构化数据和Had
Datax ETL工具源码研究 Spring1985
由于公司数据共享交换产品中需要用到数据交换工具，所以对数据交换工具进行了大量的研究，目前比较流行的数据交换工具有Kittle、Sqoop、KafkaConnect、DataX；以下是个人的一点比对结果：如下四款工具除了Kittle其他的共同点都是面向插件方式开发，扩展性都比较好。Kittle优点：与大数据Hadoop结合比较好，功能比较齐全，强大，支持数据库，文件数据读写，界面拖拽方式操作；缺点：
2018-07-19 sqoop 江江江123
sqoop:数据从传统数据库到到hadoop的导入,导出安装：1.解压2.修改配置文件cdSQOOP_HOME/conf$mvsqoop-env-template.shsqoop-env.sh打开sqoop-env.sh并编辑下面几行：exportHADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.6.1/exportHADOOP_MAPRED_HOME=/
离线数仓（一）【数仓概念、需求架构】让线程再跑一会离线数仓大数据
前言今天开始学习数仓的内容，之前花费一年半的时间已经学完了Hadoop、Hive、Zookeeper、Spark、HBase、Flume、Sqoop、Kafka、Flink等基础组件。把学过的内容用到实践这是最重要的，相信会有很大的收获。1、数据仓库概念1.1、概念数据仓库（DataWarehouse），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。（数据仓库的目的
计算机毕业设计PyFlink+Hadoop+Hive民宿数据分析可视化大屏民宿推荐系统民宿爬虫民宿大数据知识图谱机器学习大数据毕业设计计算机毕业设计大神
流程1.selenium自动化爬虫框架采集民宿数据约10万条存入.csv文件作为数据集；2.使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；3.使用hive数仓技术建表建库，导入.csv数据集；4.离线分析采用hive_sql完成，实时分析利用Flink之Scala、FlinkSQL完成;5.统计指标使用sqoop导入mysql数据库；6
SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25 莫叫石榴姐 SQLBOY1000题 sql HiveSql面试题 sql
目录0需求分析1数据准备3数据分析4小结0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数据中，goods_type列，假设26代表是广告，现在有个需求，想获取每个用户每次搜索下非广告类型的商品位置自然排序，如果下效果：u
HiveSQL——条件判断语句嵌套windows子句的应用爱吃辣条byte #HIve SQL 大数据数据仓库
注：参考文章：SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25_sql剁成嵌套判断-CSDN博客文章浏览阅读920次，点赞4次，收藏4次。0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数
大数据课程综合实验案例---课设问题汇总钟良堂笔记大数据 hbase hadoop ubuntu echarts
最近翻看两年前的大数据课设，感觉这个大数据课设实验当时答辩在大数据课设实验过程中，我遇到了很多问题，在这里做出汇总：1、MySQL启动报错首先，我的MySQL有时候启动不了，当我输入这个命令的时候，会报很多信息出来：mysql-uroot-p有时候，我尝试了很多这个命令，就是打不开，一直显示这个信息。但有时候却可以启动，感觉很奇怪，很多时候得看运气：2、Sqoop连接MySQL报错在测试sqoop
sqoop导入数据到hdfs 鲲鹏猿 hdfs sqoop hadoop
Sqoop是apache旗下的一款”Hadoop和关系数据库之间传输数据”的工具导入数据：将MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据：从Hadoop的文件系统中导出数据到关系数据库2.Sqoop的工作机制将导入和导出的命令翻译成mapreduce程序实现在翻译出的mapreduce中主要是对inputformat和outputformat
2024-02-07（Sqoop，Flume）陈xr 随记日志 sqoop flume
1.Sqoop的增量导入实际工作中，数据的导入很多时候只需要导入增量的数据，并不需要将表中的数据每次都全部导入到hive或者hdfs中，因为这样会造成数据重复问题。增量导入就是仅导入新添加到表中的行的技术。sqoop支持两种模式的增量导入：append模式：根据数值类型字段进行追加导入，大于指定的last-value值Lastmodified模式：根据时间戳类型的字段进行追加，>=指定的last-
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比浪尖聊大数据-浪尖 sqoop flume flink hadoop hive
产品概述ApacheSeaTunnel是一个非常易用的超高性能分布式数据集成产品，支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据，已应用于数百家企业生产，也是首个由国人主导贡献到Apache基金会的数据集成顶级项目。SeaTunnel主要解决数据集成领域的常见问题：*数据源多样：常用的数据源有数百种，版本不兼容。随着新技术的出现，出现了更多的数据源。用户很难找到能够全面快速支持这些数据
数据采集工具Sqoop、Datax、Flume、Canal yue-verdure 大数据 sqoop flume 大数据阿里云
离线采集工具Sqoop1.环境配置解压安装包配置环境变量（记得source）添加MySQL驱动包到sqoop文件夹下的libcpmysql-connector-java-5.1.10.jar/sqoop-install-path/lib重命名文件并配置文件mvsqoop-env-template.shsqoop-env.sh#添加环境变量exportHADOOP_COMMON_HOME=/usr/
大数据系列—数据迁移(Sqoop,Flume,DataX)对比学习（stage3）道-闇影 big data 大数据 sqoop flume
Boys，Grils，Friends！MynameisJinsuo.Shi.一个不正经的大数据开发工程师，目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。个人大数据技术栈：DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…个人在学习领域：Python，P
数据同步工具对比——SeaTunnel 、DataX、Sqoop、Flume、Flink CDC 大数据_苡~ 041-数据同步与采集 sqoop flume flink 大数据
在大数据时代，数据的采集、处理和分析变得尤为重要。业界出现了多种工具来帮助开发者和企业高效地处理数据流和数据集。本文将对比五种流行的数据处理工具：SeaTunnel、DataX、Sqoop、Flume和FlinkCDC，从它们的设计理念、使用场景、优缺点等方面进行详细介绍。1、SeaTunnel简介SeaTunnel是一个分布式、高性能、支持多种数据源之间高效数据同步的开源工具。它旨在解决大数据处
2024-02-06（Sqoop）陈xr 随记日志 sqoop 大数据
1.SqoopApacheSqoop是Hadoop生态体系和RDBMS（关系型数据库）体系之间传递数据的一种工具。Sqoop工作机制是将导入或者导出命令翻译成MapReduce程序来实现。在翻译出的MapReduce中主要是对inputformat和outputformat进行定制。Hadoop生态包括：HDFS，Hive，Hbase等。RDBMS体系包括：Mysql，Oracle，DB2等。Sq
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装 WaiSaa
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装1简介Ambari跟Hadoop等开源软件一样，也是ApacheSoftwareFoundation中的一个项目，并且是顶级项目。就Ambari的作用来说，就是创建、管理、监视Hadoop集群，但是这里的Hadoop指的是Hadoop整个生态圈（例如Hive，Hbase，Sqoop，Zookeeper等），而并不仅是特指Had
计算机毕业设计hadoop+spark+hive小说数据分析可视化大屏小说推荐系统小说爬虫小说大数据机器学习知识图谱小说网站大数据毕业设计计算机毕业设计大神
流程1.爬取17k的小说数据约5-10万，存入mysql数据库；2.使用mapreduce对mysql中的小说数据集进行数据清洗，转为.csv文件上传至hdfs文件系统；3.根据.csv文件结构，使用hive建库建表；4.一半分析指标使用hive_sql完成，一半分析指标使用Spark-Scala完成;5.将分析结果使用sqoop导入mysql数据库；6.使用Flask+echarts构建可视化大
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

Sqoop全量增量将数据从SqlServer/MySQL导入HDFS/Hive，再从HDFS/Hive导出到数据库最全总结

1.参数说明

2.全量导入

2.1SqlServer表全量导入hdfs

2.2MySQL表全量导入hdfs

2.3SqlServer表全量导入hive

2.4MySQL表全量导入hive

2.5补充说明

3.增量导入

3.1SqlServer表增量导入hdfs

3.1.1 Append模式

3.1.2lastmodified模式

3.2 SqlServer表增量导入hive

4新增其他

4.1HDFS导入Hive

4.2HDFS导出到MySQL

4.3 Hive导出到HDFS

4.4 Hive导出到MySQL

4.5 Hive导出到SqlServer

5语法总结

6问题总结

6.1navicat 连接sql server出现错误提示：未发现数据源名称并且未指定默认驱动程序

6.2 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver

6.3ERROR tool.ImportTool: Import failed: No primary key could be found for table Outwork. Please specify one with --split-by or perform a sequential import with '-m 1'.

6.4ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.

6.5Error: java.io.IOException: Cannot run program "mysqldump": error=2, No such file or directory

6.6ERROR manager.SqlManager: Error executing statement: com.microsoft.sqlserver.jdbc.SQLServerException: 在有預期條件的內容中指定的非布林類型運算式，接近 '('

你可能感兴趣的:(sqoop)