Lucius89

Sqoop2的安装与使用

安装篇

Sqoop由两部分组成：客户端(client)和服务端(server)。需要在集群的其中某个节点上安装server，该节点的服务端可以作为其他Sqoop客户端的入口点。在服务端的节点上必须安装有Hadoop。客户端可以安装在任意数量的机子上。在装有客户端的机子上不需要安装Hadoop。

服务端安装

# 将Sqoop分布式tar包解压到任意的目录。我们将它加压到/opt目录下。
tar -zxvf sqoop-1.99.6-bin-hadoop200.tar.gz -C /opt
# 进入/opt目录
cd /opt
# 名字太长，重命名下
mv sqoop-1.99.6-bin-hadoop200 sqoop-1.99.6

安装依赖

在目录server/conf下的catalina.properties文件中配置Hadoop 库的路径。需要改变common.loader这个参数来包含Hadoop 库的所有目录。

根据hadoop的安装路径，在中common.loader添加如下的库：

/opt/hadoop-2.6.0/share/hadoop/common/*.jar,/opt/hadoop-2.6.0/share/hadoop/common/lib/*.jar,/opt/hadoop-2.6.0/share/hadoop/hdfs/*.jar,/opt/hadoop-2.6.0/share/hadoop/hdfs/lib/*.jar,/opt/hadoop-2.6.0/share/hadoop/mapreduce/*.jar,/opt/hadoop-2.6.0/share/hadoop/mapreduce/lib/*.jar,/opt/hadoop-2.6.0/share/hadoop/tools/*.jar,/opt/hadoop-2.6.0/share/hadoop/tools/lib/*.jar,/opt/hadoop-2.6.0/share/hadoop/yarn/*.jar,/opt/hadoop-2.6.0/share/hadoop/yarn/lib/*.jar,/opt/hadoop-2.6.0/share/hadoop/httpfs/*.jar,/opt/hadoop-2.6.0/share/hadoop/httpfs/lib/*.jar,/opt/hadoop-2.6.0/share/hadoop/kms/*.jar,/opt/hadoop-2.6.0/share/hadoop/kms/lib/*.jar,

如下图：

最后，需要安装JDBC驱动，将JDBC驱动放入server/lib/目录下。我们使用的是mysql，所以将下载好的mysql驱动放入到该目录下即可。

如下图：

配置PATH

建议在/etc/profile目录中增加以下环境变量以及修改$PATH，以方便使用，如下图：

Sqoop2的安装与使用_第3张图片

配置服务端

在启动服务之前，需要检测配置文件是否与你的环境相匹配。服务端的配置文件存放在 server/config目录下。你可能需要将 sqoop.properties文件中的 org.apache.sqoop.submission.engine.mapreduce.configuration.directory这个属性设置成当前安装的Hadoop的配置文件所在的目录。

如下图：

其他的一些配置

以上的各种配置信息都可以在官网中轻松获取，但是下面的配置(步骤)官网并没有给出，但在笔者的实验过程中是需要用到的，不配可能会给你带来麻烦。

1、需要在Hadoop的yarn-site.xml 这个配置文件中增加以下属性

  
  yarn.log-aggregation-enable  
  true

修改了 yarn-site.xml后重启HDFS即可。

如果，不加上面的属性，会产生什么问题呢？可能在数据迁移的过程中出现“Aggregation is not enabled”的问题，导致数据迁移失败，如下图：

Sqoop2的安装与使用_第4张图片

2、需要在安装有Sqoop服务端的节点上，启动historyserver这个进程。

在hadoop的sbin目录下执行如下命令

# /opt/hadoop-2.6.0/etc/hadoop 是我的hadoop存放配置文件的目录
./mr-jobhistory-daemon.sh start historyserver --config /opt/hadoop-2.6.0/etc/hadoop

Sqoop2的安装与使用_第5张图片

启动之后，使用jps命令查看，多出JobHistoryServer进程，如下图：

Sqoop2的安装与使用_第6张图片

如果 JobHistoryServer不启动，你可能在后面启动job时遇到以下问题：Call From ubuntu02/192.168.4.103 to 0.0.0.0:10020 failed on connection exception: java.net.ConnectException: Connection refused。如下图：

Sqoop2的安装与使用_第7张图片

最好在其他启动NodeManager的节点上也启动该进程。

客户端的安装

客户端不需要额外的安装和配置步骤。只需要将Sqoop的包放到目标节点上，并且解压到某个目录即可使用。

使用篇

服务端的启动

可以直接使用以下命令启动服务。

sqoop2-server start

如果服务端已经启动，则有Bootstrap这个进程：

Sqoop2的安装与使用_第8张图片

客户端的启动

使用以下命令，以交互式模式启动客户端：

sqoop2-shell

我们在使用的过程中可能会遇到错误，使用以下命令来使错误信息显示出来

sqoop:000> set option --name verbose --value true

连接Sqoop服务端:

 
     #我们的服务端安装在ubuntu02这个节点上所以--host是ubuntu02
sqoop:000> set server --host ubuntu02 
### 使用上面自动连接即可。(set server --host ubuntu02 --port 12000 --webapp sqoop)

验证是否已经连上

 
     sqoop:000> show version --all
client version:
  Sqoop 2.0.0-SNAPSHOT source revision 418c5f637c3f09b94ea7fc3b0a4610831373a25f
  Compiled by vbasavaraj on Mon Nov  3 08:18:21 PST 2014
server version:
  Sqoop 2.0.0-SNAPSHOT source revision 418c5f637c3f09b94ea7fc3b0a4610831373a25f
  Compiled by vbasavaraj on Mon Nov  3 08:18:21 PST 2014
API versions:
  [v1]
 
    

如果打印出类似上面的形式，表示已经连上了。

可以使用help命令来检查sqoop shell所支持的命令：

 
     sqoop:000> help
For information about Sqoop, visit: http://sqoop.apache.org/

Available commands:
  exit    (\x  ) Exit the shell
  history (\H  ) Display, manage and recall edit-line history
  help    (\h  ) Display this help message
  set     (\st ) Configure various client options and settings
  show    (\sh ) Display various objects and configuration options
  create  (\cr ) Create new object in Sqoop repository
  delete  (\d  ) Delete existing object in Sqoop repository
  update  (\up ) Update objects in Sqoop repository
  clone   (\cl ) Create new object based on existing one
  start   (\sta) Start job
  stop    (\stp) Stop job
  status  (\stu) Display status of a job
  enable  (\en ) Enable object in Sqoop repository
  disable (\di ) Disable object in Sqoop repository 
    

创建Link对象

检查Sqoop服务(server)已经注册的 connectors:

我们例子中的Generic JDBC Connector 有一个永久不变的 Id 4 ，我们会利用这个值来为connector创建新的link对象，下面创建的是连接JDBC的link：

 
     sqoop:000> create link -c 4	#注意：这边的4是connector的id，表明创建的是一个generic jdbc connector
Creating link for connector with id 2
Please fill following values to create new link object
Name: mysql-link	#注意：Name是唯一的
Link configuration
JDBC Driver Class: com.mysql.jdbc.Driver
JDBC Connection String: jdbc:mysql://ubuntu02:3306/mytest	#注意：jdbc:mysql://主机名(ip):端口/数据库名
Username: root
Password: ******
JDBC Connection Properties:
There are currently 0 values in the map:
entry#protocol=tcp
New link was successfully created with validation status OK and persistent id 3 
    

上面，我们成功创建了一个id为3的link。

使用 show connector -all 我们还可以看到一个 hdfs-connector ，它的id是4。接下来我们为hdfs connector创建一个link：

 
      sqoop:000> create link -c 3
Creating link for connector with id 1
Please fill following values to create new link object
Name: hdfs-link

Link configuration
HDFS URI: hdfs://ns1/	#注意，ns1是逻辑命名空间，我使用了两个namenode，也许你的hdfs的URI是这样的形式 hdfs://nameservice1:8020/
Hadoop conf directory:/opt/hadoop-2.6.0/etc/hadoop  #Hadoop配置文件的目录

New link was successfully created with validation status OK and persistent id 4 
     

创建Job对象

Connectors 的From 用于读取数据，To用于写入数据。使用上面的show connector -all命令可以显示出Generic JDBC Connector对From和To都是支持的。也就是说我们既可以从数据库中读取数据，也可以往数据库中写入数据。为了创建一个Job，我们需要指定Job的From和To部分，From和To部分可以使用link Id 来表示。

 
     sqoop:000> show link --all
2 link(s) to show: 
link with id 3 and name mysql-link (Enabled: true, Created by ubuntu at 7/14/15 3:58 PM, Updated by ubuntu at 7/14/15 3:58 PM)
Using Connector generic-jdbc-connector with id 4
  Link configuration
    JDBC Driver Class: com.mysql.jdbc.Driver
    JDBC Connection String: jdbc:mysql://ubuntu02:3306/mytest
    Username: root
    Password: 
    JDBC Connection Properties: 
      protocol = tcp
link with id 4 and name hdfs-link (Enabled: true, Created by ubuntu at 7/14/15 4:09 PM, Updated by ubuntu at 7/14/15 4:09 PM)
Using Connector hdfs-connector with id 3
  Link configuration
    HDFS URI: hdfs://ns1/
    Hadoop conf directory: /opt/hadoop-2.6.0/etc/hadoop 
    

接下来，我们可以使用这两个link Id来关联job的From和To部分。说的通俗一点，就是我们需要从哪里(From)读取数据,把这些数据导入(To)到哪里？

 
     sqoop:000> create job -f 3 -t 4
Creating job for links with from id 3 and to id 4
Please fill following values to create new job object
Name: testsqoop    #Name必须唯一

From database configuration

Schema name: mytest                     #必填，数据库名称
Table name: balance	                  #必填，表名
Table SQL statement: 	                  #可选
Table column names: 	    		        #可选
Partition column name: 			        #可选
Null value allowed for the partition column:      #可选
Boundary query:                        #可选

Incremental read

Check column:                         #可选
Last value:                          #可选

To HDFS configuration

Override null value:                    #可选
Null value: 
Output format: 
  0 : TEXT_FILE
  1 : SEQUENCE_FILE
Choose: 0                           #必选 
Compression format: 
  0 : NONE
  1 : DEFAULT
  2 : DEFLATE
  3 : GZIP
  4 : BZIP2
  5 : LZO
  6 : LZ4
  7 : SNAPPY
  8 : CUSTOM
Choose: 0                               #必选
Custom compression format: 
Output directory: /user/ubuntu/lucius/new_balance   #必填
Append mode: 

Throttling resources

Extractors: 2                            #可选，对应mapreduce的job中的map的数量
Loaders: 1                              #可选，对应mapreduce的job中的reduce的数量
New job was successfully created with validation status OK  and persistent id 5	 
    

这样就建立了一个新的job，他的id是5

启动job

可以使用以下命令来执行job:

#这边-j后面的5代表上面创建的job的id，可以使用show job来查看已经创建的job
sqoop:000> start job -j 5 -s

运行结果如下图：

Sqoop2的安装与使用_第10张图片

确认数据是否已经导入

如下图，已经将mysql的mytest库中的balance表中的两条数据成功导入到hdfs的相应目录下了。

更多命令

请参看：http://sqoop.apache.org/docs/1.99.6/CommandLineClient.html

你可能感兴趣的:(Sqoop)

hive学习笔记之五：分桶程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》的第五篇
学习大数据DAY43 Sqoop 安装，配置环境和使用工科小石头大数据培训学习大数据 sqoop hive hadoop
目录sqoop安装配置mysqlsqoop安装sqoop指令集sqoop使用sqoop创建hive表sqoop全量导入表sqoop增量导入表sqoop全量导出表sqoop分区表导入表sqoop分区表导出表上机练习sqoop安装配置mysqlcreatedatabasetestDEFAULTCHARACTERSETutf8DEFAULTCOLLATEutf8_general_ci;--创建数据库sh
python读取hive数据库_利用pyhive将hive查询数据导入到mysql weixin_39939668 python读取hive数据库
在大数据工作中经常碰到需要将hive查询数据导入到mysql的需求，常见的方法主要有两种，一是sqoop，另一种则是pyhive。本文主要讲的就是python的pyhive库的安装与使用。pyhive作用远程连接hive数据库，运行hivesql，而不需要登录到安装有hive的服务器上去可以更方便处理更多连续命令，可以封装一些经常需要复用的命令脚本化，不需要编译，随时改，随时执行看结果方便对hiv
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
Sqoop一些常用命令及参数大数据小同学
常用命令列举这里给大家列出来了一部分Sqoop操作时的常用参数，以供参考，需要深入学习的可以参看对应类的源代码。命令类说明importImportTool将数据导入到集群exportExportTool将集群数据导出codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jarcreate-hive-tableCreateHiveTableTool创建Hive表evalEval
hive学习笔记之九：基础UDF 程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》的第九篇
Hadoop生态圈陈超Terry的技术屋
生态圈1.HBase的数据存储在HDFS里2.MapReduce可以计算HBase里的数据，也可以计算HDFS里的数据3.Hive是数据分析数据引擎，也是MapReduce模型，支持SQL4.Pig也是一个数据分析引擎，不支持SQL，有自己的PigLatin数据5.Sqoop是数据采集工具，针对关系数据库6.Flume是针对文件等数据的采集7.Hadoop的HA通过Zookeeper来实现8.HU
hive学习笔记之三：内部表和外部表程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》系列的第
Sqoop 入门基础香菜的开发日记 sqoop hadoop hive
简介Sqoop（SQLtoHadoop）是一个开源工具，用于在关系型数据库和Hadoop之间传输数据。它提供了一种快速高效的方式，将数据从关系型数据库导入到Hadoop集群进行分析，并支持将Hadoop集群中的数据导出到关系型数据库中。本篇教程将详细介绍Sqoop的全部用法，包括基本概念、使用方法和实例代码。我们将创建一个示例数据表，并使用Sqoop来导入和导出数据。一、准备工作在开始之前，请确保
shell脚本循环遍历日期，用于sqoop脚本茂盛哥哥
#!/bin/bashfirst="$1"second="$2"while["$first"!="$second"]dodate=`date-d"$first"+"%Y-%m-%d"`sqoopexport\--connectjdbc:mysql://\--username\--password\--tabledwd_fact_front_orderinfo\--export-dir/user/h
Sqoop你用对了吗？你值得拥有更好的12138
个人想法，有错请指出怎么让sqoop流程化1.首先创造配置表和任务表tb_configidjdbc_urluserpass_wordcolumnstablehive_tableis_incremental1jdbc:mysql....rootrootid,user,pwuseruser0taskidtask_nameconf_idstatusctimeretrys1sqoop_table_is_i
HIVE中小文件问题这孩子谁懂哈 HIVE hive hadoop 数据仓库
一、小文件产生原因1.动态分区插入数据，会产生大量小文件2.数据源本来就含有大量小文件3.数据增量导入，如Sqoop数据导入，增量insert导入数据等4.分桶表（主要是切分文件，容易产生小文件问题）1.2.3都是数据导入的问题：hive中的小文件肯定是向hive表中导入数据时产生，所以先看下向hive中导入数据的几种方式1.直接向表中插入数据insertintotableAvalues(1,'z
大数据开发之Sqoop详细介绍只是甲
备注:测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在Sqoop的帮助下，轻松地把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中；同时也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Sqoop是一个在结构化数据和Had
Datax ETL工具源码研究 Spring1985
由于公司数据共享交换产品中需要用到数据交换工具，所以对数据交换工具进行了大量的研究，目前比较流行的数据交换工具有Kittle、Sqoop、KafkaConnect、DataX；以下是个人的一点比对结果：如下四款工具除了Kittle其他的共同点都是面向插件方式开发，扩展性都比较好。Kittle优点：与大数据Hadoop结合比较好，功能比较齐全，强大，支持数据库，文件数据读写，界面拖拽方式操作；缺点：
2018-07-19 sqoop 江江江123
sqoop:数据从传统数据库到到hadoop的导入,导出安装：1.解压2.修改配置文件cdSQOOP_HOME/conf$mvsqoop-env-template.shsqoop-env.sh打开sqoop-env.sh并编辑下面几行：exportHADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.6.1/exportHADOOP_MAPRED_HOME=/
离线数仓（一）【数仓概念、需求架构】让线程再跑一会离线数仓大数据
前言今天开始学习数仓的内容，之前花费一年半的时间已经学完了Hadoop、Hive、Zookeeper、Spark、HBase、Flume、Sqoop、Kafka、Flink等基础组件。把学过的内容用到实践这是最重要的，相信会有很大的收获。1、数据仓库概念1.1、概念数据仓库（DataWarehouse），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。（数据仓库的目的
计算机毕业设计PyFlink+Hadoop+Hive民宿数据分析可视化大屏民宿推荐系统民宿爬虫民宿大数据知识图谱机器学习大数据毕业设计计算机毕业设计大神
流程1.selenium自动化爬虫框架采集民宿数据约10万条存入.csv文件作为数据集；2.使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；3.使用hive数仓技术建表建库，导入.csv数据集；4.离线分析采用hive_sql完成，实时分析利用Flink之Scala、FlinkSQL完成;5.统计指标使用sqoop导入mysql数据库；6
SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25 莫叫石榴姐 SQLBOY1000题 sql HiveSql面试题 sql
目录0需求分析1数据准备3数据分析4小结0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数据中，goods_type列，假设26代表是广告，现在有个需求，想获取每个用户每次搜索下非广告类型的商品位置自然排序，如果下效果：u
HiveSQL——条件判断语句嵌套windows子句的应用爱吃辣条byte #HIve SQL 大数据数据仓库
注：参考文章：SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25_sql剁成嵌套判断-CSDN博客文章浏览阅读920次，点赞4次，收藏4次。0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数
大数据课程综合实验案例---课设问题汇总钟良堂笔记大数据 hbase hadoop ubuntu echarts
最近翻看两年前的大数据课设，感觉这个大数据课设实验当时答辩在大数据课设实验过程中，我遇到了很多问题，在这里做出汇总：1、MySQL启动报错首先，我的MySQL有时候启动不了，当我输入这个命令的时候，会报很多信息出来：mysql-uroot-p有时候，我尝试了很多这个命令，就是打不开，一直显示这个信息。但有时候却可以启动，感觉很奇怪，很多时候得看运气：2、Sqoop连接MySQL报错在测试sqoop
sqoop导入数据到hdfs 鲲鹏猿 hdfs sqoop hadoop
Sqoop是apache旗下的一款”Hadoop和关系数据库之间传输数据”的工具导入数据：将MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据：从Hadoop的文件系统中导出数据到关系数据库2.Sqoop的工作机制将导入和导出的命令翻译成mapreduce程序实现在翻译出的mapreduce中主要是对inputformat和outputformat
2024-02-07（Sqoop，Flume）陈xr 随记日志 sqoop flume
1.Sqoop的增量导入实际工作中，数据的导入很多时候只需要导入增量的数据，并不需要将表中的数据每次都全部导入到hive或者hdfs中，因为这样会造成数据重复问题。增量导入就是仅导入新添加到表中的行的技术。sqoop支持两种模式的增量导入：append模式：根据数值类型字段进行追加导入，大于指定的last-value值Lastmodified模式：根据时间戳类型的字段进行追加，>=指定的last-
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比浪尖聊大数据-浪尖 sqoop flume flink hadoop hive
产品概述ApacheSeaTunnel是一个非常易用的超高性能分布式数据集成产品，支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据，已应用于数百家企业生产，也是首个由国人主导贡献到Apache基金会的数据集成顶级项目。SeaTunnel主要解决数据集成领域的常见问题：*数据源多样：常用的数据源有数百种，版本不兼容。随着新技术的出现，出现了更多的数据源。用户很难找到能够全面快速支持这些数据
数据采集工具Sqoop、Datax、Flume、Canal yue-verdure 大数据 sqoop flume 大数据阿里云
离线采集工具Sqoop1.环境配置解压安装包配置环境变量（记得source）添加MySQL驱动包到sqoop文件夹下的libcpmysql-connector-java-5.1.10.jar/sqoop-install-path/lib重命名文件并配置文件mvsqoop-env-template.shsqoop-env.sh#添加环境变量exportHADOOP_COMMON_HOME=/usr/
大数据系列—数据迁移(Sqoop,Flume,DataX)对比学习（stage3）道-闇影 big data 大数据 sqoop flume
Boys，Grils，Friends！MynameisJinsuo.Shi.一个不正经的大数据开发工程师，目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。个人大数据技术栈：DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…个人在学习领域：Python，P
数据同步工具对比——SeaTunnel 、DataX、Sqoop、Flume、Flink CDC 大数据_苡~ 041-数据同步与采集 sqoop flume flink 大数据
在大数据时代，数据的采集、处理和分析变得尤为重要。业界出现了多种工具来帮助开发者和企业高效地处理数据流和数据集。本文将对比五种流行的数据处理工具：SeaTunnel、DataX、Sqoop、Flume和FlinkCDC，从它们的设计理念、使用场景、优缺点等方面进行详细介绍。1、SeaTunnel简介SeaTunnel是一个分布式、高性能、支持多种数据源之间高效数据同步的开源工具。它旨在解决大数据处
2024-02-06（Sqoop）陈xr 随记日志 sqoop 大数据
1.SqoopApacheSqoop是Hadoop生态体系和RDBMS（关系型数据库）体系之间传递数据的一种工具。Sqoop工作机制是将导入或者导出命令翻译成MapReduce程序来实现。在翻译出的MapReduce中主要是对inputformat和outputformat进行定制。Hadoop生态包括：HDFS，Hive，Hbase等。RDBMS体系包括：Mysql，Oracle，DB2等。Sq
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装 WaiSaa
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装1简介Ambari跟Hadoop等开源软件一样，也是ApacheSoftwareFoundation中的一个项目，并且是顶级项目。就Ambari的作用来说，就是创建、管理、监视Hadoop集群，但是这里的Hadoop指的是Hadoop整个生态圈（例如Hive，Hbase，Sqoop，Zookeeper等），而并不仅是特指Had
计算机毕业设计hadoop+spark+hive小说数据分析可视化大屏小说推荐系统小说爬虫小说大数据机器学习知识图谱小说网站大数据毕业设计计算机毕业设计大神
流程1.爬取17k的小说数据约5-10万，存入mysql数据库；2.使用mapreduce对mysql中的小说数据集进行数据清洗，转为.csv文件上传至hdfs文件系统；3.根据.csv文件结构，使用hive建库建表；4.一半分析指标使用hive_sql完成，一半分析指标使用Spark-Scala完成;5.将分析结果使用sqoop导入mysql数据库；6.使用Flask+echarts构建可视化大
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他