fansy1990

Sqoop1.99.4 Java API实践

软件版本：

Sqoop：1.99.4；JDK：1.7；Hadoop2.2；

环境：

1. Hadoop集群：

node12:NameNode、ResourceManager、JobHistoryServer、DataNode、NodeManager； 1.5G内存+10G硬盘+1核

node13:SecondaryNameNode、DataNode、NodeManager；1.5G内存+10G硬盘+1核

2. Sqoop server：

Sqoop server部署在node13上；

3. intellij idea配置

下载sqoop1.99.4的压缩包，解压；

（1）找到sqoop-1.99.4-bin-hadoop200\server\webapps\sqoop.war，接着，解压sqoop.war文件，找到：

sqoop-1.99.4-bin-hadoop200\server\webapps\sqoop\WEB-INF\lib目录，拷贝下面的lib包到工程build path（非运行必须）；

（2）找到目录sqoop-1.99.4-bin-hadoop200\shell\lib ，拷贝下面的lib包到工程的build path（运行必须）

Sqoop简单概念：

1. Sqoop connector：

Sqoop连接器，sqoop server启动后，使用客户端输入命令：show connector，可以看到sqoop目前的连接器，如下所示：

2. Sqoop link：

一个link需要一个connector的支持，所以link的建立需要指定一个connector（指定其id即可，从下面的代码可以看到）；link是对connector的一层封装可以设置参数，比如针对mysql，可以设置mysql driver的名字、链接字符串、用户名、密码等等参数；针对hdfs，可以设置uri；具体可以设置的参数如下所示：

hdfs:

Link configuration:
linkConfig.uri,HDFS URI : null

From Job configuration:
fromJobConfig.inputDirectory,Input directory : null

ToJob configuration:
toJobConfig.outputFormat,Output format : null
toJobConfig.compression,Compression format : null
toJobConfig.customCompression,Custom compression format : null
toJobConfig.outputDirectory,Output directory : null

jdbc:

Link configuration:
linkConfig.jdbcDriver,JDBC Driver Class : null
linkConfig.connectionString,JDBC Connection String : null
linkConfig.username,Username : null
linkConfig.password,Password : null
linkConfig.jdbcProperties,JDBC Connection Properties : null

From database configuration:
fromJobConfig.schemaName,Schema name : null
fromJobConfig.tableName,Table name : null
fromJobConfig.sql,Table SQL statement : null
fromJobConfig.columns,Table column names : null
fromJobConfig.partitionColumn,Partition column name : null
fromJobConfig.allowNullValueInPartitionColumn,Null value allowed for the partition column : null
fromJobConfig.boundaryQuery,Boundary query : null

To database configuration:
toJobConfig.schemaName,Schema name : null
toJobConfig.tableName,Table name : null
toJobConfig.sql,Table SQL statement : null
toJobConfig.columns,Table column names : null
toJobConfig.stageTableName,Stage table name : null
toJobConfig.shouldClearStageTable,Should clear stage table : null

这里设置link，暂时不用指定它是源头还是目的（sqoop数据传输就是从一个源到一个目的而已，及from to）；

3. Sqoop job：

Sqoop任务的建立需要指定两个东西，其一：指定from和to，from和to只需要提供其对应的link的id即可；其二，则是指定from和to的具体参数（这里的参数是指变动比较大的参数，比如hdfs中的输入目录，jdbc中的表名或列字符串等）；

Sqoop Java API：

0. 建立connector（这个不需要建立，在配置好sqoop后自然会有）

1. 建立link

1）在建立link前，先在sqoop client中查看现有的link：

show link ，可以看到是没有link的；

2）建立hdfs的link：

//        long connectorId = 1;
//        MLink link = createHDFSLink(client,connectorId);

3）建立jdbc的link：（以mysql为例）

 long connectorId=2;
//        MLink link = createMysqlLink(client,connectorId);

4）查看，show link：

2. 建立任务：

0）查看现有的任务：show job ，可以看到是没有的（默认没有）

1）建立job：

// 建立任务
//        long fromLinkId=1;
//        long toLinkId=2;
//        String input="/user/fansy/name.data";
//        String tableName="test_name_age";
//        String columns="id,name,age";
//        int mappers = 2;
//        MJob job = createJob(client,fromLinkId,toLinkId,input,tableName,columns,mappers);
//        System.out.println(job.getEnabled());

2）查看任务：

3. 启动任务：

// 启动任务
//        long jobId =1;
//        startJob(client,jobId);

启动任务后，可以用命令 show job --jid 1来查看任务状态，或者在8088端口（hadoop任务端口），查看任务，或调用函数查看任务状态。

所有代码如下所示：

package sqoop;

import org.apache.sqoop.client.SqoopClient;
import org.apache.sqoop.model.*;
import org.apache.sqoop.submission.counter.Counter;
import org.apache.sqoop.submission.counter.CounterGroup;
import org.apache.sqoop.submission.counter.Counters;
import org.apache.sqoop.validation.Status;

import java.util.List;
import java.util.ResourceBundle;

/**
 * Created by fansy on 2016/3/7.
 */
public class Sqoop1_99_4_Test {

    public static void main(String[] args){
        String url = "http://node13:12000/sqoop/";
        SqoopClient client = new SqoopClient(url);

        // 建立link 连接
//        long connectorId = 1;
//        MLink link = createHDFSLink(client,connectorId);
        long connectorId=2;
//        MLink link = createMysqlLink(client,connectorId);
        listInputAndOutputParameters(client,connectorId);
// 建立任务
//        long fromLinkId=1;
//        long toLinkId=2;
//        String input="/user/fansy/name.data";
//        String tableName="test_name_age";
//        String columns="name,age";
//        int mappers = 2;
//        MJob job = createJob(client,fromLinkId,toLinkId,input,tableName,columns,mappers);
//        System.out.println(job.getEnabled());
// 启动任务
//        long jobId =1;
//        startJob(client,jobId);
    }

    static void describe(List<MConfig> configs, ResourceBundle resource) {
        for (MConfig config : configs) {
            System.out.println(resource.getString(config.getLabelKey()) + ":");
            List<MInput<?>> inputs = config.getInputs();
            for (MInput input : inputs) {
                System.out.println(input.getName()+","+resource.getString(input.getLabelKey()) + " : " + input.getValue());
            }
            System.out.println();
        }
    }

    /**
     * 打印各个connector的参数
     * @param client
     * @param connectorId
     */
    static void listInputAndOutputParameters(SqoopClient client,long connectorId){

//        String url = "http://node13:12000/sqoop/";
//        SqoopClient client = new SqoopClient(url);

//        long connectorId = link.getConnectorId();

// link config for connector
        describe(client.getConnector(connectorId).getLinkConfig().getConfigs(), client.getConnectorConfigBundle(connectorId));
// from job config for connector
        describe(client.getConnector(connectorId).getFromConfig().getConfigs(), client.getConnectorConfigBundle(connectorId));
// to job config for the connector
        describe(client.getConnector(connectorId).getToConfig().getConfigs(), client.getConnectorConfigBundle(connectorId));
        // create a placeholder for link
    }

    /**
     * 建立mysql link
     * @param client
     * @param connectorId
     * @return
     */
    static MLink createMysqlLink(SqoopClient client,long connectorId){
        MLink link = client.createLink(connectorId);
        link.setName("mysql");
        link.setCreationUser("fansy");
        MLinkConfig linkConfig = link.getConnectorLinkConfig();
// fill in the link config values
        linkConfig.getStringInput("linkConfig.connectionString").setValue("jdbc:mysql://192.168.0.1/test_fz");
        linkConfig.getStringInput("linkConfig.jdbcDriver").setValue("com.mysql.jdbc.Driver");
        linkConfig.getStringInput("linkConfig.username").setValue("fansy");
        linkConfig.getStringInput("linkConfig.password").setValue("fansy");
// save the link object that was filled
        Status status = client.saveLink(link);
        if(status.canProceed()) {
            System.out.println("Created Link with Link Id : " + link.getPersistenceId());
        } else {
            System.out.println("Something went wrong creating the link");
        }
        return link;
    }

    /**
     * 建立HDFS link
     * @param client
     * @param connectorId
     * @return
     */
    static MLink createHDFSLink(SqoopClient client,long connectorId){
        MLink link = client.createLink(connectorId);
        link.setName("hdfs");
        link.setCreationUser("fansy");
        MLinkConfig linkConfig = link.getConnectorLinkConfig();
// fill in the link config values
        linkConfig.getStringInput("linkConfig.uri").setValue("hdfs://node12:8020");
// save the link object that was filled
        Status status = client.saveLink(link);
        if(status.canProceed()) {
            System.out.println("Created Link with Link Id : " + link.getPersistenceId());
        } else {
            System.out.println("Something went wrong creating the link");
        }
        return link;
    }

    /**
     * 建立hdfs to mysql 任务
     * @param client
     * @param fromLinkId
     * @param toLinkId
     * @param input
     * @param tableName
     * @param columns
     * @param mappers
     * @return
     */
    static MJob createJob(SqoopClient client,long fromLinkId,long toLinkId,
                          String input,String tableName,String columns,int mappers){
        MJob job = client.createJob(fromLinkId, toLinkId);
        job.setName("hdfs to mysql");
        job.setCreationUser("fansy");
// set the "FROM" link job config values
        MFromConfig fromJobConfig = job.getFromJobConfig();
        fromJobConfig.getStringInput("fromJobConfig.inputDirectory").setValue(input);

// set the "TO" link job config values
        MToConfig toJobConfig = job.getToJobConfig();
        toJobConfig.getStringInput("toJobConfig.tableName").setValue(tableName);
        toJobConfig.getStringInput("toJobConfig.columns").setValue(columns);

// set the driver config values
        MDriverConfig driverConfig = job.getDriverConfig();
//        driverConfig.getStringInput("throttlingConfig.numExtractors").setValue(String.valueOf(mappers));
        driverConfig.getIntegerInput("throttlingConfig.numExtractors").setValue(mappers);
        Status status = client.saveJob(job);
        if(status.canProceed()) {
            System.out.println("Created Job with Job Id: "+ job.getPersistenceId());
        } else {
            System.out.println("Something went wrong creating the job");
        }
        return job;
    }

    /**
     *  启动任务
     * @param client
     * @param jobId
     */
    static void startJob(SqoopClient client,long jobId){
        MSubmission submission = client.startJob(jobId);
        System.out.println("Job Submission Status : " + submission.getStatus());
        if(submission.getStatus().isRunning() && submission.getProgress() != -1) {
            System.out.println("Progress : " + String.format("%.2f %%", submission.getProgress() * 100));
        }
        System.out.println("Hadoop job id :" + submission.getExternalId());
        System.out.println("Job link : " + submission.getExternalLink());
        Counters counters = submission.getCounters();
        if(counters != null) {
            System.out.println("Counters:");
            for(CounterGroup group : counters) {
                System.out.print("\t");
                System.out.println(group.getName());
                for(Counter counter : group) {
                    System.out.print("\t\t");
                    System.out.print(counter.getName());
                    System.out.print(": ");
                    System.out.println(counter.getValue());
                }
            }
        }
        if(submission.getExceptionInfo() != null) {
            System.out.println("Exception info : " +submission.getExceptionInfo());
        }



    }

    /**
     * 查看任务状态
     * @param client
     * @param jobId
     */
    static void checkJobStatus(SqoopClient client,long jobId){
        //Check job status for a running job
        MSubmission submission = client.getJobStatus(jobId);
        if(submission.getStatus().isRunning() && submission.getProgress() != -1) {
            System.out.println("Progress : " + String.format("%.2f %%", submission.getProgress() * 100));
        }
        System.out.println("Job status:"+submission.getStatus().name());
    }


}

测试：

1. HDFS数据：

11kate,3
fansy,22
12kate,3
tom,32
1kate,3
2kate,3

2. Mysql：

CREATE TABLE `test_name_age` (
  `name` varchar(255) DEFAULT NULL,
  `age` int(11) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

3. 运行完毕后，查看任务以及数据库

总结：

1. 数据缺失：

可以看到数据库中的数据name列数据前后都少了一个字符，但是在8088端口看到的日志中看到读取的数据确实是完整的：

2. 不能指定分隔符，Sqoop1.99.4版本只有一个默认的分隔符实现

CSVIntermediateDataFormat

如果要用其他的分隔符，那么就要自己去实现；在sqoop1.99.6版本（目前最新版）中支持了json和avro的实现，如下：

最终一句话，sqoop1.99的版本还是bug多多，实际中还是用回1.4的版本吧！

hive学习笔记之五：分桶程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》的第五篇
学习大数据DAY43 Sqoop 安装，配置环境和使用工科小石头大数据培训学习大数据 sqoop hive hadoop
目录sqoop安装配置mysqlsqoop安装sqoop指令集sqoop使用sqoop创建hive表sqoop全量导入表sqoop增量导入表sqoop全量导出表sqoop分区表导入表sqoop分区表导出表上机练习sqoop安装配置mysqlcreatedatabasetestDEFAULTCHARACTERSETutf8DEFAULTCOLLATEutf8_general_ci;--创建数据库sh
python读取hive数据库_利用pyhive将hive查询数据导入到mysql weixin_39939668 python读取hive数据库
在大数据工作中经常碰到需要将hive查询数据导入到mysql的需求，常见的方法主要有两种，一是sqoop，另一种则是pyhive。本文主要讲的就是python的pyhive库的安装与使用。pyhive作用远程连接hive数据库，运行hivesql，而不需要登录到安装有hive的服务器上去可以更方便处理更多连续命令，可以封装一些经常需要复用的命令脚本化，不需要编译，随时改，随时执行看结果方便对hiv
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
Sqoop一些常用命令及参数大数据小同学
常用命令列举这里给大家列出来了一部分Sqoop操作时的常用参数，以供参考，需要深入学习的可以参看对应类的源代码。命令类说明importImportTool将数据导入到集群exportExportTool将集群数据导出codegenCodeGenTool获取数据库中某张表数据生成Java并打包Jarcreate-hive-tableCreateHiveTableTool创建Hive表evalEval
hive学习笔记之九：基础UDF 程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》的第九篇
Hadoop生态圈陈超Terry的技术屋
生态圈1.HBase的数据存储在HDFS里2.MapReduce可以计算HBase里的数据，也可以计算HDFS里的数据3.Hive是数据分析数据引擎，也是MapReduce模型，支持SQL4.Pig也是一个数据分析引擎，不支持SQL，有自己的PigLatin数据5.Sqoop是数据采集工具，针对关系数据库6.Flume是针对文件等数据的采集7.Hadoop的HA通过Zookeeper来实现8.HU
hive学习笔记之三：内部表和外部表程序员欣宸
欢迎访问我的GitHubhttps://github.com/zq2599/blog_demos内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；《hive学习笔记》系列导航基本数据类型复杂数据类型内部表和外部表分区表分桶HiveQL基础内置函数Sqoop基础UDF用户自定义聚合函数(UDAF)UDTF本篇概览本文是《hive学习笔记》系列的第
Sqoop 入门基础香菜的开发日记 sqoop hadoop hive
简介Sqoop（SQLtoHadoop）是一个开源工具，用于在关系型数据库和Hadoop之间传输数据。它提供了一种快速高效的方式，将数据从关系型数据库导入到Hadoop集群进行分析，并支持将Hadoop集群中的数据导出到关系型数据库中。本篇教程将详细介绍Sqoop的全部用法，包括基本概念、使用方法和实例代码。我们将创建一个示例数据表，并使用Sqoop来导入和导出数据。一、准备工作在开始之前，请确保
shell脚本循环遍历日期，用于sqoop脚本茂盛哥哥
#!/bin/bashfirst="$1"second="$2"while["$first"!="$second"]dodate=`date-d"$first"+"%Y-%m-%d"`sqoopexport\--connectjdbc:mysql://\--username\--password\--tabledwd_fact_front_orderinfo\--export-dir/user/h
Sqoop你用对了吗？你值得拥有更好的12138
个人想法，有错请指出怎么让sqoop流程化1.首先创造配置表和任务表tb_configidjdbc_urluserpass_wordcolumnstablehive_tableis_incremental1jdbc:mysql....rootrootid,user,pwuseruser0taskidtask_nameconf_idstatusctimeretrys1sqoop_table_is_i
HIVE中小文件问题这孩子谁懂哈 HIVE hive hadoop 数据仓库
一、小文件产生原因1.动态分区插入数据，会产生大量小文件2.数据源本来就含有大量小文件3.数据增量导入，如Sqoop数据导入，增量insert导入数据等4.分桶表（主要是切分文件，容易产生小文件问题）1.2.3都是数据导入的问题：hive中的小文件肯定是向hive表中导入数据时产生，所以先看下向hive中导入数据的几种方式1.直接向表中插入数据insertintotableAvalues(1,'z
大数据开发之Sqoop详细介绍只是甲
备注:测试环境CDH6.3.1Sqoop1.4.7一.Sqoop概述ApacheSqoop（SQL-to-Hadoop）项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在Sqoop的帮助下，轻松地把关系型数据库的数据导入到Hadoop与其相关的系统(如HBase和Hive)中；同时也可以把数据从Hadoop系统里抽取并导出到关系型数据库里。Sqoop是一个在结构化数据和Had
Datax ETL工具源码研究 Spring1985
由于公司数据共享交换产品中需要用到数据交换工具，所以对数据交换工具进行了大量的研究，目前比较流行的数据交换工具有Kittle、Sqoop、KafkaConnect、DataX；以下是个人的一点比对结果：如下四款工具除了Kittle其他的共同点都是面向插件方式开发，扩展性都比较好。Kittle优点：与大数据Hadoop结合比较好，功能比较齐全，强大，支持数据库，文件数据读写，界面拖拽方式操作；缺点：
2018-07-19 sqoop 江江江123
sqoop:数据从传统数据库到到hadoop的导入,导出安装：1.解压2.修改配置文件cdSQOOP_HOME/conf$mvsqoop-env-template.shsqoop-env.sh打开sqoop-env.sh并编辑下面几行：exportHADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.6.1/exportHADOOP_MAPRED_HOME=/
离线数仓（一）【数仓概念、需求架构】让线程再跑一会离线数仓大数据
前言今天开始学习数仓的内容，之前花费一年半的时间已经学完了Hadoop、Hive、Zookeeper、Spark、HBase、Flume、Sqoop、Kafka、Flink等基础组件。把学过的内容用到实践这是最重要的，相信会有很大的收获。1、数据仓库概念1.1、概念数据仓库（DataWarehouse），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。（数据仓库的目的
计算机毕业设计PyFlink+Hadoop+Hive民宿数据分析可视化大屏民宿推荐系统民宿爬虫民宿大数据知识图谱机器学习大数据毕业设计计算机毕业设计大神
流程1.selenium自动化爬虫框架采集民宿数据约10万条存入.csv文件作为数据集；2.使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；3.使用hive数仓技术建表建库，导入.csv数据集；4.离线分析采用hive_sql完成，实时分析利用Flink之Scala、FlinkSQL完成;5.统计指标使用sqoop导入mysql数据库；6
SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25 莫叫石榴姐 SQLBOY1000题 sql HiveSql面试题 sql
目录0需求分析1数据准备3数据分析4小结0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数据中，goods_type列，假设26代表是广告，现在有个需求，想获取每个用户每次搜索下非广告类型的商品位置自然排序，如果下效果：u
HiveSQL——条件判断语句嵌套windows子句的应用爱吃辣条byte #HIve SQL 大数据数据仓库
注：参考文章：SQL条件判断语句嵌套window子句的应用【易错点】--HiveSql面试题25_sql剁成嵌套判断-CSDN博客文章浏览阅读920次，点赞4次，收藏4次。0需求分析需求：表如下user_idgood_namegoods_typerk1hadoop1011hive1221sqoop2631hbase1041spark1351flink2661kafka1471oozie108以上数
大数据课程综合实验案例---课设问题汇总钟良堂笔记大数据 hbase hadoop ubuntu echarts
最近翻看两年前的大数据课设，感觉这个大数据课设实验当时答辩在大数据课设实验过程中，我遇到了很多问题，在这里做出汇总：1、MySQL启动报错首先，我的MySQL有时候启动不了，当我输入这个命令的时候，会报很多信息出来：mysql-uroot-p有时候，我尝试了很多这个命令，就是打不开，一直显示这个信息。但有时候却可以启动，感觉很奇怪，很多时候得看运气：2、Sqoop连接MySQL报错在测试sqoop
sqoop导入数据到hdfs 鲲鹏猿 hdfs sqoop hadoop
Sqoop是apache旗下的一款”Hadoop和关系数据库之间传输数据”的工具导入数据：将MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据：从Hadoop的文件系统中导出数据到关系数据库2.Sqoop的工作机制将导入和导出的命令翻译成mapreduce程序实现在翻译出的mapreduce中主要是对inputformat和outputformat
2024-02-07（Sqoop，Flume）陈xr 随记日志 sqoop flume
1.Sqoop的增量导入实际工作中，数据的导入很多时候只需要导入增量的数据，并不需要将表中的数据每次都全部导入到hive或者hdfs中，因为这样会造成数据重复问题。增量导入就是仅导入新添加到表中的行的技术。sqoop支持两种模式的增量导入：append模式：根据数值类型字段进行追加导入，大于指定的last-value值Lastmodified模式：根据时间戳类型的字段进行追加，>=指定的last-
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比浪尖聊大数据-浪尖 sqoop flume flink hadoop hive
产品概述ApacheSeaTunnel是一个非常易用的超高性能分布式数据集成产品，支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据，已应用于数百家企业生产，也是首个由国人主导贡献到Apache基金会的数据集成顶级项目。SeaTunnel主要解决数据集成领域的常见问题：*数据源多样：常用的数据源有数百种，版本不兼容。随着新技术的出现，出现了更多的数据源。用户很难找到能够全面快速支持这些数据
数据采集工具Sqoop、Datax、Flume、Canal yue-verdure 大数据 sqoop flume 大数据阿里云
离线采集工具Sqoop1.环境配置解压安装包配置环境变量（记得source）添加MySQL驱动包到sqoop文件夹下的libcpmysql-connector-java-5.1.10.jar/sqoop-install-path/lib重命名文件并配置文件mvsqoop-env-template.shsqoop-env.sh#添加环境变量exportHADOOP_COMMON_HOME=/usr/
大数据系列—数据迁移(Sqoop,Flume,DataX)对比学习（stage3）道-闇影 big data 大数据 sqoop flume
Boys，Grils，Friends！MynameisJinsuo.Shi.一个不正经的大数据开发工程师，目前从事在公司主要进行CDP平台的数据接入、数据的ETL、数据的融合与事件的展开工作。个人大数据技术栈：DataX,Sqoop,Hadoop,Hive,Spark,Flink,Hbase,Kafka,Kettle,Azkaban,Airflow,Tableau…个人在学习领域：Python，P
数据同步工具对比——SeaTunnel 、DataX、Sqoop、Flume、Flink CDC 大数据_苡~ 041-数据同步与采集 sqoop flume flink 大数据
在大数据时代，数据的采集、处理和分析变得尤为重要。业界出现了多种工具来帮助开发者和企业高效地处理数据流和数据集。本文将对比五种流行的数据处理工具：SeaTunnel、DataX、Sqoop、Flume和FlinkCDC，从它们的设计理念、使用场景、优缺点等方面进行详细介绍。1、SeaTunnel简介SeaTunnel是一个分布式、高性能、支持多种数据源之间高效数据同步的开源工具。它旨在解决大数据处
2024-02-06（Sqoop）陈xr 随记日志 sqoop 大数据
1.SqoopApacheSqoop是Hadoop生态体系和RDBMS（关系型数据库）体系之间传递数据的一种工具。Sqoop工作机制是将导入或者导出命令翻译成MapReduce程序来实现。在翻译出的MapReduce中主要是对inputformat和outputformat进行定制。Hadoop生态包括：HDFS，Hive，Hbase等。RDBMS体系包括：Mysql，Oracle，DB2等。Sq
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装 WaiSaa
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装1简介Ambari跟Hadoop等开源软件一样，也是ApacheSoftwareFoundation中的一个项目，并且是顶级项目。就Ambari的作用来说，就是创建、管理、监视Hadoop集群，但是这里的Hadoop指的是Hadoop整个生态圈（例如Hive，Hbase，Sqoop，Zookeeper等），而并不仅是特指Had
计算机毕业设计hadoop+spark+hive小说数据分析可视化大屏小说推荐系统小说爬虫小说大数据机器学习知识图谱小说网站大数据毕业设计计算机毕业设计大神
流程1.爬取17k的小说数据约5-10万，存入mysql数据库；2.使用mapreduce对mysql中的小说数据集进行数据清洗，转为.csv文件上传至hdfs文件系统；3.根据.csv文件结构，使用hive建库建表；4.一半分析指标使用hive_sql完成，一半分析指标使用Spark-Scala完成;5.将分析结果使用sqoop导入mysql数据库；6.使用Flask+echarts构建可视化大
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs

Sqoop1.99.4 Java API实践

你可能感兴趣的:(sqoop)