
        -》Apache Hadoop
        -》cloudera Hadoop:CDH
        -》Hortonworks: HDP
            sudo mkdir /opt/cdh-5.3.6
            sudo chown -R hpsk:hpsk /opt/cdh-5.3.6
                bin/hdfs namenode -format
            -》字段的补充    -》用户、订单、商品、一般存储在RDBMS-》用sqoop实现
        -》只有map task,没有reduce task,不进行排序合并等操作
        -》sqoop2:添加了sqoop server ,安全机制等等
            tar -zxvf /opt/tools/sqoop-1.4.5-cdh5.3.6.tar.gz -C /opt/cdh-5.3.6/
            mv conf/sqoop-env-template.sh conf/sqoop-env.sh
            export HADOOP_COMMON_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6
            export HADOOP_MAPRED_HOME=/opt/cdh-5.3.6/hadoop-2.5.0-cdh5.3.6
            export HIVE_HOME=/opt/cdh-5.3.6/hive-0.13.1-cdh5.3.6
            cp /opt/tools/mysql-connector-java-5.1.27-bin.jar lib/
                bin/sqoop help
                bin/sqoop list-databases --connect jdbc:mysql://bigdata-training01.hpsk.com:3306 --username root --password 123456
            create table toHdfs(
            id varchar(20) primary key,
            name varchar(20) not null
            insert into toHdfs value("0001","laoda");
            insert into toHdfs value("0002","laoer");
            insert into toHdfs value("0003","laosan");
            insert into toHdfs value("0004","laosi");
            usage: sqoop import [GENERIC-ARGS] [TOOL-ARGS]
            bin/sqoop import \
            --connect jdbc:mysql://bigdata-training01.hpsk.com:3306/sqoop \
            --username root \
            --password 123456 \
            --table toHdfs
                bin/sqoop import \
                --connect jdbc:mysql://bigdata-training01.hpsk.com:3306/sqoop \
                --username root \
                --password 123456 \
                --table toHdfs \
                --direct \
                --delete-target-dir \
                --target-dir /sqoop/import/ \
                -m 1
                bin/sqoop import \
                --connect jdbc:mysql://bigdata-training01.hpsk.com:3306/sqoop \
                --username root \
                --password 123456 \
                --table toHdfs \
                --direct \
                --delete-target-dir \
                --target-dir /sqoop/import/ \
                --fields-terminated-by '\t' \
                -m 1
                bin/sqoop import \
                --connect jdbc:mysql://bigdata-training01.hpsk.com:3306/sqoop \
                --username root \
                --password 123456 \
                --table toHdfs \
                --columns id \
                --direct \
                --delete-target-dir \
                --target-dir /sqoop/columns \
                --fields-terminated-by '\t' \
                -m 1
                bin/sqoop import \
                --connect jdbc:mysql://bigdata-training01.hpsk.com:3306/sqoop \
                --username root \
                --password 123456 \
                --query 'select name from toHdfs where $CONDITIONS' \
                --direct \
                --delete-target-dir \
                --target-dir /sqoop/columns \
                --fields-terminated-by '\t' \
                -m 1
        Incremental import arguments:3个参数配置:
       --check-column         Source column to check for incremental
       --incremental     Define an incremental import of type
                                      'append' or 'lastmodified'
       --last-value            Last imported value in the incremental
                                      check column

            create table toHdfsIN(
            id int primary key,
            name varchar(20) not null
            insert into toHdfsIN value("1","laoda");
            insert into toHdfsIN value("2","laoer");
            insert into toHdfsIN value("3","laosan");
            insert into toHdfsIN value("4","laosi");
            insert into toHdfsIN value("5","laowu");
            insert into toHdfsIN value("6","laoliu");

            bin/sqoop import \
            --connect jdbc:mysql://bigdata-training01.hpsk.com:3306/sqoop \
            --username root \
            --password 123456 \
            --table toHdfsIN \
            --direct \
            --delete-target-dir \
            --target-dir /sqoop/incremental/ \
            --fields-terminated-by '\t' \
            -m 1
                bin/sqoop import \
                --connect jdbc:mysql://bigdata-training01.hpsk.com:3306/sqoop \
                --username root \
                --password 123456 \
                --table toHdfsIN \
                --direct \
                --target-dir /sqoop/incremental/ \
                --fields-terminated-by '\t' \
                --check-column id \
                --incremental append \
                --last-value 4 \
                -m 1

        -》增量导入一般都使用sqoop job来执行
            bin/sqoop-job \
            --create job1 \
            -- import \
            --connect jdbc:mysql://bigdata-training01.hpsk.com:3306/sqoop \
            --username root \
            --password 123456 \
            --table toHdfsIN \
            --direct \
            --target-dir /sqoop/incremental/ \
            --fields-terminated-by '\t' \
            --check-column id \
            --incremental append \
            --last-value 4 \
            -m 1
            -》查看job:bin/sqoop job --show job1
            -》执行job1:bin/sqoop job -exec job1
        bin/sqoop import \
        --connect jdbc:mysql://bigdata-training01.hpsk.com:3306/sqoop \
        --username root \
        --password 123456 \
        --table toHdfs \
        --delete-target-dir \
        --hive-import  \
        --hive-database student \
        --hive-table stu_info \
        --fields-terminated-by '\t' \
        -m 1
        -》bin/sqoop export --help
        bin/sqoop export \
        --connect jdbc:mysql://bigdata-training01.hpsk.com:3306/sqoop \
        --username root \
        --password 123456 \
        --table fromHdfs \                                             //要导入的mysql目标表格
        --export-dir /user/hive/warehouse/student.db/stu_info \   //HDFS要导出的文件路径
        --input-fields-terminated-by '\t' \
        -m 1
        bin/sqoop --options-file file_path
        bin/sqoop --options-file /opt/datas/sqoop.txt
        --connect jdbc:mysql://bigdata-training01.hpsk.com:3306/sqoop
                count(distinct guid)
                date    hour    PV        UV
        create database log_analysis;
        use log_analysis;
        create table log_source(
        id                  string,
        url                 string,
        referer             string,
        keyword             string,
        type                string,
        guid                string,
        pageId              string,
        moduleId            string,
        linkId              string,
        attachedInfo        string,
        sessionId           string,
        trackerU            string,
        trackerType         string,
        ip                  string,
        trackerSrc          string,
        cookie              string,
        orderCode           string,
        trackTime           string,
        endUserId           string,
        firstLink           string,
        sessionViewNo       string,
        productId           string,
        curMerchantId       string,
        provinceId          string,
        cityId              string,
        fee                 string,
        edmActivity         string,
        edmEmail            string,
        edmJobId            string,
        ieVersion           string,
        platform            string,
        internalKeyword     string,
        resultSum           string,
        currentPage         string,
        linkPosition        string,
        buttonPosition      string
        partitioned by (date string,hour string)
        row format delimited fields terminated by '\t'
        stored as textfile;
        load data local inpath '/opt/datas/2015082818' into table log_source partition (date='20150828',hour='18');
        load data local inpath '/opt/datas/2015082819' into table log_source partition (date='20150828',hour='19');
                create table log_clear_part1(
                id  string,
                url string,
                guid string
                partitioned by (date string,hour string)
                row format delimited fields terminated by '\t'
                stored as textfile;

                insert into table log_clear_part1 partition (date='20150828',hour='18')
                select id,url,guid from log_source where date='20150828' and hour='18';
                insert into table log_clear_part1 partition (date='20150828',hour='19')
                select id,url,guid from log_source where date='20150828' and hour='19';
            create table log_clear_part2(
            id  string,
            url string,
            guid string
            partitioned by (date string,hour string)
            row format delimited fields terminated by '\t'
            stored as textfile;
            insert into table log_clear_part2 partition (date='20150828',hour)
            select id,url,guid,hour from log_source where date='20150828';
        create table result(
        date string ,
        hour string,
        PV string,
        UV string
        insert overwrite table result select date,hour,count(url) PV ,count(distinct guid) UV from log_clear_part2 group by date,hour;
        create table result_visit(
        date varchar(30) not null,
        hour varchar(30) not null,
        pv varchar(30) not null,
        uv varchar(30) not null,
        primary key(date,hour)

        bin/sqoop export \
        --connect jdbc:mysql://bigdata-training01.hpsk.com:3306/sqoop \
        --username root \
        --password 123456 \
        --table result_visit \
        --export-dir /user/hive/warehouse/log_analysis.db/result \
        --input-fields-terminated-by '\001' \
        -m 1
