杀智勇双全杀

Sqoop基础

概述
- 功能
- 本质
- 应用
- 展示数据库
- Sqoop导入
- Sqoop导入HDFS
- - MySQL数据准备
  - 格式
  - 导入测试
  - 修改参数
  - 按条件导入
  - 条件导入部分列
- Sqoop导入Hive
- - Hive表准备
  - 直接导入
  - hcatalog导入
- Sqoop增量导入
- - 正常方式
  - - append
    - lastmodified
  - 特殊方式
Sqoop导出
- Sqoop全量导出
- - MySQL准备数据
  - Hive准备
  - 导出
- Sqoop增量导出
- - 数据准备
  - 增量导出：
  - - updateonly
    - allowerinsert
Sqoop Job
- 功能
- 创建Job
- 列举Job
- 查看Job信息
- 运行Job
- 删除Job
Sqoop脚本封装

Flume基础

概述

和Flume不同，Sqoop的底层是MapReduce（快要被淘汰），高度依赖MapReduce和YARN。是一个纯离线的数据采集工具，只能用于离线业务。离线数据处理时经常会丢失业务数据中发生修改的数据，导致信息收集不全，离线数据处理的弊端很大，随着性能提升，必将被实时数据处理取代。

功能

用于实现MySQL等RDBMS数据库于HDFS之间的数据导入与导出（相对HDFS而言），导入就是MySQL→HDFS，导出就是HDFS→MySQL。

本质

底层是MapReduce，由于基本是做ETL数据清洗之类的操作，大多数情况是三大阶段的MapReduce。

导入阶段：

Input：DBInputFormat：读MySQL
Output：TextOutputFormat：写HDFS

导出阶段：

Input：TextInputFormat：读HDFS
Output：DBOutputFormat：写MySQL

应用

数据同步：定期将离线的数据进行采集同步到数据仓库中
- 全量：每次都采集所有数据
- 增量：每次只采集最新的数据，大部分都是增量处理

数据迁移：将历史数据（MySQL、Oracle等RDBMS）存储到HDFS中
- 全量：第一次一定是全量的

展示数据库

sqoop list-databases --connect jdbc:mysql://node3:3306 --username root --password 123456

执行后：

[root@node3 ~]# sqoop list-databases --connect jdbc:mysql://node3:3306 --username root --password 123456
Warning: /export/server/sqoop-1.4.6-cdh5.14.0/../hbase does not exist! HBase imports will fail.
Please set $HBASE_HOME to the root of your HBase installation.
Warning: /export/server/sqoop-1.4.6-cdh5.14.0/../accumulo does not exist! Accumulo imports will fail.
Please set $ACCUMULO_HOME to the root of your Accumulo installation.
Warning: /export/server/sqoop-1.4.6-cdh5.14.0/../zookeeper does not exist! Accumulo imports will fail.
Please set $ZOOKEEPER_HOME to the root of your Zookeeper installation.
21/05/07 21:15:21 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6-cdh5.14.0
21/05/07 21:15:21 WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P instead.
21/05/07 21:15:21 INFO manager.MySQLManager: Preparing to use a MySQL streaming resultset.
information_schema
hivemetadata
hue
mysql
nev
oozie
performance_schema
scrm
teach

效果还不错。。。

Sqoop导入

Sqoop导入HDFS

MySQL数据准备

create database sqoopTest;
use sqoopTest;

CREATE TABLE `tb_tohdfs` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(100) NOT NULL,
  `age` int(11) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

insert into tb_tohdfs values(null,"laoda",18);
insert into tb_tohdfs values(null,"laoer",19);
insert into tb_tohdfs values(null,"laosan",20);
insert into tb_tohdfs values(null,"laosi",21);

格式

查看帮助：

sqoop import --help

内容很齐全，但是太多：

[root@node3 ~]# sqoop import --help
Warning: /export/server/sqoop-1.4.6-cdh5.14.0/../hbase does not exist! HBase imports will fail.
Please set $HBASE_HOME to the root of your HBase installation.
Warning: /export/server/sqoop-1.4.6-cdh5.14.0/../accumulo does not exist! Accumulo imports will fail.
Please set $ACCUMULO_HOME to the root of your Accumulo installation.
Warning: /export/server/sqoop-1.4.6-cdh5.14.0/../zookeeper does not exist! Accumulo imports will fail.
Please set $ZOOKEEPER_HOME to the root of your Zookeeper installation.
21/05/07 21:44:30 INFO sqoop.Sqoop: Running Sqoop version: 1.4.6-cdh5.14.0
usage: sqoop import [GENERIC-ARGS] [TOOL-ARGS]

Common arguments:
   --connect <jdbc-uri>                                       Specify JDBC
                                                              connect
                                                              string
   --connection-manager <class-name>                          Specify
                                                              connection
                                                              manager
                                                              class name
   --connection-param-file <properties-file>                  Specify
                                                              connection
                                                              parameters
                                                              file
   --driver <class-name>                                      Manually
                                                              specify JDBC
                                                              driver class
                                                              to use
   --hadoop-home <hdir>                                       Override
                                                              $HADOOP_MAPR
                                                              ED_HOME_ARG
   --hadoop-mapred-home <dir>                                 Override
                                                              $HADOOP_MAPR
                                                              ED_HOME_ARG
   --help                                                     Print usage
                                                              instructions
   --metadata-transaction-isolation-level <isolationlevel>    Defines the
                                                              transaction
                                                              isolation
                                                              level for
                                                              metadata
                                                              queries. For
                                                              more details
                                                              check
                                                              java.sql.Con
                                                              nection
                                                              javadoc or
                                                              the JDBC
                                                              specificaito
                                                              n
   --oracle-escaping-disabled <boolean>                       Disable the
                                                              escaping
                                                              mechanism of
                                                              the
                                                              Oracle/OraOo
                                                              p connection
                                                              managers
-P                                                            Read
                                                              password
                                                              from console
   --password <password>                                      Set
                                                              authenticati
                                                              on password
   --password-alias <password-alias>                          Credential
                                                              provider
                                                              password
                                                              alias
   --password-file <password-file>                            Set
                                                              authenticati
                                                              on password
                                                              file path
   --relaxed-isolation                                        Use
                                                              read-uncommi
                                                              tted
                                                              isolation
                                                              for imports
   --skip-dist-cache                                          Skip copying
                                                              jars to
                                                              distributed
                                                              cache
   --temporary-rootdir <rootdir>                              Defines the
                                                              temporary
                                                              root
                                                              directory
                                                              for the
                                                              import
   --throw-on-error                                           Rethrow a
                                                              RuntimeExcep
                                                              tion on
                                                              error
                                                              occurred
                                                              during the
                                                              job
   --username <username>                                      Set
                                                              authenticati
                                                              on username
   --verbose                                                  Print more
                                                              information
                                                              while
                                                              working

Import control arguments:
   --append                                                   Imports data
                                                              in append
                                                              mode
   --as-avrodatafile                                          Imports data
                                                              to Avro data
                                                              files
   --as-parquetfile                                           Imports data
                                                              to Parquet
                                                              files
   --as-sequencefile                                          Imports data
                                                              to
                                                              SequenceFile
                                                              s
   --as-textfile                                              Imports data
                                                              as plain
                                                              text
                                                              (default)
   --autoreset-to-one-mapper                                  Reset the
                                                              number of
                                                              mappers to
                                                              one mapper
                                                              if no split
                                                              key
                                                              available
   --boundary-query <statement>                               Set boundary
                                                              query for
                                                              retrieving
                                                              max and min
                                                              value of the
                                                              primary key
   --columns <col,col,col...>                                 Columns to
                                                              import from
                                                              table
   --compression-codec <codec>                                Compression
                                                              codec to use
                                                              for import
   --delete-target-dir                                        Imports data
                                                              in delete
                                                              mode
   --direct                                                   Use direct
                                                              import fast
                                                              path
   --direct-split-size <n>                                    Split the
                                                              input stream
                                                              every 'n'
                                                              bytes when
                                                              importing in
                                                              direct mode
-e,--query <statement>                                        Import
                                                              results of
                                                              SQL
                                                              'statement'
   --fetch-size <n>                                           Set number
                                                              'n' of rows
                                                              to fetch
                                                              from the
                                                              database
                                                              when more
                                                              rows are
                                                              needed
   --inline-lob-limit <n>                                     Set the
                                                              maximum size
                                                              for an
                                                              inline LOB
-m,--num-mappers <n>                                          Use 'n' map
                                                              tasks to
                                                              import in
                                                              parallel
   --mapreduce-job-name <name>                                Set name for
                                                              generated
                                                              mapreduce
                                                              job
   --merge-key <column>                                       Key column
                                                              to use to
                                                              join results
   --split-by <column-name>                                   Column of
                                                              the table
                                                              used to
                                                              split work
                                                              units
   --split-limit <size>                                       Upper Limit
                                                              of rows per
                                                              split for
                                                              split
                                                              columns of
                                                              Date/Time/Ti
                                                              mestamp and
                                                              integer
                                                              types. For
                                                              date or
                                                              timestamp
                                                              fields it is
                                                              calculated
                                                              in seconds.
                                                              split-limit
                                                              should be
                                                              greater than
                                                              0
   --table <table-name>                                       Table to
                                                              read
   --target-dir <dir>                                         HDFS plain
                                                              table
                                                              destination
   --validate                                                 Validate the
                                                              copy using
                                                              the
                                                              configured
                                                              validator
   --validation-failurehandler <validation-failurehandler>    Fully
                                                              qualified
                                                              class name
                                                              for
                                                              ValidationFa
                                                              ilureHandler
   --validation-threshold <validation-threshold>              Fully
                                                              qualified
                                                              class name
                                                              for
                                                              ValidationTh
                                                              reshold
   --validator <validator>                                    Fully
                                                              qualified
                                                              class name
                                                              for the
                                                              Validator
   --warehouse-dir <dir>                                      HDFS parent
                                                              for table
                                                              destination
   --where <where clause>                                     WHERE clause
                                                              to use
                                                              during
                                                              import
-z,--compress                                                 Enable
                                                              compression

Incremental import arguments:
   --check-column <column>        Source column to check for incremental
                                  change
   --incremental <import-type>    Define an incremental import of type
                                  'append' or 'lastmodified'
   --last-value <value>           Last imported value in the incremental
                                  check column

Output line formatting arguments:
   --enclosed-by <char>               Sets a required field enclosing
                                      character
   --escaped-by <char>                Sets the escape character
   --fields-terminated-by <char>      Sets the field separator character
   --lines-terminated-by <char>       Sets the end-of-line character
   --mysql-delimiters                 Uses MySQL's default delimiter set:
                                      fields: ,  lines: \n  escaped-by: \
                                      optionally-enclosed-by: '
   --optionally-enclosed-by <char>    Sets a field enclosing character

Input parsing arguments:
   --input-enclosed-by <char>               Sets a required field encloser
   --input-escaped-by <char>                Sets the input escape
                                            character
   --input-fields-terminated-by <char>      Sets the input field separator
   --input-lines-terminated-by <char>       Sets the input end-of-line
                                            char
   --input-optionally-enclosed-by <char>    Sets a field enclosing
                                            character

Hive arguments:
   --create-hive-table                         Fail if the target hive
                                               table exists
   --hive-database <database-name>             Sets the database name to
                                               use when importing to hive
   --hive-delims-replacement <arg>             Replace Hive record \0x01
                                               and row delimiters (\n\r)
                                               from imported string fields
                                               with user-defined string
   --hive-drop-import-delims                   Drop Hive record \0x01 and
                                               row delimiters (\n\r) from
                                               imported string fields
   --hive-home <dir>                           Override $HIVE_HOME
   --hive-import                               Import tables into Hive
                                               (Uses Hive's default
                                               delimiters if none are
                                               set.)
   --hive-overwrite                            Overwrite existing data in
                                               the Hive table
   --hive-partition-key         Sets the partition key to
                                               use when importing to hive
   --hive-partition-value     Sets the partition value to
                                               use when importing to hive
   --hive-table                    Sets the table name to use
                                               when importing to hive
   --map-column-hive                      Override mapping for
                                               specific column to hive
                                               types.

HBase arguments:
   --column-family     Sets the target column family for the
                               import
   --hbase-bulkload            Enables HBase bulk loading
   --hbase-create-table        If specified, create missing HBase tables
   --hbase-row-key        Specifies which input column to use as the
                               row key
   --hbase-table        Import to  in HBase

HCatalog arguments:
   --hcatalog-database                         HCatalog database name
   --hcatalog-home                            Override $HCAT_HOME
   --hcatalog-partition-keys         Sets the partition
                                                    keys to use when
                                                    importing to hive
   --hcatalog-partition-values     Sets the partition
                                                    values to use when
                                                    importing to hive
   --hcatalog-table                            HCatalog table name
   --hive-home                                 Override $HIVE_HOME
   --hive-partition-key              Sets the partition key
                                                    to use when importing
                                                    to hive
   --hive-partition-value          Sets the partition
                                                    value to use when
                                                    importing to hive
   --map-column-hive                           Override mapping for
                                                    specific column to
                                                    hive types.

HCatalog import specific options:
   --create-hcatalog-table             Create HCatalog before import
   --drop-and-create-hcatalog-table    Drop and Create HCatalog before
                                       import
   --hcatalog-storage-stanza      HCatalog storage stanza for table
                                       creation

Accumulo arguments:
   --accumulo-batch-size           Batch size in bytes
   --accumulo-column-family      Sets the target column family for
                                         the import
   --accumulo-create-table               If specified, create missing
                                         Accumulo tables
   --accumulo-instance         Accumulo instance name.
   --accumulo-max-latency       Max write latency in milliseconds
   --accumulo-password         Accumulo password.
   --accumulo-row-key Specifies which input column to
                                         use as the row key
   --accumulo-table               
              Import to  in Accumulo
   --accumulo-user                 Accumulo user name.
   --accumulo-visibility            Visibility token to be applied to
                                         all rows imported
   --accumulo-zookeepers     Comma-separated list of
                                         zookeepers (host:port)

Code generation arguments:
   --bindir                              Output directory for
                                              compiled objects
   --class-name                         Sets the generated class
                                              name. This overrides
                                              --package-name. When
                                              combined with --jar-file,
                                              sets the input class.
   --escape-mapping-column-names     Disable special characters
                                              escaping in column names
   --input-null-non-string          Input null non-string
                                              representation
   --input-null-string              Input null string
                                              representation
   --jar-file                           Disable code generation; use
                                              specified jar
   --map-column-java                     Override mapping for
                                              specific columns to java
                                              types
   --null-non-string                Null non-string
                                              representation
   --null-string                    Null string representation
   --outdir                              Output directory for
                                              generated code
   --package-name                       Put auto-generated classes
                                              in this package

Generic Hadoop command-line arguments:
(must preceed any tool-specific arguments)
Generic options supported are
-conf      specify an application configuration file
-D             use value for given property
-fs       specify a namenode
-jt     specify a ResourceManager
-files     specify comma separated files to be copied to the map reduce cluster
-libjars     specify comma separated jar files to include in the classpath.
-archives     specify comma separated archives to be unarchived on the compute machines.

The general command line syntax is
bin/hadoop command [genericOptions] [commandOptions]


At minimum, you must specify --connect and --table
Arguments to mysqldump and other subprograms may be supplied
after a '--' on the command line.
 
  基本格式应该是这样： 
  usage: sqoop import [GENERIC-ARGS] [TOOL-ARGS]
 
  显然应该指定MySQL和相关参数（url、username、password、table）及HDFS与写入位置。 
  导入测试 
  将MySQL中tb_tohdfs表的数据导入HDFS的/sqoop/import/test01目录中： 
  在node3： 
  sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test01
 
  其中\代表本条语句未结束，提前换行。查看效果： 
  [root@node3 ~]# hdfs dfs -cat /sqoop/import/test01/par*
1,laoda,18
2,laoer,19
3,laosan,20
4,laosi,21
 
  看看之前的过程中： 
  21/05/07 21:36:02 INFO db.IntegerSplitter: Split size: 0; Num splits: 4 from: 1 to: 4
 
  这么小的文件产生了4个Split。。。MapTask真多。。。 
  修改参数 
  将tb_tohdfs表的id和name导入HDFS的/sqoop/import/test01目录，并且用制表符分隔： 
  sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--columns id,name \
--delete-target-dir  \
--target-dir /sqoop/import/test01 \
--fields-terminated-by '\t' \
-m 1
 
  其中： 
   
   -m：指定MapTask的个数 
   –fields-terminated-by：用于指定输出的分隔符 
   –columns：指定导入哪些列 
   –delete-target-dir :提前删除输出目录 
   
  设置MapTask的个数后： 
  21/05/07 22:04:12 INFO mapreduce.JobSubmitter: number of splits:1
 
  速度反倒也变快了。。。在浏览器打开192.168.88.221:50070：
 
 成功。。。 
  按条件导入 
  将tb_tohdfs表中的id >2的数据导入HDFS的/sqoop/import/test01目录中： 
  sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--where 'id > 2' \
--delete-target-dir  \
--target-dir /sqoop/import/test01 \
--fields-terminated-by '\t' \
-m 1
 
  其中：
 –where ：用于指定行的过滤条件 
  执行后： 
  [root@node3 ~]# hdfs dfs -cat /sqoop/import/test01/par*                                                                       
3       laosan  20
4       laosi   21
 
  条件导入部分列 
  将tb_tohdfs表中的id>2的数据中id和name两列导入/sqoop/import/test01目录中： 
  sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--columns id,name \
--where 'id > 2' \
--delete-target-dir \
--target-dir /sqoop/import/test01 \
--fields-terminated-by '\t' \
-m 1
 
  或者使用SQL语句的方式： 
  sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
-e 'select id,name from tb_tohdfs where id > 2 and $CONDITIONS' \
--delete-target-dir \
--target-dir /sqoop/import/test01 \
--fields-terminated-by '\t' \
-m 1
 
  -e,–query ：使用SQL语句读取数据.只要使用SQL语句，必须在where子句中加上$CONDITIONS。 
  Sqoop导入Hive 
  Hive表准备 
  在beeline中： 
  use default;
create table fromsqoop(
id int,
name string,
age int
);
 
  直接导入 
  在node3中： 
  sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--hive-import \
--hive-database default \
--hive-table fromsqoop \
--fields-terminated-by '\001' \
-m 1
 
  其中： 
   
   –hive-import \：表示导入Hive表 
   –hive-database default \：表示指定导入哪个Hive的数据库 
   –hive-table fromsqoop \：表示指定导入哪个Hive的表 
   –fields-terminated-by ‘\001’ \：指定Hive表的分隔符，一定要与Hive表的分隔符一致 
   
  其实底层运行了2步。。。先将MySQL的数据通过MapReduce先导入HDFS（DBInputFormat可以读取数据库（读MySQL），再用TextOutputFormat可以写出到HDFS），再将HDFS上导入的这个文件通过load命令加载到了Hive表中。 
  hcatalog导入 
  在node3中： 
  sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--hcatalog-database default \
--hcatalog-table fromsqoop \
--fields-terminated-by '\001' \
-m 1
 
  这种做法底层也是2步。。。先获取Hive表的元数据，再将Hive表的目录直接作为MapReduce输出。 
  Sqoop增量导入 
  如果每天都： 
  sqoop import --connect jdbc:mysql://node3:3306/sqoopTest --username root --password 123456 --table tb_tohdfs --target-dir /sqoop/import/test02 -m 1
 
  会产生大量重复数据（完全没有意义的脏数据）且读取时间长浪费性能，多余的数据浪费硬盘。。。 
  正常方式 
  对某一列值进行判断，只要大于上一次的值就会被导入： 
  
Incremental import arguments:
   --check-column         Source column to check for incremental
                                  change
   --incremental     Define an incremental import of type
                                  'append' or 'lastmodified'
   --last-value            Last imported value in the incremental
                                  check column
 
  其中： 
   
    –check-column ：按照哪一列进行增量导入
  
    –last-value：用于指定上一次的值
  
    –incremental：增量的方式
  
   
  append 
  必须有一列自增的值，按照自增的int值（∵MySQL等数据库的auto_increment列只能是int类型）进行判断。只能导入insert插入的新数据，无法导入update更新的数据（∵update更新数据时自增列的数据不会变化）。 
  在node3： 
  sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test02 \
--fields-terminated-by '\t' \
--check-column id \
--incremental append \
--last-value 1 \
-m 1
 
  产生新数据后： 
  insert into tb_tohdfs values(null,"laowu",22);
insert into tb_tohdfs values(null,"laoliu",23);
insert into tb_tohdfs values(null,"laoqi",24);
insert into tb_tohdfs values(null,"laoba",25);
 
  可以增量更新： 
  sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test02 \
--fields-terminated-by '\t' \
--incremental append \
--check-column id \
--last-value 4 \
-m 1
 
  lastmodified 
  必须包含动态时间变化这一列，按照数据变化的时间进行判断。既可以导入新增的数据也导入更新的数据。 
  MySQL准备数据： 
  CREATE TABLE `tb_lastmode` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `word` varchar(200) NOT NULL,
  `lastmode` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP  ON UPDATE CURRENT_TIMESTAMP,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

insert into tb_lastmode values(null,'hadoop',null);
insert into tb_lastmode values(null,'spark',null);
insert into tb_lastmode values(null,'hbase',null);
 
  在node3采集： 
  sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_lastmode \
--target-dir /sqoop/import/test03 \
--fields-terminated-by '\t' \
--incremental lastmodified \
--check-column lastmode \
--last-value '2021-05-06 16:09:32' \
-m 1
 
  数据变化时： 
    insert into tb_lastmode values(null,'hive',null);
  update tb_lastmode set word = 'sqoop' where id = 1;
 
  可以增量保存; 
  sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_lastmode \
--target-dir /sqoop/import/test03 \
--fields-terminated-by '\t' \
--merge-key id \
--incremental lastmodified \
--check-column lastmode \
--last-value '2021-05-07 16:10:38' \
-m 1
 
  其中：
 –merge-key ：按照id进行合并。 
  特殊方式 
  参照之前搞分区表的套路： 
  sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
-e 'select id,name from tb_tohdfs where id > 12 and $CONDITIONS' \
--delete-target-dir \
--target-dir /sqoop/import/test01 \
--fields-terminated-by '\t' \
-m 1
 
  这种方式必须每次将最新导入的数据放到一个目录单独存储，也不能增量更新update的数据。 
  Sqoop导出 
  Sqoop全量导出 
  MySQL准备数据 
  use sqoopTest;
CREATE TABLE `tb_url` (
  `id` int(11) NOT NULL,
  `url` varchar(200) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
 
  Hive准备 
  vim /export/datas/lateral.txt
1	http://facebook.com/path/p1.php?query=1
2	http://www.baidu.com/news/index.jsp?uuid=frank
3	http://www.jd.com/index?source=baidu

use default;
create table tb_url(
id int,
url string
) row format delimited fields terminated by '\t';

load data local inpath '/export/data/lateral.txt' into table tb_url;
 
  导出 
  sqoop export \
--connect  jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_url \
--export-dir /user/hive/warehouse/tb_url \
--input-fields-terminated-by '\t' \
-m 1 
 
  其中： 
   
   –export-dir：指定导出的HDFS目录 
   –input-fields-terminated-by ：用于指定导出的HDFS文件的分隔符类型 
   
  Sqoop增量导出 
  有时候，只需要使用新增的数据，不需要全量导出。。。 
  数据准备 
  自行修改修改lateral.txt数据。。。 
  load data local inpath '/export/data/lateral.txt' overwrite into table tb_url;
 
  这句话可以覆盖重写。 
  增量导出： 
  sqoop export \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_url \
--export-dir /user/hive/warehouse/tb_url \
--input-fields-terminated-by '\t' \
--update-key id \
--update-mode updateonly \
-m 1
 
  把updateonly改成allowerinsert就是另外一回事了。。。 
  updateonly 
  只增量导出更新（update）的数据。 
  allowerinsert 
  既导出更新（update）的数据，也导出新增（insert）的数据。 
  Sqoop Job 
  功能 
  sqoop import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test04 \
--fields-terminated-by '\t' \
--incremental append \
--check-column id \
--last-value 4 \
-m 1
 
  之前的方式，每次执行增量更新，都得人工修改last-value的值，是很愚蠢的做法。。。利用Job就可以自动记录该值，从而实现自动化数据采集。 
  创建Job 
  sqoop job --create job01 \
-- import \
--connect jdbc:mysql://node3:3306/sqoopTest \
--username root \
--password 123456 \
--table tb_tohdfs \
--target-dir /sqoop/import/test04 \
--fields-terminated-by '\t' \
--incremental append \
--check-column id \
--last-value 8 \
-m 1
 
  列举Job 
  sqoop job --list
 
  查看Job信息 
  sqoop job --show jobName
 
  运行Job 
  sqoop job --exec jobName
 
  这一步可能会要求输入MySQL的秘密。。。输入后即可执行。执行完毕后会自动记录last-value的值。 
  删除Job 
  sqoop job --delete jobName
 
  Sqoop脚本封装 
  上一步中执行Job时要求输入MySQL秘密。。。自己玩无所谓了：123456也没啥大问题，虚拟机炸了就重装或者恢复快照。。。但是如果有神马不可告人的秘密就是另外一回事了。。。别以为刷屏、ctrl+L清理CRT、clear清屏就万事大吉了。。。history命令是干嘛的来着？ 
  为了保护不可告人的秘密。。。可以在sqoop的sqoop-site.xml中配置将密码存储在客户端中，比较麻烦。。。 
  稍微简单的做法是：将密码存储在文件中，通过文件的权限来管理密码。 
  vim export/data/sqoop.passwd
 
  在新建的文件中写入密码（只能1行）。之后 
  chmod 700 export/data/sqoop.passwd
 
  配置这个文件的属组、其它用户的权限，最后封装到文件中： 
  import
--connect
jdbc:mysql://node3:3306/sqoopTest
--username 
root
--password-file 
file:///export/data/sqoop.passwd
--table 
tb_tohdfs
--target-dir 
/sqoop/import/test05
--fields-terminated-by 
'\t' 
-m 
1
 
  运行： 
  sqoop --options-file /export/data/test.sqoop
 
  已经不再需要权限！！！ 
  

                            
                        
                    
                    
                    
                    
                    
                    
                
                
                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                
            
        
    
    
        你可能感兴趣的:(云计算大数据,笔记,sqoop,数据采集,hdfs,hive,mysql)
        
            
                
                    使用Python爬虫抓取与分析航班信息：从数据采集到应用的完整实践
                        Python爬虫项目
2025年爬虫实战项目pythonselenium自动化爬虫开发语言phpmicrosoft
                        目录：前言爬虫基础知识什么是爬虫？爬虫的工作原理爬虫的应用领域航班数据爬取的实际应用航班数据分析的重要性选择爬虫技术栈常见的爬虫框架与工具选择合适的工具：requestsvsSeleniumvsScrapy如何获取航班信息航班数据来源分析航班信息的结构与抓取目标爬虫抓取航班信息的步骤发送HTTP请求并获取航班数据使用Selenium抓取动态数据解析HTML页面并提取航班信息航班数据存储与处理存储抓
                    
                    Spring Boot 整合 MySQL 和 Druid 连接池
                        疯狂的键盘侠
springbootmysqlspringbootmysqldruid
                        SpringBoot整合MySQL和Druid连接池一、引言在JavaWeb开发中，SpringBoot凭借其简洁的配置和强大的功能成为主流框架，而MySQL作为常用的关系型数据库，与SpringBoot的结合十分紧密。Druid是阿里巴巴开源的一款高性能数据库连接池，它提供了丰富的监控和扩展功能，能有效提升应用程序与数据库交互的性能和稳定性。本文将详细介绍如何在SpringBoot2和Sprin
                    
                    机器学习&深度学习目录
                        UQI-LIUWJ
各专栏目录深度学习人工智能1024程序员节
                        机器学习模型机器学习笔记：Transformer_刘文巾的博客-CSDN博客attention相关机器学习笔记：attention_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ELMOBERT_UQI-LIUWJ的博客-CSDN博客机器学习笔记：ViT（论文AnImageIsWorth16X16Words:TransformersforImageRecognitionatScale）_UQ
                    
                    docker部署redis最佳实践
                        kucoll
dockerdockerredis容器
                        使用docker部署mysql最佳实践拉取镜像创建目录及配置文件Redis配置说明创建目录创建配置文件运行容器redis数据管理进入容器并登录redisredis基本命令备份RedisRDB数据恢复RedisRDB数据备份RedisAOF数据恢复RedisAOF数据防火墙配置常见问题处理日志警告WARNINGovercommit_memory拉取镜像dockerpullredis:6.2.6创建目
                    
                    YOLOv11-ultralytics-8.3.67部分代码阅读笔记-transformer.py
                        红色的山茶花
YOLO笔记transformer深度学习
                        transformer.pyultralytics\nn\modules\transformer.py目录transformer.py1.所需的库和模块2.classTransformerEncoderLayer(nn.Module):3.classAIFI(TransformerEncoderLayer):4.classTransformerLayer(nn.Module):5.classTra
                    
                    读书笔记--分布式服务架构对比及优势
                        一望无际的大草原
读书笔记服务中心后端读书笔记分布式架构共享服务
                        本篇是在上一篇的基础上，主要对共享服务平台建设所依赖的分布式服务架构进行学习，主要记录和思考如下，供大家学习参考。随着企业各业务数字化转型工作的推进，之前在传统的单一系统（或单体应用）模式中，每个系统都要做这些公共的功能或模块，比如用户管理，权限认证，日志，邮件，财务等等，随着企业各大应用系统的不断扩展，各垂直业务板块逐步沉淀形成各自的核心业务的数字化能力，提出了基于SOA理念的分布式服务架构，S
                    
                    Linux学习笔记（复习版day008）
                        ccnnlxc
Liux学习复习笔记linux学习笔记
                        1.僵尸进程僵尸进程（ZombieProcess）是指那些已经终止（即完成执行）的进程，但其父进程尚未读取其退出状态信息的进程。简单来说，僵尸进程的生命周期已经结束，但它的进程描述符仍然存在于系统中，以便父进程能够获取其退出状态。处理：1.top命令查询是否有僵尸进程，此处1zombie表示有一个僵尸进程2.ps-aux|grepZ查询僵尸进程的pid,STAT状态为Z+的即为僵尸进程。3.pst
                    
                    Hadoop学习笔记 --- YARN执行流程与工作原理
                        杨鑫newlfe
数据仓库大数据挖掘与大数据应用案例YARNHadoop大数据资源调度数据仓库
                        一、YARN简述首先介绍一下YARN在Hadoop2.0版本引进的资源管理系统，直接从MapReduceV1演化而来(由于引擎的功能缺陷)；原因是将MapReduce1中的JobTracker的资源管理和作业调度两个功能分开，分别由ResourceManager和ApplicationMaster进行实现；ResourceManager：负责整个集群的资源管理和调度ApplicationMaste
                    
                    【深入浅出 Yarn 架构与实现】1-1 设计理念与基本架构
                        大数据王小皮
深入浅出Yarn架构与实现架构hadoop大数据yarnjava
                        一、Yarn产生的背景Hadoop2之前是由HDFS和MR组成的，HDFS负责存储，MR负责计算。一）MRv1的问题耦合度高：MR中的jobTracker同时负责资源管理和作业控制两个功能，互相制约。可靠性差：管理节点是单机的，有单点故障的问题。资源利用率低：基于slot的资源分配模型。机器会将资源划分成若干相同大小的slot，并划定哪些是mapslot、哪些是reduceslot。无法支持多种计
                    
                    L2tp环境搭建笔记- Openwrt平台
                        月光技术杂谈
OpenWRT5GCPE5GCPE5GopenwrtL2TPdefaultrouteVPN虚拟局域网
                        L2tp环境搭建笔记-Openwrt平台安装L2tp服务配置L2tpserverL2TP客户端配置（使用配置文件）L2TP客户端配置（LUCI)客户端拔号（命令行方式）defaultroute路由问题L2TP（Layer2TunnelingProtocol）是一种工作在二层的隧道协议，是一种虚拟专用网络（VPN）协议。L2TP通常基于IPSEC作底层链路加密，并且使用PPP协议进行拔号。本文使用3
                    
                    【YARN】yarn 基础知识整理——hadoop1.0与hadoop2.0区别、yarn总结
                        时间的美景
HadoopYarnhadoophadoop1hadoop2大数据
                        文章目录1.hadoop1.0和hadoop2.0区别1.1hadoop1.01.1.1HDFS1.1.2Mapreduce1.2hadoop2.01.2.1HDFS1.2.2Yarn/MapReduce22.Yarn2.1Yarn(YetAnotherResourceNegotiator)概述2.2Yarn的优点2.3Yarn重要概念2.3.1ResourceManager2.3.2NodeMa
                    
                    openwrt配置strongswan对接hillstone ipsec的笔记
                        d9394952
openwrtopenwrtipsecstrongswan
                        一、主要参考资料：https://openwrt.org/docs/guide-user/services//ipsec/strongswan/roadwarriorhttps://openwrt.org/docs/guide-user/services//ipsec/strongswan/basichttps://openwrt.org/docs/guide-user/services//ips
                    
                    【mysql基础语法】
                        baboozx
mysql
                        sql基础语法一基本语法查询：select字段from表名where条件插入：insertinto表名(column_name)values(values)删除：deletefrom表名where条件更新：update表名set(column_name=value),where条件应用于某列的聚合函数。聚合函数对数据进行数学运算，如计算平均值（AVG）、总和（SUM）、最大值（MAX）、最小值（M
                    
                    搭建Hadoop与Hive环境
                        达达玲玲
hadoophive大数据
                        当搭建Hadoop与Hive环境时，以下是每个步骤的详细操作说明：1.安装并配置CentOS7操作系统：-下载CentOS7ISO镜像文件，并通过虚拟机或物理机安装CentOS7操作系统。-在安装过程中，为系统分配必要的网络、用户和权限。2.安装Java开发环境：-下载适合您的系统的JavaJDK版本。-使用命令或GUI工具安装JavaJDK。-配置JAVA_HOME环境变量：-打开终端，输入以下
                    
                    hive视图与物化视图使用详解
                        达达玲玲
hivehadoop数据仓库大数据
                        Hive视图和物化视图都是在数据仓库中处理数据的概念。下面对Hive视图和物化视图进行详细解释：Hive视图：1.Hive视图是一个逻辑表，它是对基础表的查询结果的引用，被视为一个新表。2.视图可以简化复杂查询，隐藏复杂的逻辑，并将查询重用。3.视图不存储数据，而是在查询时动态地返回结果。4.视图可以基于单个表或多个表创建，也可以对其他视图创建。Hive视图的使用方式：1.创建视图：```sqlC
                    
                    无人机+固定机巢 ，空地协同作业技术详解
                        无人机技术圈
无人机技术无人机
                        无人机与固定机巢结合的空地协同作业技术是现代无人机应用领域的一项重要创新，它结合了无人机的灵活性和固定机巢的保障性，实现了空地一体化的高效作业。以下是对该技术的详细解析：一、技术概述无人机与固定机巢结合的空地协同作业技术，主要是通过无人机搭载各种传感器和任务载荷，在固定机巢的支持下进行起飞、巡逻、监测、数据采集等任务，并通过高速通信技术将数据传输至地面控制站，实现信息的实时共享和协同决策。固定机巢
                    
                    mysql冷热备份方案_MySQL双机热备份实施方案
                        析木分野
mysql冷热备份方案
                        MySQL双机热备份实施方案1、MySQL数据库没有增量备份的机制，当数据量太大的时候备份是一个很大的问题。还好MySQL数据库提供了一种主从备份的机制，其实就是把主数据库的所有的数据同时写到备份数据库中。实现MySQL数据库的热备份。2、要想实现双机的热备首先要了解主从数据库服务器的版本的需求。要实现热备MySQL的版本都要高于3.2，还有一个基本的原则就是作为从数据库的数据库版本可以高于主服务
                    
                    《spring编程常见错误50例》学习笔记 Day1
                        qq_31273845
学习spring
                        1.为什么有时候我们代码移了一下包，就扫描不到了？在构建web服务的时候，我们启动服务程度如果不设置扫描包的话，默认会扫描运行程序所在的包。如果包和应用程序不在同一个包，就会失效。这个之前知道，至于为什么？今天才了解到，我就这里复述一下：@SpringBootApplication里面会有@ComponentScan注解。参考配置如下@ComponentScan(excludeFilters={@
                    
                    【面试题】构建高并发、高可用服务架构：技术选型与设计
                        言之。
redispython面试架构
                        监控系统消息队列缓存层数据存储层应用层Web层负载均衡与流量分配GrafanaPrometheusAlertmanager消息队列Kafka/RabbitMQ集群/镜像队列缓存层Redis/Memcached数据库MySQL/PostgreSQL主从复制/主主复制应用服务器SpringBoot/Node.js应用服务器SpringBoot/Node.js应用服务器SpringBoot/Node.j
                    
                    性能测试丨JVM 性能数据采集
                        霍格沃兹测试开发学社测试人社区
jvm测试工具测试开发软件测试
                        什么是JVM性能数据采集？JVM性能数据采集是指通过一些工具和技术采集与Java虚拟机相关的性能数据。这些数据包括但不限于内存使用、CPU使用、垃圾回收（GC）行为、线程活动等。合理地分析这些数据，可以帮助我们找出系统的瓶颈，从而进一步优化我们的Java应用。具体来说，性能数据采集使得我们能够监控和诊断Java应用的健康状态，定位性能问题，评估优化方案的效果。使用JVM性能数据采集的好处使用JVM
                    
                    Prometheus学习笔记
                        柠檬编程工作室
k8s运维Dockerprometheus学习笔记
                        Prometheus官方教程Prometheus官方下载网址Prometheus简介Prometheus是一个开源的监控和报警系统，专为大规模分布式系统设计。它能够实时地收集、存储和查询时间序列数据，广泛用于监控云原生应用、微服务架构和容器化环境（如Kubernetes）。Prometheus的关键特点：时间序列数据存储：Prometheus以时间序列的形式存储数据，数据点由时间戳、指标名称和标签
                    
                    Go语言web快速开发框架Gin如何进行数据的增删查改呢？
                        网友阿贵
Go语言golanggin后端intellij-ideavscode
                        在Go语言中使用Gin框架进行Web开发时，你可以轻松地结合database/sql接口和具体的数据库驱动（如MySQL的go-sql-driver/mysql）来执行数据的增删查改（CRUD）操作。下面通过几个简单的例子展示如何使用Gin和MySQL进行基本的数据操作。1.安装依赖确保你已经安装了必要的依赖：goget-ugithub.com/gin-gonic/gingoget-ugithub
                    
                    mysql开放远程连接
                        大叔是90后大叔
Mysql服务器mysql数据库
                        mysql开放远程连接mysql开放远程连接方法一：方法二（推荐）：mysql开放远程连接新安装的mysql只可以本机连接，但是远程连接就会报notallowedtoconnecttothisMySQLserver例如：按如下步骤进行操作方法一：更改mysql数据库user表的host列，把localhost改为%[root@localhost~]#mysql-uroot-p123***mysql
                    
                    【gopher的java学习笔记】代码分层之controller和service
                        ThisIsClark
gopher的java学习笔记java学习笔记
                        在Java的Web开发中，Controller层和Service层是两个至关重要的层次，它们各自承担着不同的职责，共同协作以实现复杂的应用程序功能。本文将详细介绍Java中Controller层和Service层的技术特点和作用。一、Controller层（控制层）Controller层是应用程序的入口点，负责接收用户的请求并处理。它通常处理来自前端或客户端的请求，并将请求转发给相应的Servic
                    
                    Python爬虫的一些基本内容、常见步骤以及示例代码
                        max500600
pythonpython爬虫开发语言
                        以下是关于Python爬虫的一些基本内容、常见步骤以及示例代码：一、Python爬虫概述Python爬虫是一种利用Python编程语言编写的程序，用于自动从互联网上获取网页内容以及提取所需信息工具。它可以模拟人类在浏览器上的操作，访问各种网页，并按照特定规则抓取数据，比如抓取新闻标题、商品价格、图片链接等等，广泛应用于数据采集、信息监测、搜索引擎等领域。二、常见步骤1.确定目标和分析网页首先明确你
                    
                    JavaWeb——MySQL-多表设计（3/5）：（一对一关系，多对多关系，小结）
                        qiyi.sky
JavaWebmysql数据库笔记学习java
                        目录一对一关系剖析一对一关系场景与特点数据库实现方式图形化工具演示与验证多对多关系解析多对多关系实例与困境中间表解决方案工具演示与理解深化多表关系核心要点回顾一对一关系剖析一对一关系场景与特点以用户与身份证为例，呈现一对一典型场景。在业务系统中，为优化数据操作效率，常拆分含多种信息的大表。如用户表含基本与身份信息，若基本信息查询频繁、身份信息查询低频，可拆为用户基本信息表（含用户ID、姓名、性别等
                    
                    [论文笔记] Megatron: mistral sliding window（ImportError: /workspace/venv/lib/python3.10/site-packag报错解决）
                        心心喵
论文笔记论文阅读
                        pyTorch—TransformerEngine1.2.1documentation论文：https://arxiv.org/pdf/2310.06825.pdftransformerengine的slidingwindow是用了flashatttention（新版本2以上，这里用的最新版本2.5.2）里对sliding_window的实现。所以不需要用transformerengine。直接用
                    
                    python学习笔记---中文词云
                        DiAsdream
数据分析学习python学习开发语言
                        python学习笔记–中文词云提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加发现词云的展示还挺有意思的，比较多的应用场景是给用户打标签，社交软件应用较多。今天随便找了一些文字电影《肖申克的救赎》的一些评价，做了一个词云，其实还挺简单的。Python的学习路上真的需要这样的小成功来激发更多学习的动力。Comeon！提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章
                    
                    阿里二面准备(Java 研发)，精心准备200题（含答案）收割 offer
                        跟着我学Java
面试程序员Javajava面试开发语言后端Java开发
                        这篇文章我花了两天编辑，是目前我能找到的几乎所有的问题。所以你们如果能全部掌握，基本就能收割offer了。时间有限的话，针对自己的情况优先选最有可能被问到的问题来准备。文中的200道题大部分都包含了答案，希望对要参加面试的读者有一定的帮助，这是小编为了准备面试阿里二面所准备的面试题，出来收集了200道高级Java面试题之外，小编同时整理的Java核心笔记，Java架构面试专题整合200道（pdf文
                    
                    2023菜鸟物流一面.社招.Java后端开发
                        心向阳光的天域
java面试java
                        2023菜鸟物流一面.社招.Java后端开发1.手写一个StringBuilder2.介绍分布式锁3.介绍高并发经验4.介绍项目的吞吐量5.Mysql的行级锁(1)行级锁(2)表级锁6.单一职责和接口隔离区别1.手写一个StringBuilderpublicclassMyStringBuilder{/***可变长度的字符串——字符数组*/charvalue[];/***定义数据长度*/intcou
                    
                                ASM系列六 利用TreeApi 添加和移除类成员
                                    lijingyao8206
jvm动态代理ASM字节码技术TreeAPI
                                        同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 
  
package asm.core;

/**
 * Created by yunshen.ljy on 2015/6/
                                
                                Springmvc-权限设计
                                    bee1314
springWebjsp
                                     
 万丈高楼平地起。 
 
权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。 
目标：  
1.实现权限的管理（CRUD）
2.实现部门管理 （CRUD)
3.实现人员的管理 （CRUD）
4.实现部门和权限
                                
                                算法竞赛入门经典（第二版）第2章习题
                                    CrazyMizzz
c算法
                                    2.4.1 输出技巧 
#include <stdio.h> 
 
int 
main() 
{ 
 int i, n; 
 
 scanf("%d", &n); 
 for (i = 1; i <= n; i++) 
 printf("%d\n", i); 
 return 0; 
} 
 
习题2-2 水仙花数(daffodil
                                
                                struts2中jsp自动跳转到Action
                                    麦田的设计者
jspwebxmlstruts2自动跳转
                                    1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 
  
2、＜jsp:forward page="xxx.action" /＞ ，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
                                
                                php 操作webservice实例
                                    IT独行者
PHPwebservice
                                    首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; 
OK 现在我们来体验webservice 
//server端 serve
                                
                                Windows下使用Vagrant安装linux系统
                                    _wy_
windowsvagrant
                                    准备工作： 
下载安装 VirtualBox ：https://www.virtualbox.org/ 
下载安装 Vagrant ：http://www.vagrantup.com/ 
下载需要使用的 box ： 
官方提供的范例：http://files.vagrantup.com/precise32.box 
还可以在 http://www.vagrantbox.es/ 
                                
                                更改linux的文件拥有者及用户组(chown和chgrp)
                                    无量
clinuxchgrpchown
                                    本文（转）  
http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/   
http://ydlmlh.iteye.com/blog/1435157   
一、基本使用：    
使用chown命令可以修改文件或目录所属的用户： 
       命令
                                
                                linux下抓包工具
                                    矮蛋蛋
linux
                                    原文地址： 
http://blog.chinaunix.net/uid-23670869-id-2610683.html 
tcpdump -nn -vv -X udp port 8888 
上面命令是抓取udp包、端口为8888 
netstat -tln 命令是用来查看linux的端口使用情况 
 
13 . 列出所有的网络连接 
lsof -i 
14. 列出所有tcp 网络连接信息 
l
                                
                                我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起”
                                    alafqq
mybatis
                                    最近看了  
每一个用mybatis的男纸，你伤不起 
原文地址 ：http://www.iteye.com/topic/1073938 
发表一下个人看法。欢迎大神拍砖； 
 
个人一直使用的是Ibatis框架，公司对其进行过小小的改良； 
最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究； 
 
发现多了一个mapper层；个人感觉就是个dao； 
 
 
                                
                                解决java数据交换之谜
                                    百合不是茶
数据交换
                                    交换两个数字的方法有以下三种  ，其中第一种最常用
 
  
/*
输出最小的一个数
*/
public class jiaohuan1 {

	public static void main(String[] args) {
	int a =4;
	int b = 3;
		if(a<b){
         //  第一种交换方式
		int tmep =
                                
                                渐变显示
                                    bijian1013
JavaScript
                                    <style type="text/css">
 #wxf {
  FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98);
  height: 25px;
 }
</style>
                                
                                探索JUnit4扩展：断言语法assertThat
                                    bijian1013
java单元测试assertThat
                                    一.概述 
        JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
                                
                                【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}}
                                    bit1129
gson
                                       
如何把如下简单的JSON字符串反序列化为Java的POJO对象? 
{"data":{"IM":["MSN","QQ","Gtalk"]}} 
  
下面的POJO类Model无法完成正确的解析： 
  
import com.google.gson.Gson;
                                
                                【Kafka九】Kafka High Level API vs. Low Level API
                                    bit1129
kafka
                                    1. Kafka提供了两种Consumer API 
 
 High Level Consumer API 
 Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 
 
在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题 
 
                                
                                在nginx中集成lua脚本：添加自定义Http头，封IP等
                                    ronin47
nginx lua
                                    Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。 强制搜索引擎只索引mixlr.com 
Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 
location /{
                                
                                java-归并排序
                                    bylijinnan
java
                                    
import java.util.Arrays;


public class MergeSort {

	
	public static void main(String[] args) {

		int[] a={20,1,3,8,5,9,4,25};
		mergeSort(a,0,a.length-1);
		System.out.println(Arrays.to
                                
                                Netty源码学习-CompositeChannelBuffer
                                    bylijinnan
javanetty
                                    CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 
 
查看API（ 
http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description） 
可以看到，所谓“Transparent Zero Copy”是通
                                
                                Android中给Activity添加返回键
                                    hotsunshine
Activity
                                           
// this need android:minSdkVersion="11"
 getActionBar().setDisplayHomeAsUpEnabled(true);
 
 
 
   
 @Override
    public boolean onOptionsItemSelected(MenuItem item) {
        
                                
                                静态页面传参
                                    ctrain
静态
                                    
$(document).ready(function () {
	var request = {
		QueryString :
		function (val) {
			var uri = window.location.search;
			var re = new RegExp("" + val + "=([^&?]*)", &
                                
                                Windows中查找某个目录下的所有文件中包含某个字符串的命令
                                    daizj
windows查找某个目录下的所有文件包含某个字符串
                                    findstr可以完成这个工作。 
     
[html]  
view plain 
copy       
 
 >findstr /s /i "string" *.*   
  
上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
                                
                                改善程序代码质量的一些技巧
                                    dcj3sjt126com
编程PHP重构
                                    有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码 时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：    尽量保持方法简短    尽管很多人都遵
                                
                                SharedPreferences对数据的存储
                                    dcj3sjt126com

                                    SharedPreferences简介：                                                   &nbs
                                
                                linux复习笔记之bash shell (2) bash基础
                                    eksliang
bashbash shell
                                    转载请出自出处：
http://eksliang.iteye.com/blog/2104329  
1.影响显示结果的语系变量（locale） 
 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： 
[root@localhost shell]# locale
LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8"

                                
                                Android零碎知识总结
                                    gqdy365
android
                                    1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。 
所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
                                
                                HoverTree.Model.ArticleSelect类的作用
                                    hvt
Web.netC#hovertreeasp.net
                                    ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
                                
                                PHP 判断是否使用代理 PHP Proxy Detector
                                    天梯梦
proxy
                                    1. php 类 
I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to 
                                
                                apache的math库中的回归——regression（翻译）
                                    lvdccyb
Mathapache
                                    这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。 
多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。 
  
数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。 
  
基本覆盖了：线代，统计，矩阵， 
最优化理论 
曲线拟合 
常微分方程 
遗传算法（GA）， 
还有3维的运算。。。 

                                
                                基础数据结构和算法十三：Undirected Graphs (2)
                                    sunwinner
Algorithm
                                      
Design pattern for graph processing.  
Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
                                
                                云计算平台最重要的五项技术
                                    sumapp
云计算云平台智城云
                                    云计算平台最重要的五项技术 
 
 
 
1、云服务器 
 
 
云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。 
 
 
特性 
 
机型丰富 
 
通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作； 
 
仅需要几分钟，根据CP
                                
                                《京东技术解密》有奖试读获奖名单公布
                                    ITeye管理员
活动
                                    ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。  
 
 
12月试读活动回顾： 
http://webmaster.iteye.com/blog/2164754 
 
 
本次技术图书试读活动获奖名单及相应作品如下： 
 
 
一等奖（两名） 
 
 
 Microhardest：http://microhardest.ite
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.