dabokele

Sqoop-1.4.5用户手册

　　本文以Sqoop User Guide (v1.4.5)为主，对Sqoop-1.4.5的用户手册进行翻译，同时会结合一些实际操作中的注意事项一并写入。由于原文档很长，本文首先会以实际使用到的部分为主，逐步进行完善。

1、Introduction

　　Sqoop是一个用于在Hadoop和关系型数据库之间流转数据的一个工具。可以使用Sqoop将数据从关系型数据库系统(RDBMS)比如MySQL或者Oracle导入到Hadoop分布式文件系统(HDFS)上，然后数据在Hadoop MapReduce上转换，以及将数据导出到RDBMS中。
　　Sqoop自动实现了上面提到的很多过程，Sqoop使用MapReduce来导入和导出数据，这样既可以提供并行化操作又可以提高容错能力。
　　这篇文档介绍了如何使用Sqoop在database和Hadoop之间流转数据，以及介绍了Sqoop命令行工具的使用方法。

2、Supported Releases

　　这篇文档适用于Sqoop v1.4.5。

3、Sqoop Releases

　　Sqoop是Apache软件基金会的一个开源项目。可以访问http://Sqoop.apache.org获取
- 最新版本的Sqoop以及其源码
- bug的追踪
- 包含Sqoop文档的Wiki

4、Prerequisites

　　如果想要使用Sqoop，需要已经准备好以下条件：
- 了解一些基本的计算机知识和术语
- 熟悉比如bash等的命令行操作
- 了解关系型数据管理系统(RDBMS)
- 熟悉一些Hadoop的相关操作
　　
　　在使用Sqoop之前，Hadoop必须安装并配置好，目前Sqoop支持hadoop的4个主要版本-0.20,0.23,1.0以及2.0。
　　这篇文档基于Linux或类Linux环境，如果使用的是Windows系统的话，最好使用cygwin来操作以下的内容。如果使用Mac OS X，可能会遇到一些报错。Sqoop最好的运行环境还是Linux。

5、Basic Usage

　　使用Sqoop可以从关系型数据库中导入数据到HDFS上，在这个过程中import操作的输入是一个数据库表，Sqoop会逐行读取记录到HDFS中。import操作的输出是包含读入表的一系列HDFS文件，import操作是并行的也就是说可以启动多个map同时读取数据到HDFS，每一个map对应一个输出文件。这些文件可以是TextFile类型，也可以是Avro类型或者SequenceFile类型。
　　在import过程中还会生成一个Java类，这个类与输入的表对应，类名即表名，类变量即表字段。import过程会使用到这个Java类。
　　在import操作之后，就可以使用这些数据来实验export过程了。export是将数据从HDFS或者hive导出到关系型数据库中。export过程并行的读取HDFS上的文件，将每一条内容转化成一条记录，然后作为一个新行insert到关系型数据库表中。
　　除了import和export，Sqoop还包含一些其他的操作。比如可以使用sqoop-list-databases工具查询数据库结构，可以使用sqoop-list-tables工具查询表信息。还可以使用sqoop-eval工具执行SQL查询。
　　

6、Sqoop Tools

　　Sqoop提供了一系列的操作工具，使用Sqoop需要指定你想要使用的具体工具，以及提供对应的一些参数，使用方式如下。

$ sqoop tool-name [tool-arguments]

　　可以使用sqoop help命令查看帮助信息，从

$ sqoop help
usage: sqoop COMMAND [ARGS]

Available commands:
  codegen            生成Java代码
  create-hive-table 根据表结构生成hive表 eval 执行SQL语句并返回结果 export 导出HDFS文件到数据库表 help 帮助 import 从数据库导入数据到HDFS import-all-tables 导入数据库所有表到HDFS list-databases 列举所有的database list-tables 列举数据库中的所有表 version 查看版本信息 See 'sqoop help COMMAND' for information on a specific command.

可以看到，sqoop提供的操作工具有10个。具体工具的使用帮助可以sqoop help (tool-name)或者sqoop tool-name --help进行查看。
　　

6.1. Using Command Aliases

　　在sqoop的bin目录下，提供了比如sqoop-merge之类的课执行脚本，其实这个脚本中封装的命令是sqoop merge。类似的命令还有sqoop-import, sqoop-export等。

6.2. Controlling the Hadoop Installation

　　sqoop命令最终执行了hadoop命令脚本。如果在服务器上安装了多个hadoop，可以使用 HADOOPCOMMONHOME和 HADOOP_MAPRED_HOME环境变量来指定使用哪个hadoop，比如

$ HADOOP_COMMON_HOME=/path/to/some/hadoop \
  HADOOP_MAPRED_HOME=/path/to/some/hadoop-mapreduce \
  sqoop import --arguments...

或者

$ export HADOOP_COMMON_HOME=/some/path/to/hadoop
$ export HADOOP_MAPRED_HOME=/some/path/to/hadoop-mapreduce
$ sqoop import --arguments...

6.3. Using Generic and Specific Arguments

　　Sqoop的每一个工具都需要接收一些参数，这些参数有hadoop相关参数，也有用户指定的sqoop相关参数。
　　比如，sqoop import工具的使用

$ sqoop help import
usage: sqoop import [GENERIC-ARGS] [TOOL-ARGS]

Common arguments:
   --connect <jdbc-uri> 指定JDBC连接串    --connect-manager <jdbc-uri> 指定连接类    --driver <class-name> 指定使用的JDFC驱动类    --hadoop-mapred-home <dir>+ 可以覆盖$HADOOP_MAPRED_HOME参数    --help 帮助    --password-file 指定密码文件    -P 从命令行读取密码    --password <password> 指定密码    --username <username> 指定用户名    --verbose 显示import过程更多信息    --hadoop-home <dir>+ Deprecated. 可以覆盖$HADOOP_HOME参数 
[...]

hadoop命令行参数:
(must preceed any tool-specific arguments)
Generic options supported are
-conf <configuration file> 指定配置文件 -D <property=value> 指定特定参数的值 -fs <local|namenode:port> 指定namenode -jt <local|jobtracker:port> 字段jobtracker -files <comma separated list of files> 逗号分隔的文件列表，这些文件会上传到hdfs -libjars <comma separated list of jars> 逗号分隔的jar包，这些jar包会上传到hdfs -archives <comma separated list of archives> 
The general command line syntax is
bin/hadoop command [genericOptions] [commandOptions]

　　hadoop相关的参数只能写在sqoop工具之后，但是在任何sqoop参数(比如 –connect)之前。
　-conf, -D, -fs以及-jt参数用于配置Hadoop相关参数，比如-D mapred.job.name=<job_name>可以指定Sqoop提交的MR任务名称，如果不指定的话，默认名称为表名。
　-files, -libjars, -archives参数基本不会在Sqoop中用到。
　　

6.4. Using Options Files to Pass Arguments

　　对于不经常发生变化的参数，可以写在一个文件中，这个文件中每行写一个参数，如果某个参数特别长导致一行写不下的话，在结尾写一个反斜杠”\”，然后可以换行继续写。在这个配置文件中可以类似于shell脚本那样写注释，文件中空行不会起作用，引号外的空格也会忽略。配置参数的书写顺序是：首先写hadoop相关参数(即以“-”开头的参数)，然后写sqoop相关参数(即“–”开头的那些参数)，最后写需要传递到子程序中的参数。
　　使用配置文件的话，用参数--options-file来指定，如果有个配置文件 /users/homer/work/import.txt中的内容如下

import
--connect jdbc:mysql://localhost/db
--username foo

那么，下面两个命令的作用相同

$ sqoop import --connect jdbc:mysql://localhost/db --username foo --table TEST
$ sqoop --options-file /users/homer/work/import.txt --table TEST

import.txt文件中包含注释和空行，空格的形式如下：

#
# Options file for Sqoop import
#

# Specifies the tool being invoked
import

# Connect parameter and value
--connect
jdbc:mysql://localhost/db

# Username parameter and value
--username
foo

#
# Remaining options should be specified in the command line.
#

6.5. Using Tools

　　文档接下来部分会详细描述每个Sqoop工具的作用，以及使用方法

7. sqoop-import

7.1. Purpose

　　import工具可以用于从RDBMS中导入一张表到HDFS。表中的每一条记录对应生成HDFS文件中的每一行。这些记录可以以text files或者Avro或者SequenceFiles格式进行存储。

7.2. Syntax

　　使用方法如下

$ sqoop import (generic-args) (import-args)
$ sqoop-import (generic-args) (import-args)

　　
参数列表1-import基本参数

参数	描述
–connect < jdbc-uri >	JDBC连接串
–connection-manager < class-name >	连接管理类
–driver < class-name >	手动指定JDBC驱动类
–hadoop-mapred-home < dir >	可以覆盖$HADOOP_MAPRED_HOME
–help	使用帮助
–password-file	指定包含密码的文件
-P	执行import时会暂停，等待用户手动输入密码
–password < password >	直接将密码写在命令行中
–username < username >	指定用户名
–verbose	显示Sqoop任务更多执行信息
–connection-param-file < filename >	可选的参数，用于提供连接参数
–relaxed-isolation	设置每个mapmer的连接事务隔离

　　
7.2.1. Connecting to a Database Server
　　这里介绍Sqoop如何连接到一个数据库，主要使用的是–connect参数，比如

$ sqoop import --connect jdbc:mysql://database.example.com/employees

这个连接串会连接database.example.com服务器上的employees数据库。这个连接串会被各个map节点用于连接数据库，所以如果写成localhost的话就会报错，–connect参数后面不能写localhost来表示服务器地址
　　指定数据库连接后，接下来需要提供数据库访问的用户名和密码。上面提到了密码有三种设置方式，其中–password是最不安全的。推荐将密码写入一个文件，然后将该文件的权限设置成400，通过–password-file指定到该文件，这个文件可以位于本地也可位于HDFS上。

$ sqoop import --connect jdbc:mysql://database.example.com/employees \
    --username venkatesh --password-file ${user.home}/.password

　　不推荐使用–password参数传递密码，因为使用ps命令就可以直接查看到该参数。
　　Sqoop中内置了MySQL的驱动，如果需要指定其他的基于JDBC的数据库连接，需要将对应jar包放至lib目录下，然后指定驱动类，比如，

$ sqoop import --driver com.microsoft.jdbc.sqlserver.SQLServerDriver \
    --connect <connect-string> ...

　　
表2-验证相关的参数

参数	描述
–valid	启动数据验证功能，只对单表copy有效
–validator < class-name >	指定验证类
–validation-threshold < class-name >	指定使用的阈值验证类
–validation-failurehandler < class-name >	指定验证失败的处理类

　　
表3-import控制参数

参数	描述
–append	导入的数据追加到数据文件中
–as-avrodatafile	导入数据格式为avro
–as-sequencefile	导入数据格式为sqeuqncefile
–as-textfile	导入数据格式为textfile
–boundary-query < statement >	代替min(split-by),max(split-by)值指定的边界，下面会有详细介绍
–columns < col,col,col… >	指定导入字段
–delete-target-dir	如果导入的target路径存在，则删除
–direct	使用direct模式
–fetch-size < n >	从数据库一次性读入的记录数
-inline-lob-limit < n >	设定大对象数据类型的最大值
-m, –num-mappers < n >	指定并行导入数据的map个数，默认为4个
-e, –query < statement >	导入查询语句得到的数据
–split-by < column-name >	一般与-m参数一起使用，指定分割split的字段
–table < table-name >	指定database中的表名
–target-dir < dir >	指定目标HDFS路径
–warehouse-dir < dir >	指定表目标路径所在路径
–where < where clause >	即sql语句中的where条件
-z, –compress	打开压缩功能
–compression-codec < c >	使用Hadoop的压缩，默认为gzip压缩
–null-string < null-string >	源表中为null的记录导入为string类型时显示为null-string，默认显示为”null”
–null-non-string < null-string >	源表中为null的记录导入为非string类型时显示为null-string，默认显示为”null”

　　
7.2.2. Selecting the Data to Import
　　使用–table参数可以指定导入的表或者视图，默认情况下，该表或视图的所有字段都会被按顺序导入进来。但是如果只需要导入该表的部分字段，或者调整导入字段的顺序时，可以使用–columns参数。例如--columns "name, employee_id, jobtitle"。
　　也可以使用–where参数符合筛选条件的记录进行导入，例如--where "id > 400",则源表中只有id大于400的记录才会被导入进来。
　　默认情况下，Sqoop会根据指定的–split-by字段的min，max值对记录进行分片并导入。但是在有些情况下，如果不需要导入从min(split-by)到max(split-by)的记录时，可以使用--boundary-query <statement>参数传入一个返回两个数字类型的sql语句来指定导入范围，如果传入非数字类型的字段，比如varchar型，会报Invalid value for getLong()之类的错误信息。
　　
7.2.3. Free-form Query Imports
　　除了像上面那样指定–table，–columns, –where等参数的导入方法之外，Sqoop还支持传入一个SQL语句，并把该SQL语句的结果导入到HDFS中。这里需要使用–query或者-e参数。但是使用–query参数时，同时要指定–target-dir参数，如果需要并行的导入数据，即多个map并行的用相同的query语句查询不同的数据并最终汇总到一起。那么需要在query语句中增加一个$CONDITIONS字符串，并且指定–split-by字段。比如如下两个：

$ sqoop import \
  --query 'SELECT a.*, b.* FROM a JOIN b on (a.id == b.id) WHERE $CONDITIONS' \   --split-by a.id --target-dir /user/foo/joinresults 
$ sqoop import \
  --query 'SELECT a.*, b.* FROM a JOIN b on (a.id == b.id) WHERE $CONDITIONS' \   -m 1 --target-dir /user/foo/joinresults

　　第二个语句是将map个数设置成1。这里需要注意一点上面两个示例中使用的是单引号，如果非要使用双引号，那么应该写“$CONDITIONS，即在前面加一个反斜杠。
　　在当前Sqoop版本中，也不能传入特别复杂的sql语句，比如在where条件中不能有or操作，并且对有子查询的语句，可能会出现一些未知的错误。
　　
7.2.4. Controlling Parallelism
　　Sqoop支持并发的从多种数据源中导入数据。可以使用-m或者–num-mappers参数指定map的个数，每一个map处理数据源中的一部分数据，默认情况下Sqoop的并发为4，对某些数据库来说，将并发调整到8或16会有显著的性能提升。
　　但是并发调整的太高也不好，比如如果map个数太多，超出整个集群的最大并行数时，其他的map任务就需要等前面的map任务执行完毕才能继续执行，这样有可能反而增加了导入总时间。同时，如果并发太高，会增加数据库的访问压力，所以，应该根据实际情况调整一个最优并发参数。
　　当并发的导入数据时，Sqoop需要有一个明确的划分数据集的指标，告诉Sqoop如何为每个map分配处理的数据，使得既无遗漏也无重复。默认情况下如果指定表有主键，Sqoop会根据主键的max, min值除以map个数来划分数据集。比如一张表有1000条记录，主键为id，并发为4，那么每个map上执行是SQL语句是SELECT * FROM sometable WHERE id >= lo AND id < hi，对每个map来说，(lo, hi)分别是(0, 250), (250, 500), (500, 750), 以及(750, 1001)。
　　但是这样会有一个数据倾斜的问题，比如1000条记录大部分分布在0~250区间内，那么会有一个map处理大量数据，而其他map处理的数据特别少。这时候就需要使用--split-by参数手动指定一个分割字段了。目前Sqoop不支持联合主键，那么如果导入表没有主键，或者有联合主键时，就需要手动指定分割字段。
　　
7.2.5. Controlling Distributed Cache
　　每一个Sqoop任务执行时都会上传一次ib目录下的jar包。但是如果使用Oozie来启动Sqoop任务时，就没有必要这样做了，因为Oozie会使用它自己的Sqoop共享lib文件。使用--skip-dist-cache参数来指定Oozie调度起的Sqoop任务跳过上传jar包这一过程。
　　
7.2.6. Controlling the Import Process
　　默认情况下，Imporg过程会使用到JDBC提供的稳定服务去访问和连接数据库。但是有些数据库提供了一些其他的数据库访问工具来为import过程提供更高效的服务。比如，MySQL提供了一个mysqldump工具可以使得从MySQL导出数据到其他系统更加的快速。通过指定--direct参数就可以指定Sqoop使用mysqldump从数据库导入数据。这个方式会比JDBC提供更加高效。
　　对每一种关系型数据库如何使用direct模式import数据，需要如何安装配置，如何配置，以及有哪些局限性，都在第24节，24. Notes for specific connectors中有进一步的描述。
　　默认情况下，Sqoop会将一个表名为foo的表，导入到HDFS上一个名称为foo的路径下。比如，如果使用用户someuser来执行Sqoop import，那么会在将foo表导入到HDFS上的/user/someuser/foo/(files)路径下。当然了，可以使用--warehouse-dir参数来指定导入文件的父路径。

　　
7.2.7. Controlling transaction isolation
7.2.8. Controlling type mapping
7.2.9. Incremental Imports
7.2.10. File Formats
7.2.11. Large Objects
7.2.12. Importing Data Into Hive
7.2.13. Importing Data Into HBase
7.2.14. Importing Data Into Accumulo
7.2.15. Additional Import Configuration Properties

7.3. Example Invocations

8. sqoop-import-all-tables

8.1. Purpose

8.2. Syntax

8.3. Example Invocations

9. sqoop-export

9.1. Purpose

　　Sqoop的export工具可以从HDFS同步一系列文件数据到RDBMS中。使用这个工具的前提是导出目标表在数据库必须存在。导出文件根据用户指定的分隔符转化成一系列的输出记录。
　　默认的导出操作会将这些记录转化成一系列的INSERT语句，根据这些语句将记录插入到关系型数据库中。而在update模式下，Sqoop会生成一系列的UPDATE语句，将数据库中已经存在的记录进行更新。在call模式下，Sqoop会为每一条记录调用一个存储过程来处理。
　　

9.2. Syntax

　　Sqoop的export工具使用语法如下：

$ sqoop export (generic-args) (export-args)
$ sqoop-export (generic-args) (export-args)

　　前面的generic-args是Hadoop相关参数，如果有这些参数的话，必须写在export参数之前，export参数之间的顺序可以随意调整。

　　表19-基本参数

参数	描述
–connect < jdbc-uri >	JDBC连接串
–connection-manager < class-name >	连接管理类
–driver < class-name >	手动指定JDBC驱动类
–hadoop-mapred-home < dir >	可以覆盖$HADOOP_MAPRED_HOME
–help	使用帮助
–password-file	指定包含密码的文件
-P	执行import时会暂停，等待用户手动输入密码
–password < password >	直接将密码写在命令行中
–username < username >	指定用户名
–verbose	显示Sqoop任务更多执行信息
–connection-param-file < filename >	可选的参数，用于提供连接参数
–relaxed-isolation	设置每个mapmer的连接事务隔离

　　表20-验证相关的参数

参数	描述
–valid	启动数据验证功能，只对单表copy有效
–validator < class-name >	指定验证类
–validation-threshold < class-name >	指定使用的阈值验证类
–validation-failurehandler < class-name >	指定验证失败的处理类

　　
　　表21-export控制参数

参数	描述
–columns < col,col,col… >	指定导出字段
–direct	使用direct模式
–export-dir < dir >	导出HDFS文件路径
-m, –num-mappers < n >	指定并行导出数据的map个数，默认为4个
–table < table-name >	指定database中的表名
–call < stored-proc-name >	调用的存储过程名称
–update-key < col-name >	UPDATE模式下的更新字段，多个字段可以用逗号分隔
–update-mode < mode >	当某记录在数据库中找不到对应记录时的操作。默认为`updateonly`，可以设置成`allowinsert`，这个模式遇到新增记录会插入导出表中
–input-null-string < null-string >	string类型字段表示null值的字符
–input-null-non-string < null-string >	非string类型字段表示null值的字符
–staging-table < staging-table-name >	在最终导出到目标表之前临时存储这些记录的表
–clear-staging-table	表示可以清除上面的staging-table表中的记录
–batch	对底层数据库的插入操作使用batch模式

　　--export-dir参数，以及--table或者--call是必须指定的参数。因为这三个参数分别用来指定导出数据集，以及数据导出后的去处，既可以是导出到某张表，也可以是对每一条导出记录调用存储过程。
　　默认情况下，会导出所有字段。可以使用--columns参数指定部分字段进行导出。多个字段使用逗号分隔，比如--columns "col1,col2,col3"。需要注意的是，对那些没有指定的导出字段，在数据库中要么有默认值，要么运行为NULL。否则导出过程在插入这些字段的值时会报错。
　　在导出时可以指定并行的Map个数，导出过程的速度由并发数来决定。默认情况下，export过程会使用4个Map并行。具体的并发数由实际的数据量大小，数据库的性能等共同确定。由参数--num-mappers或者-m来设置。
　　有些数据库提供一中direct模式，比如MySQL。使用--direct参数可以指定特定的数据库连接方式。具体可以参考24. Notes for specific connectors。
　　对于数据库中的NULL值定义，可以由参数--input-null-string和--input-null-none-string两个参数来指定。如果不指定--input-null-string字段的话，那么导出数据中的null字符串会当做NULL值插入数据库中。如果不指定--input-null-non-string的话，那么导出数据中的null字符串以及空字符串都会当做NULL值插入数据库中。这里需要注意对非string类型字段，会将空字符串直接导出为NULL值。
　　由于Sqoop将导出过程切分成了多个transaction，那么就会有可能某个导出job失败而导致只有部分数据提交到了导出数据库中。当失败job重试时，就有可能会出现数据重复，或者导出数据冲突等情况发生。这时可以指定一个--staging-table参数来避免这种情况的发生。导出的数据首先会缓存在该表中，最后等job执行成功后会将该表中的数据移动到最终目标表中。
　　使用--staging-table需要在job执行前提前创建该表，这张表在结构上需要与目标表保持一致。并且这张表在任务执行前需要为空，或者指定--clear-staging-table参数，如果在导出前该表中有数据，那么这个参数会提前将该表清空。

--staging-table参数不能在--direct模式下工作。并且如果指定了--update-key或者指定的存储过程会涉及到数据的插入时，也不能使用--staging-table参数。

9.3. Inserts vs. Updates

　　默认情况下，export操作会将记录插入到导出表中。每一条导出记录都会转化成一条INSERT语句。如果导出表有字段约束(比如主键约束)时，需要注意避免导出记录违反这些约束条件的限制。这种模式只适合将数据导出到一张新的，或者空表中。
　　如果指定--update-key参数，Sqoop会将每一条导出记录转化成一条UPDATE语句，这样可以更新已存在的记录。比如，看一下下面的表定义语句：

CREATE TABLE foo( id INT NOT NULL PRIMARY KEY, msg VARCHAR(32), bar INT);

　　如果有一个HDFS文件内容如下：

0,this is a test,42
1,some more data,100
...

　　运行sqoop-export --table foo --update-key id --export-dir /path/to/data --connect …，会执行一个export任务，这个任务执行的SQL语句如下，

UPDATE foo SET msg='this is a test', bar=42 WHERE id=0;
UPDATE foo SET msg='some more data', bar=100 WHERE id=1;
...

　　如果一条UPDATE语句匹配不到对应的记录或者匹配到多条记录时，不会发生任何的错误。导出过程会正常继续执行后面的SQL语句。不过如果在使用--update-key参数的同时指定参数--update-mode为allowinsert的话，UPDATE语句匹配不到的记录就会以INSERT的形式插入到目标表中。
　　--update-key参数也可以设置多个字段，多个字段之间用逗号隔开。

　　表22-输入记录格式化参数

参数	描述
–input-enclosed-by < char>	指定必须的字段外包字符
–input-escaped-by < char >	指定输入字段忽略字符
–input-fields-terminated-by < char >	输入文件字段分隔符
–input-lines-terminated-by < char >	输入文件行分隔符
–input-optionally-enclosed-by < char >	设置可选的字段外包字符

　　表23-输出记录格式化参数

参数	描述
–enclosed-by < char>	指定必须的字段外包字符
–escaped-by < char >	指定字段忽略字符
–fields-terminated-by < char >	字段分隔符
–lines-terminated-by < char >	行分隔符
–mysql-delimiters	使用MySQL默认分隔符，字段用`,`分隔，行用`\n`分隔，可选外包字符为`'`，忽略的字符为`\`
–optionally-enclosed-by < char >	设置可选的字段外包字符

　　Sqoop会根据上面设置的各种分隔符自动生成代码来解析输入文件。在非默认的情况下，需要设置这些参数来帮助Sqoop正确的解析输入文件中的记录。如果分隔符指定错误的话，可能会出现对一行记录解析不到足够的字段数，从而导致报出ParseExceptions的错误。

　　表24-代码生成参数

参数	描述
–bindir < dir >	指定编译后的class文件路径
–class-name < name >	指定生成代码的类名，这个会覆盖`--package-name`参数的设置。当与`--jar-file`配合使用时，指定使用的类名
–jar-file < file >	关闭代码生成，使用指定的jar文件
–outdir < dir >	设置生成java文件路径
–package-name < name >	设置生成代码的package名
–map-column-java < m >	设置生成代码中指定字段的Java类型

　　如果需要导出的数据在前面已经由import导入过，那么可以使用import时生成的代码来进行export的过程。这时可以通过--jar-file以及--class-name来指定使用的jar文件以及需要使用的类名。
　　使用已有的代码，会与--update-key参数相冲突。UPDATE模式需要生成新的代码来完成这一过程，如果使用UPDATE模式，就不能使用--jar-file参数，并且必须指定所有没有默认值的分隔符。
　　

9.4. Exports and Transactions

　　数据导出过程由多个writers并行的执行，每一个writer使用一个独立的数据库连接，这些writer的transaction也是各自独立的。Sqoop使用多个INSERT语句来插入记录，每一个stattement最多能插入100条记录。每个writer在100个statements时，执行一次提交操作，所以，每一次提交可以插入10000条记录。因此导出操作不是原子性的，在导出过程结束前可以看到部分导出数据。

9.5. Failed Exports

　　数据导出过程可能会由于以下原因导致导出失败：

Hadoop集群失去与数据库的连接(可能由于硬件原因，或者网络等原因造成)
在INSERT模式下向有约束的表插入数据
HDFS文件中记录本身有异常，数据无法正常解析
分隔符指定错误，导致解析发生错误
硬件原因，比如磁盘空间不足或内存不足等

　　如果一个export的数据导出的map任务发生失败，将会导致整个export任务失败。并且失败的export过程的结果是未知的。每个map任务在独立的transaction中并发的导出数据，并且，每一个map任务定期的提交当前transaction中的记录。如果一个map任务失败，当前transaction将会回滚。而之前正常提交的transaction中的记录已经导出到外部表中了。

9.6. Example Invocations

　　下面的命令将数据导出到一个表bar中：

$ sqoop export --connect jdbc:mysql://db.example.com/foo --table bar \
    --export-dir /results/bar_data

　　上面命令从/results/bar_data文件中读取记录，通过指定的jdbc连接串连接到数据库，将该数据导出到mysql中的表bar中。在任务执行前bar表必须已经存在。Sqoop会根据上面的命令生成一系列的INSERT INTO操作。
　　如果想要导出到指定字段，可以使用--columns "col1,col2,col3"。没有指定在--columns参数中的字段，要么在定义时有默认值，要么允许为NULL，否则导出会发生错误。

　　另外一个加建议条件的导出过程：

$ sqoop export --connect jdbc:mysql://db.example.com/foo --table bar  \
    --export-dir /results/bar_data --validate

　　再看一个不导出到表而是调用存储过程的示例：

$ sqoop export --connect jdbc:mysql://db.example.com/foo --call barproc \
    --export-dir /results/bar_data

10. validation

10.1. Purpose

　　校验操作会对不管是import过程还是export过程，都进行源数据和目标数据的比较。

10.2. Introduction

　　有关校验的过程，有以下三个基本概念：

校验阈值：确定源数据和目标数据之间允许出现的记录不一致情况的程度。默认为AbsoluteValidationThreshold，表示需要源数据和目标数据记录数保持一致。
校验失败的处理方法：当出现校验失败时如何进行处理，默认情况下使用的是LogOnFailureHandler，会记录一个提示信息到日志文件中。
校验器：校验的主要逻辑，默认使用的是RowCountValidator，用于比较源数据和目标数据的记录数。

10.3. Syntax

　　语法格式：

$ sqoop import (generic-args) (import-args)
$ sqoop export (generic-args) (export-args)

　　从前面的参数表中可以看到校验参数是import或者export参数的一部分。

10.4. Configuration

　　校验框架是灵活可拔插的。它提供了一些默认的实现方法，用户也可以基于接口的定义来实现自定义的类和参数。

Validator，默认实现类是org.apache.sqoop.validation.RowCountValidator
Validation Threshold，默认实现类是org.apache.sqoop.validation.AbsoluteValidationThreshold
Validation Failure Handler，默认实现类是org.apache.sqoop.validation.AbortOnFailureHandler

10.5. Limitations

　　目前校验过程只能校验单表导入到HDFS这一种场景，下面列举了校验过程的一些不足之处：

多表模式不支持
自定义sql查询语句不支持
数据导入到Hive, Hbase, Accumulo不支持
带--where参数的不支持
增量导入的不支持

10.6. Example Invocations

　　从corp库导入一张EMPLOYEES表，校验记录数是否一致：

$ sqoop import --connect jdbc:mysql://db.foo.com/corp  \
    --table EMPLOYEES --validate

　　导出数据到表bar中，并启动校验功能：

$ sqoop export --connect jdbc:mysql://db.example.com/foo --table bar  \
    --export-dir /results/bar_data --validate

　　不使用默认校验参数的示例：

$ sqoop import --connect jdbc:mysql://db.foo.com/corp --table EMPLOYEES \
    --validate --validator org.apache.sqoop.validation.RowCountValidator \
    --validation-threshold \
          org.apache.sqoop.validation.AbsoluteValidationThreshold \
    --validation-failurehandler \
          org.apache.sqoop.validation.AbortOnFailureHandler

11. Saved Jobs

12. sqoop-job

12.1. Purpose

12.2. Syntax

12.3. Saved jobs and passwords

12.4. Saved jobs and incremental imports

13. sqoop-metastore

13.1. Purpose

13.2. Syntax

14. sqoop-merge

14.1. Purpose

　　在Sqoop中提供了一个merge工具，用于将两个dataset中的记录进行合并操作。这个经常用于增量同步中，比如有一个全量的dataset和一个增量的dataset，执行merge时希望如果增量和全量中都有的话优先取增量dataset中的记录，如果只有增量中有，则取增量中的记录，如果只有全量中有，则取全量中的记录。
　　

14.2. Syntax

　　在$SQOOP_HOME/bin路径下有一个sqoop-merge命令，其中的主要逻辑是执行sqoop merge操作。所以，merge有两种使用方法

$ sqoop merge (generic-args) (merge-args)
$ sqoop-merge (generic-args) (merge-args)

　　参数介绍

参数	描述
–class-name	表对应的class文件
–jar-file	表对应的jar包
–merge-key	进行merge的字段，根据该字段判断新旧记录，字段名需要大写
–new-data	增量数据对应的HDFS文件路径
–onto	全量数据对应的HDFS文件路径
–target-dir	合并后的HDFS文件路径

　　注意这里的三个路径都是HDFS上的路径，并且要求--target-dir对应的路径不存在，存在的话就会报错。可以理解成，将--new-data中的数据合并到--onto文件中。当Sqoop合并两个dataset时，会假设每条记录有一个唯一主键，该主键由参数--merge-key指定。比如下面两个dataset
dataset-onto:

id	comment
1	xxx
3	zzz

dataset-new-data:

id	comment
1	aaa
2	yyy

如果指定--merge-key id，那么就会根据id去对两个dataset进行join，最终结果
dataset-target-dir

id	comment
1	aaa
2	yyy
3	zzz

　　从--jar-file参数对应的代码中可以看到，指定表的所有字段在代码中都转换成了大写，所以在指定merge-key时，记得大写字段名，否则会报错。在执行merge操作时，必须指定--jar-file参数和--class-name参数。jar文件可以在对这个表的sqoop import过程中生成，也可以用后面的codegen工具生成。
　　merge tool一般用于增量import之后。假设有两个增量import执行，前面一个任务的HDFS路径名为older，后面那个任务的HDFS路径为newer，那么这两个文件的merge操作可以使用以下命令

$ sqoop merge --new-data newer --onto older --target-dir merged \
    --jar-file datatypes.jar --class-name Foo --merge-key id

这个命令会运行一个MapReduce任务，根据id字段order和newner的每一行记录进行join。newner中的记录优先于older中的记录使用。
　　merge tool可以用于SequenceFile, Avro, 以及text类型的import操作。但是需要注意的是older和newner的文件类型必须保持一致。

15. sqoop-codegen

15.1. Purpose

15.2. Syntax

15.3. Example Invocations

16. sqoop-create-hive-table

16.1. Purpose

16.2. Syntax

16.3. Example Invocations

17. sqoop-eval

17.1. Purpose

17.2. Syntax

17.3. Example Invocations

18. sqoop-list-databases

18.1. Purpose

18.2. Syntax

18.3. Example Invocations

19. sqoop-list-tables

19.1. Purpose

19.2. Syntax

19.3. Example Invocations

20. sqoop-help

20.1. Purpose

20.2. Syntax

20.3. Example Invocations

21. sqoop-version

21.1. Purpose

21.2. Syntax

21.3. Example Invocations

22. Sqoop-HCatalog Integration

22.1. HCatalog Background

22.2. Exposing HCatalog Tables to Sqoop

22.2.1. New Command Line Options
22.2.2. Supported Sqoop Hive Options
22.2.3. Direct Mode support
22.2.4. Unsupported Sqoop Options
22.2.4.1. Unsupported Sqoop Hive Import Options
22.2.4.2. Unsupported Sqoop Export and Import Options
22.2.5. Ignored Sqoop Options

22.3. Automatic Table Creation

22.4. Delimited Text Formats and Field and Line Delimiter Characters

22.5. HCatalog Table Requirements

22.6. Support for Partitioning

22.7. Schema Mapping

22.8. Support for HCatalog Data Types

22.9. Providing Hive and HCatalog Libraries for the Sqoop Job

22.10. Examples

22.11. Import

22.12. Export

23. Compatibility Notes

23.1. Supported Databases

23.2. MySQL

23.2.1. zeroDateTimeBehavior
23.2.2. UNSIGNED columns
23.2.3. BLOB and CLOB columns
23.2.4. Importing views in direct mode

23.3. PostgreSQL

23.3.1. Importing views in direct mode

23.4. Oracle

23.4.1. Dates and Times

23.5. Schema Definition in Hive

24. Notes for specific connectors

24.1. MySQL JDBC Connector

24.1.1. Upsert functionality

24.2. MySQL Direct Connector

24.2.1. Requirements
24.2.2. Limitations
24.2.3. Direct-mode Transactions

24.3. Microsoft SQL Connector

24.3.1. Extra arguments
24.3.2. Schema support
24.3.3. Table hints

24.4. PostgreSQL Connector

24.4.1. Extra arguments
24.4.2. Schema support

24.5. PostgreSQL Direct Connector

24.5.1. Requirements
24.5.2. Limitations

24.6. pg_bulkload connector

24.6.1. Purpose
24.6.2. Requirements
24.6.3. Syntax
24.6.4. Data Staging

24.7. Netezza Connector

24.7.1. Extra arguments
24.7.2. Direct Mode
24.7.3. Null string handling

24.8. Data Connector for Oracle and Hadoop

24.8.1. About
24.8.1.1. Jobs
24.8.1.2. How The Standard Oracle Manager Works for Imports
24.8.1.3. How The Data Connector for Oracle and Hadoop Works for Imports
24.8.1.4. Data Connector for Oracle and Hadoop Exports
24.8.2. Requirements
24.8.2.1. Ensure The Oracle Database JDBC Driver Is Setup Correctly
24.8.2.2. Oracle Roles and Privileges
24.8.2.3. Additional Oracle Roles And Privileges Required for Export
24.8.2.4. Supported Data Types
24.8.3. Execute Sqoop With Data Connector for Oracle and Hadoop
24.8.3.1. Connect to Oracle / Oracle RAC
24.8.3.2. Connect to An Oracle Database Instance
24.8.3.3. Connect to An Oracle RAC
24.8.3.4. Login to The Oracle Instance
24.8.3.5. Kill Data Connector for Oracle and Hadoop Jobs
24.8.4. Import Data from Oracle
24.8.4.1. Match Hadoop Files to Oracle Table Partitions
24.8.4.2. Specify The Partitions To Import
24.8.4.3. Consistent Read: All Mappers Read From The Same Point In Time
24.8.5. Export Data into Oracle
24.8.5.1. Insert-Export
24.8.5.2. Update-Export
24.8.5.3. Merge-Export
24.8.5.4. Create Oracle Tables
24.8.5.5. NOLOGGING
24.8.5.6. Partitioning
24.8.5.7. Match Rows Via Multiple Columns
24.8.5.8. Storage Clauses
24.8.6. Manage Date And Timestamp Data Types
24.8.6.1. Import Date And Timestamp Data Types from Oracle
24.8.6.2. The Data Connector for Oracle and Hadoop Does Not Apply A Time Zone to DATE / TIMESTAMP Data Types
24.8.6.3. The Data Connector for Oracle and Hadoop Retains Time Zone Information in TIMEZONE Data Types
24.8.6.4. Data Connector for Oracle and Hadoop Explicitly States Time Zone for LOCAL TIMEZONE Data Types
24.8.6.5. java.sql.Timestamp
24.8.6.6. Export Date And Timestamp Data Types into Oracle
24.8.7. Configure The Data Connector for Oracle and Hadoop
24.8.7.1. oraoop-site-template.xml
24.8.7.2. oraoop.oracle.session.initialization.statements
24.8.7.3. oraoop.table.import.where.clause.location
24.8.7.4. oracle.row.fetch.size
24.8.7.5. oraoop.import.hint
24.8.7.6. oraoop.oracle.append.values.hint.usage
24.8.7.7. mapred.map.tasks.speculative.execution
24.8.7.8. oraoop.block.allocation
24.8.7.9. oraoop.import.omit.lobs.and.long
24.8.7.10. oraoop.locations
24.8.7.11. sqoop.connection.factories
24.8.7.12. Expressions in oraoop-site.xml
24.8.8. Troubleshooting The Data Connector for Oracle and Hadoop
24.8.8.1. Quote Oracle Owners And Tables
24.8.8.2. Quote Oracle Columns
24.8.8.3. Confirm The Data Connector for Oracle and Hadoop Can Initialize The Oracle Session
24.8.8.4. Check The Sqoop Debug Logs for Error Messages
24.8.8.5. Export: Check Tables Are Compatible
24.8.8.6. Export: Parallelization
24.8.8.7. Export: Check oraoop.oracle.append.values.hint.usage
24.8.8.8. Turn On Verbose

25. Getting Support

26. Troubleshooting

26.1. General Troubleshooting Process

26.2. Specific Troubleshooting Tips

26.2.1. Oracle: Connection Reset Errors
26.2.2. Oracle: Case-Sensitive Catalog Query Errors
26.2.3. MySQL: Connection Failure
26.2.4. Oracle: ORA-00933 error (SQL command not properly ended)
26.2.5. MySQL: Import of TINYINT(1) from MySQL behaves strangely

你可能感兴趣的:(文档,翻译,sqoop)

pytorch官方文档60分钟入门笔记 xiaodidadada 机器学习
文章目录1.张量（Tensors）定义张量张量操作2.自动求导（autograd）变量Variable3.神经网络4.训练一个分类器载入数据5.数据并行day63参考：官方文档https://blog.csdn.net/u014630987/article/details/786690511.张量（Tensors）tensors和numpy的ndarray类似,但是tensors可以使用GPU加快
API，异常 qq_42822008
API:应用程序编程接口，即jdk文档手册，里面以类的形式提供了很多常用的功能。常用的包与类：java.lang包：因为常用，所以不需要导包字符串，线程java.util包:数组工具类，日期，集合等java.net包:网络相关的类型java.io包:输入输出类型java.math包：数学应用的相关类型打包工具:javadoc(1)使用命令提示符界面：类信息中没有声明包，即使用默认包javadoc-
Nodejs源码解析之module leoleocs Javascript nodejs
module管理是Nodejs中比较有特色的部分，官方有详细的文档https://nodejs.org/api/modules.html哪里介绍了一些基本的使用规则，主要的内容如下，文件和模块之间是一一对应关系：使用方法就是require，后续源码解析中会详细介绍什么是require，以及如何实现的。文件的名字就是一个id，也就是标志符。如何访问和被确认为主模块：简单的说就是被nodejs启动的模
Docker容器中安装 ROS2-Humble 并使用 rviz ZPC8210 docker 容器运维
默认电脑已经安装了docker，没安装看这篇文章Docker安装(完整详细版)ROS和docker各种结合看官方文档dockerTutorials在OSRF中拉取想要的ROS版本docker镜像网址为拉取命令在这里dockerpullosrf/ros:humble-desktop-full拉取完后创建容器，但是为了能在docker中能打开窗口，将使用以下参数，只需要修改名字即可，your_name
ONLYOFFICE二次开发文档架构、集成和部署史剑咪Nessa
ONLYOFFICE二次开发文档架构、集成和部署【下载地址】ONLYOFFICE二次开发文档架构集成和部署ONLYOFFICE二次开发文档为开发者提供了全面的架构解析、集成指南和部署方案。通过深入剖析ONLYOFFICE的底层设计，开发者能够更好地理解其工作原理，为后续开发奠定坚实基础。集成篇详细介绍了如何将ONLYOFFICE无缝融入现有项目，涵盖接口调用和数据交互等关键步骤，确保功能顺利对接。
【Python多线程】晟翰逸闻 Python python
文章目录前言一、Python等待event.set二、pythonracecondition和lock使用使用锁(Lock)三.pythonDeadLock使用等综合运用总结前言这篇技术文章讨论了多线程编程中的几个重要概念。它首先介绍了等待事件的使用，并强调了避免使用“ForLoop&Sleep”进行等待的重要性。接着，文档解释了竞态条件，并提供了处理共享资源的建议，即在使用共享资源时进行加锁和解
python多线程高级锁知识：Semaphore信号量、Barrier栅栏在线程中的使用、高级event事件网小鱼的学习笔记 Python python 开发语言
Semaphore信号量Semaphore信号量可以翻译为信号量，这个信号量代表了最多允许线程访问的数量，可以使用Semaphore(n)设定，n是信号数量，这是一个更高级的锁机制，Semaphore管理一个计数器，每次使用acquire计数器将会减一，表示可以允许线程访问的数量少了一个，使用release计数器加1，表示可允许线程访问的数量多了一个，只有占用信号量的线程数量超过信号量时候才会阻塞
大数据项目-Django基于大数据技术实现的农产品销售系统 IT实战课堂-玲琳娜计算机毕业设计大数据 java spark 爬虫
《[含文档+PPT+源码等]Django基于大数据技术实现的农产品销售系统》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、包运行成功以及课程答疑与微信售后交流群、送查重系统不限次数免费查重等福利！数据库管理工具：phpstudy/Navicat或者phpstudy/sqlyog后台管理系统涉及技术：后台使用框架：Django前端使用技术：Vue,HTML5,CSS3、JavaScrip
pyhton气象探空图绘制
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、探空图绘制总结前言提示：这里可以添加本文要记录的大概内容：探空图是通过探空仪器测得的实时数据绘制而成的。探空仪器通常搭载在探空气球上，随着气球升空，仪器会测定不同高度和经纬度的温度、气压、空气湿度等数据，并通过无线电信号将这些数据发送回地面。地面接收系统接收到这些数据后，进行处理和分析，最终绘制成探空图‌。提示：以下是
python解析风云4B生成真彩云图小天丶1 气象数据处理 python 开发语言
文章目录概要话不多数开整小结概要真彩色云图需要根据通道Channel01,通道Channel02,通道Channel03进行通道融合处理,大致思路:三个通道对于RGB三个颜色管道，然后合并成一个三通道图像,其余云图在历史文档里有python解析风云4B,生成红外云图、可见光云图、水汽云图https://blog.csdn.net/qq_38197010/article/details/146549
java运行python脚本同时实现传参响应接收小天丶1 java python java 开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、java部分示例二、python代码示例前言提示：这里可以添加本文要记录的大概内容：主要帮助从事java开发却涉及一些计算操作的时候发现没有python库更高效的解决方式提示：以下是本篇文章正文内容，下面案例可供参考一、java部分示例//调用Python脚本//pythonl路径pythonl路径Stringpyth
MongoDB 常见查询语法与命令详解夜影风大数据（Big Data）mongodb 数据库
MongoDB作为文档型数据库，其查询语言基于BSON（二进制JSON）格式，与传统关系型数据库的SQL语法有较大差异。一、基本查询命令1.find()：查询文档语法：db.collection.find(查询条件,投影)示例：//查询users集合中所有文档db.users.find()//查询年龄大于25岁的用户，只返回姓名和年龄db.users.find({age:{$gt:25}},{na
【MongoDB】基础知识全面解析：从入门到核心概念韩悸桉数据库 mongodb 数据库
一、MongoDB是什么？MongoDB是一种开源文档型NoSQL数据库，以灵活的JSON格式（BSON）存储数据，无需固定表结构，适合处理半结构化和非结构化数据。与传统关系型数据库（如MySQL）相比，它具有以下特点：灵活的数据模型：文档结构可动态调整，适应业务需求变化。水平扩展性：支持分片集群，轻松应对海量数据存储。高性能读写：通过索引优化和内存缓存提升查询效率。二、核心概念与术语对比Mong
UE4 官方文档阅读笔记——材质篇毛甘木 UE4 材质修改 android java
UE4官方文档阅读笔记——材质篇UE4免费材质：QuixelBridge网站材质基本概念材质编辑器参考1.MaterialExpression向材质节点添加描述2.快捷键C添加注释3.修改注释颜色4.LivePreview实时预览5.LiveNode实时节点6.LiveUpdate实时更新7.AddRerouteNode添加变更路线节点ContenxtMenuUtilityMaterialPale
UE4官方文档阅读笔记——蓝图可视化编程毛甘木 UE4 ue4
UE4蓝图官方文档阅读笔记蓝图中的结构体变量拆分结构体Break组成结构体Make修改结构体中个别成员SetMemberinStruct自定义结构体内容浏览器-创建高级资源-蓝图-结构体蓝图数组Add添加元素到末尾ClearContainsFilterArrayFindGetInsertLastLengthRemoveRemoveIndexResizeSetArrayElem<
23国赛信息安全管理与评估理论题 KD杜小帅网络安全
理论技能与职业素养（100分）2023年全国职业院校技能大赛（高等职业教育组）“信息安全管理与评估”理论技能【注意事项】1.理论测试前请仔细阅读测试系统使用说明文档，按提供的账号和密码登录测试系统进行测试，账号只限1人登录。2.该部分答题时长包含在第三阶段比赛时长内，请在临近竞赛结束前提交。3.参赛团队可根据自身情况，可选择1-3名参赛选手进行作答，团队内部可以交流，但不得影响其他参赛队。一、单选
【Linux】写时拷贝——干货解析代码程序猿RIP Linux linux 运维服务器
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、写时拷贝核心概念1.什么是写时拷贝？2.COW解决的问题二、写时拷贝工作原理1.内存管理基础结构2.COW工作流程3.页表状态变化图示初始状态（共享只读）子进程写入后（写时拷贝）三、写时拷贝的优势分析1.性能优势对比2.实际性能数据3.资源利用率提升四、内核实现深度解析1.COW核心代码逻辑2.关键数据结构五、应用场景与最
【Linux】环境变量——干货讲解代码程序猿RIP Linux linux
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、环境变量核心概念1.什么是环境变量？2.环境变量的存储结构3.常见环境变量及作用二、环境变量管理命令1.查看环境变量2.设置环境变量3.删除环境变量4.变量操作技巧三、环境变量在编程中的应用1.C语言获取环境变量的三种方式方法1：main函数参数方法2：extern声明environ方法3：getenv获取特定变量2.环境
git常见命令
1.基本操作查看状态gitstatus添加文件到暂存区gitadd#添加单个文件gitadd#添加整个目录gitadd.#添加当前目录所有文件gitadd--all#添加所有变更（包括删除的文件）提交更改gitcommit-m"commitmessage"常用commit类型前缀：build:构建系统修改（如依赖升级）chore:非业务代码修改（如工具配置）ci:CI/CD流程修改docs:文档更
CVPR2024无监督Unsupervised论文17篇速览木木阳 CVPR 无监督 unsupervised
Paper1GuidedSlotAttentionforUnsupervisedVideoObjectSegmentation摘要小结:这段话的中文翻译如下：无监督视频对象分割旨在分割视频序列中最突出的对象。然而，复杂的背景和多个前景对象的存在使这项任务变得具有挑战性。为了解决这一问题，我们提出了一种引导式槽注意力网络，以加强空间结构信息并获得更好的前景-背景分离。初始化时带有查询引导的前景和背景
前端代码规范及最佳实践 forlong401 前端 HTML5
http://coderlmn.github.io/code-standards/概述本文档包含了Isobar公司的创意技术部（前端工程）开发web应用的规范。现在我们把它开放给任何希望了解我们迭代过程最佳实践的人。编写本文档的主要驱动力是两方面：1)代码一致性以及2)最佳实践。通过保持代码风格和传统的一致性，我们可以减少遗留系统维护的负担，并降低未来系统崩溃的风险。而通过遵照最佳实践，我们能确保
前端领域：jQuery UI组件的使用指南_副本大厂前端小白菜前端开发实战前端 jquery ui ai
前端领域：jQueryUI组件的使用指南关键词：jQueryUI、前端组件、交互效果、用户界面、使用指南摘要：本文旨在为前端开发者提供一份全面的jQueryUI组件使用指南。首先介绍了jQueryUI的背景，包括其目的、适用读者、文档结构和相关术语。接着详细阐述了jQueryUI的核心概念与联系，通过文本示意图和Mermaid流程图展示其架构。然后深入讲解了核心算法原理，并给出具体操作步骤和Pyt
QT中翻译文件生成步骤小小码农Come on Qt qt
1、配置工具环境变量设置path：D:\Qt\Qt5.15\5.15.2\msvc2019_64\binD:\Qt\Qt5.15\5.15.2\msvc2019\bin主要使用工具：lupdate、linguist、lrelease都在如上路径的bin目录下2、提取翻译字符串(lupdate)用来生成/更新.ts翻译文件进入目录D:\Code\ds-cmifinaldetect\plugins\p
【翻译】Part4: Texture samplers.
AtripthroughtheGraphicsPipeline2011,part4|Therygblog欢迎回来。上一部分讲的是顶点着色器，还大致介绍了通用的GPU着色器单元。总的来说，它们只是向量处理器，但它们可以访问一种在其他向量处理架构中不存在的资源：纹理采样器。纹理采样器是GPU流水线不可或缺的一部分，其复杂程度（以及趣味性！）足以单独写一篇文章来介绍，那接下来就开始吧。纹理状态在开始实际
mongodb 基本概念重生之我是一名程序员 mongodb
mongodb基本概念基于mongo:4.4.2databasedatabase数据库tablecollection数据库表/集合rowdocument数据记录行/文档columnfield数据字段/域indexindex索引tablejoins表连接,MongoDB不支持primarykeyprimarykey主键,MongoDB自动将_id字段设置为主键MongoDB数据类型数据类型描述Str
Matplotlib 报错 AttributeError: module ‘backend_interagg‘ has no attribute ‘FigureCanvas‘
解决办法一在代码开始的部分添加引用importmatplotlibmatplotlib.use('TkAgg')解决办法二降低matplotlib的版本，3.5.0版本及以下的都可以pipinstallmatplotlib==3.5.0官方文档指出：如果没有显式设置后端，Matplotlib会根据系统上可用的内容以及是否已运行GUI事件循环自动检测可用的后端。选择以下列表中第一个可用的后端：Mac
【Django开发】前后端分离django美多商城项目第3篇：用户注册业务实现,用户注册前端逻辑【附代码文档】
教程总体简介：欢迎来到美多商城！项目需求分析1.项目主要页面介绍2.归纳项目主要模块3.知识要点项目架构设计1.项目开发模式2.项目运行机制项目介绍创建工程1.准备项目代码仓库3.创建美多商城工程配置开发环境1.新建配置文件2.指定开发环境配置文件配置Jinja2模板引擎1.安装Jinja2扩展包配置MySQL数据库3.安装PyMySQL扩展包配置Redis数据库1.安装django-redis扩
Prompt Engineering 指南教程班磊闯Andrea
PromptEngineering指南教程Prompt-Engineering-Guidedair-ai/Prompt-Engineering-Guide:是一个用于指导对话人工智能开发的文档。适合用于学习对话人工智能开发和自然语言处理。特点是提供了详细的指南和参考资料，涵盖了多种对话人工智能技术和算法，并且可以自定义学习路径和行为。项目地址:https://gitcode.com/gh_mirr
电子词典开源项目源代码完全解析
本文还有配套的精品资源，点击获取简介：电子词典作为数字化学习工具，已由传统硬件发展为可定制的开源软件应用。本源代码提供深入理解其工作机制的机会，包括用户界面设计、词典数据库、查询引擎、翻译算法等。源代码通常由主流编程语言编写，涉及到数据结构与算法、UI设计、数据库管理、自然语言处理、本地化与多语言支持、版本控制、软件工程、API接口以及开源社区的协作和交流。1.电子词典工作原理和定制功能电子词典工
提示技术系列——主动提示 AIGC包拥它提示技术人工智能 prompt python langchain
什么是提示技术？提示技术是实现提示工程目标的具体技术手段，是提示工程中的“工具库”。什么又是提示工程？提示工程是指通过设计、优化和迭代输入到大语言模型（LLM）的提示（Prompt），系统性提升模型输出质量（如相关性、准确性、可控性）的实践领域。它是一个覆盖全流程的方法论，包括：明确目标任务（如生成教学内容、问答、翻译）；设计提示结构（如指令、上下文、示例）；选择模型与参数（如温度、top_p）；
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，