wzy0623

HAWQ技术解析（十一） —— 数据管理

一、基本操作
1. INSERT
在常用的增删改查数据库操作中，HAWQ仅支持INSERT和SELECT两种，不支持UPDATE和DELETE，这主要是因为HDFS是一个只能追加数据而不能更新的文件系统。SELECT语句最熟悉不过，它应该是数据库中最常用的语句了，在下一篇“查询优化”时再进一步讨论。INSERT语句用于创建表行，该命令需要表名和表中每个列的值。在HAWQ中，该命令有四种用法，其中三种是SQL中的常规用法，另一种是对标准SQL的扩展。
（1）指定列名与列值
可以按任何顺序指定列名，列值与列名一一对应。

insert into products (name, price, product_no) values ('Cheese', 9.99, 1);

（2）仅指定列值
如果不指定列名，数据值列表的个数与顺序必须与表中的列保持一致。

insert into products values (1, 'Cheese', 9.99);

（3）使用SELECT语句
通常数据值是字符常量，但是也可以使用标量表达式或查询语句。此时SELECT出的列表必须与插入表的列一致。

insert into products select * from tmp_products where price < 100;
insert into products (name, price, product_no) select * from tmp_products where price < 100;

如果列有缺省值，可以在插入语句中省略该列名而使用缺省值。

insert into products (name, product_no) select name, product_no from tmp_products where price < 100;

（4）显式一次插入多行
这个SQL扩展与MySQL类似，一条INSERT语句中可以显式指定多条需要插入的记录。

db1=# create table t (a int);
CREATE TABLE
db1=# insert into t values (1),(2),(3);
INSERT 0 3
db1=# select * from t;
 a 
---
 1
 2
 3
(3 rows)

如果需要快速插入大量数据，最好使用后面介绍的外部表或COPY命令，这些数据装载机制比INSERT更有效。

2. 整理系统目录表
（1）VACUUM
对于数据库中的对象，如表、视图、函数等总是在不断地执行新增、删除、修改等操作，相应地会引起HAWQ系统目录表的增删改。因此对系统目录良好的空间管理非常重要，这能够给性能带来大幅提高。当删除一个数据库对象时，并不立即释放该条目在系统目录表中所占用的空间，而是在该条目上设置一个过期标志。只有当执行VACUUM命令时，才会物理删除那些已经标识为过期的数据条目并释放空间。应该定期执行VACUUM命令移除过期行。VACUUM命令也可收集表级的统计信息，如行数和页数等。

db1=# -- 整理pg_class系统表
db1=# vacuum pg_class;
VACUUM
db1=# -- 整理并分析pg_class系统表
db1=# vacuum analyze pg_class;
VACUUM
db1=# -- 整理并分析pg_class系统表的指定列
db1=# vacuum analyze pg_class (relname,relam,relpages,reltuples,relkind,relnatts,relacl,reloptions);
VACUUM

（2）配置空余空间映射
过期行被保存在名为free space map的结构中。free space map必须足够大，能保存数据库中的所有过期行。VACUUM命令不能回收超过free space map以外过期行占用的空间。注意，HAWQ中不推荐使用VACUUM FULL，因为对于大表，该操作可能造成不可接受的执行时间。

db1=# vacuum full pg_class;
NOTICE:  'VACUUM FULL' is not safe for large tables and has been known to yield unpredictable runtimes.
HINT:  Use 'VACUUM' instead.
VACUUM

free space map的大小由以下服务器配置参数所控制：

max_fsm_pages
max_fsm_relations

max_fsm_pages（整数）设置free space map跟踪的最大页数。每个页槽位占用6字节的共享内存。至少要设置为16 * max_fsm_relations。在初始安装数据库时，系统依照可用内存的数量设置该参数的缺省值。设置该参数后需要重启HAWQ使其生效。

[gpadmin@hdp3 ~]$ hawq config -s max_fsm_pages
GUC		: max_fsm_pages
Value		: 200000

max_fsm_relations（整数）设置free space map跟踪的最大表数。每个表槽位占用7字节左右的共享内存。缺省值为1000。设置该参数后需要重启HAWQ使其生效。

[gpadmin@hdp3 ~]$ hawq config -s max_fsm_relations
GUC		: max_fsm_relations
Value		: 1000

3. 其它操作
与Oracle、MySQL等常用数据库系统一样，HAWQ支持MVCC并发访问控制和非锁定读。支持ACCESS SHARE、ROW EXCLUSIVE、SHARE UPDATE EXCLUSIVE、SHARE、SHARE ROW EXCLUSIVE、ACCESS EXCLUSIVE六种锁模式。并支持读非提交、读提交、可重复读、串行化四种标准的事务隔离级别。因为数据仓库应用中的ETL操作通常为一个独立的后台程序，几乎没有并发调用，而前台的分析类应用大都是只读操作，所以这里不展开讨论HAWQ的并发控制与事务处理。

二、数据的装载与卸载
HAWQ既支持大数据量、多个文件的高性能并行数据装载卸载操作，又支持小数据量、单个文件、非并发的数据导入导出。HAWQ可读写多种外部数据源，包括本地文本文件、HDFS或Web服务器。
在“ 用HAWQ轻松取代传统数据仓库（九） —— 外部数据”中详细说明了PXF外部表，这里将介绍使用另外一种协议——gpfdist的外部表。PXF外部表针对HDFS上的文件访问，而gpfdist用于对本地文件的并行访问。gpfdist应用是一个HAWQ的并行文件分布程序。它是一个操作外部表的HTTP服务器，使HAWQ的segment可以从多个文件系统的外部表并行装载数据。可以在多个不同的主机上运行gpfdist实例，并能够并行使用它们。
外部Web表提供了对动态数据地访问。它支持使用HTTP协议从URL访问数据，或者通过运行在segment上的脚本输出数据。
hawq load应用使用一个YAML格式的控制文件，自动完成数据装载任务。
HAWQ中的COPY SQL命令可在master主机上的文本文件与HAWQ数据库表之间转移数据。

所选择的数据装载方法依赖于数据源的特性，如位置、数据量、格式、需要的转换等。在最简单的情况下，一条COPY命令就可将HAWQ主实例上的文本文件装载到表中。对于少量数据，这种方式不需要更多步骤，并提供了良好的性能。COPY命令在HAWQ master主机上的单个文件与数据库表之间拷贝数据。这种方式拷贝的数据量受限于文件所在系统所允许的单一文件最大字节数。对于大数据集，更为有效的数据装载方式是利用HAWQ的MPP架构，利用多个HAWQ segments并行装载数据。该方式允许同时从多个文件系统装载数据，实现很高的数据传输速率。用gpfdist创建的外部表会使用所有HAWQ segment装载或卸载数据，并且完全是并行操作的。
无论使用哪种方法，装载完数据都应运行ANALYZE。如果装载了大量表数据，运行ANALYZE或VACUUM ANALYZE（只对系统目录表）为查询优化器更新表的统计信息。使得当前统计信息保证优化器做出最好的查询计划，避免由于数据的增长或缺失的统计信息导致性能问题。

1. gpfdist
gpfdist是HAWQ的提供的一种文件服务器，提供了良好的性能并且非常容易运行。gpfdist利用HAWQ系统中的所有segment读写外部表。
（1）并行性
gp_external_max_segs服务器配置参数控制可被单一gpfdist实例同时使用的虚拟段的数量，缺省值为64。在master实例的hawq-site.xml文件中设置此参数。

[gpadmin@hdp3 ~]$ hawq config -s gp_external_max_segs
GUC		: gp_external_max_segs
Value		: 64

用户可能需要设置虚拟段的数量，例如一些用于处理外部表数据文件，一些执行其它的数据库处理。hawq_rm_nvseg_perquery_perseg_limit和hawq_rm_nvseg_perquery_limit参数控制并行虚拟段的数量，它们限制集群中一个gpfdist外部表上执行查询时使用的最大虚拟段数。

（2）启动与停止
可以选择在HAWQ master以外的其它机器上运行gpfdist，例如一个专门用于ETL处理的主机。使用gpfdist命令启动gpfdist。该命令位于HAWQ master主机和每个segment主机的$GPHOME/bin目录中。可以在当前目录位置或者指定任意目录启动gpfdist，缺省的端口是8080。下面是一些启动gpfdist的例子。

处理当前目录中的文件，使用缺省8080端口。
```
[gpadmin@hdp4 ~]$ gpfdist &
```
/home/gpadmin/load_data/是要处理的文件目录，8081是HTTP端口号，/home/gpadmin/log是消息与错误日志文件，进程在后台运行。
```
[gpadmin@hdp4 ~]$ gpfdist -d /home/gpadmin/load_data/ -p 8081 -l /home/gpadmin/log &
```

在同一个ETL主机上运行多个gpfdist实例，每个实例使用不同的目录和端口。

[gpadmin@hdp4 ~]$ gpfdist -d /home/gpadmin/load_data1/ -p 8081 -l /home/gpadmin/log1 &
[gpadmin@hdp4 ~]$ gpfdist -d /home/gpadmin/load_data2/ -p 8082 -l /home/gpadmin/log2 &

如果在启动时报出类似没有libapr-1.so.0或libyaml-0.so.2文件的错误，则需要安装相应的包。

yum install apr
yum install libyaml

HAWQ没有提供停止gpfdist的特殊命令，直接使用kill停止gpfdist进程。

[gpadmin@hdp4 ~]$ ps -ef |grep gpfdist |grep -v grep | awk '{print $2}'|xargs kill -9

（3）排错

虚拟段在运行时访问gpfdist，因此需要保证HAWQ segment主机能访问gpfdist实例。gpfdist实际上是一个Web服务器，可以在HAWQ的每个主机（master和segment）上执行下面的命令测试连通性：
```
[gpadmin@hdp3 ~]$ wget http://gpfdist_hostname:port/filename
```
CREATE EXTERNAL TABLE定义必须为gpfdist提供正确的主机名、端口号和文件名。

2. gpfdist外部表
（1）gpfdist协议
在URI中使用gpfdist://协议引用一个运行的gpfdist实例。在外部数据文件所在的主机上运行gpfdist命令。gpfdist自动解压缩gzip（.gz）和bzip2（.bz2）文件。可以使用通配符（*）或其它C语言风格的模式匹配多个需要读取的文件。指定的文件应该位于启动gpfdist实例时指定的目录下。
所有虚拟段并行访问外部文件，虚拟段的数量受gp_external_max_segments参数、gpfdist的位置列表长度，以及hawq_rm_nvseg_perquery_limit和hawq_rm_nvseg_perquery_perseg_limit参数影响。在CREATE EXTERNAL TABLE语句中使用多个gpfdist数据源可扩展外部表扫描性能。

（2）创建gpfdist外部表

为了创建一个gpfdist外部表，需要指定输入文件的格式和外部数据源的位置。使用以下协议之一访问外部表数据源。一条CREATE EXTERNAL TABLE语句中使用的协议必须唯一，不能混用多个协议。

gpfdist:// —— 指定主机上的一个目录，用于存储外部数据文件。HAWQ的所有segment可并行访问该目录下的文件。
gpfdists:// —— gpfdist的安全版本。

使用gpfdist外部表的步骤如下：

定义外部表。
启动gpfdist文件服务器。
将数据文件放置于外部表定义中指定的位置。
使用SQL命令查询外部表。

与PXF外部表一样，HAWQ提供可读与可写两种gpfdist外部表，但一个外部表不能既可读又可写。

（3）gpfdist外部表示例
例1：单gpfdist实例外部表
启动gpfdist。

[gpadmin@hdp4 ~]$ gpfdist -p 8081 -d /home/gpadmin/staging -l /home/gpadmin/log &

使用gpfdist协议创建只读外部表example1，文件以管道符（|）作为列分隔符。

db1=# create external table example1
db1=#         ( name text, date date, amount float4, category text, desc1 text )
db1=#     location ('gpfdist://hdp4:8081/*')
db1=#     format 'text' (delimiter '|');
CREATE EXTERNAL TABLE

准备文本文件数据。

[gpadmin@hdp4 unload_data1]$ cd /home/gpadmin/staging
[gpadmin@hdp4 staging]$ more a.txt 
aaa|2017-01-01|100.1|aaa|aaa
bbb|2017-01-02|100.2|bbb|bbb
[gpadmin@hdp4 staging]$ more b.txt 
aaa|2017-03-01|200.1|aaa|aaa
bbb|2017-03-02|200.2|bbb|bbb

查询外部表。

db1=# select * from example1;
 name |    date    | amount | category | desc1 
------+------------+--------+----------+-------
 aaa  | 2017-01-01 |  100.1 | aaa      | aaa
 bbb  | 2017-01-02 |  100.2 | bbb      | bbb
 aaa  | 2017-03-01 |  200.1 | aaa      | aaa
 bbb  | 2017-03-02 |  200.2 | bbb      | bbb
(4 rows)

例2：多gpfdist实例外部表

在hdp3和hdp4上分别启动一个gpfdist实例。

[gpadmin@hdp3 ~]$ gpfdist -p 8081 -d /home/gpadmin/staging -l /home/gpadmin/log &
[gpadmin@hdp4 ~]$ gpfdist -p 8081 -d /home/gpadmin/staging -l /home/gpadmin/log &

使用gpfdist协议创建只读外部表example2，文件以管道符（|）作为列分隔符，' '作为NULL。

db1=# create external table example2
db1-#         ( name text, date date, amount float4, category text, desc1 text )
db1-#     location ('gpfdist://hdp3:8081/*.txt', 'gpfdist://hdp4:8081/*.txt')
db1-#     format 'text' ( delimiter '|' null ' ') ;
CREATE EXTERNAL TABLE

查询外部表，因为gpfdist://hdp3:8081/*.txt不存在而报错。

db1=# select * from example2;
ERROR:  http response code 404 from gpfdist (gpfdist://hdp3:8081/*.txt): HTTP/1.0 404 file not found (url.c:306)  (seg0 hdp4:40000 pid=53784) (dispatcher.c:1801)
db1=#

将外部文件复制到hdp3的相关目录下。

[gpadmin@hdp4 staging]$ scp *.txt hdp3://home/gpadmin/staging/

再次查询外部表，可以正确读取全部外部文件数据。

db1=# select * from example2;
 name |    date    | amount | category | desc1 
------+------------+--------+----------+-------
 aaa  | 2017-01-01 |  100.1 | aaa      | aaa
 bbb  | 2017-01-02 |  100.2 | bbb      | bbb
 aaa  | 2017-03-01 |  200.1 | aaa      | aaa
 bbb  | 2017-03-02 |  200.2 | bbb      | bbb
 aaa  | 2017-01-01 |  100.1 | aaa      | aaa
 bbb  | 2017-01-02 |  100.2 | bbb      | bbb
 aaa  | 2017-03-01 |  200.1 | aaa      | aaa
 bbb  | 2017-03-02 |  200.2 | bbb      | bbb
(8 rows)

例3：带有错误日志的单gpfdist实例外部表

缺省在访问外部表时只要遇到一行格式错误的数据，就会立即返回错误，并导致查询失败。下面的语句设置了SEGMENT REJECT LIMIT的值，只有当一个segment上的错误数大于等于5时，整个外部表操作才会失败，并且不处理任何行。而当错误数小于5时，会将被拒绝的行写入一个错误表errs，其它数据行还可以正常返回。

db1=# create external table example3
db1-#           ( name text, date date, amount float4, category text, desc1 text )
db1-#      location ('gpfdist://hdp3:8081/*.txt', 'gpfdist://hdp4:8081/*.txt')
db1-#      format 'text' ( delimiter '|' null ' ')
db1-#      log errors into errs segment reject limit 5;
NOTICE:  Error table "errs" does not exist. Auto generating an error table with the same name
CREATE EXTERNAL TABLE
db1=# \d errs
         Append-Only Table "public.errs"
  Column  |           Type           | Modifiers 
----------+--------------------------+-----------
 cmdtime  | timestamp with time zone | 
 relname  | text                     | 
 filename | text                     | 
 linenum  | integer                  | 
 bytenum  | integer                  | 
 errmsg   | text                     | 
 rawdata  | text                     | 
 rawbytes | bytea                    | 
Compression Type: None
Compression Level: 0
Block Size: 32768
Checksum: f
Distributed randomly

db1=#

准备一条格式错误的数据。

[gpadmin@hdp4 staging]$ more a.txt
aaa|2017-01-01|100.1|aaa|aaa
bbb|2017-01-02|100.2|bbb|bbb
bbb,2017-01-02,100.2,bbb,bbb

查询外部表，返回8条数据，错误数据进入了errs表。

db1=# select * from example3;
NOTICE:  Found 1 data formatting errors (1 or more input rows). Rejected related input data.
 name |    date    | amount | category | desc1 
------+------------+--------+----------+-------
 aaa  | 2017-01-01 |  100.1 | aaa      | aaa
 bbb  | 2017-01-02 |  100.2 | bbb      | bbb
 aaa  | 2017-03-01 |  200.1 | aaa      | aaa
 bbb  | 2017-03-02 |  200.2 | bbb      | bbb
 aaa  | 2017-01-01 |  100.1 | aaa      | aaa
 bbb  | 2017-01-02 |  100.2 | bbb      | bbb
 aaa  | 2017-03-01 |  200.1 | aaa      | aaa
 bbb  | 2017-03-02 |  200.2 | bbb      | bbb
(8 rows)

db1=# \x
Expanded display is on.
db1=# select * from errs;
-[ RECORD 1 ]-----------------------------------------------------
cmdtime  | 2017-04-05 15:23:19.579421+08
relname  | example3
filename | gpfdist://hdp4:8081/*.txt [/home/gpadmin/staging/a.txt]
linenum  | 3
bytenum  | 
errmsg   | missing data for column "date"
rawdata  | bbb,2017-01-02,100.2,bbb,bbb
rawbytes | 

db1=#

准备5条错误数据。

[gpadmin@hdp4 staging]$ more a.txt
aaa|2017-01-01|100.1|aaa|aaa
bbb|2017-01-02|100.2|bbb|bbb
b1,2017-01-02,100.2,bbb,bbb
b2,2017-01-02,100.2,bbb,bbb
b3,2017-01-02,100.2,bbb,bbb
b4,2017-01-02,100.2,bbb,bbb
b5,2017-01-02,100.2,bbb,bbb

再次查询外部表，因为达到了错误上限，整条语句失败，没有数据被返回。

db1=# select * from example3;
ERROR:  Segment reject limit reached. Aborting operation. Last error was: missing data for column "date"  (seg16 hdp3:40000 pid=350431)
DETAIL:  External table example3, line 7 of gpfdist://hdp4:8081/*.txt: "b5,2017-01-02,100.2,bbb,bbb"
db1=#

例4：gpfdist可写外部表

建立可写外部表，并插入一条数据。

db1=# create writable external table example4 (name text, date date, amount float4, category text, desc1 text)
db1-#     location ('gpfdist://hdp4:8081/sales.out', 'gpfdist://hdp3:8081/sales.out')
db1-#     format 'text' ( delimiter '|' null ' ')
db1-#     distributed by (name);
CREATE EXTERNAL TABLE
db1=# insert into example4 values ('aaa','2017-01-01',100.1,'aaa','aaa');
INSERT 0 1

结果只在hdp4上建立了文件/home/gpadmin/staging/sales.out，而hdp3并没有建立输出文件。

[gpadmin@hdp4 staging]$ more sales.out 
aaa|2017-01-01|100.1|aaa|aaa

再次建立可写外部表，将gpfdist位置调换，把hdp3放前面，并插入一条数据。

db1=# drop external table example4;
DROP EXTERNAL TABLE
db1=# create writable external table example4 (name text, date date, amount float4, category text, desc1 text)
db1-#     location ('gpfdist://hdp3:8081/sales.out', 'gpfdist://hdp4:8081/sales.out')
db1-#     format 'text' ( delimiter '|' null ' ')
db1-#     distributed by (name);
CREATE EXTERNAL TABLE
db1=# insert into example4 values ('aaa','2017-01-01',100.1,'aaa','aaa');
INSERT 0 1

这次只在hdp3上建立了文件/home/gpadmin/staging/sales.out。

[gpadmin@hdp3 staging]$ more sales.out 
aaa|2017-01-01|100.1|aaa|aaa

在LOCATION子句中指定同一主机上的多个gpfdist实例，结果也是一样的。可见，在可写外部表上执行INSERT操作时，只在第一个gpfdist实例的位置上生成本地文件数据。

3. 基于web的外部表
外部表可以是基于文件的或基于web的。

基于文件的外部表访问静态平面文件。在查询运行时数据是静态的，数据可重复读。
基于web的外部表通过web服务器的http协议或通过执行操作系统命令或脚本，访问动态数据源。数据不可重复读，因为在查询运行时数据可能改变。

CREATE EXTERNAL WEB TABLE语句创建一个web外部表。web外部表允许HAWQ将动态数据源视作一个常规的数据库表。因为web表数据可能在查询运行时改变，所以数据是不可重复读的。可以定义基于命令或基于URL的web外部表，但不能在一条建表命令中混用两种定义。

（1）基于命令的web外部表

用一个shell命令或脚本的输出定义基于命令的web表数据。在CREATE EXTERNAL WEB TABLE语句的EXECUTE子句指定需要执行的命令。外部表中的数据是命令运行时的数据。EXECUTE子句运行特定master或虚拟段上的shell命令或脚本。脚本必须是gpadmin用户可执行的，并且位于所有master和segment主机的相同位置上，虚拟段并行运行命令。
外部表定义中指定的命令从数据库执行，数据库不能从.bashrc或.profile获取环境变量，因此需要在EXECUTE子句中设置环境变量。例如，下面的外部表运行一个HAWQ master主机上的密令：

CREATE EXTERNAL WEB TABLE output (output text)
EXECUTE 'PATH=/home/gpadmin/programs; export PATH; myprogram.sh'
    ON MASTER 
FORMAT 'TEXT';

下面的命令定义一个web表，在五个虚拟段上运行一个名为get_log_data.sh脚本文件。

CREATE EXTERNAL WEB TABLE log_output (linenum int, message text) 
EXECUTE '/home/gpadmin/get_log_data.sh' ON 5 
FORMAT 'TEXT' (DELIMITER '|');

资源管理器在运行时选取虚拟段。

（2）基于URL的Web外部表

基于URL的web表使用HTTP协议从web服务器访问数据，web表数据是动态的。在LOCATION子句中使用http://指定文件在web服务器上的位置。web数据文件必须在所有segment主机能够访问的web服务器上。URL的数量对应访问该web表时并行的最少虚拟段数量。下面的例子定义了一个从多个URL获取数据的web表。

CREATE EXTERNAL WEB TABLE ext_expenses (
    name text, date date, amount float4, category text, description text) 
LOCATION ('http://hdp1/sales/file.csv',
          'http://hdp1/exec/file.csv',
          'http://hdp1/finance/file.csv',
          'http://hdp1/ops/file.csv',
          'http://hdp1/marketing/file.csv',
          'http://hdp1/eng/file.csv' 
      )
FORMAT 'CSV';

（3）基于Web的外部表示例

例5：执行脚本的可读Web外部表
建立外部表。

db1=# create external web table example5 (linenum int, message text) 
db1-# execute '/home/gpadmin/get_log_data.sh' on 5 
db1-# format 'text' (delimiter '|');
CREATE EXTERNAL TABLE

HAWQ集群中每台主机的相同位置上都必须有同一个可执行的脚本，否则查询会报错，如hdp1上没有/home/gpadmin/get_log_data.sh文件。

db1=# select * from example5;
ERROR:  external table example5 command ended with error. sh: /home/gpadmin/get_log_data.sh: No such file or directory  (seg0 hdp1:40000 pid=360600)
DETAIL:  Command: execute:/home/gpadmin/get_log_data.sh

对该外部表的查询会返回每个虚拟段输出的并集，例如，get_log_data.sh脚本内容如下：

#!/bin/bash
echo "1|aaa"
echo "2|bbb"

则该表将返回10条（每个虚拟段两条，五个虚拟段）数据：

db1=# select * from example5;
 linenum | message 
---------+---------
       1 | aaa
       2 | bbb
       1 | aaa
       2 | bbb
       1 | aaa
       2 | bbb
       1 | aaa
       2 | bbb
       1 | aaa
       2 | bbb
(10 rows)

执行查询时，资源管理器最少分配5个虚拟段。如果建表时指定的虚拟段数超过了允许的最大值，表仍然可以建立，但查询时会报错。

db1=# drop external web table example5;
DROP EXTERNAL TABLE
db1=# create external web table example5 (linenum int, message text) 
db1-# execute '/home/gpadmin/get_log_data.sh' on 100 
db1-# format 'text' (delimiter '|');
CREATE EXTERNAL TABLE
db1=# select * from example5;
ERROR:  failed to acquire resource from resource manager, minimum expected number of virtual segment 100 is more than maximum possible number 64 in queue pg_default (pquery.c:804)

例6：执行脚本的可写web外部表
创建外部表。

db1=# create writable external web table example6
db1-#         (name text, date date, amount float4, category text, desc1 text)
db1-#         execute 'PATH=/home/gpadmin/programs; export PATH; myprogram1.sh' on 6
db1-#         format 'text' (delimiter '|')
db1-#         distributed randomly;
CREATE EXTERNAL TABLE

myprogram1.sh的内容如下：

#!/bin/bash
while read line
do
    echo "File:${line}" >> /home/gpadmin/programs/a.txt
done

向外部表中插入数据。

db1=# insert into example6 values ('aaa','2017-01-01',100.1,'aaa','aaa');
INSERT 0 1
db1=# insert into example6 values ('bbb','2017-02-01',200.1,'bbb','');
INSERT 0 1

插入的数据通过管道输出给myprogram1.sh并执行，可以看到插入的数据被写入了a.txt文件。与可读表不同，该文件只在一个HAWQ主机上生成，并且每次插入数据只生成一行。

[gpadmin@hdp4 programs]$ more  /home/gpadmin/programs/a.txt
File:aaa|2017-01-01|100.1|aaa|aaa
File:bbb|2017-02-01|200.1|bbb|

5. 使用外部表装载数据
使用INSERT INTO target_table SELECT ... FROM source_external_table命令装载数据。例如：

CREATE TABLE expenses_travel (LIKE ext_expenses);
INSERT INTO expenses_travel 
SELECT * FROM ext_expenses WHERE category='travel';

也可以在创建一个新表的同时装载数据：

CREATE TABLE expenses AS SELECT * FROM ext_expenses;

6. 外部表错误处理

可读外部表通常被用于选择数据装载到普通的HAWQ数据库表中。使用CREATE TABLE AS SELECT或INSERT INTO命令查询外部表数据。缺省时，如果数据包含错误，则整条命令失败，没有数据装载到目标数据库表中。
SEGMENT REJECT LIMIT子句允许隔离外部表中格式错误的数据，并继续装载格式正确的行。使用SEGMENT REJECT LIMIT设置一个错误阈值，指定拒绝的数据行数（缺省）或一个占总行数的百分比（1-100）。
如果错误行数达到了SEGMENT REJECT LIMIT的值，整个外部表操作失败，没有数据行被处理。限制的错误行数是相对于一个虚拟段的，不是整个操作的。如果错误行数没有达到SEGMENT REJECT LIMIT值，操作处理所有正确的行，丢弃错误行，或者可选地将格式错误的行写入日志表。LOG ERRORS子句允许保存错误行以备后续检查。
设置SEGMENT REJECT LIMIT会使HAWQ以单行错误隔离模式扫描外部数据。当外部数据行出现多余属性、缺少属性、数据类型错误、无效的客户端编码序列等格式错误时，单行错误隔离模式将错误行丢弃或写入日志表。HAWQ不检查约束错误，但可以在查询外部表时过滤约束错误。例如，消除重复键值错误：

INSERT INTO table_with_pkeys 
SELECT DISTINCT * FROM external_table;

（1）使用单行错误隔离定义外部表

下面的例子在HAWQ表中记录错误记录，并设置错误行阈值为10。

db1=# create external table ext_expenses ( name text, date date, amount float4, category text, desc1 text )
db1-#    location ('gpfdist://hdp3:8081/*', 'gpfdist://hdp4:8081/*')
db1-#    format 'text' (delimiter '|')
db1-#    log errors into errs segment reject limit 10 rows;
CREATE EXTERNAL TABLE

（2）标识无效的CSV文件数据

如果一个CSV文件包含无效格式，错误日志表的rawdata字段可能包含多行。例如，某字段少了一个闭合的引号，后面所有的换行符都被认为是数据中内嵌的换行符。当这种情况发生时，HAWQ在一行数据达到64K时停止解析，并将此64K数据作为单行写入错误日志表，然后重置引号标记，继续读取数据。如果这种情况在处理装载时发生三次，载入文件被认为是无效的，整个装载失败，错误信息为“rejected N or more rows”。

（3）表间迁移数据

可以使用CREATE TABLE AS或INSERT...SELECT语句将外部表或web外部表的数据装载到其它非外部表中，数据将根据外部表或web外部表的定义并行装载。如果一个外部表或web外部表数据源有错误，依赖于使用的错误隔离模式，有以下两种处理方式：

表没有设置错误隔离模式：读取该表的任何操作都会失败。没有设置错误隔离模式的外部表或web外部表上的操作将整体成功或失败。
表设置了错误隔离模式：除了发生错误的行，其它数据将被装载（依赖于REJECT_LIMIT的配置）。

7. 使用hawq load装载数据
HAWQ的hawq load应用程序使用可读外部表和HAWQ并行文件系统（gpfdist或gpfdists）装载数据。它并行处理基于文件创建的外部表，允许用户在单一配置文件中配置数据格式、外部表定义，以及gpfdist或gpfdists的设置。

（1）确认建立了运行hawq load的环境。

它需要依赖某些HAWQ安装中的文件，如gpfdist和Python，还需要通过网络访问所有HAWQ segment主机。

（2）创建控制文件。

hawq load的控制文件是一个YAML（Yet Another Markup Language）格式的文件，在其中指定HAWQ连接信息，gpfdist配置信息，外部表选项、数据格式等。例如下面是一个名为my_load.yml的控制文件内容：

---
VERSION: 1.0.0.1
DATABASE: db1
USER: gpadmin
HOST: hdp3
PORT: 5432
GPLOAD:
   INPUT:
    - SOURCE:
         LOCAL_HOSTNAME:
           - hdp4
         PORT: 8081
         FILE: 
           - /home/gpadmin/staging/*.txt
    - COLUMNS:
           - name: text
           - date: date
           - amount: float4
           - category: text
           - desc1: text           
    - FORMAT: text
    - DELIMITER: '|'
    - ERROR_LIMIT: 25
    - ERROR_TABLE: errlog
   OUTPUT:
    - TABLE: t1
    - MODE: INSERT
   SQL:
    - BEFORE: "INSERT INTO audit VALUES('start', current_timestamp)"
    - AFTER: "INSERT INTO audit VALUES('end', current_timestamp)"

注意：

hawq load控制文件使用YAML 1.1文档格式，为了定义HAWQ数据装载的各种步骤，它定义了自己的schema。控制文件必须是一个有效的YAML文档。hawq load程序按顺序处理控制文件文档，并使用空格识别文档中各段之间的层次关系，因此空格的使用是非常重要的。不要使用TAB符代替空格，YAML文档中不要出现TAB符。
LOCAL_HOSTNAME指定运行hawq load的本地主机名或IP地址。如果机器配置了多块网卡，可以为每块网卡指定一个主机名，允许同时使用多块网卡传输数据。比如hdp4上配置了两块网卡，可以如下配置LOCAL_HOSTNAME：
```
LOCAL_HOSTNAME:
 - hdp4-1
 - hdp4-2
```

（3）hawq load示例
准备本地文件数据。

[gpadmin@hdp4 staging]$ more a.txt 
aaa|2017-01-01|100.1|aaa|aaa
bbb|2017-01-02|100.2|bbb|bbb
[gpadmin@hdp4 staging]$ more b.txt 
aaa|2017-03-01|200.1|aaa|aaa
bbb|2017-03-02|200.2|bbb|bbb

建立目标表和audit表。

db1=# create table t1 ( name text, date date, amount float4, category text, desc1 text );
CREATE TABLE
db1=# create table audit(flag varchar(10),st timestamp); 
CREATE TABLE

执行hawq load。

[gpadmin@hdp4 ~]$ hawq load -f my_load.yml
2017-04-05 16:41:44|INFO|gpload session started 2017-04-05 16:41:44
2017-04-05 16:41:44|INFO|setting schema 'public' for table 't1'
2017-04-05 16:41:44|INFO|started gpfdist -p 8081 -P 8082 -f "/home/gpadmin/staging/*.txt" -t 30
2017-04-05 16:41:49|INFO|running time: 5.63 seconds
2017-04-05 16:41:49|INFO|rows Inserted          = 4
2017-04-05 16:41:49|INFO|rows Updated           = 0
2017-04-05 16:41:49|INFO|data formatting errors = 0
2017-04-05 16:41:49|INFO|gpload succeeded
[gpadmin@hdp4 ~]$

查询目标表和audit表。

db1=# select * from t1;
 name |    date    | amount | category | desc1 
------+------------+--------+----------+-------
 aaa  | 2017-01-01 |  100.1 | aaa      | aaa
 bbb  | 2017-01-02 |  100.2 | bbb      | bbb
 aaa  | 2017-03-01 |  200.1 | aaa      | aaa
 bbb  | 2017-03-02 |  200.2 | bbb      | bbb
(4 rows)

db1=# select * from audit;
 flag  |             st             
-------+----------------------------
 start | 2017-04-05 16:41:44.736296
 end   | 2017-04-05 16:41:49.60153
(2 rows)

8. 使用COPY装载、卸载数据
COPY是HAWQ的SQL命令，它在标准输入和HAWQ表之间互拷数据。COPY FROM命令将本地文件追加到数据表中，而COPY TO命令将数据表中的数据覆盖写入本地文件。COPY命令是非并行的，数据在HAWQ master实例上以单进程处理，因此只推荐对非常小的数据文件使用COPY命令。本地文件必须在master主机上，缺省的文件格式是逗号分隔的CSV文本文件。HAWQ使用客户端与master服务器之间的连接，从STDIN或STDOUT拷贝数据。

[gpadmin@hdp4 ~]$ psql -h hdp3 -d db1
psql (8.2.15)
Type "help" for help.

db1=# create table t2 (like t1);
NOTICE:  Table doesn't have 'distributed by' clause, defaulting to distribution columns from LIKE table
CREATE TABLE
db1=# copy t2 from '/home/gpadmin/staging/a.txt' with delimiter '|';
COPY 2
db1=# select * from t2;
 name |    date    | amount | category | desc1 
------+------------+--------+----------+-------
 aaa  | 2017-01-01 |  100.1 | aaa      | aaa
 bbb  | 2017-01-02 |  100.2 | bbb      | bbb
(2 rows)

将表数据卸载到master的本地文件中，如果文件不存在则建立文件，否则会用卸载数据覆盖文件原来的内容。

db1=# copy (select * from t2) to '/home/gpadmin/staging/c.txt' with delimiter '|';
COPY 2

[gpadmin@hdp3 staging]$ more /home/gpadmin/staging/c.txt 
bbb|2017-01-02|100.2|bbb|bbb
aaa|2017-01-01|100.1|aaa|aaa

（1）以单行错误隔离模式运行COPY。

缺省时，COPY在遇到第一个错误时就停止运行。如果数据含有错误，操作失败，没有数据被装载。如果以单行错误隔离模式运行COPY，HAWQ跳过含有错误格式的行，装载具有正确格式的行。如果数据违反了NOT NULL或CHECK等约束条件，操作仍然是‘all-or-nothing’输入模式，整个操作失败，没有数据被装载。

[gpadmin@hdp3 staging]$ more a.txt
aaa|2017-01-01|100.1|aaa|aaa
bbb|2017-01-02|100.2|bbb|bbb

向表拷贝本地文件数据，错误日志表中新增一条数据。

db1=# create table t3 ( name text not null, date date, amount float4, category text, desc1 text );
CREATE TABLE
db1=# copy t3 from '/home/gpadmin/staging/a.txt'
db1-#    with delimiter '|' log errors into errtable
db1-#    segment reject limit 5 rows;
NOTICE:  Error table "errtable" does not exist. Auto generating an error table with the same name
WARNING:  The error table was created in the same transaction as this operation. It will get dropped if transaction rolls back even if bad rows are present
HINT:  To avoid this create the error table ahead of time using: CREATE TABLE  (cmdtime timestamp with time zone, relname text, filename text, linenum integer, bytenum integer, errmsg text, rawdata text, rawbytes bytea)
NOTICE:  Dropping the auto-generated unused error table
HINT:  Use KEEP in LOG INTO clause to force keeping the error table alive
COPY 2
db1=# select * from t3;
 name |    date    | amount | category | desc1 
------+------------+--------+----------+-------
 bbb  | 2017-01-02 |  100.2 | bbb      | bbb
 aaa  | 2017-01-01 |  100.1 | aaa      | aaa
(2 rows)

修改文件，制造一行格式错误的数据。

[gpadmin@hdp3 staging]$ more a.txt
aaa,2017-01-01,100.1,aaa,aaa
bbb|2017-01-02|100.2|bbb|bbb

再次拷贝数据。与卸载不同，装载会向表中追加数据。

db1=# copy t3 from '/home/gpadmin/staging/a.txt'
db1-#    with delimiter '|' log errors into errtable
db1-#    segment reject limit 5 rows;
NOTICE:  Error table "errtable" does not exist. Auto generating an error table with the same name
WARNING:  The error table was created in the same transaction as this operation. It will get dropped if transaction rolls back even if bad rows are present
HINT:  To avoid this create the error table ahead of time using: CREATE TABLE  (cmdtime timestamp with time zone, relname text, filename text, linenum integer, bytenum integer, errmsg text, rawdata text, rawbytes bytea)
NOTICE:  Found 1 data formatting errors (1 or more input rows). Errors logged into error table "errtable"
COPY 1
db1=# select * from t3;
 name |    date    | amount | category | desc1 
------+------------+--------+----------+-------
 bbb  | 2017-01-02 |  100.2 | bbb      | bbb
 bbb  | 2017-01-02 |  100.2 | bbb      | bbb
 aaa  | 2017-01-01 |  100.1 | aaa      | aaa
(3 rows)

db1=# \x
Expanded display is on.
db1=# select * from errtable;
-[ RECORD 1 ]----------------------------
cmdtime  | 2017-04-05 16:56:02.402161+08
relname  | t3
filename | /home/gpadmin/staging/a.txt
linenum  | 1
bytenum  | 
errmsg   | missing data for column "date"
rawdata  | aaa,2017-01-01,100.1,aaa,aaa
rawbytes | 

db1=#

再次修改文件，将name字段对应的数据置空，因为该字段定义为NOT NULL，所以违反约束，没有数据被拷贝。

[gpadmin@hdp3 staging]$ more a.txt
|2017-01-01|100.1|aaa|aaa
bbb|2017-01-02|100.2|bbb|bbb
  
db1=# truncate table t3;
TRUNCATE TABLE
db1=# copy t3 from '/home/gpadmin/staging/a.txt'
   with delimiter '|' null as  '' log errors into errtable
   segment reject limit 5 rows;
ERROR:  null value in column "name" violates not-null constraint  (seg5 hdp1:40000 pid=370883)
CONTEXT:  COPY t3, line 1: "|2017-01-01|100.1|aaa|aaa"
db1=# select * from t3;
 name | date | amount | category | desc1 
------+------+--------+----------+-------
(0 rows)

9. 卸载数据
一个可写外部表允许用户从其它数据库表选择数据行并输出到文件、命名管道、应用或MapReduce。如前面的例4和例6所示，可以定义基于gpfdist或基于web的可写外部表。
对于使用gpfdist协议的外部表，HAWQ segment将它们的数据发送给gpfdist，gpfdist将数据写入命名文件中。gpfdist必须运行在HAWQ segment能够在网络上访问的主机上。gpfdist指向一个输出主机上的文件位置，将从HAWQ segment接收到的数据写入文件。
一个可写web外部表的数据作为数据流发送给应用。例如，从HAWQ卸载数据并发送给一个连接其它数据库的应用或向别处装载数据的ETL工具。可写web外部表使用EXECUTE子句指定一个运行在segment主机上的shell命令、脚本或应用，接收输入数据流。
可以选择为可写外部表声明分布策略。缺省时，可写外部表使用随机分布策略。如果要导出的源表是哈希分布的，为外部表定义相同的分布键列会提升数据卸载性能，因为这消除了数据行在内部互联网络上的移动。如果卸载一个特定表的数据，可以使用LIKE子句拷贝源表的列定义与分布策略。
下面是一个gpfdist外部表的例子：

db1=# create writable external table unload_expenses
db1-# ( like t1 )
db1-# location ('gpfdist://hdp3:8081/expenses1.out',
db1(# 'gpfdist://hdp4:8081/expenses2.out')
db1-# format 'text' (delimiter ',');
NOTICE:  Table doesn't have 'distributed by' clause, defaulting to distribution columns from LIKE table
CREATE EXTERNAL TABLE

可写外部表只允许INSERT操作。如果执行卸载的用户不是外部表的属主或超级用户，必须授予对外部表的INSERT权限。例如：

GRANT INSERT ON unload_expenses TO admin;

与例4不同，INSERT INTO 外部表 SELECT ... 语句中，外部表的输出文件只能在一个主机上，否则会报错。

db1=# insert into unload_expenses select * from t1;
ERROR:  External table has more URLs then available primary segments that can write into them  (seg0 hdp1:40000 pid=387379)
db1=# drop external table unload_expenses;
DROP EXTERNAL TABLE
db1=# create writable external table unload_expenses
db1-# ( like t1 )
db1-# location ('gpfdist://hdp3:8081/expenses1.out')
db1-# format 'text' (delimiter ',');
NOTICE:  Table doesn't have 'distributed by' clause, defaulting to distribution columns from LIKE table
CREATE EXTERNAL TABLE
db1=# insert into unload_expenses select * from t1;
INSERT 0 4

查看导出的数据。

[gpadmin@hdp3 staging]$ more expenses1.out 
aaa,2017-01-01,100.1,aaa,aaa
bbb,2017-01-02,100.2,bbb,bbb
aaa,2017-03-01,200.1,aaa,aaa
bbb,2017-03-02,200.2,bbb,bbb
[gpadmin@hdp3 staging]$

如上面的例6所示，也可以定义一个可写的外部web表，发送数据行到脚本或应用。脚本文件必须接收输入流，而且必须存在于所有HAWQ segment的主机的相同位置上，并可以被gpadmin用户执行。HAWQ系统中的所有segment都执行脚本，无论segment是否有需要处理的输出行。
允许外部表执行操作系统命令或脚本会带来相应的安全风险。为了在可写外部web表定义中禁用EXECUTE，可在HAWQ master的hawq-site.xml文件中设置gp_external_enable_exec服务器配置参数为off。

gp_external_enable_exec = off

正如前面说明COPY命令时所看到的，COPY TO命令也可以用来卸载数据。它使用HAWQ master主机上的单一进程，从表中数据拷贝到HAWQ master主机上的一个文件（或标准输入）中。COPY TO命令重写整个文件，而不是追加记录。

10. hawq register
该命令将HDFS上的Parquet表数据装载并注册到对应的HAWQ表中。hawq register的使用场景好像很有限，因为它只能注册HAWQ或Hive已经生成的Parquet表文件。关于该命令的使用可参考“ Registering Files into HAWQ Internal Tables”。

11. 格式化数据文件
当使用HAWQ工具装载卸载数据时，必须指定数据的格式。CREATE EXTERNAL TABLE、hawq load和COPY都包含指定数据格式的子句。数据可以是固定分隔符的文本或逗号分隔值（CSV）格式。外部数据必须是HAWQ可以正确读取的格式。

（1）行格式

HAWQ需要数据行以换行符（LF，Line feed，ASCII值0x0A）、回车符（CR，Carriage return，ASCII值0x0D）或回车换行符（CR+LF，0x0D 0x0A）作为行分隔符。LF是类UNIX操作系统中标准的换行符。而Windows或Mac OS X使用CR或CR+LF。所有这些表示一个新行的特殊符号都被HAWQ作为行分隔符所支持。

（2）列格式

文本文件和CSV文件缺省的列分隔符是分别是TAB（ASCII值为0x09）和逗号（ASCII值为0x2C）。在定义数据格式时，可以在CREATE EXTERNAL TABLE或COPY命令的DELIMITER子句，或者hawq load的控制文件中，声明一个单字符作为列分隔符。分隔符必须出现在字段值之间，不要在一行的开头或结尾放置分隔符。例如，下面使用管道符（|）作为列分隔符：

data value 1|data value 2|data value 3

下面的建表命令显示以管道符作为列分隔符：

=# CREATE EXTERNAL TABLE ext_table (name text, date date)
LOCATION ('gpfdist://host:port/filename.txt)
FORMAT 'TEXT' (DELIMITER '|');

（3）表示空值

空值（NULL）表示一列中的未知数据。可以指定数据文件中的一个字符串表示空值。文本文件中表示空值的缺省字符串为\N，CSV文件中表示空值的缺省字符串为不带引号的空串（两个连续的逗号）。定义数据格式时，可以在CREATE EXTERNAL TABLE、COPY命令的NULL子句，或者hawq load的控制文件中，声明其它字符串表示空值。例如，如果不想区分空值与空串，就可以指定空串表示NULL。在使用HAWQ装载工具时，任何与声明的代表NULL的字符串相匹配的数据项都被认为是空值。

（4）转义

列分隔符与行分隔符在数据文件中具有特殊含义。如果实际数据中也含有这个符号，必须对这些符号进行转义，以使HAWQ将它们作为普通数据而不是列或行的分隔符。文本文件缺省的转义符为一个反斜杠（\），CSV文件缺省的转义符为一个双引号（"）。
文本文件转义
可以在CREATE EXTERNAL TABLE、COPY的ESCAPE子句，或者hawq load的控制文件中指定转义符。例如，假设有以下三个字段的数据：

backslash = \
vertical bar = |
exclamation point = !

假设指定管道符（|）为列分隔符，反斜杠（\）为转义符。则对应的数据行格式如下：

backslash = \\ | vertical bar = \| | exclamation point = !

可以对八进制或十六进制序列应用转义符。在装载进HAWQ时，转义后的值就是八进制或十六进制的ASCII码所表示的字符。例如，取址符（&）可以使用十六进制的（\0x26）或八进制的（\046）表示。
如果要在CREATE EXTERNAL TABLE、COPY命令的ESCAPE子句，或者hawq load的控制文件中禁用转义，可如下设置：

ESCAPE 'OFF'

该设置常用于输入数据中包含很多反斜杠（如web日志数据）的情况。

CSV文件转义
可以在CREATE EXTERNAL TABLE、COPY的ESCAPE子句，或者hawq load的控制文件中指定转义符。例如，假设有以下三个字段的数据：

Free trip to A,B
5.89
Special rate "1.79"

假设指定逗号（,）为列分隔符，一个双引号（"）为转义符。则数据行格式如下：

"Free trip to A,B","5.89","Special rate ""1.79"""

将字段值置于双引号中能保留字符串中头尾的空格。

（5）字符编码

在将一个Windows操作系统上生成的数据文件装载到HAWQ前，先使用dos2unix系统命令去除只有Windows使用的字符，如删除文件中的CR（'\x0d'）。

（6）导入导出固定宽度数据

HAWQ的函数fixedwith_in和fixedwidth_out支持固定宽度的数据格式。这些函数的定义保存在$GPHOME/share/postgresql/cdb_external_extensions.sql文件中。下面的例子声明了一个自定义格式，然后调用fixedwidth_in函数指定为固定宽度的数据格式。

db1=# create readable external table students (
db1(#   name varchar(5), address varchar(10), age int)
db1-# location ('gpfdist://hdp4:8081/students.txt')
db1-# format 'custom' (formatter=fixedwidth_in, name='5', address='10', age='4');
CREATE EXTERNAL TABLE
db1=# select * from students;
 name  |  address   | age 
-------+------------+-----
 abcde | 1234567890 |  40
(1 row)

students.txt文件内容如下：

[gpadmin@hdp4 unload_data1]$ more students.txt 
abcde12345678900040

文件中一行记录的字节必须与建表语句中字段字节数的和一致，如上例中一行必须严格为19字节，否则读取文件时会报错。再看一个含有中文的例子。

[gpadmin@hdp4 unload_data1]$ echo $LANG
zh_CN.UTF-8
[gpadmin@hdp4 unload_data1]$ more students.txt 
中文中文中0040

操作系统和数据库的字符集都是UTF8，一个中文占用三个字节，记录一共19字节，满足读取条件。

db1=# select * from students;
 name | address | age 
------+---------+-----
 中   | 中文中  |  40
(1 row)

name字段5字节，address字段10字节，理论上这两个字段都应该含有不完整的字符，但从查询结果看到，HAWQ在这里做了一些处理，name字段读取了一个完整的中文，address字段读取了三个完整的字符。而中间按字节分裂的中文字符被不可见字符所取代。

db1=# select char_length(name),octet_length(name),substr(name,1,1),substr(name,2,1) from students;
 char_length | octet_length | substr | substr 
-------------+--------------+--------+--------
           2 |            5 | 中     | 
(1 row)

db1=# select char_length(address),octet_length(address),substr(address,1,1),substr(address,2,1) from students;
 char_length | octet_length | substr | substr 
-------------+--------------+--------+--------
           4 |           10 |        | 中
(1 row)

以下选项指定如何读取固定宽度数据文件。

读取全部数据。装载固定宽度数据一行中的所有字段，并按它们的物理顺序进行装载。必须指定字段长度，不能指定起始于终止位置。固定宽度参数中字段名的顺序必须与CREATE TABLE命令中的顺序相匹配。
设置空格与NULL特性。缺省时尾部空格被截取。为了保留尾部空格，使用preserve_blanks=on选项。使用null='null_string_value'选项指定代表NULL的字符串。
如果指定了preserve_blanks=on，也必须定义代表NULL值的字符串。否则会报ERROR: A null_value was not defined. When preserve_blanks is on, a null_value
如果指定了preserve_blanks=off，没有定义NULL，并且一个字段只包含空格，HAWQ向表中写一个null。如果定义了NULL，HAWQ向表中写一个空串。
使用line_delim='line_ending'参数指定行尾字符。下面的例子覆盖大多数情况。‘E’表示转义，就是说如果记录正文中含有line_delim，需要进行转义。
```
line_delim=E'\n'
line_delim=E'\r'
line_delim=E'\r\n'
line_delim='abc'
```

三、数据库统计
1. 概述
统计信息指的是数据库中所存储数据的元信息描述。查询优化器需要依据最新的统计信息，为查询生成最佳的执行计划。例如，如果查询连接了两个表，一个表必须被广播到所有段，那么优化器会选择广播其中的小表，使网络流量最小化。
ANALYZE命令计算优化器所需的统计信息，并将结果保存到系统目录中。有三种方式启动分析操作：

直接运行ANALYZE命令。
在数据库外运行analyzedb命令行应用程序。
在执行DML操作的表上没有统计信息，或者DML操作影响的行数超过了指定的阈值时，自动执行分析操作。

计算统计信息会消耗时间和资源，因此HAWQ会在大表上进行采样，通过计算部分数据，产生统计信息的估算。在大多数情况下，缺省设置能够提供生成正确查询执行计划的信息。如果产生的统计不能生成优化的查询执行计划，管理员可以调整配置参数，通过增加样本数据量，产生更加精确的统计信息。统计信息越精确，所消耗的CPU和内存资源越多，因此可能由于资源的限制，无法生成更好的计划。此时就需要查看执行计划并测试查询性能，目标是要通过增加的统计成本达到更好的查询性能。

2. 系统统计
（1）表大小
查询优化器使用查询必须处理的数据行数和必须访问的磁盘页数等统计信息，寻找查询所需的最小的磁盘I/O和网络流量的执行计划。用于估算行数和页数的数据分别保存在pg_class系统表的reltuples和relpages列中，其中的值是最后运行VACUUM或ANALYZE命令时生成的数据。对于缺省的AO（Append Only）表，系统目录中的tuples数是最近的值，因此reltuples统计是精确值而不是估算值，但relpages值是AO数据块的估算值。如果reltuples列的值与SELECT COUNT(*)的返回值差很多，应该执行分析更新统计信息。

（2）pg_statistic系统表与pg_stats视图

pg_statistic系统表保存每个数据库表上最后执行ANALYZE操作的结果。每个表列有一行记录，它具有以下字段：

starelid：列所属的表的对象ID。
staatnum：所描述列在表中的编号，从1开始。
stanullfrac；列中空值占比。
stawidth：非空数据项的平均宽度，单位是字节。
stadistinct：列中不同非空数据值的个数。
stakindN：用于表示后面number、values所表示的数据用途，被用于生成pg_stats。如1则表示是MCV（Most Common Values）的值；2表示直方图（histogram）的值；3表示相关性（correlation）的值等。kind的取值范围：1~99，內核占用；100~199，PostGIS占用；200~299，ESRI ST_Geometry几何系统占用；300~9999，公共占用。
staopN：用于表示该统计值支持的操作，如’=’或’<’等。
stanumbersN：如果是MCV类型（即kind=1），那么这里即是下面对应的stavaluesN出现的概率值，即MCF。
stavaluesN：anyarray类型的数据，內核特殊类型，不可更改。是统计信息的值部分，与kind对应。如kind=2的时候，则这里的值表示直方图。

pg_statistic表将不同的统计类型分为四类，分别用四个字段表示。而pg_stats视图以一种更友好的方式表示pg_statistic的内容，其定义如下：

 SELECT n.nspname AS schemaname, c.relname AS tablename, a.attname, s.stanullfrac AS null_frac, s.stawidth AS avg_width, s.stadistinct AS n_distinct, 
        CASE 1
            WHEN s.stakind1 THEN s.stavalues1
            WHEN s.stakind2 THEN s.stavalues2
            WHEN s.stakind3 THEN s.stavalues3
            WHEN s.stakind4 THEN s.stavalues4
            ELSE NULL::anyarray
        END AS most_common_vals, 
        CASE 1
            WHEN s.stakind1 THEN s.stanumbers1
            WHEN s.stakind2 THEN s.stanumbers2
            WHEN s.stakind3 THEN s.stanumbers3
            WHEN s.stakind4 THEN s.stanumbers4
            ELSE NULL::real[]
        END AS most_common_freqs, 
        CASE 2
            WHEN s.stakind1 THEN s.stavalues1
            WHEN s.stakind2 THEN s.stavalues2
            WHEN s.stakind3 THEN s.stavalues3
            WHEN s.stakind4 THEN s.stavalues4
            ELSE NULL::anyarray
        END AS histogram_bounds, 
        CASE 3
            WHEN s.stakind1 THEN s.stanumbers1[1]
            WHEN s.stakind2 THEN s.stanumbers2[1]
            WHEN s.stakind3 THEN s.stanumbers3[1]
            WHEN s.stakind4 THEN s.stanumbers4[1]
            ELSE NULL::real
        END AS correlation
   FROM pg_statistic s
   JOIN pg_class c ON c.oid = s.starelid
   JOIN pg_attribute a ON c.oid = a.attrelid AND a.attnum = s.staattnum
   LEFT JOIN pg_namespace n ON n.oid = c.relnamespace
  WHERE has_table_privilege(c.oid, 'select'::text);

新建的表没有统计信息。

（3）采样

在为大表计算统计信息时，HAWQ通过对基表采样数据的方式建立一个小表。如果基表是分区表，从全部分区中采样。样本表中的行数取决于由gp_analyze_relative_error系统配置参数指定的最大可接受错误数。该参数的缺省值是0.25（25%）。通常该值已经足够生成正确的查询计划。如果ANALYZE不能产生好的表列估算，可以通过调低该参数值，增加采样的数据量。注意，降低该值可能导致大量的采样数据，并明显增加分析时间。

[gpadmin@hdp3 ~]$ hawq config -s gp_analyze_relative_error
GUC		: gp_analyze_relative_error
Value		: 0.25

（4）统计更新

不带参数运行ANALYZE会更新当前数据库中所有表的统计信息，这可能需要执行很长时间。所以最好分析单个表，在一个表中的数据大量修改后分析该表。也可以选择分析一个表列的子集，例如只分析连接、where子句、sort子句、group by子句、having子句中用到的列。

db1=# analyze t1 (name,category);
ANALYZE

（5）分析分区和AO表

在分区表上运行ANALYZE命令时，它逐个分析每个叶级别的子分区。也可以只在新增或修改的分区文件上运行ANALYZE，避免分析没有变化的分区。
analyzedb命令行应用自动跳过无变化的分区。并且它是多会话并行的，可以同时分析几个分区。缺省运行五个会话，会话数可以通过命令行的-p选项设置，值域为1-10。每次运行analyzedb，它都会将AO表和分区的状态信息保存在master节点中数据目录中的db_analyze目录下，如/data/hawq/master/db_analyze/。下次运行时，analyzedb比较每个表的当前状态与上次保存的状态，不分析没有变化的表或分区。堆表（系统表）总是进行分析。
Pivotal查询优化器需要分区表根级别的统计信息，而老的优化器不使用该统计。通过设置optimizer和optimizer_analyze_root_partition系统配置参数启用Pivotal查询优化器，缺省是启用的。

[gpadmin@hdp3 ~]$ hawq config -s optimizer
GUC		: optimizer
Value		: on
[gpadmin@hdp3 ~]$ hawq config -s optimizer_analyze_root_partition
GUC		: optimizer_analyze_root_partition
Value		: on

每次运行ANALYZE或ANALYZE ROOTPARTITION时，根级别的统计信息被更新。analyzedb应用缺省更新根分区统计。当在父表上使用ANALYZE收集统计信息时，既会收集每个叶子分区的统计信息，又会收集分区表的全局统计信息。生成分区表的查询计划时两个统计信息都需要。如果所有子分区的统计信息都已经更新，ROOTPARTITION选项可用于只收集分区表的全局状态信息，这可以节省分析每个叶子分区所需要的时间。
如果在一个非根分区或非分区表上使用ROOTPARTITION选项，ANALYZE命令将跳过该选项并发出一个警告信息。

db1=# analyze rootpartition t1;
WARNING:  skipping "t1" --- cannot analyze a non-root partition using ANALYZE ROOTPARTITION
ANALYZE
db1=# analyze rootpartition sales;
ANALYZE

3. 统计配置
（1）统计目标
统计目标指的是一个列的most_common_vals、most_common_freqs和histogram_bounds数组的大小。这些数组的含义可以从上面pg_stats视图的定义得到。缺省目标值为25。可以通过设置服务器配置参数修改全局目标值，也可以使用ALTER TABLE命令设置任何表列的目标值。目标值越大，ANALYZE需要的时间越长，但可以提高优化器的评估质量。
default_statistics_target服务器配置参数设置系统缺省的统计目标。缺省值25通常已经足够，只有经过测试确定要定义一个新目标时，才考虑更改此参数的值。
可以通过Ambari Web UI和命令行两种方法修改配置参数值。下面的例子使用hawq config命令行应用将统计目标从25改为50。

以HAWQ管理员（缺省为gpadmin）登录HAWQ的master主机并设置环境。
```
$ source /usr/local/hawq/greenplum_path.sh
```
使用hawq config应用设置default_statistics_target。
```
$ hawq config -c default_statistics_target -v 50
```
重载使配置生效。
```
$ hawq stop cluster -u
```

单个列的统计目标可以用ALTER TABLE命令设置。例如，某些查询可以通过为特定列，尤其是分布不规则的列增加目标值提高性能。如果将一列的目标值设置为0，ANALYZE忽略该列。下面的命令将desc1列的统计目标设置为0，因为该列对于查询优化没有任何作用。

db1=# alter table t1 alter column desc1 set statistics 0;
ALTER TABLE

统计目标可以设置为0到1000之间的值，或者设置成-1，此时恢复使用系统缺省的统计目标值。
父分区表上设置的统计目标影响子分区。如果父表上某列的目标设置为0，所有子分区上的该列统计目标也为0。但是，如果以后增加或者交换了其它子分区，新增的子分区将使用缺省目标值，交换的子分区使用以前的统计目标。因此如果增加或交换了子分区，应该在新的子分区上设置统计目标。

（2）自动收集统计信息

如果一个表没有统计信息，或者在表上执行的特定操作改变了大量的数据时，HAWQ可以在表上自动运行ANALYZE。对于分区表，自动统计收集仅当直接操作叶表时被触发，它仅分析叶表。
自动收集统计信息有三种模式：

none：禁用自动收集。
on_no_stats：在一个没有统计信息的表上执行CREATE TABLE AS SELECT、INSERT、COPY命令时触发分析操作。
on_change：在表上执行CREATE TABLE AS SELECT、INSERT、COPY命令，并且影响的行数超过了gp_autostats_on_change_threshold配置参数设定的阈值时触发分析操作。

依据CREATE TABLE AS SELECT、INSERT、COPY这些命令是单独执行，还是在函数中执行，自动收集统计信息模式的设置方法也不一样。如果是在函数外单独执行，gp_autostats_mode配置参数控制统计模式，缺省值为on_no_stats。

[gpadmin@hdp3 ~]$ hawq config -s gp_autostats_mode
GUC		: gp_autostats_mode
Value		: ON_NO_STATS

on_change模式仅当影响的行数超过gp_autostats_on_change_threshold配置参数设置的阈值时触发ANALYZE，该参数的缺省值为2147483647。

[gpadmin@hdp3 ~]$ hawq config -s gp_autostats_on_change_threshold
GUC		: gp_autostats_on_change_threshold
Value		: 2147483647

on_change模式可能触发不希望的大的分析操作，严重的会使系统中断，因此不推荐在全局修改该参数，但可以在会话级设置，例如装载数据后自动分析。
为了禁用函数外部的自动统计收集，设置gp_autostats_mode参数为none。例如：

$ hawq configure -c gp_autostats_mode -v none

如果想记录自动统计收集操作的日志，可以设置log_autostats系统配置蚕食参数为on。

你可能感兴趣的:(BI)

Linux下RabbitMQ集群安装长腿帅哥 Linux 操作手册 rabbitmq linux
一、环境准备(all)1.下载rabbitmq、erlang包查看两者对应的版本号RabbitMQErlangVersionRequirements—RabbitMQerlang：otp_src_24.2.tar.gzrabbitmq：rabbitmq-server-generic-unix-3.10.5.tar.xzIP：192.168.255.150、192.168.255.151、192.1
Solidity学习 - ABI 应用二进制接口本郡主是喵 #Solidity 学习区块链 Solidity
文章目录一、ABI基础概念1.ABI与API的区别2.ABI的核心作用二、ABI接口描述1.编译后的产物2.ABIJSON格式示例3.ABIJSON关键字段说明三、ABI编码1.编码示例2.编码数据的组成3.Solidity中的编码函数四、ABI解码1.解码的基本概念2.事件日志的解码五、ABI编解码可视化工具一、ABI基础概念1.ABI与API的区别API（应用程序接口）：是两个软件之间进行通信
【节假日】通过开放Api获取节假日数据并保存到json文件 Leslie_Lei #随笔 json java 节日
目录依赖节假日数据返回结果类工具类依赖com.fasterxml.jackson.corejackson-databindcom.google.code.gsongson2.8.6cn.hutoolhutool-all5.8.18org.projectlomboklombok节假日数据返回结果类HolidayResponseimportcom.fasterxml.jackson.annotatio
概率密度基本概念 Summer_Anny 概率论
概率密度（ProbabilityDensity）是概率论中用于描述随机变量分布的一种方式，特别适用于连续随机变量。它并不是一个概率值，而是表示单位范围内的概率大小或“浓度”。更具体地说，概率密度表示在某个特定值附近，随机变量可能取到某个值的相对可能性。概率密度的几个关键点：概率密度与概率的关系：概率密度函数（PDF）本身并不能直接给出某个特定值发生的概率。因为对于连续随机变量，单一值的概率是零。然
票星球协议抢票破盾3300 DS网络票星球协议抢票数据库 java 服务器
源码下载地址：https://www.123912.com/s/8j6Wjv-bINYd抢票之前会有验证在1分钟，会跳出一个验证来识别你是否是真人，他会弹出一个图片需要打码平台进行识别提交提交进去他会返回一个值xxx值token购票持票人showid提交订单等等各种信息{"statusCode":33000000,"errorCode":"","comments":"正在为您自动尝试","actT
Python HTTP日志分析：Nginx/Apache日志的Python解析华科℡云网络协议负载均衡运维
Web服务器日志是监控流量模式、性能瓶颈及安全威胁的关键数据源。Python凭借其丰富的库生态，可高效解析Nginx与Apache的日志格式，实现结构化数据提取与分析。日志格式解析基础Nginx默认采用combined格式，字段包括：$remote_addr（客户端IP）、$time_local（时间戳）、$request（请求方法+URL+协议）、$status（HTTP状态码）、$body_b
基于MySQL的分布式锁实现（Spring Boot + MyBatis） weixin_43833540 mysql 分布式 spring boot
基于MySQL的分布式锁实现（SpringBoot+MyBatis）实现原理基于数据库的唯一索引特性实现分布式锁，通过插入唯一索引记录表示获取锁，删除记录表示释放锁。1.创建锁表首先需要在MySQL中创建一个锁表，用于存储锁信息：CREATETABLE`distributed_lock`(`id`bigint(20)NOTNULLAUTO_INCREMENT,`lock_key`varchar(6
HTTP服务器监控 weixin_34321753 php awk
HTTP服务器监控#!/bin/shLANG=C#被监控服务器、端口列表server_all_list=(\192.168.1.1:80\192.168.1.2:80\192.168.1.3:80\)date=$(date-d"today"+"%Y-%m-%d_%H:%M:%S")#采用HTTPPOST方式发送检测信息给接口程序interface.php，接口程序负责分析信息，决定是否发送报警MS
PAT A 1043 Is It a Binary Search Tree cwn_ 算法 c++数据结构图论
ABinarySearchTree(BST)isrecursivelydefinedasabinarytreewhichhasthefol‐lowingproperties:•Theleftsubtreeofanodecontainsonlynodeswithkeyslessthanthenode’skey.•Therightsubtreeofanodecontainsonlynodeswithk
Host '*' is not allowed to connect to this MariaDB server weixin_34358365 数据库 python
2019独角兽企业重金招聘Python工程师标准>>>MYSQL权限问题原因：安装MySQL时没有勾选“Enablerootaccessfromremotemachines”如何开启MySQL的远程帐号-1）首先以root帐户登陆MySQL在Windows主机中点击开始菜单，运行，输入“cmd”，进入控制台，然后cd进入MySQL的bin目录下，然后输入下面的命令。>MySQL-uroot-p12
JAVA LIST＜Long＞快速转LIST＜String＞ LeeShaoQing java 学习 java
偶然间发现一个问题，获取List传给前端，拿到的值最后两位变成了00。这是因为当Long过长时，到前端数据拉取后几位可能会自动变成0，所以要先处理成String发给前端。ListbindingList=systemSiteExpensesConfigService.getBindingServiceType(bindingServiceTypeDTO);Liststrings=bindingLis
稳定币技术全解：从货币锚定机制到区块链金融基础设施 Ashlee_guweng22346 游戏区块链金融架构人工智能自动化 java
引言：稳定币的技术定位根据国际清算银行（BIS）2025年定义：稳定币是以法定资产或算法机制维持价值稳定的区块链代币，其本质是传统金融与加密技术的接口层。核心价值：解决加密货币波动性问题→成为DeFi生态的计价基准与结算工具第一章技术原理：稳定币如何实现“稳定”？1.1锚定机制的三类技术路径graphTBA[稳定币类型]-->B[法币储备型]A-->C[加密资产抵押型]A-->D[算法调控型]B-
5、旋转与自适应布局：iOS应用开发的关键 c7d8e9 8 SDK入门 iOS开发自适应布局旋转处理
旋转与自适应布局：iOS应用开发的关键1.旋转和自适应布局的重要性iPhone和iPad是令人惊叹的工程杰作。苹果的工程师们找到了各种方法，将最大功能压缩进一个小巧的包装里。其中一个例子就是这些设备可以以纵向（高而窄）或横向（短而宽）模式使用，而且这种方向可以在运行时通过简单旋转设备来改变。你可以在iOS的网页浏览器MobileSafari中看到这种被称为自动旋转的行为示例。像许多iOS应用程序一
Xcode26新特性与iOS26适配指南 BianHuanShiZhe ios mac
Xcode26新特性在WWDC25上Apple推出了Xcode26，相比较Xcode16，它有如下的变化。项目安装包更小，其他组件与工具链只有在需要时才会下载。设置界面重新设计，菜单从顶部挪到了左侧，其中Accounts改名为AppleAccounts，TextEditing改名为Editing，KeyBindings改名为Shortcuts，同时增加了菜单Notifications。模拟器运行时
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
修复opensuse 风滚草rabbitmq的Error: :plugins_dir_does_not_exist问题翻滚吧键盘 openSUSE rabbitmq chrome ruby
https://wiki.archlinux.org/title/Talk:RabbitMQ报错yqh@192/u/l/r/l/r/plugins>sudorabbitmq-pluginsenablerabbitmq_managementError::plugins_dir_does_not_existArgumentsgiven:enablerabbitmq_managementUsagerab
python：pydub模块 face丶第三方模块音频 pydub
一、安装1、安装模块pipinstallpydub2、安装插件云盘中下载文件ffmpeg打开电脑上的控制面板-系统-高级系统设置-环境变量然后双击path,看到如下的界面：然后点新建会出现一个新建的地址栏，你需要在这个新建地址栏里输入一个文件地址：打开你下载的ffmpeg文件中的bin文件，你应该可以看到一个这样的界面，把这个界面中地址栏中的地址复制粘贴到上面图片新建的地址栏中，然后点确定，来保存
DeLorean联手Sui网络推出最新区块链订车,XBIT平台xaut今日价格行情飙升引热议 caijingshiye 区块链
币界网6月24日讯,全球豪华汽车领域迎来颠覆性变革!DeLorean汽车公司今日宣布,基于SuiNetwork打造的全球首个区块链汽车预订市场正式上线,用户可通过加密货币直接预订其旗舰电动跑车Alpha5,并在等待交付期间通过质押资产赚取收益。这一创新模式不仅解决了传统汽车预订的退款难、周期长等痛点,更将区块链技术的透明性与金融属性深度融合。受此消息刺激,去中心化交易所XBIT平台上的黄金稳定币x
Spring Cloud Ribbon核心负载均衡算法详解代码的余温 spring cloud ribbon 负载均衡
Ribbon作为SpringCloud生态中的客户端负载均衡工具，提供多种动态负载均衡算法，根据后端服务状态智能分配请求。其核心算法及适用场景如下：一、Ribbon负载均衡算法算法名称工作原理引用来源轮询(RoundRobinRule)按服务列表顺序依次分发请求，实现均匀分摊负载随机(RandomRule)从可用服务列表中随机选择一个实例处理请求加权响应时间(WeightedResponseTim
2015 United Kingdom and Ireland Programming Contest (UKIEPC 2015) Owen_Q 数学字符串模拟
2015年的icpc英国站，不到一百只过题队伍，可以算是icpc在英国刚起步的时候。ProblemBMountainBiking思路：作为本场的签到题，读懂题意之后，这题倒是更像一道数学题。给定n个坡面的角度，求解到达坡道底端的速度利用经典力学动力学公式即可直接求出./*AuthorOwen_Q*/#includeusingnamespacestd;typedeflonglongll;consti
微信小程序节点相关总结
微信小程序节点事件总结bindtap、catchtap、bindclick的区别？`bindclick`和`bindtap`的区别在于：e.target和e.currentTargete.typee.timeStamp触摸事件属性（针对触摸类事件）坐标信息事件绑定数据冒泡与捕获相关其他特殊属性**常见事件类型及特有属性****总结**bindtap、catchtap、bindclick的区别？bi
Java-数组拆分季秋99 java
每日一题2022.11.6Java-数组拆分给定长度为2n的整数数组nums，你的任务是将这些数分成n对,例如(a1,b1),(a2,b2),…,(an,bn)，使得从1到n的min(ai,bi)总和最大。返回该最大总和。示例1：输入：nums=[1,4,3,2]输出：4解释：所有可能的分法（忽略元素顺序）为：(1,4),(2,3)->min(1,4)+min(2,3)=1+2=3(1,3),(2
selenium元素等待及滚动条滚动测试也算程序员？ selenium python 测试工具单元测试测试用例压力测试功能测试
selenium三大等待，sleep（强制）、implicitlyWait（隐式等待）、WebDriverWait（显式等待），主要记一下最后面的WebDriverWait。WebDriverWait是三大等待中最常用也是最好用的一种等待方式，比起另外两种而言，B格更高、更智能。写法为：#WebDriverWait(driver,等待总时长,查询间隔时间).until(EC.visibility_
微信小程序出现冒泡问题的原因和解决方法天和都成微信小程序微信小程序
微信小程序中的冒泡问题通常由事件冒泡机制引发，即子组件触发的事件会逐级向上传播至父组件。以下是其原因分析及解决方法：一、冒泡问题的原因事件冒泡机制微信小程序中，冒泡事件（如tap、longtap、touchstart等）默认会从触发事件的子组件向上传播至父组件。例如，若子组件和父组件均绑定了bindtap事件，点击子组件时会依次触发子组件和父组件的事件处理函数。事件绑定方式不当使用bind绑定事件
mcu secure boot 设计（一、Flash layout） lwz070 单片机嵌入式硬件
Flashlayout此flash为MCU内部flash，需要硬件保护，防篡改和读取。1.PBL:为bootloader代码pbl中不支持远程升级，仅在APP中支持远程。pbl中可以支持uart和can协议升级。2.globalstate:{runflag//1:runimageA,2:runimageBImageAsecuritypassflag//1:pass,2:failImageBsecu
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解汀、人工智能 LLM工业级落地实践人工智能 LLM 自然语言处理 NL2SQL 大模型应用 Text2SQL gpt
NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源应用实践详解NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理1.MindSQL(库)MindSQL是一
vue3 添加onShow,每次显示都执行萧大侠jdeps 前端 vue.js javascript
vue3的生命周期没有onShow,uniapp有提供onShow.有时候我们希望用户离开在回到页面时，把他最关心的可能变化比较平繁的数据刷新出来。constonShow=()=>{//这里执行刷新}onMounted(()=>{initData();document.addEventListener('visibilitychange',onShow);});onUnmounted(()=>{d
8、做中学 | 四年级下期 Golang运算符
运算符：在程序中扮演执行数学、逻辑运算的过程一、算术运算符数学运算使用到的运算符运算符描述实例+相加A+B输出结果30-相减A-B输出结果-10*相乘A*B输出结果200/相除B/A输出结果2%求余B%A输出结果0++自增A++输出结果11–自减A--输出结果9//运算符varaint=10varbint=20varcint//+运算c=a+bfmt.Println("c=",c)//30//-c
BTC官网关注巨鲸12亿美元平仓，XBIT去中心化交易平台表现稳定
在全球加密货币市场波动加剧的背景下，2025年5月25日传出重磅消息。据今日最新国际报道，知名巨鲸JamesWynn完全平仓价值12亿美元的BTC多头仓位，整体盈利约845万美元，此举引发市场广泛关注。与此同时，收益型稳定币市场迎来爆发式增长，去中心化交易所平台在市场动荡中展现出卓越的稳定性和抗风险能力。巨鲸大举平仓，市场信号值得关注今日中午，币界网监控显示，加密货币市场出现重要变化。知名巨鲸投资
【赵渝强老师】OceanBase OBServer节点的目录结构
OceanBaseOBServer节点工作目录下通常有audit、bin、etc、etc2、etc3、log、run、store等目录，但这些目录并非都是安装必须的。在启动OBServer节点前需要保证etc、log、run、store这4的目录存在，同时store下应该有clog、slog、sstable这3个目录。etc2、etc3是备份配置文件用的，由OBServer节点创建。audit下存
多线程编程之理财周凡杨 java 多线程生产者消费者理财
现实生活中，我们一边工作，一边消费，正常情况下会把多余的钱存起来，比如存到余额宝，还可以多挣点钱，现在就有这个情况：我每月可以发工资20000万元（暂定每月的1号），每月消费5000（租房+生活费）元（暂定每月的1号），其中租金是大头占90%，交房租的方式可以选择（一月一交，两月一交、三月一交），理财：1万元存余额宝一天可以赚1元钱，
[Zookeeper学习笔记之三]Zookeeper会话超时机制 bit1129 zookeeper
首先，会话超时是由Zookeeper服务端通知客户端会话已经超时，客户端不能自行决定会话已经超时，不过客户端可以通过调用Zookeeper.close()主动的发起会话结束请求，如下的代码输出内容 Created /zoo-739160015 CONNECTEDCONNECTED .............CONNECTEDCONNECTED CONNECTEDCLOSEDCLOSED
SecureCRT快捷键 daizj secureCRT 快捷键
ctrl + a : 移动光标到行首ctrl + e ：移动光标到行尾crtl + b: 光标前移1个字符crtl + f: 光标后移1个字符crtl + h : 删除光标之前的一个字符ctrl + d ：删除光标之后的一个字符crtl + k ：删除光标到行尾所有字符crtl + u : 删除光标至行首所有字符crtl + w: 删除光标至行首
Java 子类与父类这间的转换周凡杨 java 父类与子类的转换
最近同事调的一个服务报错，查看后是日期之间转换出的问题。代码里是把 java.sql.Date 类型的对象强制转换为 java.sql.Timestamp 类型的对象。报java.lang.ClassCastException。代码：
可视化swing界面编辑朱辉辉33 eclipse swing
今天发现了一个WindowBuilder插件，功能好强大，啊哈哈，从此告别手动编辑swing界面代码，直接像VB那样编辑界面，代码会自动生成。首先在Eclipse中点击help，选择Install New Software,然后在Work with中输入WindowBui
web报表工具FineReport常用函数的用法总结（文本函数）老A不折腾 finereport web报表工具报表软件 java报表
文本函数 CHAR CHAR(number):根据指定数字返回对应的字符。CHAR函数可将计算机其他类型的数字代码转换为字符。 Number:用于指定字符的数字，介于1Number:用于指定字符的数字，介于165535之间（包括1和65535）。示例: CHAR(88)等于“X”。 CHAR(45)等于“-”。 CODE CODE(text):计算文本串中第一个字
mysql安装出错林鹤霄 mysql安装
[root@localhost ~]# rpm -ivh MySQL-server-5.5.24-1.linux2.6.x86_64.rpm Preparing... #####################
linux下编译libuv aigo libuv
下载最新版本的libuv源码，解压后执行： ./autogen.sh 这时会提醒找不到automake命令，通过一下命令执行安装（redhat系用yum，Debian系用apt-get）： # yum -y install automake # yum -y install libtool 如果提示错误：make: *** No targe
中国行政区数据及三级联动菜单 alxw4616
近期做项目需要三级联动菜单,上网查了半天竟然没有发现一个能直接用的! 呵呵,都要自己填数据....我了个去这东西麻烦就麻烦的数据上. 哎,自己没办法动手写吧. 现将这些数据共享出了,以方便大家.嗯,代码也可以直接使用文件说明 lib\area.sql -- 县及县以上行政区划分代码（截止2013年8月31日)来源：国家统计局发布时间：2014-01-17 15:0
哈夫曼加密文件百合不是茶哈夫曼压缩哈夫曼加密二叉树
在上一篇介绍过哈夫曼编码的基础知识,下面就直接介绍使用哈夫曼编码怎么来做文件加密或者压缩与解压的软件,对于新手来是有点难度的,主要还是要理清楚步骤; 加密步骤: 1,统计文件中字节出现的次数,作为权值 2,创建节点和哈夫曼树 3,得到每个子节点01串 4,使用哈夫曼编码表示每个字节
JDK1.5 Cyclicbarrier实例 bijian1013 java thread java多线程 Cyclicbarrier
CyclicBarrier类一个同步辅助类，它允许一组线程互相等待，直到到达某个公共屏障点 (common barrier point)。在涉及一组固定大小的线程的程序中，这些线程必须不时地互相等待，此时 CyclicBarrier 很有用。因为该 barrier 在释放等待线程后可以重用，所以称它为循环的 barrier。 CyclicBarrier支持一个可选的 Runnable 命令，
九项重要的职业规划 bijian1013 工作学习
一. 学习的步伐不停止古人说，活到老，学到老。终身学习应该是您的座右铭。世界在不断变化，每个人都在寻找各自的事业途径。您只有保证了足够的技能储
【Java范型四】范型方法 bit1129 java
范型参数不仅仅可以用于类型的声明上，例如 package com.tom.lang.generics; import java.util.List; public class Generics<T> { private T value; public Generics(T value) { this.value =
【Hadoop十三】HDFS Java API基本操作 bit1129 hadoop
package com.examples.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoo
ua实现split字符串分隔 ronin47 lua split
LUA并不象其它许多"大而全"的语言那样，包括很多功能，比如网络通讯、图形界面等。但是LUA可以很容易地被扩展：由宿主语言(通常是C或 C++)提供这些功能，LUA可以使用它们，就像是本来就内置的功能一样。LUA只包括一个精简的核心和最基本的库。这使得LUA体积小、启动速度快，从而适合嵌入在别的程序里。因此在lua中并没有其他语言那样多的系统函数。习惯了其他语言的字符串分割函
java-从先序遍历和中序遍历重建二叉树 bylijinnan java
public class BuildTreePreOrderInOrder { /** * Build Binary Tree from PreOrder and InOrder * _______7______ / \ __10__ ___2 / \ / 4
openfire开发指南《连接和登陆》开窍的石头 openfire 开发指南 smack
第一步官网下载smack.jar包下载地址：http://www.igniterealtime.org/downloads/index.jsp#smack 第二步把smack里边的jar导入你新建的java项目中开始编写smack连接openfire代码 p
[移动通讯]手机后盖应该按需要能够随时开启 comsci 移动
看到新的手机，很多由金属材质做的外壳，内存和闪存容量越来越大，CPU速度越来越快，对于这些改进，我们非常高兴，也非常欢迎但是，对于手机的新设计，有几点我们也要注意第一：手机的后盖应该能够被用户自行取下来，手机的电池的可更换性应该是必须保留的设计,
20款国外知名的php开源cms系统 cuiyadll cms
内容管理系统，简称CMS，是一种简易的发布和管理新闻的程序。用户可以在后端管理系统中发布，编辑和删除文章，即使您不需要懂得HTML和其他脚本语言，这就是CMS的优点。在这里我决定介绍20款目前国外市面上最流行的开源的PHP内容管理系统，以便没有PHP知识的读者也可以通过国外内容管理系统建立自己的网站。 1. Wordpress WordPress的是一个功能强大且易于使用的内容管
Java生成全局唯一标识符 darrenzhu java uuid unique identifier id
How to generate a globally unique identifier in Java http://stackoverflow.com/questions/21536572/generate-unique-id-in-java-to-label-groups-of-related-entries-in-a-log http://stackoverflow
php安装模块检测是否已安装过, 使用的SQL语句 dcj3sjt126com sql
SHOW [FULL] TABLES [FROM db_name] [LIKE 'pattern'] SHOW TABLES列举了给定数据库中的非TEMPORARY表。您也可以使用mysqlshow db_name命令得到此清单。本命令也列举数据库中的其它视图。支持FULL修改符，这样SHOW FULL TABLES就可以显示第二个输出列。对于一个表，第二列的值为BASE T
5天学会一种 web 开发框架 dcj3sjt126com Web 框架 framework
web framework层出不穷，特别是ruby/python,各有10+个,php/java也是一大堆根据我自己的经验写了一个to do list,按照这个清单，一条一条的学习，事半功倍，很快就能掌握一共25条，即便很磨蹭，2小时也能搞定一条，25*2=50。只需要50小时就能掌握任意一种web框架各类web框架大同小异:现代web开发框架的6大元素，把握主线，就不会迷路建议把本文
Gson使用三(Map集合的处理,一对多处理) eksliang json gson Gson map Gson 集合处理
转载请出自出处：http://eksliang.iteye.com/blog/2175532 一、概述 Map保存的是键值对的形式，Json的格式也是键值对的，所以正常情况下，map跟json之间的转换应当是理所当然的事情。二、Map参考实例 package com.ickes.json; import java.lang.refl
cordova实现“再点击一次退出”效果 gundumw100 android
基本的写法如下： document.addEventListener("deviceready", onDeviceReady, false); function onDeviceReady() { //navigator.splashscreen.hide(); document.addEventListener("b
openldap configuration leaning note iwindyforest configuration
hostname // to display the computer name hostname <changed name> // to change go to: /etc/sysconfig/network, add/modify HOSTNAME=NEWNAME to change permenately dont forget to change /etc/hosts
Nullability and Objective-C 啸笑天 Objective-C
https://developer.apple.com/swift/blog/?id=25 http://www.cocoachina.com/ios/20150601/11989.html http://blog.csdn.net/zhangao0086/article/details/44409913 http://blog.sunnyxx
jsp中实现参数隐藏的两种方法 macroli JavaScript jsp
在一个JSP页面有一个链接，//确定是一个链接?点击弹出一个页面，需要传给这个页面一些参数。//正常的方法是设置弹出页面的src="***.do?p1=aaa&p2=bbb&p3=ccc"//确定目标URL是Action来处理?但是这样会在页面上看到传过来的参数，可能会不安全。要求实现src="***.do"，参数通过其他方法传！//////
Bootstrap A标签关闭modal并打开新的链接解决方案 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
Bootstrap里面的js modal控件使用起来很方便，关闭也很简单。只需添加标签 data-dismiss="modal" 即可。可是偏偏有时候需要a标签既要关闭modal，有要打开新的链接，尝试多种方法未果。只好使用原始js来控制。 <a href="#/group-buy" class="btn bt
二维数组在Java和C中的区别流淚的芥末 java c 二维数组数组
Java代码： public class test03 { public static void main(String[] args) { int[][] a = {{1},{2,3},{4,5,6}}; System.out.println(a[0][1]); } } 运行结果： Exception in thread "mai
systemctl命令用法 wmlJava linux systemctl
对比表，以 apache / httpd 为例任务旧指令新指令使某服务自动启动 chkconfig --level 3 httpd on systemctl enable httpd.service 使某服务不自动启动 chkconfig --level 3 httpd off systemctl disable httpd.service 检查服务状态 service h