liuzhilongDBA

PostgreSQL本地化

本地化的概念

本地化的目的是支持不同国家、地区的语言特性、规则。比如拥有本地化支持后，可以使用支持汉语、法语、日语等等的字符集。除了字符集以外，还有字符排序规则和其他语言相关规则的支持，例如我们知道(‘a’,‘b’)该如何排序，那么(‘a’,‘A’)和(‘啊’,‘阿’)又该如何排序？
如果通过google去搜本地化、字符集、collation相关信息，可能会得到一些复杂又遥远的知识。最好的老师还是

本地化知识点总共分为3个部分：locale本地化支持、collation校验、字符集。

locale

pg的本地化由由操作系统提供，需要检查操作系统是否支持locale -a。在初始化数据库时可指定locale

initdb --locale=en_US

也可以单独设置本地化子类：字符串排序、字符归类方法、数值格式、日期格式、时间格式、货币格式等

initdb --locale=zh_CN --lc-monetary=en_US

所有本地化子类：

本地化子类	规则
LC_COLLATE	String sort order
LC_CTYPE	Character classification (What is a letter? Its upper-case equivalent?)
LC_MESSAGES	Language of messages
LC_MONETARY	Formatting of currency amounts
LC_NUMERIC	Formatting of numbers
LC_TIME	Formatting of dates and times

这些子类又可以分为两部分，其中lc_messages，lc_monetary，lc_numeric，lc_time在初始化后，可以通过参数进行调整。LC_COLLATE，LC_CTYPE属于collation，详见collation的调整。
locale设置会影响如下行为：

Sort order in queries using ORDER BY or the standard comparison operators on textual data
The upper, lower, and initcap functions
Pattern matching operators (LIKE, SIMILAR TO, and POSIX-style regular expressions); locales affect both case insensitive matching and the classification of characters by character-class regular expressions
The to_char family of functions
The ability to use indexes with LIKE clauses

COLLATION

collation是字符排序的顺序和字符分类行为。一些数据库操作符依赖collation，比如order by、lower, upper、initcap 、to_char等等。
使用如下SQL查询系统表pg_collation，来获取字符集支持的LC_COLLATE和LC_CTYPE信息

 select pg_encoding_to_char(collencoding) as encoding,collname,collcollate,collctype from pg_collation where collname in ('default','C','POSIX','en_US.utf8','zh_CN.utf8','zh_CN.gb2312','zh_SG.gb2312') ;
 encoding |   collname   | collcollate  |  collctype   
----------+--------------+--------------+--------------
          | default      |              | 
          | C            | C            | C
          | POSIX        | POSIX        | POSIX
 UTF8     | en_US.utf8   | en_US.utf8   | en_US.utf8
 EUC_CN   | zh_CN.gb2312 | zh_CN.gb2312 | zh_CN.gb2312
 UTF8     | zh_CN.utf8   | zh_CN.utf8   | zh_CN.utf8
 EUC_CN   | zh_SG.gb2312 | zh_SG.gb2312 | zh_SG.gb2312

encoding是字符集，collname为collation的名字

encoding 为空时，表示这个 collation 支持所有的字符集
default, C, POSIX是所有平台都支持的collation，由libc提供，其他collation取决于操作系统是否支持(locale -a)
default表示使用建库时的collation，可通过\l查看
C语义上等价于POSIX，但是PG仍然认为他们是不同的collation。他们的字符都以ASCII码对比，严格按照字节序比对大小。

=> SELECT 'a' COLLATE "C" < 'b'  COLLATE "POSIX" ;
ERROR:  42P21: collation mismatch between explicit collations "C" and "POSIX"
LINE 1: SELECT 'a' COLLATE "C" < 'b'  COLLATE "POSIX" ;
LOCATION:  merge_collation_state, parse_collate.c:834

UTF8是最常见的字符集，我们最常见的语言环境是en_US和zh_CN
可以通过CREATE COLLATION ...创建自定义的collation。不过LC_COLLATE和LC_CTYPE不同的情况非常少见

LC_COLLATE

LC_COLLATE影响字符比对（排序、字符操作等等）
collate子句可以转化表达式的collation：

expr COLLATE collation

注意这里指定的是collation，不是lc_collate。如果没有显示指定collation，数据库默认使用字段的collation，如果字段没有指定collation，使用database的默认collation。

不同的collation排序测试：

 select col1 from (values ('a'), ('A'), ('啊'), ('阿')) 
->  AS l(col1)
-> order by col1 collate "C";
 col1 
------
 A
 a
 啊
 阿
 select col1 from (values ('a'), ('A'), ('啊'), ('阿')) 
->  AS l(col1)
-> order by col1 collate "en_US.utf8";
 col1 
------
 a
 A
 啊
 阿
  select col1 from (values ('a'), ('A'), ('啊'), ('阿')) 
->  AS l(col1)
-> order by col1 collate "zh_CN.utf8";
 col1 
------
 a
 A
 阿
 啊

这3个不同的collation有不同的lc_collate，排序方法应该是不一样的，从结果来看确实是不一样的，出现了3种排序结果。
collation C为什么A
collation C使用的ASCII的编码顺序，ASCII码中大写在小写前面。而en_US.utf8和zh_CN.utf8的英文字母明显不是这个顺序
中文的顺序
同样是utf8字符集，中文环境和英文环境的中文顺序不一样。不同的lc_collate对于不同本地化语言，应该都可以对应到不同的alphabets。其中，lc_collate=C的排序一定是按字节序排的，虽然ASCII没有中文，但是C也可以排序中文，（基本）每个中文都可以对应UTF8的一个编码，而C以其字节序排序。

LC_CTYPE

LC_CTYPE影响字符操作（如upper、initcap等）
如果字符串都是英文，比如是’abcD’，initcap在3种collation下都会转换为’Abcd’，这里不多展示了。
但是加入中文，结果就不一样了：

select initcap('啊aAAa阿bBBb' collate "C"); initcap -------------- 啊Aaaa阿Bbbb select initcap('啊aAAa阿aAAa' collate "en_US.utf8"); initcap -------------- 啊aaaa阿aaaa select initcap('啊aAAa阿aAAa' collate "zh_CN.utf8"); initcap -------------- 啊aaaa阿aaaa

LC_CTYPE=C时，initcap把每个非连续英文字符串的首字母大写，而en_US.utf8和zh_CN.utf8只会将首个字符大写（中文就不会变），其他英文字符小写。
initcap中文也许处于需求不明的状况，但是我们可以得出结论：不同的LC_CTYPE会导致initcap等字符敏感函数结果不一样。
另外，中文对于大小写不敏感，一些其他本地化语言同样有大小写，不同的LC_CTYPE导致的结果会更复杂。

字符集

字符集基础

PostgreSQL支持不同的字符集character sets（也叫encodings）。字符集于collation是两个概念，但是字符集必须跟LC_CTYPE，LC_COLLATE兼容。就像在pg_collation中看到的那样，C/POSIX支持所有字符集，而其他collation只支持一种字符集（linux系统中）。

PostgreSQL中文相关可用的字符集：
(*collation C由libc库提供，部分collation可以由ICU库提供，需提前编译)

Name Description Language Server端是否支持? ICU是否支持? Bytes/Char Aliases

BIG5 Big Five 繁体中文 No No 1–2 WIN950, Windows950

EUC_CN Extended UNIX Code-CN 简体中文 Yes Yes 1–3 GB2312

GB18030 National Standard 中文 No No 1–4

GBK Extended National Standard 简体中文 No No 1–2 WIN936, Windows936

UTF8 Unicode, 8-bit all Yes Yes 1–4 Unicode

繁体中文：
BIG5是最常见的繁体中文字符集标准。之前是业界标准，后来被录入为国家标准。
简体中文：
GB是国标的意思，GB2312、GB18030、GBK都是我国的国家字符集标准。由于生僻字等问题，并经过多年发展产生了一些历史版本，所以标准看上去有多个。
其中EUC_CN全称为 Extended UNIX Code-CN ，其实就是GB2312，但它也不能处理所有罕见字。类似命名的还有EUC_KR,EUC_JP,EUC_TW等等。
国际标准：
上面的字符集都是国家标准，他们除了支持英、中外不支持其他语言。而国际标准支持世界上所有语言，这就是unicode国际编码标准(甚至emoji也包含其中 )。（还有个著名的国际标准组织ISO也在维护字符集，他俩有交集，这里先忽略ISO）。
由于Unicode编码方案的不同又有UTF-8、UTF-16、UTF-32三种编码方式。

UTF-8编码格式:

字节格式实际编码位码点范围

1字节 0xxxxxxx 7 0 ~ 127

2字节 110xxxxx 10xxxxxx 11 128 ~ 2047

3字节 1110xxxx 10xxxxxx 10xxxxxx 16 2048 ~ 65535

4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 21 65536 ~ 2097151

UTF8编码是变长的。
0x00-0x7F之间的字符(1字节），UTF-8编码与ASCII（American Standard Code for Information Interchange 美国标准信息交换代码）编码完全相同，所以UTF-8是完全兼容ASCII的。
由于同源、同义、相似性，在unicode中中日韩越使用了同一编码，称为中日韩统一表意文字（或称中日韩越统一表意文字）。
中日韩统一表意文字编码范围为：3400-4DBF/4E00-9FFF/20000-3FFFF

字符集转换

server_encoding与client_encoding不一致，可发生自动转换Server查出来的字符集。设置服务端字和客户端字符集参考设置字符集一节。
中文相关字符集Server/Client可转化表：

Server Character Set Available Client Character Sets

BIG5 not supported as a server encoding

EUC_CN（GB2312） EUC_CN（GB2312）, MULE_INTERNAL, UTF8

GB18030 not supported as a server encoding

GBK not supported as a server encoding

UTF8 all supported encodings

GB18030，GBK服务端都不支持，所以其实只有EUC_CN（GB2312）、UTF8能在Server/Client转换。

以上是可以转换的字符集，仍需要CONVERSATION的支持。PG内置了一些转换函数，可通过pg_conversion查看：

Conversion Name Source Encoding Destination Encoding

big5_to_utf8 BIG5 UTF8

euc_cn_to_utf8 EUC_CN UTF8

gb18030_to_utf8 GB18030 UTF8

gbk_to_utf8 GBK UTF8

utf8_to_big5 UTF8 BIG5

utf8_to_euc_cn UTF8 EUC_CN

utf8_to_gb18030 UTF8 GB18030

utf8_to_gbk UTF8 GBK

可通过create conversation语句创建自定义的转换，需指定转换的function。
有些字符集间看上去可以转换，但是server端根本不支持存储这些字符集（如big5、gb18030、gbk），所以也没啥用。我们这里仅需要知道euc_cn和utf8能相互转换就可以了。
没有CONVERSATION是不能发生转换的：

--EUC_CN的database => \encoding EUC_KR EUC_KR: invalid encoding name or conversion procedure not found

字符集转换测试：
需要注意客户端的字符集设置（如CRT的 “session”-“Appearance”-“Character encoding”）
至少有3个端有字符集的概念：数据库server、数据库client、UI客户端。CONVERSATION也只能控制：数据库server -> 数据库client
1.server为UTF8的转换测试：

create table zh(col1 varchar(20)); insert into zh values('>'),('阿'),('〇'); --〇 ling是一个中文 --CRT不设置为UTF8中文全是乱码，只有CRT设置UTF8来插入 => show server_encoding; server_encoding ----------------- UTF8 => show client_encoding; client_encoding ----------------- UTF8 --完全没有转换的情况下，UTF8正常展示。此时3端字符集为：UTF8 - UTF8 - UTF8 => select * from zh; col1 ------ > 阿〇 --切换数据库client字符集，此时3端字符集为：UTF8 - EUC_CN - UTF8 => \encoding EUC_CN; --设置客户端字符集 => select * from zh where col1 in ('阿'); ERROR: 22021: invalid byte sequence for encoding "EUC_CN": 0xe9 0x98 LOCATION: report_invalid_encoding, mbutils.c:1597 Time: 0.112 ms => select * from zh where col1 in ('〇'); ERROR: 22021: invalid byte sequence for encoding "EUC_CN": 0xe3 0x80 ERROR: 22021: invalid byte sequence for encoding "EUC_CN": 0xe3 0x80 --“阿”和“〇”看上去不能转换为EUC_CN，但不是这样的 => select * from zh limit 2; col1 ------ > <B0><A2> (2 rows) --第二行即是"阿"，数据库server/client看上去转换了字符集，从UTF8转换为了EUC_CN --但是可能是因为UI客户端问题没有正确显示（此时UI客户端CRT为UTF8） --然而把CRT改成GB2312还是不会正确展示 select * from zh limit 2; col1 ------ > <B0><A2> (2 rows) --当查询〇时，数据库直接抛出报错，说明〇不能从UTF8转换为EUC_CN select * from zh ; ERROR: 22P05: character with byte sequence 0xe3 0x80 0x87 in encoding "UTF8" has no equivalent in encoding "EUC_CN" LOCATION: report_untranslatable_char, mbutils.c:1631

2.server为EUC_CN的转换测试：

=> show server_encoding; --database为EUC_CN字符集 server_encoding ----------------- EUC_CN --在EUC_CN库下同样创建一个zh表，此时尝试插入就有问题了 => insert into zh values('〇'); ERROR: 22P05: character with byte sequence 0xe3 0x80 0x87 in encoding "UTF8" has no equivalent in encoding "EUC_CN" LOCATION: report_untranslatable_char, mbutils.c:1631

同样报错〇不能从UTF8转换为EUC_CN。EUC_CN（GB2312）中文编码不完全与UTF8相同，EUC_CN（GB2312）不是所有中文都包含的，特别是罕见字。

设置locale、collation和字符集

上面已经了解过本地化和字符集设置了，这里做一个汇总

database cluster的locale、collation、字符集

初始化时可设置database cluster的locale和字符集，参考：

initdb -D $DATADIR -E UTF8 --locale=en_US.UTF8 initdb -D $DATADIR -E UTF8 --locale=en_US.UTF8 --lc_collate=C --lc_ctype=C initdb -D $DATADIR -E UTF8 --locale=en_US.UTF8 --lc_collate=C --lc_ctype=C --lc-messages=en_US.UTF8 --lc-monetary=en_US.UTF8 --lc-numeric=en_US.UTF8 --lc-time=en_US.UTF8

initdb会创建postgres，template1，和template0三个库。create database语句时默认使用template1创建库。

encoding设置字符集；locale设置LC_COLLATE，LC_CTYPE，LC_MESSAGES，LC_MONETARY，LC_NUMERIC，LC_TIME，除非特别指定（如–lc_collate）

LC_COLLATE，LC_CTYPE称为collation，还可在database、列、索引上设置。LC_MESSAGES，LC_MONETARY，LC_NUMERIC，LC_TIME为实例参数，可随时修改。

encoding只能在初始化、创建database时设置，一旦设置不可修改。

database的collation、字符集

创建database时可设置database的字符集、lc_collate、lc_ctype。

create database ,createdb都可以在创建database时指定字符集，一旦创建就不能修改database的字符集。两个命令都是使用template库来创建database

template又有template0和template1，官方文档有这样一句话：

Another common reason for copying template0 instead of template1 is that new encoding and locale settings can be specified when copying template0, whereas a copy of template1 must use the same settings it does. This is because template1 might contain encoding-specific or locale-specific data, while template0 is known not to.

template1是可写数据的模板库，可能包含本地化过的数据，而template0不能写数据，所以要创建不同的本地化库应使用template0。

而且要显示使用template0，因为不指定的话默认是template1。所以在创建database时没有指定template1且指定其他字符集会报错：

=> create database db_GB2312 ENCODING 'EUC_CN' LC_COLLATE 'zh_CN.gb2312' LC_CTYPE 'zh_CN.gb2312'; ERROR: 22023: new encoding (EUC_CN) is incompatible with the encoding of the template database (UTF8) HINT: Use the same encoding as in the template database, or use template0 as template.

另外，不能在创建database时通过指定locale来设置字符集

=> create database db_GB2312 locale 'zh_CN.gb2312' template 'template0'; ERROR: 22023: encoding "UTF8" does not match locale "zh_CN.gb2312" DETAIL: The chosen LC_CTYPE setting requires encoding "EUC_CN". LOCATION: check_encoding_locale_matches, dbcommands.c:773

报错表示需要指定LC_CYTPE子选项，把collation相关子选项全部加上仍然报错：

=> create database db_GB2312 LOCALE 'EUC_CN' LC_COLLATE 'zh_CN.gb2312' LC_CTYPE 'zh_CN.gb2312'; ERROR: 42601: conflicting or redundant options DETAIL: LOCALE cannot be specified together with LC_COLLATE or LC_CTYPE.

LOCALE又不能跟LC_CTYPE等子选项一起使用
然后把locale去掉，通过设置字符集、LC_COLLATE、LC_CTYPE 来设置，可以成功。

创建指定字符集的database的正确姿势：

create database

create database db_GB2312 ENCODING 'EUC_CN' LC_COLLATE 'zh_CN.gb2312' LC_CTYPE 'zh_CN.gb2312' template 'template0';

createdb
通过cli命令createdb来创建，createdb封装了create database，他俩是等价的：

createdb -E EUC_CN -T template0 --lc-collate=zh_CN.gb2312 --lc-ctype=zh_CN.gb2312 db_GB2312

查看database字符集：

\l

pg_database

select datname,pg_encoding_to_char(encoding),datcollate,datctype,datlocprovider,daticulocale from pg_database;

show参数

SERVER_ENCODING,LC_COLLATE,LC_CTYPE三个参数都是不可更改的，分别展示当前database的server端字符集、LC_COLLATE、LC_CTYPE

列的collation

collation只跟字符排序、字符函数相关，跟编码不相关。在没有索引的情况下，修改列的collation相当于只是在调整这个列的default排序输出，有索引的情况下会重建索引。不指定列的collation默认与database一致。

建表时指定collation：（注意有些字段类型是un-collatable的，比如int）

create table t1(col1 varchar(10) collate "en_US.utf8"); alter table t1 alter column col1 type varchar(10) collate "C";

注意：alter table不修改长度是不会重建表的，但是一定会重建索引

查看列的默认collation：

1. \d+ t1 2. information_schema.columns select table_catalog,table_schema,table_name,column_name,collation_name from information_schema.columns where table_name='t1'; 3. pg_attribute select a.attrelid::regclass,a.attname,a.attcollation,c.collname,c.collcollate,c.collctype from pg_attribute a left join pg_collation c on a.attcollation=c.oid where a.attrelid::regclass='tlzl'::regclass and a.attcollation<>0;

推荐方式3查看。\d+ ,information_schema.columns虽然能看到collname，但是collname不是唯一的。只有方式3可以看到collate,ctype

指定collate和查看pg_attribute的测试：

create table tlzl( col1 varchar(10) , col2 varchar(10) collate "C", col3 varchar(10) collate "zh_CN", col4 varchar(10) collate "en_US.utf8" );

--列的collation相当于给列打上默认排序的标记，也看不到具体是哪个collate和ctype db_utf8_c=> Table "public.tlzl" Column | Type | Collation | Nullable | Default | Storage | Compression | Stats target | Description --------+-----------------------+------------+----------+---------+----------+-------------+--------------+------------- col1 | character varying(10) | | | | extended | | | col2 | character varying(10) | C | | | extended | | | col3 | character varying(10) | zh_CN | | | extended | | | col4 | character varying(10) | en_US.utf8 | | | extended | | | --collname和collate，ctype不是一一对应的，上面的col3 zh_CN看不出来collate是哪个 db_utf8_c=> select pg_encoding_to_char(collencoding) as encoding,collname,collcollate,collctype from pg_collation where collname like 'zh_CN%'; encoding | collname | collcollate | collctype ----------+--------------+--------------+-------------- EUC_CN | zh_CN | zh_CN | zh_CN EUC_CN | zh_CN.gb2312 | zh_CN.gb2312 | zh_CN.gb2312 UTF8 | zh_CN.utf8 | zh_CN.utf8 | zh_CN.utf8 UTF8 | zh_CN | zh_CN.utf8 | zh_CN.utf8 --pg_attribute展示比\d+准确 db_utf8_c=> select a.attrelid::regclass,a.attname,a.attcollation,c.collname,c.collcollate,c.collctype from pg_attribute a left join pg_collation c on a.attcollation=c.oid where a.attrelid::regclass='tlzl'::regclass and a.attcollation<>0; attrelid | attname | attcollation | collname | collcollate | collctype ----------+---------+--------------+------------+-------------+------------ tlzl | col1 | 100 | default | | tlzl | col2 | 950 | C | C | C tlzl | col4 | 12562 | en_US.utf8 | en_US.utf8 | en_US.utf8 tlzl | col3 | 13200 | zh_CN | zh_CN.utf8 | zh_CN.utf8 --此时才知道，col3 zh_CN的collate是zh_CN.utf8

修改列的collate重写测试：

--给字段加索引，看看重写情况 db_utf8_c=> create index idxcol4 on tlzl(col4); CREATE INDEX db_utf8_c=> select pg_relation_filepath('tlzl') TableRelid, pg_relation_filepath('idxcol4') IndexRelid; tablerelid | indexrelid ------------------+------------------ base/40996/41006 | base/40996/41015 db_utf8_c=> alter table tlzl alter column col4 type varchar(10) collate "C"; ALTER TABLE db_utf8_c=> select pg_relation_filepath('tlzl') TableRelid, pg_relation_filepath('idxcol4') IndexRelid; tablerelid | indexrelid ------------------+------------------ base/40996/41006 | base/40996/41016 --表没有重写，索引重写了

列的collation只是标记，修改列的collation不会重写表，但是如果其上有索引，那么会重写这个索引（有时候不会见下面一节）。

索引的collation

在创建索引时，如不显示指定索引的collation，那么索引会使用列上声明的collation。

创建索引时显示使用collation：

create index idx_C on tlzl(col3 collate "C");

另外，索引还可以以text_pattern_ops，varchar_pattern_ops，bpchar_pattern_ops来创建，此时的索引不依赖collation的规则，而是一个字符一个字符的对比

The difference from the default operator classes is that the values are compared strictly character by character rather than according to the locale-specific collation rules.

CREATE INDEX test_index ON test_table (col varchar_pattern_ops);

其实这种索引跟collation不是完全无关，索引一定有一个排序规则，这种索引的排序规则看上去跟C一致。参考like不走索引一节

查看索引的collation:

\d+ --\d+会展示指定过collate的索引，如果没有的话使用的是列默认索引 db_utf8_c=> \d+ tlzl Table "public.tlzl" Column | Type | Collation | Nullable | Default | Storage | Compression | Stats target | Description --------+-----------------------+------------+----------+---------+----------+-------------+--------------+------------- col1 | character varying(10) | | | | extended | | | col2 | character varying(10) | C | | | extended | | | col3 | character varying(10) | zh_CN | | | extended | | | col4 | character varying(10) | en_US.utf8 | | | extended | | | Indexes: "idx_c" btree (col3 COLLATE "C") "idxcol4" btree (col4) Access method: heap

通过pg_index查看更为清晰:（pg_index的indcollation类型是oidvector的，不能直接转化为oid，查起来麻烦点）

db_utf8_c=> select indcollation,indexrelid::regclass from pg_index where indexrelid::regclass ='idx_C'::regclass; indcollation | indexrelid --------------+------------ 950 | idx_c db_utf8_c=> select oid,pg_encoding_to_char(collencoding) as encoding,collname,collcollate,collctype from pg_collation where oid=950; oid | encoding | collname | collcollate | collctype -----+----------+----------+-------------+----------- 950 | | C | C | C

另外，不能通过alter index改变索引的collation，只能删除重建

测试：指定过索引collate后，修改列的collate是否会重写索引？

db_utf8_c=> select pg_relation_filepath('tlzl') TableRelid, pg_relation_filepath('idxcol4') IndexRelid4,pg_relation_filepath('idx_c') IndexRelidC; tablerelid | indexrelid4 | indexrelidc ------------------+------------------+------------------ base/40996/41020 | base/40996/41023 | base/40996/41024 (1 row) db_utf8_c=> alter table tlzl alter column col3 type varchar(10) collate "en_US.utf8"; ALTER TABLE db_utf8_c=> select pg_relation_filepath('tlzl') TableRelid, pg_relation_filepath('idxcol4') IndexRelid4,pg_relation_filepath('idx_c') IndexRelidC; tablerelid | indexrelid4 | indexrelidc ------------------+------------------+------------------ base/40996/41020 | base/40996/41023 | base/40996/41024 --idx_c的relfileid没有变

如果指定过索引的collate，修改其字段默认collate，不会重新索引。

客户端的字符集

客户端设置与database不同的字符集，会发生字符集转换，也可能转换不成功，具体参考字符集转换一节。

服务端的字符集在创建database后无法改变，client的字符集可随时调整。

Client字符集设置方法很多：

直接在客户端设置

\encoding UTF8 --仅psql支持 SET CLIENT_ENCODING TO UTF8; --session级修改参数 SET NAMES UTF8; --sql标准

设置环境变量PGCLIENTENCODING

设置client_encoding服务端配置参数

优先级：客户端设置>环境变量PGCLIENTENCODING>client_encoding服务端配置参数

查看client字符集：

\encoding --仅psql支持 SHOW client_encoding;

表达式collate

表达式加collate会覆盖表达式原本的collation，相当于指定了排序collation。

需在表达式的最后加collate关键字：

expr COLLATE collation --例如 select * from tab1 order by name COLLATE "C";

排序和collate索引选择详见排序结果问题一节。

MORE

概念整理

PostgreSQL本地化有三个重要概念：字符集、locale、collation，需要弄清他们的关系。

字符集在服务端的设置非常重要，只能在初始化和建db时指定，建库后不可修改。字符集选择直接影响编码方式，collation并不是，但是他俩之间有依赖关系。locale同样可以在初始化时指定，其中collation可在建库时指定，也可以单独指定列的collation，注意他们只是默认值。只有在建索引时指定collation，会影响其真正的存储顺序。不同的collation是无法使用索引的，即使他们同源。

client字符集和LC_MASSAGES等4个参数都比较简单，可直接修改参数，与数据存储无关。

排序结果问题

因为utf8是最常见的字符集，我们测试utf相关的collation排序

create database db_UTF8 ENCODING 'UTF8' template 'template0'; --建一个UTF8的库，collation无所谓 use db_UTF8; create table tzlz(name varchar(10)); insert into tzlz values('a'),('aa'),('A'),('AA'),('啊'),('阿'),('〇');

不同collation的order by结果：

select name from tzlz where name in ('a','aa','A','AA','啊','阿','〇') order by name; select name from tzlz where name in ('a','aa','A','AA','啊','阿','〇') order by name collate "C"; select name from tzlz where name in ('a','aa','A','AA','啊','阿','〇') order by name collate "en_US"; select name from tzlz where name in ('a','aa','A','AA','啊','阿','〇') order by name collate "en_US.utf8"; select name from tzlz where name in ('a','aa','A','AA','啊','阿','〇') order by name collate "zh_CN"; select name from tzlz where name in ('a','aa','A','AA','啊','阿','〇') order by name collate "zh_CN.utf8";

顺序 default C en_US en_US.utf8 zh_CN zh_CN.utf8

1 〇 A 〇〇 a a

2 a AA a a A A

3 A a A A aa aa

4 aa aa aa aa AA AA

5 AA 〇 AA AA 阿阿

6 啊啊啊啊啊啊

7 阿阿阿阿〇〇

这里的default是en_US.utf8（字段collation(default)->database collation(en_US.utf8)）

C、en_US.uft8、zh_CN.uft8排序结果都不同

collate和索引扫描测试：

insert into tzlz values(generate_series(1,10000)); create index idxzlz_default on tzlz(name); create index idxzlz_C on tzlz(name collate "C"); create index idxzlz_enUS_utf8 on tzlz(name collate "en_US.utf8");

使用collate在索引上的优化：

--不加任何collate关键字，简单的索引扫描，不会额外排序 db_utf8_c=> explain select name from tzlz where name in ('a','aa','A','AA','啊','阿','〇') order by name; QUERY PLAN --------------------------------------------------------------------------------- Index Only Scan using idxzlz_default on tzlz (cost=0.29..30.13 rows=8 width=4) Index Cond: (name = ANY ('{a,aa,A,AA,啊,阿,〇}'::text[])) --谓词加collate转换，可以走到正确的索引 db_utf8=> explain select name from tzlz where name collate "C" in ('a','aa','A','AA','啊','阿','〇'); QUERY PLAN --------------------------------------------------------------------------- Index Only Scan using idxzlz_c on tzlz (cost=0.29..30.12 rows=7 width=4) Index Cond: (name = ANY ('{a,aa,A,AA,啊,阿,〇}'::text[])) db_utf8=> explain select name from tzlz where name collate "en_US.utf8" in ('a','aa','A','AA','啊','阿','〇'); QUERY PLAN ----------------------------------------------------------------------------------- Index Only Scan using idxzlz_enus_utf8 on tzlz (cost=0.29..30.12 rows=7 width=4) Index Cond: (name = ANY ('{a,aa,A,AA,啊,阿,〇}'::text[])) --但是collation的名字必须一致 db_utf8=> explain select name from tzlz where name collate "en_US" in ('a','aa','A','AA','啊','阿','〇'); QUERY PLAN ----------------------------------------------------------------- Seq Scan on tzlz (cost=0.00..232.63 rows=7 width=4) Filter: ((name)::text = ANY ('{a,aa,A,AA,啊,阿,〇}'::text[])) --同时order by也需要加collate转换表达式 --此时使用了正确的索引，但是order by的时候判断为不同的collation（哪怕他们是一样的） db_utf8=> explain select name from tzlz where name collate "en_US.utf8" in ('a','aa','A','AA','啊','阿','〇') order by name; QUERY PLAN ----------------------------------------------------------------------------------------- Sort (cost=30.22..30.23 rows=7 width=4) Sort Key: name -> Index Only Scan using idxzlz_enus_utf8 on tzlz (cost=0.29..30.12 rows=7 width=4) Index Cond: (name = ANY ('{a,aa,A,AA,啊,阿,〇}'::text[])) --where和order by都加上collate转换，可以小选择正确的索引，且不会在发生排序 db_utf8=> explain select name from tzlz where name collate "en_US.utf8" in ('a','aa','A','AA','啊','阿','〇') order by name collate "en_US.utf8"; QUERY PLAN ------------------------------------------------------------------------------------ Index Only Scan using idxzlz_enus_utf8 on tzlz (cost=0.29..30.12 rows=7 width=42) Index Cond: (name = ANY ('{a,aa,A,AA,啊,阿,〇}'::text[]))

索引在指定collation后，sql需要显示使用collate关键字转换表达式，即便default与当前collation一致，pg也不会使用到索引。

like不走索引

The drawback of using locales other than C or POSIX in PostgreSQL is its performance impact. It slows character handling and prevents ordinary indexes from being used by LIKE

PostgreSQL原话：使用非C or POSIX会阻止使用普通索引！

db_utf8=> explain select name from tzlz where name like 'a%'; QUERY PLAN -------------------------------------------------------------------------- Index Only Scan using idxzlz_c on tzlz (cost=0.29..4.31 rows=1 width=4) Index Cond: ((name >= 'a'::text) AND (name < 'b'::text)) Filter: ((name)::text ~~ 'a%'::text) (3 rows) db_utf8=> explain select name from tzlz where name collate "en_US.utf8" like 'a%'; QUERY PLAN -------------------------------------------------------------------------- Index Only Scan using idxzlz_c on tzlz (cost=0.29..4.31 rows=1 width=4) Index Cond: ((name >= 'a'::text) AND (name < 'b'::text)) Filter: ((name)::text ~~ 'a%'::text)

PostgreSQL在索引扫描时把like转化为了>=和<，<还加了一个比输入的值大一号的值，这里就有问题了，collation跟排序强相关，ASCII码中a+1是b，但是汉字又如何？

db_utf8=> explain select name from tzlz where name collate "en_US.utf8" like '阿%'; QUERY PLAN -------------------------------------------------------------------------- Index Only Scan using idxzlz_c on tzlz (cost=0.29..6.49 rows=1 width=4) Index Cond: ((name >= '阿'::text) AND (name < '陿'::text)) Filter: ((name)::text ~~ '阿%'::text)

果然出现了另一个汉字！

如果是全表扫描，不会出现>= <的情况

db_utf8=> drop index idxzlz_c; DROP INDEX db_utf8=> explain select name from tzlz where name collate "en_US.utf8" like '阿%'; QUERY PLAN ------------------------------------------------------ Seq Scan on tzlz (cost=0.00..170.09 rows=1 width=4) Filter: ((name)::text ~~ '阿%'::text)

可以创建一个与collation规则无关的索引（pg官方声称无关）

CREATE INDEX idx_pattern ON tzlz (name varchar_pattern_ops);

来看看他的执行计划

db_utf8=> explain select name from tzlz where name like '阿%'; QUERY PLAN ----------------------------------------------------------------------------- Index Only Scan using idx_pattern on tzlz (cost=0.29..6.49 rows=1 width=4) Index Cond: ((name ~>=~ '阿'::text) AND (name ~<~ '陿'::text)) Filter: ((name)::text ~~ '阿%'::text)

他还是把大1号的字符串自己生成了，这跟collation一定是有关系的···，看上去就是C

所以可以得出结论：

pg在like使用普通索引时，需要把其转换为>= <，此时必须出现一个比当前字符串大1的值。而collation又与大小强相关，此时只能使用同一collation索引才能保证数据正确。pg选择了非本地化的collation C。

临时解决这个问题最快的办法是新建一个collation C或pattern索引:

create index idxzlz_C on tzlz(name collate "C"); CREATE INDEX idx_pattern ON tzlz (name varchar_pattern_ops);

其他调整各级别的默认collation参考上面的章节。

开发习惯在建索引时不会指定collation，如果不是C或pattern，都走不了like，在加上要选择国际字符集utf8，这样在数据库运维时选择的本地化方式就非常少了。字符集为utf8，collation为C

参考

https://dbafix.com/what-is-the-impact-of-lc_ctype-on-a-postgresql-database/#:~:text=Having%20LC_CTYPE%20set%20to%20%E2%80%98C%E2%80%99%20implies%20that%20C,Postgres%20on%20top%20of%20these%20libc%20functions%2C%20they%E2%80%99re
https://www.postgresql.org/docs/current/charset.html
https://www.bookstack.cn/read/rds-best-pratice/bfc0037fe00d87dc.md
https://help.aliyun.com/zh/rds/apsaradb-rds-for-postgresql/configure-the-collation-of-a-database-on-an-apsaradb-rds-for-postgresql-instance
https://baike.baidu.com/item/%E7%BB%9F%E4%B8%80%E7%A0%81/2985798?fromModule=lemma_inlink&fromtitle=Unicode&fromid=750500
https://baike.baidu.com/item/%E4%B8%AD%E6%97%A5%E9%9F%A9%E8%B6%8A%E7%BB%9F%E4%B8%80%E8%A1%A8%E6%84%8F%E6%96%87%E5%AD%97/1301611?fromModule=lemma_inlink

https://blog.csdn.net/songyundong1993/article/details/128739919

Name	Description	Language	Server端是否支持?	ICU是否支持?	Bytes/Char	Aliases
BIG5	Big Five	繁体中文	No	No	1–2	WIN950, Windows950
EUC_CN	Extended UNIX Code-CN	简体中文	Yes	Yes	1–3	GB2312
GB18030	National Standard	中文	No	No	1–4
GBK	Extended National Standard	简体中文	No	No	1–2	WIN936, Windows936
UTF8	Unicode, 8-bit	all	Yes	Yes	1–4	Unicode

字节	格式	实际编码位	码点范围
1字节	0xxxxxxx	7	0 ~ 127
2字节	110xxxxx 10xxxxxx	11	128 ~ 2047
3字节	1110xxxx 10xxxxxx 10xxxxxx	16	2048 ~ 65535
4字节	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx	21	65536 ~ 2097151

Server Character Set	Available Client Character Sets
BIG5	not supported as a server encoding
EUC_CN（GB2312）	EUC_CN（GB2312）, `MULE_INTERNAL`, `UTF8`
GB18030	not supported as a server encoding
GBK	not supported as a server encoding
UTF8	*all supported encodings*
GB18030，GBK服务端都不支持，所以其实只有EUC_CN（GB2312）、UTF8能在Server/Client转换。

Conversion Name	Source Encoding	Destination Encoding
big5_to_utf8	BIG5	UTF8
euc_cn_to_utf8	EUC_CN	UTF8
gb18030_to_utf8	GB18030	UTF8
gbk_to_utf8	GBK	UTF8
utf8_to_big5	UTF8	BIG5
utf8_to_euc_cn	UTF8	EUC_CN
utf8_to_gb18030	UTF8	GB18030
utf8_to_gbk	UTF8	GBK

顺序	default	C	en_US	en_US.utf8	zh_CN	zh_CN.utf8
1	〇	A	〇	〇	a	a
2	a	AA	a	a	A	A
3	A	a	A	A	aa	aa
4	aa	aa	aa	aa	AA	AA
5	AA	〇	AA	AA	阿	阿
6	啊	啊	啊	啊	啊	啊
7	阿	阿	阿	阿	〇	〇

Android Room使用方法与底层原理详解你过来啊你 android room
Room是一个强大的SQLite对象映射库，旨在提供更健壮、更简洁、更符合现代开发模式的数据库访问方式。核心价值：消除大量样板代码，提供编译时SQL验证，强制结构化数据访问，并流畅集成LiveData、Flow和RxJava以实现响应式UI。一、使用流程(Step-by-StepWorkflow)Room的使用遵循一个清晰的结构化流程：添加依赖：//build.gradle(Module)depe
查询一天时间unixtime时间戳的数据亚林瓜子 sql
问题数据库库里面用的unix时间戳存的数据。需要查询出这一天的数据。解决SELECT*FROMyour_tableWHEREcreated_at>=UNIX_TIMESTAMP(CURDATE())-28800--减去8小时(8*3600秒)ANDcreated_at<UNIX_TIMESTAMP(CURDATE()+INTERVAL1DAY)-28800;
【大模型记忆实战Demo】基于SpringAIAlibaba通过内存和Redis两种方式实现多轮记忆对话 Sao_E redis 数据库缓存 ai 语言模型
文章目录多轮对话记忆管理——基于Memory的对话记忆基于内存存储历史对话基于Redis存储历史对话多轮对话记忆管理——基于Memory的对话记忆SpringAIAlibaba共实现了三种方式：基于内存的方式基于jdbc（数据库）的方式基于redis的方式下文主要演示基于内存和redis的方式基于内存存储历史对话代码首先定义大模型的角色，一个旅游规划师设置增强拦截器接着接口传入prompt和cha
时序数据库主流产品概览时序数据说时序数据库数据库物联网 iotdb 大数据
时序数据库(TimeSeriesDatabase,TSDB)是专为处理时间序列数据优化的数据库系统，近年来随着物联网(IoT)、金融科技、工业互联网等领域的快速发展而备受关注。本文将介绍当前主流的时序数据库产品。一、时序数据库概述时序数据是带时间戳记录的数据点序列，具有以下特点：数据时间属性强数据通常为追加写入近期数据访问频率高于历史数据数据量通常非常庞大，需要高效的压缩技术时序数据库针对这些特点
TDengine时序数据库数据写入操作详解沈宝彤
TDengine时序数据库数据写入操作详解引言TDengine作为一款高性能的时序数据库，其数据写入方式与传统关系型数据库有所不同。本文将详细介绍TDengine中各种数据写入方式的特点和使用场景，帮助开发者更好地理解和应用TDengine的数据写入功能。基础写入操作单条数据写入在TDengine中，最基本的写入方式是使用INSERT语句向单个子表写入一条数据。以智能电表场景为例：--指定列名写入
时序数据库在数据库领域的应用前景数据库管理艺术数据库时序数据库 struts ai
时序数据库在数据库领域的应用前景关键词：时序数据库、时间序列数据、物联网、监控系统、金融分析、大数据、实时分析摘要：本文深入探讨了时序数据库在现代数据管理中的关键作用和应用前景。我们将从时序数据的基本特性出发，分析时序数据库的核心架构和设计原理，比较主流时序数据库产品的技术特点，并通过实际案例展示其在物联网、金融科技、运维监控等领域的应用价值。文章还将提供时序数据库选型指南，探讨未来技术发展趋势，
时序数据库在数据库领域的行业应用数据库管理艺术数据库时序数据库 ai
时序数据库在数据库领域的行业应用关键词：时序数据库、数据库领域、行业应用、时间序列数据、实时分析摘要：本文深入探讨了时序数据库在数据库领域的行业应用。首先介绍了时序数据库的背景知识，包括其目的、适用读者、文档结构和相关术语。接着阐述了时序数据库的核心概念、架构和工作原理，通过Python代码详细讲解了核心算法。还介绍了相关的数学模型和公式，并举例说明。在项目实战部分，给出了开发环境搭建、源代码实现
时序数据库在工业物联网领域的核心优势与应用价值时序数据说时序数据库物联网数据库 iotdb 大数据
一、工业物联网的数据挑战与需求工业物联网(IIoT)正在重塑全球制造业格局，通过连接设备、传感器和控制系统，实现了生产过程的数字化与智能化。然而，这一转型也带来了前所未有的数据管理挑战：海量数据：单个工厂可能部署数万个传感器，每秒产生数千万数据点高速写入：工业设备常需毫秒级数据采集，对数据库写入性能要求极高严格时效：质量控制、故障预测等场景要求实时数据分析长期存储：设备生命周期数据需保存数年甚至数
数据库范式设计浪人与酒丶
@[TOC]导语在日常工作中，我们都需要遵守一定的规范，比如签到大卡、审批流程等，这些规范虽然有一定等约束感觉，却是非常有必要等，这样可以保证正确性和严谨性，但有些情况下，约束反而会带来效率的下降，比如一个可以直接操作的任务，却需要审批才能执行。数据库的设计范式我们在设计关系型数据库模型的时候，需要对关系内部各个属性之间联系对合理化程度进行定义，这就有了不同等级的规范要求，这些规范要求被称为范式（
数据库和数据仓库区别 hhhecker Hadoop学习数据仓库数据库 hive
HIve与Mysql对比HiveMysql数据存储位置HDFS本地磁盘数据格式用户定义系统决定数据更新不支持（不支持修改和删除）支持（支持增删改查）索引有，但较弱，一般很少用有，经常使用的执行MapReduceExecutor执行延迟高低可扩展性高低数据规模大小数据库与数据仓库对比数据库：传统的关系型数据库主要应用在基本的事务处理，例如银行交易之类的场景数据库支持增删改查这些常见的操作。数据仓库：
数据仓库和数据库的区别神秘打工猴数据仓库数据库
一，数据仓库数据仓库（DataWarehouse）是一种专门设计用于报告和分析的数据库系统，它允许将来自一个或多个数据源的数据集成、存储和分析。数据仓库的主要目的是支持决策制定，通过提供快速访问历史数据和进行复杂查询的能力。以下是数据仓库的一些关键特性和概念：1.主题导向：数据仓库围绕特定的业务主题构建，如销售、客户或财务，而不是围绕应用程序的功能。2.集成性：数据仓库集成了来自不同源系统的数据，
如何区分Bug是前端问题还是后端问题？海姐软件测试缺陷管理 bug 前端
在软件测试中，精准定位Bug的归属（前端or后端）是高效协作的关键。以下是系统化的排查方法，结合技术细节和实战技巧：1.核心判断逻辑「数据vs展示」二分法：后端问题：数据本身错误（API返回错误数据/逻辑错误/数据库问题）前端问题：数据正确但展示异常（UI渲染错误/交互逻辑问题）2.四步定位法第一步：抓包分析（必做）工具：ChromeDevTools>Network/Fiddler/Charles
工具篇：（二）MacOS 下载 MySQL 并进行配置连接，使用 VSCode 创建 Node 项目-亲测有效全栈探索者chen mysql macos 工具 macos mysql vscode
MacOS下载MySQL并进行配置连接，使用VSCode创建Node项目我们将介绍如何在macOS上下载和配置MySQL数据库，并使用VSCode创建一个Node.js项目进行测试。通过这些步骤，您将能够顺利地设置开发环境并进行基本的数据操作。一、删除之前的MySQL配置和软件在macOS系统中，下载并配置MySQL客户端之前，清理掉之前的MySQL配置和相关软件是一个关键步骤。以下是详细的操作流
SmartETL中数据库操作与流程解耦的设计与应用
正如ETL这个概念本身所指示的，数据库读写访问是ETL的最常用甚至是最主要的操作。现代信息系统的设计与运行基本都是围绕数据库展开的，很多应用的核心功能都是对数据库的CRUD（创建、检索、更新、删除）操作。SmartETL框架设计之初就考虑到了这个情况，在早期就根据团队的技术栈，实现了对MongoDB、MySQL、ElasticSearch、ClickHouse等数据库的Extract操作（即Loa
tp5 model 使用
在thinkphp3.X的时候我们经常使用M，D方法实例化一个model，然后通过model对数据进行增删改查操作。在tp5的时候，如果再想用上面的方法，必须先定义model，刚开始的时候怎么定义都说找不到类，后来不知道怎么回事就好了，例如数据库中有表user，在application\index\model目录下建立文件User.php,然后里面这样写几个关键点：一定要写usethink\Mod
Apache Ignite 的 SQL 功能和分布式查询机制
这段内容讲的是ApacheIgnite的SQL功能和分布式查询机制。我们可以从几个关键点来理解：一、Ignite是一个分布式SQL数据库✅特点：符合ANSI-99SQL标准水平扩展（可扩展到多个节点）容错（fault-tolerant）支持两种数据分布方式：分区（Partitioned）：数据分布在多个节点上复制（Replicated）：每个节点都有完整数据副本二、SQL功能支持✅DML语句：Ig
【软考速通笔记】系统架构设计师⑱——大数据架构设计理论与实践小康师兄系统架构设计师笔记系统架构大数据 Lanbda Kappa 数据湖批处理
文章目录一、前言二、传统数据库遇到的问题2.1问题的根源2.2传统解决方法三、大数据基础3.1大数据处理技术3.2大数据利用过程3.3大数据处理系统面临的挑战3.4大数据具有的属性和特征四、Lanbda架构4.1批处理层4.2加速层4.3服务层五、Kappa架构5.1实时层5.2服务层六、Lambda和Kappa对比七、其他一、前言笔记目录大纲请查阅：【软考速通笔记】系统架构设计师——导读关注【小
Error: Multiple commands produce…… 燃_火
今天遇到一个问题，代码运行的时候出现了错误，下图：3CF4B2626DB611D7F9191BE34D6EEB6E.png这是Xcode10更新后的一个坑，无奈！记录一下解决方法：1、找到屏幕顶层工具栏中的File，点击-选择ProjectSettingsqq_pic_merged_1556606469607.jpg2、将NewBuildSystem(Default)切换成Legacybuilds
达梦数据库监控观测最佳实践
概述达梦企业管理器简称DEM，架构如下：概略来说，每个数据库主机安装代理程序DMAgent，在监控方面，它将指标发送至DEM服务端，用户可访问DEM控制台查看数据主机和实例的监控指标，在DEM进行配置后可通过http://:8080/dem/metrics端点暴露主机和数据库的Prometheus指标，观测云DataKit可从此端点采集指标完成达梦数据库集成。前提条件监控目标可通过DMAgent上
如何选择数据库？从真实案例看 PostgreSQL 与 MySQL 的优劣权衡
关系型数据库是几乎所有互联网应用的基础。在众多开源选项中，PostgreSQL和MySQL是最常被拿来对比的一对“老对手”。虽然它们都讲SQL，但在设计哲学、性能表现和功能特性上差异明显。本篇文章结合了包括Uber在内的实际案例、AI辅助建模的开发经验，并推荐一些实际工具，帮助开发者更清晰地做出技术选型。为什么数据库选型至关重要？数据库并不是“越强越好”，关键在于是否匹配你项目的业务模型、数据访问
“专属私有云”或“行业公有云（逻辑隔离的公共云专区）”两种主流部署模式到底有什么区别？政务云不就应该是专属的私有云么？政务云是不是不能混用？
一、安全合规性要求分层，驱动部署模式分化核心敏感系统需物理隔离（专属私有云）涉及公民隐私、国家安全（如公安、财政、医保核心数据库）的系统，必须通过物理隔离的专属私有云保障绝对控制权。例如：浦东新区公安局的涉密数据采用自建私有云，确保数据完全自主管控3。某省地市政务云要求核心业务部署在信创私有云，满足等保三级和国密算法评估要求5。非敏感公共服务适用逻辑隔离（行业公有云）面向公众的服务（如社保查询、线
mysql 清理磁盘空间汐猫 mysql 数据库
数据库相关学习资料：https://edu.51cto.com/video/655.htmlMySQL清理磁盘空间：代码示例与流程指南MySQL是一种广泛使用的开源关系数据库管理系统，它在处理大量数据时可能会占用大量的磁盘空间。随着时间的推移，数据库可能会积累许多不再需要的数据，导致磁盘空间不足。本文将介绍如何清理MySQL数据库中的磁盘空间，包括代码示例和流程图。清理磁盘空间的原因性能提升：清理
深度强化学习 | 图文详细推导深度确定性策略梯度DDPG算法 Mr.Winter` 机器人人工智能数据挖掘深度学习神经网络强化学习具身智能
目录0专栏介绍1演员-评论家架构1.1Critic网络优化1.2Actor网络优化2深度确定性策略梯度算法0专栏介绍本专栏以贝尔曼最优方程等数学原理为根基，结合PyTorch框架逐层拆解DRL的核心算法(如DQN、PPO、SAC)逻辑。针对机器人运动规划场景，深入探讨如何将DRL与路径规划、动态避障等任务结合，包含仿真环境搭建、状态空间设计、奖励函数工程化调优等技术细节，旨在帮助读者掌握深度强化学
android ROOM kotlin官方文档完全学习
androidROOMkotlin官方文档完全学习2.6使用Room将数据保存到本地数据库|AndroidDevelopers(google.cn)一、简介1.1引入dependencies{defroom_version="2.6.1"implementation"androidx.room:room-runtime:$room_version"//如下三选一annotationProcesso
多租户saas mysql_实现saas多租户方案比较 weixin_39535125 多租户saas mysql
看到一篇比较多租户数据隔离方案的文章，总结挺不错。其实大部分内容在我前几年写的文章都有。文章翻译自：多租户意味着同一个应用上有不用的用户隔离。这是非常典型的saas模型。你可以用不同的隔离级别来实现多租户。1.行级别：在每个数据库表里添加tenat_id字段，然后在每个查询语句也添加相应的tenant_id2.schema级别：每个租户有在同一个数据库内自己独立命名空间。可以容易使用Postgre
智能衣橱革命：大语言模型如何成为你的24小时私人造型师？
从清晨通勤的干练西装到约会餐厅的惊艳晚装，从孕期舒适穿搭到面试首印象的决胜战袍，大语言模型正悄然成为我们私人形象顾问。它融合历史时尚数据库、百万用户风格偏好与实时场景分析，在你输入“重要会议穿什么”的瞬间，便为你构建出专属着装方案——古典智慧与未来科技在指尖碰撞。导言：衣装，无声的宣言与永恒的困惑“衣裳常常显示人品”——莎士比亚在《哈姆雷特》中的箴言，穿越时空，道破了着装亘古不变的力量。衣装，这层
在本地127.0.0.1上跨实例访问远程数据库和麻数据库
1.确保可以和远程目标库连接通畅2.确保开启了sqlserver的TCP/IP3.创建LInkedserver-------先删除掉已存在的Remote203IFEXISTS(SELECT1FROMsys.serversWHEREname='Remote203')BEGINEXECsp_dropserver'Remote203','droplogins';ENDGO------------创建链接
微算法科技(MLGO)基于 Grover 的量子算法在图形游戏中寻找纯纳什均衡的创新突破 MicroTech2025 科技量子计算
随着量子计算的迅猛发展，各行各业正积极探索其潜力，特别是在博弈论领域。在博弈论中，纳什均衡是描述多个参与者在游戏中选择策略时相互影响的一种状态。在很多情况下，找到纯纳什均衡并不容易，尤其是在复杂的图形游戏中。传统算法的计算复杂性常常导致求解时间过长，因此引入量子算法有助于提高效率。Grover搜索算法是一种有效的量子搜索算法，能够在未标记的数据库中以平方根的时间复杂度找到目标元素。它通过振幅放大技
如何搭建MySQL主从同步架构：实现数据库高可用与读写分离 Cloud_Begin adb
前言：在现代Web应用中，数据库往往是性能瓶颈所在。MySQL主从复制(Master-SlaveReplication)是一种常见的数据同步方案，它不仅能提高系统的读取性能，还能增强数据安全性并提供故障转移能力。本文将详细介绍如何从零开始搭建一个MySQL主从同步架构。一、主从复制原理简介MySQL主从复制基于二进制日志(binlog)实现，其核心流程如下：主库(Master)将所有数据更改操作记
【教程4＞第9章＞第8节】通过FPGA实现RGB图像转换为CMYK图像——verilog实现与MATLAB辅助验证 fpga和matlab #fpga开发 CMYK RGB 教程4 verilog
本课程学习成果预览(FPGA测试结果通过MATLAB显示)目录1.软件版本2.通过FPGA实现RGB图像转CMYK3.RGB图像转CMYK的测试3.1步骤一：生成测试样本3.2步骤二：通过testbench调用X2.bmp3.3步骤三：vivado仿真3.4步骤四：MATLAB辅助验证4.视频操作步骤演示欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

顺序	default	C	en_US	en_US.utf8	zh_CN	zh_CN.utf8
1	〇	A	〇	〇	a	a
2	a	AA	a	a	A	A
3	A	a	A	A	aa	aa
4	aa	aa	aa	aa	AA	AA
5	AA	〇	AA	AA	阿	阿
6	啊	啊	啊	啊	啊	啊
7	阿	阿	阿	阿	〇	〇

顺序	default	C	en_US	en_US.utf8	zh_CN	zh_CN.utf8
1	〇	A	〇	〇	a	a
2	a	AA	a	a	A	A
3	A	a	A	A	aa	aa
4	aa	aa	aa	aa	AA	AA
5	AA	〇	AA	AA	阿	阿
6	啊	啊	啊	啊	啊	啊
7	阿	阿	阿	阿	〇	〇

PostgreSQL本地化

本地化的概念

locale

COLLATION

LC_COLLATE

LC_CTYPE

字符集

字符集基础

字符集转换

设置locale、collation和字符集

database cluster的locale、collation、字符集

database的collation、字符集

列的collation

索引的collation

客户端的字符集

表达式collate

MORE

概念整理

排序结果问题

like不走索引

参考

你可能感兴趣的:(PG,postgresql,数据库,collation,lc_ctype,encoding)

顺序	default	C	en_US	en_US.utf8	zh_CN	zh_CN.utf8
1	〇	A	〇	〇	a	a
2	a	AA	a	a	A	A
3	A	a	A	A	aa	aa
4	aa	aa	aa	aa	AA	AA
5	AA	〇	AA	AA	阿	阿
6	啊	啊	啊	啊	啊	啊
7	阿	阿	阿	阿	〇	〇