流木随风

第3.2章：StarRocks数据导入--Stream Load

一、环境准备

Stream Load可以说是StarRocks最为核心的导入方式，StarRocks的主要导入方式例如Routine Load、Flink Connector、DataX StarRocksWriter等，底层实现都是基于Stream Load的思想，所以我们着重介绍。

Stream Load是由用户发送HTTP请求将本地文件或数据流导入至StarRocks中的导入方式，其本身不依赖其他组件。Stream Load支持导入本地数据文件（csv、txt等）和json文件，建议单次导入的数据文件不超过10G，编码格式要求为utf-8。

Stream Load作为一种同步导入方式，我们可以直接通过请求的返回值判断导入是否成功。也由于是同步的方式，我们无法手动取消Stream Load任务，Stream Load在超时或者导入错误后会被系统自动取消。

以下为本次测试使用的集群环境，StarRocks部署路径为/opt/module/starrocks，集群服务部署情况如下表：

集群节点

192.168.110.101

（node01）

192.168.110.102

（node02）

192.168.110.103

（node03）

部署服务

1 FE（Leader）

1 BE

1 Broker

1 MySQL-Client

1 FE（Observer）

1 BE

1 Broker

1 BE

1 Broker

备注：下文演示时使用root用户，密码也为root。导入使用的数据库名称为starrocks。

二、导入说明

Stream Load用于向指定的表导入数据，它可以保证每次导入任务的原子性（整批数据要么全部导入成功，要么全部失败），其完整语法为：

curl --location-trusted -u user:passwd [-H ""...] -T data.file -XPUT http://fe_host:http_port/api/{db}/{table}/_stream_load

其中：

-u参数后为我们导入数据时使用StarRocks的用户名和密码（格式为user:passwd，该用户需要拥有对应库表的LOAD_PRIV权限）。

-T后为我们需要导入的数据文件完整路径，当前仅支持访问“执行Stream Load命令的节点”上的本地文件。

-H后为HTTP的Header部分，用来传入导入参数，例如导入标签、行/列分隔符、导入条件等等。

为方便理解，我们先创建表car_status：

CREATE TABLE IF NOT EXISTS starrocks.`car_status` (

`did` int(11) NOT NULL COMMENT "",

`event_time` bigint(20) NOT NULL COMMENT "",

`load_weight` int(10) NULL COMMENT "",

`speed` float NULL COMMENT "",

`voltage` float NULL COMMENT ""

)

DUPLICATE KEY(`did`, `event_time`)

DISTRIBUTED BY HASH(`did`) BUCKETS 10;

1、简单导入

假设在node01上有本地数据文件/opt/datafiles/car_status_1.csv，文件中有三行数据，数据顺序和car_status表中的顺序一致（其中的\N表示NULL）：

10581,1537436416686,0,13.0,475.0

10581,1537436447655,0,25.0,495.0

10581,1537436475628,0,\N,465.0

Stream Load中默认的列分隔符为\t（即Tab键输入的大空格，当数据的列分隔符为\t时不要再显式的指定，因为http header会对\t特殊解释，直接写反而会报错，得写成ascii码），行分隔符为\n（即回车输入的换行符，由row_delimiter参数指定）。

观察数据文件，我们发现这里的列分隔符为英文逗号，行分隔符为默认的换行符。指定label为car_status_20211026001（label要求单数据库内唯一，默认保存3天），本次导入命令的写法为：

curl --location-trusted -u root:root -H "label:car_status_20211026001" -H "column_separator:," -T /opt/datafiles/car_status_1.csv http://192.168.110.101:8030/api/starrocks/car_status/_stream_load

在node01的命令窗口中回车执行上面的导入命令，导入完成后，会以json格式返回这次导入的相关内容，例如：

{

    "TxnId": 12597,

    "Label": "car_status_20211026001",

    "Status": "Success",

    "Message": "OK",

    "NumberTotalRows": 3,

    "NumberLoadedRows": 3,

    "NumberFilteredRows": 0,

    "NumberUnselectedRows": 0,

    "LoadBytes": 105,

    "LoadTimeMs": 50,

    "BeginTxnTimeMs": 0,

    "StreamLoadPutTimeMs": 1,

    "ReadDataTimeMs": 0,

    "WriteDataTimeMs": 24,

    "CommitAndPublishTimeMs": 23

}

我们主要关注以下几个参数：

Status：导入最后的状态，包括：

Success：表示导入成功，数据已经可见；

Publish Timeout：表述导入作业已经成功Commit，但是由于某种原因并不能立即可见。我们可以视作已经成功不必重试导入；
Label Already Exists：表明该Label已经被其他作业占用，可能是导入成功，也可能是正在导入；
Fail：此次导入失败，可以指定Label重试此次作业。

Message：导入状态详细的说明。失败时会返回具体的失败原因。

NumberTotalRows：从数据流中读取到的总行数。

NumberLoadedRows：此次导入的数据行数，只有在Success时有效。

NumberFilteredRows：此次导入过滤掉的行数，即数据质量不合格的行数。

NumberUnselectedRows：此次导入，通过where条件被过滤掉的行数。

LoadBytes：此次导入的源文件数据量大小。

LoadTimeMs：此次导入所用的时间。

ErrorURL: 被过滤数据的具体内容，仅保留前1000条。当导入失败时，我们可以curl这里返回的url来查看错误详情（使用curl获取错误详情时，这里的url需要用双引号引起来）。

在使用Stream Load导入时，我们强烈建议为每个任务设置一个唯一的辨识度高的label，这样就可以通过get label state命令查看对应label的导入情况，例如：

curl -u root:root http://192.168.110.101:8030/api/starrocks/get_load_state?label=car_status_20211026001

返回结果：

{"state":"VISIBLE","status":"OK","msg":"Success"}

2、数据转化

在导入本地数据文件时，可能会出现目标表中的字段与数据文件中的列不完全匹配的情况，比如数据文件中多几列、少几列、列顺序不一致或者需要生成衍生列等情况，这时我们可以在Stream Load命令中直接进行数据转换。还以表car_status为例，我们分情况展开：

数据文件多几列

若我们需要导入的数据文件/opt/datafiles/car_status_2.csv中的数据多了一列status列（倒数第二列）：

10582,1537436416686,0,17.0,正常,495.0

10582,1537436447865,0,22.0,正常,395.0

10582,1537436475203,0,19.0,异常,225.0

我们可以通过在-H中指定columns来进行列的过滤，Stream Load导入命令为：

curl --location-trusted -u root:root -H "label:car_status_20211026002" -H "column_separator:," -H "columns:did,event_time,load_weight,speed,status,voltage" -T /opt/datafiles/car_status_2.csv http://192.168.110.101:8030/api/starrocks/car_status/_stream_load

这里注意，在columns参数中我们指定的是数据文件中的列名及顺序。当columns参数中的列名与目标表中字段名相同，该列数据正常导入（比如参数中的did、event_time、load_weight、speed和voltage列，它们可以和car_status表对应，就会正常导入。columns参数中列的顺序可以和目标表的不一致，只需要字段名相同，目标表就可以正常获取数据）。当参数中的列在目标表中不存在，该列数据会在导入过程中被忽略掉（比如参数中的status列，其在car_status表中不存在，导入时就会被过滤掉）。

数据文件中少几列（无法直接导入）

先说结论，当数据文件中的列较目标表中少时，我们没有办法直接导入。下面使用会报错的导入命令来演示出现问题后的排查步骤。

比如需要导入的数据文件/opt/datafiles/car_status_3.csv中的数据少了一列load_weight列：

10583,1537436416686,17.0,495.0

10583,1537436447865,22.0,395.0

10583,1537436475203,19.0,225.0

在Stream Load命令中，我们还将columns参数设置和数据文件中的列保持一致，那么导入命令我们写为：

curl --location-trusted -u root:root -H "label:car_status_20211026003" -H "column_separator:," -H "columns:did,event_time,speed,voltage" -T /opt/datafiles/car_status_3.csv http://192.168.110.101:8030/api/starrocks/car_status/_stream_load

执行，发现报错too many filtered rows：

{

    "TxnId": 12599,

    "Label": "car_status_20211026003",

    "Status": "Fail",

    "Message": "too many filtered rows",

    "NumberTotalRows": 3,

    "NumberLoadedRows": 0,

    "NumberFilteredRows": 3,

    "NumberUnselectedRows": 0,

    "LoadBytes": 94,

    "LoadTimeMs": 23,

    "BeginTxnTimeMs": 1,

    "StreamLoadPutTimeMs": 1,

    "ReadDataTimeMs": 0,

    "WriteDataTimeMs": 16,

    "CommitAndPublishTimeMs": 0,

    "ErrorURL": "http://192.168.110.101:8040/api/_load_error_log?file=__shard_0/error_log_insert_stmt_ba4b34ed-898f-2246-fe63-a1c3de38b99a_ba4b34ed898f2246_fe63a1c3de38b99a"

}

从Message中我们看不出具体的错误信息，这里我们就需要使用ErrorURL的信息：

curl http://192.168.110.101:8040/api/_load_error_log?file=__shard_0/error_log_insert_stmt_ba4b34ed-898f-2246-fe63-a1c3de38b99a_ba4b34ed898f2246_fe63a1c3de38b99a

得到信息示例如下：

Reason: column count mismatch, expect=5 real=4. src line: [10581,1537436416686,17.0,495.0];

此时我们就发现错误原因是列数不匹配，由于目标表car_status中有5个字段，所以导入时的预期列即为5列，而当前只设置导入4列数据，故导入失败。

总结来说：若目标表中存在某字段，但在columns参数中未指定，那么导入就会失败报错。

生成衍生列

在上面我们提到，若数据文件较目标表缺少列，我们没有办法直接进行导入。还以car_status_3.csv文件为例，若我们确实需要将其导入表car_status中，并将缺少的load_weight列的值设为null，我们就需要使用衍生列的写法，比如：

curl --location-trusted -u root:root -H "label:car_status_20211026003" -H "column_separator:," -H "columns:did,event_time,speed,voltage,load_weight=null" -T /opt/datafiles/car_status_3.csv http://192.168.110.101:8030/api/starrocks/car_status/_stream_load

衍生列除了设置常量值，更多的会使用函数，对数据文件中已有的字段进行函数处理，从而得到衍生列的值。

这里咱们举一个业务中经常遇到的数据精度的例子。假设我们需要导入数据文件/opt/datafiles/car_status_4.csv，该文件中数据顺序和car_status表中的顺序一致，但第三列load_weight的数据精度较StarRocks表中的int类型高一些：

10584,1537436416686,11.0,13.0,475.0

10584,1537436447655,12.0,25.0,495.0

10584,1537436475628,11.0,1.0,465.0

观察数据，我们发现可以直接舍弃小数点后的0，那么就可以left()函数对数据文件中的字段进行转化，Stream Load语句如下：

curl --location-trusted -u root:root -H "label:car_status_20211026004" -H "column_separator:," -H "columns:did,event_time,tmp,speed,voltage,load_weight=left(tmp,2)" -T /opt/datafiles/car_status_4.csv http://192.168.110.101:8030/api/starrocks/car_status/_stream_load

通过上面的例子，我们发现使用函数对现有数据进行处理得到衍生列时，需要注意以下三点：

1、在写衍生列之前，需要先按照数据文件中列的顺序列出其所有列，需使用函数处理的列要先使用临时字段名占位，用以取值（比如例子中的tmp）。columns参数中列的顺序即为导入过程中从数据文件中的取值顺序；

2、列出衍生列，衍生列由前面的临时占位列通过函数处理得到，衍生列的列名需与目标表中的一致（前面提到过，当columns中字段名与目标表的列名匹配时，目标表才可以正常获取数据）。衍生列写法为col_name = func(tmp)，不能使用col_name = func(col_name)的写法（即占位列的名称与衍生列的名称不能相同）；

3、StarRocks自带的函数都支持在生成衍生列时使用，具体的函数可以参考官网文档中的“函数参考”部分。

列顺序不一致

为充分使用排序键的优势，在使用StarRocks建表时我们通常会将整数型的列放在最前面，这就可能出现StarRocks中表的字段顺序与其他数据库导出的数据文件的字段顺序不一致的情况。

这种情况下，我们只需要保证Stream Load命令中columns参数指定的字段顺序与数据文件中的一致即可，不需要再做其他处理。

我们一直在强调，columns参数中字段的左右顺序即为导入过程中从数据文件中取值的左右顺序，所以这里必须要和数据文件中字段的顺序一致，不然取值就乱套了。目标表的列顺序和columns参数中的列顺序没有任何关系，只要columns参数中的字段名称与目标表中的列名称能匹配的上，就可以完成导入。这部分，我们一定要区分的清楚。

例如，我们从Vertica导出得到的数据文件为/opt/datafiles/car_status_5.csv，数据文件中字段名与目标表中一致，但是顺序不同。数据文件car_status_5.csv中字段顺序为：did、load_weight、speed、voltage、event_time，其内容为：

10585,0.0,13.0,475.0,1537436416686

10585,0.0,25.0,495.0,1537436447655

10585,0.0,1.0,465.0,1537436475628

则导入时的Stream Load命令就可以直接写为：

curl --location-trusted -u root:root -H "label:car_status_20211026005" -H "column_separator:," -H "columns:did,load_weight,speed,voltage,event_time" -T /opt/datafiles/car_status_5.csv http://192.168.110.101:8030/api/starrocks/car_status/_stream_load

行的过滤

在使用Stream Load导入数据中，针对数据行的过滤有两类情况：

1、使用where参数设置筛选条件，仅导入符合条件的规范数据；

2、使用max_filter_ratio参数设置本次导入“最大容忍可过滤数据比例”，进而忽略掉一定比例的不规范数据，将剩余规范的数据进行导入。

针对第一类情况，我们举例说明。当前有数据文件/opt/datafiles/car_status_6.csv，其中的数据列与目标表中的一致，为：

10586,1537436416686,0,13.0,475.0

10586,1537436447655,0,25.0,495.0

10587,1537436475628,0,1.0,465.0

若我们仅需要导入did为10586的数据行，那么就可以使用where参数进行筛选，Stream Load命令如下：

curl --location-trusted -u root:root -H "label:car_status_20211026006" -H "column_separator:," -H "where:did=10586" -T /opt/datafiles/car_status_6.csv http://192.168.110.101:8030/api/starrocks/car_status/_stream_load

在返回值中，我们观察"NumberUnselectedRows": 1，即表示使用where参数过滤了1条数据。

针对存在不规范数据的第二类过滤情况，我们还列举一个生产中可能出现的例子，假设当前有数据文件/opt/datafiles/car_status_7.csv，其内有四行数据：

did,event_time,load_weight,speed,voltage

10587,1537436416686,0,13.0,475.0

10587,1537436447655,0,25.0,495.0

10587,1537436475628,0,1.0,465.0

我们发现，首行数据其实是数据的字段名，但是StarRocks是不会自动感知的，目前只会将其也当作普通数据处理。那么此时，首行数据就是一条不规范的数据。如果直接导入，由于数据格式与建表语句不匹配，那么这四条数据会整体导入失败（即原子性）。

我们先考虑是否可以通过where参数将其过滤掉，结论是针对car_status表是不行的，因为car_status表中所有字段的类型都是数值型，但首行的列名数据是文本型，没有办法进行隐式的转换（若表中存在字符型字段，我们就可以在Stream Load命令中通过-H "where: 列名 != '列名称'"将首行过滤掉）。

方案一行不通，那么我们就尝试通过max_filter_ratio参数设置容错率来实现导入，max_filter_ratio参数的取值范围是0~1，默认为0容忍。若希望将一批包含不规范内容的数据成功导入，那么容错比例的计算公式为：

max_filter_ratio≥质量不合格数据行数/原始文件的行数

以car_status_7.csv来计算：max_filter_ratio≥1/4=0.25

所以Stream Load命令可以写为：

curl --location-trusted -u root:root -H "label:car_status_20211026007" -H "column_separator:," -H "max_filter_ratio:0.25" -T /opt/datafiles/car_status_7.csv http://192.168.110.101:8030/api/starrocks/car_status/_stream_load

观察返回值：

{

    "TxnId": 12653,

    "Label": "car_status_20211026007",

    "Status": "Success",

    "Message": "OK",

    "NumberTotalRows": 4,

    "NumberLoadedRows": 3,

    "NumberFilteredRows": 1,

    "NumberUnselectedRows": 0,

    "LoadBytes": 140,

    "LoadTimeMs": 38,

    "BeginTxnTimeMs": 0,

    "StreamLoadPutTimeMs": 0,

    "ReadDataTimeMs": 0,

    "WriteDataTimeMs": 15,

    "CommitAndPublishTimeMs": 21,

    "ErrorURL": "http://192.168.110.102:8040/api/_load_error_log?file=__shard_2/error_log_insert_stmt_374c1b3e-ca98-33c1-52c8-4954143ae5a9_374c1b3eca9833c1_52c84954143ae5a9"

}

我们发现"NumberFilteredRows": 1，也即数据质量不合格而被过滤的行数为1。同时我们还发现此时虽然Status为Success，但ErrorURL中仍旧是有被过滤掉的不规范的数据信息的。通过url查看错误详情：

curl "http://192.168.110.102:8040/api/_load_error_log?file=__shard_2/error_log_insert_stmt_374c1b3e-ca98-33c1-52c8-4954143ae5a9_374c1b3eca9833c1_52c84954143ae5a9"

Reason: null value for not null column, column=did. src line: [];

Reason: null value for not null column, column=event_time. src line: [];

我们发现报错的原因是“向非空列导入了空值”。分析其原因，是我们创建表car_status时，为did列和event_time列设置了非空属性。而在导入过程中，数据文件car_status_7.csv首行内容从字符类型强制转换为数值型时，转换失败成为null值，null值在入库时与字段非空属性冲突，进而报错。

这里我们可以推测一下，若car_status表建表时我们没有为字段did和event_time设置非空属性，那么默认情况下，即便我们不设置容错率，本次导入也能够成功的，但导入的数据将会是“1行null值+3行数据”。

为了验证咱们的推测，我们创建临时表car_status_tmp，去除表car_status中did列和event_time列的非空属性：

CREATE TABLE IF NOT EXISTS starrocks.`car_status_tmp` (

`did` int(11) NULL COMMENT "",

`event_time` bigint(20) NULL COMMENT "",

`load_weight` int(10) NULL COMMENT "",

`speed` float NULL COMMENT "",

`voltage` float NULL COMMENT ""

)

DUPLICATE KEY(`did`, `event_time`)

DISTRIBUTED BY HASH(`did`) BUCKETS 10;

还使用/opt/datafiles/car_status_7.csv数据文件，先在默认情况下直接导入：

curl --location-trusted -u root:root -H "label:car_status_tmp_20211026001" -H "column_separator:," -T /opt/datafiles/car_status_7.csv http://192.168.110.101:8030/api/starrocks/car_status_tmp/_stream_load

导入完成后执行查询：

mysql> select * from car_status_tmp;

+-----------+----------------------+---------------------+------------+-------------+

| did | event_time | load_weight | speed | voltage |

+-----------+----------------------+---------------------+------------+-------------+

| NULL |          NULL |        NULL | NULL |    NULL |

| 10587 | 1537436416686 |           0 |    13 |     475 |

| 10587 | 1537436447655 |           0 |    25    |     495   |

| 10587 | 1537436475628 |           0 |     1 |     465 |

+-----------+----------------------+---------------------+------------+-------------+

结果符合预期，但是导入空值显然是不太严谨的。当目标表的字段没有非空属性时，我们有没有其他方式能够限制这类空值的导入？

查找官方文档，推测应该可以通过strict mode严格模式实现：开启严格模式，即可对“原始数据不为空值，在参与列类型转换后结果为空值”的情况进行限制。

在Stream Load中加入-H "strict_mode=true"开启严格模式，指定新的label，再次对文件/opt/datafiles/car_status_7.csv进行导入：

curl --location-trusted -u root:root -H "label:car_status_tmp_20211026002" -H "column_separator:," -H "strict_mode=true" -T /opt/datafiles/car_status_7.csv http://192.168.110.101:8030/api/starrocks/car_status_tmp/_stream_load

发现仍能导入成功，这里应该是不太严谨的，已向StarRocks提交issue，StarRocks测试同学回复在复测中，目前2.0.1版本中该问题应该还存在。

3、Json导入

Stream Load也支持导入本地的json文件。当json格式较为复杂时，我们也可以通过指定jsonpath实现精准导入。

我们再创建演示表sales：

CREATE TABLE IF NOT EXISTS sales (

    `category` varchar(512) NULL COMMENT "",

    `author` varchar(512) NULL COMMENT "",

    `title` varchar(512) NULL COMMENT "",

    `price` double NULL COMMENT ""

)

DISTRIBUTED BY HASH(category) BUCKETS 10;

简单导入

假设现在有json文件/opt/datafiles/sales_1.json，其数据格式为：

[{"category":"C++","author":"avc","title":"C++ primer","price":89.5},

{"category":"Java","author":"avc","title":"Effective Java","price":95},

{"category":"Linux","author":"avc","title":"Linux kernel","price":195}]

不同于csv文件，在使用Stream Load导入json时，就没有分隔符的概念了。我们需要在Header中指定导入格式为json，因为sales_1.json中的数据是以数组开始，并且数组中每个对象是一条记录，这样我们就需要设置strip_outer_array属性成true，表示展平数组。导入命令如下：

curl --location-trusted -u root:root -H "label:sales_20211028001" -H "format:json" -H "strip_outer_array:true" -T /opt/datafiles/sales_1.json http://192.168.110.101:8030/api/starrocks/sales/_stream_load

指定jsonpath精准导入

假设有一个相对复杂的json文件/opt/datafiles/sales_2.json，其内容为：

{

"RECORDS":[

{"category":"11","title":"SayingsoftheCentury","price":895,"timestamp":1589191587},

{"category":"22","author":"2avc","price":895,"timestamp":1589191487},

{"category":"33","author":"3avc","title":"SayingsoftheCentury","timestamp":1589191387}

]}

若只希望导入category、author、price三个属性，我们就可以指定json根节点和jsonpath。写法为：

curl --location-trusted -u root:root -H "columns:category,price,author" -H "label:sales_20211028002" -H "format:json" -H "jsonpaths:[\"$.category\",\"$.price\",\"$.author\"]" -H "strip_outer_array:true" -H "json_root:$.RECORDS" -T /opt/datafiles/sales_2.json http://192.168.110.101:8030/api/starrocks/sales/_stream_load

JsonPath表达式是提取给定JSON文档的部分内容的通用写法，这里的\用来给双引号转义，$表示根成员对象。

jsonpaths内值的名称需要与json文件中key的名称一致。和导入csv文件时相同，columns参数中字段的顺序需要和jsonpaths中的顺序一致，来确保取值正确。

最后再简单引申一点，对于带有嵌套结构的json，例如：

{"id": 100, "content": {"city": "beijing", "code" : 1}}

我们的jsonpath就可以写为：

-H "jsonpaths: [\"$.id\",\"$.content.city\",\"$.content.code\"]"

4、参数调整

当我们使用Stream Load导入较大的数据文件时，有两个主要配置需要注意：

1、最大可导入文件大小限制

Stream Load默认限制最大可导入的数据文件为10G。如果我们要导入的数据文件大小超过这个值，就需要调整BE配置文件be.conf中的streaming_load_max_mb，单位是MB，例如修改为16000M：

streaming_load_max_mb = 16000

该参数在配置文件中默认没有显式的列出。修改配置文件后，需要重启BE让配置生效。

2、导入任务超时时间

万兆网卡下，Stream Load的导入速度约为80M每秒，我们可以根据本地文件的大小估算出一个超时时间。

Stream Load导入任务在设定的timeout时间内未完成就会被系统自动取消，变成CANCELLED状态。默认的timeout时间为600秒，我们可以在Stream Load命令中设定单个命令的超时时间，例如：-H "timeout:1000"。

当需要导入的文件比较多时，若文件都比较大，我们也可以通过修改FE配置文件fe.conf中的stream_load_default_timeout_second（以秒为单位）参数，对全局的超时时间进行修改，例如修改为1500秒（这个参数在配置文件中默认没有显式列出，直接添加即可）：

stream_load_default_timeout_second = 1500

注意：在单条Stream Load命令中设置超时时间的优先级是要高于FE配置文件的。

5、数据文件调整

编码格式转换

StarRocks目前只支持读取UTF-8编码格式的本地数据文件，其他编码的文件在导入时可能会因为乱码出现问题，所以我们在导入前通常需要先确认文件编码格式并对其进行编码转换。

这里举一个比较有代表性的例子，我们在Windows系统上用记事本工具生成一个包含汉字内容的origin.txt文件，上传至服务器node01的/opt/datafiles/目录下，当我们使用less命令浏览时会发现乱码：

[root@node01 ~]# cd /opt/datafiles

[root@node01 datafiles]# less origin.txt

ǿգ̤ʵ

查看其编码格式：

[root@node01 datafiles]# file --mime-encoding origin.txt

origin.txt: iso-8859-1

为其进行编码转换并生成UTF-8编码的新文件origin_utf-8.txt：

[root@node01 datafiles]# iconv -f iso-8859-1 -t utf-8 origin.txt > origin_utf-8.txt

正常来说生成的新文件应该是正常的，但是使用less查看新文件时仍然是乱码：

[root@node01 datafiles]# less origin_utf-8.txt

ÑöÍûÐÇ¿Õ£¬½ÅÌ¤ÊµµØ

这里就有一个应急小技巧，我们可以将异常文件origin.txt的编码视为gbk，再次转码覆盖生成文件origin_utf-8.txt：

[root@node01 datafiles]# iconv -f gbk -t utf-8 origin.txt > origin_utf-8.txt

[root@node01 datafiles]# less origin_utf-8.txt

仰望星空，脚踏实地

[root@node01 datafiles]# file --mime-encoding origin_utf-8.txt

origin_utf-8.txt: utf-8

编码转换成功，文件可以正常显示。

这里咱们只是举了一个比较特殊的例子，通常来说，我们使用file --mime-encoding命令获取文件的编码后，直接使用iconv命令进行转换就是正常的。

去除双引号

在使用工具将数据库数据导出至本地文件时，我们有时会忘记选择去掉文本或时间类型的双引号，而StarRocks在使用Stream Load导入数据时是不会区分双引号的，这样就会导致导入报错或者入库的数据中包含了双引号。

如果数据文件较大，我们编辑起来是比较艰难的，这种情况下我们可以使用如下命令将双引号替换为空：

sed -i 's/"//g' test.csv

完整语法：sed -i 's/原字符串/新字符串/g' /home/test.csv

删除首行

针对数据文件首行是列名的情况，我们也可以通过删除首行内容来解决，删除命令为：

[root@node01 ~]# sed -i '1d'

如果某个目录下的所有CSV数据文件首行都为列名，我们也可以批量删除，命令为：

[root@node01 datafiles]# find *.csv | xargs sed -i '1d'

大文件拆分

当本地数据文件过大时，使用Stream Load导入会是一个相对耗时且重试成本较高的过程。这时我们就可以将大文件拆分为几个体积合适的小文件，通过同时起多个Stream Load导入任务来加快整体的导入速度（Stream Load的并发数不受集群大小影响）。大文件拆分的脚本示例如下：

#!/bin/bash

# split_csv.sh data.csv 10000

file_path=$1

line_number=$2

# /a/b.c.d => file_name: /a/b.c file_ext: .d

file_name=${file_path%.*}

file_ext="."${file_path##*.}

filter_cmd='sh -c "{ head -n1 '${file_path}'; cat; } > $FILE"'

echo $filter_cmd

tail -n +2 $file_path | split -d -l $line_number -a 4 --additional-suffix $file_ext --filter="$filter_cmd" - ${file_name}_

例如将上面的脚本保存为split_csv.sh，然后执行：split_csv.sh data.csv 10000，就可以将data.csv按照每个文件10000行数据，分割为多个小文件，生成的小文件命名格式为：

data_0000.csv

data_0001.csv

data_0002.csv

data_0003.csv

data_0004.csv

...

6、REPLACE_IF_NOT_NULL

StarRocks目前还未支持Update语法，社区中不时有同学问起部分列导入该如何实现，这里就把这个聚合类型单独列出来。

REPLACE_IF_NOT_NULL是StarRocks中的一种聚合类型，其含义是当且仅当新导入数据是非NULL值时会发生替换行为，如果新导入的数据是NULL，那么StarRocks仍然会保留原值。该类型只对聚合模型表有用，其它模型不能指定这个。

注意：如果用在建表时REPLACE_IF_NOT_NULL列指定了NOT NULL，那么StarRocks仍然会将其转化NULL，不会向我们报错。我们可以借助这个聚合类型实现业务中“部分列导入”的效果。

还举两个简单的例子：

1）CSV示例：

CREATE TABLE IF NOT EXISTS starrocks.`car_status_rep` (

`did` int(11) NOT NULL COMMENT "",

`event_time` bigint(20) NOT NULL COMMENT "",

`load_weight` int(10) REPLACE_IF_NOT_NULL NULL COMMENT "",

`speed` float REPLACE_IF_NOT_NULL NULL COMMENT "",

`voltage` float REPLACE_IF_NOT_NULL NULL COMMENT ""

)

DISTRIBUTED BY HASH(`did`) BUCKETS 1

PROPERTIES (

"replication_num" = "1"

);

准备CSV数据文件car_status_rep1.csv：

10581,1537436416686,0,13.0,475.0

10581,1537436447655,0,25.0,495.0

10581,1537436475628,0,\N,465.0

执行导入：

curl --location-trusted -u root:root -H "label:car_status_20211026001" -H "column_separator:," -T /opt/module/datafiles/car_status_rep1.csv http://192.168.110.101:8030/api/starrocks/car_status_rep/_stream_load

再准备car_status_rep2.csv

10581,1537436447655,\N,\N,500.0

再次导入：

curl --location-trusted -u root:root -H "label:car_status_20211026002" -H "column_separator:," -T /opt/module/datafiles/car_status_rep2.csv http://192.168.110.101:8030/api/starrocks/car_status_rep/_stream_load

观察表中数据，确认已实现部分列更新：

mysql> select * from car_status_rep;

+-------------+------------------------+---------------------+-----------+---------------+

| did | event_time | load_weight | speed | voltage |

+-------------+------------------------+---------------------+-----------+---------------+

| 10581 | 1537436416686 |           0 |    13 |     475 |

| 10581 | 1537436447655 |           0 |    25 |     500 |

| 10581 | 1537436475628 |           0 | NULL |    465 |

+-------------+------------------------+---------------------+-----------+---------------+

2）Json示例：

CREATE TABLE IF NOT EXISTS sales_rep (

    `category` varchar(512) NULL COMMENT "",

    `author` varchar(512) NULL COMMENT "",

    `title` varchar(512) REPLACE_IF_NOT_NULL NULL COMMENT "",

    `price` double REPLACE_IF_NOT_NULL NULL COMMENT ""

)

DISTRIBUTED BY HASH(category) BUCKETS 1

PROPERTIES (

"replication_num" = "1"

);

准备Json数据文件sales_1.json：

[{"category":"C++","author":"avc","title":"C++ primer","price":89.5},

{"category":"Java","author":"avc","title":"Effective Java","price":95},

{"category":"Linux","author":"avc","title":"Linux kernel","price":195}]

执行导入：

curl --location-trusted -u root:root -H "label:sales_20211028001" -H "format:json" -H "strip_outer_array:true" -T /opt/module/datafiles/sales_1.json http://192.168.110.101:8030/api/starrocks/sales_rep/_stream_load

再次准备Json数据文件sales_2.json

[{"category":"C++","author":"avc","title":null,"price":100}]

执行导入，实现部分列更新：

curl --location-trusted -u root:root -H "label:sales_20211028002" -H "format:json" -H "strip_outer_array:true" -T /opt/module/datafiles/sales_2.json http://192.168.110.101:8030/api/starrocks/sales_rep/_stream_load

观察表中数据：

mysql> select * from sales_rep;

+----------------+------------+--------------------+----------+

| category | author | title    | price |

+----------------+------------+--------------------+----------+

| C++ | avc | C++ primer |   100 |

| Java | avc | Effective Java |    95 |

| Linux | avc | Linux kernel |   195 |

+----------------+------------+--------------------+----------+

7、JAVA开发Stream Load

这应该是我们业务中最常用的导入方式，在3.1章讲insert时已经介绍过，这里再给出一个简单的Java Demo（百度云地址见评论区）。不但是Java语言，在熟悉了Stream Load的原理后，我们也可以使用Python或者Go来基于Stream Load的思想来友好的进行数据导入。

你可能感兴趣的:(数据库,分布式,big,data,database,sql)

如何防止缓存雪崩、击穿和穿透?思维导图代码示例（java 架构) 用心去追梦缓存 java 架构
防止缓存雪崩、击穿和穿透是确保缓存系统稳定性和性能的关键。以下是一个思维导图结构，以及一个简化的Java架构代码示例，展示了如何通过设计和技术手段来预防这些问题。思维导图结构防止缓存问题缓存雪崩分散过期时间设置随机的TTL（Time-To-Live）限流与熔断服务降级流量控制预热机制提前加载热点数据缓存击穿分布式锁使用Redis等工具实现分布式锁缓存冗余多副本存储异步更新异步加载数据到缓存缓存穿透
DuckDB-Wasm 库详解 maply Node.js wasm 前端 node.js 数据库 IndexedDB
DuckDB-Wasm详解DuckDB-Wasm是一种浏览器端实现的DuckDB数据库技术，旨在将DuckDB的强大功能移植到浏览器环境中，通过WebAssembly技术在浏览器内运行SQL查询。它为处理本地数据、快速分析和交互式数据探索提供了一种高效的解决方案，避免了服务器端依赖。1.DuckDB简介DuckDB是一个开源的列存储数据库，专注于在线分析处理（OLAP），特别适合处理中小型数据集。
设计模式01：创建型设计模式之单例、简单工厂的使用情景及其基础Demo 我是苏苏设计模式 java 开发语言
一、单例模式1.情景连接字符串管理2.好处代码简洁：可全局访问连接字符串。性能优化：一个程序一个连接实例，避免反复创建对象（连接）和销毁对象（连接）。线程安全：连接对象不会被重复创建，从而避免并发冲突。3.DemousingSystem;usingSqlSugar;publicclassSqlSugarSingleton{//使用Lazy来保证延迟初始化和线程安全//Lazy通过内部的机制确保在多
Vue3+Echarts 绘制省会地图 OPQ迷路的羔羊 echarts 前端 javascript vue.js
Vue3+Echarts绘制省会地图需求：绘制XX省会地图（背景颜色，边框颜色都可自定义，有相应代码注释）鼠标点击XX市区，区域变红色，再次点击，恢复默认蓝色鼠标移入XX市区，区域变橘色，鼠标移开，恢复默认蓝色效果图如下：在这里插入图片描述实现：1.前往https://datav.aliyun.com/portal/school/atlas/area_selector2.输入具体省份，然后复制JS
Objective-C语言的数据库交互 Code花园包罗万象 golang 开发语言后端
Objective-C语言的数据库交互引言在现代应用程序开发过程中，数据库在数据存储和管理方面起着至关重要的作用。对于iOS应用开发者而言，掌握如何在Objective-C中与数据库交互显得尤为重要。本文将全面探讨Objective-C的数据库交互，包括SQLite的基本用法、数据模型的设计、常用的数据库操作及在实际应用中的综合示例。1.数据库基础在深入Objective-C的数据库交互之前，我们
vue3 + echarts5.4.3 实现3D省份地图【动态icon】和生活比个Y 3d
vue3+echarts5.4.3实现3D省份地图【动态icon】vue3项目+echarts5.4.3实现效果：1.下载echarts插件2.按需引入echarts插件3.复制省份json文件1.[查找省份/全国的json文件的地址：](https://datav.aliyun.com/portal/school/atlas/area_selector)2.当前页面中引入刚才复制的json文件4
Dexie.js内存管理技巧：在大型数据集操作中避免浏览器崩溃 maply 前端 Node.js javascript 前端 Dexie.js IndexedDB 数据库内存管理
Dexie.js内存管理技巧：避免浏览器崩溃在使用Dexie.js操作大型数据集时，如果不注意内存管理，可能会导致浏览器内存溢出（OOM，OutofMemory）或崩溃。因此，以下内存管理技巧可用于优化性能，减少内存使用，避免浏览器崩溃。1.避免一次性加载大量数据当数据量较大时，不要一次性加载整个数据集，否则会导致浏览器占用过多内存。IndexedDB是基于磁盘的数据库，Dexie.js提供了流式
springboot毕设基于java的在线学习交流平台程序+论文明思计算机毕设 spring boot 课程设计后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着互联网技术的飞速发展和全球教育资源的日益丰富，在线学习已成为人们获取知识、提升技能的重要途径。特别是在近年来，受各种因素影响，线上教育需求激增，促使在线学习交流平台不断涌现。这些平台旨在打破传统教育的时空限制，为学习者提供更加灵活、个性化的学习体验。然而，当前市场上的在线学
高级java每日一道面试题-2025年01月16日-框架篇[Mybatis篇]-说说Mybatis的缓存机制? java我跟你拼了 java每日一道面试题 java mybatis 缓存一级缓存二级缓存工作原理全局配置
如果有遗漏,评论区告诉我进行补充面试官:说说Mybatis的缓存机制?我回答:在Java高级面试中，MyBatis的缓存机制是一个重要的话题。MyBatis是一个流行的Java持久化框架，它提供了强大的数据库访问能力和灵活的SQL映射配置。为了提高查询性能并减少数据库访问次数，MyBatis引入了缓存机制。下面将对MyBatis的缓存机制进行详细解释：MyBatis缓存机制概述MyBatis的缓存
python捕获异常青云游子 python
try:name="aaa"id="aaa"exceptExceptionase:print("任务报错")print(str(e))print(str(traceback.print_exc()))spark.sql("""insertintotabledim.aaaselect'1','666','{name}','{id}',null,null,null,null,current_times
Centos Linux 离线安装 MySQL 5.7、使用MySQL 寒水馨软件解惑 mysql centos 数据库 linux
CentosLinux离线安装MySQL5.7、使用MySQL视频教程链接：https://www.bilibili.com/video/BV1Nv4y1m7u4/1.MySQL简介MySQL是一个开源的关系型数据库管理系统，由瑞典MySQLAB公司开发，属于Oracle旗下产品，适合个人和中小型企业使用。2.准备工作2.1.拥有一台CentosLinux机器参考文章：《VMware安装Cento
【宝藏级】PyEcharts 超详细的使用指南奇怪的大象前端 html echarts python 前端
Python可视化神器-pyecharts手册pyecharts简介优点：安装：官方文档：pyecharts快速开始在`Notebook`中创建一个条形图：链式调用：配置选项：全局配置项`AnimationOpts`：画图动画配置项`InitOpts`：初始化配置项`ToolBoxFeatureOpts`和`ToolboxOpts`：工具箱配置项`TitleOpts`：标题配置项`DataZoom
CSV文件转换coe 一条九漏鱼 matlab fpga开发 matlab
CodeN=165;y=zeros(N,1);%unzip('Under_A.ila')A=importdata('Control_txA.csv');fid=fopen('demo.coe','wt');%-standardformatfprintf(fid,'MEMORY_INITIALIZATION_RADIX=16;\n');fprintf(fid,'MEMORY_INITIALIZATI
PostgreSQL 语法 lly202406 开发语言
PostgreSQL是一个功能强大的开源关系型数据库管理系统，它具有高度的可扩展性、稳定性和安全性，适用于各种规模的应用场景。以下是关于PostgreSQL语法的一些重要信息：数据库连接：使用psql命令可以连接到PostgreSQL数据库。连接时需要指定服务器地址、端口、用户名和数据库名称。例如：psql-h127.0.0.1-Udbuser-p5832-ddatabase【1†source】。
使用spring boot写一个学生管理系统 db_hkq_2039 spring boot 后端 java
目录前言二、博客地址三、实现步骤3.1创建SpringBoot项目3.2连接数据库3.3代码层级3.3.1model层3.3.2Repository层3.3.3service层3.3.4控制层controller3.3.5视图层3.3.6BootStrap4.1登录4.2增4.3删4.4查4.5改4.6分页总结前言学生管理系统是一种常见的应用程序，它可以用于管理学生、学院、班级等信息，是许多企业和
ubuntu 22.04（arm64）环境安装zabbix6.4.4 gaodi2002 ubuntu linux 运维服务器
参考https://www.zabbix.com/download?zabbix=6.0&os_distribution=ubuntu_arm64&os_version=22.04&components=server_frontend_agent&db=mysql&ws=apache在arm环境需要部署zabbix6，尝试过centos7编译、centos8编译、docker部署，都不是想要的结果
linux（arm）安装mysql步骤余额很不足 mysql linux linux mysql 运维数据库 arm开发
1、添加mysql用户组和mysql用户]#groupadd-rmysql&&useradd-r-gmysql-s/sbin/nologin-Mmysql2、安装依赖libaioyuminstall-ylibaio*3、下载mysql对应版本wgethttps://obs.cn-north-4.myhuaweicloud.com/obs-mirror-ftp4/database/mysql-5.7
【RFC2663 IP 网络地址转换器 (NAT) 术语和注意事项】（翻译）羊羊洒洒_Blog rfc tcpip
原文https://datatracker.ietf.org/doc/html/rfc2663IPNetworkAddressTranslator(NAT)TerminologyandConsiderationsIP网络地址转换器(NAT)术语和注意事项前言本文档背后的动机是明确与网络地址转换器结合使用的术语。术语“网络地址转换器”在不同的上下文中有不同的含义。本文档的目的是定义各种类型的NAT并
安装 Erlang：一步步教你安装和配置 Erlang 环境 AzProcessgroup erlang c#开发语言
Erlang是一种功能强大的编程语言和运行时环境，特别适用于构建高可靠性、并发性和分布式性能的应用程序。在本文中，我将为您提供安装和配置Erlang环境的详细步骤。步骤1：下载Erlang安装包首先，让我们从Erlang官方网站下载适用于您的操作系统的最新版本的Erlang安装包。您可以在https://www.erlang.org/downloads找到可用的安装包。选择与您的操作系统和体系结构
【YashanDB知识库】YashanDB获取统计信息数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7106885.html?templateId=171...在测试环境重现生产环境SQL语句执行计划问题时，需要使用生产环境相关表的统计信息模拟。“变更产生风险”，更新统计信息之后，有些SQL语句的执行计划可能改变，可能变好，也可能变差，纠正SQL语句执行计划比较有效的手段之一是回退统
《鸿蒙Next旅游应用：人工智能赋能个性化与智能导览新体验》人工智能深度学习
随着鸿蒙Next的推出，旅游应用迎来了全新的发展机遇，借助人工智能技术能为用户带来更出色的个性化推荐和智能导览服务。鸿蒙Next与人工智能融合优势鸿蒙Next拥有强大的分布式能力和原生智能体验。其能打破设备界限，实现多设备协同，让用户在手机、平板、智能手表等设备上无缝使用旅游应用。同时，依托华为强大的AI技术和自研的“盘古”大模型，为旅游应用提供了强大的智能支持。个性化推荐实现方式用户数据收集与分
基于单片机的分布式智能输液系统设计 01单片机设计单片机单片机嵌入式硬件
**单片机设计介绍，基于单片机的分布式智能输液系统设计文章目录一概要二、功能设计设计思路三、软件设计原理图五、程序六、文章目录一概要基于单片机的分布式智能输液系统设计概要如下：一、系统概述基于单片机的分布式智能输液系统是一种集成化、智能化的医疗设备，旨在实现对多个输液过程的实时监测、控制和管理。该系统通过单片机作为核心控制单元，结合传感器技术、无线通信技术和人机交互界面，实现输液数据的采集、处
《软硬协同优化，解锁鸿蒙系统AI应用性能新高度》深度学习人工智能
在当今数字化时代，鸿蒙系统与人工智能的融合正逐渐成为科技领域的热门话题。如何通过软件和硬件协同优化，进一步提升鸿蒙系统中AI应用的整体性能，成为了开发者和技术爱好者们关注的焦点。鸿蒙系统与AI应用的融合现状鸿蒙系统以其独特的微内核架构和分布式特性，为AI应用提供了良好的运行环境。目前，鸿蒙系统中的AI应用已经涵盖了语音助手、图像识别、智能推荐等多个领域，为用户带来了更加智能、便捷的体验。然而，随着
Python酷库之旅-第三方库Pandas(117) 神奇夜光杯 python pandas 开发语言人工智能标准库及第三方库 excel 学习与成长
目录一、用法精讲516、pandas.DataFrame.add_suffix方法516-1、语法516-2、参数516-3、功能516-4、返回值516-5、说明516-6、用法516-6-1、数据准备516-6-2、代码示例516-6-3、结果输出517、pandas.DataFrame.align方法517-1、语法517-2、参数517-3、功能517-4、返回值517-5、说明517-6
《解锁鸿蒙系统AI能力，开启智能应用开发新时代》人工智能深度学习
在当今科技飞速发展的时代，鸿蒙系统以其独特的分布式架构和强大的AI能力，为开发者们带来了前所未有的机遇。本文将深入探讨开发者如何利用鸿蒙系统的AI能力开发更智能的应用，开启智能应用开发的新时代。鸿蒙系统构筑了15+系统级的AI能力，并开放了14+AI控件，覆盖图像、语音、智能推荐等领域。这意味着开发者无需从头搭建复杂的AI模型和算法，只需通过低至“一行代码”调用系统级原生AI能力，如文本识别、视觉
云原生周刊：Docker 的替代方案云计算
开源项目推荐DitoDito是一个用Go语言编写的高级Layer7反向代理服务器，提供灵活的中间件支持、后端连接的自定义证书处理、动态配置重载，以及与Redis的分布式缓存和速率限制功能。其主要特性包括高效处理HTTP和HTTPS请求、支持WebSocket代理、动态配置热重载、分布式速率限制和缓存、以及自定义TLS证书管理等。Dito的设计注重灵活性和可扩展性，允许用户根据自身需求进行定制，满足
云原生周刊：Prometheus 3.0 Beta 发布｜2024.09.16 KubeSphere 云原生 k8s 容器平台 kubesphere 云计算
开源项目推荐KumaKuma是一个现代化的基于Envoy的服务网格，能够在每个云平台上运行，支持单区域或多区域部署，兼容Kubernetes和虚拟机。凭借其广泛的通用工作负载支持，以及对Envoy数据平面代理技术的原生支持（但无需Envoy专业知识），Kuma提供了现代化的L4-L7服务连接、发现、安全、可观察性、路由等功能，适用于任何平台上的任何服务，包括数据库。TopoLVMTopoLVM是一
C# Linq 多表查询鹿人甲丁 .net c#linq
在C#中处理数据时，语言集成查询（LINQ）是一个强大的工具，它允许我们以类似于数据库查询的方式查询集合。LINQ进行多表查询，包括内连接、组连接、左连接和交叉连接。基础数据模型首先定义几个基础的数据模型类：//学生publicclassStudent{publicintStudentId{get;set;}publicstringName{get;set;}}//班级publicclassCla
如何设计一款分布式数据库借雨醉东风热点追踪分布式
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可接项目赚外快，绝对划算。不仅学会如何编程，还将学会如何将AI技术应用到实际问题中，为您的职业生涯增添一笔宝贵的财富
高防是什么，DDos是什么不正经随记 ddos
一、高防是什么“高防”通常是指“高防御”，在网络安全领域，它通常指的是高防御能力的服务器或网络服务。这些服务主要用于防御各种网络攻击，尤其是DDoS（分布式拒绝服务）攻击。高防服务器高防服务器是指具备高防御能力的服务器，能够抵御大规模的DDoS攻击。这些服务器通常位于具备高带宽和高防御能力的数据中心，可以有效地过滤恶意流量，确保正常的业务运行。高防IP高防IP是一种特殊的IP地址，具有高防御能力，
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要