sunjian286

Apache Doris 入门教程18：数据导出

数据导出

数据导出（Export）是 Doris 提供的一种将数据导出的功能。该功能可以将用户指定的表或分区的数据，以文本的格式，通过 Broker 进程导出到远端存储上，如 HDFS / 对象存储（支持S3协议）等。

本文档主要介绍 Export 的基本原理、使用方式、最佳实践以及注意事项。

原理

用户提交一个 Export 作业后。Doris 会统计这个作业涉及的所有 Tablet。然后对这些 Tablet 进行分组，每组生成一个特殊的查询计划。该查询计划会读取所包含的 Tablet 上的数据，然后通过 Broker 将数据写到远端存储指定的路径中，也可以通过S3协议直接导出到支持S3协议的远端存储上。

总体的调度方式如下:

+--------+
| Client |
+---+----+
    |  1. Submit Job
    |
+---v--------------------+
| FE                     |
|                        |
| +-------------------+  |
| | ExportPendingTask |  |
| +-------------------+  |
|                        | 2. Generate Tasks
| +--------------------+ |
| | ExportExportingTask | |
| +--------------------+ |
|                        |
| +-----------+          |     +----+   +------+   +---------+
| | QueryPlan +----------------> BE +--->Broker+--->         |
| +-----------+          |     +----+   +------+   | Remote  |
| +-----------+          |     +----+   +------+   | Storage |
| | QueryPlan +----------------> BE +--->Broker+--->         |
| +-----------+          |     +----+   +------+   +---------+
+------------------------+         3. Execute Tasks

用户提交一个 Export 作业到 FE。
FE 的 Export 调度器会通过两阶段来执行一个 Export 作业：
PENDING：FE 生成 ExportPendingTask，向 BE 发送 snapshot 命令，对所有涉及到的 Tablet 做一个快照。并生成多个查询计划。
EXPORTING：FE 生成 ExportExportingTask，开始执行查询计划。

查询计划拆分

Export 作业会生成多个查询计划，每个查询计划负责扫描一部分 Tablet。每个查询计划扫描的 Tablet 个数由 FE 配置参数 export_tablet_num_per_task 指定，默认为 5。即假设一共 100 个 Tablet，则会生成 20 个查询计划。用户也可以在提交作业时，通过作业属性 tablet_num_per_task 指定这个数值。

一个作业的多个查询计划顺序执行。

查询计划执行

一个查询计划扫描多个分片，将读取的数据以行的形式组织，每 1024 行为一个 batch，调用 Broker 写入到远端存储上。

查询计划遇到错误会整体自动重试 3 次。如果一个查询计划重试 3 次依然失败，则整个作业失败。

Doris 会首先在指定的远端存储的路径中，建立一个名为 __doris_export_tmp_12345 的临时目录（其中 12345 为作业 id）。导出的数据首先会写入这个临时目录。每个查询计划会生成一个文件，文件名示例：

export-data-c69fcf2b6db5420f-a96b94c1ff8bccef-1561453713822

其中 c69fcf2b6db5420f-a96b94c1ff8bccef 为查询计划的 query id。1561453713822 为文件生成的时间戳。

当所有数据都导出后，Doris 会将这些文件 rename 到用户指定的路径中。

Broker 参数

Export 需要借助 Broker 进程访问远端存储，不同的 Broker 需要提供不同的参数，具体请参阅 Broker文档

开始导出

Export 的详细用法可参考 SHOW EXPORT 。

导出到HDFS

EXPORT TABLE db1.tbl1 
PARTITION (p1,p2)
[WHERE [expr]]
TO "hdfs://host/path/to/export/" 
PROPERTIES
(
    "label" = "mylabel",
    "column_separator"=",",
    "columns" = "col1,col2",
    "exec_mem_limit"="2147483648",
    "timeout" = "3600"
)
WITH BROKER "hdfs"
(
    "username" = "user",
    "password" = "passwd"
);

label：本次导出作业的标识。后续可以使用这个标识查看作业状态。
column_separator：列分隔符。默认为 \t。支持不可见字符，比如 '\x07'。
columns：要导出的列，使用英文状态逗号隔开，如果不填这个参数默认是导出表的所有列。
line_delimiter：行分隔符。默认为 \n。支持不可见字符，比如 '\x07'。
exec_mem_limit：表示 Export 作业中，一个查询计划在单个 BE 上的内存使用限制。默认 2GB。单位字节。
timeout：作业超时时间。默认 2小时。单位秒。
tablet_num_per_task：每个查询计划分配的最大分片数。默认为 5。

导出到对象存储

通过s3 协议直接将数据导出到指定的存储.

EXPORT TABLE test TO "s3://bucket/path/to/export/dir/" WITH S3  (
        "AWS_ENDPOINT" = "http://host",
        "AWS_ACCESS_KEY" = "AK",
        "AWS_SECRET_KEY"="SK",
        "AWS_REGION" = "region"
    );

AWS_ACCESS_KEY/AWS_SECRET_KEY：是您访问对象存储的ACCESS_KEY/SECRET_KEY
AWS_ENDPOINT：Endpoint表示对象存储对外服务的访问域名.
AWS_REGION：表示对象存储数据中心所在的地域.

查看导出状态

提交作业后，可以通过 SHOW EXPORT 命令查询导出作业状态。结果举例如下：

mysql> show EXPORT\G;
*************************** 1. row ***************************
     JobId: 14008
     State: FINISHED
  Progress: 100%
  TaskInfo: {"partitions":["*"],"exec mem limit":2147483648,"column separator":",","line delimiter":"\n","tablet num":1,"broker":"hdfs","coord num":1,"db":"default_cluster:db1","tbl":"tbl3"}
      Path: hdfs://host/path/to/export/
CreateTime: 2019-06-25 17:08:24
 StartTime: 2019-06-25 17:08:28
FinishTime: 2019-06-25 17:08:34
   Timeout: 3600
  ErrorMsg: NULL
1 row in set (0.01 sec)

JobId：作业的唯一 ID
State：作业状态：
- PENDING：作业待调度
- EXPORTING：数据导出中
- FINISHED：作业成功
- CANCELLED：作业失败
Progress：作业进度。该进度以查询计划为单位。假设一共 10 个查询计划，当前已完成 3 个，则进度为 30%。
TaskInfo：以 Json 格式展示的作业信息：
- db：数据库名
- tbl：表名
- partitions：指定导出的分区。* 表示所有分区。
- exec mem limit：查询计划内存使用限制。单位字节。
- column separator：导出文件的列分隔符。
- line delimiter：导出文件的行分隔符。
- tablet num：涉及的总 Tablet 数量。
- broker：使用的 broker 的名称。
- coord num：查询计划的个数。
Path：远端存储上的导出路径。
CreateTime/StartTime/FinishTime：作业的创建时间、开始调度时间和结束时间。
Timeout：作业超时时间。单位是秒。该时间从 CreateTime 开始计算。
ErrorMsg：如果作业出现错误，这里会显示错误原因。

取消导出任务

SinceVersion 1.2.2

提交作业后，可以通过 CANCEL EXPORT 命令取消导出作业。取消命令举例如下：

CANCEL EXPORT
FROM example_db
WHERE LABEL like "%example%";

最佳实践

查询计划的拆分

一个 Export 作业有多少查询计划需要执行，取决于总共有多少 Tablet，以及一个查询计划最多可以分配多少个 Tablet。因为多个查询计划是串行执行的，所以如果让一个查询计划处理更多的分片，则可以减少作业的执行时间。但如果查询计划出错（比如调用 Broker 的 RPC 失败，远端存储出现抖动等），过多的 Tablet 会导致一个查询计划的重试成本变高。所以需要合理安排查询计划的个数以及每个查询计划所需要扫描的分片数，在执行时间和执行成功率之间做出平衡。一般建议一个查询计划扫描的数据量在 3-5 GB内（一个表的 Tablet 的大小以及个数可以通过 SHOW TABLETS FROM tbl_name; 语句查看。）。

exec_mem_limit

通常一个 Export 作业的查询计划只有 扫描-导出 两部分，不涉及需要太多内存的计算逻辑。所以通常 2GB 的默认内存限制可以满足需求。但在某些场景下，比如一个查询计划，在同一个 BE 上需要扫描的 Tablet 过多，或者 Tablet 的数据版本过多时，可能会导致内存不足。此时需要通过这个参数设置更大的内存，比如 4GB、8GB 等。

注意事项

不建议一次性导出大量数据。一个 Export 作业建议的导出数据量最大在几十 GB。过大的导出会导致更多的垃圾文件和更高的重试成本。
如果表数据量过大，建议按照分区导出。
在 Export 作业运行过程中，如果 FE 发生重启或切主，则 Export 作业会失败，需要用户重新提交。
如果 Export 作业运行失败，在远端存储中产生的 __doris_export_tmp_xxx 临时目录，以及已经生成的文件不会被删除，需要用户手动删除。
如果 Export 作业运行成功，在远端存储中产生的 __doris_export_tmp_xxx 目录，根据远端存储的文件系统语义，可能会保留，也可能会被清除。比如对象存储（支持S3协议）中，通过 rename 操作将一个目录中的最后一个文件移走后，该目录也会被删除。如果该目录没有被清除，用户可以手动清除。
当 Export 运行完成后（成功或失败），FE 发生重启或切主，则 SHOW EXPORT 展示的作业的部分信息会丢失，无法查看。
Export 作业只会导出 Base 表的数据，不会导出 Rollup Index 的数据。
Export 作业会扫描数据，占用 IO 资源，可能会影响系统的查询延迟。

导出查询结果集

本文档介绍如何使用 SELECT INTO OUTFILE 命令进行查询结果的导出操作。

示例

导出到HDFS

将简单查询结果导出到文件 hdfs://path/to/result.txt，指定导出格式为 CSV。

SELECT * FROM tbl
INTO OUTFILE "hdfs://path/to/result_"
FORMAT AS CSV
PROPERTIES
(
    "broker.name" = "my_broker",
    "column_separator" = ",",
    "line_delimiter" = "\n"
);

导出到本地文件

导出到本地文件时需要先在fe.conf中配置enable_outfile_to_local=true

select * from tbl1 limit 10 
INTO OUTFILE "file:///home/work/path/result_";

更多用法可查看OUTFILE文档。

并发导出

默认情况下，查询结果集的导出是非并发的，也就是单点导出。如果用户希望查询结果集可以并发导出，需要满足以下条件：

session variable 'enable_parallel_outfile' 开启并发导出: set enable_parallel_outfile = true;
导出方式为 S3 , 或者 HDFS，而不是使用 broker
查询可以满足并发导出的需求，比如顶层不包含 sort 等单点节点。（后面会举例说明，哪种属于不可并发导出结果集的查询）

满足以上三个条件，就能触发并发导出查询结果集了。并发度 = be_instacne_num * parallel_fragment_exec_instance_num

如何验证结果集被并发导出

用户通过 session 变量设置开启并发导出后，如果想验证当前查询是否能进行并发导出，则可以通过下面这个方法。

explain select xxx from xxx where xxx  into outfile "s3://xxx" format as csv properties ("AWS_ENDPOINT" = "xxx", ...);

对查询进行 explain 后，Doris 会返回该查询的规划，如果你发现 RESULT FILE SINK 出现在 PLAN FRAGMENT 1 中，就说明导出并发开启成功了。如果 RESULT FILE SINK 出现在 PLAN FRAGMENT 0 中，则说明当前查询不能进行并发导出 (当前查询不同时满足并发导出的三个条件)。

并发导出的规划示例：
+-----------------------------------------------------------------------------+
| Explain String                                                              |
+-----------------------------------------------------------------------------+
| PLAN FRAGMENT 0                                                             |
|  OUTPUT EXPRS: |  |  |                      |
|   PARTITION: UNPARTITIONED                                                  |
|                                                                             |
|   RESULT SINK                                                               |
|                                                                             |
|   1:EXCHANGE                                                                |
|                                                                             |
| PLAN FRAGMENT 1                                                             |
|  OUTPUT EXPRS:`k1` + `k2`                                                   |
|   PARTITION: HASH_PARTITIONED: `default_cluster:test`.`multi_tablet`.`k1`   |
|                                                                             |
|   RESULT FILE SINK                                                          |
|   FILE PATH: s3://ml-bd-repo/bpit_test/outfile_1951_                        |
|   STORAGE TYPE: S3                                                          |
|                                                                             |
|   0:OlapScanNode                                                            |
|      TABLE: multi_tablet                                                    |
+-----------------------------------------------------------------------------+

返回结果

导出命令为同步命令。命令返回，即表示操作结束。同时会返回一行结果来展示导出的执行结果。

如果正常导出并返回，则结果如下：

mysql> select * from tbl1 limit 10 into outfile "file:///home/work/path/result_";
+------------+-----------+----------+--------------------------------------------------------------------+
| FileNumber | TotalRows | FileSize | URL                                                                |
+------------+-----------+----------+--------------------------------------------------------------------+
|          1 |         2 |        8 | file:///192.168.1.10/home/work/path/result_{fragment_instance_id}_ |
+------------+-----------+----------+--------------------------------------------------------------------+
1 row in set (0.05 sec)

FileNumber：最终生成的文件个数。
TotalRows：结果集行数。
FileSize：导出文件总大小。单位字节。
URL：如果是导出到本地磁盘，则这里显示具体导出到哪个 Compute Node。

如果进行了并发导出，则会返回多行数据。

+------------+-----------+----------+--------------------------------------------------------------------+
| FileNumber | TotalRows | FileSize | URL                                                                |
+------------+-----------+----------+--------------------------------------------------------------------+
|          1 |         3 |        7 | file:///192.168.1.10/home/work/path/result_{fragment_instance_id}_ |
|          1 |         2 |        4 | file:///192.168.1.11/home/work/path/result_{fragment_instance_id}_ |
+------------+-----------+----------+--------------------------------------------------------------------+
2 rows in set (2.218 sec)

如果执行错误，则会返回错误信息，如：

mysql> SELECT * FROM tbl INTO OUTFILE ...
ERROR 1064 (HY000): errCode = 2, detailMessage = Open broker writer failed ...

注意事项

如果不开启并发导出，查询结果是由单个 BE 节点，单线程导出的。因此导出时间和导出结果集大小正相关。开启并发导出可以降低导出的时间。
导出命令不会检查文件及文件路径是否存在。是否会自动创建路径、或是否会覆盖已存在文件，完全由远端存储系统的语义决定。
如果在导出过程中出现错误，可能会有导出文件残留在远端存储系统上。Doris 不会清理这些文件。需要用户手动清理。
导出命令的超时时间同查询的超时时间。可以通过 SET query_timeout=xxx 进行设置。
对于结果集为空的查询，依然会产生一个大小为0的文件。
文件切分会保证一行数据完整的存储在单一文件中。因此文件的大小并不严格等于 max_file_size。
对于部分输出为非可见字符的函数，如 BITMAP、HLL 类型，输出为 \N，即 NULL。
目前部分地理信息函数，如 ST_Point 的输出类型为 VARCHAR，但实际输出值为经过编码的二进制字符。当前这些函数会输出乱码。对于地理函数，请使用 ST_AsText 进行输出。

Mysqldump导出表结构或数据

Doris 在0.15 之后的版本已经支持通过mysqldump 工具导出数据或者表结构

使用示例

导出

导出 test 数据库中的 table1 表：mysqldump -h127.0.0.1 -P9030 -uroot --no-tablespaces --databases test --tables table1
导出 test 数据库中的 table1 表结构：mysqldump -h127.0.0.1 -P9030 -uroot --no-tablespaces --databases test --tables table1 --no-data
导出 test1, test2 数据库中所有表：mysqldump -h127.0.0.1 -P9030 -uroot --no-tablespaces --databases test1 test2
导出所有数据库和表 mysqldump -h127.0.0.1 -P9030 -uroot --no-tablespaces --all-databases 更多的使用参数可以参考mysqldump 的使用手册

导入

mysqldump 导出的结果可以重定向到文件中，之后可以通过 source 命令导入到Doris 中 source filename.sql

注意

由于Doris 中没有mysql 里的 tablespace 概念，因此在使用mysqldump 时要加上 --no-tablespaces 参数
使用mysqldump 导出数据和表结构仅用于开发测试或者数据量很小的情况，请勿用于大数据量的生产环境

SQL中使用正则表达式示例整理中台小A SQL sql 正则表达式数据库
--查询找到所有的名字以'门户'开头SELECTrs.`name`FROMsystem_product_inforsWHERErs.`name`REGEXP'^门户';--查询找到所有的名字以'平台'结尾SELECTrs.`name`FROMsystem_product_inforsWHERErs.`name`REGEXP'平台$';--查询找到所有的名字包函'直销员'的字符串SELECTrs.`
为什么阿里巴巴Java开发手册禁止使用存储过程？需要重新演唱 SQL java java 开发语言
阿里巴巴Java开发手册中禁止使用存储过程的原因主要基于以下几个方面的考虑：1.可维护性差复杂性：存储过程通常包含复杂的逻辑，随着业务逻辑的增加，存储过程的复杂性也会不断增加，导致维护成本高。调试困难：存储过程的调试通常比应用程序代码更困难，尤其是在分布式系统和微服务架构中。版本控制：存储过程的版本控制和变更管理相对复杂，难以与应用程序的版本控制流程集成。2.可移植性差数据库依赖：存储过程的语法和
9、SQL Server 2000 查询优化器详解 t4y5u6i7o SQL Server 2000性能优化之道 SQL Server 2000 查询优化器查询性能优化
SQLServer2000查询优化器详解1.查询优化器简介SQLServer2000包含一个名为查询优化器的组件，它会自动接收传递给它的查询，并尝试以最高效的方式执行查询。查询优化器的主要任务是通过最小化逻辑读取次数来优化查询性能。无论查询是从单个表中检索数据，还是从多个表中检索数据，查询优化器都会选择最有效率的执行路径。查询优化器不仅仅适用于SELECT语句，它同样适用于INSERT、UPDAT
2 MySQL配置文件详解笑Skr人啊
Windows图片.png复制配置文件[root@rootmysql]#cp/usr/share/mysql/my-huge.cnf/etc/my.cnfcp：是否覆盖"/etc/my.cnf"？y[client]port=3306#客户端端口号socket=/data/3306/mysql.sock#socket文件是linux/unix系统特有的，用户在该环境下的客户端连接可以不通过tcp/i
不用存储过程怎么处理大批量数据？读取大批量数据 liu_111111 ASP.Net高级
解决方案一：可以从几个方面着手：第一，减少网络的数据传输量第二，减少服务器的计算时间消耗第三、使用存贮过程可以有效的减少指令的数据量。第四、没有更新冲突的需求，那么请去掉检查数据库更新冲突的选项。这样可以减少数据传输量，并能减少服务器的计算时间。解决方案二：1、建立一个临时表2、把数据插入临时表3、写一个存储过程，把对应删除老表数据后，插入临时表数据4、执行上述存储过程
存储过程都有什么替代方案? 瑞信卡券提货系统存储过程
存储过程的替代方案主要有以下几种：ORM（对象关系映射）：ORM框架，如Hibernate、EntityFramework等，在客户端逻辑和数据库之间插入了一个层。这些框架能够生成SQL语句以在数据库上执行，从而避免了直接编写存储过程。使用ORM，开发人员可以在应用层表达复杂的业务逻辑，而无需将逻辑分散到存储过程中。ORM框架允许开发人员使用面向对象的方式操作数据库，提供了更高层次的抽象，使得代码
2023-04-12 王松奇
京心❤️达理想城店：王松奇2023年4月12日日精进落地真经严格就是爱，放纵既是害正能量语录每一颗螺丝都有标准每一颗螺丝都是标准产值目标：13万台次目标:80台油卡目标：13张今日体验今天开数据分析会台次少保养预存一定要盯紧中间10天要努力冲刺一下
你还在使用存储过程吗？
上周，reddit网r/dotnet区的网友technolang发帖：「你还在使用存储过程吗？」我很好奇为什么2024年了我们还在使用存储过程。难道网络应用中没有一个业务层来处理所有事情吗？依赖DBA并在数据库层创建依赖关系似乎没有必要。另外，存储过程调试起来很麻烦。所以它有什么好处呢？网友xabrol给出了非常用心的回答。他说：我不是说教，只是讲点事实。我从事咨询行业，曾在银行和抵押贷款公司工作
从0到1构建数据库安全审计系统：设计、实现与实战小张在编程数据库
引言2024年某金融机构发生数据泄露事件，内部审计日志显示，某运维人员在非工作时间执行了SELECT*FROMcustomer_info的全表查询，但当时未触发任何告警——这并非技术漏洞，而是数据库安全审计系统的“失效”。随着《数据安全法》《个人信息保护法》的落地，数据库作为企业核心资产，其操作行为的可追溯、风险的可预警已成为合规刚需。本文将从需求分析到代码实现，带你拆解一个企业级数据库安全审计系
python如何抓取网页里面的文字_如何利用python抓取网页文字、图片内容？ weixin_39917437
想必新老python学习者，对爬虫这一概念并不陌生，在如今大数据时代，很多场景都需要利用爬虫去爬取数据，而这刚好时python领域，如何实现？怎么做？一起来看下吧~获取图片：1、当我们浏览这个网站时，会发现，每一个页面的URL都是以网站的域名+page+页数组成，这样我们就可以逐一的访问该网站的网页了。2、当我们看图片列表时中，把鼠标放到图片，右击检查，我们发现，图片的内容由ul包裹的li组成，箭
Oracle Restore Points 彦祖的小号 Oracle oracle
（一）NormalRestorePoints一般还原点只是给恢复SCN起个别名方便使用，并不会生成类似flashbacklog，存储空间基本为0，并不保证一定能把数据库恢复到此还原点，你可以在RECOVERDATABASE、FLASHBACKDATABASE以及FLASHTALBE中使用CreatinganormalrestorepointassignsarestorepointnametoanS
enq: HW - contention jnrjian oracle sql
Symptoms1.Thereisaperformanceslowdownwithalargenumberofwaitsfor'enqHW-contention'.2.ASHReportsshowsthewaitevent'enqHW-contention'whichincludesSQLwithLOBObjects.CauseTheHWenqueueisusedtomanagethealloca
使用闪回数据库（FLASHBACK DATABASE）和还原点（RESTORE POINT）数语数行 Oracle备份与恢复 Oracle 数据库 database flashback 闪回数据库 restore point
这个章节讲述闪回数据库和还原点。作为数据保护策略整体的一部分，讨论配置，监控和维护这些特性。1．闪回数据库，还原点和保证还原点概述Oracle闪回数据库和还原点是相关的数据保护特性，让你可以按时间倒回数据，纠正在指定的时间窗口内任何逻辑数据损坏或用户错误导致的问题。这些特性相对于时间点恢复提供了一个更有效的替代方案，它不需要先还原数据库的备份，效果与数据库时间点恢复（DBPITR）类似。闪回数据库
ASM 下 file全名 jnrjian 数据库 oracle
HowtocollectthefullpathnameofthefilesinASMdiskgroupsSolutionSetyourORACLE_SIDtotheASMinstancename.ConnecttotheASMinstance:in10g:sqlplus/assysdbain11g:sqlplus/assysasmThenperformthefollowingquery:SELEC
Redis实战：第一章-初识Redis案例-文章投票随风而醒 MySQL/数据库 redis
redis全称REmoteDIctionaryServer，即远程字典服务，是一个由SalvatoreSanfilippo写的key-value存储系统。Redis是一个开源的使用ANSIC语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。它通常被称为数据结构服务器，因为值（value）可以是字符串(String),哈希(Map),
2025AI智能体平台，10个Agent智能体开发平台推荐 cczixun 人工智能智能体大数据安全
1、扣子（Coze）开发平台字节跳动推出的AI智能体开发平台，用户无需编程基础，通过拖拽和配置即可快速创建聊天机器人，并部署到豆包、飞书、抖音、微信等多个平台。平台提供超过1万+的插件，内置豆包・Functioncall32k、通义千问-Max8k等多个大模型，还具备知识库、数据库、图像流等功能。2、通义千问Agent平台阿里巴巴基于通义千问大模型打造的智能体开发框架，以强大的多模态能力和工具集成
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
飞算科技：以原创技术为翼，赋能产业数字化转型
在数字经济浪潮席卷全球的当下，一批专注于技术创新的中国企业正加速崛起，飞算数智科技（深圳）有限公司（简称“飞算科技”）便是其中的佼佼者。作为一家国家级高新技术企业，飞算科技以自主创新为核心驱动力，凭借互联网科技、大数据、人工智能等前沿技术，为各行业客户插上数字化转型的翅膀。飞算科技的定位清晰而坚定——自主创新型数字科技公司。这一定位不仅体现在其技术研发的方向上，更融入到为客户服务的每一个环节。无论
python实现自动化sql布尔盲注(二分查找) 海星船长丶 python 自动化 sql 网络安全 web安全
为了优化自动化布尔盲注的代码，我们可以使用二分查找来减少猜测次数，从而提高效率。以靶场sqli为例：importrequests#目标URLurl="http://127.0.0.1/sqli/Less-8/index.php"#要推断的数据库信息（例如：数据库名）database_name=""#字符集（可以根据需要扩展）charset="abcdefghijklmnopqrstuvwxyzAB
2018-03-19新零售是未来的商业模式吗？马云对新零售到底什么看法? 拼自己想要的梦想
马云对新零售到底什么不雅观不雅观点?其实，在此之前，新零售一词就已经在业界出现过，而马云此次的提出，使其作为一个正式的名词传布开来。马云认为互联网时代，传统零售行业受到了电商互联网的打击。将来，线下与线上零售将深度连系，再加当代物流，办事商把持大数据、云计较等立异手艺，构成将来新零售的概念。纯电商的时代很快将竣事，纯零售的情势也将被冲破，新零售将引领将来全新的商业形式。新零售是从哪里来的?新零售是
电科金仓AI数据库一体机发布：30%性能提升+自然语言运维，重塑数据底座！ Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
>百万级并发处理与聊天式数据库运维，正在中国企业机房掀起静默革命。“替换数据库是一件非常困难的事。”电科金仓总裁杜胜在7月15日北京发布会现场坦言。过去20多年里，国外数据库建立的标准让应用软件与数据库深度耦合，迁移复杂度高、改造成本大、停机风险难控。随着他身后大屏幕亮起**“数据库平替用金仓”**的全新口号，电科金仓正式向这一行业痛点宣战。这场名为“融合进化智领未来”的发布会，最耀眼的明星是**
云原生周刊：K8s 中的后量子密码学 KubeSphere 云原生云原生 kubernetes 密码学
开源项目推荐KanisterKanister是一个由CNCF托管的开源框架，最初由VeeamKasten团队创建，旨在简化Kubernetes上的应用程序级别数据操作管理。它通过定义Blueprint、ActionSet和Profile等CRD（自定义资源）及其相关组件，为专家提供一种模板化的方式，将复杂的数据库或分布式系统备份／恢复逻辑封装在可重用、可共享的蓝图中。Kanister支持异步或同步
大数据集群运维常见的一些问题以及处理方式
态）；若为YARN节点，重启NodeManager后手动将其加入集群。若为节点整体宕机：排查电源和网络，重启节点后，依次启动HDFS、YARN等服务进程，确认数据块完整性（避免因节点宕机导致副本不足）。2.网络问题现象：节点间通信超时（如HDFS心跳超时、YARN任务调度延迟）、数据传输卡顿。可能原因：交换机故障、网线松动、网络带宽过载、防火墙规则拦截。处理方式：用ping、traceroute检
第一部分：MySQL 基础与核心架构（第二节：存储引擎深度解析之 MySQL存储引擎选择策略） jarenyVO Mysql mysql 架构数据库
第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之MySQL存储引擎选择策略）文章目录第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之MySQL存储引擎选择策略）MySQL存储引擎选择策略深度解析一、存储引擎选择决策框架1.核心决策维度2.关键评估指标矩阵二、典型业务场景引擎选择策略1.电商系统2.内容管理系统3.金融系统三、性能与一致性权衡策略1.CAP理论应用2.读写
【RAG专题】如何选择合适的RAG架构？星际棋手人工智能
选择适合的RAG架构需结合自身业务需求、数据特点、性能要求等因素综合判断，以下是关键考量维度及对应架构选择建议：1.按数据规模与类型选择•小规模、单一类型数据（如纯文本文档库）：适合基础单阶段检索架构（检索模块+生成模块）。◦检索：用轻量级嵌入模型（如BGE-base、all-MiniLM）+简单向量数据库（如FAISS）。◦生成：搭配中小型LLM（如Llama2-7B、Mistral），无需复杂
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
大数据技术是解决什么问题的？ @佳瑞大数据
基础知识1TB（太字节）=1024GB1PB（拍字节）=1024TB大数据核心框架HadoopHadoop作为大数据技术生态的核心框架，主要解决了海量数据（TB/PB级）的存储、处理和分析难题，尤其是在传统数据库（如MySQL）和单机计算无法应对的场景下，提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点：海量数据的存储问题传统痛点：单机存储容量有限（如单服务器硬盘通常在TB
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
第一部分：MySQL 基础与核心架构（第二节：存储引擎深度解析之 InnoDB 架构与核心特性） jarenyVO Mysql mysql 架构数据库
第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之InnoDB架构与核心特性）文章目录第一部分：MySQL基础与核心架构（第二节：存储引擎深度解析之InnoDB架构与核心特性）一、InnoDB架构概述1.内存结构2.磁盘结构二、核心特性深度解析1.事务支持(ACID)2.多版本并发控制(MVCC)3.锁机制4.缓冲池优化5.双写缓冲区(DoubleWriteBuffer)三、关键性能优
Python处理MySQL大数据量：分页查询与性能优化 AI天才研究院 AI人工智能与大数据 python mysql 性能优化 ai
Python处理MySQL大数据量：分页查询与性能优化关键词：Python分页查询、MySQL性能优化、大数据量处理、LIMITOFFSET、索引优化摘要：当数据库表数据量达到百万级时，传统的LIMITOFFSET分页查询会出现明显性能瓶颈。本文从实际场景出发，用“图书馆找书”的通俗比喻拆解分页原理，结合Python代码示例和MySQL执行计划分析，详细讲解传统分页的痛点、优化思路（索引分页/覆盖
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓

Apache Doris 入门教程18：数据导出

数据导出

原理

查询计划拆分

查询计划执行

Broker 参数

开始导出

导出到HDFS

导出到对象存储

查看导出状态

取消导出任务

最佳实践

查询计划的拆分

exec_mem_limit

注意事项

相关配置

FE

更多帮助

导出查询结果集

示例

导出到HDFS

导出到本地文件

并发导出

如何验证结果集被并发导出

返回结果

注意事项

更多帮助

Mysqldump导出表结构或数据

使用示例

导出

导入

注意

你可能感兴趣的:(数据仓库,数据库,大数据,数据分析,mysql,sql)

Apache Doris 入门教程18：数据导出

数据导出

原理​

查询计划拆分​

查询计划执行​

Broker 参数​

开始导出​

导出到HDFS​

导出到对象存储​

查看导出状态​

取消导出任务​

最佳实践​

查询计划的拆分​

exec_mem_limit​

注意事项​

相关配置​

FE​

更多帮助​

导出查询结果集

示例​

导出到HDFS​

导出到本地文件​

并发导出​

如何验证结果集被并发导出​

返回结果​

注意事项​

更多帮助​

Mysqldump导出表结构或数据

使用示例​

导出​

导入​

注意​

你可能感兴趣的:(数据仓库,数据库,大数据,数据分析,mysql,sql)

原理

查询计划拆分

查询计划执行

Broker 参数

开始导出

导出到HDFS

导出到对象存储

查看导出状态

取消导出任务

最佳实践

查询计划的拆分

exec_mem_limit

注意事项

相关配置

FE

更多帮助

示例

导出到HDFS

导出到本地文件

并发导出

如何验证结果集被并发导出

返回结果

注意事项

更多帮助

使用示例

导出

导入

注意