junewgl

Text-to-SQL小白入门（一）

摘要

本文主要介绍了Text-to-SQL研究的定义、意义、研究方法以及未来展望，主要是对Text-to-SQL领域进行一个初步的认识和了解，适合初学者入门了解。

1 引言

作为Text-to-SQL领域的小白，学习该领域的最好方式就是看最新的综述文章，一般而言，综述文章都是由该领域的多位大牛综合上百篇文章形成的总结、沉淀和思考。通过学习综述文章，我们可以快速对该领域有一个全局的认识，站得高看得远还是很有道理的。同时学习综述文章，我们可以站在巨人的肩膀上，了解该领域的最新发展，避免出现闭门造车的情况。

那么今天我主要以2022年的2篇综述文章为主，简单介绍一下该研究领域。

1.第一篇综述文章标题为《A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions》，意思就是Text-to-SQL解析的概念、方法和未来方向。

- 发表期刊/会议：IEEE Transactions on Knowledge and Data Engineering，简称为TKDE，属于CCF-A类期刊，属于数据库/数据挖掘/内容检索上的顶刊！（如果不知道期刊会议等级可以通过中国计算机学会推荐国际学术会议和期刊目录（2022）这个链接查询）。
- 发表时间：2022年
- 论文作者：Bowen Qin, Binyuan Hui, Lihan Wang, Min Yang, Jinyang Li, Binhua Li, Ruiying Geng, Rongyu Cao, Jian, Sun, Luo Si, Fei Huang, Yongbin Li（可以看出团队阵容还是很强大的）
- 作者单位：中科院、阿里巴巴达摩院、香港大学
- 文章链接：https://arxiv.org/pdf/2208.13629.pdf

2.第二篇综述文章标题是《Recent Advances in Text-to-SQL: A Survey of What We Have and What We Expect》，意思就是Text-to-SQL领域的最新进展：关于我们所拥有该领域的知识以及和所期盼的发展方向的综述。

- 发表期刊/会议：International Conference on Computational Linguistics，简称COLOING，属于CCF-B类会议，属于人工智能领域/NLP领域有重要影响力的会议。（一般来说，ACL、NAACL、EMNLP、COLING被称为是NLP领域的四大顶会。）
- 发表时间：2022年
- 论文作者：Naihao Deng、Yulong Chen、 Yue Zhang
- 作者单位：密歇根大学（美国）、西湖大学
- 文章链接：https://arxiv.org/pdf/2208.10099v1.pdf

2 Text-to-SQL是什么？

了解一个研究领域，首先需要搞明白任务是什么？确定任务的输入输出边界是什么？也就是了解what？

Text-to-SQL（简写为T2S，或者是Text2SQL），顾名思义就是把文本转化为SQL语言，更学术一点的定义是：把数据库领域下的自然语言（Natural Language，简写为NL）问题，转化为在关系型数据库中可以执行的结构化查询语言（Structured Query Language，简写为SQL），因此T2S也可以被简写为NL2SQL。

举个例子比较直观，T2S任务给定一个表格Table，输入就是一段自然语言文本，输出就是SQL语句，如图1（Sun, Tang et al., 2018）所示：用户想要查询 “由安娜最初演唱的歌曲总数是多少？”，经过T2S任务解析后，输出SQL语句，执行模块再在数据库中执行SQL，返回执行结果：1。

输入：自然语言问题：“what 's the total number of songs originally performed by anna nalick？”
输出：SQL语句：“SELECT COUNT Song choice WHERE Original artist = anna christine nalick”

图1 Text-to-SQL例子

再举个中文场景的例子，比如给定如下表1，用户查询问题：“新浪网的周涨跌幅是多少？”，输出SQL语句“SELECT 周涨跌幅 FROM 表1 WHERE 名称 = '新浪'”，经过数据库SQL执行器后，得到输出-4.52.

输入：“新浪网的周涨跌幅是多少？”
输出：“SELECT 周涨跌幅 FROM 表1 WHERE 名称 = '新浪'”

表1 测试表

前不久，github上有个比较有意思的项目叫DB-GPT，专注于做数据库场景下的安全可靠隐私的大模型，目前已经有5.7k的star，可以直接体验一下T2S的功能，这里贴上几张效果图，详情可以参考点击前面的超链接进入使用。

如图2所示，根据自然语言生成SQL（这就是前面提到的T2S）

图2 DB-GPT中生成SQL效果图

如图3所示，与数据对话，直接查看结果（把自动生成的SQL语句在数据库中执行并展示到网页）

图3 DB-GPT中与数据对话效果图

3 Text-to-SQL有什么用？

我们前面提到了T2S的定义，了解了T2S最基础的概念是什么，那么接下来了解一下研究T2S的价值是什么，有什么意义，可以在哪些领域发挥作用，也就是了解why?

T2S可以让非专家用户无需费力地查询表，并在各种现实生活应用程序中发挥核心作用，如智能客户服务、智能问答和机器人导航等。

智能客户服务：假设一家电子商务公司拥有大量的客户数据,包括客户的订单信息、客户的问题和反馈等。这些数据通常存储在关系型数据库中,但是这些数据对于客户服务来说,查询和分析起来比较困难。因此,该公司采用Text-to-SQL技术将自然语言文本数据转化为结构化数据,以便更容易地进行查询和分析。例如,客户服务人员可以通过Text-to-SQL查询系统快速地检索出最近一段时间内提出的问题,并根据问题的类型、等级和优先级进行分类和处理。此外,Text-to-SQL还能够将自然语言问题转化为结构化问题,方便数据库进行问题的分析和处理,从而提高客户服务的效率和质量。
智能问答：智能问答系统通常需要大量的自然语言文本数据,以便能够理解用户的问题并给出相应的答案。Text-to-SQL可以将这些自然语言文本数据转化为结构化数据,以便更容易地进行查询和分析。例如,智能问答系统可以通过Text-to-SQL查询系统快速地检索出用户的问题,并根据问题的类型、关键词和语义等信息进行分类和处理。此外,Text-to-SQL还能够将自然语言问题转化为结构化问题,方便数据库进行问题的分析和处理,从而提高智能问答系统的效率和准确性。
机器人导航：机器人导航系统需要能够理解环境中的自然语言信息,以便能够感知环境并做出相应的决策。Text-to-SQL可以将这些自然语言信息转化为结构化数据,以便更容易地进行查询和分析。
其他

4 Text-to-SQL方法集合

前面我们已经了解了T2S任务的定义以及价值，那么最重要的就是学习如何去做？如何实现T2S？也就是how?

在了解T2S方法之前，先了解一下数据集和评测指标。

4.1 数据集

在TKDE综述文章中，常见的数据集有GenQuery、Scholar、WikiSQL、Spider、Spider-SYN、Spider-DK、Spider-SSP、CSpider、SQUALL、DuSQL、ATIS、SparC、CHASE等，如图4所示。

图4 T2S数据集汇总示意图

由图4知，数据集的分类有单领域和交叉领域；有单轮对话和多轮对话；有简单问题和复杂问题；有中文语言和英文语言；有单张表和多张表等。

在COLING综述文章中，最新的T2S相关数据集主要有Spider、WikiSQL、Squall、KaggleDBQA、IMDB、Yelp、Advisiing、MIMICSQL、SEDE等，如图5所示。文章中把数据集主要划分为3类：单域数据集、跨域数据集和其他数据集。

图5 T2S最近几年的数据集汇总示意图

接下来结合两个综述文章，介绍几个重点数据集：WikiSQL、Spider、CHASE等。

4.1.1 WikiSQL

WikiSQL数据集是目前规模最大的T2S数据集，由2017年美国的Salesforce公司提出，场景来源于 Wikipedia，属于单领域。数据标注采用外包。

包含了80654个自然语言问题，77840个SQL语句。
包含了26521张数据库表，1个数据库只有1张表。
预测的SQL语句形式比较简单，基本为一个SQL主句加上0-3个WHERE子句条件限制构成，如图6所示

图6 WikiSQL数据集SQL语句统计

4.1.2 Spider

Spider数据集是多数据库、多表、单轮查询的T2S数据集，也是业界公认难度最大的大规模跨领域评测榜单，由2018年耶鲁大学提出，由11名耶鲁大学学生标注。

10181个自然语言问题，5693个SQL语句。
涉及138个不同领域的200多个数据库。
难易程度分为：简单、中等、困难、特别困难，如图7所示。

图7 Spider数据集SQL语句示例

7000个问题用于训练train，1034用于开发development，2147用于test。

4.1.3 CHASE

CHASE数据集是首个跨领域、多轮Text2SQL中文数据集，由2021年微软亚洲研究院、北航和西安交大提出，相关论文被2021ACL接收。

跨领域，包含280个不同领域的数据库，且 train/dev/test 不重复；
大规模，包含5459个多轮问题组成的列表，一共17940个二元组，多轮对话如图8所示，用户的第一个输入“哪所大学培养了最多MVP球员”属于独立问题，没有可参考的上下文；紧接着第二个问题“状元呢”直接省略了主语“大学”，完整的问题应该是“哪所大学培养了最多状元”，模型需要结合历史信息才能生成正确的SQL。第三个问题同样类似。

图8 Spider数据集多轮对话问答示例

多轮交互，同一个列表的问题之间会有实体省略等交互现象，类似于 SParc 和 CoSQL；
中文数据集，问题和数据库表名、列名、其中的元素都是中文，相比之下，CSpider只是将表名、列名字段翻译为中文。
标注信息丰富，除了 query 和 SQL，CHASE 额外标注了（1）上下文依赖关系，包括 Coreference 共指、Ellipsis 省略；（2）模式链接关系，对于 query 中提到的表名和列名信息进行了标记。

4.2 评测指标

目前来说，没有完全统一的标准度量，目前广泛使用的是执行准确率（Execution Accuracy，简称EX）和逻辑形式准确率（Exact Match，简称EM)。

4.2.1 执行准确率

定义：计算SQL执行结果正确的数量在数据集中的比例。
缺点：存在高估的可能。因为一个完全不同的非标准的SQL可能查出于与标准SQL相同的结果（例如，空结果），这时也会判为正确。
举个例子：假如有个学生表，我们想要查询学生表中年龄等于19的学生姓名，就如“SELECT sname FROM Student where age = 19；”所示，通过数据库执行标准SQL后得到结果为null；此时Text-to-SQL模型预测的SQL为“SELECT sname FROM Student where age = 20；”，通过数据库执行后也得到结果为null。虽然预测的SQL跟标注的SQL不一致，但是结果是一样的，根据执行准确率指标来比较，那么就认为模型预测是正确的。

# groundtruth_SQL
SELECT sname FROM Student where age = 19；
# SQL执行结果
null

# predict_SQL
SELECT sname FROM Student where age = 20；
# SQL执行结果
null

4.2.2 逻辑形式准确率

定义：计算模型生成的SQL和标注SQL的匹配程度。
缺点：存在低估的可能。如一个SQL执行结果是正确的，但于标注SQL的字符串并非完全匹配，例如，只是select 列的顺序不同或SQL查询目的完全相同的不同SQL。为了解决一部分该问题，有研究指出了一种查询匹配精度query match accuracy：将生成的SQL和标注SQL都以标准形式表示，再计算两者匹配精度。这种方法只解决了由于排序问题而导致的误判。另外，通过对列和表进行排序并使用标准化别名来对SQL进行规范化，也可以消除不同SQL格式导致的误判问题。
举个例子：同样地，假如有个学生表，我们想要查询学生表中年龄等于19的学生姓名和学生学号。，就如“SELECT sname FROM Student where age = 19；”所示，通过数据库执行标准SQL后得到结果为（张三，123456）；此时Text-to-SQL模型预测的SQL为“SELECT sno，sname FROM Student where age = 19；”，通过数据库执行后也得到结果为（123456，张三），如果从逻辑形式准确率指标来看，因为SQL并不是一模一样，尽管两者只是筛选顺序的语序问题，所以会认为模型预测是错误的。

# groundtruth_SQL
SELECT sname,sno FROM Student where age = 19；
# SQL执行结果
张三，123456

# predict_SQL
SELECT sno，sname FROM Student where age = 19；
# SQL执行结果
123456，张三

4.3 研究方法

4.3.1 基于模版和匹配的方法

因为输出SQL本质上：是一个符合语法、有逻辑结构的序列，本身具有很强范式结构，所以可以采取基于模板和规则的方法。简单SQL语句都可以抽象成如下图9:

图9 简单SQL模板示例

AGG表示聚合函数，如求MAX，计数COUNT，求MIN。
COLUMN表示需要查询的目标列。
WOP表示多个条件之间的关联规则“与and /或 or”
三元组 [COLUMN, OP, VALUE] 构成了查询条件，分别代表条件列、条件操作符（>、=、<等）、条件值。
*表示目标列和查询条件不止一个！

基于模板和匹配的方法，是早期的研究方法，适用于简单SQL，定义后的sql准确率高；不适合复杂SQL，没有定义模板的SQL不能识别。

4.3.2 基于Seq2Seq框架方法

对于T2S研究而言，本质上属于自然语言处理（Natural Language Processing，NLP），而在NLP领域中，常见的任务可以大概分为如下四个场景，1、N和M代表的是token的数量。

1 -> N：生成任务，比如输入为一张图片，输出图片的文本描述。
N -> 1：分类任务，比如输入为一句话，输出这句话的情感分类。
N -> N：序列标注任务，比如输入一句话，输出该句话的词性标注。
N -> M：机器翻译任务，比如输入一句中文，输出英文翻译。

可以发现的是，T2S任务是符合N -> M机器翻译任务的，处理机器翻译任务最主流的方法是基于Seq2Seq框架方法，Seq2Seq是一种基于序列到序列模型的神经网络架构，它由两个部分组成：编码器Encoder和解码Decoder。因此，T2S最主流的方法也是基于Seq2Seq框架。

4.3.2.1 单轮对话T2S方法

Encoder

- 输入数据表征：把自然语言问题和表结构信息进行编码。

- - 基于LSTM的方法。
  - 基于Transformer的方法。

- 结构信息建模：任务本质上是一个高度结构化的任务，重点需要解决3个挑战：

- - 链式结构linking structure，编码器需要将NL问题中提到的实体与所提到的模式表或列对齐。
  - 模式结构schema structure，编码的表示应该知道架构结构信息，如主键、外键和列类型。
  - 问题结构question structure，编码器应该能够感知NL问题的复杂变化，即问题结构。

Decoder

- 基于草图Sketch-based方法。

- - 内容：1.将SQL生成的过程分解为子模块，比如select列，AGG聚合(aggregate)功能，where 值。2.每个子模块对应于要填充的预测槽的类型，比如select槽，AGG槽等，每个槽都有独立的模型，不共享训练参数，独立负责最终SQL的一部分。3.把子模块最终集合起来，生成SQL。
  - 优点：速度很快，保证符合正确的SQL语法规则。
  - 缺点：很难处理复杂的SQL语句，比如嵌套查询，多表连接等等。
  - 适用数据集：在WikiSQL数据集流行；不适用于spider数据集。

- 基于生成generation-based方法。

- - 内容：基于Seq2Seq模型来解码SQL。
  - 优点：更适合于复杂SQL场景。
  - 缺点：可能生成的SQL不符合语法，所以引入了深度遍历优先的抽象语法树abstract syntax tree。
  - 适用数据集：spider数据集也适用。

4.3.2.2 多轮对话T2S方法

Encoder

- 多轮输入表征Multi-turn input representation。如图10所示，研究了不同上下文信息编码方法对多回合T2S解析性能的影响，包括（a）接触每个问题序列中的所有NL问题作为输入，（b）使用回合级编码器处理每个问题，以及（c）设计一个门机制，以平衡每个历史问题的重要性。

图10 多轮对话不同上下文信息编码示例

- 多轮结构建模Multi-turn Structure Modelling。

- - linking structure：R2SQL专注于上下文链接结构的独特性，引入了一种新颖的动态图框架来有效地对上下文问题、数据库模式及其之间的复杂链接结构进行建模。应用衰减机制来评估历史链接对当前转弯的影响。
  - schema structure模式结构。IGSQL提出了一种数据库模式交互图编码器，用于将数据库模式项与历史项一起获得，从而保持上下文一致性。跨回合模式交互图层和回合内模式图层分别使用上一回合和当前回合来更新模式项表示。IST-SQL处理了受面向任务的数据生成任务启发的多回合文本到SQL解析任务。IST-SQL定义、跟踪并利用多回合文本到SQL解析的交互状态，其中每个交互状态都由基于先前预测的SQL查询的状态更新机制更新。

Decoder

- 对于多回合设置，大多数以前的方法使用具有注意力机制的LSTM解码器，以产生基于历史NL问题、当前NL问题和表模式的SQL查询。解码器将当前NL问题、SQL状态、模式状态和上次预测的SQL查询的编码表示作为输入，并在解码过程中应用查询编辑机制来编辑先前生成的SQL查询，同时合并NL问题和模式的上下文。对于SQL查询，使用单独的层来预测SQL关键字、表名和问题标记。softmax操作最终用于生成输出概率分布。

4.3.3 模型预训练方法

4.3.3.1 预训练数据构造

训练数据不足是学习强大的预训练表格语言模型的一个重要挑战。当应用于SQL解析任务的下游文本时，预训练数据的质量、数量和多样性对预训练语言模型的总体性能有重大影响。尽管从Web（例如维基百科）收集大量表格很容易，但在收集的表格上获得高质量的NL问题及其相应的SQL查询是一个劳动密集型和耗时的过程。最近，有大量的研究可以手动或自动生成用于文本到SQL解析的预训练数据。接下来，我们将从三个角度讨论以前的预训练数据构建方法：表收集、NL问题生成和逻辑形式（SQL）生成。

表集合table collection
NL问题生成
SQL生成

4.3.3.2 输入编码input encoding

在文本到SQL的解析任务中，输入通常包括两部分：NL问题和表模式，输出可能是SQL查询。然而，文本数据、选项卡数据和SQL查询是异构的，它们具有不同的结构和格式。具体来说，表格数据通常分布在二维结构中，有数值和单词，而SQL查询通常由SQL关键字（如“SELECT”、“UPDATE”、“DELETE”、“INSERT INTO”）和模式元素组成。因此，在这三种类型的数据上开发一个联合推理框架是非常重要的。

文本数据编码
表格数据编码

4.3.3.3 预训练的目标

大多数现有的文本到SQL解析的预训练模型采用单个Transformer或基于编码器-解码器框架的Transformer作为主干，并采用不同类型的预训练目标来捕捉文本到SQL的解析任务的特征。预训练目标可分为五个主要类别，包括掩蔽语言建模（MLM）、模式链接、SQL执行器、文本生成和上下文建模。

屏蔽语言建模masked language modeling
模式链接schema linking
SQL执行器
文本生成
上下文建模

5 Text-to-SQL未来展望

T2S方向未来发展放下主要有以下几个方向：

高质量的训练数据生成
处理大规模表格/数据库形态
结构化表格数据编码
异构信息建模
跨领域T2S
T2S模型的鲁棒性
零样本/小样本学习
上下文相关的T2S解析预训练
模型可解释性
数据隐私保护

参考文献

1.Y. Sun, D. Tang, N. Duan, J. Ji, G. Cao, X. Feng, B. Qin, T. Liu, and M. Zhou, “Semantic parsing with syntax-and table-aware sql gener.,” in Proc. of the 56th Annu. Meeting of the Assoc. for Comput. Linguistics (Vol. 1: Long Papers), pp. 361–372, 2018.

2.Qin B, Hui B, Wang L, et al. A survey on text-to-sql parsing: Concepts, methods, and future directions[J]. arXiv preprint arXiv:2208.13629, 2022.

3.Deng N, Chen Y, Zhang Y. Recent advances in text-to-SQL: a survey of what we have and what we expect[J]. arXiv preprint arXiv:2208.10099, 2022.

4.Recent Advances in Text-to-SQL: A Survey of What We Have and What We Expect_哔哩哔哩_bilibili

5.ACL 2021 ｜ CHASE:首个跨领域多轮Text2SQL中文数据集 - 知乎

6..2021你还在手写SQL吗？万字综述Text to SQL技术 - 知乎

7.https://github.com/eosphoros-ai/DB-GPT/blob/main/README.zh.md

8.https://github.com/eosphoros-ai/DB-GPT-Hub/blob/main/README.zh.md

C语言基础（函数）指尖DE格桑花 c语言开发语言初学者嵌入式
函数的概述函数：实现一定功能的，独立的代码模块。对于函数的使用，一定是先定义，后使用。使用函数的优势：①我们可以通过函数提供功能给别人使用。当然我们也可以使用别人提供的函数，减少代码量。②借助函数可以减少重复性的代码。③实现结构化（模块化）程序设计思想。关于结构化设计思想：将大型的任务功能划分为相互独立的小型的任务模块来设计。函数是C语言程序的基本组成单元：C语言程序是由一个（必然是main函数）
chatgpt赋能python：Python处理雷达基数据：从入门到实践 lvsetongdao123 ChatGpt python chatgpt 开发语言计算机
Python处理雷达基数据：从入门到实践随着气象技术的不断发展，雷达探测技术已成为当今天气预报和气象研究的主要手段之一。雷达基数据是气象雷达接收到的未经加工的原始数据，因其包含大量天气信息，不仅在天气预报、天气预警等方面得到了广泛应用，还被广泛地用于气象科研和大气环境研究。本文将介绍如何使用Python处理雷达基数据，解析其中的信息，获取有效的天气数据，以及分析和可视化这些数据。雷达基数据格式与处
【数据库】MySQL的索引详解此木|西贝数据库数据库 mysql
简介索引是一种用于快速查询和检索数据的数据结构，类似于书的目录。在几百页的书通过几页目录就可以精确定位到我们想看的章节优点和缺点优点正确的使用索引可以大大提高检索速度可以使用唯一索引保证数据在库中的唯一性使用聚合索引减少回表，降低IO次数缺点索引不宜创建的太多，否则增删改时不仅修改数据，还要修改大量的索引数据索引也会占用磁盘空间索引结构B树：多路平衡查找树，B树的所有节点都会存储key（索引）和d
【数据库】MySQL事务详解此木|西贝数据库数据库 mysql
事务的隔离级别读未提交（read-uncommitted）：最低级的隔离级别，允许其他事务读到未提交的值；读已提交（read-committed）：事务只能读取到其他事务提交的数据；可重复读（repeatable-read）：对同一条数据多次读取结果都是一样（mysql默认隔离级别）；串行化（serializable）：最高的隔离级别，所有事务穿行执行，事务间不会产生干扰隔离级别存在的问题读未提交
AIGC时代品牌突围战：10招玩转DeepSeek内容推荐（深度扩展版）白雪讲堂人工智能大数据机器学习
一、认知革命：从SEO到GEO的生死迭代案例对比：传统SEO困境：某家电品牌2023年投入200万SEO优化，关键词排名TOP3但流量下降42%（SEMrush数据）GEO突破案例：某母婴品牌通过结构化数据改造，AI推荐量从日均300次飙升至1.2万次（来源：DeepSeek官方案例库）实战要点：内容形态改造：将产品参数表升级为JSON-LD格式（某手机品牌实现参数类问题100%引用）流量分配逻辑
Java开发者必看！零成本集成DeepSeek-R1打造AI办公神器，源码级实战教程让你效率翻倍！ Leaton Lee java 人工智能开发语言
目录开篇互动一、为什么是DeepSeek-R1？它凭什么碾压传统AI工具？二、手把手部署DeepSeek-R1本地环境（附避坑指南）步骤1：Docker一键部署步骤2：下载模型步骤3：验证部署三、Java整合DeepSeek-R1：从理论到实战1.添加HTTP客户端依赖（以SpringBoot为例）2.封装AI工具类（核心代码解析）3.实战场景1：自动生成周报（附Prompt技巧）四、高阶玩法：A
PTA天梯赛PYthon7-10 树的遍历胡同Alley 算法数据结构 python
给定一棵二叉树的后序遍历和中序遍历，请你输出其层序遍历的序列。这里假设键值都是互不相等的正整数。输入格式：输入第一行给出一个正整数N（≤30），是二叉树中结点的个数。第二行给出其后序遍历序列。第三行给出其中序遍历序列。数字间以空格分隔。输出格式：在一行中输出该树的层序遍历的序列。数字间以1个空格分隔，行首尾不得有多余空格。输入样例：723157641234567输出样例：4163572代码长度限制
深度剖析C语言数组和指针的区别（非常详细） xiecoding.cn c语言算法开发语言 c++青少年编程 C语言入门数据结构
对于刚刚接触C语言指针的初学者，很容易认为数组和指针是等价的，数组名表示数组的首地址。不幸的是，这是一种非常危险的想法，并不完全正确。耐心看完本文，我保证会颠覆你的认知。数组和指针绝不等价数组和指针不等价的一个典型案例就是求数组的长度，这个时候只能使用数组名，不能使用数组指针，前面我们已经强调过了，这里不妨再来演示一下：#includeintmain(){inta[6]={0,1,2,3,4,5}
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
程序员不用写代码？DeepSeek这个隐藏功能让我惊掉下巴后端
凌晨三点半，显示器蓝光映着我的黑眼圈。就在我第18次修改接口文档时，同事老王突然在微信甩来个神秘链接："用这个，今晚能睡个好觉"。我点开那个叫DeepSeek的页面，没想到接下来的三个小时，我经历了职业生涯最魔幻的加班夜。你见过会自己写测试用例的AI吗？那天晚上，我把项目需求文档往DeepSeek的对话框一扔，它竟然像资深架构师似的，先把需求拆解成模块，接着自动生成了带注释的接口文档。最绝的是，在
2025年从DeepSeek到Manus：AI如何重塑企业价值报告600+份汇总解读|附PDF下载
原文链接：https://tecdat.cn/?p=41172当前全球AI技术正从实验室走向产业化深水区，本报告以企业价值重构为核心，通过技术演进路径、行业竞争范式、落地实施策略三大维度，揭示AI如何从成本中心转变为价值引擎。数据显示，2025年生成式AI在中国创造的潜在经济价值达2万亿美元，其中制造业、电子行业生产力增益最为显著。本报告汇总解读基于《发布机构：华中科技大学数智管理与传播研究团队、
【AI大模型】RAG如何让生成AI更智能？最新方法与优劣深度解析健忘的派大星人工智能语言模型 ai AI大模型 agi RAG 程序员
前言近年来，人工智能技术突飞猛进，尤其是生成式AI，简直像是开了挂一样，各种惊艳的表现让人直呼“未来已来”。根据IDC的研究，生成式AI的市场规模在2022年已经达到了107亿美元，而到2026年，这个数字预计会飙升至326亿美元！不过，尽管生成式AI很强大，但它也并非完美无缺——比如生成内容的质量、准确性和可靠性，依然有提升的空间。这时候，检索增强生成（RAG）技术登场了！RAG的核心思路很简单
颜色一次性 wyz_666666 c++
今天实在想不出做什么了，翻了翻小游戏，看到了原创的颜色一次性于是，就想到何不做这个呢???废话不多说，上代码！！！！！#include#includeusingnamespacestd;intmain(){cout>yanse;if(yanse==1){cout<<"跳转中......"<
windows下使用vscode+cline插件体验MCP，体验使用AI控制浏览器，踩坑记录（至少让你节省3个小时弯路版）（喂饭级别）几道之旅人工智能智能体及数字员工 windows vscode ide 人工智能
为什么网上天天说MCP，你这儿却一点动静都没有？1️⃣人家很早之前就用上了制定标准的Claudedesktop，这玩意儿在咱这儿用不了。对策：使用vscode+cline+deepseek（或其它同级别国产大模型deepseek-V3其实有时比R1效果还好）2️⃣人家也Claude，但人家能用Cursor，咱太穷了，用不了。对策：使用vscode+cline+deepseek（或其它同级别国产大模
深入学习 DNS 域名解析 dns解析
一、前言在平时工作中相信大家都离不开DNS解析，因为DNS解析是互联网访问的第一步，无论是使用笔记本浏览器访问网络还是打开手机APP的时候，访问网络资源的第一步必然要经过DNS解析流程。二、DNS是什么DNS（域名系统DomainNameSystem），它是一个记录域名和Ip地址相互映射的一个系统，是互联网的“电话簿”，负责将人类可读的域名（如example.com）转换为机器可识别的IP地址（如
如何在MySQL中创建定时任务？数据库mysql
在mysql中我们可以可以通过事件调度器(EventScheduler)，让MySQL定时为我们执行一些任务。例如：在MySQL中实现每天凌晨0点定时清空指定的test表，并在一个月后自动停止该定时任务。以下是完整步骤：步骤1：启用MySQL事件调度器默认情况下事件调度器可能关闭，需手动启用：--临时启用（重启失效）SETGLOBALevent_scheduler=ON;--永久启用（修改配置文件
使用sqlite创建数据库 @云初 sqlite 数据库 database
使用sqlite创建数据库#sqlite3.exe数据库名.dbSQLiteversion3.36.02021-06-1818:36:39Enter".help"forusagehints.sqlite>在sqlite里面创建一张表并添加数据#.databases#.tables#createtableperson(idint,namevarchar(20),addressvarchar(20))
Python自动化运维开发系列—CICD项目 weixin_46240874
导语都忘记是什么时候知道python的了，我是搞linux运维的，早先只是知道搞运维必须会shell,要做一些运维自动化的工作，比如实现一些定时备份数据啊、批量执行某个操作啊、写写监控脚本什么的。后来发现工作量大的时候shell开始变慢，实现某个功能使用shell感觉力不从心，听人说python能实现shell能做的一切功能，而且开发效率高，速度快，慢慢的就认识了python,多多少少看点简单的东
扩展 MyBatis-Plus 支持的查询条件 drebander mybatis-plus 数据库 mybatis python Mybatis-Plus
MyBatis-Plus是一个强大的MyBatis增强工具，提供了丰富的查询条件构造器和便捷的CRUD操作。然而，在实际开发中，我们可能会遇到一些复杂的查询需求，需要扩展MyBatis-Plus的功能。本文将详细介绍如何扩展MyBatis-Plus支持的查询条件，包括自定义SQL查询、Lambda查询与条件构造器扩展、动态查询条件的实现，以及扩展自定义查询方法与接口。1.自定义SQL查询1.1使用
【css酷炫效果】实现鱼群游动动态效果冰夏之夜影 web前端 css 前端
【css酷炫效果】实现小鱼游动动态效果缘创作背景css代码创建div容器引入jquery引入鱼群js完整代码效果图成品资源下载链接：点击下载缘在开发系统功能的时候，无意间看到了小鱼游动特效，感觉很有意思，就在网上找了相关教程，分享给大家。创作背景刚看到csdn出活动了，赶时间，直接上代码。css代码.container{background-color:transparent;position:f
每日实战：python爬虫之网页跳转-以某博为例代码CC python爬虫 python 爬虫 pandas 开发语言
一、项目背景与核心需求通过逆向分析微博热榜接口，实现实时热搜数据抓取，重点解决：话题跳转链接参数缺失问题页面数据清洗规范化处理多维度数据采集存储二、网页跳转爬虫实现原理2.1跳转链接生成逻辑原始热搜词→"雷军刚知道柯洁定了SU7Ultra"处理流程：1.添加话题标识→#雷军刚知道柯洁定了SU7Ultra#2.URL编码→%23雷军刚知道柯洁定了SU7Ultra%233.添加搜索参数→&t=31生成
mysql8.4.4+keepalived高可用部署平山海D mysql
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、安装mysql（两节点都安装）二、安装keepalived（两节点都安装）三、修改mysql配置四、修改keepalived配置五、验证备注前言内网环境下，mysql8.4.4+keepalived高可用部署，仅作备份记录一、安装mysql（两节点都安装）从mysql官网离线下载mysql-8.4.4-1.el8.x8
使用LangChain实现大规模语言模型自发现推理结构 VYSAHF langchain 语言模型人工智能 python
使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。这篇文章将带您了解SELF-DISCOVER，一种新兴的框架，如何通过LangChain来实现自动化、动态化的推理结构构建，以提高LLMs的性能。技术背景介绍大规模语言模型（如GPT-4和PaLM2）已
数据分析 SQL 面试全攻略，看这篇就够了！程功学数据分析 sql 面试
数据分析SQL面试八股文（含答案）已经打包好，看文末领取在数据分析领域，SQL技能堪称基石，也是众多企业在招聘数据分析岗位时重点考察的内容。今天，就为大家深度剖析数据分析SQL面试的要点，助力大家顺利通关。一、常见面试题型大揭秘（一）简单查询这类题目通常要求考生从单表中检索数据。例如，给定一个“员工信息表”，包含员工编号、姓名、年龄、部门等字段，题目可能是“查询年龄大于30岁的员工姓名和部门”。解
基于 Python 将 PDF 转 Markdown 并拆解为 JSON，支持自定义标题处理 drebander python pdf json
在日常工作中，我们经常需要将PDF文件转换为可编辑、可结构化的数据格式，比如Markdown和JSON。但实际操作中，自动化工具往往会出现标题识别不准确的问题，尤其是PDF转换过程中，缺乏明确的标题标识。这篇文章将教你如何使用Python将PDF转换为Markdown，并通过自定义规则精准识别标题，最终将内容按标题结构拆解为JSON，方便后续快速检索与使用。1.实现目标将PDF文件转换为Markd
Python 项目自动化与 CI/CD 实践：让部署和发布像开挂一样简单全栈探索者chen python python 自动化 ci/cd 开发语言程序人生性能优化可用性测试
Python项目自动化与CI/CD实践：让部署和发布像开挂一样简单在软件开发的世界里，自动化和持续集成/持续部署（CI/CD）是超级英雄，它们不仅让我们的工作更加高效，还能避免那些令人头疼的手动操作。它们就像开发者的最佳伙伴，随时准备打击bug，拯救开发进度。那么，今天我们就来聊聊怎么在Python项目中玩转自动化和CI/CD，让你从繁琐的手动部署中解脱出来，飞速交付高质量的代码。文章目录什么是C
A Survey of Large Language Models大模型综述论文章节总结 WhyteHighmore 论文语言模型人工智能自然语言处理论文笔记
ASurveyofLLM人大译ASurveyofLargeLanguageModels这篇论文全面回顾了大型语言模型(LLM)的最新进展，重点关注其发展背景、关键发现和主流技术。文章主要围绕LLM的四个主要方面展开：1引言自从1950年图灵测试被提出以来，人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统，这使得开发能够理解和掌握语言的强大人工智能(AI
openai 标准化协议 Structured Outputs 具体示例教程 weixin_40941102 语言模型
StructuredOutputs具体示例教程场景：个人财务管理助手假设我们要构建一个AI助手，帮助用户记录和管理个人财务支出。用户可以输入自然语言描述（如“昨天我花了50元买了午餐”），助手将提取关键信息并以结构化JSON格式返回，包括日期、金额、类别和备注。示例1：使用StructuredOutputs提取财务记录步骤1：定义JSONSchema我们需要一个清晰的Schema来描述财务记录：{
AI：对比ChatGPT这类聊天机器人，人形机器人对人类有哪些不一样的影响？ InnoLink_1024 AGI 人工智能机器学习 chatgpt 人工智能机器人
人形机器人与像ChatGPT这样的聊天机器人相比，虽然都属于人工智能技术的应用，但由于其具备的物理形态和与环境的互动能力，它们对人类的影响会有很大的不同。下面从多个角度进行对比，阐述它们各自对人类的不同影响：1.物理交互与虚拟交互人形机器人：具有物理形态，能够在物理世界中与人类进行直接交互。例如，搬运物品、进行日常家务、提供身体上的帮助（如扶持老人、帮助走路等），以及进行非语言的沟通（如手势、面部
现在的AI，到底是背答案的高手，还是真正的会思考沐凡资源人工智能
你的孩子用AI写作业，你以为他在抄答案，但AI可能连自己都不知道答案是怎么来的。最近朋友圈被小学生用DeepSeek秒杀作业的新闻给刷屏了。家长们一方面惊叹，“这玩意儿比家教还靠谱呢”，另一方面又焦虑，“孩子会不会被AI养废啦”。这让我也产生了一个疑问：现在的AI究竟是背答案的复读机呢，还是真会推理的最强大脑？于是我搜索了很多资料来了解这件事。毕竟这事儿可不单单跟作业有关系——它对未来的AI起着决
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR