O&REO

大模型在Text-to-sql领域的应用和论文

论文

2022 - Recent Advances in Text-to-SQL: A Survey of What We Have and What We Expect

文本到SQL的最新进展，包括数据集（第2节）和方法（第3节）。

https://arxiv.org/abs/2208.10099v1

数据集

Spider: 一个跨域的复杂 text2sql 数据集，包含了 10,181 条自然语言问句、分布在200 个独立数据库中的 5,693 条 SQL，内容覆盖了 138 个不同的领域。

WikiSQL: 一个大型的语义解析数据集，由 80,654 个自然语句表述和 24,241 张表格的 sql 标注构成。WikiSQL 中每一个问句的查询范围仅限于同一张表，不包含排序、分组、子查询等复杂操作。

CHASE: 一个跨领域多轮交互 text2sql 中文数据集，包含 5459 个多轮问题组成的列表，一共 17,940 个二元组，涉及 280 个不同领域的数据库。

更多参考https://github.com/eosphoros-ai/Awesome-Text2SQL/blob/main/README.zh.md

大型跨领域数据集（如WikiSQL和Spider）旨在更好地评估深度神经模型。WikiSQL使用从维基百科提取的表格，并让标注人员重述生成的问题，相比其他数据集，WikiSQL规模更大，总共包含80,654个自然表达式。然而，WikiSQL只包含简单的SQL查询，并且每个SQL查询仅查询一个表。

Spider包含200个数据库，每个数据库平均有5个表格，以测试模型在复杂的未见过的SQL查询上的性能以及其在新领域的泛化能力。此外，研究人员还扩展了Spider以研究他们感兴趣的各种问题。

此外，研究人员还在不同语言中构建了几个大规模的文本到SQL数据集，如CSpider（中文）、TableQA（中文）、DuSQL（中文）、ViText2SQL（越南文）和PortugueseSpider（葡萄牙文）。鉴于人工翻译比机器翻译更准确，这些数据集主要由人工专家根据英语Spider数据集进行注释，可以作为多语言文本到SQL研究的潜在资源。

方法

在文本转SQL的研究中，广泛采用了数据增强方法。数据增强可以帮助文本转SQL模型处理复杂或未见过的问题，同时也可以在少量监督数据的情况下达到最先进的效果，并且对不同类型的问题具有鲁棒性。常见的数据增强技术包括改写问题和填充预定义模板以增加数据的多样性。

数据增强的质量对模型的性能至关重要，低质量的数据可能会影响模型的表现。为了提高数据增强的质量，研究人员采用了各种方法。例如，可以使用自然语言生成模型生成自然语言表述，然后使用语义解析器将生成的自然语言转换为SQL查询。还可以使用分层的SQL-to-question生成过程来获取高质量的数据。为了增加数据的多样性，可以在SQL-to-text模型中引入潜变量来鼓励问题的多样性。还可以通过简化和压缩问题来模拟终端用户的会话式查询行为。

其他

在SQL查询方面的复杂性上，模型在较短的SQL查询上的表现要优于较长的SQL查询，这表明一般而言较短的SQL查询更容易。

在自然语言表达的复杂性方面，没有定量的衡量指标来衡量表达的难度。直观上，当面对用户提出的更长问题时，模型的性能可能会下降。然而，较长的句子中所传达的信息可能更完整，而较短的句子可能存在歧义。此外，无论是在短句还是长句中，都可能存在使模型困惑的领域特定短语

论文

2022 - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future Directions

Text-to-SQL解析的概念、方法和未来方向。

https://arxiv.org/abs/2208.13629

评估指标

用于评估单轮T2S设置的评估指标有两种，即准确匹配率（EM）和执行准确率（EX）。对于多轮T2S设置，常用的评估指标是问题匹配率（QM）和交互匹配率（IM）

2.2.1 单轮T2S评估

准确匹配率（EM）（不包括值）通过比较真实的SQL查询和预测的SQL查询来计算。真实和预测的查询都被解析成具有以下SQL子句的规范化数据结构：SELECT • GROUP BY • WHERE • ORDER BY • 关键字（包括所有SQL关键字，但不包括列名和运算符）。

当且仅当预测的查询的所有SQL子句均正确时，才将预测的SQL查询视为正确。

执行准确率（EX）（包括值）通过比较在测试集中随附的数据库内容上执行的真实SQL查询和预测的SQL查询的输出结果来计算。我们只有在执行的预测SQL查询ˆV和真实的SQL查询V的结果相同时，才将预测的查询视为正确。

为了避免在有限大小的数据库上执行SQL时产生误报和漏报，测试套件的执行准确性扩展到每个模式的多个数据库实例。具体来说，测试套件从随机生成的数据库中提炼出一个小型数据库，以实现高代码覆盖率。通过这种方式，我们可以提供语义准确性的最佳近似。举个例子来理解这个过程：假设我们的目标是测试一个用于管理学生信息的数据库系统，其中包含学生的姓名、年龄和所在班级等信息。为了测试这个系统的准确性，我们需要执行一系列的SQL查询，例如查询年龄大于18岁的学生。由于数据库的大小有限，我们无法覆盖所有可能的查询条件和情况。为了解决这个问题，测试套件会生成多个随机的数据库实例，每个数据库实例包含不同的学生数据。然后，测试套件会从这些数据库实例中提取一部分数据，创建一个小型的测试数据库。这个小型数据库包含了不同的学生年龄、班级和其他信息，以覆盖尽可能多的查询情况。通过这种方法，测试套件可以提供更准确的测试结果，避免了由于数据库大小有限而导致的误报和漏报情况。这样，我们可以更好地评估数据库系统的语义准确性。

2.2.2 多轮T2S评估

在多轮设置中，共有P个问题序列，每个序列包含O个回合，总共有M = P × O个问题。

问题匹配率（QM）问题匹配率是基于所有问题的EM分数来计算的。仅当所有预测的SQL子句都正确时，每个问题的值才为1。我们首先计算每个问题的EM分数如下：

然后计算QM：

相互匹配率（IM）相互匹配率是基于所有交互（问题序列）的EM分数来计算的。每个交互的分数仅当交互中的所有问题都正确时为1。

主要场景（单次对话和多次对话）以及相应的数据集

T2S解析的代表性预训练、编码和解码技术

一种典型的神经文本到SQL方法通常基于序列到序列（Seq2Seq）模型，其中一个编码器用于捕捉自然语言问题的语义，生成一个实值向量，一个解码器基于编码的问题表示逐个生成SQL查询标记。根据编码器和解码器的不同，将下游的文本到SQL解析方法分为几个主要的类别。论文详细描述了每个类别的文本到SQL解析方法。编码器的第一个目标是学习输入表示，同时表示自然语言问题和表模式。编码器的第二个目标是进行结构建模，因为文本到SQL解析任务在原则上是一个高度结构化的任务。输入表示学习方法可以分为基于LSTM的方法和基于Transformer的方法。基于LSTM的方法在学习上下文化的自然语言问题和表模式表示方面取得了显著的成功。基于Transformer的方法在自然语言处理任务中取得了最先进的性能。结构建模任务要求将自然语言问题和表模式编码为具有强大表达能力的表示。为了解决这个挑战，图形方法最适合表达文本到SQL解析任务中的复杂结构。最近提出了一些基于图的方法来推理自然语言问题和模式实体，并模型化复杂的输入表示。这些方法将自然语言问题令牌和模式项视为多类型节点，并且节点之间的结构关系（边）可以预先定义以表达不同的模式内关系、问题-模式关系和问题内关系。

预训练语言模型( PLMs )

预训练语言模型( PLMs )已被证明在增强文本到SQL的解析方面具有强大的能力，并产生了令人印象深刻的性能，这得益于大规模语料库中丰富的知识。

预训练数据构建时的自然语言问句标注

基于采样的方法：这类方法通过从现有的文本-表格对中进行采样来生成自然语言问题。它们可以从维基百科等大规模文本资源中提取文本-表格对，并使用这些对来生成问题。采样方法可以通过随机选择表格和从中提取信息来构造问题。这种方法的优点是可以利用现成的数据资源，但可能存在数据偏差和噪音。
基于模板的方法：这类方法使用预定义的模板或规则来生成自然语言问题。它们可以根据表格的结构和内容，以及SQL操作和数据库模式的实体提及来构建问题-SQL模板。通过应用这些模板，可以自动生成大量的问题-SQL对。这种方法的优点是可以根据特定的规则和模板生成问题，但可能受限于模板的多样性和灵活性。
基于生成的方法：这类方法使用文本生成模型根据输入的实体序列生成自然语言问题。它们可以使用跨领域的神经模型，根据表格模式和实体序列生成问题。另外，一些方法使用生成模型，如T5模型和BART模型，根据逻辑形式生成自然语言问题。这种方法的优点是可以根据输入的实体序列生成灵活多样的问题。

在Text-to-SQL任务中，SQL注释的应用可以帮助生成更准确和多样化的SQL查询。SQL注释方法：

逻辑扰动：逻辑扰动方法通过按照手动调整的规则对SQL查询进行随机逻辑扰动，从而增加SQL查询的数量。具体而言，逻辑扰动方法根据手动调整的规则对给定的SQL查询进行扰动，包括逻辑移位（生成与原始查询逻辑上不同的问题和逻辑形式）、短语和数字变化（修改逻辑形式中指定的数值和短语）以及实体插入、交换和删除（忽略逻辑形式中的实体提及，插入新的实体或交换逻辑形式中的任意两个实体）。通过对逻辑形式进行扰动，可以自动生成更多的SQL查询。逻辑形式的结构规律使得逻辑扰动的过程可控，扰动后的逻辑形式可以通过语法检查器和解析器进行验证，而且可以在给定原始问题-SQL对的情况下，通过轻微修改来获得生成的SQL查询的相应问题。
SQL模板实例化：SQL模板实例化方法使用现有的模板或自定义的同步上下文无关文法（SCFG）来自动生成SQL查询。这类方法根据给定的SQL模板，选择表格的标题和单元格值来填充模板。例如，一些研究使用SUQALL数据集中定义的SQL语法的产生规则进行SQL注释，而GAZP则通过SQL语法和类型化插槽替换来创建粗略模板，并通过新的数据库内容填充模板。GRAPPA则根据Spider中的示例学习，并设计了一个新的SCFG，然后应用于大量现有的表格以生成新的SQL查询。SQL模板实例化方法通常依赖于有限的模板，难以生成具有新组合的多样化SQL查询。
分层合成流水线：分层合成流水线方法与基于手工规则和模板合成新SQL查询的方法不同，它们基于大规模预训练的语言模型（PLMs）。这类方法使用预训练的文本生成模型（如T5），将从表格模式中采样的实体序列映射到自然语言问题，然后应用学习到的语义解析器将生成的自然语言问题转化为相应的SQL查询。这种分层合成流水线方法易于实现，并且由于使用了大规模的PLMs，能够获得多样性和覆盖范围广的数据合成。

编码

文本数据编码

文本编码可以根据自然语言处理中的单词编码分为动态和静态类型。一些方法使用GloVe [89]（embedding）来初始化每个输入项的单词嵌入，通过查找嵌入字典来进行编码，例如RATSQL [12]和LGESQL [14]。然而，静态嵌入方法仍然存在一些限制。静态方法都无法解决多义问题，并且学到的特征受到预定义窗口大小的限制。随着预训练语言模型的发展，一些研究尝试使用预训练的BERT [11]作为编码器来对文本数据进行编码，获得上下文感知的单词级表示。其中，许多方法（例如TABERT [18]、TAPAS [19]、MATE [90]、STRUG [83]）使用预训练的BERT [11]作为编码器，并在训练过程中更新BERT [11]的参数。GRAPPA [20]使用ROBERTA [51]作为编码器。TAPEX [88]同时利用BART [91]的编码器和解码器，而GAP [92]仅使用BART的编码器。

表格数据编码

与文本数据不同，表格数据以二维结构分布。在表格预训练方法中，需要先将二维表格数据转换为线性化的一维序列输入，然后将表格数据输入到语言模型中。常见的序列化方法是以逐行方式将表格数据展开为一系列标记的序列，然后将问题标记与表格标记连接起来进行表格预训练，例如TAPAS [19]、MATE [90]和TABLEFORMER [93]。TABERT [18]提出了内容快照来编码与输入话语最相关的表格内容子集。该策略与垂直注意机制相结合，共享不同行中单元格表示之间的信息。还有一些研究（例如STRUG [83]、GRAPPA [20]和UnifiedSKG [94]）仅将表格的标题作为输入，而不考虑数据单元格。虽然NLP模型通常将一维序列作为输入，但对于表格数据来说，位置编码对于帮助神经模型更好地捕捉结构信息至关重要。大多数先前的预训练方法（如TABERT [18]、GRAPPA [20]和TAPEX [88]）在展开的表格序列上探索了全局位置编码策略。然而，除了一维的顺序位置，表格还具有由关键的二维和层次信息组成的结构化列和行。TAPAS [19]和MATE [90]等工作根据列/行ID编码行和列内容。TABLEFORMER [93]根据单元格是否属于同一列/行和列标题来决定，而不考虑表格中列和行的绝对顺序信息。

在文本到SQL解析的预训练中，有几种主要的预训练目标。

遮蔽语言模型（Masked Language Modeling, MLM）：采用不同变体的MLM来引导语言模型学习自然语言和表格数据的表示。主要包括恢复损坏的自然语言句子、恢复损坏的表格标题或单元格值，以及恢复损坏的自然语言句子和表格中的标记。预训练模型通过随机遮蔽一部分输入标记，然后预测被遮蔽的标记，并通过最小化原始遮蔽标记和预测遮蔽标记之间的交叉熵损失来计算MLM损失。
模式链接（Schema Linking）：模式链接是文本到SQL解析中的关键组成部分，用于学习NL问题和给定表格之间的对齐关系。模式链接旨在识别NL问题中的列、表和条件值的引用。预训练目标通过学习NL问题和表格之间的相关性来建模模式链接信息。其中一些目标包括预测列名是否出现在SQL查询中，预测在给定列上应该执行的操作，以及对齐NL问题中的标记和表格中的列。
SQL执行器（SQL Executor）：SQL执行器模拟了对结构化表格执行SQL查询的过程。在预训练中，通过训练神经模型来执行SQL查询并输出正确结果，以使模型对SQL查询和表格有深入的理解。
SQL生成（SQL Generation）：将NL问题翻译为可以在给定表格上执行的SQL查询是文本到SQL解析的目标之一。预训练中的SQL生成目标旨在生成特定位置的SQL关键字或列名，而不仅仅是预测列是否被提及。
上下文建模（Context Modeling）：上下文建模是针对上下文相关的文本到SQL解析的预训练方法。其中一个代表性的预训练方法设计了一个转换上下文开关（Turn Contextual Switch, TCS）目标，通过预测两个连续用户发言之间的上下文切换标签来建模上下文流。这有助于模型理解上下文之间的复杂交互。

论文

2023.08 - Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation

阿里团队名为DAIL-SQL的新的综合解决方案。使用开源LLM对比OpenAI LLM。文档比较了几种prompt engineering方法，探索高效的提示工程。提出了一种新的Text - to - SQL提示工程方法，命名为DAIL - SQL，该方法以86.6 %的执行准确率刷新了Spider排行榜中的最佳性能。

https://arxiv.org/abs/2308.15363

何谓DAIL-SQL

具体而言，DAIL 首先在目标问题和候选集合Q中的示例问题中屏蔽领域特定词汇。然后，它根据屏蔽后的和的嵌入之间的欧氏距离对候选示例进行排名。同时，它计算了预测的SQL查询′和Q中的之间的查询相似度。最后，选择准则根据问题相似度对排序后的候选项进行优先级排序，其中查询相似度大于预定义阈值。通过这种方式，选择出的前个示例在问题和查询方面具有良好的相似性。DAIL - SQL使用CR P（listing4）作为问句表示，从问句和查询中根据信息选择示例，并将它们组织起来，以保持问句到SQL的映射

各种形式prompt效果对比

比较三个LLMs（Language Model as an SQL Query Translator）的平均性能

看起来openai案例在自家模型都表现不错，在text-davinci上效果和CRp差不多
它们在zero-shot场景中更具优势
外键信息对LLMs的执行准确性有显著提升

在llama和llama2中ASp(listing4)和CRp(listing5)表现不错

Few-shot效果对比

CR 下，对于GPT和Textdavinci均有提升

微调llama

与OpenAI LLM不同的是，经过微调的LLMs无法从上下文示例中学习。经过微调的LLMs不能从示例中学习，并且添加更多示例也没有帮助。这可能是因为LLM过度拟合了zero-shot提示，导致示例无用。

⚙️应用

目前 T2S 的做法大致分为两种，

一种是用现有的大模型来直接生成，例如 ChatGPT、GPT-4 模型，但是对于一些公司来说，数据是属于保密资产，这种方式相当于将自己公司的数据信息透漏给大模型，属于数据泄露行为
另一种方式是利用开源的大模型做 finetune，比如 codellama 来做微调，这个也是目前我们在做的

我们在 Text2SQL 上面的应用主要包括两个阶段，第一阶段是利用 LLM 理解请求，通过请求去生成结构化的 SQL；下一个阶段是在生成的 SQL 上自动化的查询数据库，返回结果，然后利用 LLM 对结果生成总结，提供分析。

DB-GPT

db-gpt的prompt

db-gpt-hub

支持qlora&lora官方案例在CodeLlama-13b-Instruct-hf上达到78.9执行准确率，https://github.com/eosphoros-ai/DB-GPT-Hub

db-gpt-hub生成的训练数据⬇️

官方的实验环境tips：基于一台带有 A100(40G) 的显卡服务器，总训练时长 12h 左右。如果你的机器资源不够，可以优先考虑缩小参数 gradient_accumulation_steps 的取值，另外可以考虑用 QLoRA 的方式微调(训练脚本 dbgpt_hub/scripts/train_sft.sh中增加 --quantization_bit 4)，从我们的经验看，QLoRA 在 8 个 epoch 时和 LoRA 微调的结果相差不大。

1 Train

"current_steps": 1850, "total_steps": 4328, "loss": 0.0251

"loss": 0.0195, "step": 2000

2 Predict

3 Evaluation

500轮

2000轮

微调成品 https://huggingface.co/GuoZiming/CodeLlama-7b-spider-finetuning

案例

构建数据信息表的 schema，利用 LLM 生成 embedding

我们根据用户描述的 text，让预训练的 codellama 生成 embedding，通过 embedding 检索的方式，选出 top1 数据表，这个过程属于先验过滤阶段。

数据表的 schema 设计非常重要，需要描述清楚这个表它的主体信息以及表中重要字段和字段含义。

prompt 构建，生成 SQL

这部分我认为最重要的还是如何去合理构建 prompt，让 LLM 去理解你的真实意图，生成标准的 SQL。

一是 prompt 的开头需要定义构建，二是 prompt 整体结构以及结构中数据表的信息也需要涵盖进去，这里我们 prompt 的开头首先定义 LLM 的工作目的是生成 SQL，通过我们根据第一部分返回的 top1 数据表，解析数据表中的信息，加入到 prompt 中，以此来构建完成的 prompt。

1）开头 prompt 定义：

2）数据表 prompt 定义：

3）In-context-prompt：如果想强化 prompt，可以增加一些正样本 “问答” 式的结构，让 LLM 去学习理解，最终生成更理想的结果

prompt 的构建对最终结果的影响非常重要，构建一个完美的 prompt 可能已经成功了一半。

通过以上的 prompt 构建，我们就可以给 LLM 让模型生成最终的 SQL 结果。

MySQL表达式之公用表表达式(CTE)的使用示例 @Corgi 后端开发 mysql 数据库 CTE
示例一数据表中有每个企业每年每月并且每月的产值是累加的数据的数据记录需求：统计企业产值能力，找出所有家企业中产值最高的企业，其产值记为P。对于第i家企业，其产值为Pi则该企业的产值能力评分=Pi/P×100。SQL：--使用ROW_NUMBER()为每个企业每年每个月的产值排名，筛选出每个企业每年最大月份的产值。WITHMaxMonthlyOutputAS(SELECTcompany_id,dec
SnowConvert：自动化数据迁移的技术解析与最佳实践 weixin_30777913 迁移学习数据库运维
SnowConvert是Snowflake生态系统的关键迁移工具，专为将传统数据仓库（如Oracle、Teradata、SQLServer等）的代码资产高效、准确地转换为Snowflake原生语法而设计。以下基于官方文档对其技术原理、工作流程及最佳实践进行深入分析：一、SnowConvert核心技术解析精准的语法映射引擎语言支持：深度解析源系统特有语法（OraclePL/SQL,TeradataB
AWS Lambda与RDS连接优化之旅 t0_54manong 编程问题解决手册 aws 云计算个人开发
在云计算的时代，AWSLambda与RDS的结合为开发者提供了高效且灵活的解决方案。然而，在实际应用中，我们常常会遇到一些性能瓶颈。本文将通过一个真实案例，探讨如何优化AWSLambda与RDS之间的连接，以提高API的响应速度。背景介绍最近，我们在AWS上部署了一个使用Dotnet6开发的API，它通过APIGateway暴露给外部，并连接到同VPC内的MySQLAuroraRDS数据库。部署前
Redis配置与优化 ?ccc? redis 数据库缓存
目录一：Redis介绍1：关系数据库与非关系型数据库2：Redis基础2.1Redis简介2.2Redis安装部署2.3配置参数3：Redis命令工具3.1redis-cli命令行工具3.2redis-benchmark测试工具4：Redis数据库常用命令4.1key相关命令4.2多数据库常用命令二：Redis持久化1：RDB和AOF的区别2：RDB和AOF的优缺点3：Redis持久化配置三：性能
技术调研：时序数据库（一） myskybeyond 时序数据库时序数据库数据库
选择时序数据库时，选择当下主流的解决方案。目前主流的开源解决方案有InfluxDB、TDengine和TimescaleDB。下文从多个维度对比分析，最终根据需求做出选型决策。1.核心架构与设计理念数据库架构特点核心优势InfluxDB-专为时序数据设计的分布式数据库-基于时间线（TimeSeries）模型-开源版（OSS）与商业版（Cloud/Enterprise）功能差异大高写入吞吐量、原生支
高可用与低成本兼得：全面解析 TDengine 时序数据库双活与双副本 TDengine （老段） TDengine 案例分析时序数据库 tdengine 大数据涛思数据数据库物联网 iot
在现代数据管理中，企业对于可靠性、可用性和成本的平衡有着多样化的需求。为此，TDengine在3.3.0.0版本中推出了两种不同的企业级解决方案：双活方案和基于仲裁者的双副本方案，以满足不同应用场景下的特殊需求。本文将详细探讨这两种方案的适用场景、技术特点及其最佳实践，让大家深入了解这两大方案如何帮助企业在高效可靠的数据存储和管理中取得成功。TDengine双副本（+仲裁者）为了满足部分客户在保证
linux mysql命令行操作
命令行,linux,命令行操作相关学习资料：https://edu.51cto.com/video/797.htmlhttps://edu.51cto.com/video/1400.htmlhttps://edu.51cto.com/video/3832.htmlLinuxMySQL命令行操作入门指南作为一名刚入行的开发者，掌握Linux系统下的MySQL命令行操作是一项基本技能。本文将带你一步步
TDengine 3.3.5.0 新功能 —— 查看库文件占用空间、压缩率 TDengine （老段） TDengine 产品设计数据库时序数据库物联网 tdengine 涛思数据 iot
1.背景TDengine之前版本一直没有通过SQL命令查看数据库占用的磁盘空间大小，从3.3.5.0开始，增加了这个方便且实用的小功能，这里详细介绍下。2.SQL基本语法selectexprfrominformation_schema.ins_disk_usage[wherecondtion]行为说明：查看各个vgroup的各个组件磁盘占用情况，并且可以通过查询语句计算压缩率等。示例：taos>s
TDengine 技术参数配置大全 TDengine （老段） TDengine 产品设计 tdengine 涛思数据大数据数据库物联网时序数据库
1.背景TDengine的taos.cfg中配置项及使用SQL命令alter修改的系统变量之间的关系如何，哪些是持久存储项，哪些设置是临时项，这章将详细说明。本文是技术参考资料，请收藏。2.定义1.全局配置参数全局配置参数：作用于集群内所有dnode且在集群内必须保持一致的变量，也称为全局变量、系统变量或全局参数。例如:timezone/charset/countAlwaysReturnValue
【Python常用模块】_Pandas模块3-DataFrame对象失心疯_2023 Python常用模块数据分析 pandas 数据挖掘 python 数据统计数据处理
课程推荐我的个人主页：失心疯的个人主页入门教程推荐：Python零基础入门教程合集虚拟环境搭建：Python项目虚拟环境(超详细讲解)PyQt5系列教程：PythonGUI(PyQt5)教程合集Oracle数据库教程：Oracle数据库教程合集MySQL数据库教程：MySQL数据库教程合集优质资源下载：资源下载合集
使用 C 语言操作 MySQL 实现图片写入与读取（Charon） mysql 数据库
在实际项目中，常常需要将图片或文件以二进制方式存储至数据库中，并能正确读取还原为文件。本文以C语言配合MySQLCAPI为例，完整演示如何实现将一张JPG图片写入数据库并再读出生成新图片文件的过程。项目背景我们使用如下表结构：--创建用户信息表CREATETABLETBL_USER(U_IDINTPRIMARYKEYAUTO_INCREMENT,--用户编号，整型，主键，自动递增，系统自动分配唯一
Cursor MySQL MCP 完整操作配置指南 z日火开发分享 mcp cursor mysql
概述本指南帮助您在Windows环境下配置Cursor编辑器的MySQLMCP服务器，实现通过AI助手对数据库进行完整的增删改查操作。功能特性：✅自然语言数据库查询✅智能数据插入和更新✅安全的数据删除操作✅自动数据分析和报告生成快速配置1.环境检查#检查必要组件node--version#Node.js>=16mysql--version#MySQL5.7+cursor--version#Curs
【C++】命令模式
目录一、模式核心概念与结构二、C++实现示例：遥控器与家电控制三、命令模式的关键特性四、应用场景五、命令模式与其他设计模式的关系六、C++标准库中的命令模式应用七、优缺点分析八、实战案例：数据库事务命令九、实现注意事项如果这篇文章对你有所帮助，渴望获得你的一个点赞！命令模式（CommandPattern）是一种【行为型】设计模式，它将请求封装为对象，从而使你可以用不同的请求对客户端进行参数化，对请
mybatis批量插入数据时，如果是sql server库只返回一条自增主键小小不吃香菜 mybatis sqlserver java
有个功能需要做个批量插入，表是自增主键，本来是很简单的事情，结果一测试发现一个神奇的事情，由于数据库是sqlserver的，插入一条时，id可以正常返回，多条时，就出现了标题的问题，只返回一个id，使用的是mybatis自带的jar包，甚至如何使用人家还加了备注在里面，很清晰，是这样的:然后我就按照上面描述的，自己加了一个自定义的Mapper，把主键名称改成我自己的，然后发现依然只能获取到一条，后
10招提升SQL性能的实战技巧快乐才是自己的 sql mysql sql mysql oracle database hadoop 大数据
SQL语句常见性能优化方案在数据库应用中，SQL性能优化是核心技术要点。以下是经过验证的优化策略，按关键维度分类：一、索引优化精准索引覆盖对高频查询的WHERE、JOIN、ORDERBY字段建立索引复合索引遵循最左前缀原则：索引(a,b,c)仅支持WHEREa=?或WHEREa=?ANDb=?示例：将SELECT*FROMordersWHEREstatus='shipped'改为CREATEIND
java毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lw 兮兮科技 java mybatis 开发语言
java毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lwjava毕业设计房产中介系统mybatis+源码+调试部署+系统+数据库+lw本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：ideaeclipse前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAVA运行环境：Win10、JDK1.8数据库：MySQL5.7/8.0源码地址
MongoDB与Redis有哪些区别相遇在春风里经验分享
MongoDB和Redis是两种不同类型的数据库，它们存在以下区别：一、数据模型MongoDBMongoDB是一个文档型数据库，它使用BSON（BinaryJSON）格式存储数据。数据以类似JSON的文档形式组织，每个文档可以有不同的结构（即模式自由）。例如，在一个存储用户信息的集合中，一个用户文档可能包含姓名、年龄、地址等字段，而另一个用户文档可能还包含额外的兴趣爱好字段。这种数据模型非常适合处
redis的scan使用详解，结合spring使用详解黑皮爱学习 redis自学笔记 redis spring 数据库
Redis的SCAN命令是一种非阻塞的迭代器，用于逐步遍历数据库中的键，特别适合处理大数据库。下面详细介绍其使用方法及在Spring框架中的集成方式。SCAN命令基础SCAN命令的基本语法：SCANcursor[MATCHpattern][COUNTcount]cursor：迭代游标，初始为0，每次迭代返回新的游标值。MATCHpattern：可选，用于过滤键的模式（如user:*）。COUNTc
mongodb和redis的区别： huangbfeng mongodb redis 数据库
1、内存管理机制Redis数据全部存在内存，定期写入磁盘，当内存不够时，可以选择指定的LRU算法删除数据。MongoDB数据存在内存，由linux系统mmap实现，当内存不够时，只将热点数据放入内存，其他数据存在磁盘。2、支持的数据结构Redis支持的数据结构丰富，包括hash、set、list等。MongoDB数据结构比较单一，但是支持丰富的数据表达，索引，最类似关系型数据库，支持的查询语言非常
数据库系统工程师简要概括笔记 Mint_Datazzh 数据库系统工程师数据库笔记数据库系统工程师
文章内容仅为粗略总结知识，便于个人复习思考原文链接:数据库系统工程师简要概括笔记–笔墨云烟数据库系统工程师—1.1计算机硬件基础知识数据库系统工程师—1.2计算机体系结构与存储系统数据库系统工程师—1.3安全性、可靠性与系统性能评测基础知识数据库系统工程师—2.程序语言基础知识数据库系统工程师—3.1~3.4线性结构、数组和矩阵、树和二叉树、图数据库系统工程师—3.5排序算法数据库系统工程师—3.
MongoDB框架零基础入门码农研究僧 Python 100天精通全栈 mongodb nosql 数据库
目录前言1.安装配置2.关启配置3.基本概念4.基本操作4.1创建集合4.2删除集合4.3插入文档4.4更新文档4.5删除文档4.6查询文档前言先科普讲解一下NoSQL（notonlysql）本身NoSQL非关系型数据库就具备了ACID（原子性、一致性、持久性、隔离性）数据持久化一般还是要使用关系型数据库，内存的数据库使用检索MongoDB是C++编写，一个基于分布式文件存储的开源数据库系统。将其
Java/Kotlin 主线程IO操作全方位监控指南（实战代码+性能优化）时小雨 Android实战与技巧 android kotlin
本文涵盖从基础监控到高级诊断的全套解决方案，包含10+个可直接落地的代码示例一、为什么需要监控主线程IO？主线程IO阻塞会导致界面卡顿、响应延迟等严重问题。典型场景：文件读写阻塞UI渲染网络请求未使用异步线程数据库查询未优化日志输出同步阻塞二、代码级监控方案（Kotlin实现）1.装饰器模式监控流操作classMonitoredInputStream(privatevalorigin:InputS
量化交易编程-持仓天数,SQL学习-ACCESS子查询的技巧专注VB编程开发20年 sql 学习 java ACCESS 数据库
在股票投资中，停牌期间通常不算交易日3。同花顺手机APP中的收益分析持仓天数一般是按照交易日来计算的。具体而言，它会从买入股票的日期开始，到卖出股票的日期为止，只统计证券交易所正常开放交易的日子，周末和法定节假日以及股票停牌日都不会计算在内3。例如，若你持有某股票2年，其中停牌2年，实际交易日只有20天，那么同花顺计算的持仓天数就是20天，而不会算出几百个交易日。其实持仓天数关我屁事是吧?我只考虑
PostgreSQL（十七）Autovacuum工具忧愁的锅盖儿 PG从入门到放弃 postgresql 数据库
目录一、简述Autovacuum1、什么是Autovacuum2、记录Autovacuum操作的设定二、Autovacuum的操作内容&时间1、Autovacuum的操作内容2、Autovacuum的操作时间三、调整Autovacuum1、Autovacuum相关参数：2、调整表Autovacuumsetting的设置三、autovacuum_max_workers1、概述2、Autovacuum
用Python实现生信分析——功能预测详解写代码的M教授生信分析 python 开发语言
功能预测是生物信息学中的一项重要任务，通过分析基因或蛋白质序列的特征，推测它们的生物学功能。功能预测通常涉及多种方法，包括序列比对、基序识别、机器学习模型等。这些方法可以帮助科学家推断未知基因的功能，从而加速生物学研究的进展。1.功能预测的主要方法（1）同源性比对：通过将未知基因或蛋白质序列与数据库中的已知序列进行比对，识别出同源序列，并推测它们的功能。常用工具包括BLAST、HMMER等。（2）
用Python实现生信分析——序列搜索和比对工具详解写代码的M教授生信分析 python
1.什么是序列搜索和比对工具？序列搜索和比对工具在生物信息学中用于在大型序列数据库中搜索与查询序列相似的序列，并进行比对分析。这些工具可以帮助研究人员识别与目标序列相关的已知序列，从而推测其功能、结构和进化关系。常见的序列搜索和比对工具包括：BLAST（BasicLocalAlignmentSearchTool）：最常用的序列搜索工具，能够快速找到与查询序列相似的序列。FASTA：另一个常用的序列
数据库设计和功能需求分析------后台设计概述 qq_41490913 java 数据库
功能需求分析和数据库设计不论是Web开发还是Android开发，在设计后台的时候我们都要做的重要的事情不外乎两点：1.需求分析；2.数据库表格的设计。在进行这两项工作的过程中，第一项工作对第二项起着非常重要的作用，我们只有真正的搞清楚了业务需求以及业务逻辑，找到了功能模块之间在后台数据库关联的抽象模型，这样才能确定数据库应该有几张表，每张表有哪些字段，表与表之间该如何联系。需求分析与功能模块设计一
PostgreSQL 容器化分布式技术方案 TechVision大咖圈 postgresql 分布式数据库分布式数据库
目录引言：为什么选择容器化PostgreSQLPostgreSQL容器化基础分布式架构设计高可用实现方案读写分离架构动态扩缩容策略生产环境实践总结与展望引言：为什么选择容器化PostgreSQL在数字化转型的浪潮中，数据库作为企业的"心脏"，其稳定性和扩展性直接影响着业务的成败。PostgreSQL作为世界上最先进的开源关系型数据库，配合容器化技术，就像是给数据库插上了翅膀——既保持了数据的可靠性
2.jdbc之工具类，SQL注入攻击和JDBC事务 hutc_Alan sql java 数据库
4.JDBC工具类抽取工具类1）编写配置文件在src目录下创建config.properties配置文件driverClass=com.mysql.cj.jdbc.Driverurl=jdbc:mysql://192.168.1.224:3306/db14username=rootpassword=1234562）编写jdbc工具类utils文件下（JDBCUtils.java）packagejd
mysql之jdbc连接数据库和sql注入的问题
一，概述可能是自己的记忆力太差了，经常忘记一些很重要的知识点，记得个大概，等要用的时候就去找，结果还找不到。干脆，记博客里，怎么都找的到。这篇博客主要就是关于Jdbc(javadatabaseconnectivity)和MySql的，记录如何连接数据库及插入数据等等。二，工具及准备工作MyEclipse10,mysql驱动jar包（我用的是这个版本mysql-connector-java-5.0.
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_