何33512336

NL2SQL的发展

前言

NL2SQL（Natural Language to SQL）是一项将用户的自然语句转为可执行 SQL 语句的技术，有很大的实际应用价值，对改善用户与数据库之间的交互方式有很大意义。在本文中，追一科技介绍了 NL2SQL 的价值，及其过去、现在与未来，希望能有更多关于 NL2SQL 的落地场景研究。

NL2SQL 的价值

在 AI、区块链、IoT、AR 等高新技术飞速发展的当下，数据库这一宝库似乎被大家遗忘在了角落。数据库存储了大量的个人或者企业的生产运营数据，我们每天都会和数据库产生或多或少的交互。通常，查询数据库中的数据需要通过像 SQL 这样的程序式查询语言来进行交互，这就需要懂 SQL 语言的专业技术人员来执行这一操作。为了让非专业用户也可以按需查询数据库，当前流行的技术方案设计了基于条件筛选的专门界面，用户可以通过点选不同的条件来查询数据库，比如下面这个筛选汽车的界面。

然而，在这个界面上操作，极大地限制了数据库查询的使用场景和查询界限。同时，即使对于精通数据库程序语言的专业人士，经常构思 SQL 语句、维护这样一个查询界面也是一项重复度较高的工作。

在 CUI（Conversation User Interface）的大背景下，如何通过自然语言自由地查询数据库中的目标数据成为了新兴的研究热点。Natural Language to SQL (NL2SQL) 就是这样的一项技术，它可以将用户的自然语句转为可以执行的 SQL 语句。

Nothing is better than an example. 针对上图这样的数据库表格，用户可能会想知道「宝马的车总共卖了多少辆？」，其相应的 SQL 表达式是「SELECT SUM(销量) FROM TABLE WHERE 品牌==」宝马」;」。而 NL2SQL 做的，就是结合用户想要查询的表格，将用户的问句转化为相应的 SQL 语句，从而得到答案「8」。

表格数据是信息在经过人为整理、归纳后的一种高效的结构化表达形式，信息的价值、密度和质量高于普通的文字文本。用很多文字才能描述清楚的信息，可能一张表格就够了。在行业研报、业绩报告、新闻公告、使用说明书等各种书面信息载体上，尤其是金融、快消等行业的各种报告中，充斥着许多表格形式的结构化数据。而当用户去查询表格中的内容时，需要肉眼去从表格中筛选满足条件的数据，准确率和效率都较低。通过 NL2SQL，用户在查询这些表格的内容时，可以直接通过自然语言与表格进行交互，并得到结果，用户体验会很自然。比如下面这张出自某房地产行业研报的表格：

针对这张表格，用户可能会想问「哪些城市的全月销量同比超过了 50% 或者当日环比大于 25%？相应的房产类型和销售面积情况如何？」这样的问题。通过 NL2SQL 模型，可以直接得到相应的 SQL 语句「select 城市, 类型, 全月数值 (万平) from table where 全月同比 (%) > 50 or 当日环比 (%) > 25」，并进一步返回执行该 SQL 语句后的结果，如下表所示：

如今，在很多日常应用场景中，用户都会和数据库进行交互，比如订餐、订票、查天气、查报表等等，绝大部分的解决方案也是通过输入条件和点选条件来进行查询。即使部分场景已经进行了技术升级，可以通过对话机器人的方式来进行交互，但其背后仍然预设了不同的条件入口，需要模型通过一系列的实体识别、槽值提取等流程来填充预先规定好的 SQL 模板。对于这样的方案，不仅查询的信息和筛选的条件会局限于预先设好的字段，这些功能模块的开发和维护也需要大量的人力资源。而如果使用 NL2SQL 的技术方案，用户与数据库之间的距离可以进一步缩短，用户可以更自由地查询更多信息、表达自己更丰富的查询意图，还可以减轻目前技术方案的繁琐，解放程序员。

NL2SQL 不仅可以独当一面，降低人机交互的距离和门槛，也可以与其它技术相辅相成。比如，现今的机器阅读理解技术已经可以在 SQUAD 1.0、SQUAD 2.0 等数据集上超越人类水平，还可以在其它各种形式的数据集上寻找答案，比如多段落、多文档、抽取式答案、生成式答案等形式。但目前机器阅读理解技术还不能对文章中出现的表格进行解读，如果用户想要的答案存在于文章中的表格内，那么现有的模型就都束手无策了。

然而表格数据在真实场景中存在很多，且表格中的数据很有价值，用户也会经常针对其中的数据进行提问。比如下图中的这一真实场景，用户如果想问「在哪些年里平均溢价率高于 20%」这样的问题，依靠现有的机器阅读理解技术，在文本中是找不到答案的。而 NL2SQL 可以很好地弥补现有技术的不足，完善非结构化文本问答在真实落地场景中的应用，更充分地发掘此类结构化数据的价值。

研报部分来源于东吴证券《房地产行业 2019 年度策略》

存储在 Excel 中的表格数据也可以被利用起来。设想一下这样的场景，财务人员将日常的财务数据存储在 Excel 中，日积月累产生了大量的 Excel 文件。财务人员需要了解其中的数据时，首先要从层层深入的文件夹、密密麻麻的 Excel 中找到正确的文件，然后打开 Excel 文件去密集的单元格中找到想要的答案。在这个过程中找错文件是常事，效率十分低下。如果利用 NL2SQL 技术，这一场景就会非常的优雅高效：首先定位预处理存入数据库的表格，再执行查询逻辑，最后将结果直接返回。

我们可以期待，NL2SQL 将改变传统的人与表格之间的交互方式，作为不可或缺的功能来改善人与机器之间的交流，让这场 CUI 升级革命可以走进更多的场景、行业，惠及更广泛的群体。

NL2SQL 的历史与现在

早在上世纪中后期，人们就已经在尝试开发通过自然语言直接访问数据库中存储数据的界面了（NLIDB，Natural Language Interfaces to Databases），其中最知名的是二十世纪六十年代的 LUNAR 系统，它通过对问句的句式语法分析，来回答关于从阿波罗任务中带回的月岩的地质学分析问题。再比如二十世纪七十年代初的 LADDER 系统，它已经支持通过一定的语义语言从数据库提取信息。但这种系统对自然语言问题的解析并不依赖于句子成分，这要求每一个具有特定知识的数据库都需要特定的语义语法，所以该方法在普适性上不够完善。

受限于当时技术发展，NLIDB 面临很大的挑战，系统语言的支持上限以及对于语言的理解上限不明确、语言上逻辑和含义的歧义、生僻词的出现等，以及替代品的发展（如 Excel 表格这种存储表格新形式的出现），这些都极大限制了这个领域的发展。

直到 2015 年 AI 的复苏和自然语言处理的创新，人们才慢慢把关注拉回了 NLIDB。如何利用自然语言更自然更自由地与数据库交互成为了新兴的研究热点。

那 NL2SQL 在学术中的定位是怎么样的呢？NL2SQL 这一任务的本质，是将用户的自然语言语句转化为计算机可以理解并执行的规范语义表示 (formal meaning representation)，是语义分析 (Semantic Parsing) 领域的一个子任务。NL2SQL 是由自然语言生成 SQL，那么自然也有 NL2Bash、NL2Python、NL2Java 等类似的研究。下面是来自 NL2Bash Dataset 的一条数据：

NL: Search for the string ‘git’ in all the files under current directory tree without traversing into ‘.git’ folder and excluding files that have ‘git’ in their names.

Bash: find . -not -name ".git" -not -path "*.git*" -not –name "*git*" | xargs -I {} grep git {}

虽然生成的程序语言不同，但核心任务与 NL2SQL 相同，都是需要计算机理解自然语言语句，并生成准确表达语句语义的可执行程序式语言。广义来说，KBQA 也与 NL2SQL 技术有着千丝万缕的联系，其背后的做法也是将用户的自然语言转化为逻辑形式，只不过不同点在于前者转化的逻辑形式是 SPARQL，而不是 SQL。将生成的查询语句在知识图谱执行，直接得到用户的答案，进而提升算法引擎的用户体验。

目前，NL2SQL 方向已经有 WikiSQL、Spider、WikiTableQuestions、ATIS 等诸多公开数据集。不同数据集都有各自的特点，这里简单介绍一下这四个数据集。

WikiSQL 是 Salesforce 在 2017 年提出的大型标注 NL2SQL 数据集，也是目前规模最大的 NL2SQL 数据集。它包含了 24,241 张表、80,645 条自然语言问句及相应的 SQL 语句。下图是其中的一条数据样例，包括一个 table、一条 SQL 语句及该条 SQL 语句所对应的自然语言语句。

该数据集自提出之后，已经有 18 次公开提交。由于 SQL 的形式较为简单，该数据集不涉及高级用法，Question 所对应的正确表格已经给定，不需要联合多张表格，这些简化使得强监督模型已经可以在 WikiSQL 上达到执行 91.8% 的执行准确率。

Spider是耶鲁大学 2018 年新提出的一个较大规模的 NL2SQL 数据集。该数据集包含了 10,181 条自然语言问句、分布在 200 个独立数据库中的 5,693 条 SQL，内容覆盖了 138 个不同的领域。虽然在数据数量上不如 WikiSQL，但 Spider 引入了更多的 SQL 用法，例如 Group By、Order By、Having，甚至需要 Join 不同表，这更贴近真实场景，也带来了更高的难度。因此目前在该榜单上只有 8 次提交，在不考虑条件判断中 value 的情况下，准确率最高只有 54.7，可见这个数据集的难度非常大。

上图是该数据集中的一条样例。在这个以 College 为主题的数据库中，用户询问「讲师的工资高于平均工资水平的部门以及相应的预算是什么？」，模型需要根据用户的问题和已知的数据库中各种表格、字段及其之间错综复杂的关系来生成正确的 SQL。

WikiTableQuestions 是斯坦福大学于 2015 年提出的一个针对维基百科中那些半结构化表格问答的数据集，包含了 22,033 条真实问句以及 2,108 张表格。由于数据的来源是维基百科，因此表格中的数据是真实且没有经过归一化的，一个 cell 内可能包含多个实体或含义，比如「Beijing, China」或「200 km」；同时，为了很好地泛化到其它领域的数据，该数据集测试集中的表格主题和实体之间的关系都是在训练集中没有见到过的。下图是该数据集中的一条示例，数据阐述的方式展现出作者想要体现的问答元素。

The Air Travel Information System (ATIS) 是一个年代较为久远的经典数据集，由德克萨斯仪器公司在 1990 年提出。该数据集获取自关系型数据库 Official Airline Guide (OAG, 1990)，包含 27 张表以及不到 2,000 次的问询，每次问询平均 7 轮，93% 的情况下需要联合 3 张以上的表才能得到答案，问询的内容涵盖了航班、费用、城市、地面服务等信息。下图是取自该数据集的一条样例，可以看出比之前介绍的数据集更有难度。

图片来自于 http://www.aclweb.org/anthology/H90-1021

在深度学习端到端解决方案流行之前，这一领域的解决方案主要是通过高质量的语法树和词典来构建语义解析器，再将自然语言语句转化为相应的 SQL。

图片来自于 Natural Language Interfaces to Databases（https://arxiv.org/pdf/cmp-lg/9503016.pdf）

现在的解决方案则主要是端到端与 SQL 特征规则相结合。以在 WikiSQL 数据集上的 SOTA 模型 SQLova 为例：首先使用 BERT 对 Question 和 SQL 表格进行编码和特征提取，然后根据数据集中 SQL 语句的句法特征，将预测生成 SQL 语句的任务解耦为 6 个子任务，分别是 Select-Column、Select-Aggregation、Where-Number、Where-Column、Where-Operation 以及 Where-Value，不同子任务之间存在一定的依赖关系，最终使用提取到的特征依次进行 6 个任务的预测。

图片来自于 SQLNet（https://arxiv.org/pdf/1711.04436.pdf）

NL2SQL 的未来

WikiSQL 数据集虽然是目前规模最大的有监督数据集，但其数据形式和难度过于简单：对于 SQL 语句，条件的表达只支持最基础的>、<、=，条件之间的关系只有 and，不支持聚组、排序、嵌套等其它众多常用的 SQL 语法，不需要联合多表查询答案，真实答案所在表格已知等，所以在这个数据集上，SQL 执行结果的准确率目前已经达到了 91.8%。

但存在一个问题，这样的数据集并不符合真实的应用场景。在真实场景中，用户问题中的值很可能不是数据表中所出现的，需要一定的泛化才可以匹配到；真实的表之间存在错综复杂的键关联关系，想要得到真实答案，通常需要联合多张表进行查询；每张表都有不同的意义，并且每张表中列的意义也各不不同，甚至可能相同名字的列在不同的表格中所代表的含义也是不同的；真实场景中，用户的问题表达会很丰富，会使用各种各样的条件来筛选数据。诸如此类的实际因素还有很多。因此，WikiSQL 数据集起到的作用很大程度上是抛砖引玉，而不具备实际应用场景落地的价值。

相比之下，Spider 等数据集更贴近真实应用场景：涉及到查询语句嵌套、多表联合查询，并且支持几乎所有 SQL 语法的用法，用户问句的表达方式和语义信息也更丰富。但即使作者们考虑到数据集的难度，贴心地将数据集按照难度分为简单、中等和困难，该数据集的难度也依然让人望而生畏，目前各项指标也都很低。如何更好地结合数据库信息来理解并表达用户语句的语义、如何编码及表达数据库的信息、如何生成复杂却有必要的 SQL 语句，此类挑战还有很多需要解决，它们都是非常值得探索的方向。

现在很多 NLP 子任务的指标已经刷得让人无路可走了，低垂的果实被摘得七零八落。而 NL2SQL 以及其它的语义分析任务，因为各种各样的原因，现在还没有引起大家足够的关注，但它们有着相比于其它任务更高的实际应用价值。如果可以落地真实场景，这将极大地改变现有的用户和数据库之间的交互方式，人们可以自由地和数据库进行交互，充分挖掘数据的价值，也减轻程序员的负担。学界和工业界也越来越关注这方面的研究，追一科技 6 月份将发起首届中文 NL2SQL 挑战赛，期待 NL2SQL 在不远的将来会迎来属于自己的春天，学术应用两开花。

NL2SQL技术方案系列(2)：全系列技术选型完整版：从通用技术选型(向量、图数据库)、大模型选择、Prompt工程、前沿技术方案展示汀、人工智能 LLM工业级落地实践 prompt 人工智能自然语言处理大模型 LLM NL2SQL Text2SQL
NL2SQL技术方案系列(2)：全系列技术选型完整版：从通用技术选型(向量、图数据库)、大模型选择、Prompt工程、前沿技术方案展示NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2S
NL2SQL技术方案系列(4)：金融领域NL2SQL技术方案以及行业案例实战讲解2 汀、人工智能 LLM工业级落地实践人工智能 LLM 自然语言处理 NL2SQL 大模型应用 Text2SQL AI大模型
NL2SQL技术方案系列(4)：金融领域NL2SQL技术方案以及行业案例实战讲解2NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1)：DB-GPT-Hub、SQLco
NL2SQL进阶系列(4)：ConvAI、DIN-SQL、C3-浙大、DAIL-SQL-阿里等16个业界开源应用实践详解[Text2SQL] 汀、人工智能 LLM工业级落地实践人工智能自然语言处理大模型 LLM NL2SQL Text2SQL NLP
NL2SQL进阶系列(4)：ConvAI、DIN-SQL等16个业界开源应用实践详解[Text2SQL]NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1)：DB-GP
NL2SQL实践系列(2)：2024最新模型实战效果(Chat2DB-GLM、书生·浦语2、InternLM2-SQL等)以及工业级案例教学汀、人工智能 LLM工业级落地实践人工智能 LLM 自然语言处理 NL2SQL 大模型应用 Text2NLP chat2DB
NL2SQL实践系列(2)：更多模型使用以及工业级案例NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQL进阶系列(1)：DB-GPT-Hub、SQLcoder、Text2SQL开源
NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL、SQL-PaLM）、新一代数据集BIRD-SQL解读汀、人工智能 LLM工业级落地实践 copilot 人工智能 NL2SQL LLM 自然语言处理 NL2DSL Text2SQL
NL2SQL进阶系列(5)：论文解读业界前沿方案（DIN-SQL、C3-SQL、DAIL-SQL）、新一代数据集BIRD-SQL解读NL2SQL基础系列(1)：业界顶尖排行榜、权威测评数据集及LLM大模型（SpidervsBIRD）全面对比优劣分析[Text2SQL、Text2DSL]NL2SQL基础系列(2)：主流大模型与微调方法精选集，Text2SQL经典算法技术回顾七年发展脉络梳理NL2SQ
论大模型在金融行业的应用场景何小朝金融人工智能
摘要：众多的金融机构及金融科技企业都在积极拥抱大模型的到来，除了已经涌现出若干金融垂域大模型以外，应用场景的探索也是重中之重。目前为止，相当多的金融大模型应用层出不穷，百花齐放，但仔细观察可以发现，大多还集中在改变或提升人机交互的方式方法层面，如智能客服、文档协助处理与生成、NL2SQL等全行业耳熟能详的领域。那么，大模型能否更加深入与广泛地与金融业务或科技需求融合以推进金融科技水平发生阶跃性的升
理想汽车大模型算法工程师面试，被问的瑟瑟发抖。。。。深度学习算法与自然语言处理 NLP与大模型大模型实战面试人工智能自然语言处理深度学习大模型面试题
最近我们技术群的一位小伙伴，分享了他面试理想汽车大模型算法工程师的经历与经验。今天整理后分享给大家，如果你对这块感兴趣，可以文末加入我们的技术&面试讨论群一面（1.5h，感觉有点难）自我介绍，讲一下大模型应用项目（我讲的nl2sql的项目）项目背景，总体思路，解决什么问题，指标是什么细节拆分：1.数据集怎么构建的，什么规模，有没有质量评估2.模型底座是什么，这些不同底座什么区别，什么规模3.训练方
倒计时6天｜PolarDB开发者大会，我们讲什么？看什么？玩什么？阿里云瑶池数据库数据库阿里云云计算云原生
1月17日9:30-16:30北京·嘉瑞文化中心PolarDB开发者大会还有6天就要和大家见面啦现场讲什么？看什么？玩什么？先来一探究竟吧～这次讲什么？全明星大咖阵容，高能干货输出如何让开发者像搭积木一样使用数据库？PolarDB如何做到分布式的能力，一体化的体验？PolarDB和政务、金融、游戏&娱乐、互联网等领域的朋友们有何新动态？Serverless、多主集群、NL2SQL、列存索引(IMC
参加数据库活动，学习知识，领取奖品 yangyidba 数据库
去年12月1日我发了一篇关于数据库高可用的文章《我们的数据库需要什么样的HA？》，文中介绍了阿里云PolarDBMySQL通过了热备无感秒切技术，解决了HA场景下的故障探测、切换速度和切换体验的问题。文末提到了线上的PolarDB功能体验馆，动动鼠标就可以免费体验无感切换的整体链路。最近PolarDB功能体验馆也上线了很多新的核心场景体验，比如Serverless、NL2SQL、透明分布式、一站式
新书速览|数据科学技术：文本分析和知识图谱全栈开发圈知识图谱人工智能
百分科技书解数据科学，文本分析、知识图谱详解，实战案例呈现，助你深入理解技术原理，行业应用启发，助力创新发展。本书内容数据科学的关键技术包括数据存储计算、数据治理、结构化数据分析、语音分析、视觉分析、文本分析和知识图谱等方面。本书的重点是详细介绍文本分析和知识图谱方面的技术。文本分析技术主要包括文本预训练模型、多语种文本分析、文本情感分析、文本机器翻译、文本智能纠错、NL2SQL问答以及ChatG
Text2SQL学习整理（二） WikiSQL数据集介绍 Q同学的nlp笔记学习人工智能自然语言处理深度学习
导语上篇博客中，我们已经了解到Text2SQL任务的基本定义，本篇博客将对近年来该领域第一个大型数据集WikiSQL做简要介绍。WikiSQL数据集概述基本统计特性WikiSQL数据集是一个多数据库、单表、单轮查询的Text-to-SQL数据集。它是Salesforce在2017年提出的大型标注NL2SQL数据集，也是目前规模最大的NL2SQL数据集。它包含了24,241张表，80,645条自然语
NL2SQL学习笔记 weixin_47179035 学习笔记
关于表格理解需要模型编码表格的典型任务包括：基于表格的语义解析（如文本转SQL），输出常常是能够在表格上执行的SQL语句基于表格的自动问答，输出是从表格中提取或者生成的答案基于表格的事实核查，输出是二分类标签（表示语言表述是否符合表格事实）相关论文谷歌MATE2023可以处理长表格研究如何将transformer定制为半结构化数据。我们提出了MATE架构，它允许每个注意头重新排序输入，以便通过多个
百分点认知智能实验室：基于NL2SQL的问答技术和实践 Necther 深度学习自然语言处理深度学习人工智能
百分点认知智能实验室：基于NL2SQL的问答技术和实践编者按NL2SQL是语义解析和智能问答领域的前沿问题，可以将人类的自然语言问句转化为结构化查询语句，是实现人类和数据库无缝交互和提高数据库分析效率的核心技术。百分点认知智能实验室自成立以来，结合公司实际业务和项目需求，自主研发NL2SQL算法，并在各个公开数据集上取得了良好的效果，同时还在业务项目中积累了宝贵的实际落地经验，本文主要就NL2SQ
NL2SQL领域：RAT-SQL论文笔记 mochine sql 自然语言处理数据库
RAT-SQL:Relation-AwareSchemaEncodingandLinkingforText-to-SQLParsers以关系感知的方法对数据库模式编码和链接的text-to-SQL模型1.问题聚焦：SchemaEncoding：对表结构（表名、列名、列类型、主键、外键等等）进行编码SchemaLinking：把Question中表述的内容与具体的表名和列名对齐2.主要创新点：包含“
nl2sql 学习笔记梦无痕123 随笔学习数据库
NL2SQL（NaturalLanguagetoStructuredQueryLanguage）是一种将自然语言转换为SQL查询的技术。它的目的是将自然语言查询转换为机器可读的SQL查询，以便可以从关系数据库中检索数据。NL2SQL研究内容主要包括：1.自然语言分析：分析自然语言查询，以便了解其含义，提取关键信息，并将其转换为机器可读的形式。2.SQL查询构建：根据从自然语言查询中提取的关键信息，
NL2SQL：弱监督学习与有监督学习完成进阶之路追一科技技术分享深度学习 deep learning NL2SQL
NL2SQL：弱监督学习与有监督学习完成进阶之路本文作者：追一科技算法工程师WayneOutlineNL2SQL任务和WikiSQL数据集介绍弱监督学习下NL2SQL解决方案有监督学习下NL2SQL解决方案追一科技NL2SQL天池挑战赛NL2SQL任务和WikiSQL数据集介绍近年来，NLP的突破，带来了一些创新型研究机会，NL2SQL正是其中之一，在学界与工业界获得了广泛关注。Salesforc
2019年NLP的高光时刻，会从NL2SQL开始么？追一科技技术分享深度学习 deep learning NL2SQL
2019年NLP的高光时刻，会从NL2SQL开始么？作者：追一科技算法研究员Wayne自2015年新一轮人工智能浪潮涌起，先是视觉、语音各领风骚，小火慢炖的NLP从2018下半年开始，也走入了高光时刻：BERT、GPT-2.0等一系列里程碑意义的模型横空出世，创新应用场景次第打开。2019年，NLP又会给大家带来哪些惊喜呢？作为智能语义的领跑者，追一科技一直在探索NLP的前沿技术创新。此前，我们分
Nl2sql学习（5）：model1代码学习（详细注释）一枚小白的日常 nlp
整体流程数据的读取数据的处理输入：问句和Table表头的数字化(Tokenization)标签：sqllabel表达的修改模型所需数据的构建构建模型输入数据的bert-encodingencoding后经全连接层输出模型训练：设置callbacks选择最佳模型预测代码importosimportreimportjsonimportmathimportnumpyasnpfromtqdmimportt
Nl2sql学习（1）：基于bert的baseline 一枚小白的日常 python rnn nlp
本文转载自https://kexue.fm/archives/6771，加入了自己对代码的标注理解importjsonfromkeras_bertimportload_trained_model_from_checkpoint,Tokenizerimportcodecsfromkeras.layersimport*fromkeras.modelsimportModelimportkeras.bac
NL2SQL学习王小小鸭学习数据库 mysql
在学习NL2SQL之前先要进行三W提问：即what是什么；why为什么使用；how如何使用NL2SQL是什么？NL2SQL（NLPNaturalLanguageToSQL）是自然语言处理的新兴研究热点，顾名思义，是将用户输入的自然语言转为可执行的SQL语句。从技术范畴来看，NL2SQL其本质是将用户的自然语言语句转化为计算机可读懂、可运行、符合计算机规则的语义表示(formalmeaningrep
论文阅读：DIN-SQL: Decomposed In-Context Learning of Text-to-SQL withSelf-Correction 城南皮卡丘 #论文分享论文阅读
NL2SQL是将自然语言转化为SQL的任务，该任务隶属于NLP的子任务，NL2SQL在AIGC时代之前，以seq2seq、BERT等系列的模型在NL2SQL的主流数据集上取得了不错的效果，2022年底，ChatGPT爆火，凭借LLM强大的逻辑推理、上下文学习、情景联系等特点，按理说LLM应该可以超过seq2seq、BERT等系列的模型，但是使用少样本、零样本提示方法用LLM解决NL2SQL问题效果
论文阅读：Interleaving Pre-Trained Language Models and Large LanguageModels for Zero-Shot NL2SQL Generat 城南皮卡丘 #论文分享论文阅读语言模型人工智能
摘要：零样本NL2SQL在实现自然语言到SQL中至关重要，它能够在0注释的NL2SQL样例环境中自适应新的数据库、新的SQL语言。现有的NL2SQL研究方法要么根据带注释的数据去微调预训练模型（PLM），要么使用提示词指导大语言模型(LLM)。PLM在模式对齐方面表现良好，但难以实现复杂推理，而LLM在复杂推理任务中表现出色，但无法实现精确的模式对齐。在本文中，我们提出了一个ZeroNL2SQL框
语义解析(一) —— 概述（数据和模型简介）微知girl #语义解析深度学习自然语言处理语义解析 nl2sql
一、简介语义解析是近几年发展起来的一个NLP的分支，主要目的是将自然语言的文本描述，自动转成机器语言（SQL）语句。也称Text-to-SQL，nl2SQL等。随着知识图谱的发展，也逐渐孵化出很多nl2Cypher算法。NL2SQL的历史悠久，早在1973年，Woods等人就开发了一个名为LUNAR的系统，可以回答关于从月球带回的岩石样本的问题。到了1978年，Hendrix设计了一个连接美国海军
【论文阅读_NL2SQL】Towards Complex Text-to-SQL in Cross-Domain Database with Intermediate Representation 笃℃ NL2SQL 论文阅读方法介绍数据库论文阅读 sql
【论文阅读_NL2SQL】TowardsComplexText-to-SQLinCross-DomainDatabasewithIntermediateRepresentation文章目录【论文阅读_NL2SQL】TowardsComplexText-to-SQLinCross-DomainDatabasewithIntermediateRepresentation1.来源2.介绍3.模型3.1中
2023年3月中国数据库行业分析报告正式发布，带你了解NL2SQL技术原理
为了帮助大家及时了解中国数据库行业发展现状、梳理当前数据库市场环境和产品生态等情况，从2022年4月起，墨天轮社区行业分析研究团队出品将持续每月为大家推出最新《中国数据库行业分析报告》，持续传播数据技术知识、努力促进技术创新与行业生态发展，目前已更至第十一期，并发布了共计122页的2022年度分析报告。3月《中国数据库行业分析报告》已正式发布（点击即可跳转，欢迎大家下载查阅），本期报盘点了墨天轮“
2023年3月中国数据库行业分析报告正式发布，带你了解NL2SQL技术原理
为了帮助大家及时了解中国数据库行业发展现状、梳理当前数据库市场环境和产品生态等情况，从2022年4月起，墨天轮社区行业分析研究团队出品将持续每月为大家推出最新《中国数据库行业分析报告》，持续传播数据技术知识、努力促进技术创新与行业生态发展，目前已更至第十一期，并发布了共计122页的2022年度分析报告。3月《中国数据库行业分析报告》已正式发布（点击即可跳转，欢迎大家下载查阅），本期报盘点了墨天轮“
UNISAR: A Unified Structure-Aware Autoregressive Language Model for Text-to-SQL 沉默魔导师LV7 python sql nlp
简介 Text2SQL（也称为NL2SQL）是一项将用户的自然语句转为可执行SQL语句的技术，对改善用户与数据库之间的交互方式有很大意义。Text2SQL的本质，是将用户的自然语言语句转化为计算机可以理解并执行的规范语义表示(formalmeaningrepresentation)，是语义分析(SemanticParsing)领域的一个子任务。目前比较火的英文数据集有WikiSQL、
天池NL2SQL Top15方案 yscoder NLP
目录代码地址Part0:参赛成绩Part1:代码环境环境配置步骤如下:Part2:预处理一.数值类型转化二.训练集数据清洗与分类Part3:模型介绍目录代码地址Part0:参赛成绩Part1:代码环境环境配置步骤如下:Part2:预处理一.数值类型转化二.训练集数据清洗与分类Part3:模型介绍Part4:后处理Part5:模型效果评估Part6:TODO数字通用前后缀挖掘同义词解决方案BUGFI
Text to SQL 论文汇总（NL2SQL/TableQA）阿_牛对话机器人 text2sql nl2sql tableqa paper 论文
Seq2sql:Generatingstructuredqueriesfromnaturallanguageusingreinforcementlearning会议：CoRR2017.作者：VictorZhong,CaimingXiong,RichardSocher链接：https://arxiv.org/abs/1709.00103Abstractsyntaxnetworksforcodegen
百分点认知智能实验室：基于NL2SQL的问答技术和实践 Percent_bigdata 数据挖掘 big data 数据库
编者按：NL2SQL是语义解析和智能问答领域的前沿问题，可以将人类的自然语言问句转化为结构化查询语句，是实现人类和数据库无缝交互和提高数据库分析效率的核心技术。百分点认知智能实验室自成立以来，结合公司实际业务和项目需求，自主研发NL2SQL算法，并在各个公开数据集上取得了良好的效果，同时还在业务项目中积累了宝贵的实际落地经验，本文主要就NL2SQL技术路线的发展历史和实验室在工程实践中的落地经验进
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

NL2SQL的发展

你可能感兴趣的:(NL2SQL)