是Yu欸

【网安专题11.8】14Cosco跨语言代码搜索代码： (a) 训练阶段相关程度的对比学习对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索：不必计算相似性

Improving Code Generation by Training with Natural Language Feedback

写在最前面
论文名片
对未来论文的启发
课堂讨论
- 模型框架
- 语义相似性计算（实验部分讨论了作用）
- 动态和静态信息
- 编码
- 实际应用场景
研究背景
- 1.1 代码搜索任务
- 1.2 用于理解源代码的编码器模型
- 1.3 现有的相关工作
- - 代码搜索任务的分类
  - 编码动态信息
研究挑战与动机
- 现有挑战
- 主要动机
- 本文贡献
模型框架及方案
- 系统模型
- A.COSCO模型训练
- - `优化目标`：
  - Contrastive Training (对比训练)
  - Semantic Similarity Score (语义相似度分数)
  - Semantic Similarity Score Calculation For Training
- B. 基于COSCO模型的代码搜索
实验设置及结果
- A. 研究问题
- B. 数据集
- C. 评价指标
- 实验结果
- - A. RQ1 - 整体性能表现
  - B. RQ2 – 模型通用性
  - C. RQ3 – SSS 语义相似度分数的影响（消融实验）
  - D. RQ4 – 不同训练样本数量对性能的影响（参数分析）
总结与讨论
- 文章总结
- 讨论改进

写在最前面

本文为邹德清教授的《网络安全专题》课堂笔记系列的文章，本次专题主题为大模型。

崔凯同学分享了On Contrastive Learning of Semantic Similarity for Code to Code Search《基于语义相似度对比学习的代码搜索》

PPT好清爽，尤其是介绍系统模型的那部分，把ppt放上来了很多

中文：华文楷体
英文：Times New Roman
字体大小：18号
图注表注：楷体加粗

论文：https://arxiv.org/pdf/2303.16749.pdf
代码：https://github.com/reinforest-team/reinforest

论文名片

（自提亮点，但可能不明显）第一个由（跨语言）代码到代码的搜索模型：作为一种技术，增强大模型

提出了一种新颖的代码到代码搜索技术Cosco。该技术通过包括静态和动态特征，以及在训练过程中利用相似和不同的示例（对比学习），来增强大型语言模型（LLM）的性能
提出了有史以来第一种代码搜索方法，该方法在训练期间对动态运行时信息进行编码，而无需在推理时执行搜索中的语料库或搜索查询，以及第一种在正负参考样本上进行训练的代码搜索技术
进行了一系列研究证明了增强的LLM执行跨语言代码到代码搜索的能力。评估表明，该方法的有效性在各种模型架构和编程语言中是一致的，比最先进的跨语言搜索工具高出44.7%；
消融研究表明，在训练过程中，单个阳性和阴性参考样本都会带来实质性的性能提升，证明相似和不同的参考都是代码搜索的重要组成部分
表明经过精心设计、微调的增强模型始终优于未经微调的增强型大型现代LLM，即使在增强最大的可用LLM时也是如此，这凸显了开源大模型的重要性

对未来论文的启发

可以探索（对比学习）如何利用相似和不同的参考来增强模型的性能。通过在训练过程中引入相似和不同的示例，可以让模型更好地理解关系的多样性和复杂性，从而提高其性能。
(a) 训练阶段相关程度的对比学习对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索：不必计算相似性

课堂讨论

模型框架

进行编码，对编码得到的嵌入向量进行学习
对比学习：相似代码之间距离最小化
相似度计算：预先计算的嵌入&查询嵌入
文档代码的编码

语义相似性计算（实验部分讨论了作用）

余弦相似度：查询代码和查询库的相似性
创新点：训练过程中同时考虑正负样本

动态和静态信息

查询代码
静态：嵌入转换
动态：在线查询

编码

比如用java语言
训练语料库分为两部分：查询代码（java）、文档代码（python）

提到了什么代码特征，以能实现跨语言搜索（目前只一对一、针对java到python）？
没有直接提及，可能是编码提取，通过余弦相似度学到了相关信息。

一对多时，余弦相似度可能不足以完成任务

实际应用场景

代码克隆的场景下，传统方法更有效
第三类：部分语句的插入、删除、修改

传统相似漏洞搜索，一大块代码copy才会导致漏洞

研究背景

随着强大的大型语言模型（LLM）的兴起（代表如Bert模型 [1]，如图1所示），应用于源代码分析任务的机器学习逐渐引起了广泛研究。
由于大型公共代码存储库的出现 [2]，代码到代码搜索（ Code-to-Code Search）的潜力已经获得了新的意义，可协助完成常见的软件维护与开发任务，实现在大型代码库中定位和重用代码片段，例如，代码迁移、转译、代码修复、错误检测、和重构等。

图1：Bert模型框架图。预训练的语言表征模型，基于Transformer的框架，能融合左右上下文信息的深层双向语言表征

[1] J. Devlin, M. Chang, K. Lee, and K. Toutanova, “BERT: pre-training of deep bidirectional transformers for language understanding,” in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics, 2019, pp. 4171–4186. [Online]. Available: https://doi.org/10.18653/v1/n19 1423.
[2] B.Vasilescu, A. Serebrenik, and V. Filkov, “The state of the art in distributed software development: A systematic review,” in 2019 IEEE/ACM 41st International Conference on Software Engineering (ICSE). IEEE, 2019, pp. 69–79.

1.1 代码搜索任务

代码到代码搜索可以被广泛地定义为获取代码样本（即查询项）后，搜索其他可用代码样本的语料库（即搜索语料库），并在搜索语料库中查找与查询匹配的代码克隆品。
代码搜索的系统架构，如图2所示。

图2：Code Search的系统架构

• 跨语言代码到代码搜索，则专门地处理查询和语料库用不同语言编写的情况。（例如，开发人员 a 使用相对较新的语言或缺乏支持文档的语言编写代码）。
• 代码克隆（Code Clones）[3]源于多种因素，复制粘贴、代码重用和遵守编码模式：
类型1：相同的代码片段，但空白、注释或格式有所不同。
类型2：语法相同的代码片段，但变量、常量或函数名称有所不同。
类型3：带有修改的语句、函数调用或控制结构的类似代码片段。
类型4：语义相同且具有相同功能的代码片段，但其句法结构有所不同。由于源代码可能提供很少有用的上下文，这类克隆方式最难检测。

[3] F.-H. Su, J. Bell, G. Kaiser, and S. Sethumadhavan, “Identifying Functionally Similar Code in Complex Codebases,” in 2016 IEEE 24th International Conference on Program Comprehension (ICPC), 2016, pp. 1–10.

• 现有的静态代码搜索技术，可分为以下三类：
① 基于文本的方法。依靠传统的信息检索技术（例如，关键字搜索或字符串匹配）来查找相关的代码片段；
② 基于结构的方法。利用源代码的语法和语义结构（例如，抽象语法树）来查找匹配或相似的代码片段；
③ 基于机器学习的方法。利用文本和语义结构编码以及机器学习算法来查找克隆代码。

• 如今，代码搜索算法能够更好地从源代码文本中提取语义信息，已从传统的仅限于同一语言的代码查询和语料库，逐渐扩展到不同语言的查询和语料库的代码搜索。

• 由于静态代码搜索的高度可扩展性(无需代码执行、快速处理源代码)和易实现性(无需执行环境或运行时设置、可用的上下文缺少)，针对类型4的代码克隆中行为相似性，动态分析信息（执行跟踪或输入输出对）技术，利用额外的上下文来查找静态分析未检测到的代码克隆。

1.2 用于理解源代码的编码器模型

深度学习技术训练模型来“理解”源代码。即利用编码器Enc对给定代码片段c进行表示学习，得到向量嵌入embeddeding Enc(c)，其包括代码中的词典、句法和语义信息，随后应用于分类、搜索、排序等任务。
开源模型，例如 CodeBERT [4] 。或闭源嵌入的 API，例如 OpenAI 的 codex 嵌入 [5]。
针对高效的预训练模型，嵌入需要根据下游任务进行调整。
对于用于嵌入的开源模型，可以访问模型的权重对模型进行微调。
对于来自闭源模型的嵌入，可以在初始嵌入的基础上构建进一步的模型，但嵌入不能更改。

[4] Z. Feng, D. Guo, D. Tang, N. Duan, X. Feng, M. Gong, L. Shou, B. Qin, T. Liu, D. Jiang, and M. Zhou, “CodeBERT: A pre-trained model for programming and natural languages,” in Findings of the Association for Computational Linguistics: EMNLP 2020, Nov. 2020, pp. 1536–1547.
[5] OpenAI, “Openai’s text embeddings,” 2023. [Online]. Available: https://platform.openai.com/docs/guides/embeddings

1.3 现有的相关工作

代码搜索任务的分类

① 在训练或推理时都不运行代码的静态技术，依赖于其基于 token 的中间表示，或者基于图和基于 AST 的中间表示。但缺乏编码行为信息，并且需要之前的查询来获取上下文。

② 包括更多上下文的动态信息，但需要在训练和推理时运行代码带来额外的开销。
最近关于动态代码克隆检测，已经转向获取代码并将其分割成更小的段并比较。

编码动态信息

先前工作是 Trex通过在训练阶段编码微执行轨迹，来识别语义相似的函数，从而将学习到的表示转移到预训练的模型上。

学习动态行为信息在安全领域中尤其普遍，因为恶意软件经常混淆源代码以避免检测。

由于收集所有查询代码的运行时信息，需要相当长的时间来执行推理任务。

研究挑战与动机

现有挑战

※ 当前研究存在的主要挑战：

►当前，传统的动态分析技术需要在训练阶段执行代码、在搜索过程执行搜索语料库和搜索查询项目，这会导致扩展问题以及实践中运行代码所带来的所有与环境相关的问题。

►针对跨语言代码搜索问题，即查询和语料库来自不同的语言形式，需要重点考虑其行为相似性，而模型不能仅仅依赖于源代码的相似性。

主要动机

►在训练过程，COSCO模型从训练语料库中学习静态和动态相似性，借鉴对比学习的思想，最大化不相似代码之间的距离，并最小化相似代码之间的距离。
►训练前生成语义相似度得分 (SSS) 的动态相似性特征，该特征涉及使用相同输入执行的训练语料库，并比较具有相同输入类型函数的输出。
►创建搜索语料库中预先计算的嵌入，在推理时搜索查询嵌入，以便与预先计算的嵌入进行简单比较来生成搜索结果。具体过程，如图3所示。

本文贡献

※ 主要工作贡献：
① 为增强LLMs的代码搜索能力，本文提出了一种新的代码到代码搜索技术COSCO，在训练阶段对源代码(查询+目标代码)和动态运行信息进行编码，而无需执行任何内容，从而搜索语料库或搜索查询进行推理。

② 训练阶段同时考虑相似和不相似代码样本，同时利用静态和动态信息但不会在推理时产生运行代码开销。

③ 通过消融研究证明了COSCO在跨语言代码搜索推断动态行为的能力，即使推断仅基于静态信息。

④ 实验验证了COSCO模型在多个LLMs模型上的有效性。

⑤ 作为跨语言代码搜索的最新方法，开源代码如下：https://github.com/reinforest-team/REINFOREST

模型框架及方案

系统模型

• COSCO 模型主要包含两个独立的步骤： (a) 训练阶段； (b) 在线查询嵌入与搜索。
• COSCO 由两种不同的编码器组成： (a)查询代码编码器（Eq）； (b)文档代码编码器（Ed）。

A.COSCO模型训练

`优化目标`：

① COSCO 模型对查询代码编码器（Eq）和文档代码编码器（Ed）生成的嵌入进行转换，即使相关代码之间的距离最小化，不相关代码之间的距离最大化。
②在训练过程中为 COSCO 模型提供动态代码相似性信息，即在代码搜索（推理）任务中不必计算查询代码与数据库中所有其他代码之间的语义（I/O）相似性。

图3：COSCO模型训练过程

Contrastive Training (对比训练)

Contrastive Learning : 一种特殊的无监督学习方法，旨在通过最大化相关样本之间的相似性并最小化不相关样本之间的相似性来学习数据表示。通常使用一种高自由度、自定义的规则生成正负样本。在模型预训练中有着广泛的应用、良好的迁移性能。

► Positive和Anchor组成一组正样本对，这里Positive和Anchor可以是图片、音频、特征，且可以为多种数据类型，而且不一定要和Anchor是同种数据类型（CLIP）；

► Negative和Anchor组成一组负样本对；

► 核心的三个模块即：
正负样本定义+Encoder（编码器）定义+损失函数定义

图4：对比学习通用框架图

► 定义三元组的集合
一段以源语言 s 编写的代码 (例如，Java)；
以目标语言 t 编写的代码集合(例如，Python)
代码样本 Cp ：相同问题的解决方案（正样本）；
代码样本 Cn ：不同问题的解决方案（负样本）
Goal：希望使得 Cp 中每个元素的嵌入更接近 cs 的嵌入，并且使 Cn 中每个元素的嵌入远离 cs 的嵌入。

► Code Encoder 代码编码器
查询代码的嵌入；文档代码的嵌入（正、负样本）

► 余弦相似度：
计算查询代码与每个正样本和负样本之间的余弦相似度
对比损失函数：最大化 cs 和 Cp 中所有元素之间的相似性，最小化 cs 和 Cn 中所有元素之间的相似性。

Semantic Similarity Score (语义相似度分数)

Goal：赋予COSCO模型有关语义（I/O）相似性的知识。
语义相似性函数：计算源代码和目标代码之间的语义相似度。
对比损失函数：对公式2进行了修正，超参数 α 表示语义训练的相对重要性，凭经验发现将 α 设为 0.2 可获得最佳性能。

Semantic Similarity Score Calculation For Training

(训练阶段语义相似度分数计算)
基于运行时信息的语义相似度评分计算，采用 SLACC 的相似性评分方法，即匹配输出的数量除以总输入的数量。

图5：相似度评分流程，其中包括 (a) 语料库生成; (b) 相似度计算。

► 相似性分数的生成过程
① 由代码语料库生成输入语料库，对系统调用进行静态分析，并推导出该特定代码的输入结构。
首先提取语料库中的所有输入结构，然后根据原始类型为每个结构生成大量随机值的输入，并创建输入语料库。
② 针对任意两个代码样本，进行相似度计算。
首先提取其输入结构，使用与其输入结构匹配的输入运行，再执行上述描述的相似度计算。注意，与 SLACC 一样，如果两段代码具有不同的输入结构，相似度分数为零。

B. 基于COSCO模型的代码搜索

主要步骤：
① 编码。利用经训练得到的两个代码编码器 Eq 和 Ed ，分别对查询代码和文档代码进行编码。
② 搜索。由于编码表示是实值向量，FAISS 等索引工具可将它们存储在索引数据库中以进行高效搜索。根据公式（1）中的相似度得分在嵌入数据库中进行搜索，并返回相似度得分最高的前 n 项候选项目。

实验设置及结果

A. 研究问题

为了评估本文所提出的COSCO模型性能，主要考虑了四个主要研究问题，如下：

RQ1: 与其他跨语言代码搜索技术的性能相比，COSCO 的性能表现如何？
RQ2: COSCO的方法和性能是否适用于不同的模型？
RQ3:在训练阶段采用的语义相似度分数是否可以改善代码搜索性能？
RQ4:如果改变可用于训练的正、负比较样本的数量会对COSCO的性能有何影响？

B. 数据集

► 为了评估COSCO，本文采用了Atcoder数据集[11]，其主要针对361个编程竞赛问题，由18644个Java解决方案和22317个Python解决方案组成。
► 通过将数据集重新划分为不同的问题来创建训练、验证和测试集，即训练、验证和测试分集不共享同一问题的解决方案。

[11] K. Nakamura, R. Iwasaki, S. Hoshino, and I. Sato, “Atcoder: A dataset for machine learning on programming,” in Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 2021, pp. 3601–3611.

表1：数据集的统计数据，其中“Average”表示每个问题的平均文件数。

C. 评价指标

本文主要利用了三个性能评价指标，如下：
① PR@N精度，反映代码搜索任务的重要性能。
将测试集中的每个样本作为查询对象，在前 N 个搜索结果中找出真实正的样本的平均数量，并与测试集中的其他样本进行比较，且N 介于 1 和 5 之间。
② ARG（Average Rank Gap），反应语料库中的全部搜索结果。
被定义为负样本的平均排名减去正样本的平均排名。
③ AFP（Average First Position），反应语料库中的正样本排序最高的搜索结果。

其他实验细节
► 本文使用 BM25 python 库实现了 TF-IDF 搜索，将源代码视为自然语言，并执行基于标记的搜索。另外，还实施基于 AST 的搜索，改进了SLACC 方法，使用语料库中查询和文档的 AST 表示法，并将其从特定语言的 AST 转换为具有通用节点类型的通用 AST。
► 利用标准树距离算法来确定两个代码样本的相似性；重新实施了 COSAL的标记子集技术，将函数划分为较小的片段，并对较小的代码片段进行聚类，以确定函数之间的相似性。

实验结果

A. RQ1 - 整体性能表现

► 验证COSCO模型在寻找跨语言克隆方面的表现如何。
► 选取了三种state-of-the-art LLM模型进行对比验证实验。

① CodeBERT 是微软亚洲研究院开发的用于代码表示和生成的预训练模型，具有跨编程语言传输知识的能力，可针对各种下游任务微调，并表现出良好性能。
② GraphCodeBERT 是扩展模型，将控制流图合并到其预训练过程中，更好地捕获代码标记间关系，并为代码分析和生成任务生成准确的表示。
③ UnixCoder是由 Facebook AI 开发的自然语言到 shell 命令翻译的预训练模型，根据自然语言输入生成 shell 命令，具有理解复杂命令与转换可执行命令能力。
► 上述模型先在训练集上被训练为分类器，然后对于测试集中的每个文档，分类器确定文档与给定查询匹配的概率，并根据最高概率对结果进行排序，最终得到代码搜索结果。

图6：分类器风格搜索

► 时间复杂度。在搜索过程中，需对整个测试语料库进行分类。COSCO 可以使用预先计算的语料库嵌入，并且只需要根据查询创建与之最接近嵌入向量，而不需要考虑语料库的其余部分。时间消耗约14h。
► 指标性能。COSCO 模型在所有评估指标上都远远优于现有的跨语言代码搜索技术，与 Java 到 Python 搜索的最近基线相比提高了 40.6%，与 Python 到 Java 搜索的最近基线相比提高了 11.5%。本文的性能比 COSAL 的最先进性能高出 44.7%。

图7：COSCO模型的整体性能表现，(a) 在 Java 到 Python 搜索任务; (b) 在 Python 到Java 搜索任务。

表 2：使用 Java 代码作为查询搜索 Python 代码的详细结果

表 3：使用 Python 代码作为查询搜索 Java 代码的详细结果

B. RQ2 – 模型通用性

► 验证COSCO模型是否能够有效提高许多不同的 LLM 模型（开源和专有）的性能。
► 选取了CodeBERT、OpenAI 的 Codex Ada、Babbage、Curie 和 Davinci 等 LLM模型进行对比验证实验。
COSCO 的训练始终能够提高 Java 到 Python 和 Python 到 Java 查询的代码到代码搜索性能，改进范围从 5.2% -10.44%

图8：经过训练和未经训练COSCO模型的训练影响 (PR@1)，(a) 在 Java 上的训练提升; (b) 在 Python 上的训练提升。

使用 COSCO 方法的各种模型相对于 COSAL (SOTA) 的整体性能。
► COSCO 的训练方法始终改进基础 LLM 模型，Java 到 Python提升26.2%，Python 到 Java 提升5.17%；
► 发现经过微调的 CodeBERT 在跨语言代码查询上的每个指标都优于所有其他模型，7.69x、9.96x。

图9：COSCO模型的在不同模型上的表现，(a) 在 Java 上的模型表现; (b) 在 Python 上的模型表现。

C. RQ3 – SSS 语义相似度分数的影响（消融实验）

► 探究SSS 对 COSCO 各种底层模型在跨语言查询性能的影响。
无论使用哪种查询语言或用于嵌入的模型，使用 SSS 计算总是可以提高模型性能。尤其，对 OpenAI 专有模型之一（davinci）有显著提升。SSS 与性能最佳版本的 COSCO (CodeBERT) 结合在一起，7%、4.8%。

图10：COSCO模型的语义相似度分数影响(PR@1)，(a) 在 Java 上的SSS影响; (b) 在 Python 上的SSS影响。

D. RQ4 – 不同训练样本数量对性能的影响（参数分析）

► 通过改变训练阶段可用的正负样本的数量，探究每个参考样本数量对模型性能的影响。
使用相同数量的正、负参考样本对分别为1 、3 和 5 个参考进行了性能实验。
x 轴和 y 轴显示训练期间可用的正样本和负样本的数量，圆圈的大小代表模型在该情况下的 PR@1 性能，越大越好。

图10：在训练期间不同数量参考样本的 COSCO 模型性能，(a) 在 Java 到 Python 搜索上的不同的参考样本 (PR@1); (b) 在 Python 到 Java上的不同的参考样本 (PR@1)。

表 4：关于正样本和负样本的影响详细结果，其中 Max-p 和 Max-n 分别代表最大正样本和最大负样本。

► COSCO 的性能取决于正负样本量。与仅使用正样本和负样本相比，使用正样本和负样本的组合可分别将 Python 到 Java 搜索的性能提高 10.2 倍和 17.8 倍，将 Java 到 Python 搜索的性能提高 15.5 倍和 12.2 倍。

总结与讨论

文章总结

► 本文提出了一种新颖的由代码到代码搜索模型，称为 COSCO。该方法利用通过以语义相似度得分 (SSS) 的形式对运行时行为进行编码，从而来增强LLM性能表现。与在训练过程中仅考虑正样本的代码搜索不同，COSCO 模型既最小化相似样本之间的距离，又最大化不相似样本之间的距离，有效降低了模型时间复杂度。

► 在跨语言代码搜索任务中对COSCO模型进行了充分验证，即使用 Java 查询搜索 Python 样本语料库、使用 Java 查询搜索 Python 样本语料库，并表明该方法在所有评估指标上的先进性。

► 另外，验证了语义相似性分数计算、训练阶段的正负样本数量对模型性能的重要性影响。表明COSCO模型在推理阶段没有可用的动态上下文的情况下，学习了动态行为信息，并依赖于正负样本的存在。

讨论改进

※ 存在的问题与局限性 ※

① Q：模型内部问题

A: 由于本文进行了独立的训练、验证和测试集划分，与包括 COSAL 在内的基准方法对比，实验设置较为单一化。在Atcoder 数据集上的验证中，由于输入规范的问题，未在大部分数据集上执行，当无法收集到SSS时，即使用默认值。如果能够为整个数据集生成输入，SSS 可能会产生其他的的影响。并且在例如α等超参数设置上，存在调整粗略的问题。

② Q：模型外部问题

A: Atcoder 数据集是根据各个级别的从业者向编码竞赛提交的内容编译而成的。目前不清楚这些竞赛中的代码是否真正反映了现实场景下的生产代码，未能验证COSCO模型在真实场景下的具体性能表现。另外，在训练阶段不考虑行为克隆，则会限制模型对于正负样本中学习上下文的数量。

③ Q：模型验证问题

A: 本文仅选用其认为标准且有意义的评估指标，而忽略了如Recall, Overall Accuracy, and F1 score等其他评价指标。另外，本文只针对解决跨语言的代码搜索，而未考虑在同语言的代码搜索实验进行模型有效性验证。

④ Q：主要局限性

A: 对于任意两代码之间的语义相似度计算，类似于输入（测试用例）的生成，仍是一个值得进一步探究的研究。本文仅依赖于单一函数到函数的映射，可能过于理想化，由于相同的行为可在不同代码库中的多个函数之间进行划分。

你可能感兴趣的:(笔记,论文阅读,AIGC,全文检索,bert,AI编程,embedding,结对编程)

Apache2 搭建 WebDAV 服务器 cnlenglan apache
Apache2搭建WebDAV服务器本文本参考了https://blog.csdn.net/fengchao_2009/article/details/7531856https://www.cnblogs.com/anArtist/articles/5462951.html最近使用unRaid安装了Webdav，考虑到本人不熟悉Linux系统以及这个unRaid就准备放弃使用该系统。查询资料发现W
chatgpt赋能python：用Python安装Jupyter：让数据科学变得更加高效！ aijinglingchat ChatGpt python chatgpt jupyter 计算机
用Python安装Jupyter：让数据科学变得更加高效！对于数据科学家而言，jupyter是不可或缺的工具之一。它是一个基于web的交互式计算环境，可以帮助我们在Python中以一种轻松、方便、可交互的方式进行编程和数据分析。今天，我们将向您介绍在Python中如何安装jupyter。安装Python要安装jupyter，首先需要安装Python。如果您已经安装了Python，请跳到下一步。您可
ECMAScript 2016（ES7） - ECMAScript 2024(ES15)新特性全览孤影_ls JS javascript 前端 ES7-ES15
ECMAScript新特性w3shoolsECMAScript2016ECMAScript2024Es2022array.at获取数组的第N个元素时Object.hasOwn()替代Object.prototype.hasOwnProperty()使用“#”声明私有属性(方法，字段)不用下划线_为前缀了await不需要写asyncRegExp匹配索引/d允许我们指定我们想要获取给定字符串中RegE
macOS查看当前项目的 tree 结构缘友一世 mac折腾记 macos
文章目录使用`tree`命令macOS系统默认不包含tree命令使用tree命令使用homebrew自动安装脚本/bin/zsh-c"$(curl-fsSLhttps://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"安装tree：brewinstalltree查看项目的tree结构：treeyang@MacdeMac-minigradle
深度解析智能问答系统：如何打造精准、高效的AI对话架构？和老莫一起学AI 人工智能架构自然语言处理产品经理语言模型学习 ai
在人工智能的飞速发展中，智能问答系统（QA系统）逐渐成为了企业内部管理、客户服务、搜索引擎等多个领域中的关键技术。今天，我们将深入探讨一个基于大模型、自然语言处理、知识检索的智能问答系统的架构，详细介绍其技术原理、流程以及未来应用前景。一、系统整体概览在这个智能问答系统中，整个流程可以大致划分为两大部分：前端问答生成与后端离线数据处理。前端部分是用户交互的核心，通过用户的输入、关键词提取、检索和问
Python 实战-优化排班表节省成本奔向理想的星辰大海技术研发 python ios objective-c
1.基础概念：理解排班表排班表，顾名思义，就是安排员工工作时间的表格。在餐馆中，它通常需要考虑员工的可用性、工作时间限制、用餐高峰时段等因素。2.使用列表存储员工信息首先，我们需要一个数据结构来存储员工信息。Python中的列表是一个不错的选择。#员工信息列表，包括姓名、可用时间段employees=[{"name":"张三","available":[(9,17),(20,23)]},{"nam
Java并发编程：线程安全的策略与实践喵手零基础学Java java 安全开发语言
哈喽，各位小伙伴们，你们好呀，我是喵手。运营社区：C站/掘金/腾讯云/阿里云/华为云/51CTO；欢迎大家常来逛逛今天我要给大家分享一些自己日常学习到的一些知识点，并以文字的形式跟大家一起交流，互相学习，一个人虽可以走的更快，但一群人可以走的更远。我是一名后端开发爱好者，工作日常接触到最多的就是Java语言啦，所以我都尽量抽业余时间把自己所学到所会的，通过文章的形式进行输出，希望以这种方式
C++ 多态初学笔记 NicOym C++c++
多态虚函数虚函数的使用条件虚函数详解对象多态多重继承时，类型转换的练习（1）情况1：（2）情况2：（3）情况3：（4）情况4：对象多态动态强制转换dynamic_casttypeid抽象类类的成员函数的函数指针概念：允许使用统一的接口来操作不同类型的对象。多态的作用：减少重复代码，提高代码扩展性静态多态：函数重载函数模板动态多态继承虚函数虚函数：动态绑定静态绑定个人记法（可能有误）：动态绑定是调用
python多进程编程_深入理解python多进程编程 weixin_39620001 python多进程编程
1、python多进程编程背景python中的多进程最大的好处就是充分利用多核cpu的资源，不像python中的多线程，受制于GIL的限制，从而只能进行cpu分配，在python的多进程中，适合于所有的场合，基本上能用多线程的，那么基本上就能用多进程。在进行多进程编程的时候，其实和多线程差不多，在多线程的包threading中，存在一个线程类Thread，在其中有三种方法来创建一个线程，启动线程，
python多进程编程实例_Python多进程编程multiprocessing代码实例 weixin_39791386 python多进程编程实例
在多线程与多进程的比较这一篇中记录了多进程编程的一种方式.下面记录一下多进程编程的别一种方式,即使用multiprocessing编程importmultiprocessingimporttimedefget_html(n):time.sleep(n)print('subprocess%s'%n)returnnif__name__=='__main__':#多进程编程process=multipr
SpringBoot+restFul+filter+threadLocal实现多租户的项目梦想一直在路上
本片博客参考了https://blog.csdn.net/gebitan505/article/details/51614805threadLocal的目的是:实现变量的全局话,在当前的项目当中是实现了用户名的多租户状态下的全局话fiter:进行token的拦截,ThreadLocal的代码packagecom.zwl.util;importjava.util.HashMap;importjava
javamail发( 收)邮件 sageparadise Java javamail string exception 邮件服务器 email properties
MyAuthenticator.javapackagecn.com.vetc.survey.mail;importjavax.mail.Authenticator;importjavax.mail.PasswordAuthentication;publicclassMyAuthenticatorextendsAuthenticator{privateStringuserName=null;priv
SOA 术语概述，第 2 部分: 开发流程、模型和资产 rochening soa uml ibm eclipse 工作平台
文档选项将此页作为电子邮件发送拓展Tomcat应用下载IBM开源J2EE应用服务器WASCE新版本V1.1级别：初级BertrandPortier([email protected]),IT架构师,IBM,Intel,Microsoft,HP2007年5月23日了解一些基本SOA术语。本文是本系列的第2部分，BertrandPortier将在其中定义一些术语（包括开发流程、模型和资产）并说明为
上海计算机学会2020年10月月赛C++丙组T5小球的颜色长春高老师编程上海计算机学会月赛丙组 c++算法开发语言
小球的颜色内存限制:256Mb时间限制:1000ms题目描述给定n个数字a1,a2,…,an。我们需要更改一些数字，使得最后数字种类不超过k种，请问最少需要更改多少数字。输入格式第一行：两个整数n与k;第二行：n个整数a1,a2,…,an。输出格式单个整数，表示答案。数据范围对于30%的数据，1≤n≤100；对于40%的数据，1≤n≤1000；对于100%的数据，1≤k≤n≤2×10^5。1≤ai
kafka 学习笔记3-传统部署Kraft模式集群——筑梦之路筑梦之路 kafka 学习笔记
部署kafka集群规划一般模式下，元数据在zookeeper中，运行时动态选举controller，由controller进行Kafka集群管理。kraft模式架构下，不再依赖zookeeper集群，而是用三台controller节点代替zookeeper，元数据保存在controller中，由controller直接进行Kafka集群管理。ip主机名角色nodeid192.168.100.131
为什么算法很难掌握浅墨cgz 算法
算法之所以难以掌握，主要是因为以下几个原因：1.抽象性算法是对问题的抽象解决方案，通常不依赖于具体的编程语言或实现细节。初学者可能难以将抽象的逻辑转化为具体的代码。例如，动态规划（DP）的核心思想是将问题分解为子问题并存储中间结果，但这种抽象思维需要大量练习才能掌握。2.数学基础要求许多算法依赖于数学知识，例如：时间复杂度分析：需要理解大O表示法、递归关系等。图论算法：需要了解图的基本概念（如节点
亚马逊CloudFront：一次一个HTTP请求提升网络性能 AI航海家 AWS
亚马逊CloudFront：一次一个HTTP请求提升网络性能关键字:[AmazonWebServicesre:Invent2024，亚马逊云科技，生成式AI，CloudFront，HttpRequestPerformance，CloudfrontDnsRouting，EdgeCachingArchitecture，ServerlessEdgeCompute，OriginSecurity]导读无论您
【AI论文】迈向大型推理模型：大型语言模型增强推理综述东临碣石82 人工智能语言模型自然语言处理
摘要：语言长久以来被视为人类推理不可或缺的工具。大型语言模型（LLM）的突破激发了利用这些模型解决复杂推理任务的浓厚研究兴趣。研究人员已经超越了简单的自回归词元生成，引入了“思维”的概念——即代表推理过程中间步骤的词元序列。这一创新范式使LLM能够模仿复杂的人类推理过程，如树搜索和反思性思维。近期，一种新兴的学习推理趋势采用强化学习（RL）来训练LLM掌握推理过程。这种方法通过试错搜索算法自动生成
《CPython Internals》阅读笔记：p177-p220 codists 读书笔记 python
《CPythonInternals》学习第11天，p177-p220总结，总计44页。一、技术总结1.memoryallocationinC(1)staticmemeoryallocationMemoryrequirementsarecalculatedatcompiletimeandallocatedbytheexecutablewhenitstarts.(2)automaticmemeorya
JAVA基础语句整理 chengxuyuan66666 java python 开发语言
Java是一种广泛使用的面向对象编程语言，它具有简洁、强大、跨平台等特性。以下是Java中的一些基础语句和概念，适合初学者了解：1.类与对象Java是基于类的，程序的基本单位是类（class）。对象是类的实例。java复制代码//定义一个类publicclassPerson{//属性（成员变量）Stringname;intage;//方法（成员函数）voidintroduce(){System.o
FPGA与ASIC：深度解析与职业选择博览鸿蒙 FPGA fpga开发制造
IC（集成电路）行业涵盖广泛，涉及数字、模拟等不同研究方向，以及设计、制造、封测等不同产业环节。其中，FPGA（现场可编程门阵列）和ASIC（专用集成电路）是两种重要的芯片类型，经常让初入行者或转行者面临选择难题。本文将深入剖析FPGA与ASIC的区别，帮助读者更好地理解并做出职业规划。概念辨析FPGA(FieldProgrammableGateArray)：本质上是一种芯片，允许用户通过编程配置
AI行业高压与人才健康：纪念Felix Hill，并探讨AI代码生成工具的价值前端
今天，我们怀着沉痛的心情悼念GoogleDeepMind研究科学家FelixHill，这位杰出的AI学者在41岁的年纪离开了我们。他的离世引发了我们对AI行业高压环境与人才健康问题的深刻反思。Felix生前曾公开表达AI行业前所未有的压力，这促使我们思考如何利用技术，例如AI代码生成器，来改善开发者的工作环境，提升效率，守护人才健康。FelixHill在自然语言处理和人工智能领域取得了令人瞩目的成
2024年AI浪潮：基础设施重构、模型演进与挑战并存前端
2024年，人工智能领域呈现出蓬勃发展的景象，投资持续增长、基础设施发生变革，技术应用加速落地。各大科技公司和初创企业纷纷涌入，试图在这一充满机遇的领域分一杯羹。本文将深入探讨2024年AI发展的三大核心趋势：AI基础设施的重构、模型发展的新趋势以及AI发展带来的挑战，并重点关注企业如何从AI投资中获得回报，以及AI智能体技术的巨大潜力。选择合适的AI代码生成器将成为企业提升效率的关键。AI基础设
《CPython Internals》阅读笔记：p250-p284 python
《CPythonInternals》学习第14天，250-p284总结，总计25页。一、技术总结介于我觉得作者写得乱七八糟的，读完我已经不想说话了，所以今日无技术总结。二、英语总结(生词：2)1.spawn(1)spawn:来自于词根expandere。(2)expandere:ex-("out")+pandere("tospread")spawn原来的意思是“spreadingoutoffish
DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键量子位
原创关注前沿科技量子位DeepSeek版o1，有消息了。还未正式发布，已在代码基准测试LiveCodeBench霸榜前三，表现与OpenAIo1的中档推理设置相当。注意了，这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview（轻量预览版）。而是摘掉了轻量版的帽子，称为DeepSeek-R1-Preview（预览版），意味着替换了规模更大的基础模型。Live
API对于程序员的多元用法：从基础到实战前端后端运维数据挖掘api
一、引言在当今数字化时代，应用程序编程接口（API）已成为程序员开发工作中不可或缺的一部分。API就像是不同软件系统之间沟通的桥梁，让程序员能够轻松地利用外部的功能和数据，极大地提升了开发效率和应用的功能性。无论是构建一个简单的网页应用，还是开发复杂的企业级软件，API都扮演着关键角色。接下来，我们将深入探讨API对于程序员的各种用法。二、API基础概念2.1什么是APIAPI是一组定义、协议和工
免费下载：汽车SoC学习笔记（含安全岛）不懂汽车的胖子汽车学习笔记
文末附下载方法目录1SoC是什么...31.1SoC历史发展...31.2SoC定义...41.3SoC的特征...61.4SoC的优点...61.5SoC的缺点...72SoC需求来源...73SoC架构...83.1SoC架构...83.2SoC芯片分类...93.2.1模拟SoC(AnalogSoC)：...93.2.2数字SoC(DigitalSoC)：...93.2.3混合SoC(Mix
使用PyCharm运行Python程序代码艺术巧匠 python pycharm java Python
使用PyCharm运行Python程序PyCharm是一种功能强大的Python集成开发环境（IDE），它提供了许多方便的功能来开发、调试和运行Python程序。在本文中，我将向您展示如何使用PyCharm来运行Python程序，并提供相应的源代码示例。步骤1：安装PyCharm首先，您需要从JetBrains官方网站下载并安装PyCharm。根据您的操作系统，选择适合您的版本。安装过程非常简单，
直播预告丨精度优于AlphaFold，基于深度学习实现生物大分子及其互作的三维结构预测
「MeetAI4S」系列直播第6期将于1月15日19:00准时开播，HyperAI超神经有幸邀请到了南开大学统计与数据科学学院教授郑伟，他本次分享的主题是「AlphaFold3王座未稳，来自学术界的反超：基于深度学习的生物大分子及其互作的三维结构预测」。蛋白质的功能取决于其独特的三维结构，近年来，基于深度学习等人工智能技术的蛋白质结构预测发展迅猛，AlphaFold甚至获得了2024年诺贝尔化学奖
Gary Marcus 2025年AI预测：AGI仍在路上，务实发展才是王道前端
人工智能领域发展日新月异，各种预测层出不穷。知名人工智能专家GaryMarcus近期发布了对2025年AI发展趋势的25项预测，其中最引人注目的是：AGI（通用人工智能）不会在2025年出现。这与一些过于乐观甚至盲目乐观的预测形成了鲜明对比。本文将深入解读Marcus的预测，探讨其背后的逻辑，并结合当前AI技术发展现状进行分析。Marcus的预测整体基调是谨慎乐观，他既肯定了AI在特定领域的进步，
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

【网安专题11.8】14Cosco跨语言代码搜索代码： (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索：不必计算相似性