是Yu欸

【网安AIGC专题11.1】11 Coreset-C 主动学习：特征选择+11种采样方法+CodeBERT、GraphCodeBERT+多分类(问题分类)二元分类(克隆检测)非分类任务(代码总结)

Active Code Learning: Benchmarking Sample-Efficient Training of Code Models

写在最前面
论文名片
先验知识的补充
- 主动学习
- 采样函数
- benchmark基准和baseline基准线的区别
背景Background
- 主动学习
动机Motivation
基准Benchmark
- 采样函数acquisition functions
- 设置set up
- RQ1: Feature Selection特征选择
- - Answer to RQ1
- RQ2: Acquisition Function Comparison采样函数的比较
- - 分类任务
  - 非分类任务
  - Answer to RQ2
探索性研究Exploratory Study
- 研究设计Study Design
- 不同的距离Different Distance
- 案例研究Case Study
结论Conclusion
课堂讨论
- 主动学习
- 采样函数
- 聚类
- kmeans

写在最前面

本文为邹德清教授的《网络安全专题》课堂笔记系列的文章，本次专题主题为大模型。

皇甫璟轩同学分享了Active Code Learning: Benchmarking Sample-Efficient Training of Code Models《主动代码学习:样本高效的代码模型训练基准测试》

分享时清晰简洁大方
学到了benchmark基准和baseline基准线的区别
主动学习：主动选择具有最大信息量的数据样本
采样函数：旨在选择最有价值的数据样本，以便有效地提高模型性能

论文名片

主题： 主动代码学习：基于特征选择的研究

摘要：

问题陈述： 机器学习模型的训练数据准备需要大量人力，这对于软件工程领域尤为明显。主动学习是一种可以减少数据需求的技术，但在代码模型中的应用尚未得到充分研究。
研究目标： 本文的研究目标是探讨主动学习在代码模型训练中的有效性，并建立一个基准来评估不同的特征选择方法。
方法和实验： 收集了11个采集函数（用于数据选择），并在与代码相关的任务中使用这些函数。
进行了实证研究，检查这些采集函数是否保持了代码数据的性能。
结果和发现： 研究结果表明，特征选择在主动学习中起到重要作用，使用输出向量选择数据是最佳选择。
然而，在代码摘要任务中，主动代码学习被发现是无效的，导致生成的模型性能差距超过29.64％。
未来方向： 使用评估指标代替距离计算方法，并探索这些评估指标与代码模型性能之间的相关性。

结论：
本文的研究弥合了主动学习在代码模型中的应用的研究空白，并提供了有关特征选择方法的有用见解。
作者还强调了主动代码学习的限制，特别是在代码摘要任务中的有效性。
这项研究对于改进代码模型的训练过程具有重要意义，特别是在预算有限的情况下。

先验知识的补充

主动学习

主动学习是一种机器学习方法，它通过主动选择具有最大信息量的数据样本来改善模型的性能，从而减少训练数据的数量需求。
与传统的被动学习方法不同，其中所有可用数据都被用于模型训练，主动学习允许模型自己选择最具益处的样本，以便更有效地提高性能。
涉及到采样函数的算法，该算法能够评估数据样本对模型性能的潜在贡献，然后选择最有价值的样本供模型训练使用。
特别是在数据有限或成本高昂的情况下，可以提供显著的帮助。

采样函数

主动学习中的采样函数算法旨在选择最有价值的数据样本，以便有效地提高模型性能。步骤如下：

初始模型训练： 开始时，有一个初始的模型，通常是在少量标记数据上训练的。这个模型用来评估数据样本的价值。
候选样本选择： 采样函数首先从未标记的数据中选择一些候选样本。这些候选样本可以是数据池中的未标记数据，或者是通过某种主动选择策略（例如不确定性、多样性、或模型不确定性等）选出的。
样本评估： 选定的候选样本会经过当前模型的评估，以确定它们对模型性能改善的潜在贡献。通常，评估是通过一个或多个评估指标来完成，例如模型的不确定性、信息增益、错误率等。
采样函数选择： 采样函数会基于样本的评估结果，选择其中最具有信息量或价值的样本。这通常涉及到一种策略，例如不确定性最高的样本，或者最大化信息增益的样本。
标记数据： 选择出的样本会被标记，加入到已知数据中，用于下一轮模型训练。
模型更新： 使用新标记的样本重新训练模型。这一轮的模型通常会更好地适应这些新样本，从而提高性能。
重复迭代： 这个过程会反复迭代，每一轮都选择新的样本，标记它们，重新训练模型，并评估性能。迭代次数根据需要，可以持续直到模型达到所需的性能水平或收益不再显著增加。

采样函数的具体算法和策略可以因应用领域和任务而异。
通常，主动学习的目标是最大限度地提高模型性能，同时最小化标记新样本的成本。
因此，采样函数的设计需要综合考虑信息增益、模型不确定性、样本多样性和成本效益等因素。

benchmark基准和baseline基准线的区别

“Benchmark” 和 “baseline” 是两个在研究和评估中常常使用的术语，区别在于：

Benchmark（基准）：
- 基准通常是指在某个领域或任务中的最高标准或最佳性能水平。它代表了一个值得追求的目标，通常是由领域专家或业界认可的最佳方法或模型所达到的性能水平。
- 基准可以用作评估其他方法或模型的性能，以确定它们是否能够达到或超越该领域的最佳已知性能。基准通常用于验证新方法的有效性，以确定它们是否值得进一步研究或应用。
- 基准可以是一个具体的数值，也可以是一种方法的描述，例如 “state-of-the-art”（最新水平）。
Baseline（基准线）：
- 基准线是指在研究或实验中作为对照的简单或基本方法或模型。它通常是一种相对简单的方法，用于比较其他更复杂或高级的方法的性能。
- 基准线有助于评估新方法的相对性能，它可以是一种简单的规则、传统方法或者是最初的尝试，用以提供一个性能的最低标准。
- 基准线通常不是最佳的性能，但它用于确定新方法是否能够明显改善现有的性能水平。

总结：
“benchmark” 是在某个领域或任务中的最高标准或最佳性能，用作目标和参考点，
而 “baseline” 是用于比较新方法相对于简单或基本方法的性能。

基准通常是最优性能，而基准线通常是最低性能，用于建立性能改进的上下界。
在研究和评估中，它们都起到了重要的作用，以帮助评估新方法的效用和贡献。

背景Background

近年来，使用机器学习(ML)来帮助开发人员解决软件问题(ML4Code) 一直是软件工程(SE)和ML领域的热门方向。然而准备机器学习(ML)模型的训练数据需要的巨额人力成本，这阻碍了它在软件工程(ML4Code)中的应用。

因此，如何在不影响模型性能的前提下减小人力成本已成为一项挑战。为了解决这一难题，本文提出采用主动学习的方法，因为它允许开发人员用少量的数据训练模型，同时不降低模型的性能，这在计算机视觉和自然语言处理领域得到了很好的研究。

主动学习

主动学习的关键思想是迭代地选择训练数据的子集进行标记、并使用它们来训练模型。已有研究表明，只需标注不到10%的训练数据，就可以训练出与使用整个训练数据训练出的模型性能相近的模型。

一般来说，可以使用两种类型的特征，

数据本身的特征（例如图像像素和代码标记）
从模型中提取的特征（例如输出概率和代码嵌入）

在获取这些特征之后，采样函数用于选择最有价值的数据进行人工标注。

动机Motivation

主动学习在许多领域（如计算机视觉和自然语言处理）得到了应用，但在ML4Code领域中还未受到关注。在该领域，研究人员主要关注模型架构、代码表示方法等，却忽略了如何降低模型训练成本的问题。因此，有必要提供一个基准来支持对这一重要问题的研究。

本文旨在建立一个基准来研究主动学习如何帮助代码模型高效构建，即：主动代码学习。要解决这一问题，需要回答：

RQ1：基于聚类的采样函数应该选取哪些特征
RQ2：采样函数在代码模型上的表现如何

基准Benchmark

采样函数acquisition functions

文章选取了11种采样函数进行研究

设置set up

考虑了三种特征： Code Embeddings 、 Code tokens和Model outputs ；

三种代码任务：多类分类任务(问题分类)、二元分类任务(克隆检测)和非分类任务(代码总结)

预训练代码模型采用：CodeBERT和GraphCodeBERT

评价指标：

Accuracy：计算整个输入数据中正确分类数据的百分比
F1-score：是二元分类问题的常用度量。它计算precision和recall的调和平均值
Perplexity (PPL)：是一种广泛用于评价语言模型的度量，可以看作loss
BLEU (Bilingual Evaluation Understudy)：用于评估生成文本的质量

RQ1: Feature Selection特征选择

比较了不同采样函数在不同标注数据比例下训练的模型的性能。
结果如图2所示，相同的采样函数用不同特征训练的模型性能具有差别。特别是，对于K-Means, K-Center和Coreset函数，性能差异比较明显。相比之下，BADGE函数相对稳定。

Answer to RQ1

总结了每个函数在图2所有情况下表现出最佳性能的百分比。
如表3所示，总的来说，Model outputs是更好的特征。

此外，有一些采样函数的特征选择还取决于任务的类型。例如：对于在K-Means和K-center，

两个分类任务中，Output和Embedding分别是它们的最佳选择；
而在非分类任务中，为Token和Output。

基于实验结果，对特征选择提出建议：

K-Means-C (KM-C):使用Output(Token)进行分类(非分类)任务。
K-Center-C (kC-C):使用代Embedding(Output)进行分类(非分类)任务。
BADGE-C:对所有代码任务使用Output 。
Coreset-C:对所有代码任务使用Output 。

RQ2: Acquisition Function Comparison采样函数的比较

得出结论：

主动代码学习在非分类代码任务中还需要进一步研究，
此外，从分类任务中得出的结论适用于非分类任务。

分类任务

对于多类分类任务(问题分类)，基于输出不确定性的方法通常比基于聚类的方法取得更好的结果。
其中，仅使用输出的top-1和top-2概率的Margin在6个案例中的5个中表现最佳。
这一现象与先前的研究得出了类似的结论，即简单的方法在主动学习中表现良好。

对于二分类任务(克隆检测)，基于聚类的方法更好。

非分类任务

对于非分类任务(代码总结)，有以下发现：
使用不同的评估指标得到的结论不同。例如，PPL和BLEU分别表明KC-C和Coreset-C是最好的采样函数。

对于两种评估指标，主动学习训练模型的性能与使用整个数据训练的模型的性能之间的差距很大。
例如，对于JavaScript-CodeBERT，在10%的标注预算下，最佳PPL分数和BLEU分数分别为5.1313和10.09，比完整训练模型的3.85和14.34分别低33.28%和29.64%。
这与分类任务的结果完全不同（对于克隆检测任务，使用10%的数据训练的模型(97.79%)的性能优于使用整个训练数据训练的模型(97.15%)）。

Answer to RQ2

研究结果表明：

对于二分类任务克隆检测，基于聚类的采样函数始终优于基于输出不确定性的采样函数。
主动学习对于代码总结等非分类任务是无效的，因为通过主动学习训练的模型的性能至少落后于使用整个数据集训练的模型29.64%。

探索性研究Exploratory Study

研究设计Study Design

为了探索更加有效的采样函数，提出使用评价指标作为基于聚类的采样函数的距离方法，并进行了以下实验：

准备了两组模型，第一组为初始模型，第二组为已经使用5%的训练数据训练的模型。
对每组模型使用随机采样函数进行100次主动代码学习，并记录100组选择的数据和训练好的模型。
测量100个训练模型在测试数据上的准确率，并计算每组所选数据样本之间的平均距离。最后得到100个准确率值和对应的100个距离值。
使用斯皮尔曼相关系数计算准确率与距离之间的相关性。

不同的距离Different Distance

表7展示了距离和准确率之间的相关性的结果：

对于初始模型，模型的性能与数据之间的距离无关；
然而，对于5%数据训练后的模型，结论发生了变化。
- 在分类任务中，余弦和欧氏距离与模型的准确率之间存在弱相关性。这意味着使用这两种距离计算方法有望训练出高准确率的模型。
- 在非分类任务中，这种相关性变弱，这也是现有的采样函数不能很好地完成代码总结任务的原因。

表8展示了不同距离计算方法之间的相关性，结果显示：

对于，CodeBERTSCore与余弦相似度或欧氏距离之间总是存在相关性，这意味着CodeBERSCore能够在这些模型中产生与普通距离方法相似的数据距离排序；
在则不相关。

这些结果表明，在进行代码总结任务时，采用评价指标作为距离计算方法的新采样函数是合理的。

案例研究Case Study

为探究评价指标作为距离的有效性，将Coreset函数中的距离计算方法修改为BLEU，并在Ruby上对代码总结任务进行实验。

结果显示：

使用BLEU分数的Coreset函数性能明显优于使用Token和Embedding计算欧氏距离的Coreset函数。
然而，使用输出向量作为聚类特征仍然是最好的选择。

这样的结果说明，基于评估指标提出新的获取函数有很大的研究空间。

结论Conclusion

本文首次创建了一个用于主动代码学习的基准。

基于本文的基准和经验性研究，解决了聚类采样函数的特征选取问题，同时得出结论：

主动代码学习可以有效地训练代码模型，并在问题分类和克隆检测等分类任务中表现出优异的性能。
对于代码总结等非分类任务，还需要进一步的研究。

此外，文章的探索性研究结果表明使用评估指标作为距离计算方法可以是采样函数研究的一个新方向。

课堂讨论

主动学习

主动学习，最开始是只有10%标注的数据

采样函数

11个

随机采样：模型输出或预测的概率分布中随机选择一个元素作为下一个词或标记的生成方式。这种方法是最常见的文本生成方式之一，因为它简单直观，但也可能导致生成的文本缺乏一定的连贯性。

贪婪采样：与随机采样不同，贪婪采样总是选择概率最高的元素作为下一个生成的词或标记。这种方法通常会导致生成的文本更加连贯，但有时会牺牲多样性。

温度采样：温度采样引入了一个温度参数，该参数控制了生成过程中的随机性程度。较高的温度值使得生成更加随机，而较低的温度值使得生成更加确定。温度采样的应用可平衡连贯性和多样性之间的权衡。

束搜索：束搜索是一种基于模型输出的多步骤生成方法。它维护一个候选词列表，然后根据模型的输出概率分布来扩展这些候选。束搜索可以生成较为连贯和有结构的文本，但也需要更多的计算资源。

自回归采样：自回归采样是一种逐步生成文本的方法，每一步都依赖于前一步的输出。这种方法通常使用循环神经网络（RNN）或变换器（Transformer）来维护生成的序列状态。

聚类

聚类的距离方面
余弦相似度

kmeans

需要给定设置的个数，但论文中没有提及

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
QQ群采集助手，精准引流必备神器 2401_87347160 其他经验分享
功能概述微信群查找与筛选工具是一款专为微信用户设计的辅助工具，它通过关键词搜索功能，帮助用户快速找到相关的微信群，并提供筛选是否需要验证的群组的功能。主要功能关键词搜索：用户可以输入关键词，工具将自动查找包含该关键词的微信群。筛选功能：工具提供筛选机制，用户可以选择是否只显示需要验证或不需要验证的群组。精准引流：通过上述功能，用户可以更精准地找到目标群组，进行有效的引流操作。3.设备需求该工具可以
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
2021-08-26 影幽
在生活中，女人与男人的感悟往往有所不同。人生最大的舞台就是生活，大幕随时都可能拉开，关键是你愿不愿意表演都无法躲避。在生活中，遇事不要急躁，不要急于下结论，尤其生气时不要做决断，要学会换位思考，大事化小小事化了，把复杂的事情尽量简单处理，千万不要把简单的事情复杂化。永远不要扭曲，别人善意，无药可救。昨天是张过期的支票，明天是张信用卡，只有今天才是现金，要善加利用！执着的攀登者不必去与别人比较自己的
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
html 中如何使用 uniapp 的部分方法某公司摸鱼前端 html uni-app 前端
示例代码：Documentconsole.log(window);效果展示：好了，现在就可以uni.使用相关的方法了
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
我的烦恼余建梅
我的烦恼。女儿问我：“你给学生布置什么作文题目？”“《我的烦恼》。”“他们都这么大了，你觉得他们还有烦恼吗？”“有啊！每个人都会有自己烦恼。”“我不相信，大人是没有烦恼的，如果说一定有的话，你的烦恼和我写作业有关，而且是小烦恼。不像我，天天被你说，有这样的妈妈，烦恼是没完没了。”女儿愤愤不平。每个人都会有自己的烦恼，处在上有老下有小的年纪，烦恼多的数不完。想干好工作带好孩子，想孝顺父母又想经营好自
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
每日一题——第九十题互联网打工人no1 C语言程序设计每日一练 c语言
题目：判断子串是否与主串匹配#include#include#include//////判断子串是否在主串中匹配//////主串///子串///boolisSubstring(constchar*str,constchar*substr){intlenstr=strlen(str);//计算主串的长度intlenSub=strlen(substr);//计算子串的长度//遍历主字符串，对每个可能得
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

【网安AIGC专题11.1】11 Coreset-C 主动学习：特征选择+11种采样方法+CodeBERT、GraphCodeBERT+多分类(问题分类)二元分类(克隆检测)非分类任务(代码总结)

Active Code Learning: Benchmarking Sample-Efficient Training of Code Models

写在最前面

论文名片

先验知识的补充

主动学习

采样函数

benchmark基准和baseline基准线的区别

背景Background

主动学习

动机Motivation

基准Benchmark

采样函数acquisition functions

设置set up

RQ1: Feature Selection特征选择

Answer to RQ1

RQ2: Acquisition Function Comparison采样函数的比较

分类任务

非分类任务

Answer to RQ2

探索性研究Exploratory Study

研究设计Study Design

不同的距离Different Distance

案例研究Case Study

结论Conclusion

课堂讨论

主动学习

采样函数

聚类

kmeans

你可能感兴趣的:(#,大模型,科研笔记与实践,AIGC,学习,分类,1024程序员节,代码规范,代码复审,论文阅读)