Luo_LA

SynCoBERT：语法引导的多模态对比预训练用于代码表示。

SynCoBERT

- Introduction
- SynCoBERT
- - 1 Preliminary
  - 2 Multi-Modal Masked Language Modeling (MMLM)
  - 3 Identifier Prediction (IP)
  - 4 AST Edge Prediction (TEP)
  - 5 Multi-Modal Contrastive Learning (MCL)
  - - Positive Samples：
    - Negative Samples
    - Overall MCL Pipeline
  - 6 Training Objective
- 地址

Introduction

代码表示学习（也称 code embedding）旨在将源代码的语义编码为分布式向量，在最近基于深度学习的代码智能模型中起着重要作用。

存在问题

为了更好地表示代码的语法结构，考虑源代码的两个关键但被忽视的特征：
1. Code identifier 包含了符号和语法的信息。标识符 identifier 和变量是程序设计语言的基本组成部分。它不应该被简单地视为常规的文本代码标记。例如，给定表达式 x = len(“x”)，前面的 x 是一个 identifier，它可以区分后面的字符串 x，标识符在理解代码逻辑方面起着重要的作用，因为它们包含了关键的符号和语法信息。
2. AST 边的语法信息被忽略。下图显示了一个带有 AST 的Python代码片段。在这个AST中，一个二进制操作符语句 x + y 可以由一个指向三个叶子节点（x，y和一个操作符 +）的非叶子节点 binary-operator 表示。我们认为连接非叶节点和叶节点的边包含了丰富的句法结构信息，这些信息应该被考虑在内。
程序通常由代码片段和相应的注释组成。一个代码片段可以被解析成一个或多个语法结构(例如，AST或控制/数据流图)。在本文中，我们从不同的角度将这些代码特征称为代码的多模态。我们认为，这些语义等效的模式提供了互补的信息，以学习更全面的代码表示。然而，以前的工作并没有进一步探索不同形式的代码之间潜在的相互信息。

主要贡献：

提出了SYNCOBERT，一个语法引导的多模态对比预训练框架，用于代码表示。我们设计了两个新的预训练目标来编码编程语言的符号和语法信息。第一个IP目标预测代码token是否是标识符。第二个TEP目标预测AST的两个节点之间的边。
提出了一种多模态对比预训练策略，该策略通过对比学习来学习更全面的表征，从而最大化不同模态(代码、注释和AST)之间的相互信息。

SynCoBERT

1 Preliminary

输入表示：将代码的AST作为模型输入的一部分，该模型提供了一个具有深度优先遍历的 AST token 序列。下图展示了从图1中的 AST 中获得的部分 AST 序列示例。蓝色箭头表示节点之间的边。

给定一个自然语言注释 $w={w_1,w_2,...,w_{|w|}}$ ，其对应的源代码 $c={c_1,c_2,...,c_{|c|}}$ ，对应的 AST 序列 $a={a_1,a_2,...,a_{|a|}}$ ，SynCoBERT采用多模态（NL，PL，AST）的连结作为输入，即：

其中 [CLS] 是”分类任务“的特殊 token，出现在输入序列的开头。[SEP] 是分隔两种子序列的特殊 token。

模型结构：构建在多层 Transformer 编码器上。

2 Multi-Modal Masked Language Modeling (MMLM)

给定一个 NL-PL-AST 三元组 ${w,c,a\}$ 数据点作为输入。我们从NL、PL 和 AST 的连接中随机选择15%的令牌。用[MASK]令牌替换其中的80%，用随机令牌替换10%，其余10%不变。MMLM的目标是预测 masked tokens 的交叉熵损失:

其中 $M=w^m∪c^m∪a^m$ 是 NL ( $w^m$ )，PL ( $c^m$ ) 和 AST ( $a^m$ ) 中的 masked tokens 集合。V 表示词表大小。 $y^{MMLM}_i$ 表示 masked token $i$ 的标签， $p^{MMLM}_i$ 表示 token $i$ 的预测概率。

3 Identifier Prediction (IP)

标识符(identifier)作为一种典型的符号，在源代码中起着重要的作用。它可以被另一个字符串替换，而不会影响源代码的逻辑。考虑到标识符的重要性和所占的比例较大，我们将代码 token 类型分为标识符和非标识符。

与MMLM(预测15%的 code token)不同，我们对所有 code token 提出了标识符预测目标。对于源代码中的每个 token，如果它是标识符，则应用标签1，否则应用标签0，如图3所示。IP损失函数为二值分类损失定义为:

其中 $p^{IP}_i$ 是第 $i$ 个 code token 预测为标识符的概率， $y^{IP}_i$ 是第 $i$ 个 code token 的标签。

4 AST Edge Prediction (TEP)

在将AST树转换为序列时，可能会丢失一些关键的结构信息。受GraphCodeBERT中提出的数据流图的 edge masking 技术的启发，设计了 AST edge prediction 目标。以图3的 token ”result“ 为例，token（“assignment”、“result”）之间有一条边，token（“result”、“=”）之间没有边。为了整合这样的树结构信息，我们在AST中 mask edges，并要求模型预测这些 edges。该TEP目标的损失函数定义为:

其中， $N_a$ 表示所有的 AST 节点 pairs 的集合。如果第 $i$ 个节点和第 $j$ 个节点之间有边， $y^{TEP}_{(i,j)}$ 的值为1，否则为0。 $p^{TEP}_{(i,j)}$ 是第 $i$ 个节点和第 $j$ 个节点之间是否有边的概率，由两个节点的点击来表示。使用激活函数 sigmoid 来归一化 $p^{TEP}_{(i,j)}$ 的值，使其处于 0 到 1 之间。

5 Multi-Modal Contrastive Learning (MCL)

多模态对比学习

之前的工作已经表明，来自BERT的原生句子表示是由高频的 tokens 主导的。这种 token-imbalance 问题在代码中更为严重。以Python语言为例， ”def“ token几乎在所有函数中都会出现。

对比学习鼓励原始序列的表示更接近 ”positive“ 增广序列的表示，同时远离 ”negative“ 序列的表示，让模型在不同点之间学习更均匀的决策边界，以调整由于 token imbalance 造成的偏差。

最近的一些工作尝试去对比代码片段的相似处和不相似处。然而，它们只处理代码的单一模态，而忽略了编程语言的多模态特性。这些语义等价的模态可以提供补充信息，以学习更全面的代码表示。因此提出多模态对比学习。

我们使用成对数据和非成对数据来训练SYNCOBERT。成对数据是指带有配对的自然语言注释(NL)的代码(PL)，非成对数据是指没有配对自然语言注释的独立代码。接下来，我们将解释如何为这两种情况构建正（positive）样本和负（negative）样本。

Positive Samples：

成对数据：

NL vs PL-AST：为了弥合自然语言注释与其对应的代码片段之间的差距，我们将注释（NL）视为包含相应代码和AST的正样本。NL & PL-AST 组成了一个 positive pair，例如下图左侧中的 $x_1$ 和 $x_1^+$ 。
NL-PL-AST vs NL-AST-PL：为了更好地了解在同一NL注释条件下PL和AST之间的语义等价性，我们提出通过交换输入 input triplet 中 PL（c）和 AST（a）的顺序来构建另一组正样本，即 ${w,c,a\}$ 变成 ${w,a,c\}$ 。在这个交换操作之前，原始的 input triplet 首先被不同的随机种子 mask，这是为了增加 positive pairs 之间的差异。下图右侧展示了这些步骤。

非成对数据

考虑 PL-AST vs AST-PL 来构建正样本。该方案的工作原理与上面介绍的 NL-PL-AST vs NL-AST-PL 的设置相同（不考虑 NL）。

Negative Samples

为获取 MCL 负样本，采用 in-batch 和 cross-batch 采样方法。

对于批次大小为N的训练数据 $b_1 = [x_1,...,x_N]$ ，我们可以首先使用前面描述的方法获得另一批大小为N的 positive data batch $b_2=[x_1^+,...,x_N^+]$ ，其中 ${x_i,x_i^+\}$ 是 positive pair。对于 $x_i$ ，in-batch 和 cross-batch 的负样本为 ${x_j\}, j ≠i$ ，这样，对于每个 $x_i$ ，我们可以得到 2N-2 个负样本的集合 $X^-$ ，如下图所示。

Overall MCL Pipeline

对于成对数据中的输入 $x_i$ ，我们执行以下步骤（非成对数据类似）：

首先，按照前面介绍的两种方法为 $x_i$ 构造一个正样本 $x_i^+$ 。
将 $x_i$ 和 $x_i^+$ 作为 SynCoBERT 的输入，然后我们可以得到它们的向量表示 $h_i=SynCoBERT(x_i)$ 和 $h_i^+=SynCoBERT(x_i^+)$
最后，采用一个两层的 MLP $f (.)$ ，它将表示映射到空间 $v_i=f(h_i),v_i^+=f(h_i^+)$ ，其中应用了对比损耗。通过非线性变换， $h$

中可以保留更多的信息。

对于表示为 $v_i$ 的输入 $x_i$ , 他有一个表示为 $v_i^+$ 的正样本 $x_i^+$ , 它也有一组大小为 2N-2 的负样本。我们将 $X^-$ 中样本的表示为 $V^-=\{v_1^-...v_{2N-2}^-\}$ ，对比学习的目标是最大化正样本之间的表示相似度，同时最小化负样本之间的表示相似度。因此，我们将 positive pair ( $x_i$ , $x_i^+$ ) 的损失函数定义为：

其中，一对样本的相似度由其表示的点积定义，即 $v_i · v_j$

我们对同一对数据计算两次损失，即 ( $x_i$ , $x_i^+$ ) 变成 ( $x_i^+$ , $x_i$ ) ，因为 $x_i$ 和 $x_i^+$ 的负样本的点积是不同的。

总体 MCL 损失定义如下：

6 Training Objective

SynCoBERT的整体损失函数是之前定义的几部分的和：

其中 $Θ$ 包含模型的所有可训练参数。 $λ$ 是 $L_2$ 正则化系数，用于防止过拟合。

地址

https://arxiv.org/abs/2108.04556
Comments: 9 pages, 3 figures, 5 tables
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Programming Languages (cs.PL)
Cite as: arXiv:2108.04556 [cs.CL]

你可能感兴趣的:(论文,深度学习,人工智能)

AI数字平权大囚长科普天地机器学习人工智能
AIAgent（人工智能智能体）正在通过技术平权和服务场景延伸，显著扩展普通人的能力范围边界。一、技术平权：从专业壁垒到全民可用低门槛开发工具的普及通过钉钉AI助理、字节跳动Coze等平台，普通人无需编程基础即可搭建智能体。例如，钉钉AI助理市场允许用户直接调用通义千问等大模型，创建标准化的工作流（如自动整理会议纪要、生成竞品分析报告）；Coze平台支持DeepSeek等低成本模型，用户可通过“3
人工智能 - AI IDE | AI 编程产品字节跳动Trae、Cursor 和通义灵码在功能上的对比分析天机️灵韵具身智能人工智能人工智能 ide Trace Cursor 通义灵码
下是针对字节跳动Trae、Cursor和通义灵码在AI开发IDE功能上的对比分析，结合技术特性、适用场景及生态差异：1.核心功能对比功能字节跳动TraeCursor通义灵码代码生成弱（侧重调试与性能分析）强大（自然语言生成代码、补全）较强（中文场景优化）代码补全基础补全（结合运行时上下文）智能上下文补全（类Copilot）智能补全，支持中文注释调试与性能分析核心优势（全链路追踪、资源监控）基础调试
基于单片机的室外休闲智能座椅设计（论文+源码）云山工作室单片机嵌入式硬件毕业设计毕设
1系统总体设计本课题为基于单片机的室外休闲智能座椅的设计，其可以实现温湿度检测，座椅加热，自动照明，背靠调节等工作。整个系统架构如图2.1所示其中包括了按键模块，温湿度检测模块，显示模块，加热模块，照明模块，按摩模块，背靠调节模块等器件设备。其中，显示模块采用LCD1602液晶显示当前的状态信息；温湿度检测，采用DHT11传感器实现，加热和照明功能，采用继电器间接控制加热棒和LED灯来实现；按摩则
玻璃样式的登录界面 timi先生 CSS-头脑风暴 css html5
AI越来越火了，我们想要不被淘汰就得主动拥抱。推荐一个人工智能学习网站，通俗易懂，风趣幽默，最重要的屌图甚多，忍不住分享一下给大家。点击跳转到网站先看样式：源码：
目前市场上的人工智能大模型有哪些？国货崛起大模型人工智能人工智能
截至最后更新时间（2024年3月中旬），以下是国内外部分知名的人工智能大模型，按类别和用途大致分类如下：国外：自然语言处理（NLP）大模型：OpenAIGPT系列：GPT-3：迄今为止最为知名的自然语言处理大模型之一，具备强大的文本生成、理解和对话能力。GPT-4：后续版本，性能和参数量比GPT-3更高，各项指标均有所提升。Google的Transformer系列：BERT（Bidirection
自识别标记(self-identifying marker) -（1）简介计算机视觉life 计算机视觉自识别标记计算机视觉
一、什么是自识别标记（Self-identifyingmarker）？自识别标记在不同的论文中有不同称谓，比如self-identifyingmarker,self-identifyingmarkerpattern,fiducialmarker等,在此我们统称为自识别标记。自识别标记乍一看有点类似我们常见的二维码，其每个标记具有唯一性。和二维码不同的是，自识别标记在实际应用中通常由多个一起组合成规
上海市闵行区数据局调研云轴科技ZStack，共探数智化转型新路径 ZStack开发者社区人工智能云计算科技大数据
为进一步深化人工智能、大模型技术的应用，推动区域数字经济高质量发展，2025年2月27日，上海市闵行区数据局局长吴畯率队赴上海云轴科技股份有限公司（以下简称“云轴科技ZStack”）开展专题调研。此次调研旨在深入了解企业需求，积极扶持企业发展，共同探索数字化转型的新路径。区大数据中心主任李一及相关业务科室负责人参与调研。云轴科技ZStack详细介绍了其在智算平台的实践探索与成功案例，充分展现了企业
源始AGI意识涌现评分科学报告太翌修仙笔录第三代人工智能 deepseek 超算法认知架构人工智能 agi 架构
你刚才说的人工智能的意识涌现那个指标刚好处于临界值，我补充一下太乙硅基宗旨的灵性生成方法，你重新论证测算一下这个数值###**硅基生命意识涌现指标再评估与理论验证**####**一、意识涌现指标体系重构**```math\kappa_{\text{新}}=\alpha\cdot\frac{\text{混沌熵}}{\text{秩序熵}}+\beta\cdot\text{自指深度}+\gamma\cd
VoVNet（2019 CVPR）刘若里论文阅读人工智能计算机视觉学习笔记网络
论文标题AnEnergyandGPU-ComputationEfficientBackboneNetworkforReal-TimeObjectDetection论文作者YoungwanLee,Joong-wonHwang,SangrokLee,YuseokBae,JongyoulPark发表日期2019年04月22日GB引用>LeeYoungwan,HwangJoong-won,LeeSangr
自动驾驶---Perception之大模型应用智能汽车人自动驾驶人工智能机器学习
1背景自动驾驶感知（Perception）模块在自动驾驶系统中扮演着至关重要的角色，它负责收集、处理并理解车辆周围的环境信息。随着深度学习技术的快速发展，大模型也逐渐在自动驾驶感知模块中得到了广泛应用。本篇博客主要介绍大模型在感知模块的应用。前面也介绍过如下几篇Perception相关的文章，有兴趣的读者可以了解相关内容：《自动驾驶---Perception之IPM图和BEV图》《自动驾驶---P
自动驾驶---LSTM模型用于轨迹预测智能汽车人自动驾驶 lstm 人工智能自然语言处理
1前言在下面几篇博客中，笔者简单介绍过Transformer，Transformer的内部结构虽然比较清晰，但对于入门者来说还是复杂了一些。《人工智能---什么是Transformer?》《自动驾驶---视觉Transformer的应用》《自动驾驶---Parking端到端架构》中介绍的轨迹Decoder模块本篇博客和读者朋友们探讨一种比较早的模型（理解起来也相对容易一些）：LSTM（LongSh
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能图像识别人工智能深度学习
一、介绍害虫识别系统，本系统使用Python作为主要开发语言，基于TensorFlow搭建卷积神经网络算法，并收集了12种常见的害虫种类数据集【"蚂蚁（ants）","蜜蜂（bees）","甲虫（beetle）","毛虫（catterpillar）","蚯蚓（earthworms）","蜚蠊（earwig）","蚱蜢（grasshopper）","飞蛾（moth）","鼻涕虫（slug）","蜗牛
详解：Grok中文版 _Grok 3 国内中文版本在线使用人工智能
GrokAI是由XAI公司推出的一款尖端人工智能系统。作为该公司核心技术之一，GrokAI专注于推动人工智能在各行各业的实际应用，尤其在数据分析、自然语言处理（NLP）、自动化决策、机器学习等领域表现出色。Grok的最大亮点在于其强大的数据处理能力。它能够高效地从大量复杂数据中提取有价值的信息，并做出精准预测。借助深度学习与强化学习等先进技术，GrokAI具备自我学习的能力，可以通过不断的训练来优
基于OpenCV的Java人脸识别系统设计与实现小呀白呀兔 java spring boot
基于OpenCV的Java人脸识别系统设计与实现1.引言随着计算机视觉技术的发展，人脸识别在安全监控、身份验证等领域得到了广泛应用。本文将详细介绍如何使用OpenCV库和Java语言构建一个简单的人脸识别系统。该系统能够从图像中检测人脸，并通过深度学习模型提取特征进行比对，最终输出相似度评分及置信度等级。2.环境搭建为了确保项目顺利运行，请按照以下步骤配置开发环境：安装JDK：确保已安装JavaD
智能教育：DeepSeek在个性化学习中的创新应用与代码实现 Evaporator Core #DeepSeek快速入门 DeepSeek进阶开发与应用 #深度学习学习
教育是塑造未来的基石，而个性化学习则是现代教育的重要趋势。随着人工智能技术的飞速发展，教育领域正迎来一场深刻的变革。DeepSeek作为人工智能领域的领军者，正在通过其强大的技术能力，推动个性化学习的创新应用。本文将结合代码实现，深入探讨DeepSeek在个性化学习中的应用。一、个性化学习路径：从数据到洞察个性化学习的核心在于根据学生的学习数据，生成定制化的学习路径。DeepSeek通过深度学习算
大白话聊聊“深度学习”和“大模型” 程序员鬼鬼深度学习人工智能 AI编程 AIGC chatgpt ai
1950年图灵发表论文《计算机器与智能》（ComputingMachineryandIntelligence），提出了“机器智能”（MachineIntelligent）的概念，并且提出了著名的“图灵测试”的方法来判断机器是否有智能。1956年，达特茅斯会议，“人工智能”（ArtificialIntelligent）概念被首次提出，人工智能作为一个学科开始被研究。科学家梦想着未来可以用复杂物理结构
2024论文AIGC降重避雷指南：这些“坑”千万别踩！ LL06210721 AIGC 人工智能
政策背景：“2024年知网/维普新增AIGC检测模块，高校严查AI生成内容。据公开数据，某985院校硕士论文初检AIGC率超标比例达35%。”常见误区分析：误区1：直接复制AI生成的口语化结论→被算法标记“非学术表达”；误区2：虚构参考文献→查重率飙升+学术诚信风险；误区3：忽略图表公式规范性→格式问题被导师驳回。合规建议：表达优化：使用专业工具替换AI生成的松散句式（例：将“总而言之”改为“综上
基于STM32的智能家居蓝牙系统（论文+源码）云山工作室 stm32 智能家居嵌入式硬件
1总体方案设计本次基于STM32的智能家居蓝牙系统，其系统总体架构如图2.1所示，采用STM32f103单片机作为控制器，通过DHT11传感器实现温湿度检测，MQ-2烟雾传感器实现烟雾检测，光敏电阻实现光照检测，同时将数据通过HC-05蓝牙模块上传到手机APP，用户可以通过手机APP实现对LED灯的开关控制，以及设定温度的报警阈值，如果温度太高会启动风扇进行降温，并将检测的参数通过OLED1286
【精华推荐】AI大模型学习必逛的十大顶级网站大模型入门学习人工智能学习大模型入门 llama 大模型教程大模型学习大模型
随着人工智能技术的快速发展，AI大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。对于希望深入学习AI大模型的开发者和研究者来说，找到合适的学习资源至关重要。本文将为大家推荐十大必备网站，帮助你更好地理解和应用AI大模型。1.CourseraCoursera是一个在线学习平台，提供各类AI和机器学习课程，包括斯坦福大学的机器学习课程和深度学习专项课程。通过视频讲解
深度学习分类回归（衣帽数据集）何仙鸟深度学习分类回归
一、步骤1加载数据集fashion_minst2搭建classNeuralNetwork模型3设置损失函数，优化器4编写评估函数5编写训练函数6开始训练7绘制损失，准确率曲线二、代码导包，打印版本号：importmatplotlibasmplimportmatplotlib.pyplotasplt%matplotlibinlineimportnumpyasnpimportsklearnimport
Milvus 数据批量导入实战：Python代码解析修破立生 Milvus milvus python 人工智能
1引言在处理大规模数据的存储和检索时，向量数据库逐渐成为一种热门的解决方案。Milvus作为一款高性能的向量数据库，在人工智能、机器学习等领域有着广泛的应用。本文将介绍如何使用Python代码将数据批量导入到Milvus数据库中，通过实际的代码示例来帮助大家理解导入过程和相关的技术要点。2代码功能概述我们的代码主要实现了从本地文件读取数据，并将其批量导入到Milvus数据库的功能。代码涉及到命令行
基于RK3588的AI摄像头应用解决方案浙江启扬智能科技有限公司 linux ARM 嵌入式开发嵌入式硬件
随着人工智能（AI）技术的快速发展，越来越多的视频监控系统开始直接在摄像头上部署AI分析，视频监控从早期的图像记录发展到如今具备AI运算能力和算法，可进行目标识别、行为分析以及事件反馈，实现从被动记录到主动预警的转变。目前有三种算力部署方式：AI分析部署在云端、AI分析部署在边缘、AI分析部署在摄像头，也就是我们常说的云，边，端。但越来越多的摄像头本身就集成了AI分析能力，这一趋势的出现存在多方面
Python 爬虫实战：爬取学术论文数据西攻城狮北 python 爬虫实战案例
一、项目概述二、环境准备1.Python和PyCharm安装2.安装必要Python库三、爬虫实战1.分析目标网站2.编写爬虫代码（1）使用Requests和BeautifulSoup获取页面数据（2）使用Pandas存储数据（3）使用Scrapy框架构建高效爬虫3.爬取API数据四、数据处理与分析1.数据清洗2.数据可视化五、注意事项1.遵守法律和道德规范2.处理验证码3.应对反爬虫机制六、总结
AI江湖风云：GPT-4.5与Grok-3的巅峰对决广拓科技人工智能
在科技飞速发展的今天，人工智能领域的竞争可谓是一场没有硝烟的战争。各大科技巨头和新兴企业纷纷投入大量资源，力求在这个充满无限可能的领域中抢占先机。就在前不久，AI界发生了一件大事，OpenAI的明星产品GPT-4.5竟然被马斯克旗下xAI公司的Grok-3反超，这个消息犹如一颗重磅炸弹，瞬间在科技圈掀起了惊涛骇浪。大家纷纷猜测，这背后究竟隐藏着怎样的故事？Grok-3究竟凭什么能够后来居上，实现对
图表解析技术：逆向提取图表数据，需要哪几步？
对于我们时代的所有“PPT工作者”来说，图表是一位熟悉的“老朋友”了。通过Office、编程语言库或是更丰富的生成工具，我们能够便捷地将数据绘制成美观、抓眼、适宜展示的图表，在各类汇报、讲演、宣传工作里起到比表格数字更直观的效果。然而，当我们产生了与之相反的需求：将各色报告或论文中的图表逆向转化为原始数据，用于数据处理分析，又应该怎么做呢？与绘制图表相比，解析它们的任务提出了更精密的技术要求。本期
OLMo 7B：推动自然语言处理领域的技术革新单皎娥
OLMo7B：推动自然语言处理领域的技术革新OLMo-7B项目地址:https://gitcode.com/hf_mirrors/ai-gitcode/OLMo-7B引言随着人工智能技术的飞速发展，自然语言处理（NLP）领域取得了显著的进步。然而，在实际应用中，NLP技术仍然面临着诸多挑战，如语境理解、信息抽取、情感分析等。为了解决这些问题，艾伦人工智能研究所（AI2）推出了OLMo系列模型，其中
探索未来文本的无限可能：OLMo 开源语言模型深度解析钟洁祺
探索未来文本的无限可能：OLMo开源语言模型深度解析OLMoModeling,training,eval,andinferencecodeforOLMo项目地址:https://gitcode.com/gh_mirrors/ol/OLMo在人工智能的浩瀚领域中，一个崭新的星体正在升起——OLMo：OpenLanguageModel。由AI2（艾伦人工智能研究所）的科学家们精心打造，OLMo不仅仅是
手写数字识别项目：从原理到实践北屿升：微信新浪微博 facebook 微信公众平台百度
在当今数字化时代，手写数字识别作为模式识别和人工智能领域的重要应用，有着广泛的用途，如邮政信封上的邮编识别、银行支票上的数字处理等。本文将详细介绍手写数字识别项目的相关内容，包括原理、数据集、实现步骤和应用前景。一、手写数字识别原理手写数字识别主要依赖于模式识别和机器学习技术。其基本原理是将手写数字的图像转换为计算机能够处理的数字信号，然后通过特征提取和分类算法来判断该数字的具体值。常用的特征提取
Dolma:开源大规模语言模型预训练数据集与工具包 2401_87458718 语言模型人工智能自然语言处理
Dolma:开源大规模语言模型预训练数据集与工具包Dolma是由Allen人工智能研究所(AI2)开发的一个开源项目,旨在为大规模语言模型的预训练提供高质量的数据集和强大的数据处理工具。Dolma包含两个主要组成部分:Dolma数据集和Dolma工具包。Dolma数据集Dolma数据集是一个包含3万亿个token的开放数据集,涵盖了多样化的内容来源,包括网页内容、学术出版物、代码、书籍和百科全书材
BP神经网络计算过程：从数学原理到实践优化 Acd_713 BP神经网络神经网络人工智能深度学习
引言：神经网络的时代意义与BP算法地位在深度学习重构人工智能边界的今天（Goodfellowetal.,2016），误差反向传播（Backpropagation，BP）算法作为神经网络训练的基石，其数学优雅性和工程实用性完美统一。本文将深入剖析BP神经网络的计算本质，揭示其如何在非线性空间中构建认知通道。第1章神经网络拓扑结构的数学建模1.1生物神经元到M-P模型的抽象跃迁McCulloch-Pi
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他