PhenomenonMe

文本编码方式（词向量提取方式）

文章目录

1. 文本编码方式
- 1.1 one-hot
- 1.2 分布式表示
2. 分布式表示
- 2.1 基于矩阵的分布式表示
- - 2.1.1 GloVe
  - - 步骤
    - 共现关系的构建
    - 训练方法
- 2.2 基于聚类的分布式表示
- - 2.2.1 布朗聚类
- 2.3 基于神经网络的分布式表示
- - 2.3.1 word2vec
  - - CBOW
    - Skip-gram
    - 加速技巧
  - 2.3.2 Bert
  - - 网络架构
    - 对比GPT、ELMo的优势
3. 小结
参考文献

1. 文本编码方式

1.1 one-hot

缺点：

维度大
词和词之间都是孤立的，无法表示词与词之间的语义信息

1.2 分布式表示

正所谓：“物以类聚，人以群分”，所以分布式表示的主要思想为：上下文相似的词，其语义也相似。其主要分为三种方法。

基于矩阵的分布式表示
基于聚类的分布式表示
基于神经网络的分布式表示

2. 分布式表示

如节1.2所述，分布式表示主要分为三种方式。这三种方式使用了不同的技术手段，但都是基于分布假说，核心思想由两部分组成:

选择一种方式描述上下文
选择一种模型刻画目标词与上下文的关系

2.1 基于矩阵的分布式表示

这类方法需要构建一个“词-上下文”矩阵，每行对应一个词，每列表示一种不同的上下文，矩阵中的每个元素对应相关词和上下文的共现次数。该方法分为以下三步：

步骤	内容	解释
step1	选取上下文	法1：将词所在的文档作为上下文，形成“词-文档”矩阵法2：将词附近的上下文中的词（例如上下文窗口中的5个词）作为上下午，形成“词-词”矩阵法3：将词附近的n元词组作为上下文，形成“词-n元组”矩阵
step2	确定矩阵中各元素的值	常用的有tf-idf、PMI和直接取log
step3	矩阵分解	奇异值分解（SVD）、非负矩阵分解（NMF）、典型关联分析（CCA）、HPCA

LSA：使用“词-文档”矩阵，tf-idf作为元素值，并用SVD分解
Global Vector（GloVe）：使用“词-词”矩阵进行分解从而得到词向量

2.1.1 GloVe

正如论文的标题而言，GloVe的全称叫Global Vectors for Word Representation，它是一个基于全局词频统计（count-based & overall statistics）的词表征（word representation）工具，它可以把一个单词表达成一个由实数组成的向量，这些向量捕捉到了单词之间一些语义特性，比如相似性（similarity）、类比性（analogy）等。我们通过对向量的运算，比如欧几里得距离或者cosine相似度，可以计算出两个单词之间的语义相似性。总体上看，GloVe模型是一种对“词-词”矩阵进行分解从而得到词表示的方法。

步骤

GloVe的实现可以分为三步：

构建共现矩阵： 根据语料库构建共现矩阵 $X$ ，矩阵第 i 行与第 j 列的值为 $v_i$ 与 $v_j$ 在特定大小的上下文窗口的共现次数 $x_{ij}$ 。一般而言，这个次数的最小单位是1，但是GloVe不这么认为：它根据两个单词在上下文窗口的距离d，提出了一个衰减函数: $d e c a y = 1 / d$ 用于计算权重，也就是说距离越远的两个单词所占总计数（total count）的权重越小。
构建词向量和共现矩阵之间的共现关系： 论文作者提出下面的公式可以近似表达二者的关系。 $log(x_{ij})=w_i^T\tilde{w}_j+b_i^{(1)}+b_j^{(2)}$ 其中 $w_i$ 为词 $v_i$ 作为目标词时的词向量， $\tilde{w}_j$ 为词 $v_j$ 作为上下文时的词向量 $b^{(1)}$ 、 $b^{(2)}$ 为针对词表中各词的偏移向量。
在矩阵分解步骤，GloVe模型借鉴了推荐系统中的基于隐因子分解（Latent Factor Model）的方法，在计算重构误差时，只考虑共现次数非零的矩阵元素，同时对矩阵中的行和列加入了偏移项。具体为最小化下式：
$Loss=\sum_{i,j \in V,x_{ij} \neq 0}f(x_{ij})(w_i^T\tilde{w}_j+b_i^{(1)}+b_j^{(2)}-log(x_{ij}))^2$
其中， $f (x)$ 是一个加权函数，对低频的共现词对进行衰减，减少低频噪声带来的误差，定义为：
$\begin{cases} (\frac{x}{x_{max}})^\alpha& \text{$xf(x)={(xmaxx)α1x<xmax其他情况$

共现关系的构建

首先定义三个概念。

$X_ij$ 表示单词 $j$ 出现在单词 $i$ 的上下文中的次数；
$X_i$ 表示单词 $i$ 的上下文中所有单词出现的总次数，即 $X_i = \sum_k X_{ik}$
$P_{ij}=P(j|i)=X_{ij}/X_i$ ，即单词 $j$ 出现在单词 $i$ 的上下文中的概率。

理解这个表格的重点在最后一行，它表示的是两个概率的比值（ratio），我们可以使用它观察出两个单词 $i$ 和 $j$ 相对于单词 $k$ 哪个更相关（relevant）。比如，ice和solid更相关，而stream和solid明显不相关，于是我们会发现 $P (s o l i d ∣ i c e) / P (s o l i d ∣ s t e a m)$ 比1大更多。同样的gas和steam更相关，而和ice不相关，那么 $P (g a s ∣ i c e) / P (g a s ∣ s t e a m)$ 就远小于1；当都有关（比如water）或者都没有关(fashion)的时候，两者的比例接近于1；这个是很直观的。因此，以上推断可以说明通过概率的比例而不是概率本身去学习词向量可能是一个更恰当的方法，因此下文所有内容都围绕这一点展开。
于是为了捕捉上面提到的概率比例，我们可以构造如下函数：
$F(w_i,w_j,\tilde{w}_k)=\frac{P_{ik}}{P_{jk}}$
因为向量空间是线性结构的，所以要表达出两个概率的比例差，最简单的办法是作差，于是我们得到
$F(w_i-w_j,\tilde{w}_k)=\frac{P_{ik}}{P_{jk}}$
这时我们发现公式5的右侧是一个数量，而左侧则是一个向量，于是我们把左侧转换成两个向量的内积形式：
$F((w_i-w_j)^T\tilde{w}_k)=\frac{P_{ik}}{P_{jk}}$
我们知道 $X$ 是个对称矩阵，单词和上下文单词其实是相对的，也就是如果我们做如下交换：
$F((w_i-w_j)^T\tilde{w}_k)=\frac{F(w_i^T\tilde{w}_k)}{F(w_j^T\tilde{w}_k)}$
所以
$F(w_i^T\tilde{w}_k)=P_{ik}=\frac{X_{ik}}{X_i}$
令 $F$ 为 $e x p ()$ ，则上公式
$w_i^T\tilde{w}_k = log(P_{ik})=log(X_{ik})-log(X_i)$
所以
$w_i^T\tilde{w}_k +b_i=log(X_{ik})$
根据对称性
$w_i^T\tilde{w}_k +b_i+b_k=log(X_{ik})$

训练方法

虽然很多人声称GloVe是一种无监督（unsupervised learing）的学习方式（因为它确实不需要人工标注label），但其实它还是有label的，这个label就是公式2中的 $log(X_{ij})$ ，而公式2中的向量 $w$ 和 $\tilde{w}$ 就是要不断更新/学习的参数，所以本质上它的训练方式跟监督学习的训练方法没什么不一样，都是基于梯度下降的。具体地，这篇论文里的实验是这么做的：采用了AdaGrad的梯度下降算法，对矩阵 $X$ 中的所有非零元素进行随机采样，学习曲率（learning rate）设为0.05，在vector size小于300的情况下迭代了50次，其他大小的vectors上迭代了100次，直至收敛。最终学习得到的是两个vector是 $w$ 和 $\tilde{w}$ ，因为 $X$ 是对称（symmetric），所以从原理上讲 $w$ 和 $\tilde{w}$ 是也是对称的，他们唯一的区别是初始化的值不一样，而导致最终的值不一样。所以这两者其实是等价的，都可以当成最终的结果来使用。但是为了提高鲁棒性，我们最终会选择两者之和 $w+\tilde{w}$ 作为最终的vector（两者的初始化不同相当于加了不同的随机噪声，所以能提高鲁棒性）。

2.2 基于聚类的分布式表示

这类方法通过聚类手段构建词与其上下文之间的关系。其中最经典的方法就是布朗聚类（Brown clustering）.

2.2.1 布朗聚类

布朗聚类是一种层级聚类方法，聚类结果为每个词的多层类别体系。因此可以根据两个词的公共类别判断这两个词的语义相似度。具体而言，布朗聚类需要最大化以下似然，其中， $c_i$ 为词 $w_i$ 对应的类别：
$P(w_i|w_{i-1})=P(w_i|c_i)P(c_i|c_{i-1})$
布朗聚类只考虑了相邻词之间的关系，也就是说，每个词只使用它的上一个词，作为上下文信息

2.3 基于神经网络的分布式表示

同样基于分布假说，核心为上下文的表示以及上下文与目标词之间关系的建模。
使用语言模型是构建上下文与目标词之间关系的常用思路。早期的词向量只是神经网络语言模型的副产品。同时，神经网络语言模型对后期词向量的发展方向有着决定性的左右。
神经网络词向量表示技术主要有以下几种

模型	上下文的表示	目标词与其上下文关系
skip-gram	上下文中某一个词的词向量	目标词预测上下文
CBOW	上下文各词词向量的平均值	上下文预测目标词
Order	上下文各词词向量的拼接	上下文预测目标词
LBL	上下文各词的语义组合	上下文预测目标词
NNLM	上下文各词的语义组合	上下文预测目标词
C&W	上下文各词与目标词的语义组合	上下文和目标词联合打分

除此之外，还有RNN语言模型等。

2.3.1 word2vec

如果 $x$ 是一个单词， $y$ 是这个单词的上下文，那么判断 $x, y$ 是否符合人类语言规律的模型 $f (x, y)$ 便称为语言模型。

Word2vec 正是来源于这个思想，但它的最终目的，不是要把 f 训练得多么完美，而是只关心模型训练完后的副产物——模型参数（这里特指神经网络的权重），并将这些参数，作为输入 x 的某种向量化的表示，这个向量便叫做——词向量。

首先说明一点：隐层的激活函数其实是线性的，相当于没做任何处理（这也是 Word2vec 简化之前语言模型的独到之处），我们要训练这个神经网络，用反向传播算法，本质上是链式求导，在此不展开说明了，

当模型训练完后，最后得到的其实是神经网络的权重，比如现在输入一个 x 的 one-hot encoder: [1,0,0,…,0]，对应刚说的那个词语『吴彦祖』，则在输入层到隐含层的权重里，只有对应 1 这个位置的权重被激活，这些权重的个数，跟隐含层节点数是一致的，从而这些权重组成一个向量 vx 来表示x，而因为每个词语的 one-hot encoder 里面 1 的位置是不同的，所以，这个向量 vx 就可以用来唯一表示 x。

如果是用一个词语作为输入，来预测它周围的上下文，那这个模型叫做『Skip-gram 模型
而如果是拿一个词语的上下文作为输入，来预测这个词语本身，则是『CBOW 模型』

CBOW

输入上下文单词，然后对特征进行平均，输入output layer进行分类

Skip-gram

输入目标单词，将特征送入output layer 预测一个单词是否为它的上下文

加速技巧

负采样（negative sampling）：本质是预测总体类别的一个子集。把语料中的一个词串的中心词替换为别的词，构造语料 D 中不存在的词串作为负样本。优化目标变为了：最大化正样本的概率，同时最小化负样本的概率。
hierarchical softmax：本质是把 N 分类问题变成 log(N)次二分类。使用softmax进行分类，对于大规模预料来说计算代价太高，输出层从原始模型的利用softmax计算概率值改为了利用Huffman树计算概率值。

2.3.2 Bert

BERT（Bidirectional Encoder Representations from Transformers）近期提出之后，作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，可以说是近年来自残差网络最优突破性的一项技术了。论文的主要特点以下几点：

使用了 Transformer 作为算法的主要框架，Transformer 能更彻底的捕捉语句中的双向关系；
使用了Mask Language Model(MLM) [3] 和 Next Sentence Prediction(NSP) 的多任务训练目标；
使用更强大的机器训练更大规模的数据，使BERT的结果达到了全新的高度，并且Google开源了BERT模型，用户可以直接使用BERT作为Word2Vec的转换矩阵并高效的将其应用到自己的任务中。

BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示，所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中，我们可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型，该模型可以根据任务微调或者固定之后作为特征提取器。

网络架构

BERT的网络架构使用的是《Attention is all you need》中提出的多层Transformer结构，其最大的特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效的解决了NLP中棘手的长期依赖问题。
Transformer的网络架构如下图所示，Transformer是一个encoder-decoder的结构，由若干个编码器和解码器堆叠形成。图的左侧部分为编码器，由Multi-Head Attention和一个全连接组成，用于将输入语料转化成特征向量。右侧部分是解码器，其输入为编码器的输出以及已经预测的结果，由Masked Multi-Head Attention, Multi-Head Attention以及一个全连接组成，用于输出最后结果的条件概率。

上图中的左侧部分是一个Transformer Block，对应到下图中的一个“Trm”

BERT提供了简单和复杂两个模型，对应的超参数分别如下：

$Bert_{base}$ : L=12，H=768，A=12，参数总量110M；
$Bert_{large}$ : L=24，H=1024，A=16，参数总量340M；

在上面的超参数中，L表示网络的层数（即Transformer blocks的数量），A表示Multi-Head Attention中self-Attention的数量，filter的尺寸是4H。

对比GPT、ELMo的优势

GPT、ELMo的网络结构图如下所示：

BERT对比这两个算法的优点是只有BERT表征会基于所有层中的左右两侧语境。BERT能做到这一点得益于Transformer中Attention机制将任意位置的两个单词的距离转换成了1。

3. 小结

选择一个合适领域的语料，再次前提下，语料的规模越大越好。使用大规模的语料进行训练，可以普遍提升词向量的性能，如果使用领域内的语料，对同领域的任务才会有显著的提升。
选择一个合适的模型。复杂的模型相比简单的模型，在较大的语料中才有优势。简单的模型在绝大多数情况下已经够好。预测目标词的模型比目标词与上下文呈组合关系的模型在多个任务中拥有更好的性能。
训练时，迭代优化的终止条件最好根据具体任务的验证集来判断，或者近似的选取其他类似的任务作为指标，但是不应该选用训练词向量时的损失函数。
词向量的维度一般需要选择50维及以上，特别衡量词向量的语言学特性时，词向量的维度越大，效果越好。
做NLP任务用到词向量的时候，要么选择使用别人训练好的同语料内容领域的词向量，要么训练自己的词向量，个人认为，前者效果更好。

参考文献

参考链接1：一只松鼠，词向量表示方法梳理，https://zhuanlan.zhihu.com/p/46026058
参考链接2：来斯惟，基于神经网络的词和文档语义向量表示方法研究， https://arxiv.org/ftp/arxiv/papers/1611/1611.05962.pdf
参考链接3：穆文，[NLP] 秒懂词向量Word2vec的本质，https://zhuanlan.zhihu.com/p/26306795
参考链接4：大师兄，词向量之BERT，https://zhuanlan.zhihu.com/p/48612853

OpenHarmony实战—— 自定义构建函数：@Builder装饰器我命油我不有天 HarmonyOS OpenHarmony 鸿蒙开发 harmonyos openHarmony 鸿蒙开发 ArkUI 物联网装饰器构建函数
往期推文全新看点（文中附带最新·鸿蒙全栈笔记）1️⃣鸿蒙（HarmonyOS）北向开发知识点记录~2️⃣鸿蒙（OpenHarmony）南向开发保姆级知识点汇总~3️⃣鸿蒙应用开发与鸿蒙系统开发哪个更有前景？4️⃣嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~5️⃣对于大前端开发来说，转鸿蒙开发究竟是福还是祸？6️⃣鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？7️⃣记录一场鸿蒙开发
【AI与数据管理】基于AI大模型的企业元数据管理方案暴躁小师兄数据学院人工智能 ai 语言模型
基于AI大模型的元数据关键解决方案元数据（metadata）是描述数据的数据，例如数据的来源、结构、类型和质量信息。它在数据管理、分析和应用中至关重要。随着人工智能（AI）大模型（如基于Transformer的模型）的发展，这些模型凭借其强大的自然语言处理、模式识别和生成能力，为元数据处理提供了高效、自动化的解决方案。下面，我将逐步解释基于AI大模型的元数据关键解决方案，帮助您理解核心方法、挑战和
Flow 数据流学习-冷流和热流 qq_39844788 学习
文章参考的Kotlin学习笔记（五）——Flow数据流学习实践指北（一）-掘金Kotlin系列之认识一下Flow-掘金冷流（ColdFlow）：在数据被使用方订阅后，即调用collect方法之后，提供方才开始执行发送数据流的代码，通常是调用emit方法。即不消费，不生产，多次消费才会多次生产。使用方和提供方是一对一的关系。热流（HotFlow）：无论有无使用方，提供方都可以执行发送数据流的操作，提
C语言核心探秘：深入理解文件指针、stdin、stdout与stderr web安全工具库 2025C++学习数据库笔记 c语言 c++学习开发语言
资料合集下载链接：https://pan.quark.cn/s/472bbdfcd014在C语言的编程世界里，输入和输出是程序与外部世界沟通的桥梁。无论是从文件中读取数据，还是将结果显示在屏幕上，我们都离不开I/O（Input/Output）操作。而这一切操作的核心，都围绕着一个重要的概念——文件指针（FilePointer）。今天，就让我们一起根据课堂的精华笔记，揭开文件指针的神秘面纱，并深入了
React基础笔记---小黑是小白小黑是小白 react react.js 学习笔记 1024程序员节
react学习前置准备学习网站网址种类React中文React中文文档文档ReactRouterReactRouter6中文文档路由ReactRouterReactRouter路由zustandzustand状态管理TanStackQueryTanStackQuery中文文档请求管理，路由reduxRTK状态管理，请求管理FetchFetch-MDN请求fontawesome图标fontaweso
MapReduce学习笔记
1.MapReduce做什么Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”来处理。Reducer负责对map阶段的结果进行汇总。2.MapReduce工作机制实体一：客户端，用来提交MapReduce作业。实体二：JobTracker，用来协调作业的运行。实体三：TaskTracker，用来处理作业划分后的任务。实体四：HDFS，用来在其它实体间共享作业文件。3.编写MapRed
uni-app学习笔记二十一--pages.json中tabBar设置底部菜单项和图标 moxiaoran5753 uni-app 学习笔记
如果应用是一个多tab应用，可以通过tabBar配置项指定一级导航栏，以及tab切换时显示的对应页。在pages.json中提供tabBar配置，不仅仅是为了方便快速开发导航，更重要的是在App和小程序端提升性能。在这两个平台，底层原生引擎在启动时无需等待js引擎初始化，即可直接读取pages.json中配置的tabBar信息，渲染原生tab。Tips当设置position为top时，将不会显示i
AI“大航海”时代：企业人力资源的AI-HR实践与效能提升策略
在数字化浪潮的推动下，人工智能（AI）正以前所未有的速度渗透各行各业，人力资源管理（HR）领域也不例外。AI技术的引入与应用落地，不仅提升HR管理效率，更在深层次上带来人力资源运作模式的变革。什么是AI-HR所谓AI-HR，是指将人工智能技术应用于人力资源管理，并通过机器学习、自然语言处理、数据挖掘等技术，优化招聘、培训、绩效评估、员工关系等人力资源各个业务模块。近年来，随着AI技术的成熟和普及，
C# 学习笔记-多线程操作、异常排除鱼听禅 C#c#多线程
多线程操作、异常排除1.异常解决1.1关于创建调用提示非单线程的问题2.关于无法捕获的异常2.1AccessViolationException异常1.异常解决1.1关于创建调用提示非单线程的问题调试过程中，创建多线程调用Excel时提示：在可以调用OLE之前，必须将当前线程设置为单线程单元(STA)模式。请确保您的Main函数带有STAThreadAttribute标记解决方法是，设置线程属性为
算法学习领域的宝藏 wylee 算法学习 leetcode
labuladong的算法笔记仓库是算法学习领域的宝藏项目，它围绕LeetCode题目，以培养算法思维为核心，提供丰富学习资源与多种实用工具，助力学习者提升算法能力。项目核心内容：仓库包含60多篇原创文章，基于LeetCode题目展开，全面覆盖各种算法题型与技巧，旨在培养学习者的算法思维，避免单纯的代码堆砌。文章注重思路解释和思维框架构建，通过总结算法套路，帮助学习者少走弯路。学习资源与工具算法可
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
Docker 和 Kubernetes 入门到精通：运维工程师的实战笔记 (近5万字) 运维小贺运维 linux docker 容器 kubernetes 云原生 kubelet
文章目录1.Docker1.1Docker是什么？1.1.1容器服务原理1.2Docker的三大概念1.2.1镜像1.2.2容器1.2.3仓库1.2.4总结1.3Docker常用命令1.3.1镜像常用命令1.3.2容器常用命令1.4Dockerfile1.4.1commit的局限1.4.2Dockerfile是什么？1.4.3如何使用Dockerfile制作镜像?1.4.4Dockerfile中常
Flutter-完整开发实战详解(一、Dart-语言和-Flutter-基础) 2401_85122662 flutter
《Android学习笔记总结+最新移动架构视频+大厂安卓面试真题+项目实战源码讲义》完整开源地址：https://docs.qq.com/doc/DSkNLaERkbnFoS0ZF基本类型var可以定义变量，如vartag=“666”，这和JS、Kotlin等语言类似，同时Dart属于动态类型语言，支持闭包。Dart中number类型分为int和double，其中java中的long对应的也是Da
《移动App测试实战》读书笔记 xh15 2017笔试面试修炼软件测试移动测试读书笔记
最近看完了《移动App测试实战》，这里做一点笔记，后面可以重温。功能测试自动化轻量接口自动化测试（JMeter）：JMeter是一款开源测试工具，多用于接口测试用例的分层：CGI：通用网关接口，常称为单个业务接口Function：请求组合，包含多个CGI层接口的调用TestCase：单个测试用例TestSuite：多个测试用例的集合UI层的自动化面向Android：AndroidSDK提供的UIA
学习笔记：oracle online系列：oracle：Per-Process PGA memory limit 认真就输DBA Oracle 学习随笔学习笔记 oracle
我们的文章会在微信公众号IT民工的龙马人生和博客网站(www.htz.pw)同步更新，欢迎关注收藏，也欢迎大家转载，但是请在文章开始地方标注文章出处，谢谢！由于博客中有大量代码，通过页面浏览效果更佳。本文转自朋友的真实案例分享。oracleonline系列：oracle：Per-ProcessPGAmemorylimit前几日，东区某客户的19crac出现了ORA-04030，从报错的trace来
【OD机试题解法笔记】连续出牌数量 xuwzen 编码训练笔记深度优先算法
题目描述有这么一款单人卡牌游戏，牌面由颜色和数字组成，颜色为红、黄、蓝、绿中的一种，数字为0-9中的一个。游戏开始时玩家从手牌中选取一张卡牌打出，接下来如果玩家手中有和他上一次打出的手牌颜色或者数字相同的手牌，他可以继续将该手牌打出，直至手牌打光或者没有符合条件可以继续打出的手牌。现给定一副手牌，请找到最优的出牌策略，使打出的手牌最多。输入描述输入为两行，第一行是每张手牌的数字，数字由空格分隔，第
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
机器学习知识点复习上（保研、复试、面试）百面机器学习笔记
机器学习知识点复习上一、特征工程1.为什么需要对数值类型的特征做归一化？2.文本表示模型3.图像数据不足的处理方法二、模型评估1.常见的评估指标2.ROC曲线3.为什么在一些场景中要使用余弦相似度而不是欧氏距离？4.过拟合和欠拟合三、经典算法1.支持向量机SVM2.逻辑回归3.决策树四、降维1.主成分分析（PrinalComponentsAnalysis,PCA）降维中最经典的方法2.线性判别分析
Docker技术笔记-从零开始的容器技术之旅青竹易寒 docker 学习容器
理论一、容器技术简介容器是一种轻量级、可移植、隔离的软件环境，通过操作系统级虚拟化实现资源隔离,确保应用程序在不同环境中能够保持一致运行。容器和虚拟机对比对比维度容器(Docker)虚拟机(VM、KVM)架构原理共享宿主机内核,通过命名空间(Namespaces)和控制组(Cgroups)实现资源隔离。通过Hypervisor虚拟化硬件资源,每个VM运行独立完整的操作系统(GuestOS)。资源消
C 语言:20250708笔记遇见尚硅谷 c语言笔记开发语言
内容提要C语言概述数据类型常量变量C语言概述计算机基础计算机的组成计算机组成计算机：能进行计算以及逻辑处理的设备硬件：组成计算机的物理部件。（内存条、CPU、硬盘..）开发中对于硬件的认知：硬件包括电子设备、单片机、集成电路和嵌入式系统。软件：计算机中运行的程序和数据。开发中对于软件的认知：软件分为系统软件（OS）、应用软件和编程工具（编译器）计算机的六大部件中央处理器（CPU）：控制+计算内存：
12.Java SDK源码分析系列笔记-PriorityQueue Thinker QAQ Java SDK源码分析 java 笔记 python
文章目录1.PriorityQueue是什么2.使用3.源码分析3.1.属性3.2.有参构造3.2.1.初始化元素到数组中3.2.2.维护堆的属性3.2.2.1.下沉操作3.3.插入3.3.1.上浮操作3.4.删除3.4.1.下沉操作4.参考1.PriorityQueue是什么是一个队列，只不过加上了优先级的概念，换句话说队列里的元素是根据某种规则排好序的2.使用publicclassPriori
多角色AI Agent：基于LLM的虚拟角色扮演系统 AI天才研究院 AI人工智能与大数据人工智能 ai
多角色AIAgent：基于LLM的虚拟角色扮演系统关键词多角色AIAgentLargeLanguageModel(LLM)虚拟角色扮演系统人工智能自然语言处理程序设计摘要本文旨在探讨多角色AIAgent的基础知识以及其如何在虚拟角色扮演系统中发挥作用。我们将首先介绍多角色AIAgent的概念、历史背景和基本原理。随后，我们将深入探讨LLM（大语言模型）在虚拟角色扮演系统中的应用，包括其工作原理、核
DPDK探测设备并初始化分享放大价值 DPDK dpdk probe 设备初始化 mmap
本文整理下之前的学习笔记，基于DPDK17.11版本源码分析。主要看一下DPDK探测网卡设备，并进行初始化的流程，用到了类似kernel中的总线-设备-驱动模型。本文的重点之一是DPDK如何在用户态操作网卡寄存器，这里先给个答案:想要操作网卡寄存器，需要用到网卡的基地址BAR，intel网卡一般使用BAR0就行，通过mmap此文件/sys/bus/pci/devices/'pciaddress'/
Python学习打卡：day09 胜天半子祁厅 Python python 学习开发语言
day9笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day964、字典课后习题65、5类数据容器的总结对比数据容器分类数据容器特点对比66、数据容器的通用操作遍历统计len、max和min转换list(容器)、tuple(容器)、str(容器)、set(容器)排序容器通用功能总览67、拓展——字符串的大小比较ASCII码表字符串比较68、函数
Python学习打卡：day02
day2笔记来源于：黑马程序员python教程，8天python从入门到精通，学python看这套就够了目录day28、字符串的三种定义方式字符串在Python中有多种定义形式字符串的引号嵌套9、字符串的拼接10、字符串格式化11、格式化的精度控制12、字符串格式化的方式213、对表达式进行格式化14、字符串格式化的课后练习题15、数据输入（input语句）input语句（函数）input语句获取
Python在人工智能领域的实际应用：示例代码解析辣条yyds python python 人工智能开发语言
摘要：本文将通过几个典型的人工智能应用场景，展示Python在图像识别、自然语言处理、推荐系统等方面的高级用法。通过示例代码，带大家深入理解Python在人工智能领域的实际应用。正文：Python作为一门流行的编程语言，凭借其简洁的语法、丰富的库和框架，成为了人工智能（AI）领域的主流开发语言。下面，我们将通过几个示例，探讨Python在人工智能方向的实际应用。示例一：图像识别-使用OpenCV进
【文献精读笔记】Explainability for Large Language Models: A Survey （大语言模型的可解释性综述）（五）百万年薪天才少女人工智能人工智能机器学习深度学习
****非斜体正文为原文献内容（也包含笔者的补充），灰色块中是对文章细节的进一步详细解释！五、解释评估（ExplanationEvaluation）在前面的章节中，我们介绍了不同的解释技术和它们的用途，但评估它们如何忠实地反映模型的推理过程仍然是一个挑战。我们将评估大致分为两类：传统微调范式的局部解释评估（第5.1节）和提示范式中自然语言CoT解释的评估（第5.2节）。评估的两个关键维度是对人类的
CS:APP读书笔记--信息的表示和处理你都会上树？ CS:APP 笔记程序人生
信息的存储和表示字节端序在内存中按照从最低到最高有效字节的顺序存储对象，这种最低有效字节在最前面的方式，称为小端法。在内存中按照从最高到最低有效字节的顺序存储对象，这种最高有效字节在最前面的方式，称为大端法。例如：对于int32类型变量，其存储地址位于0x100，其十六进制值为0x12345678，其地址范围为ox100~0x103：//大端法地址：0x1000x1010x1020x1031234
Gin 框架中的优雅退出 Code季风 Gin入门指南 gin golang 开发语言 go 后端
在构建可靠的Web应用程序或微服务时，确保应用程序能够“优雅退出”是至关重要的。本文将基于你的笔记，深入探讨Gin框架中如何实现优雅退出，并解释其定义、重要性以及具体的实现方法。一、优雅退出的定义和重要性1.1什么是“优雅退出”？所谓优雅退出（GracefulShutdown）是指：在程序接收到关闭信号时（比如用户按下Ctrl+C或者系统发送SIGTERM），不要立即终止进程，而是：停止接收新的请
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交