SrdLaplaceGua

词向量总结

词向量

词向量是自然语言理解的重要工具，它的核心思想是把词映射到一个向量空间，并且这个向量空间很大程度上保留了原本的语义。词向量既可以作为对语料进行数据挖掘的基础，也可以作为更复杂的模型的输入，是现在 nlp 的主流工具。下面就总结一下 nlp 中经典的词向量方法，并且用一些开源工具进行测试。

onehot

直接对词进行 onehot 编码，缺点显而易见，一是 onehot 编码向量维度将会很高，二是 onehot 编码并不能体现语义信息

GloVe(Global Vectors for Word Representation)

Pennington, Jeffrey, Richard Socher, and Christopher Manning. “Glove: Global vectors for word representation.” Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014.

根据语料，我们可以得出词的共现矩阵 $X$ ，其元素为 $X_{i,j}$ ，表示在整个语料库中，单词 $i$ ,和单词 $j$ 共同出现在一个窗口中的次数。
（原文对代价函数的推导感觉有点绕，既然原文的推导主要是是逻辑推理，而不是数学推导，下面就说一下我的推理版本）
因为向量空间要保持语义的信息，根据最大熵模型（softmax），对于单词单词 $i$ 和单词 $j$ 的词向量 $v_i,v_j$ 应该有 $\frac{X_{i,j}}{\sum_{i,j}X_{i,j}}\propto \frac{exp(v_i^Tv_j)}{sum_{i,j}exp(v_i^Tv_j)}$ ，我们不妨假设 $exp(v_i^Tv_j)\propto X_{i,j}$ ，之所以正比是因为两个词共现次数不但和词之间的语义相似性有关，也和词本身出现的可能性有关，需要把这个因素考虑进去（因为两个相似的词可能出现的频率都很小，但是不能因为出现的频率都很小而让他们不相似），可以得到
$v_i^Tv_j+b_i+b_j=log X_{i,j}$

$b_i$ 、 $b_j$ 是单词 $i$ 和单词 $j$ 的偏差项。
那么我们定义损失函数
$J=\sum_{i,j}f(X_{i,j})(v_i^Tv_j+b_i+b_j-log(X_{i,j}))^2$

$f$ 是权重函数，因为对待不同的频次的共现单词对，我们的重视程度是不同的，作者通过实验确定权重函数为：
$f(x)=\left\{ \begin{array}{lr}{(x/x_{max})^{\alpha}, if~x<x_{max}} \\ {1, else} \end{array} \right.$

有了损失函数，我们就可以进行训练了，作者采用了AdaGrad的梯度下降算法，对矩阵 $X$ 中的所有非零元素进行随机采样，learning rate 设为0.05，在 vector size 小于300的情况下迭代了50次，其他大小的vectors上迭代了100次，直至收敛。最终学习得到的是两个vector是 $v$ 和 $\hat{v}$ （对应着顺序前后的 $v$ ），因为 $X$ 是对称的，理论上 $v$ 和 $\hat{v}$ 是一样的，他们唯一的区别是初始化的值不一样，所以导致最终的值不一样。这两者其实是等价的，都可以当成最终的结果来使用。为了提高鲁棒性，最终选择两者之和作为最终的vector（两者的初始化不同相当于加了不同的随机噪声，所以能提高鲁棒性）。

NNLM(Neural Network Language Model)

Neural Network Language Model. Bengio. 2003
NNLM本身不产生词向量，但是是下面两种词向量的思想来源。NNLM要做的事情是通过前 $n$ 个词预测下一个出现的词，过程也比较简单，先对前 $n$ 个词进行 onehot 编码，在对每个 onehot 乘一个矩阵 C 来降维，再把这 $n$ 个向量拼接起来，输入到全联接网络中 softmax 输出各个词出现的概率。onehot 乘一个矩阵 C 得到的向量就有点词向量的意思。

CBOW(Continuous Bag-of-Words 连续词袋) 和 Skip-gram

Mikolov, Tomas, et al. “Efficient estimation of word representations in vector space.” arXiv preprint arXiv:1301.3781 (2013).

和 NNLM 思想类似，CBOW 和 Skip-gram 也是根据 contex 来预测单词，与 NNLM 相比做的优化是采用了 hierarchical softmax 来替代 NNLM 中的 C。hierarchical softmax 就是根据语料产生一棵 haffman tree，每个叶子结点代表一个单词的词向量，非叶子节点上也有词向量，只不过不是对应具体单词，得到结果后通过对叶子节点上与叶子结点上的词向量求一个2分类的 softmax 来决定走那条路径，优化时也一并优化叶子结点上和非叶子结点上的词向量。

CBOW

CBOW 认为窗口中间位置单词的出现概率为 $\frac{v_Iv^T_O}{\sum_vv_Iv^T}$ ， $v_I$ 为窗口内其他单词的词向量的和。也就是说目标函数是
$J=\sum_{c\in corpus}log\frac{v_{I_c}v^T_c}{\sum_vv_{I_c}v^T}$

需要最大化 $J$ 得到词向量，可以采用梯度下降对词向量进行训练。

Skip-gram

Skip-gram 和 CBOW 正好相反, 是由当前词来预测 contex，目标函数是
$J=\sum_{c\in corpus}sum_{t\in contex(c)}log\frac{v_tv^T_c}{\sum_vvv^T_c}$

需要最大化 $J$ 得到词向量，可以采用梯度下降对词向量进行训练。Skip-gram 算法对低频词敏感。

实验代码

训练

GloVe

https://github.com/stanfordnlp/GloVe

Git clone 下来 GloVe 的代码后，make 生成 build 文件，里面的 demo.sh 时一个训练的 demo，过程是先 make，然后下载语料在进行训练，可以改成自己的训练数据。
下面介绍要训练自己的 GloVe 的过程：

准备训练数据：训练数据的格式是每行是一句话（一段文章），去掉标点，用空格分隔每个词，中文记得要分词。
build/vocab_count：输入是准备好的训练数据，输出词汇表。词汇表每行表示一个词，含有词汇和频次，用空格分隔。可选参数：“-min-count ”表示作为词汇的最低出现次数，”-max-vocab ”表示词汇表最大的规模（超过规模的低频词会随机采样到词汇表中），”-verbose ”表示屏幕输出信息显示的程度；
build/cooccur：输入是训练数据，输出共现矩阵。可选参数：”-verbose ”同上，”-symmetric ”如果输入0，则只记录左侧的共现情况，输入1（默认）记录两侧的共现情况，”-window-size ”每侧的窗口大小，”-vocab-file ”词汇表文件，默认是 vocab.txt，”-memory ”内存限制（软限制，并不精确），”-max-product ”共现矩阵的大小，根据词频来限制，”-overflow-length ”限制写入硬盘的稀疏矩阵的大小，”-overflow-file ”稀疏矩阵的临时文件，”-distance-weighting ”如果为0，不根据单词间距离进行加权，为1根据距离进行加权；
build/shuffle：输入共现矩阵，输出置乱的共现矩阵。可选参数：”-verbose ”同上，”-memory ”内存限制，”-array-size ”写如硬盘前没块矩阵大小限制，”-temp-file ”临时文件名称；
build/glove：输入（置乱）的共现矩阵和词汇表，输出词向量。可选参数：”-verbose ”同上，”-write-header ”如果为1，第一行写入词汇表大小和词向量长度，为0不写，”-vector-size ”词向量长度，”-threads ”线程数，”-iter ”迭代次数，”-eta ”学习率，”-alpha ” weighting function 的指数参数，“-x-max ”weighting function 的参数，”-binary ”储存向量的格式，“-model ”保存模型的模式，”-vocab-file ”词汇表，”-save-file ”保存文件的名字，”-gradsq-file ”保存梯度的文件名,”-save-gradsq ”是否保存梯度文件，默认不保存，”-checkpoint-every ”每轮迭代是否保存文件。

准备好数据集”corpus.txt”，运行下面的 shell 脚本，得到词向量文件 vectors.txt

#!/bin/bash
set -e

BUILDDIR=build
CORPUS=corpus.txt
VOCAB_FILE=vocab.txt
SAVE_FILE=vectors

VERBOSE=2
MEMORY=4.0

VOCAB_MIN_COUNT=5

WINDOW_SIZE=2
COOCCURRENCE_FILE=cooccurrence.bin

COOCCURRENCE_SHUF_FILE=cooccurrence.shuf.bin

VECTOR_SIZE=300
MAX_ITER=25
WINDOW_SIZE=2
BINARY=0
NUM_THREADS=8
X_MAX=10
HEADLINE=1

echo "$ $BUILDDIR/vocab_count -min-count $VOCAB_MIN_COUNT -verbose $VERBOSE < $CORPUS > $VOCAB_FILE"
$BUILDDIR/vocab_count -min-count $VOCAB_MIN_COUNT -verbose $VERBOSE < $CORPUS > $VOCAB_FILE

echo "$ $BUILDDIR/cooccur -memory $MEMORY -vocab-file $VOCAB_FILE -verbose $VERBOSE -window-size $WINDOW_SIZE < $CORPUS > $COOCCURRENCE_FILE"
$BUILDDIR/cooccur -memory $MEMORY -vocab-file $VOCAB_FILE -verbose $VERBOSE -window-size $WINDOW_SIZE < $CORPUS > $COOCCURRENCE_FILE

echo "$ $BUILDDIR/shuffle -memory $MEMORY -verbose $VERBOSE < $COOCCURRENCE_FILE > $COOCCURRENCE_SHUF_FILE"
$BUILDDIR/shuffle -memory $MEMORY -verbose $VERBOSE < $COOCCURRENCE_FILE > $COOCCURRENCE_SHUF_FILE

echo "$ $BUILDDIR/glove -save-file $SAVE_FILE -threads $NUM_THREADS -input-file $COOCCURRENCE_SHUF_FILE -x-max $X_MAX -iter $MAX_ITER -vector-size $VECTOR_SIZE -binary $BINARY -vocab-file $VOCAB_FILE -verbose $VERBOSE -write-header $HEADLINE"
$BUILDDIR/glove -save-file $SAVE_FILE -threads $NUM_THREADS -input-file $COOCCURRENCE_SHUF_FILE -x-max $X_MAX -iter $MAX_ITER -vector-size $VECTOR_SIZE -binary $BINARY -vocab-file $VOCAB_FILE -verbose $VERBOSE -write-header $HEADLINE

CBOW 和 Skip-gram

使用 gensim 训练 CBOW 和 Skip-gram 词向量
先安装好 gensim

sudo pip install gensim

用“gensim.models.Word2Vec”来训练词向量，准备好分词的数据，数据为一个列表，每个元素为一句话或一篇文章的分词列表重要的参数有

model = Word2Vec(sentences=sentences, min_count=5, sg=1, iter=5, hs=0)  # fit skip-gram w2v

min_count：最小词频
sg：词向量的类型，为1则为 Skip-gram，为0则为 CBOW
iter：迭代次数
hs：是否采用 hierarchical softmax

用”gensim.corpora.Dictionary”得到词典，用“gensim.models.TfidfModel”分析词的 idf 值：

dct = Dictionary(sentences)  # fit dictionary
dct.save('test.dct')
corpus = [dct.doc2bow(sentence) for sentence in sentences]
idf_model = TfidfModel(corpus)   # fit idf
idf_model.save('test.idf')

测试

用”gensim.models.WordEmbeddingsKeyedVectors.load”训练好的词向量（GloVe 训练好的也可以用 gensim 载入，只不过不能继续训练了）

gv_model = KeyedVectors.load_word2vec_format("w2v/vectors.txt",binary=False)
sg_hs_model = WordEmbeddingsKeyedVectors.load("w2v/sg_hs.w2v")
sg_ng_model = WordEmbeddingsKeyedVectors.load("w2v/sg_ng.w2v")
cb_hs_model = WordEmbeddingsKeyedVectors.load("w2v/cb_hs.w2v")
cb_ng_model = WordEmbeddingsKeyedVectors.load("w2v/cb_ng.w2v")
vocab = list(sg_hs_model.vocab.keys())
dct = Dictionary.load('w2v/test.dct')
idf_model = TfidfModel.load('w2v/test.idf')

然后就可以进行测试了，如果当时保存不止是词向量，也把中间的变量保存下来（这样就可以继续训练）的话用”gensim.models.Word2Vec.load”来载入
然后可以用 model 里的方法来做一些数据挖掘，例如计算词向量的相似度，找到与词向量最接近的一些词向量，向量加减法找到向量之间的关系，在这里就不赘述了，根据需求来找相应的词向量

你可能感兴趣的:(机器学习,程序,实用技巧)

【C++】C++从入门到精通教程（持续更新...）废人一枚 C++c++开发语言
前言最近在整理之前一些C++资料，重新整理出了一套C++从基础到实践的教程，包含概念、代码、运行结果以及知识点的扩展，感兴趣的后续大家持续关注。以下是更新的文章目录，文章之后整理了一个知识思维导图，看起来比较清楚点。目录1、C++基础知识C++基础知识一个简单的C++程序函数重载引用的概念引用与指针的区别引用作为函数参数引用作为返回值面向对象类的定义类的声明结构体与类的区别inline函数this
AnythingLLM - 任何文档资源内容转换为任何LLM 小众AI AI开源人工智能 AI编程
更多AI开源软件：AI开源-小众AIhttps://www.aiinn.cn/sources一个全栈应用程序，使您能够将任何文档、资源或内容转换为任何LLM都可以在聊天期间用作参考的上下文。此应用程序允许您选择要使用的LLM或矢量数据库，并支持多用户管理和权限。AnythingLLM是一个全栈应用程序，您可以在其中使用商用现成的LLM或流行的开源LLM和vectorDB解决方案来构建一个不折不扣的
什么是MCP？看不懂你打我 X.Cristiano 深度学习 MCP
什么是MCP？MCP是一种协议，它实现了大模型资源调用的标准化。千百年来，随着人类社会的发展，标准化的进程不断推进。大模型与外部资源的对接同样需要标准化，MCP正是为此而生！接下来的文字，或许，将帮助你奶奶明白MCP对于她意味着什么。2011年，微信发布。想象一下，你奶奶刚开始用微信。那时，还没有小程序。她的体验或许是这样的：第一个月，她惊喜地发现微信能订电影票了！再过一个月，她发现微信又能约出租
支付宝MAU全解析：小程序生态的核心指标 ckx666666cky 小程序性能优化支付宝搜索引擎支付宝mau 支付宝mau优化
支付宝作为中国领先的移动支付和生活服务平台，其月活跃用户数（MonthlyActiveUsers，简称MAU）是衡量平台活力和商业价值的关键指标。MAU不仅反映了用户对平台的黏性和活跃度，还直接影响支付宝的商业潜力和市场竞争力。支付宝MAU概况截至最近公开数据，支付宝的MAU已突破9亿，这一庞大的用户基础为支付宝小程序生态提供了强大的流量支持。与微信支付等竞争对手相比，支付宝用户群体具有更强的消费
算法基础——蓝桥杯（python实现，实际上大多数用c++更明白易懂）（第一部分，共12个小题） New_Teen 算法蓝桥杯 python
1.成绩统计问题描述:编写一个程序，建立一个字典，每个字典包含姓名、学号、英语成绩、数学成绩和C++成绩，并通过字典操作平均分最高的学生和平均分最低的学生并且输出。输入格式：输入n+1行，第一行输入一个正整数n，表示学生数量；接下来的n行每行输入5个数据，分别表示姓名、学号、英语成绩、数学成绩和C++成绩。注意成绩有可能会有小数。输出格式：输出两行，第一行输出平均成绩最高的学生姓名。第二行输出平均
2025年零基础入门学网络安全（详细），看这篇就够了网安大师兄 web安全安全网络网络安全密码学
基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包一、自学网络安全学习的误区和陷阱1.不要试图先成为一名程序员（以编程为基础的学习）再开始学习我在之前的回答中，我都一再强调不要以编程为基础再开始学习网络安全，一般来说，学习编程不但学习周期长，而且实际向安全过渡后可用到的关键知识并不多一般人如果想要把编程学好再开始学习网络安全往往需要花费很长时间，容易半途而废。而且学习编程只是工具不是
RK35XX(3568) Android WSL ubuntu22.04 编译环境配置 hmbbPdx_ firefly-RK3288 RK驱动开发 Rk开发(RK3568)android linux
前言：装Ubuntu真机操作是很流畅但是没什么软件，装Vmware虚拟机操作卡顿配置也麻烦。那不如试一试wsl吧，命令行操作，流程又快捷wsl简介：适用于Linux的Windows子系统可让开发人员按原样运行GNU/Linux环境-包括大多数命令行工具、实用工具和应用程序-且不会产生传统虚拟机或双启动设置开销。window版本：10或11（7不支持）Ubuntu：16.04~22.04.1WSL:
VScode使用教程晓码bigdata C++python vscode 编辑器
VScode使用教程1VScode概览1.1特性1.2VScode下载安装1.3VScode基本使用1.4vsCode安装插件的3种方式1.5不能联网的电脑vscode安装插件3种方式1.6vsCode调试代码（3种模式）2VScode编写c++代码2.1怎么编写c++代码2.2出现了c++自带库无法识别的情况，是因为没配置好编译器gcc路径2.3使用gcc编译器编译c++程序报错找不到std3V
机器学习课堂4线性回归模型+特征缩放木尘152132 机器学习线性回归 python
一、实验2-2，线性回归模型，计算模型在训练数据集和测试数据集上的均方根误差代码：#2-2线性回归模型importpandasaspdimportnumpyasnpimportmatplotlib.pyplotasplt#参数设置iterations=3000#迭代次数learning_rate=0.0001#学习率m_train=3000#训练样本的数量flag_plot_lines=False
[C/C++][VsCode]使用VsCode在Linux上开发和Vscode在线调试 ★Orange★ Linux C++嵌入式 c语言 c++vscode
目录0.前言1.win10上搭建环境Linux环境2.编写makefile3.怎么在线调试结语0.前言在开发中，可以一边开发一边调试，这样可以大大的减少bug；但是正常来说一个大点的项目，是不太可能单步调试的，因为一般都是用make或者CMake，甚至安卓中的Android.bp来编译；因此检查调试程序，仅能通过编译后，烧录到目标板子上或者搭建好的环境上，根据Log信息来调试，这样确实有点麻烦，但
Pollinations AI文生图html源码酷爱码 html HTML
源码介绍用deepseek辅助制作了一个电脑端文生图小程序，html语言的，接口使用的是Pollinations，上传服务器访问首页即可一次生成4张，提示词最好用英文，点击小图可以预览大图，也可以点击下载按钮直接下载截图预览源码免费获取PollinationsAI文生图html源码
2024年CSP-J认证 CCF信息学奥赛C++ 中小学初级组第一轮真题-完善程序题解析小兔子编程 NOI CSP-J信息学奥赛 c++判断平方数 c++汉诺塔 2024CSP-J真题 2024CSP初级真题 2024CSP-J真题解析中小学信奥真题 c++真题解析
2024CCF认证第一轮（CSP-J）真题三、完善程序题第一题判断平方数问题：给定一个正整数n，判断这个数是不是完全平方数，即存在一个正整数x使得x的平方等于n试补全程序#include#includeusingnamespacestd;boolisSquare(intnum){inti=(1);intbound=(2);for(;i>n;if(isSquare(n)){cout<
【机器学习】模型拟合 CH3_CH2_CHO 什么？！是机器学习！！机器学习人工智能欠拟合过拟合
1、欠拟合1.1现象欠拟合是机器学习和统计建模中的一种常见问题，表现为模型无法充分捕捉数据中的潜在规律和模式。无论是训练数据还是测试数据，模型的预测误差都居高不下。在实际应用中，欠拟合的模型往往显得过于简单和粗糙，无法对数据进行有效的拟合和描述。1.2原因模型过于简单是导致欠拟合的主要原因：例如，使用直线去拟合具有明显曲线趋势的数据，或者使用低阶多项式去拟合高阶的复杂函数关系。这种情况下，模型的表
【详细解决】pycharm 终端出现报错：“Failed : 无法将“Failed”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。一只小白跳起来笔记 pycharm python ide
昨天在终端一顿操作后突然打开pycharm时就开始报错：无法将“Failed”项识别为cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写，如果包括路径，请确保路径正确，然后再试一次。所在位置行:1字符:1+Failedtoactivatecondaenvironment.+~~~~~~+CategoryInfo:ObjectNotFound:(Failed:String)[],Com
springboot整合Thymeleaf详解 weiha666 spring boot
Thymeleaf介绍简单说，Thymeleaf是一个跟Velocity、FreeMarker类似的模板引擎，它可以完全替代JSP。相较与其他的模板引擎，它有如下三个极吸引人的特点：Thymeleaf在有网络和无网络的环境下皆可运行，即它可以让美工在浏览器查看页面的静态效果，也可以让程序员在服务器查看带数据的动态页面效果。这是由于它支持html原型，然后在html标签里增加额外的属性来达到模板+数
webpack提升打包构建速度02--webpack优化 _xiyang webpack webpack 前端 node.js javascript
提升打包构建速度HotModuleReplacement为什么开发时我们修改了其中一个模块代码，Webpack默认会将所有模块全部重新打包编译，速度很慢。所以我们需要做到修改某个模块代码，就只有这个模块代码需要重新打包编译，其他模块不变，这样打包速度就能很快。是什么HotModuleReplacement（HMR/热模块替换）：在程序运行中，替换、添加或删除模块，而无需重新加载整个页面。怎么用1.
鸿蒙元服务摘要阿旭哟嘿 harmonyos 华为
元服务（原名原子化服务），是HarmonyOS提供的一种面向未来的服务提供方式，是有独立入口的（用户可通过点击方式直接触发）、免安装的（无需显式安装，由系统程序框架后台安装后即可使用）、可为用户提供一个或多个便捷服务的用户应用程序形态。例如：某传统方式的需要安装的购物应用A，在按照元服务理念调整设计后，成为由“商品浏览”“购物车”“支付”等多个便捷服务组成的、可以免安装的购物元服务A*。元服务基于
JAVA学习-练习试用Java实现“对大数据集中的网络日志进行解析和异常行为筛查” 守护者170 java学习 java 学习
问题：编写一个Spark程序，对大数据集中的网络日志进行解析和异常行为筛查。解答思路：下面是一个简单的Spark程序示例，用于解析网络日志并筛查异常行为。这个示例假设日志文件格式如下：timestamp,ip_address,user_id,action,event,extra_info2023-01-0112:00:00,192.168.1.1,123,login,success,none202
Git——如何上传本地文件到自己的github仓库 Bruce_Ling github c++算法 git windows vscode
目录简介前言1、Windows下ping通github.com2、安装Git2.1配置Git2.2检查Git3、上传本地文件到远程仓库3.1创建github仓库总结简介本博文介绍了如何将本地的项目文件推送到自己远程的github仓库。前言因为程序是在ubuntu系统里面跑的，一开始是想在Ubuntu系统里面将文件上传到github仓库，通过修改hosts文件里面的github的ip地址，偶尔能在浏
操作系统相关知识灋✘逞_兇服务器运维
1.守护进程1.1.什么是守护进程？主要是将服务器方面的程序给隐藏到控制端下面。比如redis的，我们启动redis-server后，他会有一个图像化的界面，如果没有开启守护进程，你在setkeyvalue后会有一个日志的打印。如果你不小心按到ctrl+c了，不好意思，你的服务器dump掉了。1.2.为什么要守护进程？就是为了解决上述1说的守护进程就是为了隐藏到控制界面下面。试想一下，如果你的电脑
【Android 】零基础到飞升 | Git之使用GitHub搭建远程仓库 A little strawberry git java github python 编程语言
1.5.2Git之使用GitHub搭建远程仓库本节引言：在上一节中，我们学习了如何使用Git，构建我们的本地仓库，轻松的实现了版本控制以及代码还原，修改日志查看等；读者肯定不满足与本地是吧，假如是多个人一起来开发一个程序呢？我们需要一个作为服务器的远程仓库！当然搭建一个服务器是需要成本的，为什么不把项目托管到Github上呢？作为开源代码库以及版本控制系统，Github拥有140多万开发者用户。随
S-function模块案例详解（MATLAB程序）常岱昶Salena
S-function模块案例详解（MATLAB程序）【下载地址】S-function模块案例详解MATLAB程序S-function模块案例详解（MATLAB程序）本仓库提供了一个详细的S-function模块案例，主要内容为编写的蹦极系统的S-function案例详解项目地址:https://gitcode.com/open-source-toolkit/a6c52本仓库提供了一个详细的S-fu
6-7 统计某类完全平方数 TXHNY ATP习题算法
本题要求实现一个函数，判断任一给定整数N是否满足条件：它是完全平方数，又至少有两位数字相同，如144、676等。函数接口定义：intIsTheNumber(constintN);其中N是用户传入的参数。如果N满足条件，则该函数必须返回1，否则返回0。裁判测试程序样例：#include#includeintIsTheNumber(constintN);intmain(){ intn1,n2,i,c
LAMP环境搭建（基于Fedora系统）后青春期的诗go 服务器操作系统实战资料服务器 linux 运维
一、环境说明操作系统Fedora-Server-x86-64-29LAMP集成安装包bitnami-lampstack-7.1.25-0-linux-x64-installer.run二、LAMP安装配置1.将bitnami-lampstack-7.1.25-0-linux-x64-installer.run上传至系统2.给与安装程序执行权限，chmodu+xbitnami-lampstack-7
RabbitMQ z小天才b RabbitMQ rabbitmq 分布式
一、MQ相关的概念1.1、MQ的基本概念什么是MQMQ（MessageQueue，消息队列）是一种应用程序对应用程序的通信方法。应用程序通过写入和检索出入队列的针对性消息来通信，这些消息可以存储在内存或磁盘中。消息队列允许应用程序独立地运行，并以可靠的方式相互通信。为啥要用MQ解耦:允许系统独立开发、部署和运行，减少系统间的直接依赖异步处理:非阻塞操作，请求处理与响应分离削峰填谷:缓冲突发请求，防
汇编常用指令速查爱吃饼干的熊猫汇编使用总结汇编 dos null basic command 测试
一、汇编速查MOVAA,BB将BB放到AA里CALL调用子程序(相当于BASIC的GOSUB)RET与RETF返回程序(相当于BASIC的RETURN)CMPXX,YY比较XX与YYJZ若相等则转移JNZ若不相等则转移JB若小于则转移JG若大于则转移JMP无条件转移J???(各种转移指令)LOOP循环直到CX为0INTXX类似CALL的中断涵数PUSH推入栈（STACK）ESP：PUSHAXPOP
ActiveMQ z小天才b ActiveMQ java-activemq activemq spring boot
一、ActiveMQ概述1.1什么是ActiveMQ？ActiveMQ是Apache软件基金会开发的一个开源消息中间件，它完全支持JMS（Java消息服务）规范，并提供了高可用性、高性能和可扩展性。ActiveMQ允许不同的应用程序通过消息传递进行异步通信，从而实现系统解耦。1.2ActiveMQ核心特性多协议支持：支持OpenWire、STOMP、AMQP、MQTT等多种协议持久化：支持多种持久
微信小程序云开发实现登录功能 Bilkan-studio 微信小程序小程序前端
使用云开发数据库实现登录功能，多的不说了直接看代码登录功能代码段WXML代码账号密码登录WXSS代码page{width:100%;height:100%;direction:ltr;}.waikuang{width:100%;height:100%;display:flex;align-items:center;justify-content:center;flex-direction:colu
基于Python的智能决策支持系统：实现智能化决策的关键要素 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型自然语言处理人工智能语言模型编程实践开发语言架构设计
文章目录基于Python的智能决策支持系统：实现智能化决策的关键要素11.背景介绍2.核心概念与联系数据收集与预处理模型构建与训练决策规则生成与优化决策结果评估与反馈3.核心算法原理具体操作步骤数据挖掘算法机器学习算法优化算法4.数学模型和公式详细讲解举例说明线性回归模型最小二乘法5.项目实践：代码实例和详细解释说明6.实际应用场景金融领域医疗领域供应链管理智能制造7.工具和资源推荐编程语言和开发
如何返回工具执行的工件 shuoac windows microsoft python
工具是在AI模型中被调用并将输出反馈给模型的实用程序。有时，我们希望将工具执行的工件，例如自定义对象、数据帧或图像，传递给链或代理中的下游组件，但不希望向模型本身暴露这些工件。为了实现这一点，Tool和ToolMessage接口提供了一个机制，以区分提供给模型的信息(ToolMessage.content)和供外部使用的信息(ToolMessage.artifact)。技术背景介绍在AI开发中，工
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他