YeZzz

【NLP】Word Embedding（word2vec、glove）

Word Embedding学习笔记

在NLP中，对文本的表示方法：

bag-of-words：基于one-hot、tf-idf、textrank等
主题模型：LSA（SVD）、pLSA、LDA；
基于词向量的固定表征：word2vec、fastText、GloVe；
基于词向量的动态表征：elmo、GPT、bert

上面这个分类还有再查一下

各种词向量的特点：

One-hot：维度灾难和语义鸿沟
矩阵分解（LSA）：利用全局语料特征，但SVD求解计算复杂度大
基于NNLM / RNNLM的词向量：词向量为副产物，存在效率不高等问题
word2vec、fastText：优化效率高，但基于局部语料
glove：结合了LSA和word2vec的优点，基于全局语料
elmo、GPT、bert：动态特征

tf-idf是什么？

tf（Term Frequency）即词频，指某个词在文章中出现的次数。这个数字通常会被归一化（词频 / 文章总词数），以防止它偏向长的文章。

idf（inverse Document Frequency）逆文档频率：即 log（语料库文档总数 / 包含该词的文档）

特点：1）tf-idf可用某篇文章中出现次数多但在其他文章中出现次数少的词来作为该文章的特征词。2）使罕见单词更加突出且有效忽略了常用单词。

缺点：1）因为是词袋模型，没有考虑词的位置，但其实词的位置是有一定含义的。2）并不能反映单词的重要程度和特征词的分布情况。

与之类似的one-hot独热编码形式，即一个词占一维向量。也有两个缺点：

1）不考虑词与词之间的顺序（文本中词的顺序也很重要，例如小明在揍我和我在揍小明是完全不一样的意思）

2）假设词是独立的。但不同词之前猫和狗、床和沙发，词之间原本是有不同的亲疏远近关系的

3）得到的特征是稀疏的。如果所有的词各占一维，那么这个向量会过于稀疏，甚至造成维度灾难。

之后又衍生出了word class的概念，即把不同的词分为不同的类别。但这样仍然会有一些信息无法表达，例如class1和class3都是生物，class2是class1可以完成的动作而class3不能完成。

于是又衍生出了word embedding。

例如下图，x轴代表生物词汇和非生物词汇的区别，y轴代表动和不动的词汇区别。

word embedding（词嵌入），即将高维词向量嵌入到一个低维空间，其实就是把词用数学形式表示出来。是非监督学习。

从建模的角度来讲，这个也叫做distributed representation（代表了词用vector表示，词含义分散在每个维度上，反面是one-hot vector，即只有一个离散的值）

Word Embedding有两种方法：

1）count based method 2）prediction based

1. count based

PMI matrix

如果两个词汇 w1 和 w2 经常一起出现，那么V(w1) 和 V(w2) 会比较接近

例如 glove vector

V(w1) · V(w2) (inner product) <--> N1,2 (表示w1 和 w2在同一个文章中出现的次数)

我们希望这两个结果越接近越好

2. prediction based

通过训练，将每个词映射到较短的词向量上（实际中，较难对较短词向量的每个维度做很好解释）。较短词向量的维度，一般训练时自己指定。

映射需满足：1）这个映射是单设；2）映射后向量不会丢失所含的信息。

这个映射过程也就是降维，嵌入的训练过程会引入词的上下文。感觉更像是CNN中channel数的变换。

有了这种表示的较短词向量，可以更容易分析词之间的关系。例如vec(King) - vec(Man) + vec(Woman) = vec(Queen)

predictive methods中比较常用的两个方法是word2vec和GloVe（global vector for word representation）

2.1）word2vec

word2vec从原始文本（raw text）中学习单词表示的效率高。

这个语言模型，本质上就是一个简化的神经网络

input layer输入向量是onehot形式。hidden layer没有激活函数，是线性单元。output layer维度与input layer维度一样，使用softmax。

而当用这个模型训练好后，我们真正需要的是这个模型通过训练学得的参数，即隐层权重矩阵。

word2vec中具体的语言模型分为两种，CBOW（Continuous Bag-of-Words）与Skip-Gram。

Skip-gram 是预测一个词的上下文，而 CBOW 是用上下文预测这个词

2.1.1）CBOW

通过上下文预测这个词

输入层：

上下文单词的onehot作为输入。其中上下文单词数量为C，C这个由超参window size决定，如果window size=2 表示取target word的前两个单词和后两个单词作为input词，此时C=4。一般input 10个words。每个单词的向量dim为V。

所有onehot分别乘以共享的输入权重矩阵W_V*N，其中N为降维后的维度——超参。这里的W_V*N 就是我们最终想要的。

所得的向量相加求平均作为输入给隐层向量，得到的shape为 1*N

输入词向量分别乘以W再相加求平均和输入词向量相加求平均再乘以W是一样的。

在实作时，如何保证W_V*N是sharing parameters呢？

答案是 1）一开始初始化时给wi 和 wj 相同的初始值。2）更新参数时，除了自身的梯度，也减去其他w的梯度。以保持梯度的更新也都是一样的。

隐藏层：

输入的向量乘以输出权重矩阵W^'_N*V，得到的shape为 1*V。

输出层：

再经过softmax激活函数处理，得到 V 维的概率分布（还原成原来的输入维度），每维代表一个单词。

概率最大的单词即为预测出的target word（中间词）。将target word与true label的onehot比较，误差越小越好。一般使用交叉熵代价函数。

根据此误差再更新权重矩阵。采用梯度下降法、反向传播来更新W和W'。

训练完成后，W 这个矩阵就是所有单词的word embedding，也叫look up table。有了W，任一单词的onehot乘以W这个矩阵都将得到自己的词向量（word embedding）了。乘以这个矩阵其实就相当于在查表。

那 W ‘ 不需要了吗？

是的不需要了。因为本质上就是想降维。W其实就是我们需要的降维转换表。乘以 W后，得到的dim更小了，降维了的同时还保留了原来的信息。W ' 是将降了维的向量可以再复原成原来的onehot向量，所以就不需要了。

2.1.2）Skip-Gram

通过输入词，预测词典中其他每个词与输入词同时出现的概率。

Skip-gram的cost function是单个cost function取log后的累加

input word：输入词。

skip-window：代表从input word左右两边选词的数量

num-skips：代表选多少个词作为output word

例如句子：

“The quick brown fox jumps over lazy dog”

蓝色方框代表input word。window_size=2，左右各选2个词

Training samples即（输入，输出），此处列出的是window size中包含的所有可能。

如果限制num_skips=2，则只会取前两个。例如quick为input word时，只会选择（quick, the）和（quick，brown）。

（quick, the）和（quick，brown）分别送入input layer进行训练，会分别输出词汇表中每个单词是 the 和 brown的概率。模型的输出概率代表词典中每个词有多大可能与input word同时出现。

2.1.3）CBOW 和Skip-gram对比

CBOW对小型语料比较合适，Skip-Gram在大型语料中表现更好。

看到很多博客都写了上面这句话，但是为什么呢？

查了资料后我感觉按上面这么说并不十分准确，很容易引起我这种初学者的误解。

CBOW训练时有一个target word和许多context words。Skip-gram训练时，一个context word和许多target word。也就是说CBOW多对一，Skip-gram一对多。所以CBOW需要更大的数据集。

而CBOW在训练时，在同一上下文中需要为句子中每个target word都计算一遍这些上下文的average。所以更适合短的句子。Skip-gram相反。

总结来说，就是：

CBOW 更适合短句子，多数据量

Skip-gram 更适合长句子，小数据量

可参考https://stackoverflow.com/questions/39224236/word2vec-cbow-skip-gram-performance-wrt-training-dataset-size

Skip-Gram比CBOW更适合非常见词汇

因为在CBOW中，输入向量由context words做平均后再用于预测target word。而skip-gram中没有这一步骤。不让非常见词汇和周围的context words做平均，可以让模型对这个非常见词的表达学的更好。

举例来说：

yesterday was really [...] day. CBOW模型会认为target word更可能是beautiful、nice之类的词。而像delightful这样的词的概率会小很多。因为CBOW被设计为预测最可能出现的词。非常见词汇的概率比常见词汇出现的概率小很多。

而Skip-gram被设计为预测内容。给到delightful这个词时，skip-gram不会试图和beautiful这个词battle，而是会给出类似yesterday was really [...] day这样的预测内容。因为它是从非常见词汇的这个词汇出发。

可参考：https://stats.stackexchange.com/questions/180548/why-is-skip-gram-better-for-infrequent-words-than-cbow

Cbow比Skip-gram更快

因为Cbow用周围词预测target word，只需要把窗口内其他词相加一次作为输入来预测target word。不论窗口多大，只需要一次运算。而skip-gram直接受窗口影响，窗口越大，需要预测的周围词越多。

2.1.4）word2vec的训练trick

使用训练技巧是因为，word2vec本质是语言模型，其输出节点数是V个，对应了V个词语，本质上是一个多分类问题。而在实际中，词典V的个数非常多，会给计算造成很多困难，需用一些trick来加速训练。

hierarchical softmax

　　是softmax的一种近似形式。本质上把N分类问题变为log（N）次二分类

negative sampling

　　本质是预测总体类别的一个子集

word2vec并非效果最好的word embedding的工具，最明显的缺点是word2vec没有考虑语序，会有训练效果损失。但因为训练速度快，使用的人很多。训练快是因为word2vec中都是线性的计算，而且源码中有一些提速的trick，再而且采用一次计算，以后查表，减去了大量重复计算。

2.1.5）word2vec的训练参数

示例：

 1 from gensim.models import word2vec
 2 
 3 # train model
 4 def train_word2vec(x):
 5     # 训练word to vector 的 word embedding
 6     model = word2vec.Word2Vec(x, size=250, window=5, min_count=5, workers=12, iter=10, sg=1)
 7     return model
 8 
 9 # save model
10 model = train_word2vec(train_x + train_x_no_label + test_x)#传入所有可能会遇见的词
11 model.save(os.path.join(path_prefix, 'w2v_all.model'))
12 
13 # load model
14 model = Word2Vec.load("w2v_all.model")
15 print(model.similarity('Chinese', 'China'))

View Code

具体训练参数如下：

sentences=None：可以是一个list。对于大语料库，建议使用brownCorpus、Text8Corpus或lineSentence构建
size=100：特征向量的维度
alpha=0.025：初始学习率，训练过程中会线性递减到min_alpha
window=5：窗口大小，表示当前词与预测词在一个句子中最大距离是多少
min_count=5：对字典做过滤，词频小于min_count的单词会被舍弃
max_vocab_size=None：设置词向量构建期间RAM限制，None表示没有限制
sample=1e-3：高频词随机降采样的配置阈值，范围（0, 1e-5）
seed=1：随机数发生器，与词向量初始化有关
workers=3：用于控制训练的并行数
min_alpha=0.001：学习率最小值
sg=0：设置训练算法。0--CBOW， 1--Skip-gram
hs=0：设置训练技巧。0--negative sampling， 1--hierarchica softmax
negative=5：设置多少个noise words。如果>0，则采用negative sampling，一般是5-20.
cbow_mean=1：采用上下文词向量的均值，如果设置为0，表示采用上下文词向量的和。只有使用CBOW时才起作用
hashfxn=hash：hash函数来初始化权重
iter=5：迭代次数
trim_rule=None：设置词汇表整理规则，指定哪些单词留下，哪些删除。设置为None时，min_count会被使用
sorted_vocab=1：分配word index时按单词词频降序排序
batch_words=10000：每一批传递给线程的单词的数量

参数选择

skip-gram训练速度慢，对罕见字表现更好。CBOW训练速度更快。一般用skip-gram

hierachical softmax对罕见字更有利，nagative sampling对常见字和低维向量更有利

欠采样频繁词可以提高结构的准确性和速度（1e-3 ~ 1e-5）

skip-gram的window一般选10左右，CBOW通常选5左右

待补充glove。。。。

记录学习用，大多整理自以下参考博客。

参考博客：

https://www.jianshu.com/p/471d9bfbd72f

https://zhuanlan.zhihu.com/p/26306795

https://www.cnblogs.com/peghoty/p/3857839.html

https://towardsdatascience.com/word-embeddings-for-sentence-classification-c8cb664c5029

https://zhuanlan.zhihu.com/p/29364112

https://www.zhihu.com/search?type=content&q=glove

【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
2025年的RAG技术发展趋势与演进码农Q！云计算人工智能 ai agi 自然语言处理语言模型
本文将分享作为大模型应用创业者的经历与观察，讨论RAG技术和市场环境在2024年的变化。一、RAG技术的演进RAG（检索增强生成）由“检索”和“大模型生成”两部分组成，而检索之前的索引创建（如chunking、embedding等）是核心基础。我们早在2021年便通过Java技术栈实现了RAG的“RA”部分。2023年中，RAG概念突然走红，并迅速在企业应用中显示出更强的实用性。1.主流架构的变化
mysql忘记密码的三种解决方案学掌门数据库程序员 IT mysql android 数据库
1、修改密码的三种方式mysql用户分为root用户（超级管理员，拥有所有权限）和普通用户，mysql服务器通过权限表来控制用户对数据库的访问,这些权限表存于root用户下的mysql数据库中。在使用mysql数据库过程中，往往需要修改密码的操作，下面介绍三种修改密码的方式：1）使用mysqladmin命令在命令行指定新密码mysqladmin-uroot-ppassword'新密码’回车，将提醒
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
Qt5开发从入门到精通——第五篇一节（文本编辑器 Easy Word 开发 V1.0 详解）东.' Qt5开发从入门到精通 qt 开发语言 windows c++c语言
欢迎小伙伴的点评✨✨，相互学习、互关必回、全天在线博主本着开源的精神交流Qt开发的经验、将持续更新续章，为社区贡献博主自身的开源精神‍文章目录前言一、主窗口概述基本元素1.1、菜单栏1.2、状态栏1.3、工具栏1.4、描接部件1.5、中心部件二、文本编辑器EasyWordV1.0基本功能解析三、文本编辑器EasyWordV1.0效果实例四、文本编辑器EasyWordV1.0基本原码框架设计show
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
word中viso/math type公式比文字大
主要是mathtype中字号和word中字号是分别设置的，需要单独点开复制之后的公式，进入编辑状态，调整大小，让mathtype所对应的pt磅值和word中所对应的字号一样。字号对应关系如何调mathtype大小viso同理
【Python-办公自动化】批量修改文件夹内所有WORD文档格式花花 Show Python Python-办公自动化 python word 开发语言
欢迎来到"花花ShowPython"，一名热爱编程和分享知识的技术博主。在这里，我将与您一同探索Python的奥秘，分享编程技巧、项目实践和学习心得。无论您是编程新手还是资深开发者，都能在这里找到有价值的信息和灵感。自我介绍：我热衷于将复杂的技术概念以简单易懂的方式呈现给大家，让每个人都能享受到编程的乐趣。我相信，通过不断的学习和实践，我们都能够成为更好的开发者。关注提示：如果您喜欢我的内容，别忘
使用Word/Excel管理需求的10个痛点及解决方案Perforce ALM 龙智DevSecOps解决方案软件开发需求管理 ALM devops 测试管理
还在用Word和Excel管理需求和测试？你以为方便，实则隐患重重！本文源自perforce.com，由Perforce中国授权合作伙伴——龙智翻译整理，旨在提醒广大研发小伙伴们，是时候告别低效的手动工具，拥抱专业ALM解决方案了！有些企业使用Word和Excel来跟踪需求、问题和测试。但随着产品和软件可追溯性的复杂度增加，手动工具已经难以胜任。特别是在开发流程日益复杂的当下，继续依赖旧式的手动跟
python中函数与递归的练习
求一个十进制的数值的二进制的0、1的个数实现一个用户管理系统（要求使用容器保存数据）[{name:xxx,pass:xxx,……},{},{}]users=[]#用户类，包含基本信息classUser:def__init__(self,name,password,email=None):self.name=nameself.password=passworddef__str__(self):ret
Kutools：替代重复操作，搞定原生 Office 搞不定的事批量删空白行多功能小飞软件园电脑开源软件社交电子
各位办公打工人！今天给大家介绍个超厉害的办公神器——Kutools！它是专门给MicrosoftOffice设计的效率增强插件合集，里面有Excel、Word、Outlook这些组件工具包。它的核心功能老强大了，集成了好几百个一键式操作，能把那些复杂任务简单得不能再简单，办公效率直接起飞！下面给大家详细说说它的核心功能分类哈。软件下载地址安装包先说说Excel工具箱，这里面高级功能超过300项呢！
python-docx如何设置默认字体大小 detayun Python python word
引言在使用python-docx库处理Word文档时，设置默认字体大小是提升文档一致性的关键步骤。本文将详细讲解如何通过修改内置样式（如Normal样式）来全局设置字体大小，并解决常见问题。一、核心方法：修改Normal样式步骤详解导入必要模块：fromdocximportDocumentfromdocx.sharedimportPtfromdocx.oxml.nsimportqn创建文档并获取样
python如何删除xml中的w:ascii属性 detayun Python python xml
可以使用Python的xml.etree.ElementTree模块通过以下步骤删除XML中的w:ascii属性：importxml.etree.ElementTreeasET#原始XML片段（需包含命名空间声明）xml_str=''''''#注册命名空间namespaces={'w':'http://schemas.openxmlformats.org/wordprocessingml/2006
数据安全审计平台的三大关键技术：日志分析、行为监测与智能告警 KKKlucifer 安全算法
在数字化浪潮中，数据安全审计是企业守护核心资产的“瞭望塔”。通过日志分析、行为监测、智能告警三大技术，数据安全审计平台构建起“全流程监控-异常识别-快速响应”的闭环，为数据安全筑牢防线。以下从技术原理、实践价值与行业应用展开解析。日志分析：数据安全的“DNA图谱”1.多源日志融合技术实现：通过Agent采集操作系统、数据库、网络设备等200+日志源，利用正则表达式、NLP技术解析非结构化日志（如“
上位机通信(一) SunflowerCoder 上位机 c#上位机
概念基于软件的设备控制程序涉及C#的语法多线程委托（Action/Func/delegate）C#变量类型:Byteushortshortintuintlongfloatdoubledecimal设备类型：Bit(位)Byte(字节)Word(字)Dword(双字)float上位机数据交换物理接口：232422485SerialPort（串口）以太网：网口（TCP/UDP）,Socket简单介绍一
docker启动mysql5.7报错 EmpressBoost docker 容器运维
启动命令dockerrun-p3306:3306--namemysql\-v/mydata/mysql/log:/var/log/mysql\-v/mydata/mysql/data:/var/lib/mysql\-v/mydata/mysql/conf:/etc/mysql\-eMYSQL_ROOT_PASSWORD=root\-dmysql:5.7参数说明-p3306:3306：将容器的330
LINUX710 MYSQL czhc1140075663 Mysql mysql adb 数据库
[email protected]'spassword:┌────────────────────────────────────────────────────────────────────┐│•MobaXterm20.0•││(SSHclient,X-serverandnetworkingtools)││││➤[email protected]││•SSH
小程序下载pdf，excel，word功能（已解决）
downloadFile(){wx.showLoading({title:'正在下载并打开',})wx.downloadFile({url:'https://xxx.xxx.com/路径.xls',header:{'content-type':'multipart/form-data','Authorization':'Bearer'+wx.getStorageSync('token'),},su
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
C语言基础OJ 小wanga leetcode c语言开发语言
文章目录1.检测大写字母1.1题目1.2代码1.检测大写字母1.1题目添加链接描述1.2代码1.C语言版本booldetectCapitalUse(char*word){intcnt=0;for(inti=0;word[i];i++)if(isupper(word[i]))cnt++;returncnt==0||cnt==strlen(word)||(isupper(word[0])&&cnt==
如何在 Ubuntu 22.04 上使用 LEMP 安装 WordPress 教程 vvw& 技术文章 Linux 开源项目推荐 ubuntu linux 运维服务器 wordpress LEMP php
简介：本教程旨在指导你如何在Ubuntu22.04上使用LEMP栈安装WordPress。WordPress是一个用PHP编写的开源内容管理系统。LEMP栈是Linux，NGINX，MySQL和PHP的缩写。WordPress非常用户友好，并提供了多种选项，例如不同的插件和具有精美设计的各种主题，使其成为用户最可定制的CMS。以下段落将介绍安装WordPress之前LEMP安装的所有步骤。在Ubu
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
VIT视觉妄想成为master opencv 目标检测机器学习数据挖掘语音识别人工智能计算机视觉
VisionTransformer视觉和语言(Vision-Language)NLPrompt:Noise-LabelPromptLearningforVision-LanguageModelsPaper:https://arxiv.org/abs/2412.01256Code:GitHub-qunovo/NLPromptPhysVLM:EnablingVisualLanguageModelsto
Mammoth.js 使用详解啃火龙果的兔子开发DEMO 前端 javascript
Mammoth.js使用详解Mammoth.js是一个用于将Word文档（.docx）转换为HTML或Markdown的JavaScript库，支持浏览器和Node.js环境。安装浏览器环境Node.js环境npminstallmammoth#或yarnaddmammoth基本使用1.将DOCX转换为HTML//浏览器中使用input[type=file]获取文件document.getEleme
如果让计算机理解人类语言- One-hot 编码（One-hot Encoding，1950s）
如果让计算机理解人类语言-One-hot编码（One-hotEncoding，1950s）flyfish如果让计算机理解人类语言-One-hot编码（One-hotEncoding，1950s）如果让计算机理解人类语言-词袋模型（BagofWords,BoW，1970s）如果让计算机理解人类语言-Word2Vec（WordtoVector，2013）如果让计算机理解人类语言-Qwen3Embedd
大模型之Spring AI实战系列（三十二）：Spring Boot + DeepSeek 实战指南：工具函数（Function Call）实战应用
系列篇章No.文章1大模型之SpringAI实战系列（一）：基础认知篇-开启智能应用开发之旅2大模型之SpringAI实战系列（二）：SpringBoot+OpenAI打造聊天应用全攻略3大模型之SpringAI实战系列（三）：SpringBoot+OpenAI实现聊天应用上下文记忆功能4大模型之SpringAI实战系列（四）：SpringBoot+OpenAI使用OpenAIEmbedding实
easypoi中excel注解开关_easypoi: 入,Word模板导出,通过简单的注解和模板语言(熟悉的表达式语法),完成以前复杂的写法... weixin_39975900
===========================EasyPoiExcel和Word简易工具类easypoi功能如同名字easy,主打的功能就是容易,让一个没见接触过poi的人员就可以方便的写出Excel导出,Excel模板导出,Excel导入,Word模板导出,通过简单的注解和模板语言(熟悉的表达式语法),完成以前复杂的写法作者博客：http://blog.afterturn.cn/作者邮箱
java PDF模板生成并导出(文字、表格、图片)
最新word转pdf模板导出可分页带图片http://t.csdn.cn/JmWZb1：jar包com.itextpdfitext-asian5.2.0com.itextpdfitextpdf5.4.32：制作一个pdf模板创建表单–编辑域3：工具类：/***pdf模板导出**@parammap*@paramout*@throwsException*/publicstaticvoidcreatPd
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》