修炼打怪的小乌龟

文本处理——基于 word2vec 和 CNN 的文本分类：综述 & 实践（一）

原文地址：https://zhuanlan.zhihu.com/p/29076736

导语

传统的向量空间模型（VSM）假设特征项之间相互独立，这与实际情况是不相符的，为了解决这个问题，可以采用文本的分布式表示方式(例如 word embedding形式)，通过文本的分布式表示，把文本表示成类似图像和语音的连续、稠密的数据。

这样我们就可以把深度学习方法迁移到文本分类领域了。基于词向量和卷积神经网络的文本分类方法不仅考虑了词语之间的相关性，而且还考虑了词语在文本中的相对位置，这无疑会提升在分类任务中的准确率。经过实验，该方法在验证数据集上的F1-score值达到了0.9372，相对于原来业务中所采用的分类方法，有20%的提升。

1.业务背景描述

分类问题是人类所面临的一个非常重要且具有普遍意义的问题，我们生活中的很多问题归根到底都是分类问题。
文本分类就是根据文本内容将其分到合适的类别，它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索，机器翻译，自动文摘，信息过滤，邮件分类等任务。

2.文本分类综述

2.1 文本分类的发展历史

文本处理——基于 word2vec 和 CNN 的文本分类：综述 & 实践（一）_第1张图片

文本分类最早可以追溯到上世纪50年代，那时主要通过专家定义规则来进行文本分类
80年代出现了利用知识工程建立的专家系统
90年代开始借助于机器学习方法，通过人工特征工程和浅层分类模型来进行文本分类。
现在多采用词向量以及深度神经网络来进行文本分类。

2.2 文本分类的流程

文本处理——基于 word2vec 和 CNN 的文本分类：综述 & 实践（一）_第2张图片

2.3 文档表示

如何把文档表示为算法能够处理的结构化数据无疑是文本分类非常重要的环节。

根据文本表示过程所使用的数学方法不同，可以分为以下几类：

1.基于集合论模型
a 布尔模型 b. 基于模糊集的模型 c.扩展的布尔模型
2.基于代数论模型
a 向量空间模型(VSM) b 基于语义的文本表示
3.基于概率统计模型
a 回归模型 b.二元独立概率模型 c. 语言模型建模IR模型

接下来会详细介绍一下布尔模型、向量空间模型(VSM)、基于语义的文本表示。

2.3.1 布尔模型

布尔模型：查询和文档均表达为布尔表达式，其中文档表示成所有词的“与”关系，类似于传统的数据库检索，是精确匹配。

例如：

查询：2006 AND 世界杯 AND NOT 小组赛

文档1：2006年世界杯在德国举行

文档2：2006年世界杯小组赛已经结束

文本处理——基于 word2vec 和 CNN 的文本分类：综述 & 实践（一）_第3张图片

文档相似度计算：查询布尔表达式和所有文档的布尔表达式进行匹配，匹配成功得分为1，否则为0.

布尔模型的优缺点：

优点：简单、现代搜索引擎中依然包含了布尔模型的理念，例如谷歌、百度的高级搜索功能。

缺点：只能严格匹配，另外对于普通用户而言构建查询并不容易。

2.3.2 向量空间模型

向量空间模型：把对文本内容的处理简化为向量空间的向量计算。并且以空间上的相似度表达文档的相似度。

文本处理——基于 word2vec 和 CNN 的文本分类：综述 & 实践（一）_第4张图片

每篇文档由T1、T2、...、Tn一共N个特征项来表示，并且对应着Wi1、Wi2、... 、Win个权重。通过以上方式，每篇文章都表示成了一个N维的向量。

相似度计算：两个文档的相似程度可以用两向量的余弦夹角来进行度量，夹角越小证明相似度越高。

文本处理——基于 word2vec 和 CNN 的文本分类：综述 & 实践（一）_第5张图片

优缺点：

优点：1.简洁直观，可以应用到很多领域（文本分类、生物信息学等）2.支持部分匹配和近似匹配，结果可以排序 3. 检索效果不错

缺点：1.理论上支持不够，基于直觉的经验性公式。 2. 特征项之间相互独立的假设与实际不符。例如，VSM会假设小马哥和腾讯两个词语之间是相互独立的，这显然与实际不符。

2.3.3 基于语义的文本表示

基于语义的文本表示方法：为了解决VSM特征相互独立这一不符合实际的假设，有人提出了基于语义的文本表示方法，比如LDA主题模型，LSI/PLSI概率潜在语义索引等方法，一般认为这些方法得到的文本表示是文档的深层表示。而word embedding文本分布式表示方法则是深度学习方法的重要基础。

文本处理——基于 word2vec 和 CNN 的文本分类：综述 & 实践（一）_第6张图片

2.3.4 文本的分布式表示：词向量(word embedding)

文本的分布式表示(Distributed Representation)的基本思想是将每个词表示为n维稠密，连续的实数向量。

分布式表示的最大优点在于它具有非常强大的表征能力，比如n维向量每维k个值，可以表征k的n次方个概念。

事实上，不管是神经网络的影层，还是多个潜在变量的概率主题模型，都是在应用分布式表示。下图的神经网络语言模型（NNLM）采用的就是文本分布式表示。而词向量(word embedding)是训练该语言模型的一个附加产物，即图中的Matrix C。

文本处理——基于 word2vec 和 CNN 的文本分类：综述 & 实践（一）_第7张图片

神经网络语言模型（NNLM）

尽管词的分布式表示在86年就提出来了，但真正火起来是13年google发表的两篇word2vec的paper,并随之发布了简单的word2vec工具包，并在语义维度上得到了很好的验证，极大的推动了文本分析的进程。

文本的表示通过词向量的表示方法，把文本数据从高纬度稀疏的神经网络难处理的方式，变成了类似图像、语言的连续稠密数据，这样我们就可以把深度学习的算法迁移到文本领域了。下图是google的词向量文章中涉及的两个模型CBOW和Skip-gram。

文本处理——基于 word2vec 和 CNN 的文本分类：综述 & 实践（一）_第8张图片

CBOW：上下文来预测当前词

Skip-gram：当前词预测上下文

2.4 特征提取

特征提取对应着特征项的选择和特征权重的计算。

特征项的选择就是指根据某个评价指标独立的对原始特征项(词语)进行评分排序，从中选取得分最高的一些特征项，过滤掉其余的特征项。

特征权重的计算：主要思路是依据一个词的重要程度与类别内的词频成正比(代表性)，与所有类别中出现的次数成反比(区分度)。

当选用数学方法进行特征提取时，决定文本特征提取效果的最主要因素是评估函数的质量。常见的评估函数主要有如下方法：

2.4.1 TF-IDF

TF：词频，计算该词描述文档内容的能力
IDF：逆向文档频率，用于计算该词区分文档的的能力

思想：一个词的重要程度与在类别内的词频成正比，与所有类别出现的次数成反比。
评价：a.TF-IDF的精度并不是特别高。b.TF-IDF并没有体现出单词的位置信息。

2.4.2 词频(TF)

词频是一个词在文档中出现的次数。通过词频进行特征选择就是将词频小于某一阈值的词删除。

思想：出现频次低的词对过滤的影响也比较小。
评价：有时频次低的词汇含有更多有效的信息，因此不宜大幅删减词汇。

2.4.3 文档频次法(DF)

它指的是在整个数据集中，有多少个文本包含这个单词。

思想：计算每个特征的文档频次，并根据阈值去除文档频次特别低(没有代表性)和特别高的特征(没有区分度)
评价：简单、计算量小、速度快、时间复杂度和文本数量成线性关系，非常适合超大规模文本数据集的特征选择。

2.4.4 互信息方法(Mutual information)

互信息用于衡量某个词与类别之间的统计独立关系，在过滤问题中用于度量特征对于主题的区分度。

思想：在某个特定类别出现频率高，在其他类别出现频率低的词汇与该类的互信息较大。
评价：优点-不需要对特征词和类别之间关系的性质做任何假设。缺点-得分非常容易受词边缘概率的影响。实验结果表明互信息分类效果通常比较差。

2.4.5 期望交叉熵

交叉熵反映了文本类别的概率分布和在出现了某个特定词的条件下文本类别的概率分布之间的距离
思想：特征词t 的交叉熵越大，对文本类别分布的影响也越大。
评价：熵的特征选择不考虑单词未发生的情况，效果要优于信息增益。

2.4.6 信息增益

信息增益是信息论中的一个重要概念，它表示了某一个特征项的存在与否对类别预测的影响。

思想：某个特征项的信息增益值越大，贡献越大，对分类也越重要。
评价：信息增益表现出的分类性能偏低，因为信息增益考虑了文本特征未发生的情

2.4.7 卡方校验

它指的是在整个数据集中，有多少个文本包含这个单词。

思想：在指定类别文本中出现频率高的词条与在其他类别文本中出现频率比较高的词条，对判定文档是否属于该类别都是很有帮助的.
评价：卡方校验特征选择算法的准确率、分类效果受训练集影响较小，结果稳定。对存在类别交叉现象的文本进行分类时，性能优于其他类别的分类方法。

2.4.8 其他评估函数

二次信息熵(QEMI)
文本证据权(The weight of Evidence for Text)
优势率(Odds Ratio)
遗传算法(Genetic Algorithm)
主成分分析(PCA)
模拟退火算法(Simulating Anneal)
N-Gram算法

2.5 传统特征提取方法总结

传统的特征选择方法大多采用以上特征评估函数进行特征权重的计算。

但由于这些评估函数都是基于统计学原理的，因此一个缺点就是需要一个庞大的训练集，才能获得对分类起关键作用的特征，这需要消耗大量的人力和物力。

另外基于评估函数的特征提取方法建立在特征独立的假设基础上，但在实际中这个假设很难成立。

2.6 通过映射和变化来进行特征提取

特征选择也可以通过用映射或变换的方法把原始特征变换为较少的新特征
传统的特征提取降维方法，会损失部分文档信息，以DF为例，它会剔除低频词汇，而很多情况下这部分词汇可能包含较多信息，对于分类的重要性比较大。
如何解决传统特征提取方法的缺点：找到频率低词汇的相似高频词，例如：在介绍月亮的古诗中，玉兔和婵娟是低频词，我们可以用高频词月亮来代替，这无疑会提升分类系统对文本的理解深度。词向量能够有效的表示词语之间的相似度。

2.7 传统的文本分类方法。

基本上大部分机器学习方法都在文本分类领域有所应用。
例如：Naive Bayes，KNN，SVM，集合类方法，最大熵，神经网络等等。

2.8 深度学习文本分类方法

卷积神经网络(TextCNN)
循环神经网络(TextRNN)
TextRNN+Attention
TextRCNN(TextRNN+CNN)

本文采用的是卷积神经网络(TextCNN)

3.实践及结果

文本处理——基于 word2vec 和 CNN 的文本分类：综述 & 实践（一）_第10张图片

TextCNN网络概览图

3.1 实践步骤

根据警情详情首先训练词向量模型，vector.model
把警情详情文本进行分词，去除停用词，然后利用词向量来表示，每篇文档表示为250*200的矩阵(250:文档包含的词语个数，不够的以200维-5.0填充，200：每个词语用200维向量来表示)
把警情训练样本分割为train-set,validation set,test set。
利用设计好的卷积神经网络进行训练，并测试。

3.2 设计的卷积神经网络结构

文本处理——基于 word2vec 和 CNN 的文本分类：综述 & 实践（一）_第11张图片

3.3 实验结果

文本处理——基于 word2vec 和 CNN 的文本分类：综述 & 实践（一）_第12张图片

为了检验模型在真实数据上的分类准确率，我们又额外人工审核了1000条深圳地区的案情数据，相较于原来分类准确率的68%，提升到了现在的90%，说明我们的模型确实有效，相对于原来的模型有较大的提升。

文本处理——基于 word2vec 和 CNN 的文本分类：综述 & 实践（一）_第13张图片

红色：word2vec+CNN(max_pooling)在验证集上的准确率走势图
黄色和蓝色：word2vec+CNN(batch normalization & chunk max_pooling:2 chunk)在验证集上的准确率走势图

文本处理——基于 word2vec 和 CNN 的文本分类：综述 & 实践（一）_第14张图片

红色：word2vec+CNN(max_pooling) 在验证集上的Loss走势
黄色和蓝色：word2vec+CNN(batch normalization & chunk max_pooling:2 chunk)在验证集上的Loss走势

3.4 一些感悟

一定要理解你的数据
做好实验记录和分析
大量的数据样本比改善模型来的更有效，但代价也很高
阅读paper,理解原理，开阔视野，加强实践，敢于尝试，追求卓越

4. 一些参考文献

CSDN-基于tensorflow的CNN文本分类
CSDN-深度学习在文本分类中的应用
知乎-用深度学习解决大规模文本分类的问题-综述和实践
简书-利用tensorflow实现卷积神经网络做文本分类
CSDN-利用word-embedding自动生成语义相近句子
Github-Implementing a CNN for text classification in tensorflow
卷积神经网络在句子建模上的应用
CSDN-自然语言处理中CNN模型几种常见的Max-Pooling操作
WILDML-understanding convolutional neural network for NLP
博客园-文本深度表示模型--word2vec & doc2vec词向量模型
CSDN-用docsim/doc2vec/LSH比较两个文档之间的相似度
Deeplearning中文论坛-自然语言处理(三)之 word embedding
CSDN-DeepNLP的学习，词嵌入来龙去脉-深度学习
CSDN-自己动手写word2vec

相关阅读

关于 word2vec 我有话要说

CNN 模型压缩与加速算法综述

深度学习的异构硬件加速：TPU 特性与数据中心的 ASIC 应用（概述篇）

探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
机器学习19-Transformer和AlexNet思考坐吃山猪机器学习机器学习 transformer 人工智能
Transformer和AlexNet思考关于Transformer和AlexNet发展的一些思考1-核心知识点Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？AlexNet的主要核心思路是什么，为什么表现那么好？现在有什么比AlexNet更优秀的算法2-思路整理1-Word2Vec的作用是什么，和Transformer的诞生有什么关系吗？Word2Vec的作用Word2
shell编程之awk命令详解爱莉希雅&&& 运维服务器 linux git
1.awk教程1.1调用awkawk是一种强大的文本处理工具，在Linux系统中广泛应用于日志分析、数据处理等场景。调用awk主要有以下三种方式：1.1.1命令行方式基本语法为：awk(-Ffiled-separator)'commands'input-files其中，-F用于指定分隔符，默认情况下，awk以空格或制表符作为分隔符。commands是awk的命令，input-files则是要处理的
如何成为一名合格的 Prompt 工程师？ csdn_tom_168 AI 人工智能 ai prompt
以下为基于行业实践与最新趋势的Prompt工程师成长体系，结合技术能力、实战经验与职业发展三个维度构建的完整路径：一、核心能力模型构建1.基础认知能力领域知识融合掌握垂直领域知识图谱（如医疗术语、法律条文），通过RAG技术实现专业语料注入案例：设计医疗诊断Prompt时需理解ICD-11疾病分类标准模型原理理解熟悉主流模型特性（如GPT-4长文本处理优势、Claude3的逻辑推理强项），针对性设计
解锁阿里云文字识别OCR：开启智能文本处理新时代
阿里云OCR：技术先锋登场在数字化转型的汹涌浪潮中，海量文本数据如潮水般涌来，如何高效处理这些文本，成为众多企业和开发者面临的关键挑战。阿里云文字识别OCR，作为一款强大的人工智能技术，应运而生，宛如一位英勇的先锋，为我们开辟了一条高效处理文本的光明大道。它能够精准地将图片、扫描件中的文字转化为可编辑的文本，极大地提高了信息处理的效率和准确性，在众多领域中发挥着不可或缺的重要作用。探秘阿里云OCR
【深度学习:进阶篇】--4.2.词嵌入和NLP 西柚小萌新吖(●ˇ∀ˇ●) #深度学习深度学习自然语言处理人工智能
在RNN中词使用one_hot表示的问题假设有10000个词每个词的向量长度都为10000，整体大小太大没能表示出词与词之间的关系例如Apple与Orange会更近一些，Man与Woman会近一些，取任意两个向量计算内积都为0目录1.词嵌入1.1.特点1.3.word2vec介绍1.3.Word2Vec案例1.3.1.训练语料1.3.2.步骤1.3.3.代码2.测试代码1.词嵌入定义：指把一个维数
Lucence 和 Elasticsearch 的区别? 码出财富 elasticsearch 大数据搜索引擎
Lucene和Elasticsearch都是在信息检索和文本处理领域中广泛使用的工具，它们的主要区别如下：概念和定位Lucene：是一个基于Java的全文检索库，它提供了一套强大的底层索引和搜索功能的API。Lucene更像是一个工具包，开发人员可以基于它来构建自己的搜索应用程序，需要深入了解搜索的底层原理和算法，对开发者的技术要求较高。Elasticsearch：是一个基于Lucene的分布式搜
[AI笔记]-Word2Vec面试考点 Micheal超 AI笔记人工智能笔记 word2vec
✅一、基础认知类什么是Word2Vec？它的基本思想是什么？关键词：将词语转换为向量表示；捕捉语义关系；基于上下文预测Word2Vec与One-hot编码的区别？关键词：维度灾难(维度过高，存储空间大)、高稀疏性、语义表达能力(没有距离概念，无法计算相似度)、内积关系Word2Vec的两种模型是什么？它们有何区别？答案：Word2Vec的重要假设：文本中离得越近的词语相似度越高。主要有：CBOW（
python学智能算法（十五）|机器学习朴素贝叶斯方法进阶-CountVectorizer多文本处理西猫雷婶人工智能机器学习 python学习笔记机器学习 python 人工智能深度学习 scikit-learn
【1】引言前序学习进程中，已经学习CountVectorizer文本处理的简单技巧，先相关文章链接为：python学智能算法（十四）|机器学习朴素贝叶斯方法进阶-CountVectorizer文本处理简单测试-CSDN博客此次继续深入，研究多文本的综合处理。【2】代码测试首先相对于单文本测试，直接将文本改成多行文本：#引入必要的模块fromsklearn.feature_extraction.te
新手向:代码编写工具推荐 nightunderblackcat 基础环境配置 notepad++pycharm python intellij-idea java c++c#
开发者兵器谱：我的高效编码六大神器深度解析在软件开发的世界里，得心应手的工具如同侠客手中的利剑。经过多年的项目锤炼，我精心打磨了一套开发工具链，它们各有所长，助我在不同战场上游刃有余。下面就来深度剖析这六位“数字战友”：一、轻骑兵：Notepad++——闪电编辑与文本处理的王者核心定位：超轻量级文本/代码编辑器，启动如闪电，资源占用极低。看家本领：列编辑模式：Alt+鼠标拖拽或Alt+Shift+
使用Python加载SubRip (.srt)字幕文件进行文本处理 zbb258 python 开发语言
SubRip文件格式是一种非常基础的字幕文件格式，通常使用扩展名.srt。这种格式的字幕文件是由一组组格式化的纯文本行组成，每组之间由一个空行分隔。字幕通常从1开始按顺序编号。时间码格式为小时:分钟:秒,毫秒，且时间单位固定为两个零填充的数字，分数固定为三个零填充的数字(例如00:00:00,000)。由于该程序是在法国编写的，分数分隔符使用逗号。在这篇文章中，我们将演示如何使用Python库加载
【LLaMA 3实战】3、LLaMA 3长文本处理终极指南：从128K上下文到百万级文档实战无心水 LLaMA 3 模型实战专栏 LLaMA LLaMA 3 长文本处理 Meta AI大模型 CSDN技术干货 LLaMA 3 前沿模型实战
引言：长文本处理的技术跃迁当LLaMA3将上下文窗口扩展至128Ktokens（约8万字），长文本处理技术迎来了革命性突破。这不仅意味着模型能处理更复杂的文档，更开启了"全局认知"的新可能——从法律合同的全条款审查到代码仓库的跨文件重构，从金融报告的时序分析到医疗病历的全周期追踪。本文将系统拆解LLaMA3长文本能力的技术内核，提供工程级优化方案与实战技巧，助你突破长文本处理的算力瓶颈与应用边界。
Edge-TTS在广电系统中的语音合成技术的创新应用
Edge-TTS在广电系统中的语音合成技术的创新应用作者：本人是一名县级融媒体中心的工程师，多年来一直坚持学习、提升自己。喜欢Python编程、人工智能、网络安全等多领域的技术。摘要随着人工智能技术的快速发展，文字转语音(Text-to-Speech,TTS)系统已成为多种应用的重要组成部分，尤其在广播电视领域。本文介绍了一种基于Edge-TTS大模型的文字转语音工具，该工具结合了现代文本处理和语
信息检索简介——文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介2005年8月17日至9月3日在美国加利福尼亚州伯克莱纳举行了SIGIR国际会议（中文全称“计算机信息retrieval国际会议”），这是信息检索领域的顶级会议之一。该会议由ACM主办，主题涵盖了包括文本处理、搜索引擎、数据挖掘、机器学习、推荐系统等多个热门方向。此次会议是第一次将信息检索作为一个学科，并取得重大突破。本文试图对SIGIR进行一个完整的介绍，阐述
embedding模型有哪些？如何选择合适的embedding模型？行云流水AI笔记 embedding
embedding模型是一种将数据映射到低维空间的模型，常用于自然语言处理、推荐系统、图像识别等领域。以下是一些常见的embedding模型：Word2Vec：CBOW（ContinuousBag-of-Words）：通过上下文预测中心词。Skip-Gram：通过中心词预测上下文。GloVe（GlobalVectorsforWordRepresentation）：结合了词频统计和Word2Vec的
Shell 编程之正则表达式与文本处理器
目录一：正则表达式二：基础正则表达式1.基础正则表达式示例（1）查找特定字符（2）利用中括号“[]”来查找集合字符（3）查找行首“^”与行尾字符“$”（4）查找任意一个字符“.”与重复字符“*”（5）查找连续字符范围“{}”2.元字符总结3.扩展正则表达式二：文本处理器1.sed工具（1）输出符合条件的文本(p表示正常输出)（2）删除符合条件的文本(d)（3）替换符合条件的文本（4）迁移符合条件的
Python编程核心技能提升指南：从第2版到第3版月末刀戈
本文还有配套的精品资源，点击获取简介：《Python核心编程中文版》详细介绍了Python的基础和高级编程主题，适合不同层次的学习者。覆盖了正则表达式的使用、网络编程基础、互联网客户端协议应用、多线程编程技巧，以及GUI编程等核心模块。本书通过丰富的实例和详细的解析，帮助读者掌握文本处理、网络通信、并发任务处理和桌面应用开发的关键技能，为深入学习和专业实践提供全面支持。1.Python编程基础1.
增强版 Kimi：AI 驱动的智能创作平台，实现一站式内容生成（图片、PPT、PDF）！每天译点晓知识 AI人工智能专栏人工智能 PPT PDF一键生成 AI 图片生成
前言基于扣子Coze零代码平台，我们从零到一轻松实现了专属Bot机器人的搭建。AI大模型（LLM）、智能体（Agent）、知识库、向量数据库、知识图谱，RAG，AGI的不同形态愈发显现，如何将其动态组合，凸显其强大爆发力！！！接下来，我们介绍通过Kimi进行功能增强？使得我们的Bot具备一键生成图片、PPT编写、PDF制作......模型配置Kimi月之暗面旗下国产大模型，以独特的长文本处理能力，
微算法科技融合Grover算法与统一哈希函数的混合经典-量子算法技术，可在多领域高效提升文本处理效率 MicroTech2025 量子计算哈希算法
随着数据规模的不断扩大，尤其是在大数据和人工智能驱动的应用中，这些经典算法的线性复杂度逐渐成为瓶颈。面对数十亿级别的文本数据，线性时间的算法仍然难以满足实时性的要求。此外，经典算法在处理无序或随机文本时，性能往往会显著下降，进一步限制了其在特定场景中的适用性。量子计算是一种基于量子力学原理的新型计算范式。它与经典计算的根本区别在于量子叠加和量子纠缠的特性，使得量子计算能够并行处理大量状态，从而在某
Go语言单词自动换行库 - go-wordwrap 使用指南李梅为
Go语言单词自动换行库-go-wordwrap使用指南go-wordwrapAGo(golang)libraryforwrappingwordsinastring.项目地址:https://gitcode.com/gh_mirrors/go/go-wordwrap项目介绍go-wordwrap是一个用于Go语言的轻量级文本处理库，专注于将长字符串中的单词自动进行换行操作。该库非常适合在命令行界面（
自然语言处理基础知识入门(三) RNN，LSTM，GRU模型详解这个男人是小帅 NLP自然语言知识梳理入门 rnn 自然语言处理 lstm gru 人工智能神经网络
文章目录前言一、RNN模型1.1RNN的作用1.2RNN基本结构1.3双向循环神经网络1.4深层双向循环神经网络1.5RNN的梯度爆炸和消失问题二、LSTM模型2.1LSTM和RNN的结构对比2.2LSTM模型细节三、GRU模型总结前言在上一章节中，深入探讨了Word2vec模型的两种训练策略以及创新的优化方法，从而得到了优质的词嵌入表示。不仅如此，Word2vec作为一种语言模型，也具备根据上下
Word2Vec 原理是什么 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python word2vec 人工智能自然语言处理
Word2Vec原理是什么一、核心概念：从词语到向量的语义映射Word2Vec是2013年由Google提出的词嵌入（WordEmbedding）模型，其核心目标是将自然语言中的词语转换为稠密的连续向量（词向量），使向量空间中的距离能反映词语的语义相关性。本质：通过神经网络学习词语的分布式表示（DistributedRepresentation），打破传统one-hot编码“维度高、无语义关联”的
怎么对词编码进行可视化：Embedding Projector ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python embedding
怎么对词编码进行可视化：EmbeddingProjectorhttps://projector.tensorflow.org/EmbeddingProjector是用于可视化高维向量嵌入（如词向量、图像特征向量等）的工具，能帮你理解向量间的关系，下面以词向量分析和**简单自定义数据（比如特征向量）**为例，教你怎么用：一、词向量分析场景（以图中Word2Vec数据为例）1.加载数据与基础查看图里已
Linux文本处理三剑客实战指南：grep、sed、awk
目录三剑客简介与对比grep：文本搜索利器✂️sed：流编辑与批量替换awk：文本分析与格式化输出⚔️易混辨析与命令对比实战案例集锦高频面试问答️进阶技巧与最佳实践三剑客组合实战常见错误与排查建议1.三剑客简介与对比grep：按模式搜索文本，输出匹配行，适合快速查找和过滤。sed：流编辑器，支持查找、替换、插入、删除等批量文本处理。awk：强大的文本分析与报告生成工具，支持条件判断、格式化输出、统
Python可迭代对象探秘：实现Sentence类的序列协议之旅钢铁男儿流程Python python 开发语言
掌握Python迭代机制，从底层协议开启高效的文本处理能力在Python世界中，可迭代对象是所有序列处理的基础。今天我们将通过实现一个Sentence类，深入探索迭代背后的魔法。这个类能将文本分解为单词序列，并通过实现序列协议获得迭代能力。让我们开启这段技术之旅！序列协议版Sentence的实现importreimportreprlibRE_WORD=re.compile(r'\w+')#匹配单词
开源大模型革新：MiniMax-M1-80k，长文本处理利器！人工智能我来了人工智能 AI 人工智能
随着人工智能的飞速发展，各大科技公司竞相推出功能强大的AI模型来推动科技的进步。而今天，我们要为大家介绍的，是由硅基流动（SiliconCloud）推出的全球首个开源大规模混合注意力推理模型——MiniMax-M1-80k(456B)。该模型不仅在性能上可与当前流行的o3和Claude4Opus相媲美，还在长文本处理及复杂任务中展现出卓越的能力。MiniMax-M1-80k的核心功能与应用场景出色
C#打字游戏源代码深入解析与实战大奇鸭
本文还有配套的精品资源，点击获取简介：本项目提供C#打字游戏的源代码，这是一款基于C#语言的互动打字练习软件，旨在提升用户的打字速度和准确性。源代码深入展示了C#基础语法、WindowsForms应用程序设计、游戏逻辑、多线程编程、文本处理、用户反馈、异常处理、资源管理以及源代码结构和设计模式的应用。通过学习该项目，开发者可以掌握C#编程在游戏开发中的应用，并了解实现游戏互动功能的整个流程。1.C
Awk脚本的精细过滤技巧 t0_54manong 编程问题解决手册 mysql 数据库个人开发
在数据处理领域，Awk因其简洁而强大的文本处理能力而备受推崇。本文将通过一个具体的实例，详细探讨如何使用Awk脚本来进行精细的文本过滤。背景假设我们有一个PDB(ProteinDataBank)文件，其中包含了各种化学结构的信息。我们的目标是过滤掉文件中特定条件的行，同时在文件末尾添加一个“END”标签。具体来说，我们需要：排除以“HETATM”开头且包含“lig”或“lih”的行。排除以“END
2025全球AI工具全景图：从创作到编程，这些顶尖AI工具正在重塑世界（三）明似水 AI 人工智能
Kimi智能助手：超长文本处理专家Kimi由月之暗面科技（MoonshotAI）开发，是国内领先的AI对话助手，以其200万字超长文本处理能力闻名，适用于学术、法律、编程等多个领域。核心功能超长文本处理可一次性分析200万字文档（如论文、法律合同、市场报告），并精准提炼核心内容。支持PDF、Word、Excel、PPT、TXT等多种文件格式。智能问答与搜索结合实时联网搜索，提供最新资讯，并标注信息
如何在Python中实现文本相似度比较？ CodeJourney代码之旅 python学习 python 开发语言
在Python中实现文本相似度比较可以通过多种方法，每种方法都有其适用场景和优缺点。以下是一些常见的文本相似度比较方法：1.余弦相似度（CosineSimilarity）余弦相似度是通过计算两个向量之间夹角的余弦值来确定它们之间的相似度。在文本处理中，可以使用TF-IDF（TermFrequency-InverseDocumentFrequency）将文本转换为向量。fromsklearn.fea
java类加载顺序 3213213333332132 java
package com.demo; /** * @Description 类加载顺序 * @author FuJianyong * 2015-2-6上午11:21:37 */ public class ClassLoaderSequence { String s1 = "成员属性"; static String s2 = "
Hibernate与mybitas的比较 BlueSkator sql Hibernate 框架 ibatis orm
第一章 Hibernate与MyBatis Hibernate 是当前最流行的O/R mapping框架，它出身于sf.net，现在已经成为Jboss的一部分。 Mybatis 是另外一种优秀的O/R mapping框架。目前属于apache的一个子项目。 MyBatis 参考资料官网：http:
php多维数组排序以及实际工作中的应用 dcj3sjt126com PHP usort uasort
自定义排序函数返回false或负数意味着第一个参数应该排在第二个参数的前面, 正数或true反之, 0相等usort不保存键名uasort 键名会保存下来uksort 排序是对键名进行的 <!doctype html> <html lang="en"> <head> <meta charset="utf-8&q
DOM改变字体大小周华华前端
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
c3p0的配置 g21121 c3p0
c3p0是一个开源的JDBC连接池，它实现了数据源和JNDI绑定，支持JDBC3规范和JDBC2的标准扩展。c3p0的下载地址是：http://sourceforge.net/projects/c3p0/这里可以下载到c3p0最新版本。以在spring中配置dataSource为例：  <bean name="prope
Java获取工程路径的几种方法 510888780 java
第一种： File f = new File(this.getClass().getResource("/").getPath()); System.out.println(f); 结果: C:\Documents%20and%20Settings\Administrator\workspace\projectName\bin 获取当前类的所在工程路径; 如果不加“
在类Unix系统下实现SSH免密码登录服务器 Harry642 免密 ssh
1.客户机 (1)执行ssh-keygen -t rsa -C "[email protected]"生成公钥，xxx为自定义大email地址 (2)执行scp ~/.ssh/id_rsa.pub root@xxxxxxxxx:/tmp将公钥拷贝到服务器上，xxx为服务器地址 (3)执行cat
Java新手入门的30个基本概念一 aijuans java java 入门新手
在我们学习Java的过程中,掌握其中的基本概念对我们的学习无论是J2SE,J2EE,J2ME都是很重要的,J2SE是Java的基础,所以有必要对其中的基本概念做以归纳,以便大家在以后的学习过程中更好的理解java的精髓,在此我总结了30条基本的概念。　　Java概述:　　目前Java主要应用于中间件的开发(middleware)---处理客户机于服务器之间的通信技术,早期的实践证明,Java不适合
Memcached for windows 简单介绍 antlove java Web windows cache memcached
1. 安装memcached server a. 下载memcached-1.2.6-win32-bin.zip b. 解压缩，dos 窗口切换到 memcached.exe所在目录，运行memcached.exe -d install c.启动memcached Server,直接在dos窗口键入 net start "memcached Server&quo
数据库对象的视图和索引百合不是茶索引 oeacle数据库视图
视图视图是从一个表或视图导出的表，也可以是从多个表或视图导出的表。视图是一个虚表，数据库不对视图所对应的数据进行实际存储，只存储视图的定义，对视图的数据进行操作时,只能将字段定义为视图,不能将具体的数据定义为视图为什么oracle需要视图; &
Mockito(一) --入门篇 bijian1013 持续集成 mockito 单元测试
Mockito是一个针对Java的mocking框架，它与EasyMock和jMock很相似，但是通过在执行后校验什么已经被调用，它消除了对期望行为（expectations）的需要。其它的mocking库需要你在执行前记录期望行为（expectations），而这导致了丑陋的初始化代码。 &nb
精通Oracle10编程SQL(5)SQL函数 bijian1013 oracle 数据库 plsql
/* * SQL函数 */ --数字函数 --ABS(n):返回数字n的绝对值 declare v_abs number(6,2); begin v_abs:=abs(&no); dbms_output.put_line('绝对值：'||v_abs); end; --ACOS(n):返回数字n的反余弦值，输入值的范围是-1~1，输出值的单位为弧度
【Log4j一】Log4j总体介绍 bit1129 log4j
Log4j组件：Logger、Appender、Layout Log4j核心包含三个组件：logger、appender和layout。这三个组件协作提供日志功能：日志的输出目标日志的输出格式日志的输出级别(是否抑制日志的输出) logger继承特性 A logger is said to be an ancestor of anothe
Java IO笔记白糖_ java
public static void main(String[] args) throws IOException { //输入流 InputStream in = Test.class.getResourceAsStream("/test"); InputStreamReader isr = new InputStreamReader(in); Bu
Docker 监控 ronin47 docker监控
目前项目内部署了docker，于是涉及到关于监控的事情，参考一些经典实例以及一些自己的想法，总结一下思路。 1、关于监控的内容监控宿主机本身监控宿主机本身还是比较简单的，同其他服务器监控类似，对cpu、network、io、disk等做通用的检查，这里不再细说。额外的，因为是docker的
java-顺时针打印图形 bylijinnan java
一个画图程序要求打印出： 1.int i=5; 2.1 2 3 4 5 3.16 17 18 19 6 4.15 24 25 20 7 5.14 23 22 21 8 6.13 12 11 10 9 7. 8.int i=6 9.1 2 3 4 5 6 10.20 21 22 23 24 7 11.19
关于iReport汉化版强制使用英文的配置方法 Kai_Ge iReport汉化英文版
对于那些具有强迫症的工程师来说，软件汉化固然好用，但是汉化不完整却极为头疼，本方法针对iReport汉化不完整的情况，强制使用英文版，方法如下：在 iReport 安装路径下的 etc/ireport.conf 里增加红色部分启动参数，即可变为英文版。 # ${HOME} will be replaced by user home directory accordin
[并行计算]论宇宙的可计算性 comsci 并行计算
现在我们知道,一个涡旋系统具有并行计算能力.按照自然运动理论,这个系统也同时具有存储能力,同时具备计算和存储能力的系统,在某种条件下一般都会产生意识...... 那么,这种概念让我们推论出一个结论 &nb
用OpenGL实现无限循环的coverflow dai_lm android coverflow
网上找了很久，都是用Gallery实现的，效果不是很满意，结果发现这个用OpenGL实现的，稍微修改了一下源码，实现了无限循环功能源码地址： https://github.com/jackfengji/glcoverflow public class CoverFlowOpenGL extends GLSurfaceView implements GLSurfaceV
JAVA数据计算的几个解决方案1 datamachine java Hibernate 计算
老大丢过来的软件跑了10天，摸到点门道，正好跟以前攒的私房有关联，整理存档。 -----------------------------华丽的分割线------------------------------------- 数据计算层是指介于数据存储和应用程序之间，负责计算数据存储层的数据，并将计算结果返回应用程序的层次。J &nbs
简单的用户授权系统,利用给user表添加一个字段标识管理员的方式 dcj3sjt126com yii
怎么创建一个简单的(非 RBAC)用户授权系统通过查看论坛，我发现这是一个常见的问题，所以我决定写这篇文章。本文只包括授权系统.假设你已经知道怎么创建身份验证系统(登录)。数据库首先在 user 表创建一个新的字段(integer 类型),字段名 'accessLevel',它定义了用户的访问权限扩展 CWebUser 类在配置文件(一般为 protecte
未选之路 dcj3sjt126com 诗
作者:罗伯特*费罗斯特黄色的树林里分出两条路, 可惜我不能同时去涉足, 我在那路口久久伫立, 我向着一条路极目望去, 直到它消失在丛林深处. 但我却选了另外一条路, 它荒草萋萋,十分幽寂; 显得更诱人,更美丽, 虽然在这两条小路上, 都很少留下旅人的足迹. 那天清晨落叶满地, 两条路都未见脚印痕迹. 呵,留下一条路等改日再
Java处理15位身份证变18位蕃薯耀 18位身份证变15位 15位身份证变18位身份证转换
15位身份证变18位，18位身份证变15位 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--应用上下文配置【AppConfig】 hanqunfeng springmvc4
从spring3.0开始，Spring将JavaConfig整合到核心模块，普通的POJO只需要标注@Configuration注解，就可以成为spring配置类，并通过在方法上标注@Bean注解的方式注入bean。 Xml配置和Java类配置对比如下： applicationContext-AppConfig.xml <!-- 激活自动代理功能参看：
Android中webview跟JAVASCRIPT中的交互 jackyrong JavaScript html android 脚本
在android的应用程序中,可以直接调用webview中的javascript代码,而webview中的javascript代码,也可以去调用ANDROID应用程序(也就是JAVA部分的代码).下面举例说明之: 1 JAVASCRIPT脚本调用android程序要在webview中,调用addJavascriptInterface(OBJ,int
8个最佳Web开发资源推荐 lampcy 编程 Web 程序员
Web开发对程序员来说是一项较为复杂的工作，程序员需要快速地满足用户需求。如今很多的在线资源可以给程序员提供帮助，比如指导手册、在线课程和一些参考资料，而且这些资源基本都是免费和适合初学者的。无论你是需要选择一门新的编程语言，或是了解最新的标准，还是需要从其他地方找到一些灵感，我们这里为你整理了一些很好的Web开发资源，帮助你更成功地进行Web开发。这里列出10个最佳Web开发资源，它们都是受
架构师之面试------jdk的hashMap实现 nannan408 HashMap
1.前言。如题。 2.详述。 (1)hashMap算法就是数组链表。数组存放的元素是键值对。jdk通过移位算法（其实也就是简单的加乘算法），如下代码来生成数组下标(生成后indexFor一下就成下标了）。 static int hash(int h) { h ^= (h >>> 20) ^ (h >>>
html禁止清除input文本输入缓存 Rainbow702 html 缓存 input 输入框 change
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; <input type="text" autocomplete="off" n
POJO和JavaBean的区别和联系 tjmljw POJO java beans
POJO 和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Pure Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比 POJO复杂很多， Java Bean 是可复用的组件，对 Java Bean 并没有严格的规
java中单例的五种写法 liuxiaoling java 单例
/** * 单例模式的五种写法： * 1、懒汉 * 2、恶汉 * 3、静态内部类 * 4、枚举 * 5、双重校验锁 */ /** * 五、双重校验锁，在当前的内存模型中无效 */ class LockSingleton { private volatile static LockSingleton singleton; pri

文本处理——基于 word2vec 和 CNN 的文本分类 ：综述 & 实践（一）

导语