ForcedOverflow

Doc2vec论文阅读及源码理解

《Distributed representationss of Sentences and Documents》

Quoc Le and Tomas Mikolov, 2014

文章目录

《Distributed representationss of Sentences and Documents》

1. Distributed Memory Model of Paragraph Vectors (PV-DM).

1.1 模型架构图
1.2 相关代码阅读

2. Distributed Bag ofWords version of Paragraph Vector (PV-DBOW)

2.1 模型架构图
2.2 相关代码理解

3. Doc2vec的预测过程

3.1 预测原理
3.2 相关代码阅读

1. Distributed Memory Model of Paragraph Vectors (PV-DM).

1.1 模型架构图

有点类似word2vec中的CBOW模型，根据上下文预测当前词。

在PV-DM模型中，矩阵 $W$ 为词向量矩阵，矩阵 $D$ 为段落向量矩阵。

每一个段落被映射为矩阵 $D$ 中的一个唯一的向量，每个单词同样被映射为矩阵 $W$ 中的一个唯一向量。

paragraph向量和词向量通过取平均（average）或者连接（concatenate）的方法结合，预测目标词向量。

这里的context上下文是从当前段落中的滑动窗口内采样得到的固定长度的（代码中应该是通过reduced_window来实现采样的，见下面代码阅读），段落向量只在同一个paragraph中共享，词向量在paragraph之间共享。

1.2 相关代码阅读

gensim3.8.0中Doc2vec-DM模型相关代码阅读如下（如果之前学习过Word2vec的源码，那么对doc2vec源码的理解会更加容易一些）

通过average计算上下文向量

    def train_document_dm(model, doc_words, doctag_indexes, alpha, work=None, neu1=None,
                          learn_doctags=True, learn_words=True, learn_hidden=True,
                          word_vectors=None, word_locks=None, doctag_vectors=None, doctag_locks=None):
        """Update distributed memory model ("PV-DM") by training on a single document.
        使用一篇doc对PV-DM模型进行更新

        Called internally from :meth:`~gensim.models.doc2vec.Doc2Vec.train` and
        :meth:`~gensim.models.doc2vec.Doc2Vec.infer_vector`. This method implements
        the DM model with a projection (input) layer that is either the sum or mean of
        the context vectors, depending on the model's `dm_mean` configuration field.

        Notes
        -----
        This is the non-optimized, Python version. If you have cython installed, gensim
        will use the optimized version from :mod:`gensim.models.doc2vec_inner` instead.

        Parameters
        ----------
        model : :class:`~gensim.models.doc2vec.Doc2Vec`
            The model to train.
        doc_words : list of str
            The input document as a list of words to be used for training. Each word will be looked up in
            the model's vocabulary.
        doctag_indexes : list of int
            Indices into `doctag_vectors` used to obtain the tags of the document.
        alpha : float
            Learning rate.
        work : object
            UNUSED.
        neu1 : object
            UNUSED.
        learn_doctags : bool, optional
            Whether the tag vectors should be updated.
        learn_words : bool, optional
            Word vectors will be updated exactly as per Word2Vec skip-gram training only if **both**
            `learn_words` and `train_words` are set to True.
        learn_hidden : bool, optional
            Whether or not the weights of the hidden layer will be updated.
        word_vectors : iterable of list of float, optional
            Vector representations of each word in the model's vocabulary.
        word_locks : list of float, optional
            Lock factors for each word in the vocabulary.
        doctag_vectors : list of list of float, optional
            Vector representations of the tags. If None, these will be retrieved from the model.
        doctag_locks : list of float, optional
            The lock factors for each tag.

        Returns
        -------
        int
            Number of words in the input document that were actually used for training (they were found in the
            vocabulary and they were not discarded by negative sampling).

        """
        # 获取模型中的词向量
        if word_vectors is None:
            word_vectors = model.wv.syn0
        if word_locks is None:
            word_locks = model.syn0_lockf
        # 获取模型中的doc向量
        if doctag_vectors is None:
            doctag_vectors = model.docvecs.doctag_syn0
        if doctag_locks is None:
            doctag_locks = model.docvecs.doctag_syn0_lockf
        # 当前段落中词的词表信息（该词必须存在于词表中）
        word_vocabs = [model.wv.vocab[w] for w in doc_words if w in model.wv.vocab
                       and model.wv.vocab[w].sample_int > model.random.rand() * 2 ** 32]
        # 遍历每一个词
        for pos, word in enumerate(word_vocabs):
            # 对窗口进行reduce
            reduced_window = model.random.randint(model.window)  # `b` in the original doc2vec code
            # 计算窗口的起止位置
            start = max(0, pos - model.window + reduced_window)
            window_pos = enumerate(word_vocabs[start:(pos + model.window + 1 - reduced_window)], start)
            # 获取窗口内，除预测目标词之外，其他上下文词的id
            word2_indexes = [word2.index for pos2, word2 in window_pos if pos2 != pos]
            # 将词向量和doc向量求和成为上下文向量
            l1 = np_sum(word_vectors[word2_indexes], axis=0) + np_sum(doctag_vectors[doctag_indexes], axis=0)
            # 计算求和的向量总数
            count = len(word2_indexes) + len(doctag_indexes)
            # 这里是取向量求和之后的均值
            if model.cbow_mean and count > 1:
                l1 /= count
            # 计算更新的梯度，这里是复用了word2vec模型中train_cbow_pair的方法
            # 设置learn_vectors=False,表示不在train_cbow_pair方法内更新上下文向量
            # 而是获取到计算的梯度之后在本方法内更新
            neu1e = train_cbow_pair(model, word, word2_indexes, l1, alpha,
                                    learn_vectors=False, learn_hidden=learn_hidden)
            # 如果当前的方法不是取平均，说明计算的梯度是所有向量的共同梯度
            # 则要对梯度取平均
            if not model.cbow_mean and count > 1:
                neu1e /= count
            # 更新doc的向量
            if learn_doctags:
                for i in doctag_indexes:
                    doctag_vectors[i] += neu1e * doctag_locks[i]
            # 更新词向量
            if learn_words:
                for i in word2_indexes:
                    word_vectors[i] += neu1e * word_locks[i]

        return len(word_vocabs)

通过concatenate计算上下文向量

2. Distributed Bag ofWords version of Paragraph Vector (PV-DBOW)

2.1 模型架构图

有点类似word2vec中的Skip-gram模型，根据paragraph向量来预测窗口内的词向量。

2.2 相关代码理解

    def train_document_dbow(model, doc_words, doctag_indexes, alpha, work=None,
                            train_words=False, learn_doctags=True, learn_words=True, learn_hidden=True,
                            word_vectors=None, word_locks=None, doctag_vectors=None, doctag_locks=None):
        """Update distributed bag of words model ("PV-DBOW") by training on a single document.

        Called internally from :meth:`~gensim.models.doc2vec.Doc2Vec.train` and
        :meth:`~gensim.models.doc2vec.Doc2Vec.infer_vector`.

        Notes
        -----
        This is the non-optimized, Python version. If you have cython installed, gensim
        will use the optimized version from :mod:`gensim.models.doc2vec_inner` instead.

        Parameters
        ----------
        model : :class:`~gensim.models.doc2vec.Doc2Vec`
            The model to train.
        doc_words : list of str
            The input document as a list of words to be used for training. Each word will be looked up in
            the model's vocabulary.
        doctag_indexes : list of int
            Indices into `doctag_vectors` used to obtain the tags of the document.
        alpha : float
            Learning rate.
        work : np.ndarray
            Private working memory for each worker.
        train_words : bool, optional
            Word vectors will be updated exactly as per Word2Vec skip-gram training only if **both**
            `learn_words` and `train_words` are set to True.
        learn_doctags : bool, optional
            Whether the tag vectors should be updated.
        learn_words : bool, optional
            Word vectors will be updated exactly as per Word2Vec skip-gram training only if **both**
            `learn_words` and `train_words` are set to True.
        learn_hidden : bool, optional
            Whether or not the weights of the hidden layer will be updated.
        word_vectors : object, optional
            UNUSED.
        word_locks : object, optional
            UNUSED.
        doctag_vectors : list of list of float, optional
            Vector representations of the tags. If None, these will be retrieved from the model.
        doctag_locks : list of float, optional
            The lock factors for each tag.

        Returns
        -------
        int
            Number of words in the input document.

        """
        # doctag_vectors是否为空的判断，是为了区分当前是训练模式还是预测模式
        # 为空表示训练过程，从模型中直接读入
        # 不为空是预测过程，会预先生成一个随机向量传入
        if doctag_vectors is None:
            doctag_vectors = model.docvecs.doctag_syn0
        if doctag_locks is None:
            doctag_locks = model.docvecs.doctag_syn0_lockf
        # 这里复用的是word2vec中train_batch_sg方法，原理是通过当前词来预测上下文
        # 但是对于Docvec模型来说，当前词就是当前的paragraph vector，上下文就是段落中的每一个词
        # 因此context_vectors指定为当前的paragraph vector
        if train_words and learn_words:
            train_batch_sg(model, [doc_words], alpha, work)
        for doctag_index in doctag_indexes:
            for word in doc_words:
                train_sg_pair(
                    model, word, doctag_index, alpha, learn_vectors=learn_doctags, learn_hidden=learn_hidden,
                    context_vectors=doctag_vectors, context_locks=doctag_locks
                )

        return len(doc_words)

3. Doc2vec的预测过程

3.1 预测原理

先给新的doc分配一个随机的向量，根据指定的模型，使用固定词向量和隐藏单元的向量不更新，

3.2 相关代码阅读

    def infer_vector(self, doc_words, alpha=None, min_alpha=None, epochs=None, steps=None):
        """Infer a vector for given post-bulk training document.

        Notes
        -----
        Subsequent calls to this function may infer different representations for the same document.
        For a more stable representation, increase the number of steps to assert a stricket convergence.

        Parameters
        ----------
        doc_words : list of str
            A document for which the vector representation will be inferred.
            预测的doc，是一个string类型的list
        alpha : float, optional
            The initial learning rate. If unspecified, value from model initialization will be reused.
        min_alpha : float, optional
            Learning rate will linearly drop to `min_alpha` over all inference epochs. If unspecified,
            value from model initialization will be reused.
        epochs : int, optional
            Number of times to train the new document. Larger values take more time, but may improve
            quality and run-to-run stability of inferred vectors. If unspecified, the `epochs` value
            from model initialization will be reused.
        steps : int, optional, deprecated
            Previous name for `epochs`, still available for now for backward compatibility: if
            `epochs` is unspecified but `steps` is, the `steps` value will be used.

        Returns
        -------
        np.ndarray
            The inferred paragraph vector for the new document.

        """
        if isinstance(doc_words, string_types):
            raise TypeError("Parameter doc_words of infer_vector() must be a list of strings (not a single string).")

        alpha = alpha or self.alpha
        min_alpha = min_alpha or self.min_alpha
        epochs = epochs or steps or self.epochs
        # 给一个新的doc生成一个随机的向量
        doctag_vectors, doctag_locks = self.trainables.get_doctag_trainables(doc_words, self.docvecs.vector_size)
        doctag_indexes = [0]
        work = zeros(self.trainables.layer1_size, dtype=REAL)
        if not self.sg:
            neu1 = matutils.zeros_aligned(self.trainables.layer1_size, dtype=REAL)

        alpha_delta = (alpha - min_alpha) / max(epochs - 1, 1)
        # 根据参数选择对应的模型：DM/DM-CONCAT/DBOW
        for i in range(epochs):
            # 预测的过程中，固定词向量和隐藏单元不更新，只更新doc的向量：doctag_vectors
            if self.sg:
                train_document_dbow(
                    self, doc_words, doctag_indexes, alpha, work,
                    learn_words=False, learn_hidden=False, doctag_vectors=doctag_vectors, doctag_locks=doctag_locks
                )
            # neu1参数目前是没有用的：unused
            elif self.dm_concat:
                train_document_dm_concat(
                    self, doc_words, doctag_indexes, alpha, work, neu1,
                    learn_words=False, learn_hidden=False, doctag_vectors=doctag_vectors, doctag_locks=doctag_locks
                )
            else:
                train_document_dm(
                    self, doc_words, doctag_indexes, alpha, work, neu1,
                    learn_words=False, learn_hidden=False, doctag_vectors=doctag_vectors, doctag_locks=doctag_locks
                )
            alpha -= alpha_delta
        # 返回更新完成的paragraph vector
        return doctag_vectors[0]

你可能感兴趣的:(word2vec)

预训练语言模型的前世今生 - 从Word Embedding到BERT 脚步的影子语言模型 embedding bert
目录一、预训练1.1图像领域的预训练1.2预训练的思想二、语言模型2.1统计语言模型2.2神经网络语言模型三、词向量3.1独热（Onehot）编码3.2WordEmbedding四、Word2Vec模型五、自然语言处理的预训练模型六、RNN和LSTM6.1RNN6.2RNN的梯度消失问题6.3LSTM6.4LSTM解决RNN的梯度消失问题七、ELMo模型7.1ELMo的预训练7.2ELMo的Fea
【大模型实战篇】大模型周边NLP技术回顾及预训练模型数据预处理过程解析（预告）源泉的小广场大模型自然语言处理人工智能大模型 LLM 预训练模型数据预处理高质量数据
1.背景介绍进入到大模型时代，似乎宣告了与过去自然语言处理技术的结束，但其实这两者并不矛盾。大模型时代，原有的自然语言处理技术，依然可以在大模型的诸多场景中应用，特别是对数据的预处理阶段。本篇主要关注TextCNN、FastText和Word2Vec等低成本的自然语言处理技术，如何在大模型时代发挥其余热。今天先抛出这个主题预告，接下来会花些时间，逐步细化分析这些周边技术的算法原理、数学分析以及大模
自然语言处理系列五十一》文本分类算法》Python快速文本分类器FastText 陈敬雷-充电了么-CEO兼CTO 算法人工智能大数据自然语言处理分类 python chatgpt 人工智能 ai 机器学习
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理FastText和Word2vec的区别FastText代码实战总结自然语言处理系列五十一Python开源快速文本分类器FastText》算法原理自然语言处理(N
每天一个数据分析题（五百二十）- 词嵌入模型跟着紫枫学姐学CDA 数据分析题库数据分析数据挖掘
关于词嵌入模型，以下说法错误的是？A.GloVe模型属于词嵌入模型B.Word2Vec模型属于词嵌入模型C.词袋模型属于词嵌入模型D.词嵌入模型基本假设是出现在相似的上下文中的词含义相似数据分析认证考试介绍：点击进入数据分析考试大纲下载题目来源于CDA模拟题库点击此处获取答案
CnOpenData公共数据专区上新 | 中文金融情感词典 CnOpenData 数据列表深度学习 python 自然语言处理
中文金融情感词典一、数据简介姜富伟教授及其研究团队于2021年第4期《经济学(季刊)》发表了《媒体文本情绪与股票回报预测》，并在文中介绍了一项极富创造力的金融学科研究成果——中文金融情感词典。 “本文在LoughranandMacDonald（2011）词典的基础上通过人工筛选和word2vec算法扩充,构建了一个更新更全面的中文金融情感词典。我们使用该情感词典计算我国财经媒体文本情绪指标,
23 注意力机制—BERT Unknown To Known 动手学习深度学习 bert 人工智能深度学习
目录BERT预训练NLP里的迁移学习BERTBERT动机BERT预训练NLP里的迁移学习在计算机视觉中比较流行，将ImageNet或者更大的数据集上预训练好的模型应用到其他任务中，比如小数据的预测、图片分类或者是目标检测使用预训练好的模型（例如word2vec或语言模型）来抽取词、句子的特征做迁移学习的时候，一般不更新预训练好的模型在更换任务之后，还是需要构建新的网络来抓取新任务需要的信息使用预训
基于seq2seq的SKchat语言模型 eric-sjq 语言模型人工智能自然语言处理
SKchat语言模型是由小思框架开放的中文语言模型，基于seq2seq以及word2vec。v3模型的对话功能界面~在代码方面，我们优化了seq2seq算法，降低了内存的占用，并构建了新的模型。whileTrue:model.fit([x_encoder,x_decoder],y,batchsize,1,verbose=1,)"""解码模型"""decoder_h_input=Input(shap
【自然语言处理】：实验1布置，Word2Vec&TranE的实现 X.AI666 自然语言处理人工智能机器学习自然语言处理
清华大学驭风计划因为篇幅原因实验答案分开上传，答案链接http://t.csdnimg.cn/5cyMG如果需要详细的实验报告或者代码可以私聊博主有任何疑问或者问题，也欢迎私信博主，大家可以相互讨论交流哟~~实验1：Word2Vec&TranE的实现案例简介Word2Vec是词嵌入的经典模型，它通过词之间的上下文信息来建模词的相似度。TransE是知识表示学习领域的经典模型，它借鉴了Word2Ve
Task5 基于深度学习的文本分类2 listentorain_W
Task5基于深度学习的文本分类2在上一章节，我们通过FastText快速实现了基于深度学习的文本分类模型，但是这个模型并不是最优的。在本章我们将继续深入。基于深度学习的文本分类本章将继续学习基于深度学习的文本分类。学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法Part3词向量本节通过word2vec学习
使用word2vec+tensorflow自然语言处理NLP 取名真难. 机器学习自然语言处理 word2vec tensorflow 机器学习深度学习神经网络
目录介绍：搭建上下文或预测目标词来学习词向量建模1：建模2：预测：介绍：Word2Vec是一种用于将文本转换为向量表示的技术。它是由谷歌团队于2013年提出的一种神经网络模型。Word2Vec可以将单词表示为高维空间中的向量，使得具有相似含义的单词在向量空间中距离较近。这种向量表示可以用于各种自然语言处理任务，如语义相似度计算、文本分类和命名实体识别等。Word2Vec的核心思想是通过预测上下文或
使用Word Embedding+Keras进行自然语言处理NLP 取名真难. 机器学习 keras python 深度学习神经网络人工智能自然语言处理
目录介绍：one-hot：pad_sequences:建模:介绍：WordEmbedding是一种将单词表示为低维稠密向量的技术。它通过学习单词在文本中的上下文关系，将其映射到一个连续的向量空间中。在这个向量空间中，相似的单词在空间中的距离也比较接近，具有相似含义的单词在空间中的方向也比较一致。WordEmbedding可以通过各种方法来实现，包括基于统计的方法（如Word2Vec和GloVe）和
知识图谱与语言预训练：深度融合的智能问答时代 cooldream2009 AI技术 NLP知识知识图谱知识图谱人工智能预训练
目录前言1直接使用预训练模型vs.知识图谱与预训练相结合1.1直接使用预训练模型1.2构建知识图谱后与预训练相结合2预训练语言模型的发展历程2.1Word2Vec和GloVe2.2ELMo2.3BERT3知识图谱对预训练的助力3.1弥补低频实体信息的不足3.2提供领域知识的支持4典型知识驱动的语言预训练模型4.1ERNIE4.2KnowBERT4.3WKLM4.4K-Adapter结语前言在自然语
word2vec工具学习笔记适说心语
今天是第一次听说这个工具，本来是为了解决非目标客户的问题，但是要从头了解这个内容，所以边找资料边记录一下！一、简介Word2vec，是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。网络以词表现，并且需猜测相邻位置的输入词，在word2vec中词袋模型假设下，词的顺序是不重要的。训练完成之后，word2vec模型可用来映射每个词到一个向量，可用来表示
图解word2vec，入门自然语言处理必看学术Fun
(关注'AI新视野'公众号，发送‘资料’二字，免费获取50G人工智能视频教程！)图解word2vec精翻版，加入了自己的理解，和稍微有点出入，http://jalammar.github.io/illustrated-word2vec/image词嵌入（embedding）是机器学习中最惊人的创造，如果你有使用过Siri、GoogleAssistant、Alexa、Google翻译，输入法打字预测
Tensorflow 实现 Word2Vec 王小鸟_wpcool
今天学习了一下《Tensorflow实战》这本书中第7章内容，利用tensorflow实现word2vec。其实书中内容就是Tensorflow教程中的例子，现在挣钱真容易。附链接https://github.com/tensorflow/tensorflow/blob/r0.12/tensorflow/examples/tutorials/word2vec/word2vec_basic.py代码
自然语言处理N天-Day0503句向量模型 Doc2Vec 我的昵称违规了
新建MicrosoftPowerPoint演示文稿(2).jpg说明：本文依据《中文自然语言处理入门实战》完成。目前网上有不少转载的课程，我是从GitChat上购买。第五课句向量模型Doc2VecDoc2VecDoc2Vec模型是在Word2Vec模型上提出的计算长文本向量的工具。Doc2vec接收一个由LabeledSentence对象组成的迭代器作为其构造函数的输入参数。其中，LabeledS
揭秘Word2Vec：探索语言的魔法世界洞深视界 word2vec easyui 人工智能机器学习深度学习 git 自然语言处理
欢迎来到Word2Vec的世界！在自然语言处理的舞台上，Word2Vec犹如一位神秘的魔术师，带领我们探索语言的魔法世界。今天，让我们一同踏上这段充满惊喜的旅程，揭秘Word2Vec的神秘面纱。背景：语言的奥秘语言是人类沟通交流的重要工具，但其中隐藏着许多奥秘。在过去，计算机很难理解和处理语言，直到Word2Vec的出现，才让计算机开始懂得了语言的奥秘。Word2Vec的基本原理Word2Vec是
gensim模型（1）——Word2Vec qqqh777
Word2Vec模型介绍Gensim的Word2Vec模型且展示其在LeeEvaluationCorpus上的用法。importlogginglogging.basicConfig(format='%(asctims)s:%(levelname)s:%(message)s',level=logging.INFO)如果你错过了提示，Word2Vec是基于神经网络的广泛使用的算法，通常被称为"深度学习
刘知远LLM——神经网络基础李日音神经网络人工智能深度学习
文章目录神经网络基础基本构成如何训练？Word2Vec例子负采样：循环神经网络RNN门控计算单元GRU长短时记忆网络LSTM遗忘门输入门输出门双向RNN卷积神经网络CNNpytorch实战神经网络基础基本构成全称：人工神经网络。启发于生物神经细胞单个神经元单层神经网络前向计算激活函数的作用：没有激活函数的话，多层神经网络就会退化为单层输出层线性输出：回归问题sigmoid：二分类softmax：多
Gensim详细介绍和使用：一个Python文本建模库 Bigcrab__ Python 库介绍和使用 python
Gensim=“GenerateSimilar”一、安装二、文本预处理2.1中文语料处理2.2英文语料处理2.3BOW语料建立三、模型使用3.1word2vecThealgorithmsinGensim,suchasWord2Vec,FastText,LatentSemanticIndexing(LSI,LSA,LsiModel),LatentDirichletAllocation(LDA,Lda
【爬虫实战】python文本分析库——Gensim 认真写程序的强哥爬虫 python Python爬虫 Python学习 Python文本分析 Gensim 开发语言
文章目录01、引言02、主题分析以及文本相似性分析03、关键词提取04、Word2Vec嵌入（词嵌入WordEmbeddings）05、FastText嵌入（子词嵌入SubwordEmbeddings）06、文档向量化01、引言Gensim是一个用于自然语言处理和文本分析的Python库，提供了许多强大的功能，包括文档的相似度计算、关键词提取和文档的主题分析，要开始使用Gensim，您需要安装它，
探索NLP中的N-grams：理解，应用与优化冷冻工厂程序人生
简介n-gram[1]是文本文档中n个连续项目的集合，其中可能包括单词、数字、符号和标点符号。N-gram模型在许多与单词序列相关的文本分析应用中非常有用，例如情感分析、文本分类和文本生成。N-gram建模是用于将文本从非结构化格式转换为结构化格式的众多技术之一。n-gram的替代方法是词嵌入技术，例如word2vec。N-grams广泛用于文本挖掘和自然语言处理任务。示例通过计算每个唯一的n元语
智慧海洋建设-Task3 特征工程 1598903c9dd7
关于本次智慧海洋特征构建分为时间类特征、分箱特征（x、y、v）、DataFrame特征（计数特征和偏移量特征）、统计特征（聚合）、embedding特征（word2vec、NMF）这几方面进行考虑的。分箱特征的重要性：一般在建立分类模型时，需要对连续变量离散化，特征离散化后，模型会更稳定，降低了模型过拟合的风险。离散特征的增加和减少都很容易，易于模型的快速迭代；稀疏向量内积乘法运算速度快，计算结果
Vision Transformer及其变体（自用） ST-Naive transformer 深度学习人工智能
0回顾Transformer0.1encoder在正式开始ViT之前，先来复习一遍transformer的核心机制相关的文章有很多，我选了一遍最通俗易懂的放在这：Transformer通俗笔记：从Word2Vec、Seq2Seq逐步理解到GPT、BERT所谓注意力机制，就是Attention=∑similarity(Query,Key)*Value，Q可以理解为单词在当前的表示，K为单词的标签，V
学习知识记录想努力的人面试算法 cnn 深度学习 tensorflow
1、nnlm神经网络语言模型：ANeuralProbabilisticLanguageModel------阅读笔记_hx14301009的博客-CSDN博客2、Word2vec的skipgram模型输入是中心词和背景词NLP之---word2vec算法skip-gram原理详解_Ricky-CSDN博客_skipgram层级的softmax：本质是将N分类问题转换成logN（底数为2）次的二分类
NLP_词的向量表示Word2Vec 和 Embedding you_are_my_sunshine* NLP 自然语言处理 word2vec embedding
文章目录词向量Word2Vec：CBOW模型和Skip-Gram模型通过nn.Embedding来实现词嵌入Word2Vec小结词向量下面这张图就形象地呈现了词向量的内涵:把词转化为向量，从而捕捉词与词之间的语义和句法关系，使得具有相似含义或相关性的词语在向量空间中距离较近。我们把语料库中的词和某些上下文信息，都“嵌入”了向量表示中。将词映射到向量空间时，会将这个词和它周围的一些词语一起学习，这就
利用Bert模型进行命名实体识别刘单纯
之前两天也写了word2vec和Transformer，其实都是在为今天的内容做铺垫。最近正好使用bert做了命名实体识别项目，借这个契机分享出来，希望能帮到有需要的人。自然语言的表示之所以之前自然语言处理的发展没有达到CV领域，很大一部分原因是很难把抽象的语言用准确的数学方式表示。one-hot只能说对词进行编码，毫无“相似度”的概念，例如【川老师】和【特朗普】的距离与【川老师】和【苍老师】的距
【NLP】 Word2Vec模型 & Doc2Vec模型 Sonhhxg_柒自然语言处理（NLP）自然语言处理 word2vec 机器学习
大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流个人主页－Sonhhxg_柒的博客_CSDN博客欢迎各位→点赞+收藏⭐️+留言系列专栏-机器学习【ML】自然语言处理【NLP】深度学习【DL】foreword✔说明⇢本人讲解主要包括Python、机器学习（ML）、深度学习（DL）、自然语言处理（NLP）等内容。如果你对这个系列感兴趣的话，可以关注订阅哟Word
大模型｜基础_word2vec 晓源Galois word2vec 人工智能自然语言处理
文章目录Word2Vec词袋模型CBOWContinuousBag-of-WordsContinuousSkip-Gram存在的问题解决方案其他技巧Word2Vec将词转化为向量后，会发现king和queen的差别与man和woman的差别是类似的，而在几何空间上，这样的差别将会以平行的关系进行表达。会使用滑动窗口的机制。滑动窗口内会有一个target目标词（上图蓝色部分），滑动窗口其他部分就是c
自然语言处理中的深度学习 qiufeng1ye
教材选用《动手学深度学习》，李沐等著；词嵌⼊（word2vec）⾃然语⾔是⼀套⽤来表达含义的复杂系统。把词映射为实数域向量的技术也叫词嵌⼊（wordembedding）。近年来，词嵌⼊已逐渐成为⾃然语⾔处理的基础知识。Word2vec⼯具包含了两个模型：跳字模型（skip-gram）和连续词袋模型（continuousbagofwords，简称CBOW）。跳字模型假设基于中⼼词来⽣成背景词，连续词
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他