算法小白，嘤嘤嘤

NNLM语言模型（原理、反向传播的推导以及python实现）

-1、写这篇博客的目的

因为研究生选择了自然语言处理方向(NLP)，之前对此没有过接触，所以在大四阶段准备对NLP方向的一些算法做一些了解。在阅读《文本数据挖掘》(宗成庆、夏睿、张家俊)这本书的时，发现上面介绍了文本数据挖掘方向的很多算法，但是并未具体的展开，进行详细的推导。

由此，我萌生了将自己学习这本书的过程中对算法的理解、看法、问题以及源代码进行分享的想法。当然，如果我写的有什么问题或者有需要和我讨论的都可以私信联系我！！！

0、引言

如何将文本用数学的方法表达出来，是文本挖掘的基础。我们很容易会想到，在文本的向量空间中可以很容易的实现本文的聚类、文档的聚类、近义词的查找、等等。对于一段话来说，将其进行数学表达的最有效的方法，应该是将其中的每一个词都映射到一个词向量空间当中————即将本文视作一个词的集合。但是，如何构建这个向量空间是很困难的一件事情。比如说，我爱你和你爱我这两句话，他们当中的每个词都是一样的，但是词序的不同改变了整句话的意义。不难看出，构建词向量空间时不仅要考虑到每个词的词义，还要考虑到每个词在句子中的结构。

这种掌握词的上下文信息的词语表达方法就是次分布表示。由这个思想，我们需要建立一个模型去得到词向量空间。这篇博客就主要介绍一个比较简单的词分布表示方法————神经网络语言模型(NNLM)。

1、NNLM(神经网络语言模型)

2003年Bengio等人提出了神经网络语言模型。他的基本思想是已知前面n个词的情况下预测词典中所有次成为第n+1个词的概率，并以此为目标进行训练。

这里提到一个词典(词袋)的概念，他就是包含这篇文章中可能出现的所有词。读者可能就会想，我怎么才能得到一个词袋呢，这里的解决方法就是将你自己要训练和测试的数据中出现的所有词做成一个词典(当然也可以将一个庞大的预料库中的的所有词预先保存下来作为词典)。

如下图所示，NNLM模型每次将n个词组合成一个向量输入到模型当中(这个非常重要)，这个模型的主体部分和BP神经网络大致相当，不同的是它使用的激活函数是tanh，输出采用了softmax函数进行归一化，并且目标函数是让第n+1个词对应的概率最大。

NNLM模型的具体流程如下:

1、 $\left[ \begin{array}{c|c|c|c} V\left[ w_{i}\right] & V\left[ v_{i+1}\right] & \cdots & V\left[ v_{i+n-1}\right] \end{array} \right]$

2、 $h={tanh(U*x+b^1)}$

3、 $y=W*h+b^2$

4、 $p=\frac{\exp y}{\sum_{i=1}^n{\exp y_i}}$

其中，公式1中的V表示向量空间，V[w_i]表示词w_i在向量空间中的表示，windows表示窗口数，整个公式1表示的是将windows个词向量拼接成一个列向量；公式4中的n表示词典中词的个数；U、 $b^1$ 、W和 $b^2$ 都是参数，需要随机初始化， $b^1$ 和 $b^2$ 都是向量；读者可能会疑惑，V是从哪来的，这里说明一下，V一开始是我们按照词典的规模随机生成的，后续的反向传播过程中会对V空间进行更新。

上述流程是对于一个窗口所截取的n+1个词最为输入得到的结果。但是整个NNML模型是对所有的文本进行训练，也就是说，窗口会从第一个词汇开始，往后滚动，每一次都会有一个输出p。而且之前也说过，该模型是以预测的第Window+1个词的概率最大为目的进行训练的。为了表示方便，这里结合窗口的第一个词的序号i表示该窗口下预测下一个词为 $w_{i+window}$ 的概率：
$P(w_i)=p_{wi}\lbrack wi+window\rbrack$

$p_{w_i}\lbrack wi+window\rbrack=\frac{\exp y_{w_{i+window}}}{\sum_{i=1}^n{\exp y_i}}$

以预测的下一个字母的概率为目标，建立误差函数如下：

$e=\sum_{i}^{M}{\log{P(w_i)}}$

其中，M表示所可能的窗口数。该神经网络模型优化的目标是使e的值达到最大。

2、反向传播的推导

前向传播过程中涉及一些需要更新的参数，例如W和b等；此外，向量空间V作为变量也是需要迭代更新的。通过最大似然的方法对参数进行更新，实质上就是求各个变量的偏导，在偏导方向上进行更新，我个人感觉和GD(最小二乘)差不多。

这里介绍一下对向量和矩阵求偏导

1、一个常数对一个向量求偏导

令 $x$ 为常数, $Y=\left( y_1 , y_2 , \cdots , y_n \right)$ 为一个n维列向量

常数 $x$ 对向量 $Y$ 求导其实就是对 $Y$ 中各元素求导，组合得到一个列向量向量，即：

$\frac{\partial x}{\partial Y}=\left( \frac{\partial x }{ \partial y_1 } \cdots \frac{\partial x }{ \partial y_n } \right )'$

2、一个常数关于矩阵求导

设 $Y=\left(\begin{aligned} y_{11} , y_{12} , \cdots , y_{1n} \\ \cdots \\ y_{n1} , y_{n2} , \cdots , y_{nn} \end{aligned} \right) $ 那么， $e $ 关于 $Y $ 求导为一个矩阵

$\frac{\partial x}{\partial Y}=\left(\begin{aligned} \frac{\partial x }{ \partial y_{11} } , \frac{\partial x }{ \partial y_{12} } , \cdots , \frac{\partial x }{ \partial y_{1n} } \\ \cdots \\ \frac{\partial x }{ \partial y_{n1} } , \frac{\partial x }{ \partial y_{n2} } , \cdots , \frac{\partial x }{ \partial y_{nn} } \end{aligned} \right)$

。所以，归根结底，所谓对矩阵或者向量求偏导，可以看是对函数求导，矩阵或者向量中的元素就是函数的变量；如果函数的输出是多维的，那么对应求导的结果也是多维且求导结果对应的就是各个维度函数输出的求导结果。

3、tanh函数

$tanh{x}$ 是双曲正切函数，定义如下：
$tanh(x)=\frac{\sinh{x}}{\cosh{x}}=\frac{\exp{x}-\exp{-x}}{\exp{x}+\exp{-x}}$
对双曲正切函数进行求导可得
$\tanh(x)=\frac{\left( \exp{x}+\exp{-x} \right)^2 - \left( \exp{x}-\exp{-x} \right)^2 }{\left( \exp{x}+\exp{-x} \right)^2}$
即：
$\tanh(x)=\frac{\cosh^2(x) - \sinh^2(x)}{\cosh^2(x)}=1-\tanh^2(x)$

首先对 $e$ 关于 $y$ 求导，这个过程比较简单，就是把 $e$ 用 $y$ 中元素表示，并对 $y$ 中各个元素求导：

$\frac{\partial e}{ \partial y_i } = \left\{ \begin{aligned} 1 - p_i , w_{i+window}==i \\ -p_i , else \end{aligned} \right.$
再关于 $y$ 对 $b$ 进行求导，这个过程其实就是将 $y$ 中各个元素用 $b$ 中元素表示出来再求导。因为 $y$ 中各个位置元素只和 $b$ 中对应元素有关，所以不存在链式关系，结果如下：

$\frac{\partial{ y }}{\partial{ b^2}} = 1$

整理得到：

$\frac{\partial{ e }}{\partial{ b^2}} = \frac{\partial e}{ \partial y}$

再对 $e$ 关于 $W$ 进行求导，考虑到 $y$ 中每一行元素只和 $W$ 中对应的行元素有关，就对 $W$ 的第 $j$ 行元素 $W_j$ 求导：
$\frac{\partial e}{ \partial W_j } = \frac{\partial e}{ \partial y_j } \odot h'$

接下来考虑 $y$ 和 $h$ 的关系，因为 $y$ 中每一个元素都和 $h$ 有关，那么 $e$ 关于 $h$ 的导数需要考虑链式法则，即 $y$ 关于 $x$ 的导数需要将 $y$ 中各个元素对 $h$ 求导再累加起来。有人可能会有疑惑， $y$ 明明是一个向量，向量关于向量的导数难道不是矩阵吗？为什么要累加？事实上，这里是考虑的 $e$ 关于h的导数， $e$ 的计算是将 $y$ 中所有元素进行计算得到的， $y$ 中每一个元素都和 $h$ 有关。所以，由链式法则， $e$ 对 $h$ 的导数等于 $e$ 关于 $y$ 所有元素的导数分别乘上对应位置 $y$ 中元素对 $h$ 的导数再进行累加的结果。

$\frac{\partial e}{ \partial h } = W' \cdot \frac{\partial e}{ \partial y } '$

这里， $h$ 对 $b$ 进行求导，考虑最终是 $e$ 对 $b$ 求导，所以得到的是向量:

$\frac{\partial h }{\partial b^1 }=\left(1 - h ^ 2 \right)$

隐藏层在tanh函数之后的模式和前面输出层大体相同，就不过多解释，读者记住牢记链式法则进行思考应该不难推导。直接上公式：

$\frac{\partial e }{\partial b^1 }= \frac{\partial e }{\partial h } \odot \frac{\partial h }{\partial b^1 } = \left( \frac{\partial e}{ \partial y } \cdot W \right) \odot \left(1 - h ^ 2 \right)$

$\frac{ \partial e }{ \partial H_j } = \frac{ \partial e }{ \partial b^1_j } \cdot x'$

$\frac{\partial e}{\partial x} = H' \cdot \frac{\partial e}{\partial b^1}'$

最后，各个参数的更新，就是将变量加上各个 $e$ 关于各个变量的偏导（原论文上加入了一个调节参数学习率，但直接加问题也不大），要注意的是， $x$ 加完之后要在向量空间 $V$ 中替换对应位置的元素。PS：因为是最大化目标函数，所以应该是在梯度方向搜索，而不是负梯度

3、code

代码部分是用python整个的思路是面向过程的，比较简单，但是没有用TensorFlow或者pytorch之类的工具，反向传播的过程是手写的。前面字符的停词化处理用了python里的jieba包、去停用词用的停词表我后面也会附上，但是这些预处理做的都比较简单，主要是想复现一下这个算法。

import jieba
import numpy
import math

def stop_set( path ) :
    f = open(path, 'r', encoding='utf-8')
    L = []
    for word in f.readlines():
        L.append(word.strip())#默认的方法去除换行符

    f.close()
    return L

#对文本进行去停词化和分词
def data_set(path , L ):
    #L是提取的停词表
    #这里输入的只是数据所在的文件夹名，
    # 统一规定文本文件的名字为data.txt
    file_name = path+"/data.txt"

    #注意，读取中文时记得规定解码方式
    f = open(file_name,'r',encoding='utf-8')

    #按行进读取输出
    line = f.read()

    R = ''
    for i in line :
        R += i

    #进行分词化
    seg_ment = jieba.cut( R )

    W = []
    tempt = []
    # 去停词
    for word in seg_ment:
        if word == '。' :
            #以。作为句子结尾的标记
            #进行以句子为单位的划分
            W.append( tempt )
            tempt = []

        if word not in L :
            #对每一行的每一个字，如果不在停词表中
            tempt.append(word)

    f.close()
    return  W

#建立词典
def Dic_set( W ) :
    #W是去停词化和分词化后的文本
    #首先将所有的句子合并到一起
    tempt = []
    for i in W :
        for j in i :
            tempt.append( j )

    W = tempt

    #建立词典
    Dic = []
    while W :
        word = W[ 0 ]
        Dic.append( word )
        num = W.count( word )
        for i in range( num ) :
            #删除所有第一个元素
            W.remove( word )

    return  Dic

#文本转化为词典中对应的序号
def change( W , Dic ) :
    n = len( W )
    D = []
    for i in W :
        tempt = []
        for j in i :
            tempt.append( Dic.index( j ) )
        D.append( tempt )
    return D

def NNLM( V , W , n ) :
    alpha = 0.5 #学习率
    #V是向量空间，行是不同的单词，列是不同的维度
    #W是文本，不同行是不同的句子
    #n是窗口大小
    m = len( V.T )
    hiden_num = 100

    #初始化参数
    H = numpy.random.rand( hiden_num , n * m ) - 0.5 #输入层到输出层的权重
    U = numpy.random.rand( len(V) , hiden_num ) - 0.5
    d = numpy.random.rand( hiden_num , 1 ) - 0.5
    b = numpy.random.rand( len(V) , 1 ) - 0.5

    for i in W :
        for j in range( 0 , len( i ) -n ) :
            #生成x
            x = []
            for p in range( j , j + n ) :
                for q in range( 0 , m ) :
                    x.append( V[ i[ p ] , q ] )
            x = numpy.mat( x ).T

            # 前向传播
            o = d + numpy.dot(H, x)
            a = tanh( o )
            y = b + numpy.dot(U , a)
            p = exp( y )

            #反向传播
            delta_b = -1 *  p / p.sum()
            delta_b[ i[ j + n ] ] += 1

            delta_U = 1 * U
            for p in range( len( U ) ) :
                delta_U[ p , : ] = delta_b[ p ] * a.T

            delta_d = ( 1 - numpy.power( a , 2 ) )
            delta_d = numpy.multiply( delta_d , ( numpy.dot( delta_b.T , U ).T ) )
            # delta_d = delta_o
            delta_H = 1 * H
            for p in range( 0 , len(H) ):
                delta_H[ p , : ] = delta_d[ p ] * x.T
            delta_x = numpy.dot( H.T , delta_d )

            #更新变量
            b += delta_b * alpha
            d += delta_d * alpha
            U += delta_U * alpha
            H += delta_H * alpha
            x += delta_x * alpha
            #将更新后的变量x中的数值放回V中更新
            for p in range( 0 , n ) :
                V[ i[p] , : ] = 1 * x[ p * n : ( p + 1 ) *n ].T
    return V

def tanh( x ) :
    #这里输入的是列向量
    n = len( x )
    y1 = exp(x) - exp(-x)
    y2 = exp(x) + exp(-x)
    y = []
    for i in range(n):
        y.append(y1[i, 0] / y2[i, 0])

    return numpy.mat( y ).T

def exp( x ) :
    y = 1 * x#赋值给y，这样后面的操作不会因为地址相同影响到x
    #注意，这边传入的形参是地址或者说是指针
    for i in range( len( x ) ) :
        if x[i] > 100 :
            y[i] = math.exp(100)
        else :
            y[i] = math.exp(x[ i ])
    return  y

if __name__ == "__main__" :
    print("*==================================开始==========================================*")
    L = stop_set( "E:\作业\data\stopwords-master\cn_stopwords.txt" )#提取停词表
    path = "E:/作业/data"
    file_name = path + "/data.txt"
    W = data_set( path , L )#去停词化和分词化
    print( W )
    Dic = Dic_set( W )#建立词典

    W = change( W , Dic )#将W转换为Dic中对应的序号表示
    # print( W )

    #生成词向量矩阵
    n = len( Dic )
    print( n )
    m = 5 #给定向量维度为5
    V = numpy.random.rand( n , m ) - 0.5

    window = 5 #设置窗口数为5
    print("==============rawV==================")
    print(V)
    V = NNLM( V , W , window) #通过神经网络算法对向量V进行训练
    print("==============V==================")
    print(V)

    print( Dic )
    print( len( Dic) )

代码中需要的停词表我已经上传，审核过后我会附上链接停词表和训练样本；当然停词表和训练的文本可以用自己的。如果下载有问题可以私信找我要！！！

4、问题

ps：之前的代码除了一点问题，现在已经更新了。原因有两点“1、python的数据结构里面，像矩阵、列表这样的数据类型，直接使用A=B进行赋值是进行的地址复制，即A和B的地址是相同的，指向同一个内存，解决方法在这里：python矩阵类型的变量给另一个变量赋值；2、python里面把矩阵、列表这类的数据结构看作是数组一样的东西，作为函数形参时，输入的就是一个指针，这也是说，如果在子函数里面对形参数组进行改变，在主函数中的数组也是会变化的。
最后考虑了这两点，把代码修改好了。

C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
入门html这篇文章就够了 ξ流ぁ星ぷ132 html 前端
HTML笔记文章目录HTML笔记html介绍什么是htmlhtml的作用HTML标签介绍常用标签标签and标签and标签u标签del删除线br标签用于换行pre标签，预处理标签span标签div标签sub标签andsup标签hr标签h1,h2...h6标签：HTML5中的语义标签：特殊字符img标签a标签第一种用法：超链接第二种用法：锚点video标签表格标签：form标签input标签selec
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
vue3面试题(个人笔记) 武昌库里写JAVA 面试题汇总与解析课程设计 spring boot vue.js java 学习
vue3比vue2有什么优势？性能更好，打包体积更小，更好的ts支持，更好的代码组织，更好的逻辑抽离，更多的新功能。描述Vue3生命周期CompositionAPI的生命周期：onMounted()onUpdated()onUnmounted()onBeforeMount()onBeforeUpdate()onBeforeUnmount()onErrorCaptured()onRenderTrac
Python学习笔记5|条件语句和循环语句 iamecho9 Python从0到1学习笔记 python 学习笔记
一、条件语句条件语句用于根据不同的条件执行不同的代码块。1、if语句基本语法：if布尔型语句1:代码块#语句1为True时执行的代码示例：age=int(input("请输入你的年龄:"))ifage>=18:print("你已成年")2、if-else语句如果if条件不成立，则执行else代码块：if布尔型语句1:代码块#语句1为True时执行的代码else:代码块#语句1为False时执行的代
swagger【个人笔记】撰卢笔记 java
文章目录swagger导入mave坐标在配置类(WebMvcConfiguration)中加入knife4j相关配置设置静态资源映射，主要是让拦截器放行swagger常用注解@Api(tags="\[描述这个类的作用]")@ApiModel(description="\[描述这个类的作用]")@ApiModelProPerty("描述这个类的作用")@ApiOperation("\[描述方法的作用
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
5G标准学习笔记14 - CSI--RS概述刘孬孬沉迷学习 5G 学习笔记信息与通信
5G标准学习笔记14-CSI–RS概述大家好~，这里是刘孬孬，今天带着大家一起学习一下5GNR中一个非常非常重要的参考信号------------------CSI-RS信号，CSI-RS不是持续发送，UE只能在网络明确配置了CSI-RS的情况下才能使用其进行信道测量。前言对于CSI-RS，肯定还离不开前面所说的CSI（channelstateinformation），前面也讲过CSI对于MIMO
5G标准学习笔记06-基于AI/ML波束管理刘孬孬沉迷学习 5G 学习笔记
5G标准学习笔记06-基于AI/ML波束管理前言前面对于孬孬学习了波束管理的概述，下面要进一步来看一下传统波束管理和现在3GPP中推动的AL/ML波束管理之前的区别联系。一、传统波束管理方法流程传统BM流程主要包括以下步骤：波束扫描（BeamSweeping）：gNB通过顺序发送多个窄波束（SSB或CSI-RS），覆盖整个服务区域，UE测量每个波束的信号质量（如L1-RSRP或L1-SINR）。波
5G标准学习笔记03- CSI 反馈增强概述刘孬孬沉迷学习 5G 笔记学习
5G标准学习笔记03-CSI反馈增强概述大家好，最近在研究AI/ML3gpp标准NR空口的有关内容，后面可能会给大家介绍一下对应的有关内容AI/ML在3GPP标准中的研究进展在AI/ML在NR空口的应用中，对应标准主要聚焦了3个case进行讨论研究分别是：CSI反馈增强；波束管理；定位精度增强；这三个内容可能比较涉及RAN1/2的具体内容，后面会基于这个进行一定的介绍。今天主要是主要介绍CSI反馈
运维笔记＜4＞ xxl-job打通 GeminiJM 运维 java xxl-job
新的一天，来点新的运维业务，今天是xxl-job的打通其实在非集群中，xxl-job的使用相对是比较简单的，相信很多人都有使用的经验这次我们的业务场景是在k8s集群中，用xxl-job来做定时调度加上第一次倒腾，也是遇到了不少问题，在这里做一些记录1.xxl-job的集群安装首先是xxl-job的集群安装先贴上xxl-jobsql初始化文件的地址：xxl-job/doc/db/tables_xxl
两台pc如何高速度传输大文件费城之鹰其他两台电脑高速传输文件局域网不适用U盘传输资料网线直连两台电脑传资料
今天笔记本跑一个大一点的项目，8G的内存直接100%，i5的CPU直接75%并且在超频工作了，原本1.6Ghz的频率直接飙到了3.8Ghz，由于项目性质原因，采用的是公司配的笔记本，但是年初采购的联想E480，还在三包时间段内，公司不允许拆机增加内存，只能换一台新的台式机，听起来挺爽，有新设备，但是办公区域不准使用U盘这一类的存储设备，这就蛋疼了，大半年了项目代码，资料全在这个不够用的笔记本里，问
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
玩转Docker | 使用Docker部署NotepadMX笔记应用程序心随_风动玩转Docker docker 笔记 eureka
玩转Docker|使用Docker部署NotepadMX笔记应用程序前言一、NotepadMX介绍工具简介主要特点二、系统要求环境要求环境检查Docker版本检查检查操作系统版本三、部署NotepadMX服务下载NotepadMX镜像编辑部署文件创建容器检查容器状态检查服务端口安全设置四、访问NotepadMX服务访问NotepadMX首页设置访问验证编辑笔记总结前言在如今快节奏的工作与学习中，一
【前端】异步任务风控验证与轮询机制技术方案（通用笔记版）
一、背景场景在某类生成任务中，例如用户点击“执行任务”按钮后触发一个较耗时的后端操作（如生成报告、渲染图像、转码视频等），由于其调用了模型、渲染服务或需要较长处理时间，为了防止接口被频繁恶意调用，系统需要加入风控验证机制。此外，因任务处理为异步，前端无法立即获得最终结果，因此需通过轮询方式定期查询任务状态，等待任务完成后展示结果。二、整体流程说明1.用户点击“执行任务”按钮：前端调用风控接口/ap
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
LLaMA 学习笔记 AI算法网奇深度学习基础人工智能深度学习
目录LLaMA模型结构：模型微调手册：推理示例：指定位置加载模型测试ok：模型下载：llama-stack下载modelscope下载LLaMA优化技术RMSNormSwiGLU激活函数旋转位置编码（RoPE）LLaMA模型结构：llama3结构详解-CSDN博客模型微调手册：大模型微调LLaMA详细指南（准备环境、数据、配置微调参数+微调过程）_llama微调-CSDN博客显存占用：FP16/B
BOOT_KEY按键（学习笔记）小高Baby@ 学习笔记
先来让我们了解一下GPIO是什么吧，它在单片机中也有很重要的作用，接下来我们来看看吧。esp32C3是QFN32封装（一种集成电路（IC）封装类型），GPIO引脚一共有22个，从GPIO-0到GPIO-21。从理论上来说，所有的IO引脚都可以复用为任何外设功能，但有些引脚用作连接芯片内部FLASH或者外部FLASH功能时，官方不建议用作其它用途。esp32c3的GPIO，可以用作输入、输出，可以配
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>

NNLM语言模型（原理、反向传播的推导以及python实现）

NNLM语言模型（原理、反向传播的推导以及python实现）

-1、写这篇博客的目的

0、引言

1、NNLM(神经网络语言模型)

NNLM模型的具体流程如下:

2、反向传播的推导

这里介绍一下对向量和矩阵求偏导

1、一个常数对一个向量求偏导

2、一个常数关于矩阵求导

3、tanh函数

3、code

4、问题

你可能感兴趣的:(笔记,自然语言处理)