Sunshine_502

BiLSTM+CRF命名体识别pytorch版本整理汇总

原文地址

最近在系统地接触学习NER（命名实体识别/实体抽取），但是发现这方面的小帖子还比较零散。所以我把学习的记录放出来给大家作参考，其中汇聚了很多其他博主的知识，在本文中也放出了他们的原链。希望能够以这篇文章为载体，帮助其他跟我一样的学习者梳理、串起NER的各个小知识点，最后上手NER的主流模型（Bilstm+CRF）。

全文结构

一、NER资料

二、主流模型Bilstm-CRF实现详解（Pytorch篇）

三、实现代码的拓展（在第二点的基础上进行拓展）

一、NER资料

参考：NLP之CRF应用篇(序列标注任务) 包括：CRF++的详细解析、Bi-LSTM+CRF中CRF层的详细解析、Bi-LSTM后加CRF的原因、Bert+Bi-LSTM+CRF、CRF和Bi-LSTM+CRF优化目标的区别

CRF++完成的是学习和解码的过程：训练即为学习的过程，预测即为解码的过程。

参考： BiLSTM+CRF中CRF详解（这份资料对后面代码的理解是有帮助的）

序列标注问题就是对序列中每个元素打标签（基于标签集合进行多分类，这里的元素单位是字，上一篇博客是词，本质原理是一样的，具体描述稍有区别）。

参考： BiLSTM-CRF中CRF层解析-2

在上一篇的参考中提到，会在每一句话的开始加上“START”，在句尾加上“END”，这点我们可能会有疑惑。

这篇参考给予了解答：

这是为了使转移得分矩阵的鲁棒性更好，才额外加两个标签：START和END，START表示一句话的开始，注意这不是指该句话的第一个单词，START后才是第一个单词，同样的，END代表着这句话的结束。

下表就是一个转移得分矩阵的示例，该示例包含了START和END标签。

每一个格里的值表示的意思是：这个格的行值转成列值的概率大小。打个比方：上图中红框（B-Person，I-person）的值为0.9，表示的意思就是B-person转移至I-person的概率为0.9（上一个元素（字或词）标注为B-Person，下一个元素标注为I-Person的概率），这是合乎BIO标注的规定的（B是实体的开始，I是实体的内部或结束，O非实体）。类推一下，蓝框的意思代表的就是B-Organization转移至I-Organization的概率为0.8。

参考： BiLSTM-CRF中CRF层解析-3 (看完前面的参考来看这份，简直不要太良心了，易懂很多）

但是前面很多概念有提到，就不赘述了，只是加深一下印象，顺带推一下这个博主对CRF的一系列解析。

其中

     P
    
    
     
      i
     
     
      ,
     
     
      
       y
      
      
       i
      
     
    
   
  
  
   P_{i,y_i}
  
 
 $P_{i, y_{i}}$ 为第 i 个位置(序列中第i个元素（字或词）) softmax 输出为(标签) $y_i$  的概率，  $A_{y_i,y_{i+1}}$  为从 (前一个元素标签) $y_i$  到（当前元素标签）  $y_{i+1}$  的转移概率，当tag（B-person,B-location…）个数为n(标签集的大小)的时候，转移概率矩阵为（n+2）*（n+2)，因为额外增加了一个开始位置（开始标签START）和结束位置（结束标签END）。这个得分函数S就很好地弥补了传统BiLSTM的不足，因为我们当一个预测序列得分很高时，并不是各个位置都是softmax输出最大概率值对应的label，还要考虑前面转移概率相加最大，即还要符合输出规则（B后面不能再跟B，开头不能是I等约束），比如假设BiLSTM输出的最有可能序列为BBIBIOOO，那么因为我们的转移概率矩阵中B->B的概率很小甚至为负，那么根据s得分，这种序列不会得到最高的分数，即就不是我们想要的序列。（相比于只使用BiLSTM可以去掉一些无效的预测序列，添加一些约束）。

整个过程中需要训练的参数为：

BiLSTM中的参数
转移概率/得分矩阵A

BiLSTM+CRF的预测：

参考： BiLSTM+CRF的一些理解

model中由于CRF中有转移特征，即它会考虑输出label之间的顺序性（依赖或关联性），所以考虑用CRF去做BiLSTM的输出层。（只用BiLSTM的话，输出label之间是独立的）。

二、NER主流模型——BiLSTM-CRF代码详解部分（pytorch篇）

参考1: ADVANCED: MAKING DYNAMIC DECISIONS AND THE BI-LSTM CRF (PyTorch关于BILSTM+CRF的tutorial)

从参考1中找到 pytorch 关于 Bilstm-CRF 模型的tutorial，然后运行它，我这里讲一下几个主体部分的作用:

def argmax(vec):
    # return the argmax as a python int
    _, idx = torch.max(vec, 1) #idx 最大值所在的索引
    return idx.item()

def prepare_sequence(seq, to_ix): #把序列中的元素（字或词）转换为索引
idxs = [to_ix[w] for w in seq]
return torch.tensor(idxs, dtype=torch.long) #list转换为tensor

Compute log sum exp in a numerically stable way for the forward algorithm

def log_sum_exp(vec): #找到一维tensor最大值计算全体与该值的离差平方和后再计算log
max_score = vec[0, argmax(vec)]
max_score_broadcast = max_score.view(1, -1).expand(1, vec.size()[1])
return max_score +
torch.log(torch.sum(torch.exp(vec - max_score_broadcast))) #再求exp之前减去最大值，做一个平移使最大值为0，防止指数爆炸，计算溢出

训练数据集的格式：list内为tuple(一个tuple表示一条数据)，然后分字/词以及bio（序列中每个字/词对应的标签，B实体开始，I实体中间或结束部分，O非实体）字段。

将输入句子中的字/词转换为对应的索引，把标签转换为对应的索引（上图中只定义了一种实体类型）。

建立BiLSTM_CRF model，及优化器

这是一个toy例子，很简单。

训练300epoch，画红框的是核心。将text字段（输入序列/句子）及bio label（序列中每个字/词对应的标签序列）转换为映射的数字索引，输入模型即可训练。

现在的很多NLP的网红模型，无非是将文字到数字索引的映射建立的更合理。是可拓展的。

另外，这里的模型训练使用的损失函数是： model.neg_log_likelihood() 。这是代码中建立好的 BiLSTM_CRF 类的一部分，弄明白需继续看 model（参考：pytorch版的bilstm+crf实现sequence label，有模型注解）

torch.nn.Parameter()：首先可以把这个函数理解为类型转换函数，将一个不可训练的类型Tensor转换成可以训练的类型parameter并将这个parameter绑定到这个module里面（net.parameter()中就有这个绑定的parameter，所以在参数优化的时候可以进行优化的），所以经过类型转换这个self.v变成了模型的一部分，成为了模型中根据训练可以改动的参数了。使用这个函数的目的也是想让某些变量在学习的过程中不断的修改其值以达到最优化。（参考）【一句话解释：就是（转换为模型的参数）希望它能够梯度下降（计算提督），更新优化】

（建立转移矩阵A，并加了两个我们不会变动的约束条件：1是我们不会从其他tag转向start。2是不会从stop开始转向其他。所以这些位置设为-1e4）

注意：转移矩阵是随机初始化的，而且声明为模型参数，放入了网络中，是会随训练更新的）（如果转移矩阵A的概念不懂可以理解了转移矩阵再回来看）

lstm层：经过了embedding，lstm，linear层, 输出为发射矩阵——emission matrix（seq_len*len(labels)）（该例中batch_size=1）

forward_score应该是所有路径的总得分减去真实标签对应路径的得分即为损失。

计算所有可能路径的总得分。

参考2: pytorch实现BiLSTM+CRF用于NER(命名实体识别)（提到了viterbi编码，很有启发！记录如下）【统筹CRF算法code，以及forward_score - gold_score 作为loss的根本原因】

CRF是判别模型，判别公式如下 y 是标记序列，x 是单词序列，即已知单词序列，求最有可能的标记序列:

Score(x, y) 即单词序列 x 产生标记序列 y 的得分，得分越高，说明其产生的概率越大。

在pytorch的tutorial中，其用于实体识别定义的 Score(x,y) 包含两个特征函数，一个是转移特征函数，一个是状态特征函数.

代码中用到了前向算法和维特比算法（viterbi）

log_sum_exp函数就是计算:

，**前向算法（_forward_alg）**需要用到这个函数

前向算法，求出α（alpha），即Z(x)，也就是(所有可能标注路径的得分和):

，如果不懂可以看一下李航的书关于CRF的前向算法.

但是不同于李航书的是,代码中α都取了对数，一个是为了运算方便，一个为了后面的最大似然估计。

这个代码里面没有进行优化，作者也指出来了，**其实对feats的迭代完全没有必要用两次循环，其实用矩阵相乘就够了，**作者是为了方便我们理解，所以细化了步骤。

维特比算法（viterbi）中规中矩，可以参考李航书上条件随机场的预测算法

neg_log_likelihood函数的作用（计算损失）：

我们知道forward_score是log Z(x)，即（所有可能标注路径的得分和）：

gold_score是(真实标注路径的得分):

我们的目标是极大化:

两边取对数即:

所以我们需要极大化 gold_score - forward_score，也就是极小化 forward_score - gold_score。

这就是为什么 forward_score - gold_score 可以作为loss的根本原因。

参考3: BiLSTM-CRF for Sequence Labeling

这篇跟参考2讲的是一个意思。得分score表示为:

也很清晰地提到了CRF的作用以及score中P和A矩阵分别代表的含义：P为Bi-LSTM的输出矩阵(seq_len*len(labels))；A为tag之间的转移矩阵(len(labels)*len(labels)). len(labels)=tag size.

在许多参考文章中都有提到score的成分包含了两部分，一个是Bilstm的输出结果，另一个就是CRF的转移矩阵，而转移矩阵的作用就是去给标注结果一些约束。例如标注B的后面不能接B这种约束。这种约束是根据转移矩阵A提供的。而转移矩阵A是随机初始化，然后根据你提供的训练集，训练学习、梯度下降得到的。根据画红线的去看上方score的定义，就明白定义了每一种标注情况为一条路径，使用score去计算该路径的得分的意思了。再啰嗦一下：

     A
    
    
     
      
       y
      
      
       i
      
     
     
      ,
     
     
      
       y
      
      
       
        i
       
       
        +
       
       
        1
       
      
     
    
   
  
  
   A_{y_i,y_{i+1}}
  
 
 $A_{y_{i}, y_{i + 1}}$ 是表达这个tag  $y_i$ （标注 $y_i$ ）转移至下一个tag  $y_{i+1}$ （标注 $y_{i+1}$ ）的分数（概率）。而 $P_{i,y_i}$ 就是Bilstm的输出矩阵，可以看到每个字/词对应到不同tag（标注）的分数。【不懂也没关系，有很多文章都提到了。反复看就会有感觉了】

CRF的概率函数表示为

S(X,y)的计算很简单，而
)
（下面记作logsumexp）的计算稍微复杂一些，因为需要计算每一条可能路径的分数。这里用一种简便的方法，对于到词的路径，可以先把到词的logsumexp计算出来，因为：

因此先计算每一步的路径分数和直接计算全局分数相同，但这样可以大大减少计算的时间。

参考4: BiLSTM-CRF中CRF层解析-4 （用程序的思想去理解怎么计算所有路径的得分和，巨良心）

这篇文章提到了动态规划的编程思想，虽然跟pytorch的tutorial有些许偏差。但已经很到位了。卡在**_foward_alg函数**的同学多看几遍这篇文章，先理解一下动态规划的思路吧。会有帮助的。

参考5: BiLSTM-CRF中CRF层解析-5

上一篇在讲loss的一部分：所有路径的得分和。现在讲怎么去解码预测。大概的思路就是根据最高的得分去反哺这条路径，使用较多的就是Viterbi解码了。这篇文章就很详细很详细地提到了怎么去解码这个路径，具体就直接进到博主的解析上看吧！（我的序列标注系列博客的第二篇也完整转载了该系列博客）

参考6: pytorch lstm crf 代码理解（走心的解读，统筹代码块的作用，其心得部分十分到位）

这里就罗列一下作者的心得体会：

反向传播不需要一定使用forward()，而且不需要定义loss=nn.MSError()等，直接score1 - score2 （neg_log_likelihood函数），就可以反向传播了。
使用self.transitions = nn.Parameter(torch.randn(self.tagset_size, self.tagset_size)) 将想要更新的矩阵，放入到module的参数中，然后两个矩阵无论怎么操作，只要满足 y = f(x, w)，就能够反向传播
从代码看出每个循环里只是取了转移矩阵A的一行，或者就是一个值，进行操作，转移矩阵就能够更新。至于为什么能够更新，作者也不知道，这涉及到pytorch的机制。
发射矩阵（emit score）是 BiLSTM算出来的。转移矩阵是单独定义的，要学习的（模型参数）。初始矩阵是 [-1000,-1000,-1000,0,-1000]，固定的。因为当加了开始符号后，第一个位置是开始符号的概率是100%。
显式的加入了start标记，隐式的使用了end标记（总是最后多一步转移到end）的分数

参考7: Pytorch高级实战教程：基于BiLSTM-CRF实现命名实体识别和中文分词

对这份pytorch NER tutorial，只需要将中文分词的数据集预处理成作者提到的格式，即可很快的迁移这个代码到中文分词中。但这种方式并不适合处理很多的数据（数据格式迁移问题），但是对于 demo 来说非常友好，把英文改成中文，标签改成分词问题中的 “BEMS” （B是词开头，E词结束，M词中间部分，S单字词，输入序列以字为单位）就可以跑起来了。

参考资料：

pytorch中bilstm-crf部分code解析（也很良心了，作者画了草图帮助理解）
pytorch版的bilstm-crf实现sequence label （比较粗的注解）

三、模型代码扩展部分（pytorch部分）

前面我们介绍了很久pytorch实现NER任务的主流model——Bilstm+CRF，为了便于新手入门，所以还是稍微简陋了一些。刚好看到有份资源是移植这个tutorial去实践的，还是很有必要学习的

资料： ChineseNER （中文NER、有tf和torch版，市面上Bilstm+CRF的torch code基本都是出自官方tutorial）（py2.7）

因为是py2的代码，所以是需要改成py3的。

**训练代码：**train_py3.py

但这个“Bosondata.pkl”(预处理完的数据文件)是需要我们先到路径“ChineseNER\data\boson”下运行"data_util.py"才生成的。

当然，原代码也是存在python版本的问题（原代码是py2的）例如：
报错：AttributeError: ‘str’ object has no attribute ‘decode’
解决方法：把 .decode("*") 那部分删除即可

溯源: https://www.cnblogs.com/xiaodai0/p/10564471.html

报错：ImportError: No module named ‘compiler.ast’
解决方法：重新写一个函数来替代 from compiler.ast import flatten 的flatten函数

import collections
def flatten(x):
    result = []
    for el in x:
        if isinstance(x, collections.Iterable) and not isinstance(el, str):
            result.extend(flatten(el))
        else:
            result.append(el)
    return result

 
   
   
   
   
 
   
   
   
   
    
    
    
    1
    
    
    
    2
    
    
    
    3
    
    
    
    4
    
    
    
    5
    
    
    
    6
    
    
    
    7
    
    
    
    8
    
    
    
    9

溯源: https://blog.csdn.net/w5688414/article/details/78489277

当成功运行"data_util.py"生成“Bosondata.pkl”后，把"train_py3.py"里面第38行的"word2id"修改为"id2word"（应该是作者打错了），然后在代码路径下创造文件夹“model”(用于存储模型文件)，就可以开始训练了。

最后附上修改后的github源码：https://github.com/Hyfred/Pytroch_NER_tutorial

AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
利用AI与MySQL提升工业物联网健康监测的智慧水平——构建预测性维护的新纪元墨夶数据库学习资料1 人工智能 mysql 物联网
在工业4.0和智能制造的大背景下，如何确保生产设备的高效稳定运行成为企业竞争力的核心要素之一。传统的事后维修方式已经难以满足现代制造业的需求，而基于人工智能（AI）的预测性维护系统则为这一挑战提供了全新的解决方案。今天，我们将深入探讨如何结合AI技术和MySQL数据库，打造一个智能、高效的工业物联网（IIoT）健康监测平台，助力企业在激烈的市场竞争中脱颖而出。一、为什么选择AI+MySQL？1.A
MySQL中基于机器学习的自适应缓存热点识别优化策略——开启数据库性能新纪元墨夶数据库学习资料1 数据库 mysql 机器学习
在数据驱动的世界里，数据库的性能直接影响到整个应用系统的响应速度和用户体验。随着业务量的增长和技术的发展，传统的缓存机制逐渐暴露出局限性。如何更智能地识别并利用热点数据进行缓存优化，成为提升数据库性能的关键所在。今天，我们将深入探讨一种创新的方法——基于机器学习的自适应缓存热点识别优化策略，并分享其在MySQL中的具体实现方案。为什么选择机器学习？‍传统上，开发者们依赖于手动配置或预设规则来决定哪
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
第二十一篇：伦理/道德Ethics flying_1314 NLP ethics 伦理/道德隐私偏见双重用途
目录什么是伦理/道德？我们为什么要关心？为什么道德很难？学习成果大纲反对NLP道德检查的论据我们应该审查科学吗？H5N1透明度不是更好吗？AIvs.Cybersecurity核心NLP伦理概念偏见词嵌入中的偏差双重用途OpenAIGPT-2隐私GDPRAOL搜索数据泄露小组讨论提示自动刑期预测自动简历处理语言社区分类打包带走~什么是伦理/道德？我们应该如何生活——苏格拉底•正确的做法是什么？•为什
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
【机器学习】算法分类 CH3_CH2_CHO 什么？！是机器学习！！机器学习算法有监督学习无监督学习半监督学习强化学习
1、有监督学习1.1定义使用带标签的数据训练模型。有监督学习是机器学习中最常见的一种类型，它利用已知的输入特征和对应的输出标签来训练模型，使模型能够学习到特征与标签之间的映射关系。在训练过程中，模型会不断地调整自身的参数，以最小化预测值与真实标签之间的误差，从而提高预测的准确性。1.2回归问题1.2.1目标预测连续值。回归问题的目标是预测一个连续的数值结果，模型的输出是一个实数值。1.2.2解释回
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
使用Titan Takeoff进行高效的自然语言处理模型推理 scaFHIO 自然语言处理人工智能 python
在自然语言处理(NLP)领域，每一家企业都在寻求更高效的模型训练和推理解决方案。TitanML的平台通过训练、压缩和推理优化帮助企业构建和部署更佳、更小、更便宜、更快速的NLP模型。特别是其推理服务器TitanTakeoff，使得在本地硬件上轻松部署大语言模型(LLMs)成为可能。技术背景介绍TitanTakeoff是TitanML提供的一项服务，它允许用户在本地硬件上运行推理工作负载。支持大多数
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
量化交易系统中如何处理机器学习模型的训练和部署？ openwin_top 量化交易系统开发机器学习人工智能量化交易
microPythonPython最小内核源码解析NI-motion运动控制c语言示例代码解析python编程示例系列python编程示例系列二python的Web神器Streamlit如何应聘高薪职位量化交易系统中，机器学习模型的训练和部署需要遵循一套严密的流程，以确保模型的可靠性、性能和安全性。以下是详细描述以及相关的示例：1.数据收集和预处理数据收集在量化交易中，数据是最重要的资产。收集的数
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
ios内付费 374016526 ios 内付费
近年来写了很多IOS的程序，内付费也用到不少，使用IOS的内付费实现起来比较麻烦，这里我写了一个简单的内付费包，希望对大家有帮助。具体使用如下: 这里的sender其实就是调用者，这里主要是为了回调使用。 [KuroStoreApi kuroStoreProductId:@"产品ID" storeSender:self storeFinishCallBa
20 款优秀的 Linux 终端仿真器 brotherlamp linux linux视频 linux资料 linux自学 linux教程
终端仿真器是一款用其它显示架构重现可视终端的计算机程序。换句话说就是终端仿真器能使哑终端看似像一台连接上了服务器的客户机。终端仿真器允许最终用户用文本用户界面和命令行来访问控制台和应用程序。（LCTT 译注：终端仿真器原意指对大型机-哑终端方式的模拟，不过在当今的 Linux 环境中，常指通过远程或本地方式连接的伪终端，俗称“终端”。）你能从开源世界中找到大量的终端仿真器，它们
Solr Deep Paging(solr 深分页) eksliang solr深分页 solr分页性能问题
转载请出自出处：http://eksliang.iteye.com/blog/2148370 作者：eksliang(ickes) blg:http://eksliang.iteye.com/ 概述长期以来，我们一直有一个深分页问题。如果直接跳到很靠后的页数，查询速度会比较慢。这是因为Solr的需要为查询从开始遍历所有数据。直到Solr的4.7这个问题一直没有一个很好的解决方案。直到solr
数据库面试题 18289753290 面试题数据库
1.union ,union all 网络搜索出的最佳答案： union和union all的区别是,union会自动压缩多个结果集合中的重复结果，而union all则将所有的结果全部显示出来，不管是不是重复。 Union：对两个结果集进行并集操作，不包括重复行，同时进行默认规则的排序； Union All：对两个结果集进行并集操作，包括重复行，不进行排序； 2.索引有哪些分类？作用是
Android TV屏幕适配酷的飞上天空 android
先说下现在市面上TV分辨率的大概情况两种分辨率为主 1.720标清，分辨率为1280x720. 屏幕尺寸以32寸为主，部分电视为42寸 2.1080p全高清，分辨率为1920x1080 屏幕尺寸以42寸为主，此分辨率电视屏幕从32寸到50寸都有适配遇到问题，已1080p尺寸为例：分辨率固定不变，屏幕尺寸变化较大。如：效果图尺寸为1920x1080，如果使用d
Timer定时器与ActionListener联合应用永夜-极光 java
功能:在控制台每秒输出一次代码: package Main; import javax.swing.Timer; import java.awt.event.*; public class T { private static int count = 0; public static void main(String[] args){
Ubuntu14.04系统Tab键不能自动补全问题解决随便小屋 Ubuntu 14.04
Unbuntu 14.4安装之后就在终端中使用Tab键不能自动补全，解决办法如下： 1、利用vi编辑器打开/etc/bash.bashrc文件（需要root权限） sudo vi /etc/bash.bashrc 接下来会提示输入密码 2、找到文件中的下列代码 #enable bash completion in interactive shells #if
学会人际关系三招轻松走职场 aijuans 职场
要想成功，仅有专业能力是不够的，处理好与老板、同事及下属的人际关系也是门大学问。如何才能在职场如鱼得水、游刃有余呢？在此，教您简单实用的三个窍门。　　第一，多汇报最近，管理学又提出了一个新名词“追随力”。它告诉我们，做下属最关键的就是要多请示汇报，让上司随时了解你的工作进度，有了新想法也要及时建议。不知不觉，你就有了“追随力”，上司会越来越了解和信任你。　　第二，勤沟通团队的力
《O2O：移动互联网时代的商业革命》读书笔记 aoyouzi 读书笔记
移动互联网的未来：碎片化内容+碎片化渠道=各式精准、互动的新型社会化营销。 O2O：Online to OffLine 线上线下活动 O2O就是在移动互联网时代，生活消费领域通过线上和线下互动的一种新型商业模式。手机二维码本质：O2O商务行为从线下现实世界到线上虚拟世界的入口。线上虚拟世界创造的本意是打破信息鸿沟，让不同地域、不同需求的人
js实现图片随鼠标滚动的效果百合不是茶 JavaScript 滚动属性的获取图片滚动属性获取页面加载
1,获取样式属性值 top 与顶部的距离 left 与左边的距离 right 与右边的距离 bottom 与下边的距离 zIndex 层叠层次例子:获取左边的宽度,当css写在body标签中时 <div id="adver" style="position:absolute;top:50px;left:1000p
ajax同步异步参数async bijian1013 jquery Ajax async
开发项目开发过程中，需要将ajax的返回值赋到全局变量中，然后在该页面其他地方引用，因为ajax异步的原因一直无法成功，需将async:false，使其变成同步的。格式： $.ajax({ type: 'POST', ur
Webx3框架（1） Bill_chen eclipse spring maven 框架 ibatis
Webx是淘宝开发的一套Web开发框架，Webx3是其第三个升级版本；采用Eclipse的开发环境，现在支持java开发；采用turbine原型的MVC框架，扩展了Spring容器，利用Maven进行项目的构建管理，灵活的ibatis持久层支持，总的来说，还是一套很不错的Web框架。 Webx3遵循turbine风格，velocity的模板被分为layout/screen/control三部
【MongoDB学习笔记五】MongoDB概述 bit1129 mongodb
MongoDB是面向文档的NoSQL数据库，尽量业界还对MongoDB存在一些质疑的声音，比如性能尤其是查询性能、数据一致性的支持没有想象的那么好，但是MongoDB用户群确实已经够多。MongoDB的亮点不在于它的性能，而是它处理非结构化数据的能力以及内置对分布式的支持(复制、分片达到的高可用、高可伸缩)，同时它提供的近似于SQL的查询能力，也是在做NoSQL技术选型时，考虑的一个重要因素。Mo
spring/hibernate/struts2常见异常总结白糖_ Hibernate
Spring ①ClassNotFoundException: org.aspectj.weaver.reflect.ReflectionWorld$ReflectionWorldException 缺少aspectjweaver.jar，该jar包常用于spring aop中 ②java.lang.ClassNotFoundException: org.sprin
jquery easyui表单重置(reset)扩展思路 bozch form jquery easyui reset
在jquery easyui表单中尚未提供表单重置的功能，这就需要自己对其进行扩展。扩展的时候要考虑的控件有： combo,combobox,combogrid,combotree,datebox,datetimebox 需要对其添加reset方法，reset方法就是把初始化的值赋值给当前的组件，这就需要在组件的初始化时将值保存下来。在所有的reset方法添加完毕之后，就需要对fo
编程之美-烙饼排序 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; /* *《编程之美》的思路是：搜索+剪枝。有点像是写下棋程序：当前情况下，把所有可能的下一步都做一遍；在这每一遍操作里面，计算出如果按这一步走的话，能不能赢（得出最优结果）。 *《编程之美》上代码有很多错误，且每个变量的含义令人费解。因此我按我的理解写了以下代码： */
Struts1.X 源码分析之ActionForm赋值原理 chenbowen00 struts
struts1在处理请求参数之前，首先会根据配置文件action节点的name属性创建对应的ActionForm。如果配置了name属性，却找不到对应的ActionForm类也不会报错，只是不会处理本次请求的请求参数。如果找到了对应的ActionForm类，则先判断是否已经存在ActionForm的实例，如果不存在则创建实例，并将其存放在对应的作用域中。作用域由配置文件action节点的s
[空天防御与经济]在获得充足的外部资源之前,太空投资需有限度 comsci 资源
这里有一个常识性的问题: 地球的资源,人类的资金是有限的,而太空是无限的..... 就算全人类联合起来,要在太空中修建大型空间站,也不一定能够成功,因为资源和资金,技术有客观的限制.... &
ORACLE临时表—ON COMMIT PRESERVE ROWS daizj oracle 临时表
ORACLE临时表转临时表：像普通表一样，有结构，但是对数据的管理上不一样，临时表存储事务或会话的中间结果集，临时表中保存的数据只对当前会话可见，所有会话都看不到其他会话的数据，即使其他会话提交了，也看不到。临时表不存在并发行为，因为他们对于当前会话都是独立的。创建临时表时，ORACLE只创建了表的结构（在数据字典中定义），并没有初始化内存空间，当某一会话使用临时表时，ORALCE会
基于Nginx XSendfile+SpringMVC进行文件下载 denger 应用服务器 Web nginx 网络应用 lighttpd
在平常我们实现文件下载通常是通过普通 read-write方式，如下代码所示。 @RequestMapping("/courseware/{id}") public void download(@PathVariable("id") String courseID, HttpServletResp
scanf接受char类型的字符 dcj3sjt126com c
/* 2013年3月11日22:35:54 目的：学习char只接受一个字符 */ # include <stdio.h> int main(void) { int i; char ch; scanf("%d", &i); printf("i = %d\n", i); scanf("%
学编程的价值 dcj3sjt126com 编程
发一个人会编程, 想想以后可以教儿女, 是多么美好的事啊, 不管儿女将来从事什么样的职业, 教一教, 对他思维的开拓大有帮助像这位朋友学习: http://blog.sina.com.cn/s/articlelist_2584320772_0_1.html VirtualGS教程 (By @林泰前): 几十年的老程序员，资深的
二维数组（矩阵）对角线输出飞天奔月二维数组
今天在BBS里面看到这样的面试题目, 1，二维数组（N*N），沿对角线方向，从右上角打印到左下角如N=4： 4*4二维数组 { 1 2 3 4 } { 5 6 7 8 } { 9 10 11 12 } {13 14 15 16 } 打印顺序 4 3 8 2 7 12 1 6 11 16 5 10 15 9 14 13 要
Ehcache（08）——可阻塞的Cache——BlockingCache 234390216 并发 ehcache BlockingCache 阻塞
可阻塞的Cache—BlockingCache 在上一节我们提到了显示使用Ehcache锁的问题，其实我们还可以隐式的来使用Ehcache的锁，那就是通过BlockingCache。BlockingCache是Ehcache的一个封装类，可以让我们对Ehcache进行并发操作。其内部的锁机制是使用的net.
mysqldiff对数据库间进行差异比较 jackyrong mysqld
mysqldiff该工具是官方mysql-utilities工具集的一个脚本，可以用来对比不同数据库之间的表结构，或者同个数据库间的表结构如果在windows下，直接下载mysql-utilities安装就可以了，然后运行后，会跑到命令行下： 1）基本用法 mysqldiff --server1=admin:12345
spring data jpa 方法中可用的关键字 lawrence.li java spring
spring data jpa 支持以方法名进行查询/删除/统计。查询的关键字为find 删除的关键字为delete/remove (>=1.7.x) 统计的关键字为count (>=1.7.x) 修改需要使用@Modifying注解 @Modifying @Query("update User u set u.firstna
Spring的ModelAndView类 nicegege spring
项目中controller的方法跳转的到ModelAndView类，一直很好奇spring怎么实现的？ /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version 2.0 (the "License"); * yo
搭建 CentOS 6 服务器(13) - rsync、Amanda rensanning centos
（一）rsync Server端 # yum install rsync # vi /etc/xinetd.d/rsync service rsync { disable = no flags = IPv6 socket_type = stream wait
Learn Nodejs 02 toknowme nodejs
（1）npm是什么 npm is the package manager for node 官方网站：https://www.npmjs.com/ npm上有很多优秀的nodejs包，来解决常见的一些问题，比如用node-mysql，就可以方便通过nodejs链接到mysql，进行数据库的操作在开发过程往往会需要用到其他的包，使用npm就可以下载这些包来供程序调用 &nb
Spring MVC 拦截器 xp9802 spring mvc
Controller层的拦截器继承于HandlerInterceptorAdapter HandlerInterceptorAdapter.java 1 public abstract class HandlerInterceptorAdapter implements HandlerIntercep

BiLSTM+CRF命名体识别pytorch版本整理汇总

全文结构

一、NER资料

二、NER主流模型——BiLSTM-CRF代码详解部分（pytorch篇）

Compute log sum exp in a numerically stable way for the forward algorithm

三、模型代码扩展部分（pytorch部分）

你可能感兴趣的:(NLP,深度学习,人工智能,深度学习,机器学习)