vector<>

【文本数据挖掘】中文命名实体识别：HMM模型+BiLSTM_CRF模型（Pytorch）【调研与实验分析】

1️⃣本篇博文是【文本数据挖掘】大作业-中文命名实体识别-调研与实验分析
2️⃣在之前的自然语言课程中也完成过一次命名实体识别的实验【一起入门NLP】中科院自然语言处理作业三：用BiLSTM+CRF实现中文命名实体识别（TensorFlow入门）【代码+报告】，当时使用TensorFlow实现了一种方法，在这次实验中学习了Pytorch实现HMM模型以及BiLSTM+CRF模型。

一、任务描述
二、中文NER方法
- 1. 基于词典和规则的模式匹配方法
- 2. 基于统计机器学习的方法
- 3. 基于深度学习的方法
三、实验说明
- 1. 实验环境
- 2. 运行步骤
- 3. 目录说明
四、实验数据
五、模型概述
- 模型一：HMM
- - HMM概述
  - HMM训练
  - 维特比算法
- 模型二：BiLSTM_CRF
- - LSTM 与 BiLSTM
  - 条件随机场 CRF
六、模型评估
- HMM
- BiLSTM_CRF

一、任务描述

命名实体识别（Named Entity Recognition，NER）是自然语言处理（Natural Language Processing，NLP）领域的子任务，通常解释为从一段非结构化文本中，将那些人命名实体识别（Named Entity Recognition, NER）是指从自由文本中识别出属于预定义类别的文本片段。类通过历史实践规律认识、熟知或定义的实体识别出来，同时也代表了具有根据现有实体的构成规律发掘广泛文本中新的命名实体的能力。实体是文本中意义丰富的语义单元，识别实体的过程分为两阶段，首先确定实体的边界范围，然后将这个实体分配到所属类型中去。

比如：“ACM宣布，深度学习的三位创造者Yoshua Bengio， Yann LeCun，以及Geoffrey Hinton获得了2019年的图灵奖”。那么NER的任务就是从这句话中提取出

机构名：ACM

人名：Yoshua Bengio， Yann LeCun，Geoffrey Hinton

时间：2019年

专有名词：图灵奖

NER任务最早由第六届语义理解会议（Message Understanding Conference）提出，当时仅定义一些通用实体类别，如地点、机构、人物等。目前命名实体识别任务已经深入各种垂直领域，如医疗、金融等。

二、中文NER方法

1. 基于词典和规则的模式匹配方法

模式匹配方法应用最早，也被称作 NER 专家系统方法（Expert System，ES）。ES 要求包含专业最高水平知识，提取专家知识并将其转换为规则形式。基于词典和规则的模式匹配方法需要领域专家由语法规则等构造大量的规则模板，符合ES知识获取的定义。

模式匹配方法准确率高，但众多实体识别规则的制定依赖领域专家，领域间基本无复用。此外，领域词典需定期维护，不断涌现的新实体与实体的不规则性使得难以构造完备的词典。即使存在缺点，模式匹配方法依旧被应用，因为某些领域实体的规则可以被穷举95%以上，规则仍是提取裁判文书部分实体的首选，同时在之后的机器学习、深度学习 NER 模型中加入规则和字典能够提高准确率。

2. 基于统计机器学习的方法

统计机器学习时代，NER的发展基于大规模有标注语料库（监督数据集）的出现，从编制全面的不易变通的规则系统到期待机器通过大规模语料库的训练自动识别语言规律。语料库中的语言学知识体现在用特征模板来解释实体上下文的特征，使机器理解实体周围成分的含义，这称为特征提取，目的是为了提高统计模型的准确率。

基于统计机器学习的方法是从给定的、已标注好的训练集出发，通过人工构建特征，并根据特定的模型对文本中每个词进行标签标注，实现命名实体识别。

在基于机器学习的命名实体识别方法中，标注的词语通常使用 IOBES 标注集表示，即每个词可以用5类标签进行分类标注。因此基于机器学习的方法也称为序列标注法。

典型的基于统计机器学习的实体识别技术：

隐马尔可夫模型（Hidden Markov Model，HMM）
最大熵马尔可夫模型（Maximum Entropy Markov Model，MEMM）
支持向量机（Support Vector Machine，SVM）模型
条件随机场（Conditional Random Fields，CRF）模型

基于统计机器学习算法的命名实体识别模型对特征选取的要求较高，并且需要丰富的语料库。适用于专业性比较强的领域，可在一定程度上提高分词的准确性。

但是，统计机器学习的 NER受限于高质量的大规模标注语料库以及对丰富的、不畏惧语料变迁挑战的特征模板的需要，构建特征模板开销巨大但准确率会相应提高，因此在后续 NER 发展中，特征工程的保留也可助力实体识别。

3. 基于深度学习的方法

深度学习提供了代替复杂庞大的特征工程的解决方案，让机器自动找出潜在的特征模板集合。PLM 动态训练词向量使文本获得更好的向量化表示，进而利用特征提取器提取文本特征，再通过解码器获得预测的序列标签，具体如下：

对输入文本基于静态词向量或者动态的 PLM进行向量化表示（Input Representation，IR），具体分为基于字（character）或单词（word）的方式，或融合两种方式的信息（hybrid）进行向量化。IR 阶段需要有效地融合
词和字的信息，还可辅助以统计机器学习方法使用的特征工程。
文本编码层（Context Encoder，CE）或序列建模层，对于 IR 阶段输出的向量化文本采用特征提取器进一步提取文本特征。
标签解码层（Tag Decoder，TD），将 CE 层输出的向量输入解码网络得到最佳序列标签。

在深度学习的方法中，Word2vec-BILSTM-CRF的组合取得了当时英文NER最佳的效果，之后被应用到中文NER中，深度学习时代BERT-BILSTM-CRF的组合
也成为了性能提升时的参照。表深度学习准确率高，但仍需要大规模的标注数据集和高资源的算力，PLM 的应用对于小模型的训练是一种负担。

三、实验说明

1. 实验环境

Windows os
python 3.6.2
torch 1.2.0+cpu

2. 运行步骤

python3 main.py：训练和评估模型，会打印出模型的精确率、召回率、F1分数值以及混淆矩阵。
python3 test.py：训练完毕之后加载模型进行评估

3. 目录说明

│  data.py：数据处理与加载脚本
│  evaluate.py：验证脚本
│  evaluating.py：用于评价模型，计算每个标签的精确率，召回率，F1分数
│  main.py：主函数
│  output.txt：保存模型测试结果
│  test.py：测试脚本
│  utils.py
│          
├─ckpts：保存训练完成后的模型
│      bilstm_crf.pkl
│      hmm.pkl
│           
├─models：具体的模型实现
│    bilstm_crf.py
│    config.py：模型参数与训练参数
│    crf.py
│    hmm.py
│    util.py：工具函数
│     
├─ResumeNER：测试/验证/训练语料
│      dev.char.bmes
│      test.char.bmes
│      train.char.bmes

四、实验数据

本实验采用的数据集是论文ACL 2018Chinese NER using Lattice LSTM中从新浪财经收集的简历数据，数据的格式如下，它的每一行由一个字及其对应的标注组成，标注集采用BIOES（B表示实体开头，E表示实体结尾，I表示在实体内部，O表示非实体），句子之间用一个空行隔开。

董 B-TITLE
事 M-TITLE
会 M-TITLE
秘 M-TITLE
书 E-TITLE
、 O
副 B-TITLE
总 M-TITLE
经 M-TITLE
理 E-TITLE
。 O

张 B-NAME
雁 M-NAME
冰 E-NAME

五、模型概述

模型一：HMM

HMM概述

隐马尔可夫模型描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。隐马尔可夫模型由 A，B，π 唯一确定，A，B，π 称为隐马尔可夫模型的三要素。

隐马尔可夫研究两件事情变化规律互相影响的问题，在这个例子中，天气的变化会影响海藻的状态（天气晴朗时海藻变得干燥）。

状态序列Q：表示起决定的后台本质（晴天，雨天…）
观察序列O：表示观察到的前台表象（潮湿，干燥…）
π ：表示初始状态，也就是状态序列的起始值
转移矩阵A：描述前后时刻状态变化的概率。比如，当前时刻是雨，下一个时刻是云的概率是0.3，当前时刻是云，下一个时刻是晴的概率是0.8
观测概率矩阵B：描述同一时刻从某一状态推出某一个表象的概率。比如，当前晴推出海藻干燥的概率是0.6，阴天推出海藻干燥的概率是0.25。

上述五元组构成了HMM的基本结构。此外，隐马尔可夫模型两个假设

观测变量仅依赖于当前时刻的状态变量。（绿色箭头）
当前状态仅依赖于前一时刻的状态。（红色箭头）

NER本质上可以看成是一种序列标注问题（预测每个字的BIOES标记），在使用HMM解决NER这种序列标注问题的时候，我们所能观测到的是字组成的序列（观测序列），观测不到的是每个字对应的标注（状态序列）。

对应的，HMM的三个要素可以解释为，初始状态分布就是每一个标注作为句子第一个字的标注的概率，状态转移概率矩阵就是由某一个标注转移到下一个标注的概率，观测概率矩阵就是指在某个标注下，生成某个词的概率。根据HMM的三个要素，我们可以定义如下的HMM模型:

   """Args:
            N: 状态数，这里对应存在的标注的种类
            M: 观测数，这里对应有多少不同的字
        """
        self.N = N
        self.M = M

        # 状态转移概率矩阵 A[i][j]表示从i状态转移到j状态的概率
        self.A = torch.zeros(N, N)
        # 观测概率矩阵, B[i][j]表示i状态下生成j观测的概率
        self.B = torch.zeros(N, M)
        # 初始状态概率  Pi[i]表示初始时刻为状态i的概率
        self.Pi = torch.zeros(N)

HMM训练

HMM模型的训练过程对应隐马尔可夫模型的学习问题，实际上是根据最大似然的方法估计模型的三个要素，即上文提到的初始状态分布、状态转移概率矩阵以及观测概率矩阵。在估计初始状态分布的时候，假如某个标记在数据集中作为句子第一个字的标记的次数为k，句子的总数为N，那么该标记作为句子第一个字的概率可以近似估计为k/N，使用这种方法，近似估计HMM的三个要素。

模型训练完毕之后，要利用训练好的模型进行解码，给定模型未见过的句子，求句子中的每个字对应的标注，针对这个解码问题，使用的方法是维特比（viterbi）算法。

维特比算法

Viterbi 搜索算法：利用动态规划使用递归来降低计算复杂度

如果概率最大路径（或说最短路径）经 i 时刻某个点，一定可以找到S到该点的最短路径（可将i时刻点的最短路径记录）
从S到E 的路径必定经过 i时刻的某个点
当从状态 i 进入到i+1状态时计算S到i+1 状态时，只考虑 i状态所有节点最短路径和和它们到 i+1状态的距离即可。

模型二：BiLSTM_CRF

模型结构如下图所示，输入层最主要的是look-up层处理得到词嵌入；中间神经网络层是一个双向LSTM，输出时经过一个softmax；最后在转移矩阵A的限制下，通过CRF层得到预测标签

LSTM 与 BiLSTM

LSTM用来解决普通RNN模型存在的长距离依赖问题：距当前节点越远的节点对当前节点处理影响越小，无法建模长时间依赖。
RNN由很多循环的单元构成，在标准的RNN中，这个重复的单元只有一个非常简单的结构，比如一个tahn层。
LSTM同样也是循环的结构，只是这个重复的单元开始变得复杂起来。
在上面的图例中，每一条黑线传输着一整个向量，从一个节点的输出到其他节点的输入。粉色的圈代表 pointwise 的操作，诸如向量的和，而黄色的矩阵就是学习到的神经网络层。合在一起的线表示向量的连接，分开的线表示内容被复制，然后分发到不同的位置。
LSTM 的关键就是细胞状态，水平线在图上方贯穿运行。细胞状态类似于传送带。直接在整个链上运行，只有一些少量的线性交互。信息在上面流传保持不变会很容易。
LSTM 有通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个 pointwise 乘法操作。下图是一个门结构：
Sigmoid 层输出 0 到 1 之间的数值，描述每个部分有多少量可以通过。0 代表“不许任何量通过”，1 就指“允许任意量通过”。LSTM 拥有三个门，来保护和控制细胞状态。
遗忘门：决定从细胞状态中丢弃什么信息。
输入门：决定什么样的新信息会被存入细胞状态
输出门：决定输出什么样的值
LSTM都只能依据之前时刻的时序信息来预测下一时刻的输出，但在有些问题中，当前时刻的输出不仅和之前的状态有关，还可能和未来的状态有关系。比如预测一句话中缺失的单词不仅需要根据前文来判断，还需要考虑它后面的内容，真正做到基于上下文判断。
所谓的Bi-LSTM可以看成是两层神经网络，第一层从左边作为系列的起始输入，在文本处理上可以理解成从句子的开头开始输入，而第二层则是从右边作为系列的起始输入，在文本处理上可以理解成从句子的最后一个词语作为输入，反向做与第一层一样的处理处理。最后对得到的两个结果进行处理。

条件随机场 CRF

仅使用BiLSTM和softmax的模型会出现一些问题。如果不使用条件随机场，经过softmax之后，会挑选一个概率最大的标签输出，第一列最大的是0.14，那么对应“中”的标签就应该是B-Location(B代表Begin)，代表地名的开始；第二列概率中最大的是0.31，其对应的标签仍然为B-Location，很显然，两个挨着的字是不可能都为地名的开始，那么要如何解决问题这个问题呢？这就是条件随机场的工作了

之所以会出现连续的两个B，是因为输出之间没有限制条件，应该告诉模型，如果前一个字是Begin，后一个字的标签就不能是Begin。那么 CRF是如何完成这样的限制的呢? 它是通过一个转移矩阵规定输出序列的概率做到的。

在这个矩阵中，第一行第一列代表前一个字是B-Location，后一个字是B-Location的概率，根据上文的描述，这个概率应该非常小，甚至是0。那么加入了CRF之后的模型结构就应该是下图所示：

六、模型评估

TP：将正类预测为正类数；
FN：将正类预测为负类数；
FP：将负类预测为正类数；
TN：将负类预测为负类数；

评价指标：

F1值： = /( + + )
召回率： = /( + )
准确率： = （ + ）/( + + + )

HMM

            precision    recall  f1-score  
   B-RACE     1.0000    0.9286    0.9630     
    E-LOC     0.5000    0.5000    0.5000        
   E-NAME     0.9000    0.8036    0.8491       
  E-TITLE     0.9514    0.9637    0.9575       
    B-LOC     0.3333    0.3333    0.3333       
  M-TITLE     0.9038    0.8751    0.8892      
   M-NAME     0.9459    0.8537    0.8974      
   B-CONT     0.9655    1.0000    0.9825      
    M-EDU     0.9348    0.9609    0.9477     
   B-NAME     0.9800    0.8750    0.9245      
    E-PRO     0.6512    0.8485    0.7368    
    M-ORG     0.9002    0.9327    0.9162      
   E-RACE     1.0000    0.9286    0.9630        
   E-CONT     0.9655    1.0000    0.9825        
    B-EDU     0.9000    0.9643    0.9310       
    M-PRO     0.4490    0.6471    0.5301       
    B-ORG     0.8422    0.8879    0.8644      
    E-ORG     0.8262    0.8680    0.8466       
    B-PRO     0.5581    0.7273    0.6316       
    M-LOC     0.5833    0.3333    0.4242        
        O     0.9568    0.9177    0.9369      
   M-CONT     0.9815    1.0000    0.9907        
  B-TITLE     0.8811    0.8925    0.8867      
    E-EDU     0.9167    0.9821    0.9483       

avg/total     0.9149    0.9122    0.9130

BiLSTM_CRF

            precision    recall  f1-score   
   B-RACE     1.0000    0.9286    0.9630        
    E-LOC     1.0000    0.8333    0.9091        
   E-NAME     0.9904    0.9196    0.9537       
  E-TITLE     0.9819    0.9819    0.9819       
    B-LOC     1.0000    1.0000    1.0000        
  M-TITLE     0.9439    0.8933    0.9179    
   M-NAME     0.9277    0.9390    0.9333        
   B-CONT     1.0000    1.0000    1.0000      
    M-EDU     0.9598    0.9330    0.9462      
   B-NAME     1.0000    0.8929    0.9434      
    E-PRO     0.9091    0.9091    0.9091        
    M-ORG     0.9680    0.9593    0.9637      
   E-RACE     1.0000    1.0000    1.0000       
   E-CONT     1.0000    1.0000    1.0000       
    B-EDU     0.9561    0.9732    0.9646     
    M-PRO     0.7927    0.9559    0.8667       
    B-ORG     0.9658    0.9693    0.9675      
    E-ORG     0.9276    0.9042    0.9158       
    B-PRO     0.8788    0.8788    0.8788        
    M-LOC     1.0000    1.0000    1.0000        
        O     0.9558    0.9873    0.9713      
   M-CONT     1.0000    1.0000    1.0000        
  B-TITLE     0.9434    0.9288    0.9360      
    E-EDU     0.9820    0.9732    0.9776       

avg/total     0.9580    0.9575    0.9575

参考：NLP实战-中文命名实体识别需要将data.py文件中的 word, tag = line.strip(‘\n’).split()改为 word, tag = line.strip(‘\r\n’).split()

Prompt Engineering 指南教程班磊闯Andrea
PromptEngineering指南教程Prompt-Engineering-Guidedair-ai/Prompt-Engineering-Guide:是一个用于指导对话人工智能开发的文档。适合用于学习对话人工智能开发和自然语言处理。特点是提供了详细的指南和参考资料，涵盖了多种对话人工智能技术和算法，并且可以自定义学习路径和行为。项目地址:https://gitcode.com/gh_mirr
电子词典开源项目源代码完全解析
本文还有配套的精品资源，点击获取简介：电子词典作为数字化学习工具，已由传统硬件发展为可定制的开源软件应用。本源代码提供深入理解其工作机制的机会，包括用户界面设计、词典数据库、查询引擎、翻译算法等。源代码通常由主流编程语言编写，涉及到数据结构与算法、UI设计、数据库管理、自然语言处理、本地化与多语言支持、版本控制、软件工程、API接口以及开源社区的协作和交流。1.电子词典工作原理和定制功能电子词典工
Python知识点：如何使用Nvidia Jetson与Python进行边缘计算杰哥在此 Python系列 python 边缘计算开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用NvidiaJetson与Python进行边缘计算NvidiaJetson平台是专为边缘计算设计的一系列AI计算机，它们能够处理和分析来自物联网(IoT)设备和边缘节点的数据。这些设备小巧、节能且功能强大，非常适合用于执行机器学习、计算机视觉和自然语言处理等任务。Python
AI人工智能领域：Bard的崛起之路 AIGC应用创新大全人工智能 bard ai
AI人工智能领域：Bard的崛起之路关键词：Bard、GoogleAI、大语言模型、对话式AI、自然语言处理、生成式AI、AI竞争摘要：本文深入探讨GoogleBard的发展历程、技术架构及其在AI领域的地位。我们将从Bard的诞生背景开始，分析其核心技术原理，比较与其他大语言模型的异同，并通过实际案例展示其应用场景。最后展望Bard的未来发展方向及面临的挑战。背景介绍目的和范围本文旨在全面解析G
Python程序设计第6章：函数和函数式编程若北辰 Python程序设计 python 开发语言
Python程序设计Python是全球范围内最受欢迎的编程语言之一，学好Python将对个人职业生涯产生很大的助力，Python在机器学习、深度学习、数据挖掘等领域应用极为广泛。在数据科学家/数据分析师、人工智能工程师、网络安全工程师、软件工程师/全栈工程师、自动化测试工程师等岗位，年入50万，很普遍，学好Python，高薪就业不是问题，因此推出Python程序设计系列文章：Python程序设计第
pytorch底层原理学习--PyTorch 架构梳理 xinxiangwangzhi_ 深度学习 pytorch 架构人工智能
文章目录PyTorch完整架构流程图关键组件详解完整执行流程示例PyTorch架构梳理PyTorch完整架构流程图硬件层后端层C++部署层核心引擎(libtorchC++)绑定层Python层加载调用训练模式编译模式推理模式生成CPUGPUCPUKernelsCUDAKernelsC++代码torch::jit::load('model.pt')module.forward(inputs)libt
pytorch底层原理学习--Libtorch
libtorchlibtorch是PyTorch的C++实现版本，可以认为所有的pytorch底层都是由c++实现，而pytorch的所有C++实现就叫libtorch，也就是我们在pytorch官网getstart页面下载的c++pytorch版本。我们用python写的pytorch神经网络代码都会通过pybind11将python转换为libtorch的C++代码。[官方文档](PyTorc
如何在pytorch中使用tqdm：优雅实现训练进度监控 Ven% 简单入门pytorch pytorch 人工智能 python
文章目录为什么需要进度条？tqdm简介基础用法示例深度学习中的实战应用1.数据加载进度监控2.训练循环增强版3.验证阶段集成高级技巧与最佳实践1.自定义进度条样式2.嵌套进度条（多任务）3.分布式训练支持4.与日志系统集成性能优化建议完整训练流程示例常见问题解决方案总结掌握训练进度监控是深度学习工程师的基本功。本文将带你从零开始，深入探索如何用tqdm为深度学习训练添加专业级进度条。为什么需要进度
从零开始理解Transformer模型：架构与应用淮橘√ transformer 深度学习人工智能
引言近年来，Transformer模型席卷了自然语言处理（NLP）领域，成为了深度学习中的明星架构。从Google提出的《AttentionisAllYouNeed》论文到ChatGPT、BERT等模型的广泛应用，Transformer以其强大的性能和灵活性改变了我们对序列建模的认知。本文将从零开始，深入浅出地解析Transformer的架构原理、核心组件以及实际应用场景，并提供一个简单的代码示例
揭秘自然语言处理在AI人工智能领域的奥秘 AI智能探索者 AI Agent 智能体开发实战人工智能自然语言处理 easyui ai
揭秘自然语言处理在AI人工智能领域的奥秘关键词：自然语言处理、AI人工智能、语言理解、语言生成、语义分析摘要：本文深入探讨了自然语言处理（NLP）在AI人工智能领域的奥秘。首先介绍了自然语言处理的背景，包括目的、预期读者、文档结构和相关术语。接着阐述了自然语言处理的核心概念与联系，通过文本示意图和Mermaid流程图进行展示。详细讲解了核心算法原理和具体操作步骤，并用Python源代码进行阐述。分
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
数据挖掘关联规则挖掘 Apriori算法 C++实现王者灵梦数据挖掘 c++机器学习
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Apriori是什么，大致步骤？二、全部代码全部代码总结前言本文只是基于课程作业的相关理解，请谨慎参考，如有不妥，欢迎各位批评指正。一、Apriori是什么，大致步骤？示例：Apriori算法是一种最有影响的布尔关联规则频繁项集的算法，Apriori使用一乘坐逐层扫描的迭代方法，“K-1”项集用于搜索“K”项集。大致步
WRFDA资料同化系统在区域数值预报中的参数优化与敏感性分析 jwwkyjspt 水文大气气象气象海洋大气水文
数值预报已经成为提升预报质量的重要手段，而模式初值质量是决定数值预报质量的重要环节。资料同化作为提高模式初值质量的有效方法，成为当前气象、海洋和大气环境和水文等诸多领域科研、业务预报中的关键科学方法。资料同化新方法的快速发展，气象常规资料、卫星遥感观测和大气环境等多种资料日益增加，为资料同化的有效应用奠定了坚实的科学基础，也导致许多新的复杂科学问题，增加了实际应用的难度。为有效提升广大科研、业务人
回归预测 | MATLAB实现LSTM-SVR(长短期记忆神经网络-支持向量机)多输入单输出 matlab科研社神经网络回归 matlab
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍长短期记忆神经网络(LSTM)作为一种循环神经网络(RNN)的变体，擅长处理序列数据并捕捉长期依赖关系，而支持向量机(SVR)则是一种强大的回归算法，能够有效地处理高维数据并防止过拟合。将两者结合的LSTM
智能办公与科研革命：ChatGPT+DeepSeek大模型在论文撰写、数据分析与AI建模中的实践指南 jwwkyjspt 机器学习 SCI论文人工智能 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
【机器学习&深度学习】模型微调的基本概念与流程一叶千舟深度学习【理论】机器学习深度学习人工智能
目录前言一、什么是模型微调（Fine-tuning）？二、预训练vs微调：什么关系？三、微调的基本流程（以BERT为例）1️⃣准备数据2️⃣加载预训练模型和分词器3️⃣数据编码与加载4️⃣定义优化器5️⃣开始训练6️⃣评估与保存模型四、是否要冻结BERT层？五、完整训练示例代码5.1环境依赖5.2执行代码总结：微调的优势前言在自然语言处理（NLP）快速发展的今天，预训练模型如BERT成为了众多任务
linux深度学习问题汇总不想改代码备忘录 linux python 深度学习 pytorch 人工智能 1024程序员节
目录一、异常问题1.segementationfault(coredump)2.Illegalinstruction(coredumped)3.死锁4.掉卡二、通用方法1.查看重启记录2.系统性能监控3.后台执行命令4.异常日志三、深度学习技术1.普通网络改DDP训练，单机多卡，pytorch四、专业内容方法1.微调diffusion类模型本文记录一些在使用linux服务器进行深度学习时遇到的问题
LabVIEW荧光微管图像模拟 LabVIEW开发 LabVIEW开发案例 LabVIEW设备控制 LabVIEW知识 LabVIEW程序 LabVIEW开发案例 LabVIEW知识
利用LabVIEW平台，集成PI压电平台、Nikon荧光显微镜及AndorsCMOS相机等硬件，构建荧光微管滑行实验图像序列模拟系统。通过程序化模拟微管运动轨迹、荧光标记分布及显微成像过程，为生物医学领域微管跟踪算法测试、运动特性分析提供标准化仿真环境，解决传统实验中手动跟踪效率低、误差大及硬件漂移等问题。应用场景科研算法验证：高校及科研机构用于验证微管跟踪软件（如MTrack2）在不同运动轨迹下
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研 Yolo566Q chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等 xiao5kou4chang6kai4 人工智能深度学习机器学习 rnn 语言模型 lstm 深度学习机器学习人工智能 DeepSeek
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模 asyxchenchong888 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等科研应用科研的力量人工智能 ChatGPT chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
AI编程实战：Cursor黑科技全解析 ithadoop python 开发语言
Cursor黑科技：AI编程实战核心技术解析2025年智能编程工具效能革命白皮书一、核心功能架构语义驱动开发基于CodeGraph技术构建跨文件语义图谱，实现类/函数级上下文感知实时生成UML时序图辅助架构设计（快捷键Ctrl+Alt+U）多模态编程#输入："PyTorch实现ResNet50猫狗分类，带数据增强"@AI生成代码transform=transforms.Compose([trans
InteraXon 与 Muse 脑波头环：开启脑机交互与脑健康新时代 Scivaro_陈耀栋 InteraXon 脑机接口人因工程人工智能 EEG InteraXon Muse 脑电
作者：科采通|CSDN专栏一、公司简介InteraXon成立于2009年，总部位于加拿大多伦多，是一家专注于神经科技（Neurotechnology）的创新企业。其旗舰产品Muse脑波头环，是一款面向普通消费者和科研人员的脑电（EEG）设备，致力于通过脑机接口（BCI）技术帮助用户提升认知功能、减轻压力和改善睡眠。InteraXon由神经科学家、工程师和设计师组成的小团队起步，现已发展为拥有全球用
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- PaddleOCR实例化 OCR 对象的参数介绍云天徽上 PaddleOCR python ocr 开发语言人工智能文字识别
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
从零开始大模型开发与微调：PyTorch中的卷积函数实现详解 AI天才研究院 AI人工智能与大数据 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：PyTorch中的卷积函数实现详解1.背景介绍1.1大模型开发的意义1.2卷积神经网络在大模型中的应用1.3PyTorch框架简介2.核心概念与联系2.1卷积的数学定义2.2卷积神经网络的组成2.2.1卷积层2.2.2池化层2.2.3全连接层2.3卷积与大模型的关系3.核心算法原理具体操作步骤3.1卷积的前向传播3.2卷积的反向传播3.3卷积的优化策略3.3.1卷积核大小
PyTorch里.pt和.pth的区别 sky丶Mamba AI pytorch 人工智能 python
在PyTorch中，.pt和.pth文件均用于保存模型，但两者在设计初衷、存储内容和使用场景上存在差异。以下是详细对比：1.核心区别特性.pt文件.pth文件存储内容完整模型（结构+参数+优化器状态等）仅模型参数（state_dict）文件大小较大（包含额外元数据）较小（仅参数）加载方式直接加载，无需定义模型结构需先实例化模型，再加载参数适用场景部署、跨环境迁移训练中断恢复、参数共享2.技术细节.
深入理解 PyTorch 中的自动微分机制与 `.detach()` 用法全解析 Accelemate pytorch 人工智能 python 深度学习 gan torch
作者：Accelemate发布时间：2025年6月26日本文摘要：本文将从零开始，系统性地讲解PyTorch中的计算图、反向传播、withtorch.no_grad()、.detach()等核心机制，结合实践场景如可视化中间层特征图、GAN模型中对生成器的冻结操作等内容，帮助你在实际开发中灵活、正确地使用自动微分特性。一、自动微分基础概念1.1什么是自动微分（Autograd）？PyTorch的自
PyTorch 中 nn.Linear() 参数详解与实战解析（gpt）草莓奶忻深度学习 pytorch gpt 人工智能
PyTorch中nn.Linear()参数详解与实战解析在使用PyTorch构建神经网络时，nn.Linear()是最常用也最基础的模块之一。它用于实现一个全连接层（FullyConnectedLayer），本质上就是对输入进行一次线性变换：y=xAT+by=xA^T+by=xAT+b本文将详细介绍nn.Linear()的参数含义、属性说明、初始化机制，并结合实际代码案例帮助你真正理解它的工作原理
YOLOv12_ultralytics-8.3.145部分代码阅读笔记-utils.py 红色的山茶花 YOLO 笔记深度学习
utils.pyultralytics\nn\modules\utils.py目录utils.py1.所需的库和模块2.def_get_clones(module,n):3.definverse_sigmoid(x,eps=1e-5):4.defmulti_scale_deformable_attn_pytorch(value:torch.Tensor,value_spatial_shapes:t
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后