敷衍zgf

隐马尔可夫模型(HMM)实现命名实体识别(NER)

一、命名实体识别(Named Entity Recognition，NER)

识别文本中具有特定意义的实体，包括人名、地名、机构名、专有名词等等
在使用的NER数据集中包含七个标签：

“B-ORG” : 组织或公司(organization)
“I-ORG” ：组织或公司
“B-PER” ：人名(Person)
“I-PER” ：人名
“O” ：其他非实体(other)
“B-LOC” ：地名(location)
“I-LOC” ：地名

文本中以每一个字为单位，每一个字对应上面的任一种标签。
标签前面有分为B和I，"B"表示begin，实体开头的那个字，在实体中间或者结尾部分，，用”I“来标注。

例如：自(B-PER)贸(I-LOC)区(I-LOC)，这是一个错误的标注，原因是我们以(B-PER)开头，那么后面的应该是I-PER类型，而不是其他类型。

由此，我们可以发现，仅仅采用语言模型（Bert 或者 LSTM）进行标注的话会产生很多的错误标注，我们需要在语言模型后加上概率图模型（条件随机场）由来约束模型的输出，从而达到防止输出不合法的标注。

二、一个栗子

采用训练好的隐马尔可夫模型进行实体标注

from HMM_model import *
model = HMM_NER(char2idx_path="./dicts/char2idx.json",
                tag2idx_path="./dicts/tag2idx.json")
model.fit("./corpus/train_data.txt")
model.predict("我在西区300318教室上清华大学的自然语言处理课程")

识别人名

text = "张吉惟、林国瑞、林玟书、林雅南、江奕云、刘柏宏、阮建安、林子帆"
model.predict(text)

三、什么是隐马尔可夫模型

隐马尔可夫模型又称隐马模型又称HMM，是概率图模型之一，我们常见的贝叶斯模型也是概率图模型之一。
HMM属于生成模型，上面描述的BIO实体标签就是一个不可观测的隐藏状态，而HMM模型描述的就是由这些隐藏状态序列(实体标记)生成可观测结果(可读文本)的过程。

例如
隐藏状态序列： B-ORG | I-ORG | I-ORG | I-ORG |
观测结果序列：清华大学

假设可观测状态序列是由所有汉字组成的集合，用来表示：
={v₁，v₂，… ，v_M} v表示字典中的单个字，假设已知字数为M

假设所有可能的隐藏状态集合为 _ℎ , 一共有种隐藏状态, 例如现在的命名实体识别数据里面只有7种标签: _ℎ = {q₁，q₂， … ，q_N}

假设有观测到的一串自然语言序列文本 , 一共有个字, 又有这段观测到的文本所对应的实体标记, 也就是隐状态 : = {i₁，i₂，… ，i_T}（隐状态）
O = {o₁，o₂，… ，o_T}（观测）

上述式子中常称为时刻, 如上式中一共有个时刻( 个汉字).

HMM模型有两个基本假设: 灰常重要！！！
1. 第个隐状态(实体标签)只跟前一时刻的 −1 隐状态(实体标签)有关, 与除此之外的其他隐状态无关.
例如上图中: 蓝色的部分指的是只与 ₋₁ 有关, 而与蓝色区域之外的所有内容都无关, 而 (|₋₁) 指的是隐状态从 −1 时刻转向时刻的概率
2. 观测独立的假设, HMM模型中是由隐状态序列(实体标记)生成可观测状态(可读文本)的过程, 观测独立假设是指在任意时刻观测只依赖于当前时刻的隐状态 , 与其他时刻的隐状态无关.
例如上图中: 粉红色的部分指的是 ₊₁ 只与 ₊₁ 有关, 跟粉红色区域之外的所有内容都无关。

四、HMM模型的参数

1. HMM的转移概率(transition probabilities):
我们上面提到了 (|₋₁) 指的是隐状态从 −1 时刻转向时刻的概率, 比如说我们现在实体标签一共有 7 种, 也就是 =7 (注意是所有可能的实体标签种类的集合), 也就是 _ℎ={₀,₁,…,₆} (注意我们实体标签编号从 0 算起), 假设在 −1 时刻任何一种实体标签都可以在时刻转换为任何一种其他类型的实体标签, 则总共可能的转换的路径一共有 ² 种, 所以我们可以做一个 ∗ 的矩阵来表示所有可能的隐状态转移概率.

=(=|_-1=)∈_ℎ
对A矩阵的每一行求和概率之和为1

2. HMM的发射概率(emission probabilities):
我们上面提到任意时刻观测 _t只依赖于当前时刻的隐状态 , 也就是 (|) , 也叫做发射概率, 指的是隐状态生成观测结果的过程. 设字典里有个字, .={₀,₁,…,₋₁} (注意这里下标从0算起, 所以最后的下标是 −1 , 一共有种观测), 则每种实体标签(隐状态)可以生成种不同的汉字(也就是观测), 这一过程可以用一个发射概率矩阵来表示, 他的维度是 ∗ .

=(=|=) ∈_ℎ ∈={₀,₁,…,₋₁}

3. HMM的初始隐状态概率:（）
通常用来表示, 注意这里可不是圆周率:
=(₁=) ∈_ℎ={₀,₁,…,₋₁}

上式指的是自然语言序列中第一个字 ₁ 的实体标记是的概率, 也就是初始隐状态概率.

五、用HMM解决序列标注问题(HMM的学习算法)

我们现在已经了解了HMM的三大参数 , , , 假设我们已经通过建模学习, 学到了这些参数, 得到了模型的概率, 我们怎么使用这些参数来解决序列标注问题呢?

假设目前在时刻 , 我们有当前时刻的观测到的一个汉字 = (指的第时刻观测到汉字), 假设我们还知道在 −1 时刻(前一时刻)对应的实体标记类型 ₋₁=̂⁻¹ (指的 −1 时刻标记为 ̂⁻¹ ). 我们要做的仅仅是列举所有可能的实体标记 ̂ , 并求可以使下式输出值最大的那个实体类型 (也就是隐状态类型):

将所有时刻当前可取的实体标签带入下式中, 找出一个可以使下式取值最大的那个实体标签作为当前字的标注:
(当前可取实体标签|上一时刻实体标签)(测到的汉字|当前可取实体标签)
注意: 这里只讲到了怎样求第时刻的最优标注, 但是在每一时刻进行这样的计算, 并不一定能保证最后能得出全局最优序列路径, 例如在第时刻最优实体标签是 , 但到了下一步, 由于从转移到其他某些实体标签的转移概率比较低, 而降低了经过的路径的整体概率, 所以到了下一时刻最优路径就有可能在第时刻不经过了, 所以每一步的局部最优并不一定可以达成全局最优, 所以之后会用到维特比算法来找到全局最优的标注序列.
HMM参数学习(监督学习): 要用HMM解决的是序列标注问题, 所以解决的是监督学习的问题. 也就是说现在有一些文本和与之对应的标注数据, 要训练一个HMM来拟合这些数据, 以便之后用这个模型进行数据标注任务, 最简单的方式是直接用极大似然估计来估计参数:
1. 初始隐状态概率的参数估计:

上式指的是, 计算在第 1 时刻, 也就是文本中第一个字, ¹ 出现的次数占总第一个字 ₁ 观测次数的比例, ¹上标1指的是第1时刻, 下标指的是第种标签(隐状态), 是的是记录次数.
2. 转移概率矩阵的参数估计:
之前提到过里面 (矩阵的第i行第j列)指的是在时刻实体标签为 , 而在 +1 时刻实体标签转换到的概率, 则转移概率矩阵的参数估计相当与一个二元模型 , 也就是把所有的标注序列中每相邻的两个实体标签分成一组, 统计他们出现的概率:

3. 发射概率矩阵的参数估计:
我们提到过中的 (矩阵第j行第k列)指的是在时刻由实体标签(隐状态) 生成汉字(观测结果) 的概率.

综上，根据上面的方式得到模型的参数 , , 的估计.

六、代码实现

import numpy as np
from utils import *
from tqdm import tqdm


class HMM_NER:
    def __init__(self, char2idx_path, tag2idx_path):
        # 载入一些字典
        # char2idx: 字 转换为 token
        self.char2idx = load_dict(char2idx_path)
        # tag2idx: 标签转换为 token
        self.tag2idx = load_dict(tag2idx_path)
        # idx2tag: token转换为标签
        self.idx2tag = {v: k for k, v in self.tag2idx.items()}
        # 初始化隐状态数量(实体标签数)和观测数量(字数)
        self.tag_size = len(self.tag2idx)
        self.vocab_size = max([v for _, v in self.char2idx.items()]) + 1
        # 初始化A, B, pi为全0
        self.transition = np.zeros([self.tag_size,
                                    self.tag_size])
        self.emission = np.zeros([self.tag_size,
                                  self.vocab_size])
        self.pi = np.zeros(self.tag_size)
        # 偏置, 用来防止log(0)或乘0的情况
        self.epsilon = 1e-8

    def fit(self, train_dic_path):
        """
        fit用来训练HMM模型
        :param train_dic_path: 训练数据目录
        """
        print("initialize training...")
        train_dic = load_data(train_dic_path)
        # 估计转移概率矩阵, 发射概率矩阵和初始概率矩阵的参数
        self.estimate_transition_and_initial_probs(train_dic)
        self.estimate_emission_probs(train_dic)
        # take the logarithm
        # 取log防止计算结果下溢
        self.pi = np.log(self.pi)
        self.transition = np.log(self.transition)
        self.emission = np.log(self.emission)
        print("DONE!")


    def estimate_emission_probs(self, train_dic):
        """
        发射矩阵参数的估计
        estimate p( Observation | Hidden_state )
        :param train_dic:
        :return:
        """
        print("estimating emission probabilities...")
        for dic in tqdm(train_dic):
            for char, tag in zip(dic["text"], dic["label"]):
                self.emission[self.tag2idx[tag],
                              self.char2idx[char]] += 1
        self.emission[self.emission == 0] = self.epsilon
        self.emission /= np.sum(self.emission, axis=1, keepdims=True)


    def estimate_transition_and_initial_probs(self, train_dic):
        """
        转移矩阵和初始概率的参数估计, 也就是bigram二元模型
        estimate p( Y_t+1 | Y_t )
        :param train_dic:
        :return:
        """
        print("estimating transition and initial probabilities...")
        for dic in tqdm(train_dic):
            for i, tag in enumerate(dic["label"][:-1]):
                if i == 0:
                    self.pi[self.tag2idx[tag]] += 1
                curr_tag = self.tag2idx[tag]
                next_tag = self.tag2idx[dic["label"][i+1]]
                self.transition[curr_tag, next_tag] += 1
        self.transition[self.transition == 0] = self.epsilon
        self.transition /= np.sum(self.transition, axis=1, keepdims=True)
        self.pi[self.pi == 0] = self.epsilon
        self.pi /= np.sum(self.pi)

    def get_p_Obs_State(self, char):
        # 计算p( observation | state)
        # 如果当前字属于未知, 则讲p( observation | state)设为均匀分布
        char_token = self.char2idx.get(char, 0)
        if char_token == 0:
            return np.log(np.ones(self.tag_size)/self.tag_size)
        return np.ravel(self.emission[:, char_token])

    def predict(self, text):
        # 预测并打印出预测结果
        # 维特比算法解码
        if len(text) == 0:
            raise NotImplementedError("输入文本为空!")
        best_tag_id = self.viterbi_decode(text)
        self.print_func(text, best_tag_id)

    def print_func(self, text, best_tags_id):
        # 用来打印预测结果
        for char, tag_id in zip(text, best_tags_id):
            print(char+"_"+self.idx2tag[tag_id]+"|", end="")

    def viterbi_decode(self, text):
        """
        维特比解码, 详见视频教程或文字版教程
        :param text: 一段文本string
        :return: 最可能的隐状态路径
        """
        # 得到序列长度
        seq_len = len(text)
        # 初始化T1和T2表格
        T1_table = np.zeros([seq_len, self.tag_size])
        T2_table = np.zeros([seq_len, self.tag_size])
        # 得到第1时刻的发射概率
        start_p_Obs_State = self.get_p_Obs_State(text[0])
        # 计算第一步初始概率, 填入表中
        T1_table[0, :] = self.pi + start_p_Obs_State
        T2_table[0, :] = np.nan

        for i in range(1, seq_len):
            # 维特比算法在每一时刻计算落到每一个隐状态的最大概率和路径
            # 并把他们暂存起来
            # 这里用到了矩阵化计算方法, 详见视频教程
            p_Obs_State = self.get_p_Obs_State(text[i])
            p_Obs_State = np.expand_dims(p_Obs_State, axis=0)
            prev_score = np.expand_dims(T1_table[i-1, :], axis=-1)
            # 广播算法, 发射概率和转移概率广播 + 转移概率
            curr_score = prev_score + self.transition + p_Obs_State
            # 存入T1 T2中
            T1_table[i, :] = np.max(curr_score, axis=0)
            T2_table[i, :] = np.argmax(curr_score, axis=0)
        # 回溯
        best_tag_id = int(np.argmax(T1_table[-1, :]))
        best_tags = [best_tag_id, ]
        for i in range(seq_len-1, 0, -1):
            best_tag_id = int(T2_table[i, best_tag_id])
            best_tags.append(best_tag_id)
        return list(reversed(best_tags))

if __name__ == '__main__':
    model = HMM_NER(char2idx_path="./dicts/char2idx.json",
                    tag2idx_path="./dicts/tag2idx.json")
    model.fit("./corpus/train_data.txt")
    model.predict("我在中国吃美国的面包")

词表设计：特殊Token区域与共享去区域的深入探讨东方佑开发语言
在自然语言处理（NLP）中，Tokenizer的设计对于模型性能有着至关重要的影响。Tokenizer不仅决定了文本如何被分割成更小的单位（即token），还决定了这些token如何被映射到模型可以理解的形式。本文将详细探讨一种特殊的Tokenizer设计方法——特殊Token区域与共享去区域的设计理念，并介绍其应用场景和实现方式。特殊Token区域概述特殊Token区域通常包括一些特定的标识符，
JavaScript笔记（5）严格模式 way_hj JavaScript学习笔记 javascript 严格模式 use strict
1.启用严格模式的指令："usestrict"或'usestrict'，即单引号或双引号均可，也许use将来会成为关键字。2."usestrict";以分号结尾，在不支持严格模式的浏览器中（如IE9及以下）被当作一般语句。3.必须作为全局或函数的首条语句才起到严格模式指令的作用，否则即是一条普通语句。usestrict;//严格模式指令必须在首行，如果之前有语句，它将被当作一个普通字符串，而不是启
22、JavaScript学习笔记——ES5严格模式 lvh98 javascript 学习前端
ES5严格模式当前使用的ES语法是基于ES3.0的方法加上ES5.0的新增方法。默认情况下，ES3.0和ES5.0冲突的部分，会沿用ES3.0的方法；而在ES5.0严格模式下，冲突部分会使用ES5.0的方法。1.“usestrict”不再兼容ES3.0的一些不规则语法。使用全新的ES5.0规范。1.1ES5.0严格模式的启动要选择使用严格模式，需要使用严格模式编译指示（pragma），即一个不赋值
《JS教程》笔记：一、JavaScript编程语言——2.3现代模式use strict（严格模式、旧模式） Dontla javascript javascript 笔记开发语言
现代JavaScript教程中文版现代JavaScript教程文章目录现代模式，"usestrict""usestrict"确保\"usestrict\"出现在最顶部没有办法取消`usestrict`浏览器控制台默认不启动`usestrict`是否应该显式声明"usestrict"？（非必须，有办法自动启用）现代模式，“usestrict”长久以来，JavaScript不断向前发展且并未带来任何兼
spring mvc java 8 rest idea_springmvc学习笔记---面向移动端支持REST API 射命丸咲 spring mvc java 8 rest idea
前言:springmvc对注解的支持非常灵活和飘逸,也得web编程少了以往很大一坨配置项.另一方面移动互联网的到来,使得RESTAPI变得流行,甚至成为主流.因此我们来关注下springmvc对restapi的支持程度,以及需要做的工作评估.样例设计和准备:springmvc学习笔记系列的文章目录:•idea创建springmvc项目RESTAPI的设计原则遵循之前的博文来实现•移动互联网实战--
Spring MVC学习笔记万般滋味皆生活后端开发 spring springmvc
文章目录SpringMVC什么是MVC设计模式？SpringMVC的核心组件SpringMVC的工作流程如何使用？SpringMVC注解SpringMVC数据绑定SpringMVC模型数据解析SpringMVC自定义数据转换器SpringMVCREST特点如何使用SpringMVC文件上传下载SpringMVC表单标签库常用的表单标签SpringMVC数据校验SpringMVCSpringMVC是
Python语言的安全开发慕璃嫣包罗万象 golang 开发语言后端
Python语言的安全开发引言在信息技术迅速发展的今天，网络安全问题愈发凸显。随着Python语言的广泛应用，尤其是在数据分析、人工智能、Web开发等领域，其安全问题越来越受到重视。Python作为一门高效且易于学习的编程语言，虽然在开发过程中为我们提供了很多便利，但如果忽视了安全性，将可能导致严重的安全漏洞和数据泄露等问题。因此，本文将围绕Python语言的安全开发展开讨论，重点分析常见的安全问
spring mvc 创建restapi 笔记 weixin_42277889 spring mvc 笔记
@RestController@RequestMapping("/spittles")publicclassSpittleController{//示例：使用@RequestBody接收JSON并自动转换为Spittle对象@PostMappingpublicSpittlesaveSpittle(@RequestBodySpittlespittle){//此时Spring已经把请求体中的JSON/
获取PPT中的MSO格式图片报错 ♢.＊ ppt python
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！image.ext的报错ValueEr
知识图谱技术剖析 ♢.＊人工智能知识图谱大数据
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！一、引言在当今数字化信息爆炸的时代，如
Deepseek技术浅析（一）爱研究的小牛 AIGC—概述大模型 AIGC 人工智能深度学习自然语言处理
DeepSeek是北京深度求索人工智能基础技术研究有限公司推出的人工智能技术品牌，专注于大语言模型（LLM）的研发与应用。其技术涵盖了从模型架构、训练方法到应用部署的多个层面，展现出强大的创新能力和应用潜力。以下将详细介绍DeepSeek的核心技术、工作原理以及具体实现方式。一、核心技术1.大语言模型（LLM）DeepSeek的核心产品是自研的大语言模型，其主要特点包括：(1)基于Transfor
Synthesia技术浅析（四）：自然语言处理爱研究的小牛 AIGC—视频 AIGC—虚拟现实 AIGC—自然语言处理自然语言处理人工智能 AIGC
Synthesia的自然语言处理（NLP）模块是其核心技术之一，涵盖了文本转语音（TTS）、情感分析以及多语言支持等多个方面。一、文本转语音（TTS）1.关键组件Synthesia的TTS系统主要依赖于Tacotron2和WaveGlow模型。这些模型共同作用，将文本转换为高质量的语音。2.过程模型详解2.1文本预处理文本预处理是TTS的第一步，包括分词、标点符号处理、数字和日期格式转换等。分词（
启元世界（Inspir.ai）技术浅析（一）爱研究的小牛 AIGC—游戏制作人工智能机器学习 AIGC 深度学习
启元世界（Inspir.ai）作为全球领先的通用人工智能平台公司，自2017年成立以来，一直致力于通过人工智能技术提升产业效能和生活体验。公司汇聚了来自全球顶尖公司和高等学府的技术专家，专注于深度强化学习、推荐算法以及机器学习系统平台等前沿领域，并成功将人工智能技术应用于数字娱乐、智能决策和机器人等多个领域。一、核心技术启元世界在人工智能领域取得了多项突破性进展，其核心技术涵盖了以下几个方面：1.
Lumen5——AI视频制作，提取关键信息生成带有视觉效果的视频爱研究的小牛 AIGC—视频人工智能 AIGC 深度学习
一、Lumen5介绍Lumen5是一款基于人工智能的自动化视频制作平台，专为非专业用户设计，帮助其将博客、文章、新闻等文字内容快速转换为视频。Lumen5的目标是简化视频制作流程，让内容创作者、市场营销人员、社交媒体团队等无需视频制作经验即可轻松制作吸引观众的高质量视频。二、Lumen5的主要功能文字转视频Lumen5最具特色的功能是通过AI自动将文本转化为视频。用户可以输入一段文字或直接粘贴文章
python神经网络框架有哪些,python调用神经网络模型小明技术分享 python 神经网络深度学习
人工智能Python深度学习库有哪些由于Python的易用性和可扩展性，众多深度学习框架提供了Python接口，其中较为流行的深度学习库如下：第一：CaffeCaffe是一个以表达式、速度和模块化为核心的深度学习框架，具备清晰、可读性高和快速的特性，在视频、图像处理方面应用较多。Caffe中的网络结构与优化都以配置文件形式定义，容易上手，无须通过代码构建网络;网络训练速度快，能够训练大型数据集与S
联想开机按f2怎么修复系统图解_联想笔记本开机f2修复电脑步骤 - 卡饭网非典型工科生联想开机按f2怎么修复系统图解
Win7系统联想笔记本开机提示pxe-mof:exitingpxerom的原因及解决方法Win7系统联想笔记本开机提示pxe-mof:exitingpxerom的原因及解决方法Win7旗舰版系统的联想笔记本电脑每次开会都要显示:pxe-mof:exitingpxerom,这该怎么办?下面我们的小编给大家分享下解决方法.原因分析:出现该提示是笔记本电脑中开启了网卡启动导致的,Idea系列笔记本设置方
电脑键盘按键都代表着什么意思? szkfp
F1F12通常称为功能键，其中F指的是Function功能的意思，说明F1F12是12个功能键。每一个电脑键盘标配都是顶端都有F1~F12一排按键。我估计全部掌握的人还真不算多，今天高手君就给大家普及一下F1~F12键在日常Windows系统中的功能和使用。注意，仅限台式机或者笔记本的外接键盘。(部分笔记本自带键盘F1~F12被赋予了其他功能，不再此文讨论之列)。F1：帮助键。当碰到一个程序或一个
备赛蓝桥杯之第十五届职业院校组省赛第三题：产品360度展示云端·目前学前端备赛蓝桥杯蓝桥杯职场和发展
提示：本篇文章仅仅是作者自己目前在备赛蓝桥杯中，自己学习与刷题的学习笔记，写的不好，欢迎大家批评与建议由于个别题目代码量与题目量偏大，请大家自己去蓝桥杯官网【连接高校和企业-蓝桥云课】去寻找原题，在这里只提供部分原题代码本题目为：2024年十五届省赛职业院校组真题第三题：产品360度展示题目：需要考生作答的代码段如下：/***@param{*}initialValue初始值*@param{Arra
人工智能的前景与未来就业市场：机遇、挑战与社会影响苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
随着科技的飞速发展，人工智能（AI）已经逐渐渗透到我们生活的方方面面，它不仅引领着技术革新的浪潮，更在无声中重塑着我们的就业市场和社会结构。站在这个时代的交汇点上，我们不禁要问：人工智能将如何影响我们的未来就业市场？它带来的究竟是机遇还是挑战？回望过去，每一次科技革命都伴随着就业市场的剧烈震荡。而今，人工智能作为第四次工业革命的核心驱动力，正以前所未有的速度改变着劳动力市场的格局。从自动化生产线上
Python实现复原毫米波雷达呼吸波形的示例 go5463158465 python 算法机器学习 python 开发语言
以下是一个使用Python实现复原毫米波雷达呼吸波形的示例，该示例将涉及模型算法在重建损失和KL（Kullback-Leibler）损失之间的平衡问题。我们将使用深度学习中的变分自编码器（VAE）作为模型来进行呼吸波形的复原，因为VAE可以很好地处理重建和潜在空间分布的问题。步骤概述数据准备：生成或加载毫米波雷达的呼吸波形数据。定义VAE模型：包括编码器和解码器。定义损失函数：结合重建损失和KL损
正则表达式超全笔记！！这一篇就够了！！灿灿不会秃头 js 正则表达式
欢迎各位大神批评指点！！！！正则表达式1.什么是正则表达式（规则表达式）1.1正则是一种规则1.2正则是一种字符串1.3校验、检索、替换等那些符合某个模式（规则）的文本设想:想要匹配输入是数据是否是一串手机号1.长度2.校验是否是数字3.前三位必须是手机137138152172//----------------传统方法校验----------------------//length===11电话
对话系统(Chatbots) 原理与代码实例讲解 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1对话系统的发展历程对话系统，又称聊天机器人(Chatbots)，是模拟人类对话的计算机程序。从早期的基于规则的系统到如今基于深度学习的智能体，对话系统经历了漫长的发展历程。第一阶段：基于规则的系统(1960s-1990s)早期的对话系统主要基于预先定义的规则和模板。例如，ELIZA(1966)是一个模拟心理治疗师的程序，通过模式匹配和关键词识别来生成回复。这些系统只能处理有限的对
如何使用深度学习中的 Transformer 算法进行视频目标检测 go5463158465 python 算法深度学习 python 开发语言
以下将介绍如何使用深度学习中的Transformer算法进行视频目标检测，并给出一个复现相关论文思路及示例代码。这里以DETR（End-to-EndObjectDetectionwithTransformers）为基础进行说明，它是将Transformer引入目标检测领域的经典论文。步骤概述环境准备：安装必要的库，如PyTorch、torchvision等。数据准备：使用公开的视频目标检测数据集，
探索SakuraLLM：轻小说与Galgame翻译的新纪元蒋素萍Marilyn
探索SakuraLLM：轻小说与Galgame翻译的新纪元SakuraLLM适配轻小说/Galgame的日中翻译大模型项目地址:https://gitcode.com/gh_mirrors/sa/SakuraLLM在人工智能的浪潮中，SakuraLLM以其独特的魅力和强大的功能，成为了日中翻译领域的一颗璀璨明星。本文将深入介绍SakuraLLM项目，分析其技术特点，探讨其应用场景，并揭示其与众不同
大模型问答机器人的智能化程度 AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
大模型、问答机器人、智能化程度、自然语言处理、深度学习、Transformer模型、知识图谱、推理能力、对话系统1.背景介绍近年来，人工智能技术取得了飞速发展，特别是深度学习的兴起，为自然语言处理（NLP）领域带来了革命性的变革。其中，大模型问答机器人作为一种新型的智能交互系统，凭借其强大的语言理解和生成能力，在客服、教育、娱乐等领域展现出广阔的应用前景。问答机器人是指能够理解用户自然语言问题并给
skynet 吓人的鸟编程语言-c/c++编程语言-lua skynet c lua gameserver
https://github.com/cloudwu/skynet电商不是有C2BB2CC2C这些个概念么，互动百科的CEO甚至还对抄袭美其名曰：COPYTOCHINA(C2C)。鸟人今天也为C2B赋予新意：COPYTOBLOG。哈哈研究skynet的朋友请移步云风的博客，我这里纯属抄袭下来做标记笔记用的，因为个人阅读习惯如此。http://blog.codingnow.com/2012/08/s
【笔记】从华为云看4P理论的卓越践行者通信_楠木笔记华为云系统架构用户运营产品运营产品经理
在当今竞争激烈的云计算市场中，华为云犹如一颗明星取得了令人瞩目的成绩。其成功的背后，离不开对4P营销理论——产品（Product）、价格（Price）、渠道（Place）、促销（Promotion）的巧妙运用与深度融合。这一经典的营销理论框架，在华为云的市场战略布局中被赋予了新的活力与内涵，下面就结合最近的学习总结，让我们深入探究华为云是如何运用4P营销理论书写其辉煌篇章的。学习是一种愉悦，一种收
【学习笔记总结】华为云：应用上云后的安全规划及设计通信_楠木学习笔记华为云架构云计算安全架构
一、背景和问题数字化时代，随着信息技术的飞速发展，企业和各类组织纷纷将自身的应用程序迁移至云端。云计算凭借其诸多优势，如成本效益、可扩展性、灵活性以及便捷的资源共享等，已然成为了现代业务运营的重要支撑。今年，我所在企业也将IT系统全面迁移上XX云，究其原因是为了在激烈的市场竞争中保持敏捷性和创新性，需要快速部署新的应用并实现高效的数据处理，云平台提供的丰富资源和便捷的服务模式使其能够迅速满足这些需
SpringBoot中运行Yolov5程序 eqa11 spring boot YOLO 后端
文章目录SpringBoot中运行Yolov5程序一、引言二、环境搭建1、SpringBoot项目创建2、YOLOv5环境配置三、SpringBoot与YOLOv5集成1、创建Python服务2、SpringBoot调用Python服务四、使用示例1、创建控制器五、总结SpringBoot中运行Yolov5程序一、引言在人工智能领域，目标检测是一个热门且实用的技术。YOLOv5作为目标检测算法中的
大语言模型原理与工程实践：残差连接与层归一化 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着自然语言处理（NLP）的发展，深度学习在过去几年中取得了令人瞩目的成果。其中，循环神经网络（RNN）和卷积神经网络（CNN）在图像和文本分类、语义角色标注、机器翻译等领域表现出色。然而，这些网络在训练过程中经常遭遇梯度消失和梯度爆炸的问题。为了解决这些问题，我们引入了残差连接（ResidualConnections）和层归一化（BatchNormalization）来改善模型性能。
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

隐马尔可夫模型(HMM)实现命名实体识别(NER)