AIFarmer

知识图谱学习笔记——（四）知识图谱的抽取与构建

一、知识学习

声明：知识学习中本文主体按照浙江大学陈华钧教授的《知识图谱》公开课讲义进行介绍，并个别地方加入了自己的注释和思考，希望大家尊重陈华钧教授的知识产权，在使用时加上出处。感谢陈华钧教授。

（一）B站《浙大知识图谱完整版》——4

学识时间：2023年5月5日09:15:25

4、知识图谱的抽取与构建

4.1重新理解知识工程与知识获取

4.1.1 知识工程

符号主义的核心思想
– 人工智能源于数理逻辑
– 智能的本质是符号的操作和运算
知识工程的诞生
Knowledge is the power in AI
AI System=Knowledge + Reasoning
人工智能系统=知识+推理

知识工程是以知识为处理对象，研究知识系统的知识表示、处理和应用的方法和开发工具的学科。

4.1.2 传统知识工程的特点

规模小——成本高——知识汤

上图展示了知识工程师和领域专家与帮助构建专家系统的软件工具的交互。箭头表示信息流。

4.1.3 知识获取的瓶颈

成年人脑包含近1000亿神经元，每个神经元都可能有近1000的连接。模拟这样的人脑需要约100TB的参数。
假设这100TB的参数能完整的存储人脑中的知识，靠人工编码可以获取这样规模的知识吗？
单个人脑中的知识仍然是有限的，如果需要获取全体人类知识，靠人工编码是无法完成的

4.1.4 挑战机器自主获取知识的极限

人的五官可以将世界域中的大量复杂的信息拷贝到人脑中。

4.1.5 知识图谱工程

知识图谱工程就是简化的知识工程
重要的知识抽取环节：概念抽取、实体抽取、关系抽取、时间抽取、规则抽取。
从不同来源、不同结构的数据中进行知识提取，形成知识存入到知识图谱。

★从关系数据库获取知识

Example R2RML mapping:

@prefix rr: <http://www.w3.org/ns/r2rml#>.
eprefix ex: <http://example.com/ns#>.
<#TriplesMap1>
	rr:logicalTable [ rr:tableName "EMP" ];
	rr:subjectMap[
		rr:template "http://data.example.com/employee/(EMPNO)";
		rr:class ex:Employee;
	];
	rr:predicateObjectMap [
		rr:predicate ex:name;
		rr:objectMap [ rr:column "ENAME" ];
	].

Example output data:

<http://data.example.com/employee/7369> rdf:type ex:Employee.
<http://data.example.com/employee/7369> ex:name "SMITH".

详细代码出处：从关系数据库获取知识

★从视觉数据获取知识
场景图构建

★从文本获取知识
● 命名实体识别

检测内容

结果

检测

库克非常兴奋

[库克]是实体

分类内容

结果

分类

库克非常兴奋

[库克]是人物

● 术语抽取（概念抽取）
从语料中发现多个单词组成的相关术语。
● 关系抽取
王思聪是万达集团董事长王健林的独子。 [王健林] <父子关系> [王思聪]

检测内容

<父子关系>

王健林

王思聪是万达集团董事长王健林的独子

王思聪

● 事件抽取
据路透社消息，英国当地时间9月15日早8时15分，位于伦敦西南地铁线District Line 的Parsons Green地铁站发生爆炸，目前已确定有多人受伤，具体伤亡人数尚不明确。目前，英国警方已将此次爆炸与起火定性为恐怖袭击。

小结：

知识图谱 ≠ 专家系统，知识图谱就是新一代的知识工程


冯诺依曼曾估计单个个体的大脑中的全量知识需要 2.4*1020 字节存储，知识工程的根本性
科学问题是知识完备性问题，即规模化自动化知识获取与处理能力。

4.2 知识抽取——实体识别与分类

4.2.1 实体识别与分类任务定义

从文本中识别实体边界及其类型

4.2.2 实体识别的常用方法

(1) 基于模板和规则
将文本与规则进行匹配来识别出命名实体
“***说” 、 “***老师” ;“***大学” 、 “***医院”

优点：
准确，有些实体识别只能依靠规则抽取;
缺点：
■ 需要大量的语言学知识
■ 需要谨慎处理规则之间的冲突问题；
■ 构建规则的过程费时费力、可移植性不好
(2)基于序列标注的方法

确定标签体系

选择模型

定义特征

模型训练

词本身的特征	描述
边界特征	边界词概率
词性	名词、动词、副词等
依存关系	父子、从属等

前后缀特征	描述
姓氏	李XX、王X
地名	XX省、 XX市等

字本身的特征	描述
是否是数字	是、否
是否是字符	是、否

确定实体识别的序列标签体系

常见序列标注模型： HMM (隐马尔可夫模型)

有向图模型
基于马尔可夫性，假设特征之间是独立的

HMM (隐马尔可夫模型)的要素定义
隐藏状态集合Q，对应所有可能的标签集合，大小为N；观测状态集合V，对应所有可能的词的集合，大小为M。
对于一个长度为T的序列，I对应状态序列（即标签序列）， O对应观测序列（即词组成的句子）。
状态转移概率矩阵： $A =[a_{ij}]_{N*N}$
转移概率：是指某一个隐藏状态（如标签“B-Per”）转移到下一个隐藏状态（如标签“I-Per” ）的概率。例如， B-ORG标签的下一个标签大概率是I-ORG，但一定不可能是I-Per。
发射概率矩阵： $B =[b_{jk}]_{N*M}$
发射概率：是指在某个隐藏状态（如标签“B-Per”）下，生成某个观测状态（如词“陈”）的概率。
隐藏状态的初始分布Π = [π(i)]N，这里指的是标签的先验概率分布。

编者注：关于LaTex公式可以参见LaTeX公式篇

4.2.3 HMM的计算问题

评估观察序列概率：给定模型λ=(A,B,Π) 和观测序列O（如一句话“浙江大学位于杭州”），计算在模型λ下观测序列O出现的概率P(O|λ)，这需要用到前向后向算法。
模型参数学习问题：即给定观测序列O，估计模型λ的参数，使该模型下观测序列的条件概率P(O|λ)最大。这个问题的求解需要用到基于EM算法的鲍姆-韦尔奇算法。
预测问题：也称为解码问题，即给定模型λ和观测序列O，求最可能出现的对应的隐藏状态序列（标签序列），这个问题的求解需要用到基于动态规划的维特比算法。

(1) 求观测序列的概率—前向后向算法
问题：假设模型参数全知，要求推断某个句子出现的概率

前向概率（局部状态）：定义时刻t时隐藏状态为qi, 观测状态的序列为o1,o2,…ot的概率为前向概率。记为：
$α_t(i)=P(o_1,o_2,…， o_t,i_t=q_i|λ)$
递推关系式：从t时刻递推t+1时刻:
$α_{t+1}(i)=[∑_{j=1...N} α_t(j)*a_{ji}]b_i(o_{t+1})$
利用递推关系式，从t=1时刻递推算出t=T时刻，并计算最终结果：
$P(“浙江大学位于杭州” |λ)=∑_{i=1...N} α_T(i)$
前向后向算法比起穷举搜索的指数级复杂度，其复杂度与序列长度是线性关系

(2)模型参数的估计与学习
问题：利用训练语料估计模型参数
假如我们已知D个长度为T的句子和对应的实体识别标签，即{(O1,I1),(O2,I2),…(OD,ID)}是已知的，此时我们可以很容易的用最大似然来求解模型参数。
➤ 标签转移概率矩阵 $A=[a_{ij}]_{N*N}$
➤ 词的生成概率矩阵 $B=[b_j(k)]_{N*M}$
➤ 标签的初始分布Π = [π(i)]N

假设样本从标签 q_i转移到标签q_j的频率计数是A_ij,那么隐藏状态转移矩阵求得:
$A=\begin{bmatrix} a_{ij} \end{bmatrix}$
其中
$a_{ij} = \frac {A_{ij}}{\sum_{s=1}A_{is}}$
假设样本标签为q_j且对应词为v_k的频率计数是B_jk,那么观测状态概率矩阵为
$B=\begin{bmatrix} b_j(k) \end{bmatrix}$
其中
$b_j(k) = \frac {B_{jk}}{\sum_{s=1}^{M}B_{js}}$
假设所有样本中初始标签为q_i的频率计数为C(i),那么初始概率分布为：
$\Pi=\pi(i) = \frac {C(i)}{\sum_{s=1}^NC(s)}$
鲍姆韦尔奇算法-EM算法
很多时候我们无法得到句子对应的实体标签序列，因为这需要大量的人工数据标注工作。如果只有D个长度为T的句子，即{(O1),(O2),…(OD)}是已知的，此时可以用EM算法迭代来求解。
输入: D个观测序列样本
${{(O_1),(O_2),...,(O_D)}}$
输出: HMM模型参数

随机初始化所有的 $\pi_i, a_{ij}, b_j(k)$
对于每个样本d = 1,2,…D，用前向后向算法计算 $\gamma_t^d(i),\zeta_t^d(i,j),t=1,2,...T$
更新模型参数:
$\pi_i = \frac {\sum_{d=1}^D\gamma_1^d(i)}{D}$
$a_{ij}= \frac {\sum_{d=1}^D\sum_{t=1}^{T-1}\zeta_t^d(i,j)}{\sum_{d=1}^D\sum_{t=1}^{T-1}\gamma_t^d(i)}$
$b_j(k)= \frac {\sum_{d=1}^D\sum_{t=1,o_t^d=v_k}^T\gamma_t^d(i)}{\sum_{d=1}^D\sum_{t=1}^T\gamma_t^d(i)}$
如果i, a_ij, b_j(k)的值已经收敛，则算法结束，否则回到第2) 步继续迭代

解码隐藏状态序列—维特比算法
问题：给定训练好的模型，给定一句话，预测每个词对应的实体标签
输入：模型λ=(A,B,Π)，观测序列O=(浙，江，大，学，位，于，杭，州)
输出：最有可能的隐藏状态序列I={i1,i2,…iT}，即实体标签序列
这里的优化目标是使P(I|O)最大化

初始化局部状态
$\delta_1(i) =\pi_ib_i(o_1),i=1,2,...,N$
$\psi_1(i)=0,i=1,2,...,N$
时刻1，输出为O₁时，各个隐藏状态的可能性。
进行动态规划递推时刻t=2,3,…T时刻的局部状态
$\delta_t(i) =\max_{1≤j≤N}[\delta_{t-1}(j)a_{ji}]b_i(o_t),i=1,2,...,N$
在t时刻，所有从t-1时刻的状态j中，取最大概率。
$\psi_t(i)=arg\max_{1≤j≤N}[\delta_{t-1}(j)a_{ji}],i=1,2,...,N$
从t-1时刻的状态中，选择使t时刻概率最大的那个隐藏状态的编号。
如此递推，可计算最后时刻T最大的δ_T(i),即为最可能隐藏状态序列出现的概率
$\max_{1≤j≤N}\delta_T(i)$
计算时刻T最大的Ψ_t(i),即为时刻T最可能的隐藏状态
$i_T^*= arg\max_{1≤j≤N}[\delta_T(i)]$
利用局部状态Ψ(i)开始回溯，最终得到解码的序列，如： “ …B-ORG， I-ORG， I-ORG， I-ORG ， O， O， B-LOC ， B-LOC…”

常见序列预测模型： CRF条件随机场
CRF是无向图模型

随机场包含多个位置，每个位置按某种分布随机赋予一个值，其全体就叫做随机场。马尔科夫随机场假设随机场中某个位置的赋值仅与和它相邻位置的赋值有关，和不相邻位置的赋值无关。
条件随机场进一步假设马尔科夫随机场中只有X和Y两种变量， X一般是给定的，而Y一般是在给定X的条件下的输出。例如：实体识别任务要求对一句话中的十个词做实体类型标记，这十个词可以从可能实体类型标签中选择，这就形成了一个随机场。如果假设某个词的标签只与其相邻的词的标签有关，则形成马科夫随机场，同时由于这个随机场只有两种变量，令X为词， Y为实体类型标签，则形成一个条件随机场，即，我们的目标时求解P(Y|X)。
CRF的机器学习模型
通过定义特征函数和权重系数转化为一个机器学习问题
训练—Training：给定训练数据集X和Y，学习CRF的模型参数w_k ( $\theta$ )和条件概率分布P_w(y|x)，采用最大化对数似然函数和SGD即可。
$O(\theta)=\sum_{t=1...N}logP_\theta(y^t|x^t)$
解码—Decoding：给定CRF条件概率分布P(y|x)和输入序列x, 计算使条件概率最大的输出序列y，可用维特比算法很方便解决这一问题。

4.2.4 基于深度学习的实体识别方法

A Survey on Deep Learning for Named Entity Recognition. (TKDE2020)
（1）常见实现方法： BiLSTM+CRF

BiLSTM+CRF： CRF层

CRF层的参数是一个 (k+2)×(k+2)的矩阵 A；
A_ij表示的是从第 i个标签（如B-LOC）到第 j个标签（如B-Org）的转移得分；
加2是因为要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态。

BiLSTM+CRF：模型训练
Score Function：
$score(x,y)=\sum_{i=1}^nP_{i,y_i}+\sum_{i=1}^{n+1}A_{y_{(i-1)},y_i}$
Softmax:
$P(y|x)=\frac{exp(score(x,y))}{\sum_{y^，}exp(score(x,y^,))}$
最大化对数似然函数:
$logP(y^x|x)=score(x,y^x)-log(\sum_{y^，}exp(score(x,y^,)))$
预测过程：
$y^*=arg \max_{y^,}score(x,y^,)$
（2）基于预训练语言模型的实体识别

实体识别解码策略

A Survey on Deep Learning for Named Entity Recognition. (TKDE2020)

小结

实体识别仍面临着标签分布不平衡，实体嵌套等问题，制约了现实应用；
中文的实体识别面临一些特有的问题，例如：中文没有自然分词、用字变化多、简化表达现象严重等等；
实体识别是语义理解和构建知识图谱的重要一环，也是进一步抽取三元组和关系分类的前提基础

4.3 知识抽取——关系抽取与属性补全

4.3.1 实体关系抽取

（1）实体关系抽取的任务定义：
从文本中抽取出两个或者多个实体之间的语义关系；从文本获取知识图谱三元组的主要技术手段，通常被用于知识图谱的补全。

美丽的西湖坐落于浙江省的省会城市杭州的西南面。

坐落于

省会

西湖

杭州

浙江省

（2）实体关系抽取方法概览

1）基于模板的方法
基于触发词匹配的关系抽取

基于依存句法匹配的关系抽取

基于依存句法分析句子的句法结构
以动词为基点，构建规则，对节点上的词性和边上的依存关系进行限定

Created with Raphaël 2.3.0 开始解析规则解析完成？依存分词器分析句子结构分析完成？在依存树上匹配规则符合规则的子树生成三元组三元组按规则扩展三元组评价结束依存分词器规则库 yes no yes no

■1. 对句子进行分词、词性标注、命名实体识别、依存分析等处理
■2. 根据句子依存语法树结构上匹配规则，每匹配一条规则就生成一个三元组
■3. 根据扩展规则对抽取到的三元组进行扩展
■4. 对三元组实体和触发词进一步处理抽取出关系

优缺点

优点
▲在小规模数据集上容易实现
▲构建简单
缺点
▲特定领域的模板需要专家构建
▲难以维护
▲可移植性差
▲规则集合小的时候，召回率很低

2) 基于监督学习的关系抽取
At-least-one Hypothesis

At-least-one Hypothesis
If two entities participate in a relation, at least one sentence that mentions these two entities might express that relation

• 预先定义好关系的类别
• 人工标注一些数据
• 设计特征表示
• 选择一个分类方法 (SVM、 NN等)
• 评估结果
特征设计

实体特征
▲ 实体前后的词
▲ 实体的类型、语法、语义信息
▲ 实体词的共现特征, e.g., dog and cat
▲ 引入外部语义关系, e.g.,
– ACE entity types
– WordNet features
关系特征
▲实体之间的词
▲窗口及Chunk序列
▲ 实体间的依存关系路径
▲ 实体间树结构的距离
▲特定的结构信息，如最小子树

3) 机器学习框架
机器学习框架——特征函数+最大熵模型
同关系句子具有类似的文本特征

Words	Mention词及中间所有词
Entity Type	PER / ORG / LOC
Mention Level	NAME/ NOMINAL PRONOUN
Overlap	Mention词间隔的词数、中间含有mention词的个数是否在同一短语中
Dependency	Mention在parse tree中依赖的词的POS/chunk/word
Parse Tree	两个mention词中的依赖路径

目标是求在知道X的条件下使熵H最大的条件概率P(y|x)
$\sum_{x,y}\overline P(x)P(y|x)logP(y|x)$
需要满足的约束条件：
$E_ {\overline P}(f_i)-E_P(f_i)=0,(i=1,2,...,M)$
$\sum_{y}P(y|x)=1$
其中，f_i即是需要针对句子样本定义的特征函数。

机器学习框架——核函数

在关系抽取任务中，给定句子空间X，核函数K: X * X —> [0, ∞)表示一个二元函数，它以X中的两个句子x,y为输入，返回二者之间的相似度得分K(x,y)。
例如，我们可以为句子定义一个特征向量计算函数Ø(·)，那么句子x和y对应特征向量的点积K(x， y)=Ø(x)^T ·Ø(y)（编者注：原文是点集K(x， y)=Ø(x)T ·Ø(y)），这里我觉得应该是点积，不知修改是否正确）可以作为核函数的一种实现形式。

具体而言，给定输入文本T中的两个实体e1和e2，核函数方法采用下述方法计算它们之间满足关系r的置信度。
▲首先从标注数据中找到文本T’，且T’中包含满足关系r的e1’和e2’。然后基于核函数计算T和T’之间的相似度，作为e1和e2满足关系r的置信度。
▲该做法背后体现的思想是：如果两个实体对同时满足某个关系r，这两个实体对分别所在的文本上下文也应该相似，该相似通过核函数计算得到。 (编者注：这段没有想清楚，谁给解释一下，谢谢！）
▲ 计算相似度的方法有基于字符串核（Sequence kernel）和基于树核函数(Tree kernel)等多种方法。

机器学习框架——字符串核举例

给定带有关系标注的训练样本集合，该方法首先基于每个样本中出现的实体e1和e2将该样本切分为左端上下文left、中间上下文middle和右端上下文right三部分。
给定测试样本，根据其中出现的实体e1’和e2’对其进行同样的切分，生成left’、 middle’和right’。
基于字符串核函数计算该样本与每个训练样本在上述三个上下文上的相似度
最后对三个相似度得分进行加和，并用于分类模型的训练与预测

机器学习框架——句法树核函数
句法树核，增加节点特征
用句法依赖树代替浅层分析。
每个节点加入NER，POS等多个Tag
$K(T_1,T_2)= \begin{cases} 0, & if m(r_1,r_2)=0 \\ s(r_1,r_2)+K_c(r_1[c],r_2[c]),& otherwise \\ \end{cases}$

$m(t_i,t_j)= \begin{cases} 1, & if \phi_m(t_i)=\phi_m(t_j) \\ 0,& otherwise \\ \end{cases}$

$s(t_i,t_j)= \sum_{\upsilon_q \epsilon\phi_s(t_i)} \sum_{\upsilon_r \epsilon\phi_s(t_j)}C(\upsilon_q,\upsilon_r)$

t1 Troops

t0 advanced

t3 tikrit

t2 near

Troops advanced near Tikrit

Feature	Example
word	troops, Tikrit
part-of-speech (24 values)	NN,NNP
general-pos (5 values)	noun, verb, adi
chunk-tag	NP, VP,ADJP
entity-type	person, geo-political-entity
entity-level	name,nominal,pronoun
Wordnet hypernyms	social group, city
relation-argument	ARG_A，ARGB

机器学习框架——最短依赖路径树核函数

最短依赖路径树（SPT）内核：

A shortest path dependency kernel for relation extraction(EMNLP 2005）

上下文相关最短路径依赖树核函数：

Tree kernel-based relation extraction with context-sensitive structured parse tree information(EMNLP 2007)
机器学习框架—深度学习方法

基于特征的方法需要人工设计特征，这类方法适用于标注数量较少，精度要求较高，人工能够胜任的情况。
基于核函数的方法能够从字符串或句法树中自动抽取大量特征，但这类方法始终是在衡量两段文本在子串或子树上的相似度，并没有从语义的层面对两者做深入比较。
此外，上述两类方法通常都需要做词性标注和句法分析，用于特征抽取或核函数计算，这是典型的pipeline做法，会把前序模块产生的错误传导到后续的关系抽取任务，并被不断放大。
深度学习技术不断发展，端到端的抽取方法能大幅减少特征工程，并减少对词性标注等预处理模块的依赖，成为当前关系抽取技术的主流技术路线。

机器学习框架——基于递归神经网络的关系抽取
RNN(递归)可以抽取词组之间的修饰关系和逻辑关系
每个节点都由一个向量和矩阵组成
– 向量表示本身词汇语义，采用词向量初始化
– 矩阵表示该词对邻词的作用，采用高斯函数初始化
父子节点递归
$p=f_{A,B}(a,b)=f(Ba,Ab)=g(W \begin{bmatrix} Ba\\ Ab \end{bmatrix} )$
$P=f_M(A,B)=W_M\begin{bmatrix} A\\B \end{bmatrix}$
-输出层
$d(p)=softmax(W^{label}p)$
$\frac{\partial J}{\partial \theta }= \frac{1}{N} \sum_{(x,t)} \frac{\partial E(x,t;\theta)}{\partial \theta}+\lambda \theta$

1.对于输入句子中待分类的实体e1和e2，在句法树中找到能覆盖这两个实体的最小子树;
2.然后从该子树对应的叶节点开始，通过自底向上的方式两两合并相邻的两个单词或短语对应的向量和矩阵，直到遍历至该子树的根节点结束。
3.最后基于根节点对应的向量p，使用softmax对关系集合中的关系候选进行打分和排序。
4.该方法基于词向量和句法树本身的结构，有效的考虑了句法和语义信息，但并未考虑实体本身在句子中的位置和语义信息。

机器学习框架—基于CNN的关系抽取

神经网络可以直接encode句子特征
– Lexical level features
实体、实体周边词、实体同义词的连接

Features	Remark
L1	Noun 1
L2	Noun 2
L3	Left and right tokens of noun 1
L4	Left and right tokens of noun 2
L5	WordNet hypernyms of nouns

Sentence level features [WF,PF]^T
WF(word features):窗口词，窗口大小为3;
PF(position features) :[d1, d2]

句子级别特征（Sentence Level Feature）:
仅用词级别的特征提取，是会丢失语序、上下文、句子整体的信息，而使用seq_length方向的词卷积，可以尽量提取些句子级别的信息。

对sentence level特征进行线性变换(卷积)
$W_1X ,W_1\in R^{n_1×n_0}, X\in R^{n_0×t}$
n₁为卷积核维度(隐藏层节点数)，n₀为特征维度，t词数
池化
$m_i=\max Z(i,·) ，0≤i≤n_1， Z\in R^{n_1×t}$
非线性变换
$g=tanh(W_2m),W_2\in R^{n_2×n_1},m\in R^{n_1×1}$
输出层+ softmax
$o=W_3f,f=[l,g]·,W_3\in R^{n_4×n_3},f\in R^{n_3×1}$

$p(i|x,\theta)=\frac{e^{o_i}}{ \sum_ {k=1}^{n_4}e^{o_k}}$
$J(\theta)=\sum_{i=1}^Tlogp(y^{(i)}|x^{(i)},\theta)$

SemEval-2010 Task 8 ，F1 = 82.7
机器学习框架—Piece-wise CNN Model
位置敏感的CNN模型

机器学习框架—基于BiLSTM的关系抽取

Attention + BiLST
·CNN不能处理长线依赖，RNN有梯度消失
·LSTM层:编码句子

Attention层：学习权重
$M = t anh (H)$
$\alpha =softmax(\omega ^TM)$
$\alpha^T$
$h^*=tanh(r)$
机器学习框架—基于图神经网络的关系抽取
图神经网络在图像领域的成功应用证明了以节点为中心的局部信息聚合同样可以有效的提取图像信息。
利用句子的依赖解析树构成图卷积中的邻接矩阵，以句子中的每个单词为节点做图卷积操作。如此就可以抽取句子信息，再经过池化层和全连接层即可做关系抽取的任务

基于预训练语言模型的关系抽取

Simple BERT Models for Relation Extraction and Semantic Role LabelinglJ], 2019
Matching the Blanks : Distributional Similarity for Relation Learning. (ACL2019)

拓展问题—实体关系联合抽取
误差传播问题：

实体识别和关系抽取任务之间的关联：

定义一种新颖的实体关系联合抽取的序列标注规范：

Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme. (ACL2017)
级联三元组抽取：

A Novel Cascade Binary Tagging Framework for Relational Triple Extraction. (ACL2020)
拓展问题—基于胶囊神经网络多标签关系抽取

传统模型主要关注单标签关系抽取，但同一个句子可能包含多个关系。采用胶囊神经网络可以帮助实现多标签的关系抽取。
如图所示，模型首先通过预训练的 embedding 将句子中的词转化为词向量；随后使用BiLSTM 网络得到粗粒度的句子特征表示，再将所得结果输入到胶囊网络，首先构建出primary capsule，经由动态路由的方法得到与分类结果相匹配的输出胶囊。胶囊的模长代表分类结果的概率大小。

Attention-based capsule networks with dynamic routing for relation extraction. (EMNLP2018)
拓展问题—多元关系抽取
传统的二元关系扩展的缺点
▲产生C(n,2)种特征组合
▲拆分成多个binary会丧失多元语义联系
学习出所有实体的表示，连接后分类
▲能表示所有实体对的全局关系
Graph LSTM
▲Chain LSTM:按照time-step输入后一个词。
▲Tree LSTM:按照time-step输入当前语法依赖词
▲Graph LSTM:节点同时依赖上一时刻不同的语法依赖词和线性输入词，重新定义一个维度表示当前依赖种类。

Model	Single-Sent	Cross-sent
Feature-Based	74.7	77.7
CNN	77.5	78.1
BiLSTM	75.3	80.1
Graph LSTM - EMBED	76.5	80.6
Graph LSTM - FULL	77.9	80.7

拓展问题—跨句推理

提取不同句子中单实体间的关系

A是B的爸爸，B的妈妈是C -> A和C是夫妻
判断同一个句子中所有实体对的关系:
CNN encoder 得到模型：
$E(h,t|S)=maxp(r|\theta,s_i)$
找到和h,t均存在关系的实体，判断间接关系：
$G(h,r,t|p_i)=E(h,r_A,e)E(e,r_B,t)p(r|r_A,r_B)$
训练关系间relation path:
path encoder，得到r₁ 和r₂ 能推出关系r的概率
$p(r|r_A,r_B)=\frac{exp(O_r)}{\sum_{i=1}^{n_r}exp(O_i)}$
$O_i=-||r_i-(r_A+r_B)||L_1$
定义(h,t)总关系
$L(h,r,t)=E(h,r,t|S)+\alpha G(h,r,t|P)$
$J(\theta)=\sum_{(h,r,t)}log(L(h,r,t))$

Incorporating Relation Paths in Neural Relation Extraction(EMNLP 2017)
4)半监督学习
半监督学习—基于远程监督的关系抽取
远程监督的基本假设：两个实体如果在知识库中存在某种关系，则包含该两个实体的非结构化句子均可能表示出这种关系.

Distant supervision for relation extraction without labeled data. (ACL2009)
远程监督-基于多实例学习(降噪学习)

包含相同实体对的句子组成一个Bag
基于注意力机制选择样本

Neural Relation Extraction with Selective Attention over Instances. (ACL2016)
远程监督-强化学习(降噪学习)
采取强化学习方式在考虑当前句子的选择状态下选择样例
关系分类器向样例选择器反馈，改进选择策略

Reinforcement Learning for Relation Extraction from Noisy Data. (AAAI2018)
半监督学习—基于Bootstrapping的关系抽取

Bootstrap-Neural Snowball：

Bootstrapping的语义漂移问题

新增加的实例与种子实例不相关或不属于同一类型，称为Bootstraping的语义漂移问题
语义漂移问题的一些解决方法：

限制迭代次数
采用语义类型Semantic Type对样本进行过滤和约束
–⟨ Organization⟩ ’s headquarters in ⟨ Location⟩ ⟨ Location⟩ -based ⟨ Organization⟩ ⟨ Organization⟩ , ⟨ Location⟩
对抽取结果进行类型检查
耦合训练

5）属性补全
属性补全：任务定义

属性知识
▲一个事物若干属性的取值来对这个事物进行多维度的描述
属性补全
▲对实体拥有的属性及属性值进行补全
方法
▲抽取式
–基于模板
–基于机器学习模型
▲生成式
–基于机器学习模型

气候

车牌

区号

行政类别

人口

面积

杭州

亚热带季风性气候

浙A

0371

未知

1036万

16853.57km2

属性补全的方法:

抽取式属性补全:抽取输入文本中的字词，组成预测的属性值。预测出的属性值一定要在输入侧出现过
生成式属性补全：直接生成属性值，而这个属性值不一定在输入文本中出现，只要模型在训练数据中见过即可

属性补全方法比较
抽取式
▲只能抽取在输入文本中出现过的属性值
▲预测属性值一定在输入中出现过，具有一定可解释性，准确性也更高
生成式
▲可以预测不在文本中出现的属性值
▲只能预测可枚举的高频属性，导致很多属性值不可获取
▲预测出来的属性值没有可解释性

属性补全应用-商品属性补全

商品关键属性补全
▲利于买家选择
▲利于提升导购
▲利于优质选品
方法
▲借助算法的图文识别能力，通过商品图片预测商品的类目、同款、品牌

算法模型

图文识别算法

类目预测\同款挂载\品牌预测

发布选择\售卖任务

小结：

关系抽取方法的演变

一个基于深度学习的开源中文关系抽取框架学习地址
一个基于深度学习的开源中文关系抽取框架

4.4 知识抽取——概念抽取

4.4.1 构建概念知识图谱

(1)任务定义

概念知识图谱的组成
▲isA关系、 subclassOf关系
▲通常用于本体构建
实体
▲比如“浙江大学”
概念
▲比如“高校”
实体和概念之间的关系（isA）
▲比如“浙江大学” isA“高校”
概念与概念之间的关系（subClassOf）
▲比如“高校” isA“学校”

isA/subClassOf

isA/instanceOf

学校

高校

浙江大学

(2)概念知识的价值

概念是认知的基石
▲概念认知同类实体，例如，昆虫这一概念使得我们能够认知各种各样的昆虫，无需纠缠细节的不同
概念可以更好的理解自然语言
▲用小号试探男朋友。小号 isA 辅助账号
概念可以用于解释现象
▲遇到老虎为什么要跑？老虎是食肉动物

（3）概念的上下位关系

实体、概念通常基于词汇进行表达
实体与概念，概念与概念之间的关系属于自然语言处理中的语言上下位关系
例如：A isA B，通常称A是B的下位词， B是A的上位词
概念抽取并构建成无环图的过程又被称为Taxonomy
（4）概念抽取的方法

1）概念抽取的方法：基于模板
Hearst Patterns：基于固定的句型可以抽取isA关系
下面的左图列出了一些Hearst pattern的例子，右图举了一些符合Hearst pattern的例子

2）概念抽取的方法：基于模板
由于构造和维护模板的成本都比较高，人们又发明了Boostrapping的方法，通常由专家构造种子Hearst Pattern，然后基于Boostrapping半自动产生新模板。

3）概念抽取的方法：基于百科
概念知识抽取
从半结构化数据中获取上下文关系，验证抽取的结果
概念知识验证
▲目标：输入概念知识，判断是否合法
▲方法：互斥概念发现，例如e.g., 刘德华 isA 香港演员 V.S. 内地演员
▲实体相似度
▲属性分布相似度
▲领域规则过滤


4）概念抽取的方法：基于机器学习
从大量文本中获取概念知识
▲基于序列标注模型
▲需要大量标注样本
▲基于模板匹配的弱监督

4.4.2 中文概念知识图谱

OpenConcept：浙江大学知识引擎实验室开发和维护
▲一个大规模的中文开放领域概念知识图谱
▲400万概念核心实体和1200万实体-概念三元组
▲赋能推荐、问答、对话等应用

(1) 概念知识的应用:自然语言理解
概念知识可以帮助机器理解自然语言

(2)概念知识的应用：搜索
概念知识可以帮助理解搜索意图，获得更加准确的结果

小结

概念(Concept)是人类在认识过程中，从感性认识上升到理性认识，把所感知的事物的共同本质特点抽象出来的一种表达
概念知识一般可以通过基于模板、基于百科和基于序列标注等方法进行获取
概念知识可以帮助自然语言理解，促进搜索、推荐等应用的效果

4.5 知识抽取——事件识别与抽取

4.5.1 事件的定义

事件是发生在某个特定的时间点或时间段、某个特定的地域范围内，由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变。

不同的动作或者状态的改变代表不同类型的事件
同一个类型的事件中不同的要素代表了不同的事件实例
同一个类型的事件中不同粒度的要素代表不同粒度的事件实例

4.5.2 事件抽取的定义

从无结构文本中自动抽取结构化事件知识：什么人/组织，什么时间，在什么地方，做了什么事等等。

4.5.3 事件抽取：事件发现和分类

事件发现和分类
▲识别触发词（Trigger）：体现发生事件的核心词语，比如这里的quit
▲分类事件类型（Event Type）：比如“离职” 事件

4.5.4 事件抽取:事件要素抽取

识别事件要素（Event Argument）：参与事件的实体
分类要素的角色（Argument Role）：参与事件的实体在事件所扮演的角色

（1）事件抽取的方法：模式匹配
基于人工标注语料的模式匹配：模板的产生完全基于人工标注语料，学习效果高度依赖于人工标注质量
AutoSlog
a. 事件元素首次提及之处即可确定该元素与事件间的关系
b. 事件元素周围的语句中包含了事件元素在事件中的角色描述
基于弱监督的模式匹配
▲人工标注耗时耗力，且存在一致性问题
▲弱监督方法不需要对语料进行完全标注
AutoSlog-TS
▲核心思想：在相关文本中更常出现的抽取规则更有可能是好的抽取规则

基于模式匹配的方法小结
基于模式匹配的方法在特定领域中性能较好，便于理解和后续应用，但对于语言、领域和文档形式都有不同程度的依赖，覆盖度和可移植性较差
模式匹配的方法中，模板准确性是影响整个方法性能的重要因素，主要特点是高准确率低召回率
（2）事件抽取的方法:机器学习
1) 基于特征的方法
▲词性
▲实体类型
▲依存树
▲N元组

触发词识别

事件分类

要素识别

角色分类

Joint event extraction via structured prediction with global features. (ACL2013)
2)基于结构预测的方法

Joint Inference 将各模型通过整体优化目标整合起来，可以通过整数规划等方法进行优化。
Joint Modeling (Structured) 将事件结构看作依存树，抽取任务相应转化为依存树结构预测问题

3)基于神经网络的事件抽取模型： DMCNN

Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks. (ACL2015)
4) 基于机器学习方法的挑战
基于神经网络的事件抽取需要大量标注样本
▲样本难标注
▲远程监督困难
FrameNet和事件抽取有着很高的相似性
ACE 语料训练的分类器去判定FrameNet中句子的事件类别，再利用全局推断将FrameNet的语义框架和ACE中的事件类别进行映射

框架名	FrameNet 例句	类型
Attack	AeroPlane Bombed London	Attack
Fining	The court fined her 40	Fine
Execution	He was executed yesterday	Execute

Leveraging FrameNet to Improve Automatic Event Detection. (ACL 2016)

4.5.5 中文事件抽取

中文事件抽取数据集

中文事件抽取特有的问题
▲不同的分词策略
▲中文词汇特征
▲形态时态没有明显变化

小结

事件抽取主要分为事件的发现与分类和事件要素抽取两部分，又可以细分为触发词识别与事件分类和要素检测与要素角色分类
与关系抽取相比，事件抽取是一个更加困难和复杂的任务
事件结构远比实体关系三元组复杂，事件的Schema结构对事件抽取有很强的约束作用

4.6知识抽取技术前沿

4.6.1 少样本知识抽取

我们需要更加高效的学习算法，仅需少量样本便可以学会新知识
少样本学习
▲N-way-K-shot
▲原型网络

Prototypical networks for few-shot learning. (NeurIPS2017)
（1）基于混合注意力原型网络的少样本关系抽取
少样本问题特性容易受到噪声干扰
引入混合注意力机制
▲Instance-Level Attention
▲Feature-Level Attention

Hybrid Attention-based Prototypical Networks for Noisy Few-Shot Relation Classification. (AAAI2019)
（2）基于实体关系原型网络的少样本知识抽取

Bridging Text and Knowledge with Multi-Prototype Embedding for Few-Shot Relational Triple Extraction. (COLING2020)

4.6.2 零样本知识抽取

零样本学习(ZSL）
▲基于可见标注数据集及可见标签集合，学习并预测不可见数据集结果
方法
▲转换问题设定
▲学习输入特征空间到类别描述的语义空间的映射

（1）基于阅读理解的零样本关系抽取
将零样本关系抽取问题转换成阅读理解
已知实体对中的一个实体以及它们之间的关系，去抽取另一个实体

Relation	Question	Sentence & Answers
educated_at	What is Albert Einstein’s alma mater?	Albert Einstein was awarded a PhD by the Universityof Ziirich, with his dissertation titled…
occupation	What did Steve Jobs do for a living?	Steve Jobs was an American businessman.inventorand industrial designer.
spouse	Who is Angela Merkel married to?	Angela Merkel’s second and current husband is quantumchemist and professor Joachim Sauer, who has largely…

Zero-Shot Relation Extraction via Reading Comprehension. (CONLL2017)
（2）基于规则引导的零样本关系抽取

Logic-guided Semantic Representation Learning for Zero-Shot Relation Classification. (COLING2020)
（3）终身知识抽取

基于表示对齐的终身关系抽取

如何避免灾难性遗忘：对齐句子表示，减少向量的变化

Sentence Embedding Alignment for Lifelong Relation Extraction. (NAACL2019)

小结 – 知识抽取的未来展望

举一反三，面对低资源少样本场景，我们需要更加智能的少样本零样本知识抽取方法
与时俱进, 知识是不断变化的，我们需要能够终身学习知识的框架
更新时间：2023年5月16日15:30:41

你可能感兴趣的:(知识图谱,知识图谱,学习,笔记)

Grape-RAG disgare AI ai
Grape-RAG传统RAG的局限性图的优点用知识图谱来呈现数据关系GraphRAG传统RAG的局限性经典的RAG架构以向量数据库（VectorDB）为核心来检索语义相似性上下文，让大语言模型（LLM）不需要重新训练就能够获取最新的知识，其工作流如下图所示：这一架构目前广泛应用于各类AI业务场景中，例如问答机器人、智能客服、私域知识库检索等等。虽然RAG通过知识增强一定程度上缓解了LLM幻觉问题，
深度学习理论基础（七）Transformer编码器和解码器小仇学长深度学习深度学习 transformer 人工智能编码器解码器
学习目录：深度学习理论基础（一）Python及Torch基础篇深度学习理论基础（二）深度神经网络DNN深度学习理论基础（三）封装数据集及手写数字识别深度学习理论基础（四）Parser命令行参数模块深度学习理论基础（五）卷积神经网络CNN深度学习理论基础（六）Transformer多头自注意力机制深度学习理论基础（七）Transformer编码器和解码器本文目录学习目录：前述：Transformer
Git 规范化管理指南九情丶前端 gitee
Git规范化管理指南：打造优雅的协作流程本文将详细介绍如何在团队中规范化Git的使用，包括分支管理、提交规范、CodeReview流程等最佳实践。通过本文，您将学习到如何建立一个清晰、高效的Git工作流程。为什么需要Git规范化？在团队协作中，规范化的Git使用流程能带来以下好处：提高协作效率统一的分支命名便于理解和管理规范的提交信息方便追踪变更清晰的Review流程保证代码质量减少沟通成本标准化
【贪心算法】洛谷P4995 - 跳跳仟濹算法学习笔记贪心算法算法
2025-01-21-第44篇【洛谷】贪心算法题单-【贪心算法】-【学习笔记】作者(Author):郑龙浩/仟濹(CSND账号名)目录文章目录目录洛谷P4995跳跳！题目描述输入格式输出格式样例#1样例输入#1样例输出#1样例#2样例输入#2样例输出#2提示样例解释数据范围思路代码洛谷P4995跳跳！题目描述你是一只小跳蛙，你特别擅长在各种地方跳来跳去。这一天，你和朋友小F一起出去玩耍的时候，遇到
ArcGIS API for JavaScript获取和配置-ArcGIS Web 开发学习（一）大海上飞翔 ArcGIS Web API javascript arcgis
ArcGISAPIforJavaScript获取和配置最近开始学习WebGIS开发，刚一接触就很是让人恼火，第一个问题就是：ArcGISAPIforJavaScript库和SDK的获取。（1）我直接访问的是ARCGIS的资源中心：http://resources.arcgis.com/zh-cn/home/，点击JavaScript，出现以下页面：https://developers.arcg
【Vim Masterclass 笔记22】S09L40 + L41：同步练习11：Vim 的配置与 vimrc 文件的相关操作（含点评课内容）安冬的码畜日常 Vim Masterclass vim 笔记 vim配置 vim同步练习 vim options vim option-list
文章目录S09L40Exercise11-VimSettingsandtheVimrcFile1训练目标2操作指令2.1.打开vimrc-sample文件2.2.尝试各种选项与设置2.3.将更改内容保存到vimrc-sample文件2.4.将文件vimrc-sample的内容复制到寄存器2.5.创建专属vimrc文件2.6.对于Mac、Linux或Unix用户2.7.对于Windows用户2.8.
【水果识别】SVM水果成熟检测系统（含苹果香蕉橙子）【含GUI Matlab源码 11052期】含报告 Matlab武动乾坤 Matlab图像处理（进阶版）matlab
Matlab武动乾坤博客之家博主简介：985研究生，Matlab领域科研开发者；座右铭：行百里者，半于九十。代码获取方式：CSDNMatlab武动乾坤—代码获取方式更多Matlab图像处理仿真内容点击①Matlab图像处理（进阶版）⛳️关注CSDNMatlab武动乾坤，更多资源等你来！！⛄一、SVM水果成熟检测系统SVM（支持向量机）水果成熟检测系统的原理和流程如下：原理：1SVM是一种监督学习算
mvc学习笔记 JDS_DIJ 笔记 mvc
mvc设计框架的形成最早是servlet==>缺点:生成html页面太麻烦,所以引入了jsp,jsp本质就是servletjsp==>缺点:阅读起来困难,难维护,于是引入javabean,用来专门和数据打交道;形成jsp的设计框架model1jsp+javabean==>缺点:jsp即要接受请求,又要展示数据,所以又加入servlet;专门用来接受请求;形成jsp的设计框架model2jsp+ja
细嗦Transformer（三）：准备训练，讲解及代码实现优化器、学习率调整策略、正则化和KL散度损失 Ace_bb 算法 LLM transformer
文章目录关注我：细嗦大模型批处理对象/BatchesandMasking训练循环主函数/TrainingLoop优化器/Optimizer学习率调整策略/Learningrateadjustmentstrategy样例测试正则化/RegularizationLabelsmoothing标签平滑KL散度损失样例测试Github完整代码----求求了给个star和关注吧参考资料求求了，给个star和关
Transformer架构原理详解：编码器（Encoder）和解码器（Decoder） AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
Transformer,编码器,解码器,自注意力机制,多头注意力,位置编码,序列到序列,自然语言处理1.背景介绍近年来，深度学习在自然语言处理（NLP）领域取得了显著进展，其中Transformer架构扮演着至关重要的角色。自2017年谷歌发布了基于Transformer的机器翻译模型BERT以来，Transformer及其变体在各种NLP任务上取得了突破性的成果，例如文本分类、问答系统、文本摘要
MVC 架构学习笔记 disgare 架构 mvc 架构学习
MVC架构学习笔记Service与DAO层方法命名规约业务错误是用返回值来处理还是抛异常来处理Service与DAO层方法命名规约CRUD是指在做计算处理时的增加(Create)、读取查询(Retrieve)、更新(Update)和删除(Delete)几个单词的首字母简写。主要被用在描述软件系统中DataBase或者持久层的基本操作功能。对应这里的crud方法的命名，每个人有不同的实践。以下是阿里
C++ Primer：3.2 标准库类型string 天空的蓝耀 c++开发语言
其他章节：C++Primer学习心得标准库类型string表示可变长的字符序列，使用string类型必须首先头文件，string定义在命名空间std中#includeusingstd::string定义和初始化string对象初始化类的对象是由类本身决定的，一个类可以定义很多种初始化对象的方式。strings1//默认初始化，s1是一个空串strings2(sl)//s2是s1的副本strings
C++ Primer：3.3 标准库类型vector 天空的蓝耀 c++开发语言
其他章节：C++Primer学习心得vector类型表示对象的集合，所有对象的类型都相同。集合中的每个对象都有一个与之对应的索引，用于访问对象。vector容纳着其他对象，也被称作容器。使用vector必须包含适当的头文件。#includeusingstd::vectorvector是一个类模板，模板不是类或函数。编译器根据模板创建类或函数的过程成为实例化，当使用模板时，需要指出把类和函数实例化成
Go语言学习笔记—golang流程控制 PPPsych Go语言基础学习笔记 golang 学习
视频来源：B站《golang入门到项目实战[2022最新Go语言教程，没有废话，纯干货！]》文章为自己整理的学习笔记，侵权即删，谢谢支持！文章目录一Go语言中的流程控制简介二Go语言中的if语句2.1语法2.2实例演示2.3注意事项三Go语言中的ifelse语句3.1语法3.2实例演示3.3注意事项（同if语句）四Go语言中的ifelseif语句4.1语法4.2实例演示五Go语言中的嵌套if语句5
【人工智能 | 大数据】基于人工智能的大数据分析方法用心去追梦人工智能大数据数据分析
基于人工智能（AI）的大数据分析方法是指利用机器学习、深度学习和其他AI技术来分析和处理大规模数据集。这些方法能够自动识别模式、提取有用信息，并做出预测或决策，从而帮助企业和组织更好地理解市场趋势、客户行为以及其他关键因素。以下是几种主要的基于AI的大数据分析方法：机器学习模型：通过训练算法让计算机从历史数据中学习并做出预测或分类。常见的机器学习技术包括监督学习（如回归分析、支持向量机）、非监督学
海尔 F231ZC 随身 WiFi 刷机升级全攻略虎王科技 golang 后端
随身WiFi相关（程序+源码+工具+调试部署+开发环境）总共500多GB以上，文章末尾可获取，在最后面了。技术来自酷安论坛本文进攻学习研究自娱自乐在快节奏的现代生活中，网络连接已成为我们不可或缺的一部分。无论是商务出行还是日常休闲，随身WiFi设备都能为我们提供随时随地的上网服务。而海尔F231ZC作为一款备受关注的随身WiFi产品，其性能与功能也在不断更新和优化。本文将为您详细介绍海尔F231Z
小白入门MATLAB学习笔记小mushroom matlab 学习笔记
绘图：使用MATLAB绘制三叶玫瑰线公式：玫瑰线的极坐标方程为:ρ=a*sin(nθ),ρ=a*cos(nθ)用直角坐标方程表示为:x=a*sin(nθ)*cos(θ),y=a*sin(nθ)*sin(θ)其中n为玫瑰线的叶数，我们绘制三叶玫瑰线，因而公式中取n=3代码：t=-2*pi:0.01:2*pi;x=sin(3*t).*cos(t);y=2*sin(3*t).*sin(t);z=3*si
数据结构学习记录-队列墨楠。 #C 语言数据结构研习汇数据结构学习
队列的基本概念1、队列是操作受限的线性表2、队头：允许删除的一端3、队尾：允许插入的一端4、空队列：不含任何元素的空表5、特点：先进先出、FIFO6、应用场景：栈：解决括号匹配；逆波兰表达式求解;递归改非递归等等队列：公平排队，广度优先遍历等等队列的结构：队列的具体实现结构比较灵活，只要遵循先进先出原则即可。顺序表的方式实现，如果用数组表示，虽然尾插数据比较方便，但当头删数据时，还要移动剩余元素，
深度学习中超参数 fengbingchun Deep Learning hyperparameter
深度学习中的超参数(hyperparameters)是决定网络结构的变量(例如隐藏层数量)和决定网络训练方式的变量(例如学习率)。超参数的选择会显著影响训练模型所需的时间，也会影响模型的性能。超参数是在训练开始之前设置的，而不是从数据中学习的参数。超参数是模型训练期间无法学习的参数，需要事先设置。在深度学习中，模型由模型参数(如神经网络的权重和偏置)定义或表示。然而，训练模型的过程涉及选择最佳超参
Python自动化|几秒提取成千上百个Excel指定数据,你学废了吗？ Python子木_ Python学习 Python入门 python 大数据 python入门 python学习 python基础 python教程 python教学
在数据密集的工作环境中,我们经常需要从多个Excel文件中提取指定的数据.这种重复性的工作不仅枯燥,还非常耗时.今天,我将分享如何使用Python实现从成千上万个Excel文件中自动提取数据的方法,让你几秒钟完成5000分钟的工作,彻底告别枯燥重复工作.这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我，对未来十分迷茫的，可以点击这里获取最新的Python学习
基于MATLAB机器学习、深度学习实践技术应用梦想的初衷~ 机器学习人工智能 matlab 机器学习深度学习
近年来，MATLAB在机器学习和深度学习领域的发展取得了显著成就。其强大的计算能力和灵活的编程环境使其成为科研人员和工程师的首选工具。在无人驾驶汽车、医学影像智能诊疗、ImageNet竞赛等热门领域，MATLAB提供了丰富的算法库和工具箱，极大地推动了人工智能技术的应用和创新。原文链接https://mp.weixin.qq.com/s?__biz=Mzg2NDYxNjMyNA==&mid=224
Centos常用命令，按功能分类，用户和权限管理等 ZHOUPUYU 资料分享 centos linux 运维
CentOS是一个基于RedHatEnterpriseLinux(RHEL)的免费开源操作系统，稳定可靠，广泛应用于服务器环境。以下是一份CentOS使用教程及常用命令的总结，帮助你快速上手。由于篇幅限制，这里只涵盖常用命令和基本操作，更深入的学习需要参考CentOS官方文档和相关书籍。一、安装CentOSCentOS的安装过程与其他Linux发行版类似，通常包含以下步骤：下载镜像:从CentOS
如何使用 Python 进行文件读写操作？ python
大家好，我是V哥。今天的内容来介绍Python中进行文件读写操作的方法，这在学习Python时是必不可少的技术点，希望可以帮助到正在学习python的小伙伴。以下是Python中进行文件读写操作的基本方法：一、文件读取：#打开文件withopen('example.txt','r')asfile:#读取文件的全部内容content=file.read()print(content)#将文件指针重置
深度求索DeepSeek V2.5-1210发布：AI代码生成器迎来全新升级前端
深度学习技术日新月异，而强大的AI代码生成器也随之不断进化。今天，我们将聚焦于深度求索团队发布的DeepSeekV2.5-1210版本，这款标志着DeepSeekV2系列收官之作，为我们带来了令人惊喜的Post-Training能力提升和备受期待的联网搜索功能。这篇文章将深入探讨DeepSeekV2.5-1210的各项改进，以及其开源带来的深远影响。DeepSeekV2系列的研发历程与V2.5-1
Go语言学习Day1 XXX-17 golang 开发语言后端
一、基本1）go基本目录结构goproject/src/gocode/testproject01/main(main下是具体代码）2）打开File/Openfolder(打开基本目录）3）新建源文件test01.go4）编译通过命令提示符窗口到达源文件根目录/然后cdgobuildtest01.go（生成test01.exe）5）执行接着上面的执行test01.exe(生成结果）4)和5)可以合并
AI赋能Flutter开发：新手也能轻松入门前端
Flutter作为一款跨平台移动应用开发框架，凭借其“一次编写，多端运行”的特性，赢得了众多开发者的青睐。然而，Flutter的学习曲线相对陡峭，特别是对于编程新手而言，上手难度较大。大量的代码编写、复杂的UI搭建以及对Dart语言的学习，都可能成为学习过程中的阻碍。但现在，借助AI写代码工具，这一切都将变得更加轻松便捷！本文将以ScriptEcho为例，介绍如何利用AI辅助工具高效入门Flutt
《CPython Internals》阅读笔记：p285-p328 python
《CPythonInternals》学习第15天，p285-p328总结，总计44页。一、技术总结1.shallowcomparisonp285,InObjectsobject.c,thebaseimplementationoftheobjecttypeiswritteninpureCcode.Therearesomeconcreteimplementationsofbasiclogic,like
2025年个人博客网站-零成搭建-终极指南 Ktovoz 经验分享前端 react
作者:KTO原文:《零成本博客建站终极指南》如果你需要站立自己的博客网可以参考本文。背景故事在接触前端领域之前,我和许多刚入门前端的新手一样，面对纷繁复杂的技术栈选择陷入迷茫,不知道从何下手。最初雄心勃勃想用Next.js从零搭建博客，却在实战中屡屡碰壁。最终找到「模板先行，逐步精进」的破局之道："先有后优"原则：通过成熟模板快速搭建可运行版本➡️持续迭代优化➡️渐进式学习技术细节本文将分享这一方
降维算法：主成分分析一个人在码代码的章鱼数学建模机器学习概率论
主成分分析一种常用的数据分析技术，主要用于数据降维，在众多领域如统计学、机器学习、信号处理等都有广泛应用。主成分分析是一种通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量（即主成分）的方法。这些主成分按照方差从大到小排列，方差越大，包含的原始数据信息越多。通常会选取前几个方差较大的主成分，以达到在尽量保留原始数据信息的前提下降低数据维度的目的。它通过将多个指标转换为少数几个主成分,
2024年最全（一）大数据---Hadoop整体介绍（架构层）----（组件，并发知识体系大全 2401_84586689 程序员大数据 hadoop 架构
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！Hadoop方案一、大数据介绍============
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu