406

Deepdive原理

DeepDive是一种新型数据管理系统，能够从非结构化的文本中提取出结构化的数据，可以在单个系统中解决提取，集成和预测问题，使用户能够快速构建复杂的端到端数据管道，例如黑暗数据BI（商业智能）系统。通过允许用户端到端构建系统，DeepDive允许用户专注于系统中最能直接提高应用程序质量的部分。相比之下，以前基于流水线的系统要求开发人员构建提取器，集成代码和其他组件 - 而不清楚他们的更改如何提高其数据产品的质量。这种简单的洞察力是DeepDive系统如何在更短的时间内生成更高质量数据的关键。
通过DeepDive，可以提取实体间的复杂的关系，并推断涉及这些实体的事实。

1.数据处理

加载原始输入数据
我们的第一个任务是下载巨潮资讯网提供的公告文章集的原始文本并将其加载到我们数据库的articles表格中。我们创建一个简单的shell脚本，以TSV格式下载和输出新闻文章。DeepDive将自动创建表，执行脚本并加载表，如果我们将其保存为：input/articles.tsv.sh
上述脚本读取语料库的样本（作为JSON对象的行提供），然后使用jq语言提取字段id（对于文档id）和content每个条目并将它们转换为TSV格式。
接下来，我们需要声明本的架构articles表中我们的app.ddlog文件 ; 我们添加以下行：

articles(id      text,
    	   content text).

添加自然语言标记
deepdive默认用standford nlp进行文本处理，可以返回句子的分词、lemma、pos、NER
自然语言处理 Natural Language Processing
分词：首先是中文分词，在一句话中，我们要把词分出来，而不是光看单独的子。比如我今天很高兴选择合适的字组成合适的词来构成句子
lemma：词元，这个是指这个词实质上的含义，比如cat,cats他们有相同词元。
pos：词性标注，最基本的是动词、名词等等
NER：Named Entity Recognition，可以识别出地名、人名、组织等等

抽取候选关系
前面都是通用的步骤，不论抽取什么样的关系，什么类型的实体，都要先对文章进行处理，分词、标记。但是到了这一步，我们就是要按照我们的任务去安排了。
既然我们要抽取公司间的交易信息，首先要得到文本中的公司是谁，才能进一步知道他们有没有关系，这一步就是要抽取这些公司啦。一共分两步：

抽取候选实体
得到实体间的候选关系

2.抽取候选关系

抽取候选实体
如何从这一堆文本里得到公司的名字。在nlp处理中有一个步骤是命名实体识别(NER)，这个东西会把每个词的实体识别出来，比如公司名字就应是属于ORG类的实体。所以我们只要在每个sentence中找到其中的ner_tags 为连续的ORG标记的就可以了。

抽取候选关系
候选实体已经有了，就是文中出现的公司名，我们要找的是公司之间的交易关系。所以这里候选关系简单来说，就是把不同的公司名两两组合，最终得到的关系表其实就相当于对两个候选实体表进行笛卡尔积（当然，我们还需要一些简单的过滤的处理，比如两个公司名不能相同啊等等）了。

A：a1,a2,a3 B:b1,b2
A×B：（a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2)

现在定义一个表来存储候选关系

transaction_candidate(
    p1_id       text,
    p1_name     text,
    p2_id       text,
    p2_name     text
)

特征提取
对于前面提取出来的公司间的候选关系，要使用机器学习的算法，通过训练集，让计算机去分类。根据特征判断哪个关系可能有交易关系，
对于自然语言来说，特征就是上下文。
所以定义一个特征表：

transaction_feature(
    p1_id       text,
    p2_id       text,
    feature     text
).

feature                        
————————————————————————————
 WORD_SEQ_[郴州市 城市 建设 投资 发展 集团 有限 公司]
 LEMMA_SEQ_[郴州市 城市 建设 投资 发展 集团 有限 公司]
 NER_SEQ_[ORG ORG ORG ORG ORG ORG ORG ORG]
 POS_SEQ_[NR NN NN NN NN NN JJ NN]
 W_LEMMA_L_1_R_1_[为]_[提供]
 W_NER_L_1_R_1_[O]_[O]
 W_LEMMA_L_1_R_2_[为]_[提供 担保]
 W_NER_L_1_R_2_[O]_[O O]
 W_LEMMA_L_1_R_3_[为]_[提供 担保 公告]
 W_NER_L_1_R_3_[O]_[O O O]
 W_LEMMA_L_2_R_1_[公司 为]_[提供]
 W_NER_L_2_R_1_[ORG O]_[O]
 W_LEMMA_L_2_R_2_[公司 为]_[提供 担保]
 W_NER_L_2_R_2_[ORG O]_[O O]
##下面最长的就是左2右3，或者左3右2的格式，最长是五个。
 W_LEMMA_L_2_R_3_[公司 为]_[提供 担保 公告]
 W_NER_L_2_R_3_[ORG O]_[O O O]
 W_LEMMA_L_3_R_1_[有限 公司 为]_[提供]
 W_NER_L_3_R_1_[ORG ORG O]_[O]
 W_LEMMA_L_3_R_2_[有限 公司 为]_[提供 担保]
 W_NER_L_3_R_2_[ORG ORG O]_[O O]

样本打标
对于监督学习，必然需要标注数据，那么已标注数据是怎么来的呢？当然正经的来说，应该是我们给这个系统提供大量的我们之前已经标注好了的数据，但是现在我们没有。所以我们可以对前面几步我们抽取出来的关系，利用一些先验的数据（比如人工标记的关系，还有先验的规则）对那些关系进行标记（标注出某些标记是已知的存在交易关系的，还有已知不存在交易关系的候选关系）。

所以对于这里来说，我们同样需要数据库中有一个表，来存储我们的被标记数据。在app.ddlog中定义一个表来存储关系的规则名和权重：

transaction_label(
p1_id   text,
p2_id   text,
label   int,
rule_id text
    ).

其中rule_id代表在标记决定相关性的规则名称。label为正值表示正相关，负值表示负相关。绝对值越大，相关性越大。初始化定义，复制 transaction_candidate表到transaction_label中，label均定义为零。

3.模型构建

首先简单介绍一下关系抽取，关系抽取就是判断一个一句话中出现的两个实体是否存在某种已经定义好的关系。比如下面这个句子：

对于这样一次判断的过程，输入是句子+实体对。输出是夫妻关系这样一个类别。传统的关系抽取过程可以看成是对目标实体对和句子的一个多分类问题。

deepdive (http://deepdive.stanford.edu/) 是斯坦福大学开发的信息抽取系统,系统集成了文件分析、信息提取、信息整合、概率预测等功能。deepdive系统运行过程中包括一个重要的迭代环节。即每轮输出生成后，用户需要对运行结果进行错误分析，通过特征调整、更新知识库信息、修改规则等手段干预系统的学习，这样的交互与迭代计算能使得系统的输出不断得到改进。
首先来简单介绍一下deepdive的算法原理，主要分为以下几个内容：
1.因子图模型
2.吉布斯采样
3. 权重学习

因子图概述
因子图是概率图模型的一种， DeepDive的概率推测（Probabilistic inference）就是在因子图上执行的。在因子图中，有两类节点，变量节点（ Variables ）和因子节点（ Factor ）。每一个变量节点表示一个特定事件发生的概率。比如我们可以将小明是否抽烟看成一个变量节点，如果他抽烟。则节点值为1，否则则节点取值为0。在deepdive中，所有的变量节点都是布尔类型的。因子节点表示一种一阶谓词逻辑和其对应的特定的权重w，定义了变量节点之间的关系。我们可以把他们看成一些关于变量节点的函数。

接下来看一个例子，构造如上所示的一个因子图：
变量节点（V）：
v1：小明是否有癌症
v2：小明是否抽烟

Variables：如果这种结点的值已知，它就可以当作一个证据变量（用来推断别的值）；这个值也可以是未知的，这事就叫做查询变量，就是我们需要进行预测得到的值，比如图中的v1,v2；
Factor：每个因子都可以连接到多个变量，并用因子函数定义它们之间的关系，比如图中的f1,f2 ；每个因子（或者说因子函数）都有一个权重值，来表示这个因子影响力的大小。换个说法，这个权重值表示了某个因子的可信程度，正数越大则越正确，负数越小则越错误（错误表示某种不可能，比如一个人的亲儿子同时是他的亲兄弟，这就是一个错误，所以这个因子的权重就应该是一个很小的负值）。因子函数的权重可以通过训练学习得到，也可以手动赋值（通过脚本或者app.ddlog）。

因子节点（F，W）：
定义：f1(v2, v1), w1：小明如果抽烟那么他有癌症
f2(v2), w2：我们认为小明是抽烟的
那么：f1(0,0) = 1, f1(0,1) =1, f1(1,0) = 0 , f1(1,1) = 1
f2(1) = 1, f2(0) = 0
概率计算：

DDlog概述
DDlog是一种更高级的语言，用于以简洁的Datalog类语法编写DeepDive应用程序。在这里，我们专注于描述在DeepDive应用程序中定义数据流的一般语言功能。
DDlog程序是声明和规则的集合。每个声明和规则都以句点（.）结尾。DDlog中的注释以hash（#）字符开头。
所有DDlog代码都应放在app.ddlog（DeepDive应用程序下命名的文件）中。

DDlog架构声明
首先，在app.ddlog中应声明在整个程序中定义和使用的关系的模式。这些关系映射到为DeepDive应用程序配置的数据库中的表。如下所示：

relation_name(
  column1_name  column1_type,
  column2_name  column2_type,
  ...
).

与SQL表定义类似，模式声明只是关系的名称，后跟逗号分隔的列名列表及其类型。目前，DDlog将类型直接映射到SQL，因此可以使用底层数据库支持的任何类型，例如PostgreSQL的类型。

下面是一个现实的例子。

article(
  id     int,
  length int,
  author text,
  words  text[]
).

这里我们定义了一个名为“article”的关系，它有四列，分别命名为“id”，“length”，“author”和“words”。每列都有它自己的类型，在这里利用int，text和text[]。

DDlog正态推导规则
典型的类似数据目录的规则用于定义如何从其他关系派生关系。例如，以下规则规定关系的元组Q是从关系R和S派生的.

Q(x, y) :- R(x, y), S(y).

这里Q(x, y)是head原子，R(x, y)和S(y)是body原子。 X和y是规则中的变量。head是被定义的关系，body是谓词或条件的结合，它们用于绑定定义的变量，用逗号（,）分隔。在这个例子中，R的第二列是统一用的S第一列，即，主体是R和S之间相等联接关系。

DDlog布尔变量
变量关系的定义方法，就是在普通关系的关系名后面加上一个问号：?，就可以表示这个表是变量表，而不是用于加载或处理数据以供模型稍后使用的常规关系。变量关系的列用作关键字。以下是布尔变量关系的示例声明。

has_spouse?(
	p1_id text, 
	p2_id text
 ).

这声明了一个名为变量的关系has_spouse，其中每个唯一的一对(p1_id, p2_id)代表模型中的一个不同的随机变量。

DDlog指定相关性
现在，在几乎每个问题中，变量都以特殊的方式相互关联，并且希望用这种领域知识来丰富模型。可以通过创建将多个相关变量连接在一起的某些类型的因子来建模这种相关性。这是FACTOR_HEAD中更丰富的语法发挥作用的地方。DDlog借用了Markov Logic Networks的大量语法，因此也使用了一阶逻辑。
例如，smoke示例中的以下规则关联两个变量关系。

@weight(3)
smoke(x) => cancer(x) :-
    person(x).

这条规则表明，如果一个人抽烟，就会暗示他/她会患上癌症。这里，常量3用于@weight表示该规则的某种程度的置信度，而不是从数据中学习权重。

模型构建
(1) 我们最终想要得到的是什么。是判断某两家公司之间是否存在交易。就像前面的数据一样，我们的推理数据同样需要存储他们的数据表，因为他是算出来的，所以这些是变量，故DeepDive给它取了个名字：Variable Relation(变量关系)。

我们要求的是是否有交易，所以可以按照下边例子定义一个变量关系：

@extraction
has_transaction?(
    p1_id text,
    p2_id text).

这里的变量关系结合到因子图，应该是变量这一部分，变量即可以包含已知的知识，也可是未知的要抽取的知识，所以这个变量关系其实就是定义了因子图中的一部分变量节点，下一小部分就是填入因子和已知知识的过程。当然一个DeepDive项目中可以有很多种变量节点，构建一个复杂的因子图来实现更准确的抽取。

(2). 在前面部分已经对数据进行了简单的打标，也就是相当于机器学习任务中，我们有了已标记数据。把已经标记了的数据，输入到has_transaction表中，也就是可以得到因子图中的已知的变量节点。如下所示：

has_transaction(p1_id, p2_id) = if l > 0 then TRUE
     else if l < 0 then FALSE
     else NULL end :- transaction_label_resolved(p1_id, p2_id, l).

此时变量表中的部分变量label已知，成为了先验变量。

(3). 最后编译执行这个表，可以得到带有已知结果的变量节点：

deepdive compile && deepdive do has_transaction

4.因子图构建

指定特征
前面已经定义了因子图中的基本节点，下面应该定义其中的因子了，还有用来学习的特征。transaction_candidate这个表中，我们存储了所有候选的公司的匹配对，transaction_feature中存储了每个公司对之间的语言特征。现在我们告诉因子图，如何训练权重，就是根据我们之前抽取到的特征来训练。比如下面：
将每一对has_transaction中的实体对和特征表连接起来，通过特征的连接，全局学习这些特征的权重。在app.ddlog中定义：

@weight(f)
   has_transaction(p1_id, p2_id) :-
       transaction_candidate(p1_id, _, p2_id, _),
       transaction_feature(p1_id, p2_id, f).

指定变量间的依赖性
定义一个简单的因子，指定变量间的依赖性，也是一个简单的推理规则：
在当前的工作中，甲公司和乙公司发生交易，那么必定乙公司和甲公司也发生了交易，交易是一个双向的关系，所以我们现在按照下面的例子来定义一个推理的因子，表示这种关系，其中weight中的3.0认为赋予这个规则的权重，不用学习。

@weight(3.0)
has_transaction(p1_id, p2_id) => has_transaction(p2_id, p1_id) :-
     transaction_candidate(p1_id, _, p2_id, _).

变量表间的依赖性使得deepdive很好地支持了多关系下的抽取。

最后，编译，并生成最终的概率模型：

deepdive compile && deepdive do probabilities

基于多头注意机制的多尺度特征融合的GCN的序列数据（功率预测、故障诊断）模型及代码详解清风AI 深度学习算法详解及代码复现人工智能神经网络深度学习 python conda pip pandas
GCN基础在深度学习领域中，图卷积网络(GCN)是一种强大的图数据处理工具。它将卷积操作扩展到图结构上，能够有效捕捉图中节点之间的关系信息。GCN的核心思想是通过聚合邻居节点的特征来更新目标节点的表示，这种局部聚合机制使得GCN能够学习到图的拓扑结构和节点属性。GCN的主要构成要素包括节点特征矩阵、邻接矩阵和卷积核。通过多次迭代，GCN可以逐步学习到图中节点的高阶表示，为后续的分类、预测等任务提供
STM32 —— 嵌入式系统、通用计算机系统、物联网三层架构 Exhausted、 stm32 单片机 stm32 嵌入式硬件物联网架构
目录一、嵌入式系统的概念二、通用计算机系统与嵌入式系统的比较用途硬件软件性能与功耗开发与维护三、嵌入式系统与物联网的关系四、物联网的三层架构1.感知层（PerceptionLayer）2.网络层（NetworkLayer）3.应用层（ApplicationLayer）三层架构的协作流程一、嵌入式系统的概念嵌入式系统一般由嵌入式微处理器、外围硬件设备、嵌入式操作系统以及应用程序等4部分组成，并且分为
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
目标检测YOLO实战应用案例100讲-基于毫米波雷达与摄像头协同的道路目标检测与识别（续）林聪木目标检测 YOLO 人工智能
目录3.2实测数据采集与分析3.2.1回波数据处理3.2.2毫米波雷达数据采集实验3.3基于传统图像特征的目标识别算法3.3.1基于灰度共生矩阵的时频图特征提取3.3.2支持向量机分类器3.3.3实验及结果分析3.4基于卷积神经网络的目标识别算法3.4.1卷积神经网络的基本理论3.4.2卷积神经网络框架设计3.4.3实验及结果分析基于图像的目标检测算法4.1目标检测算法一般流程4.2典型目标检测算
Maven中dependency标签参数 lgily-1225 日常积累 maven java 后端
Maven中dependency标签参数如下：一、type有时候我们引入某一个依赖时，必须指定type，这是因为用于匹配dependency引用和dependencyManagement部分的最小信息集实际上是{groupId，artifactId，type，classifier}。在很多情况下，这些依赖关系将引用没有classifier的jar依赖。这允许我们将标识设置为{groupId，art
PostgreSQL技术大讲堂 - 第82讲，主题：数据安全利器--密码安全策略构建 m0_65303136 postgresql 数据库
PostgreSQL技术大讲堂-第82讲，主题：数据安全利器--密码安全策略构建讲课内容：1、密码安全概述2、启用密码安全策略3、深入密码安全构建4、PG密码安全策略漏洞数据库用户的密码安全关系在整个数据库的安全，控制密码的复杂度、密码复用控制、密码定期重置直接影响密码的安全，本期技术公开课为大家展示如何构建密码安全策略。欢迎持续关注CUUGPostgreSQL技术大讲堂。
Python + Qt Designer构建多界面GUI应用程序：Python如何调用多个界面文件懒大王爱吃狼 python python qt 命令模式 mysql 数据库 Python基础开发语言
引言QtDesigner是一个用户友好的图形用户界面设计工具，它可以帮助开发人员通过拖放的方式快速创建界面。在实际开发中，往往需要设计多个界面文件，并在Python代码中进行统一管理和使用。本文将介绍如何在Python中使用QtDesigner设计好的多个界面文件的常用方法。方法一：单独加载并显示如果界面文件相对独立，并且没有复杂的依赖关系，可以考虑单独加载并显示每个界面文件。fromPyQt5i
如何快速提取PDF中的图片？这款免费工具让你事半功倍！ 10211234567890 pdf编辑 pdf pdf提取图片 pdf数据提取 pdf提取
在日常学习和工作中，PDF文件几乎成了我们处理文档的标配。但你是否遇到过这样的烦恼：想从PDF里提取图片，却只能手动截图，效率低还容易模糊？尤其是面对几十页的复杂文档，简直让人抓狂……别急！今天分享一个亲测高效的解决方案——完全免费、无需注册、一键提取PDF图片的工具，3分钟搞定难题！为什么你需要专业的PDF图片提取工具？手动截图太麻烦：图片位置分散、尺寸不一，截图后还需裁剪整理，耗时耗力。图片质
【FAQ】HarmonyOS SDK 闭源开放能力 —Map Kit（6） harmonyos-sdk
1.问题描述：使用华为内置的MapComponent，发现显示不出来。查看日志，MapRender底层有报错。解决方案：麻烦按以下步骤检查下地图服务，特别是签名证书指纹那部分。1.一般没有展示地图，可能和没有配置SHA256指纹证书配置，网络，定位权限，没有打开地图服务等有关系，如果刚配置完权限等，需要24h生效，（可以将手机系统时间往后设置24h）。2.module.json5文件中metada
【2025年全面解析】国内外10款经典项目管理软件工具
在当今快节奏的商业环境中，项目管理的效率和质量直接关系到企业的成败。无论是大型企业的复杂项目，还是小型团队的创新尝试，一款合适的项目管理工具都能起到事半功倍的效果。本文将为您全面解析2025年国内外10款经典项目管理软件工具，包括禅道、Trello、Asana、Jira、Redmine、ClickUp、Wrike、Freedcamp、Basecamp、Monday.com，帮助您找到最适合自己的项
java word转pdf三种方法（附有需要的jar）李逍遙️ word转pdf java
一.jacob1.jar下载jacob.jar和jacob-1.17-x64.dll下载提取码：01212.在jdk/bin目录下引入.dll文件（64位：jacob-1.17-x64.dll32位：jacob-1.17-x86.dll）3.转换代码importcom.jacob.activeX.ActiveXComponent;importcom.jacob.com.Dispatch;impor
北京数智医保创新竞赛 | 以“智慧”升级医保，智领云BDOS牢筑竞赛“地基” LinkTime_Cloud 人工智能大数据编程语言数据分析分布式
点击“蓝字”关注我们“任重道远”是对当前医保信息化建设最简明的概括，由于涉及人数多、数据庞大、业务复杂，医保升级之路异常艰难，亟需信息化建设的支持。作为首都，北京面临的医保问题更为错综复杂，例如医疗保障种类繁多，金额巨大，医疗机构举办主体多元，隶属关系复杂，医疗机构药品、耗材用量大，医保服务群体与医保层次多元等等。如此一来，建设高水平的首都医疗保障信息化平台迫在眉睫，但就目前来看，北京医保信息化基
掌握C#企业级应用的数据一致性与分布式事务：从基础到高级的全面解析墨夶 C#学习资料1 c#分布式 wpf
在当今的企业级应用开发中，确保数据的一致性是至关重要的。尤其是在涉及分布式系统时，如何处理跨服务、跨数据库的操作以保证数据的一致性和可靠性成为了一个复杂但必须解决的问题。本文将深入探讨使用C#进行企业级应用开发时的数据一致性和分布式事务管理，提供详细的代码示例和最佳实践。第一部分：理解数据一致性与分布式事务的基础知识1.1数据一致性的重要性在企业级应用中，数据一致性是指关联数据之间的逻辑关系是否正
【知识图谱】开发经验记录：CORS（跨域资源共享）问题 niuuuu16 基于知识图谱的智能助教系统知识图谱人工智能经验分享 java spring boot
尝试前后端交互时出现了这样的报错：AccesstoXMLHttpRequestat'http://localhost:8080/api/courses'fromorigin'http://localhost:8081'hasbeenblockedbyCORSpolicy:No'Access-Control-Allow-Origin'headerispresentontherequestedreso
系统架构设计（以飞控系统、航电系统、机电管理系统、电子电气架构为例）机载软件与适航机载系统系统工程适航系统架构架构
架构的定义系统架构涉及对系统的结构和行为进行高层次的描述。它包括系统的组成部分、这些部分之间的关系、与外部环境的交互方式，以及满足特定功能和非功能性需求的方法。系统架构定义了系统的总体设计蓝图，指导系统的开发、集成、部署和维护。系统架构的核心要素组成部分（Components）：系统中的独立模块或单元，每个模块执行特定的功能。组件可以是软件模块、硬件设备、数据库、用户界面等。组件间的关系（Rela
从需求文档到测试用例的转化方法论测试渣测试用例
在当今快速发展的软件行业中，软件质量的高低直接关系到企业的市场竞争力和用户体验。作为软件质量保障的关键环节，测试用例的设计与实施起着至关重要的作用。而测试用例的设计，又是以需求文档为依据的。因此，如何从需求文档中准确、全面地提取信息，并转化为有效的测试用例，成为了测试团队面临的重要挑战。本文将从需求文档的特点、测试用例设计的原则和方法，以及二者之间的转化流程等方面，详细阐述从需求文档到测试用例的转
使用python seaborn创建配对图：从核心概念到实战案例梦想画家数据分析工程 #python 人工智能 python 机器学习
Seaborn的配对图（Pairplot）是一种用于探索多变量数据关系的可视化工具，尤其适合分析数据集中多个特征之间的相关性、分布模式或异常值。本文介绍如何生成数据集数值变量之间的配对图，并通过参数设置色系。配对图的核心作用矩阵式可视化生成一个N×N的网格图（N为特征数），每个单元格展示两列特征之间的关系。默认对角线显示单变量分布（直方图或KDE曲线），非对角线显示散点图或其他关系图。快速发现模式
谷歌母公司Alphabet拟斥资230亿美元收购网络安全公司Wiz leijianping_ce
雷递网乐天7月15日据知情人士透露，谷歌母公司Alphabet正在就收购网络安全初创公司Wiz进行谈判。此次交易总额可能高达230亿美元。这将使其成为Alphabet迄今为止最大的一笔收购。双方尚未达成协议，谈判仍有可能以失败告终。近期，Alphabet搁置收购客户关系管理公司HubSpotInc.的努力，随后进行此次谈判。与HubSpot交易一样，对于像Alphabet这样的大型科技公司来说，收
Matlab基于BP神经网络与NSGA-II的多目标工艺参数优化方法天天酷科研工艺参数优化 matlab 神经网络工艺参数优化
Matlab基于BP神经网络与NSGA-II的多目标工艺参数优化方法一、方法原理与框架BP神经网络的作用BP神经网络通过建立工艺参数与目标性能（如翘曲变形、收缩率、硬度等）之间的非线性映射关系，作为代理模型替代复杂的物理仿真或实验。其优势在于：能够处理多输入-多输出的复杂非线性关系，例如激光功率、扫描速度与熔覆层性能的关联。在注塑成型中，预测体积收缩率和翘曲变形的相对误差可控制在5%以内。通过正交
MySQL 面试题你曾经是少年 mysql 数据库
1.数据库基础问题：请解释数据库（DB）、数据库管理系统（DBMS）、SQL三者的区别。参考答案：DB：存储数据的结构化仓库DBMS：管理数据库的软件（如MySQL、Oracle）SQL：操作关系型数据库的标准化语言2.SQL分类问题：SQL分为哪几类？分别写出对应的关键字（至少3个）。参考答案：DDL：CREATE/DROP/ALTERDML：INSERT/UPDATE/DELETEDQL：SE
图像分割技术的应用不要不开心了计算机视觉 dash python
今天的内容为：图像分割技术与应用，以下是内容总结1.图像分割概述图像分割是指预测目标的轮廓，将不同的像素划分到不同的类别，属于非常细粒度的分类任务。其应用场景广泛，包括人像抠图、医学组织提取、遥感图像分析、自动驾驶、材料图像分析等。2.图像分割的前景与背景-物体（Things）：可数的前景目标，如行人、车辆等。-事物（Stuff）：不可数的背景，如天空、草地、路面等。3.图像分割的三层境界-语义分
SQL语言的散点图苏墨瀚包罗万象 golang 开发语言后端
SQL语言的散点图引言在数据科学和数据分析的领域中，数据可视化是一项重要的技能。有效的数据可视化可以帮助我们理解复杂的数据集，发现数据中的潜在规律，进而支持决策制定。散点图作为一种基本而有效的数据可视化形式，广泛应用于各种领域。本文将深入探讨散点图的概念、使用场景、SQL查询与散点图的结合，以及如何通过SQL语言生成散点图。散点图的定义与特点散点图是一种二维图形，用来展示两个变量之间的关系。每个点
zookeeper&nacos&kafka之间的联系 Gold Steps. 技术博文分享 zookeeper kafka 微服务服务发现
一、ZooKeeper与Kafka的协同工作原理1.核心关系：Kafka对ZooKeeper的依赖在Kafka2.8版本之前，ZooKeeper是Kafka集群的“大脑”，负责管理集群元数据、协调节点状态和故障恢复。两者的协同主要通过以下关键机制实现：Broker注册与心跳KafkaBroker启动时会在ZooKeeper的/brokers/ids路径下注册临时节点（EphemeralNode），
springBoot中不添加依赖 , 手动生成一个token ,并校验token (使用简单 , 但是安全会低一点) 无足鸟丶 spring boot 安全后端
在SpringBoot里，即便不添加额外依赖，也能手动生成和校验Token。下面以简单的基于时间戳和密钥的方式来生成和校验Token为例，介绍具体实现步骤。实现思路生成Token：把用户信息、时间戳等数据组合起来，再用密钥进行哈希处理，生成一个唯一的Token。校验Token：从Token里提取出用户信息和时间戳，重新进行哈希处理，然后与原Token进行对比，同时检查时间戳是否过期。代码实现1.创
【初学者】请介绍一下指针分析（Pointer Analysis）？ lisw05 计算机科学技术 c语言指针
李升伟整理指针分析（PointerAnalysis）指针分析（PointerAnalysis）是一种静态程序分析技术，用于确定程序中指针可能指向的内存位置或对象。它是编译器优化、程序验证、漏洞检测和并行化等领域的重要基础。1.指针分析的目标指针分析的主要目标是回答以下问题：指针变量可能指向哪些内存位置或对象？两个指针是否可能指向同一个内存位置（别名分析）？指针的指向关系如何影响程序的行为？通过回答
有了大模型为何还需要Agent智能体全栈你个大西瓜人工智能人工智能 AI Agent Agent 智能体 Agent 原理
一、什么是Agent？Agent（智能体）是一种能感知环境、自主决策、执行动作的智能实体，当它与大语言模型（如通义千问QWen、GPT）结合时，形成一种**“增强型AI系统”**。其核心架构如下：大脑（LLM）：负责语言理解、逻辑推理、知识问答等认知任务。感官（工具链）：通过API、传感器或数据库获取实时数据（如天气、股价）。手脚（执行器）：调用外部工具完成任务（如发送邮件、控制智能家居）。记忆（
基于Python拉取tiktok直播视频流，并将视频流切割成一定时长的视频片段 sh_moranliunian 蜘蛛侠网络爬虫后端 python 爬虫
通过访问tiktok的直播间网页，从网页的script标签内部提取出关于该直播间的相关信息的JSON串，最终从JSON里提取出直播视频流的hls地址和直播间的其他信息。importsysimportrequestsimportjsonimporttimeimportsubprocessfromurllib.parseimporturlunparsefrombs4importBeautifulSou
高级java每日一道面试题-2025年3月06日-微服务篇[Eureka篇]-Eureka Server和Eureka Client关系? java我跟你拼了 java每日一道面试题 java 微服务 eureka
如果有遗漏,评论区告诉我进行补充面试官:EurekaServer和EurekaClient关系?我回答:在微服务架构中，Eureka作为Netflix开源的服务发现组件，由EurekaServer（服务端）和EurekaClient（客户端）两大部分组成。这两者通过紧密协作实现服务的注册、发现与健康管理，是确保微服务间通信顺畅的关键。以下是对EurekaServer和EurekaClient关系的
渗透工具分享 Werqy3 网络安全
通过网盘分享的文件：exp链接:https://pan.baidu.com/s/1LenqUt7N3FYjeDLyrSAyeQ?pwd=6666提取码:6666--来自百度网盘超级会员v1的分享通过网盘分享的文件：shell链接:https://pan.baidu.com/s/1OOt6osSpOzADW-0ZRpBFZA?pwd=6666提取码:6666--来自百度网盘超级会员v1的分享通过网盘
将 VOC 格式 XML 转换为 YOLO 格式 TXT JeJe同学 xml YOLO
目录1.导入必要的模块2.定义类别名称3.设置文件路径完整代码1.导入必要的模块importosimportxml.etree.ElementTreeasETos：用于文件和目录操作，例如创建目录、遍历文件等。xml.etree.ElementTree：用于解析XML文件，从中提取信息。2.定义类别名称class_names=['nest','balloon','kite','trash']这是一
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，

Deepdive原理

Deepdive原理

1.数据处理

2.抽取候选关系

3.模型构建

4.因子图构建

你可能感兴趣的:(信息提取,实体关系提取,知识图谱)