weixin_42001089

Deepdive关系抽取：特征源码分析及优化加快信息提取

前言

本篇不是Deepdive入门教程，而是对其一些源码细节进行了解读，换句话说要深入到内部去看看其具体是怎么做的，所以看本篇的前提是假设读者已经大概清楚了deepdive的使用流程，如果不是很熟悉，或是第一次使用建议先去看一下入门教程。

本篇先是分析特征方面的源码，接着是实践部分，即使用ltp替换默认的斯坦福NLP信息抽取部分进而可优化该部分到数秒内，最后简单说一下其模型方面的问题以及其它补充

其实关于入门教程总结来说就是使用了postgresql数据库来做存储部分，NLP部分使用的是standford nlp。然后过程基本都遵循以下套路：

---------------------------------------------------------------------------------------------------------------------------------------

一先在app.ddlog中定义我们想要输出的结构化内容

二再在app.ddlog中使用function定义相关的处理函数，其中over后面就是函数的形参，implementation 是指的真真的处理函数

可以是python 脚本，.sh等，但必须写成是一个迭代器，这个脚本就可以根据需求自行写啦

三最后再在app.ddlog中调用上述函数，传入参数

上面三步都是在app.ddlog中定义的，其实也很清楚就是定义了一个函数，包括了输入输出以及怎么处理等等

四：上面只是定义好了，最后我们就是在命令窗口中运行上面过程了，很简单：就是编译和得到sentences

---------------------------------------------------------------------------------------------------------------------------------------

基本就是这么个套路，因为该部分不是本文重点，所以就不展开说了，更多的可以看：

Deepdive官网：DeepDive

Deepdive 源码：https://github.com/HazyResearch/deepdive

中文博客：这是一个中文翻译的博客和github，特别详细

Deepdive 教程--数据准备_易火九天的博客-CSDN博客_deepdive教程

https://github.com/theDoctor2013/DeepDive-tutorial/blob/master/Deepdive_new.md

关于ltp 编译好的安装包：

链接：https://pan.baidu.com/s/12uqQmz3x0QeaLKeZFQwT2Q
提取码：bw6i

特征

在熟悉了DeepDive 流程后，不知道有没有注意到就是在特征提取部分即extract_transaction_features.py脚本，其中最重要的是调用了ddlib库的get_generic_features_relation产生了特征，特征的样子大概是这样：

我们这里选取的这句话是文章id号 1201734457的第三句话，这一对命名实体集合index分别是【46,51】和【22,27】

最后一共为这对命名实体结合提取了79个特征

为了下面便于分析结果，我们这里把这句话找了出来：

同时通过transaction_candidate表我们找到其对应的两个命名实体集合名即上面黄色的部分

可是上述得到的79个特征具体含义到底是什么呢？换句话说这些特征是怎么产生的呢？，这是本文想要解读的，所以本部分就其展开说明。

先看一下其整体的输入输出：

该部分代码主要就是调用了ddlib包，其有一些列属性和方法

其中属性定义在dd.py中

https://github.com/HazyResearch/deepdive/blob/master/ddlib/ddlib/dd.py

其中下面最常用的就是Word,Span,DepEdge

除此之外还会看到一个字典dictionaries，其里面可以看成就是保存了关键字

方法的话也有很多，其中就用本部分最重要的get_generic_features_relation

https://github.com/HazyResearch/deepdive/blob/master/ddlib/ddlib/gen_feats.py

可以看到有很多，别着急，大部分方法都是作为一个子模块被get_generic_features_relation调用的，现在我们就从get_generic_features_relation入手各个击破吧，当然load_dictionary就是一个从文件中加载预知关键字的函数没什么可说的。

下面正式开始吧：每一部分的关键代码会以红框圈出

----------------------------------------------------------------------------------------------------------------------------------------------------------

经过一些前面的步骤，我们大概要提取这么一对（图中两个橙色部分）的特征，然后get_generic_features_relation首先将一句话分为上述结构：span1和span2就是上述的一对命名实体集合（具体到本例子中就是一对公司），为了方面我们下文统一称这一对为mentions

其中betw_span对应的文本就是红色部分

Convering_sapn对应的就是黄色+红色的部分

span1和span2分别对应的是“甘薯大有农业科技有限公司”和“甘肃天润薯业有限责任公司”

然后其依次进行了如下九方面的特征提取

一是否是反转的

当前两个命名实体集合是否是前后顺序，如果不是，会返回一个特征IS_INVERTED字段

由于当前例子中第一个命名实体集合是从46开始的，而后面一个命名实体集合是从22开始的，所以应该返回一个倒序的标志

对应的结果就是，否则就什么也不用返回了，所以当两个命名实体集合正好是前后顺序的时候，结果是没有返回的对应特征显示的

这也很好理解，文本特征一个重要方面就是上下文，所以这种前后关系至关重要！

二 _get_seq_features

分别将betw_span这个窗口内的词内容，词根，命名实体，词性输出并分别加上其对应的SEQ前缀

这里很简单，我们来对应的看一下其提取的特征结果：（就是文本红色的部分）

三 _get_window_features

这个是以converving_span为大小，分别取了begin左边的大小为3的窗口的词根和命名实体，以及end右面的大小为3的窗口的词根和命名实体即下面黑色区域

然后分别在词根和命名实体上对其左右进行many VS many组合即多对多组合

好了看一下对应的输出吧

这里所说的左面右面就是上述画图中的左右黑框，只不过这里"有限责任公司"是后一个图中后一个黄色框，“甘薯大有农业”是前一个黄色框，这里需要注意一下，同理下面的输出都应该注意该问题

这里应该是2（词根+命名实体）*3*3（多对多组合）个特征

加上第一方面的特征，目前为止已经是4+2*3*3=22个特征啦

四 _get_ngram_features

提取Betw_span内的N-grams

关于N-grams （https://www.cnblogs.com/jielongAI/p/10189907.html）

简单来说这里就是以窗口小于等于3为一个整体的单词组合提取出来，比如

【我,是,中国,大家庭,中,的一员】

那么输出就是

我是

我是中国

是中国

是中国大家庭

,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,

对应的输出（文本中的红色部分）

五 _get_dictionary_indicator_features

提取一对公司中的关键字（dictionaries中存在的词根）

但是目前有两个疑问：

在本文例子中dictionaries中是空，没看到有什么？难道该部分没有提取吗

另外一个问题就是待从匹配的部分是从哪里开始的，看代码是从sentences一开始匹配，难道不应该是匹配两个命名实体集合吗？

由于没有加载关键字，所以没有对应的输出

六 _get_min_dep_path_features

提取一对公司的最小路径的一些特征，首先将这一对mentions（两个命名实体集合）中的实体两两组合求出当前两个实体的最短路径，然后迭代比较直到找到全局最小路径，最后就是输出一些该路径方面的信息

_get_min_dep_path方法就是对应的迭代过程

其中最关键的就是dd.dep_path_between_words,即找当前一对实体的最短路径，我们来看看其是怎么做的：

首先使用_path_to_root找到当前命名实体到最根节点上这一路上的词语集合，这里的根节点(dep_par)指的是我们通过句法结构挖缺得到的结果，一般句法结构结果包含两部分即句法和父节点，这里的dep_par就是结果中的父节点。

注意：从这里可以看到ddlib里面是将-1看为根节点的，而我们使用一些NLP信息抽取包在做句法抽取的时候对应的根节点一般是以0为根节点，所以为了使用这里ddlib包就得给我们抽取的出来的父节点减1，这也就是extract_transaction_features.py这里减一的原因：

然后就是求两者到根节点这一路上不相同的路径，然后记录下这些不相同的路径的一些详细信息，注意前后边结构中word1和word2设的不一样，而且最后进行了反转

其实感觉这里有点像LCA的影子，为了更清晰的理解上面额逻辑，我们这里还是画一下图简单说一下：

黄色就是代码中的common

然后反转后相当于变为3-》4,所以最后path的效果大概就是1-2-3-4

这样就得到了一对命名实体的路径，然后遍历一对公司下所有命名实体的组合，找到最短的那条路径对应的一路上边的信息即main_path.

之后就好说了，就是返回这条边的一些信息，主要从三方面来返回的

返回 label（句法结构，比如主谓什么的）和词根

只返回 label

也返回 label和词根，只不过是对应的词根要是在字典中出现的（即是关键字），那么就给其加一个表示符"DICT_"

输出结果：

由于这里没有预加载的关键字所以这里没有DICT_标示，即第三行和第一行的both一样！

七 _get_substring_indices

这里其实和五做了相同的事情，都是得到一些和最短路径有关的特征，五求的是一对mentions之间的最短路径，而这里求得是两个命名实体之外的关键字部分分别和这一对mentions的最短路径，其中_get_substring_indices是遍历整个sentence，以小于等于3的滑动窗口得到一些列小短语，然后通过过滤掉落在两个命名实体之间的部分，那么最后剩下的就是两个命名实体之外的部分了，同时判断其中这段小短语中是否包含关键字，只有包含了关键字才会进行：

其实说的再直白一点就是：五是求一对mentions之间的最短路径特征，六是求关键字和mentions之间的最短路径特征

所以最后特征中带有前缀KW_IND应该就是一对mentions之外的那些滑动窗口系列中含有的关键字。

最后得到的 kw_span就是一个个窗口，之后呢就没什么了，就是用kw_span去分别和那一对mentions即span1,span2做和五一样的事情了对应的是三种返回（也具体可以回看五）

由于没有预加载关键字，所以没有对应的输出。

八提取大写字母

这个很简单啦，就是判断这一对mentions的开头词是否大写

对应的输出是：

九这对mentions的长度

这里所谓的长度值的是以5为单位来算，看看其有多少个长度为5的单位，当然了5是get_generic_features_relation可调的一个参数

对应的输出是：

----------------------------------------------------------------------------------------------------------------------------------------------------------

到这里特征的部分基本就讲解完成了，更多的内容可以看（当然其中的大部分方法都以讲解了）

https://github.com/HazyResearch/deepdive/blob/master/ddlib/ddlib/gen_feats.py

PDF Saver For CSDN Blog – 下载 Firefox 扩展（zh-CN）

实践

原demo中信息抽取部分是使用斯坦福包进行的，该过程很慢，需要几个小时，为此这里考虑替换使用ltp包，两种解决思路：

一种是先在外部使用ltp处理好数据即提取好信息，后续就是导入到数据库中

上述方法实际上将文本抽取信息这部分脱离了deepdive框架，这样就没有了完整性，所以我们也可以将ltp信息抽取整合到deepdive框架下进行,这就是第二种方法。

下面介绍的是第一种，由于目前在linux中安装ltp，只有在python3环境下安装成功了，而deepdive中是基于python2的，所以如果采用第二种方法整合在一起的话，会出现一些问题，即在deepdive框架下使用python3脚本需要修改部分deepdive源码,考虑到篇幅，第二种方法由另一篇博客介绍：

https://blog.csdn.net/weixin_42001089/article/details/91388707

开始第一种方法的解决

该部分代码：https://github.com/Mryangkaitong/python-Machine-learning/tree/master/deepdive/demo_version_1

如果之前实验过别的数据，这里一定要初始化数据库，即清空数据库，重新开始

deepdive initdb

更多deepdive 可以使用help查看

deepdive help

一使用pyltp提取信息：

由于系统问题，articles.csv文件在linux和win 上面会出现一些符号上面的错误，这个需要注意，下面用到的articlesc.csv就出现了一部分符号错误，但不影响大局，实际使用的时候要注意

可以看到加载数据和ltp模型大概用了25秒

之后就是提取这50篇文章的信息啦

仅仅用到大概15秒，注意这里将一句话中提取的字段拼接成了一个字符串以&&&&隔开，另外具体到某一个字段比如句法父节点也是个列表，那么这里是以@@分隔，所以在解析的时候，相当于&&&&是一级分隔，分隔出各个字段的信息，@@是二级分隔，分隔出每个字段下面的具体信息。同时这里去掉了两个字段，如下：

第一个是词根，对于这个例子来说，中文的词根和tokens时一样的，所以后续只要将tokens复制给lemmas即可，另外从上面特征的分析部分也可以看到，根本是不需要doc_offsets（单词偏移量）这个字段的,所以这里也没有提取该字段

注意：一最后的csv名字是sentences_nlp(这里要和后面统一)

二csv不要保存列名，即header=0

二新建sentences_nlp数据表，并导入

在app.ddlog中添加：

注意，表的列名即sentences_list可以顺便起

但表名必须和csv保持一致

导入很简单啦：

deepdive compile && deepdive do sentences_nlp

看一下是否导入成功：

deepdive query '?- sentences_nlp(sentences_list).'

三转化成sentences多个字段的信息

这部分就是将sentences_nlp表的数据结构转化成如下数据结构，注意这里去掉了doc_offects字段

需要修改的部分，首先是app.ddlog

可以看到这里我们使用nlp_markup.py来处理，其实该python很简单啦，就是split以一级分隔符&&&&和二级分隔符@@进行分隔即可，具体的可以看相关脚本文件。

好啦，开始运行：

deepdive compile && deepdive do sentences

看一下运行结果：

deepdive query '
doc_id, index, tokens, ner_tags | 5
?- sentences(doc_id, index, text, tokens, lemmas, pos_tags, ner_tags, _, _).'

注意因为我们上面少了一个字段，所以对比deepdive官网给的demo，这里应该少一个字段哈：

注意：至此，上面的部分其实可以归结为使用nlp包进行最原始的信息抽取，可以使用不同的nlp包，进行不同的

而后面的步骤流程基本都一样啦，只不过有的地方需要小改，比如原先使用斯坦福nlp包的时候，公式对应的是ORG，而使用ltp包的时候,其对应的是-Ni，所以后面不再细说，可直接参看deepdive官网本demo的说明，下面只说哪里需要改动

为了清楚区分两部分，这里暂且画一条分割线吧

------------------------------------------------------------------------------------------------------------------------------------------------------------------

四抽取候选关系

需要改的地方首先是app.ddlog中给map.comanpy_mention.py传参的时候，用到的是sentences表，但是注意，因为我们在上面给表sentences取掉了一个字段，所以下面第二个红框记得删除一个字段

再者需要修改的就是map.comanpy_mention.py函数，原先公司对应的命名实体是ORG，使用ltp包后应该是Ni,当然啦，其还进一步对Ni进行了细化，这里不管，只要包含Ni即可

好啦，修改完毕，运行：

deepdive compile && deepdive do company_mention

看一下结果：

deepdive query 'mention_id,mention_text,doc_id,sentence_index,begin_index,end_index | 5 ?- company_mention(mention_id,mention_text,doc_id,sentence_index,begin_index,end_index).'

五抽取候选关系

这里不需要什么修改，直接运行即可

deepdive compile && deepdive do transaction_candidate

查看一下结果

deepdive sql "select * from transaction_candidate"

六特征提取

这里仅仅需要修改extract_transaction_features.py输入参数时用到sentences表，还是将其参数减少一个

即app.ddlog:

修改完毕运行：

deepdive compile && deepdive do transaction_feature

看一下运行结果

deepdive sql "select * from transaction_feature"

七样本打标

先导入先验label 数据，即已知的交易数据，很简单，直接导入就可以啦：

deepdive compile && deepdive do transaction_dbdata

首先需要修改supervise_transaction.py函数输入参数时用到sentences表，还是将其参数减少一个

即app.ddlog:

其次修改supervise_transaction.py脚本：

修改完毕，运行

deepdive compile && deepdive do transaction_label_resolved

看一下结果：

deepdive sql "select * from transaction_label_resolved"

八模型构建

没什么变化，直接运行即可

deepdive compile && deepdive do has_transaction

看一下结果：

九因子图构建

没什么变化直接运行即可

deepdive compile && deepdive do probabilities

查看一下结果：

deepdive sql "SELECT p1_id, p2_id, expectation FROM has_transaction_label_inference ORDER BY random() LIMIT 20"

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------

划分数据集看其在测试集上面的效果：

首先导入测试集数据

deepdive compile && deepdive do transaction_dbdata_test

然后相关联查询

deepdive sql "select t1.p1_id,company_name_1,t1.p2_id,company_name_2,expectation from transaction_dbdata_test inner join (select transaction_candidate.p1_id as p1_id,p1_name,transaction_candidate.p2_id as p2_id,p2_name,expectation from  has_transaction_label_inference  left join transaction_candidate  on has_transaction_label_inference.p1_id=transaction_candidate.p1_id and has_transaction_label_inference.p2_id=transaction_candidate.p2_id ) AS t1  on t1.p1_name=transaction_dbdata_test.company_name_1 and t1.p2_name=transaction_dbdata_test.company_name_2"

可以看到大部分还是好的

即使是测试集因为上述的打标过程使得其也是有label的，为了查看模型在没有打标那部分上面的效果，这里应该查一开始label为NULL的这部分数据：

deepdive sql "select t2.p1_id,t2.p1_name,t2.p2_id,t2.p2_name,t2.expectation from transaction_dbdata_test inner join (select t1.p1_id,transaction_candidate.p1_name,t1.p2_id,transaction_candidate.p2_name, expectation from transaction_candidate inner join (select has_transaction.p1_id,has_transaction.p2_id,expectation from has_transaction_label_inference inner join has_transaction on  has_transaction_label_inference.p1_id=has_transaction.p1_id and has_transaction_label_inference.p2_id=has_transaction.p2_id where has_transaction.label is NULL) as t1 on t1.p1_id=transaction_candidate.p1_id and t1.p2_id=transaction_candidate.p2_id) as t2 on t2.p1_name=transaction_dbdata_test.company_name_1 and t2.p2_name=transaction_dbdata_test.company_name_2"

最后这里再提一句，由于ltp提取的命名实体中，使用Ni 表示机构名，且其进一步进行了细化即使用B 表示实体开始词，I表示实体中间词，E表示实体结束词，S表示单独成实体，所以如果想完全和斯坦福对应，这里可以考虑将所有细化都改为Ni

模型

关于模型方面是采用的因子图，可以分为两大块来看那就是：权重学习和推理

推理部分就是利用权重进行一个边缘概率的计算，很简单，最后计算得到一种关系的概率。

deepdive算法原理（一）_unreliable的博客-CSDN博客_deepdive

儿难点在于权重学习部分，这里又有两大部分，一种是人为指定的某些依赖关系的权重，就是demo中比如p1和p2有交易，那么就认为p2和p1有交易，这里的权值是3，不用学习，还有一部分weight是特征，需要靠特征学习，得到这些特征的权值，可以使用如下命令查看训练后特征的权值

首先要运行

deepdive do data/model/weights

该命令会创建一个权重的综合的视图，叫做： dd_inference_result_weights_mapping. 有了这个视图，就可以很容易得到每个推理规则和它们的参数值，如：

deepdive sql "SELECT description,weight FROM dd_inference_result_weights_mapping order by weight desc"

正如上面所看到的，有了权值，通过计算一个边缘概率（所谓的推理部分）便可得到我们想要的最终关系的预测概率，所以重点在于权重要合理，就这要求我们指定一些依赖关系为常数的时候，要充分考虑当前预测领域的一些专业背景，这里可以定义各种依赖关系的常数权重。

最后总结一下，最终的预测概率是一个边缘概率，其计算用到两方面一个是和依赖节点的这个关系的权值，一个是依赖节点的概率，其中后者中部分节点的概率是已知的即label（当然label 的得来其实也可以看做是另外一个权值的过程，因为从打标的过程可以看出，其也是定义了多种规则，对于一个样本最后得到一系列权值，随后将其相加即综合考虑后才决定了最终的label是1还是0，），其余是待预测的

注意：要区分开打标过程中定义的那些规则和模型这里的定义的依赖关系的定义，前者是针对一个节点的label说的，其最终要实现的目的是经过定义的多种规则后确定label 的正负，而后者是因子图里面的因子，即依赖关系+权值，重点是要说明哪些依赖关系的权值是多少，这两部分要分开看。

补充

下面几个应该是常用的几个数据库层面的deepdive命令

#查看当前数据库中的表
deepdive relation list
#查看某个表的字段
deepdive relation columns articles
#导出数据库
deepdive unload bar  bar-1.tsv /data/bar-2.csv.bz2

下面三个文件，是DeepDive中编译的三个相关文件:

app.ddlog
deepdive.conf
schema.json

即当任何一个文件改变时，要先编译，编译后产生的文件是位于run/文件夹下的，即run/文件夹是编译产生的

run下的比较常用的可以看一下dataflow.svg，其就是这个数据流图，可以用浏览器直接打开。

OVER

看到很多小伙伴私信和关注，为了不迷路，欢迎大家关注笔者的微信公众号，会定期发一些关于NLP的干活总结和实践心得，当然别的方向也会发，一起学习：

你可能感兴趣的:(人工智能机器学习,DDLIB,NLP,deepdive)

深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
数据安全审计平台的三大关键技术：日志分析、行为监测与智能告警 KKKlucifer 安全算法
在数字化浪潮中，数据安全审计是企业守护核心资产的“瞭望塔”。通过日志分析、行为监测、智能告警三大技术，数据安全审计平台构建起“全流程监控-异常识别-快速响应”的闭环，为数据安全筑牢防线。以下从技术原理、实践价值与行业应用展开解析。日志分析：数据安全的“DNA图谱”1.多源日志融合技术实现：通过Agent采集操作系统、数据库、网络设备等200+日志源，利用正则表达式、NLP技术解析非结构化日志（如“
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
VIT视觉妄想成为master opencv 目标检测机器学习数据挖掘语音识别人工智能计算机视觉
VisionTransformer视觉和语言(Vision-Language)NLPrompt:Noise-LabelPromptLearningforVision-LanguageModelsPaper:https://arxiv.org/abs/2412.01256Code:GitHub-qunovo/NLPromptPhysVLM:EnablingVisualLanguageModelsto
RAG实战指南 Day 11：文本分块策略与最佳实践在未来等你 RAG实战指南 RAG 检索增强生成文本分块语义分割文档处理 NLP 人工智能
【RAG实战指南Day11】文本分块策略与最佳实践文章标签RAG,检索增强生成,文本分块,语义分割,文档处理,NLP,人工智能,大语言模型文章简述文本分块是RAG系统构建中的关键环节，直接影响检索准确率。本文深入解析5种主流分块技术：1)固定大小分块的实现与调优技巧；2)基于语义的递归分割算法；3)文档结构感知的分块策略；4)LLM增强的智能分块方法；5)多模态混合内容处理方案。通过电商知识库和科
中文大模型的技术债问题大鹏的NLP博客大模型 transformer 大模型
中文大模型的技术债问题摘要随着中文大语言模型（LargeLanguageModels,LLMs）在自然语言处理（NLP）领域的广泛应用，其研发和部署过程中积累的“技术债”（TechnicalDebt）问题日益突出。本文系统性地分析了中文大模型在数据采集、预训练、微调、评估与部署等生命周期各阶段产生的技术债类型，包括代码复杂性、数据隐患、训练流程依赖、工具链碎片化、模型解释性差、隐性资源耦合等问题，
AI 正在深度重构软件开发的底层逻辑和全生命周期，从技术演进、流程重构和未来趋势三个维度进行系统性分析
AI正在深度重构软件开发的底层逻辑和全生命周期，从需求分析到运维维护的每个环节都产生了范式级变革。以下从技术演进、流程重构和未来趋势三个维度进行系统性分析：一、AI重构软件开发全栈的技术图谱需求工程智能化NLP驱动的需求解析：GPT-4架构实现用户访谈转录自动转化为UML用例图，准确率达89%（微软2023内部数据）情感计算应用：基于BERT的意图识别模型可捕捉用户需求中的隐性情绪，需求变更预测准
新手向:中文语言识别的进化之路
自然语言处理（NLP）技术正在以前所未有的速度改变我们与机器的交互方式，而中文作为世界上使用人数最多的语言，其处理技术面临着独特的挑战与机遇。本文将全面剖析中文自然语言识别模型的发展历程、核心技术原理、当前应用现状以及未来发展趋势，带您深入了解这一改变人机交互方式的关键技术。一、中文NLP的特殊挑战：为什么中文处理如此困难？中文自然语言处理面临着一系列西方语言所不具备的特殊挑战，这些挑战直接影响了
深入详解 AI 与深度学习：从零开始掌握 BERT 模型架构拉不拉斯AICoding 技术探索人工智能深度学习 bert
深入详解AI与深度学习：从零开始掌握BERT模型架构引言在自然语言处理（NLP）领域，BERT（BidirectionalEncoderRepresentationsfromTransformers）是近年来最具影响力的模型之一。它通过双向上下文理解彻底改变了NLP任务的处理方式。本文将从基础概念到核心原理、应用场景和实践技巧，深入浅出地讲解BERT，帮助初学者快速掌握这一技术。一、BERT的核心
Transformer模型架构深度讲解
Transformer是一种在自然语言处理（NLP）和深度学习中非常重要的模型架构。它首次由Vaswani等人于2017年提出，主要应用于序列到序列的任务（如机器翻译、文本生成、摘要生成等）。Transformer模型与传统的RNN（循环神经网络）和LSTM（长短时记忆网络）不同，它不依赖于时间步的顺序处理，而是完全基于“注意力机制”进行计算，这使得它在训练速度、并行化能力和长期依赖问题的处理上具
AI人工智能浪潮中，GPT的技术优势凸显 AI学长带你学AI 人工智能 gpt ai
AI人工智能浪潮中，GPT的技术优势凸显关键词：人工智能、GPT、自然语言处理、深度学习、Transformer、大语言模型、技术优势摘要：本文深入探讨了在人工智能浪潮中GPT(GenerativePre-trainedTransformer)系列模型的技术优势。我们将从GPT的核心架构出发，分析其独特的技术特点，包括自注意力机制、预训练-微调范式、零样本学习能力等。通过与传统NLP方法的对比，揭
自然语言处理-基于预训练模型的方法-笔记
自然语言处理-基于预训练模型的方法-笔记【下载地址】自然语言处理-基于预训练模型的方法-笔记《自然语言处理-基于预训练模型的方法》由哈尔滨工业大学出版，深入探讨了NLP领域的前沿技术与预训练模型的应用。本书系统介绍了预训练模型的基本概念、发展历程及常见模型的原理，并通过丰富的实践案例与代码实现，帮助读者掌握这些技术在自然语言处理任务中的实际应用。无论是初学者、研发人员，还是希望提升NLP能力的研究
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
从新闻到知识图谱：用大模型和知识工程“八步成诗”打造科技并购大脑许泽宇的技术分享知识图谱科技人工智能
一句话摘要：本文带你用现代NLP和知识图谱技术，把科技公司并购新闻变成结构化的知识大脑，过程全景揭秘，理论与实战齐飞，代码只用伪代码，干货与段子齐发，助你成为AI知识工程老司机！前言：为什么要把新闻变成知识图谱？想象一下，你是个投资分析师，老板让你一周内梳理全球科技并购大事件，找出谁在买谁、花了多少钱、背后有哪些大佬、涉及哪些新技术……你会怎么做？A.手动Ctrl+F，Excel狂敲，熬夜爆肝？B
Longformer: The Long-Document Transformer（2020-4-10）不负韶华ღ 深度学习（NLP）transformer 深度学习人工智能
模型介绍目前基于Transformer的预训练模型在各项NLP任务纷纷取得更好的效果，这些成功的部分原因在于Self-Attention机制，它运行模型能够快速便捷地从整个文本序列中捕获重要信息。然而传统的Self-Attention机制的时空复杂度与文本的序列长度呈平方的关系，这在很大程度上限制了模型的输入不能太长，因此需要将过长的文档进行截断传入模型进行处理，例如BERT中能够接受的最大序列长
搜索架构中的NLP技术：提升搜索准确性的关键搜索引擎技术架构自然语言处理人工智能 ai
搜索架构中的NLP技术：提升搜索准确性的关键关键词：搜索架构、NLP技术、查询理解、语义搜索、相关性排序、意图识别、BERT模型摘要：本文将深入探讨现代搜索架构中NLP技术的核心应用，从查询理解到结果排序的全流程，揭示NLP如何提升搜索准确性。我们将通过生动的比喻解释复杂概念，分析关键技术原理，并提供实际代码示例，帮助读者全面理解搜索系统背后的NLP魔法。背景介绍目的和范围本文旨在解析NLP技术在
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
RNN案例人名分类器（完整步骤） AI扶我青云志 rnn 人工智能深度学习 nlp lstm gru
今天给大家分享一个NLP（自然语言处理）中的一个小案例，本案例讲解了RNN、LSTM、GRU模型是如何使用并进行预测的，一、案例架构人名分类器的实现可分为以下五个步骤:第一步:导入必备的工具包第二步:对data文件中的数据进行处理，满足训练要求第三步:构建RNN模型(包括传统RNN,LSTM以及GRU)第四步:构建训练函数并进行训练五步第:构建评估函数并进行预测二、实现步骤1.导包#导入torch
【论文笔记】RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation AustinCyy 论文笔记论文阅读
论文信息论文标题：RAGLAB:AModularandResearch-OrientedUnifiedFrameworkforRetrieval-AugmentedGeneration-EMNLP24论文作者：XuanwangZhang-NanjingUniversity论文链接：https://arxiv.org/abs/2408.11381代码链接：https://github.com/fat
happy-llm 第一章 NLP 基础概念 weixin_38374194 自然语言处理人工智能学习
文章目录一、什么是NLP？二、NLP发展三大阶段三、NLP核心任务精要四、文本表示演进史1.传统方法：统计表征2.神经网络：语义向量化课程地址：happy-llmNLP基础概念一、什么是NLP？核心目标：让计算机理解、生成、处理人类语言，实现人机自然交互。现状与挑战：成就：深度学习推动文本分类、翻译等任务达到近人类水平。瓶颈：歧义性、隐喻理解、跨文化差异等。二、NLP发展三大阶段时期代表技术核心思
【AI】大语言模型（LLM）& NLP G皮T #大语言模型 LLM NLP 大模型大语言模型 AI 人工智能
大语言模型（LLM）&NLP1.大语言模型（LLM）1.1一句话解释1.2更形象的比喻1.3为什么叫“大”模型1.4它能做什么1.5现实中的例子2.对比NLP2.1用“汽车进化”比喻NLP→LLM2.2为什么说LLM属于NLP2.3LLM的“革命性突破”在哪里2.4总结1.大语言模型（LLM）1.1一句话解释大语言模型（LargeLanguageModel，LLM）是一个“超级文字预测器”，它通过
使用Python爬虫与自然语言处理技术抓取并分析网页内容 Python爬虫项目 python 爬虫自然语言处理 javascript 数据分析人工智能
1.引言在如今数据驱动的时代，网页爬虫（WebScraping）和自然语言处理（NLP）已成为处理大量网页数据的重要工具。利用Python爬虫抓取网页内容，结合NLP技术进行文本分析和信息抽取，能够从大量网页中提取有价值的信息。无论是新闻文章的情感分析、社交媒体的舆情分析，还是电商网站的商品评论挖掘，这些技术都发挥着至关重要的作用。本文将介绍如何利用Python爬虫与自然语言处理技术抓取并分析网页
计算机视觉中的Transformer：ViT模型详解与代码实现 AI大模型应用工坊计算机视觉 transformer 人工智能 ai
计算机视觉中的Transformer：ViT模型详解与代码实现关键词：计算机视觉、Transformer、ViT、自注意力机制、图像分块摘要：传统卷积神经网络（CNN）统治计算机视觉领域多年，但2020年一篇《AnImageisWorth16x16Words:TransformersforImageRecognitionatScale》的论文打破了这一格局——它将NLP领域的Transformer
AI 加持下的智能家居行业：变革、挑战与机遇低代码老李人工智能智能家居
在当今科技迅猛发展的浪潮中，人工智能（AI）已深深融入智能家居领域，成为推动其蓬勃发展的关键力量，为人们的生活带来了诸多便利和创新体验，同时也面临着一系列亟待解决的问题。一、AI驱动的智能家居功能升级（1）智能语音交互与控制智能语音助手作为智能家居的核心交互方式，借助自然语言处理（NLP）技术，让用户仅通过简单的语音指令，就能轻松操控家中各类智能设备，如精准控制灯光的开关与亮度调节、窗帘的开合、电
NLTK库全解析：用Python打开自然语言处理的第一把钥匙
引言你是否好奇过，手机里的智能助手是如何“听懂”你说的话？电商平台的差评分析又是怎样精准提取“物流慢”“质量差”这些关键词？这些看似神奇的自然语言处理（NLP）功能，背后都藏着一个“入门神器”——NLTK（NaturalLanguageToolkit）。作为Python生态中最经典的NLP库，NLTK就像一本“NLP百科全书”，从最基础的文本拆分到复杂的语义理解，它用简单的代码接口，带我们推开自然
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理

Deepdive关系抽取：特征源码分析及优化加快信息提取

前言

特征

一 是否是反转的

二 _get_seq_features

三 _get_window_features

四 _get_ngram_features

五 _get_dictionary_indicator_features

六 _get_min_dep_path_features

七 _get_substring_indices

八 提取大写字母

九 这对mentions的长度

实践

开始第一种方法的解决

一使用pyltp提取信息：

二 新建sentences_nlp数据表，并导入

三 转化成sentences多个字段的信息

四 抽取候选关系

五 抽取候选关系

六 特征提取

七 样本打标

八 模型构建

九 因子图构建

模型

补充

OVER

你可能感兴趣的:(人工智能机器学习,DDLIB,NLP,deepdive)

一是否是反转的

八提取大写字母

九这对mentions的长度

二新建sentences_nlp数据表，并导入

三转化成sentences多个字段的信息

四抽取候选关系

五抽取候选关系

六特征提取

七样本打标

八模型构建

九因子图构建