weixin_42001089

中文实体关系抽取实践

前言

本篇博客主要讲NLP中的关系抽取，聚焦点中文，没有过多理论，侧重实践（监督学习）。

关于实体关系抽取的技术发展脉络，感兴趣的可以看一下：

https://www.cnblogs.com/theodoric008/p/7874373.html

关系抽取有限定关系抽取和开放关系抽取，这里主要说限定关系抽取即分类问题

其过程常常又有监督学习和半监督学习，这里主要讲利用深度学习进行的监督学习，关于半监督学习可以使用deepdive

感兴趣的可以看笔者的另一篇博客：

https://blog.csdn.net/weixin_42001089/article/details/91388707

另外有的场景没有给定实体对，需要联合抽取实体关系，这里也有一个例子是基于bert模型的，笔者进行了解读，感兴趣的可以看下：

https://blog.csdn.net/weixin_42001089/article/details/97657149

本篇全部代码：

https://github.com/Mryangkaitong/Chinese_NRE

数据

数据集简介

1. 数据来源

本次评测数据主要来源于互联网网页文本，其中验证集和测试集是通过人工进行标注的，而训练集是通过远程监督（Distant Supervision）自动生成的。

2. 数据集信息

在数据发布阶段，我们发布训练集、开发集和用于参赛者测试的测试集。总共有34类人物关系，包括一类特殊关系NA，具体见文件relation2id.txt。

3. 数据格式说明

训练集&验证集
各由三个数据文件组成，各数据文件格式如下：

sent_train/dev：sentID sentence
bag_relation_train/dev：bagID e1 e2 sentIDs relationIDs
sent_relation_train/dev：sentID relationIDs

测试集

由三个数据文件组成，其中bag_relation_test为Bag-Track的测试集，sent_relation_test为Sent-Track的测试集，各数据文件格式如下：

sent_test：sentID sentence
bag_relation_test：bagID e1 e2 sentIDs
sent_relation_test：sentID

字段说明：

- sentID为一个实体对和包含该实体对句子的唯一ID。
- sentence为一个实体对和包含该实体对的句子有序组合，实体对之间、实体对和句子之间以“ ”隔开，句子以对应句子分词结果的形式给出，该分词结果仅做参考，参赛者可视情况使用。
- bagID为实例所属包的ID，同一个包中的实例具有相同的实体对。
- e1、e2为给定的人物实体对中的头实体和尾实体。
- sentIDs为包中的句子ID集合，每个ID之间以单个空格隔开。
- relationIDs为包的标签关系ID集合，每个ID之间以单个空格隔开，每个关系的ID见文件relation2id.txt。

评价方式

关系抽取（Relation Extraction）是信息抽取的一个重要子任务，其任务是从文本内容中找出给定实体对之间的语义关系，是智能问答、信息检索等智能应用的重要基础，和知识图谱的构建有着密切的联系。在本次任务中，我们重点关注人物之间的关系抽取研究，简称IPRE（Inter-Personal Relationship Extraction）。给定一组人物实体对和包含该实体对的句子，找出给定实体对在已知关系表中的关系。我们将从以下两个方面进行评测：

1.  Sent-Track：从句子级别上根据给定句子预测给定人物实体对的关系
输入：一组人物实体对和包含该实体对的一个句子
    输出：该人物实体对的关系
样例一：
    输入：贾玲冯巩贾玲，80后相声新秀，师承中国著名相声表演艺术家冯巩。
  输出：人物关系/师生关系/老师
2.   Bag-Track：从包级别上根据给定句子集合预测给定人物实体对的关系
  输入：一组人物实体对和包含该实体对的若干句子
  输出：该人物实体对的关系
样例二：
  输入：
- 袁汤袁安从袁安起，几代位列三公(司徒、司空、太尉)，出过诸如袁汤、袁绍、袁术等历史上著名人物。
- 袁汤袁安袁汤（公元67年—153年），字仲河，河南汝阳（今河南商水西南人，名臣袁安之孙，其家族为东汉时期的汝南袁氏。
    输出：

袁汤袁安人物关系/亲属关系/血亲/自然血亲/祖父母/爷爷 NA

说明：若有多个关系，则输出多个关系。

Sent-Track任务

选手将结果保存为result_sent.txt，以utf-8编码格式保存，按照sentID顺序，每行2列，以“ ”分隔，第一列为sentID，第二列为该实例实体对关系的判断结果的ID，即“sentID relationIDs”。若为多个关系，则每个关系ID之间以单个空格隔开。

Bag-Track任务

选手将结果保存为result_bag.txt，以utf-8编码格式保存，按照bagID顺序，每行2列，以“ ”分隔，第一列为bagID，第二列为该实体对的关系ID，即“bagID relationIDs”。若为多个关系，则每个关系ID之间以单个空格隔开。

最终提交文件要求：

每一个参赛队需提交的材料如下：

1、测试集预测结果文件，分别用result_sent.txt和result_bag.txt命名（UTF-8格式）

2、代码及说明

3、方法描述文档（非评测论文，评测论文撰写要求见CCKS 2019官网）。

以上三个文件需在任务提交截止日期后一周内发送至邮箱：王海涛。邮件的标题为：“CCKS-IPRE-参赛队名称”。

代码及其文档需打包成一个文件（tar，zip，gzip，rar等均可），用code.xxx命名，要求提交所有的程序代码及相关的配置说明，程序应当可以运行且所得结果与result_sent.txt和result_bag.txt相符

评测平台：本次评测将依托biendata平台（https://biendata.com/）展开，请有意向的参赛队伍关注平台上的竞赛列表。

评价指标

本次任务的评价指标包括精确率（Precision, P）、召回率（Recall, R）和F1值（F1-measure, F1），分为 Sent-Track 和 Bag-Track 两个部分，每部分按F1值分别排名。只统计预测结果中非NA的数目（如果NA关系预测错误，也会计入到评价指标中计算）。
1. Sent-Track预测结果评价：
给定测试集结果，表示类别预测正确的句子数目，表示系统预测的句子数目，表示标准结果的句子数目。
计算公式如下：

2. Bag-Track预测结果评价：
给定测试结果，表示类别预测正确的包的数目，表示系统预测的包的数目，表示标准结果的包的数目。
计算公式如下：

实践

该实践部分分为三大部分

第一部分主要是使用OpenNRE,这是清华开源的关系抽取API：

https://github.com/thunlp/OpenNRE

但是其目前只实现了bag方式的单标签，没有实现多标签，且没有sent方式，不过现在好像正在开发，大家可以期待，对其感兴趣的同学可以关注：

https://github.com/thunlp/OpenNRE/tree/nrekit

所以准确来说，OpenNRE并不适用该比赛，且其源码中在计算loss的时候使用了sigmoid，对于本赛题的sent方式也不适合，相反我们希望使用softmax，但是有人提出这也是一个技巧，虽然我们是多分类单标签但通过使用sigmoid可以消除类间干扰，说是这么说，直接实践看结果吧，在第二部分实践会看到

鉴于以上，为了进一步展示bag方式（多标签）和sent这种形式，这里会结合比赛的给出的baseline的代码进行实践，补充实现pcnn,rnn,cnn(目前只有sentences)等，同时恰好看到一个相关的别的比赛的答辩视频，其中提到过一些技术，这里也会结合的实现一下

baseline：https://github.com/ccks2019-ipre/baseline

还有就是GRU，其官方对比效果好于OpenNRE

https://github.com/squirrel1982/TensorFlow-NRE

这也是本篇主要参考几篇资料，第一部分和第三部分在该比赛中效果不好，这里之所以讲主要目的就是介绍一下其使用流程，以便有需要的场合使用，可以略过一三，直接看第二部分

第一部分相关的实践因为其只能处理单标签，这里就用sent的数据

统计了一下类别数量（sent）:

训练集上面：

测试集上面：

第一部分

OpenNRE需要训练好的词向量，所以我们首先训练词向量

训练词向量

这里使用了jieba进行分词，gensim框架进行训练，

过程是首先是生成语料库corpus.txt，最后生成word2vec.txt

两则都保存在当前文件夹

运行如下即可

Python word2vec_train.py

转化成json文件

因为OpenNRE的输入文件要求是json文件格式，所以这里简单写了个脚本进行转化成要求的json格式

OpenNRE是需要实体id的，这里转化的过程中一个是将句子id+_0和句子id+_1作为实体对的id

另一个是是使用实体字典作为id，看起来后者更符合逻辑，但是预测结果就会丢失句子信息，即属于同一实体对的所有句子都是一个预测结果

运行完后会在data文件夹下产5个相应的json文件

rel2id.json , word_vec.json，train.json , dev json ,test.json

如果采用后者会多产生一个

sent_id_dict.json

其中sent_id_dict.json的的形式是19#34：['TEST_SENT_ID_027274','TEST_SENT_ID_027275']用于后续预测结果映射

运行如下即可

 python txt2json.py

OpenNRE修改部分

下载上述给的github，解压得到OpenNRE-master，后面就直接使用啦

在直接调用API之前，需要做以下工作

dev/test问题：

OpenNRE给的demo中有train和test两个数据集，而我们这里有3个数据集，train,dev,test，其中train和dev对应OpenNRE demo

中的train,test而我们这里的test是没有label的，所以做以下工作：

首先在OpenNRE-master下创建文件夹 data/people_relation/ （这里将项目命名为人物关系）

然后将上述生成的train.json , rel2id.json , word_vec.json放进来

将dev.json重命名为test.json放进来

将test.json重命名为test_submit.json放进来

为了使test_submit.json也能够生成对应的npy文件（至于为什么要生成npy？可以下面的“其他说明”部分），在train.demo中加上：

test_loader_submit = nrekit.data_loader.json_file_data_loader(os.path.join(dataset_dir, 'test_submit.json'), 
                                                       os.path.join(dataset_dir, 'word_vec.json'),
                                                       os.path.join(dataset_dir, 'rel2id.json'), 
                                                       mode=nrekit.data_loader.json_file_data_loader.MODE_ENTPAIR_BAG,
                                                       shuffle=False)

同样，test_demo.py中对应的改成：test_submit

另外预测结果时用到的是主要是OpenNRE/nrekit/framework.py / 下的__test_bag__函数的如下部分

主要是计算auc，这里的relfact_tot是指的关系数(不包括NA)，因为作者的源码的test相当于dev是有标签的所有可以统计auc，但是我们的test是没有标签的，也没有必要知道这些指标，我们想要的只有结果，同时我们上面将txt转化为json的过程中将test中的所有关系都设置为了NA，所以当输入是test_submit时这里的relfact_tot就是0，会报错的，于是乎可以改成这样：

如果是test_submit,就将指标都设置为0，反正也不需要,而且也不可能知道

python版本带来的问题：

test_demo.py在将预测结果写入json文件时，如果使用的是Python3.6，使用json.dump将结果写入文件时会出错，改用ujson

首先导入ujson

import ujson

然后对应部分改为

ujson.dump(pred_result, outfile)

词向量维度：

上述我们的word_vec.json词向量是300维

那么对应到这里源码需要改一下即OpenNRE/nrekit/network/embedding.py /下第29行的word_position_embedding函数中将word_embedding_dim改为300

测试模型参数太多问题：

在运行到epoch=3的时候会突然报错：

这是因为在测试的时候每次都要重新生成一个Model,对应到tensorflow里面的话，张量就会越来越多，到最后就会溢出，为此这里我们就需要做一点改进，那就是判断一下之前是否已经有模型存在，存在的话直接加载就好啦

修改OpenNRE/nrekit/framework.py /，在107行加上，给类re_framework的初始化中加一个属性

self.test_model = None

然后在 __test_bag__方法下将源码中的

model = model(self.test_data_loader, self.test_data_loader.batch_size, self.test_data_loader.max_length)

改为

为了其进一步能够处理这种异常我们train方法下（283行）加上：

这样的话即使再出错，也可以在当前截止，使程序顺利结束，保存好已经训练过的模型

F1指标：

在训练的时候log给出的是准确率信息，没有f1相关的输出，这里我们顺便计算一下f1，并实时输出

在__test_bag__方法中修改：（至于为什么要这么写可参考OpenNRE/draw_plot.py中f1的计算）

同理，源码中模型是否保存的基准是auc，这里我们也替换成f1

所以，对应的test_demo.py中，这里返回的也是f1（改一下名字而已）

batch_size和max_length的设置：

原来的设置是batch_size=160，max_length=120

这里改为batch_size=128，max_length=60

具体需要修改的位置就是OpenNRE/nrekit/data_loader.py /下的

npy_data_loader和json_file_data_loader这两个类的初始化

以及OpenNRE/nrekit/framework.py /下的re_model和re_model类的初始化

和train_demo.py/test_demo.py下的相关位置例如：

画图

有的时候，效果很差，所以在draw_plot.py 绘制准确率的时候，这里还是改成从0开始吧，否则看不到结果

Selector的Maximum

源码中已经将max模型改为one，所以以后想要用在selector模式中用max,改用one就行

除此之外，对应的test_demo.py中要将如下部分

改为对应的：

---------------------------------------------------------------------------------------------------------------------------------------------------------------

训练：

这是OpenNRE给的在NYT10上面的运行结果

为此这里我们先来运行一下BiRNN+ Maximum模型组合

注意代码中Maximum对应的是one

python train_demo.py people_relation  birnn one

因为时间较长，这里就后台运行吧

nohup python -u  train_demo.py people_relation birnn one  > output.log 2>&1 &

这里运行了15个epoch

性能

运行

python draw_plot.py people_relation_birnn_one

test_result下面会生成相应的图片

可以看到结果很差

预测

运行

python test_demo.py people_relation  birnn  one

上述运行完会在text_result文件夹下生成相应的预测结果即people_relation_birnn_one_pred.json

转化成txt

结果生成的是json，因上述比赛，这里对应写了一个转化脚本

运行

python json2txt.py people_relation_birnn_one

即可在text_result文件夹下生成result_sent.txt

这里说明一下，模型生成的json文件是各个类别的分数，注意这里不是概率，因为其用的是softmax，且没有NA的概率，所以这里转化的时候如果各个类别（这里是34种）之间分数差别太小（小于1e-5）就认为是0，没有判别出来，否则就去最大分数的类别作为最后类别，关于该问题详细看后面的“其他说明”部分

已经运行的部分结果

rnn+one：

pcnn+att：

pcnn+att：(单词做为id)

其他说明

一：第一次运行的时候，需要所有的json文件，时间较长，加载的同时其会生成一个_processed_data文件夹

里面除了有我们原始的json文件外，还会有其对应预处理的.npy文件

假设之后需要用相同的数据重跑模型时，其会判断是否有_processed_data文件夹存在，如果存在就会使用np.load进行加载对应npy文件，而非加载json数据，这样做的目的就是加快了加载速度，经过试验加载json需要数个小时，而加载预处理对应的npy仅仅几秒。

二：模型最后输出的是分数，其实内部源码用的是softmax,且没有NA的分数，按说应该用sigmoid比较好理解，关于这个问题的讨论作者也给出部分回答https://github.com/thunlp/OpenNRE/issues/96

三：在使用OpenNRE中进行预测后，通过转化为txt提交，线上效果很差，不知道什么原因？和这里的F1明显不一样，在转化的过程中是选取最大分数作为预测label的，这里需要说明：如果选用单词作为id，OpenNRE的结果是按照 head_id#tail_id 为实体对给出结果的，而不是按照句子id给出预测结果，也就是说如果一个实体对在多句话中出现，那么转化成txt的过程中是将所有句子都打标成预测的结果，这里是不是不太合理？

第二部分

该部分可以看做是OpenNRE的一个简化版本

部分说明

词向量部分：

这里既可以选择加载使用语料库预训练的词向量，也可以选择不使用，不使用的话那就初始化一个词向量矩阵，一同参与从头训练，其实就相当于使用训练集上面的样本当做语料库。

这里同时嵌入了bert模型，该模型目前较火，这里不做进一步介绍啦，网上很多，其关键核心就是句向量，相信很多同学都见过这样的解释，比如苹果一词在水果和手机环境下其实是不同的含义，以前的word2vec训练的一个词的词向量总是固定的，其不会因为语境的不同而不同，而bert就是弥补了这一点，其训练规程很复杂，所幸的是谷歌已经将训练的模型公布，我们可以直接调用，关于具体怎么调用，网上也很多，这里就给出一篇博客吧：

https://blog.csdn.net/zhylhy520/article/details/87615772

在具体使用的时候，要首先在后台开启其服务：

nohup  bert-serving-start -model_dir ./nert_model/chinese_L-12_H-768_A-12 -num_worker=2 >> bert_output.log 2>&1 &

可能有人这里会有疑问，就比如上述博客中的“中国”这个词，那么得到结果也不就是一个固定的词向量吗？是的，其实我们这里应该这样理解，bert这里并不是将“中国”看成是一个词而是一句话，其本身的定位就是句向量，当输入中国时，其认为中国就是一句话，那么结果对应的就是对中国这一句话的向量，可能这样理解会好一点！

那么其实在这里我们没有利用到bert句向量的优势，因为我们还是相当于得到一个个词的向量，相当于用了其经过大量训练的预模型，如果有好其他想法，可以试一下

因为该过程较慢，这里在train过程中提取后，会随便保存提取好的bert的句向量即在data文件夹下的bert_word2vec.json，后续再进行的时候就不必重新提取啦，直接使用load_bert_word2vec加载bert_word2vec.json就行

网络部分：

这里参考OpenNRE加入pcnn,rnn,birnn，后两个较简单

这里主要说一说pcnn是怎样具体实现的，其原理很简单就是根据两个实体将一句话分成左中右3段，然后分别进行进行最大池化，在代码的实现过程中，其是通过mask，即0,1,2,3对其进行编号（1,2,3是左中右，0代表补齐的部分），然后分段加100，然后整体进行池化，假设【左面+100，中，右面】，【左面，中+100，右面】，【左面，中，右面+100】，即对【【左面+100，中，右面】，【左面，中+100，右面】，【左面，中，右面+100】】进行最大池化，那么对于【左面+100，中，右面】相当于左面先天性的比中，右多出100，那么其实最大化相当于就是在左面进行了，同理【左面，中+100，右面】相当于就是在中间进行了，依次类推，最后得到3个向量那就是相当于分段在左中右进行了最大池化。

bag实现方式：

-------------------------

首先需要说明，假设我们的batch_size = 128

那么bag这种形式在网路过程中其实并不是batch_size = 128,举例来说self.embedding()的输出维度应该是

[batch_size,self.sen_len,self.word_dim+2*self.pos_dim]

对应到这里应该是[128,60,310],但是实际上是[377,60,310]

为什么呢？应该bag下一个样本可能有多个句子，代码中是将所有句子平铺，可想而知总数是大于128的，那么label的shape还是正常的[128,35],那么最后是怎么对应哪几句话属于一个bag呢？

那就是通过sen_num_batch字段，其内部记录了数量，假设样本如下：(前面代表句子，后面代表label)

[sentence_0,sentence_2,sentence_9 ] [0,1]

[sentence_8] [2]

[sentence_10,sentence_19] [6]

那么sen_num_batch中就是【0,3,4,6]即记录累加句子个数，平铺句子后是pat = 【sentence_0,sentence_2,sentence_9 ，sentence_8，sentence_10,sentence_19】

那么选取的时候，对应第一个bag就是pat[0:3]即pat[sen_num_batch[0]:sen_num_batch[1]],依次类推

当然对应的如果是sentence方式，这里的batch_size就一直是128啦

------------------------------------------------------------------------------------------------------------------------------------------

下面看一下bag具体的形式

所谓bag和sentences在实现上的不同，其实是在最后面，即在前面embedding（word2vec，bert等等）以及encoder(cnn,pcnn等等)流程都是一样的，只不过实际中bag方式下的batch_size可能要大一些

两者的正式区别是在经过上述过程后（self.sentence_reps就是上述过程的结果【self.batch_size,self.hidden_dim】）开始分道扬镳的，对应到代码中就是

bag_level和sentence_level两个分别处理的函数。

为了对比先来看下sentence_level

    def sentence_level(self):
        
        out = tf.matmul(self.sentence_reps, self.relation_embedding) + self.relation_embedding_b
        self.probability = tf.nn.softmax(out, 1)
        self.classifier_loss = tf.reduce_mean(
            tf.reduce_sum(-tf.log(tf.clip_by_value(self.probability, 1.0e-10, 1.0)) * self.input_label, 1))

很简单，这里就是通过self.relation_embedding（【self.hidden_dim, self.num_classes】即【300,35】）转化为[batch_size,self.num_classes],然后经过softmax就是结果shape就是【128,35】

下面来看下bag_level

def bag_level(self):
        self.classifier_loss = 0.0
        self.probability = []
        
        if self.encoder=='pcnn':
            hidden_dim_cur = self.hidden_dim*3
        else:
            hidden_dim_cur = self.hidden_dim
        
        self.bag_sens = tf.compat.v1.placeholder(dtype=tf.int32, shape=[self.batch_size + 1], name='bag_sens')
        self.att_A = tf.compat.v1.get_variable(name='att_A', shape=[hidden_dim_cur])
        self.rel = tf.reshape(tf.transpose(self.relation_embedding), [self.num_classes, hidden_dim_cur])
   
        for i in range(self.batch_size):
            sen_reps = tf.reshape(self.sentence_reps[self.bag_sens[i]:self.bag_sens[i + 1]], [-1, hidden_dim_cur])
            
            att_sen = tf.reshape(tf.multiply(sen_reps, self.att_A), [-1, hidden_dim_cur])
            score = tf.matmul(self.rel, tf.transpose(att_sen))
            alpha = tf.nn.softmax(score, 1)
            bag_rep = tf.matmul(alpha, sen_reps)
            

            out = tf.matmul(bag_rep, self.relation_embedding) + self.relation_embedding_b

            prob = tf.reshape(tf.reduce_sum(tf.nn.softmax(out, 1) * tf.reshape(self.input_label[i], [-1, 1]), 0),
                              [self.num_classes])

            self.probability.append(
                tf.reshape(tf.reduce_sum(tf.nn.softmax(out, 1) * tf.linalg.tensor_diag([1.0] * (self.num_classes)), 1),
                           [-1, self.num_classes]))
            self.classifier_loss += tf.reduce_sum(
                -tf.log(tf.clip_by_value(prob, 1.0e-10, 1.0)) * tf.reshape(self.input_label[i], [-1]))
        
        self.probability = tf.concat(axis=0, values=self.probability)
        self.classifier_loss = self.classifier_loss / tf.cast(self.batch_size, tf.float32)

经过前面部分，self.sentence_reps的输出是【377，300】

这里for其实就是遍历每一个bag（batch），然后通过self.bag_sens（就是上述说的sen_num_batch）就可以得到当前bag中所有句子，假设

[sentence_0,sentence_2,sentence_9 ] [0,1]

那么后面tensor的shape依次是：

sen_reps [ 3, 300]

att_sen [ 3, 300]

score [35, 3]

alpha [35, 3]

bag_rep [ 35, 300]

out [ 35, 35]

self.probability是一列列表，每次append的是【1,35】，所以最后的shape是【128,35】

这里其实就是用了一个attention，说的高大上一点就是所谓的注意力机制，关于attention可以看一下这篇

https://blog.csdn.net/BVL10101111/article/details/78470716

对应上面博主所说的套路，我们这里的问题想将所有的的bag形状转化为[num_classes,hidden_dim]即将

sen_reps（shape多种多样，有可能是上面的【3,300】也有可能是【1,300】，【5,300】等等）转化为bag_rep（即同一转化为【35,300】）

这个就是博主说的attention解决的创建：

“你有kk个dd维的特征向量hi(i=1,2,...,k)hi(i=1,2,...,k)。现在你想整合这kk个特征向量的信息，变成一个向量h∗h∗(一般也是dd维)。”

这里的score就是打分，alpha就是score经过softmax后的权重，之后sen_reps通过乘以权重（tf.matmul(alpha, sen_reps)）便得以转化为bag_rep形式

那么关键就是打分函数，这里是一个矩阵self.rel，其实就是self.relation_embedding矩阵

这里其实是[n,300] =>[n,35]=>[300,35]=>[35,35]=>取对角线得到[1,35]

一般attention逻辑来说是[n,300]=>[1,300]最后通过一个矩阵转化得到[1,35],

第二种：score是对每一句话打一个一个分数，

而第一种是采用了每一句话都对每一个类打一个分数[n,35],然后得到[35,300]相当于综合考虑了n句话得到了35类，每一类给与了300种分数，最后通过一个矩阵转化得到[35,35]取对角线得到[1,35]

------------------------------------------------------------------------------------------------------------------------------------------------------------------

以上就是两者的全过程，不论是bag形式还是sentences形式，经过上面的输出的预测结果self.probability都是【batch_size,num_classes】即【128,35】

之后再train,dev以及test函数中，对于bag和sentences形式也略有一点不同，但都是同一个套路，就看test中吧

if self.bag:
      all_preds = all_probs
      all_preds[all_probs > 0.9] = 1
      all_preds[all_probs <= 0.9] = 0
else:
      all_preds = np.eye(self.num_classes)[np.reshape(np.argmax(all_probs, 1), (-1))]

如果是sentences方式就直接取35类中最大值为结果

如果是bag方式那就设置一个阈值，大于0.9的都认为是结果，当然啦这个阈值也是人为可以设定的

以下是部分运行结果(F1)：

不使用经过text预训练的词向量 cnn : 线下bag 0.19 线上bag 0.16564

使用经过text预训练的词向量 cnn : 线下bag 0.312704 线上bag 0.33402 线下sent 0.21 线上sent 0.21387

使用bert句向量 cnn ：线下bag 0.33 线上bag 0.32057

使用经过text预训练的词向量 pcnn : 线上bag 0.30414

-----------------------------------------------------------------------------------------------------------------------------------------------------------------------

更新部分：

偶然发现天池上面一个已经结束的比赛，初赛是实体识别，复赛是关系抽取

https://tianchi.aliyun.com/competition/entrance/231687/introduction

答辩视频

https://tianchi.aliyun.com/course/video?spm=5176.12586971.1001.24.64ee6bac9hrJ88&liveId=40999

部分开源代码：

https://github.com/qrfaction/ruijin-kg-SuperGUTScode

https://github.com/search?q=%E7%91%9E%E9%87%91

首先归纳一下框架：

数据预处理部分：针对瑞金这个比赛，这里可以做的就是分句（滑动窗口），一般该部分可以努力的方向是数据增强

模型部分：大部分都采取了常见的birnn+attention,核心框架都是这个，只不过在其上面进行了部分改进

下面会使用答辩中提到的一些技巧来扩展我们第二部分的代码，进而看下在我们开头说的比赛上面效果，下面是笔者实验的部分结果结果（由于知道的比较晚，此时比赛已经结束了，没法进行线上验证了，下面仅给出线下分数）：

一 input+双层birnn（lstm）+attention_1

首先是Q&A团队提到的

总体框架是：

Encoder部分主要就是birnn，看一下输入部分（Input）：

从这里可以看到多了flag和segment，其中flag是词性，segment是实体标示，第一个实体位置赋值0.1，第二个是-0.1，其余位置为0

这里笔者在具体复现的时候采用的是pyltp得到词性（笔者代码中的postagger和上图的flag是一个东西），实体位置标示改为1（没试过0.1的效果），然后经过birnn（单层GRU）+attention_1得到输出

这里所谓的attention_1指的是打分机制使用的是原text

相比于之前大概提升了4个百分点

二 input+单层birnn（gru）+attention_1

sent方式线下：

这里将birnn部分换成了单层的GRU

可以看到是0.26，接近提升6个百分点（相比0.21），效果显著

当前我们的模型总结起来大体是

二 input+cnn

这里主要就是不使用birnn，而是使用一个简单的cnn，顺便看了一下其在bag方式上面的效果：

大概运行了200个epoch，可以看到还不如bag的baseline,所以说birnn还是要好点

三 input+双层birnn+attention_2

这里尝试使用双层birnn，因为第一层（底层）偏向提取语法方面的信息，第二层（高层）偏向提取语义方面的信息，至于理论语句是有一篇论文，答辩视频中也提到了，作者是通过用底层birnn的输出和高层的输出去分别做语法语义方面的任务，发现底层善于处理语法高层善于处理语义，这里我们将两层输出进行简单的加和（借鉴第一名的思路），当前模型大体框架是

其中attention_2（借鉴第二名思路）

这里的x0-x1-x2的含义是用除了两个实体以外的其它文本信息去做打分机制，而上面我们的attention_1是直接使用了自身encodr作为打分机制的，所谓打分机制实际上目的就是要得到一个[batch_size,max_len,1]的向量

相比于第一个0.2693稍微提高了一点，效果不是很明显

四 input（cnn）+双层birnn+attention_2

这里主要在embedding的时候先使用cnn分别对word,位置，词性进行一次cnn提取特征

效果不好，反而下降了

四双层birnn+attention_1+level_1

看了那几种分类，其实可以看到是有等级的比如1-29都属于一大类亲属关系，30-32社交关系，33-34师生关系，0自己属于一大类，于是这里试了一下在输出层使用一个level_1矩阵做一个四分类计算一个loss，然后再经过2两个全连接层做一个35分类计算一个Loss,将两部分loss作为最后的总loss结果：

没有效果

五 sigmoid

看到说使用sigmoid可以一定程度上屏蔽类间干扰，相当于多个二分类，然后计算loss的时候因为知道label嘛，取出对应的概率去计算，恩恩，貌似很有道理，但是实践效果极差

六双层birnn（gru）+attention_1+MASK

这里是将实体对都替换成MASK，因为判断实体对的关系更多的是应该考虑除实体对以外的那些文本

有所提高

六数据增强相关

一般来说数据NLP数据增强比较容易想到的就是随机drop掉一些词和shuffle随机打乱一些句子顺序

(1)双层birnn（gru）+attention_1+drop

(2)双层birnn（gru）+attention_1+drop+MASK

(3)双层birnn（gru）+attention_1+drop+shuffle

drop+shuffle

(4)双层birnn（gru）+attention_1+drop+shuffle+MASK

(5)双层birnn（gru）+attention_1+shuffle+MASK

七双层birnn（gru）+MultiHeadAttention+MASK

这里主要考虑了bert Transformer中的MultiHeadAttention，注意在具体代码实现的时候，原本多头attention，是重复多次然后concat，这里是将hidden先均分成多份，然后分别进行attention所以最后MultiHeadAttention的结果最后一维不是n*hidden而还是hidden

从上面（1）（2）来看drop带来好处，但是MASK反而降低性能

从（3）（4）来看MASK似乎又带来了性能的提高

因为数据增强这里采用的是随机选择一些词进行打乱或drop，不难想象有可能会drop掉一些关键词，而且在关系抽取中我们多次应用了位置信息，打乱位置信息的话可能也会带来一定影响，但是这样随机假如一些扰动在一定程度也可以增加模型的泛化性，说实话没有试验前，不会做出好不好的判断，上述是一部分试验结果，也许再次运行的话又会有不一样的结果，因为数据增强是随机的，drop和shffle到底有没有用？有多大的用？从上面看貌似有点作用，至于MASK能不能提高性能，为什么会出现（2）的情况，这个到后面其实还在一直运行，貌似已经收敛，截取的结果，0.276的结果也是在跑了一段时间后本以为收敛了，可是出现了0.276，总得来说感觉MASK还是很有用。

后续在做相关任务的时候，其实最好的办法就是去试一试看看效果

-------------------------------------------------------------------------------------------------------------------------------------------------------------------------

第三部分

其也是只有bag这种方式的单标签

一：将解压的数据放入origin_data目录下二：数据预处理

 
python initial.py

三：训练


python train_GRU.py

其中它会自动调用test_GRU.py验证其在dev上面的性能

四：预测结果

 
python predict_GRU.py 2643

其中2643是加载2643模型，可以加载别的，具体看model下面有哪些即可

运行结果：

遇到的问题和一些总结：

一：上述都是基于tensorflow实现的，这里偶然间看到一个基于pytorch实现的类似OpenNRE，想要开发pytorch版本可以参考一下https://github.com/ShulinCao/OpenNRE-PyTorch

二：经过试验可得，使用gensim或是bert预训练的词向量总体上会有大幅度提高，但对比word2vec,bert貌似在当前（NRE）问题中没有看到显著优势（其主要在文本分类上面优势比较明显），线下有稍微提高，线上反而效果又欠佳

三：pcnn相比于rnn有做了__piecewise_pooling改进，但是效果在该数据集上却比cnn差一点

六：这里也没有进行调参，而且在确定了最后要用的模型后，为了提高一点可以同时使用train和dev数据集去训练，然后预测test，当然啦这没什么技术层面的技巧，纯粹是为了扩大点数据量增加分数，以上结果都是单纯训练train数据集的结果

总结一下其它比较好的几个思路：

1 人工打标

2 先对NA和非NA做一个而分类，有关系的话再进行多种关系的多分类，这其实就是前面说的多级分类

3 对bag进行句子合并

4 调整远程监督的打标的结果

模型的话大部分都是bert，将实体对放在句首，用:隔开，必须是：,真是玄学

你可能感兴趣的:(人工智能机器学习)

基于新版PyCharm、Anaconda3、django3框架开发内容发布系统 mys328 pycharm django ide
1：环境安装搭建python有多个版本，可通过Anaconda3来管理python版本从而在多个版本之间进行切换。原先我们团队使用的环境是Anaconda3-2019.07、pycharm-professional-2018.3.5、python3.7，并做了一些爬虫项目，后来由于人工智能机器学习的需要，于是升级版本，使用新的2023版本的，Anaconda3-2023.07-1，pycharm-
花书学习笔记-深度学习概念 iwill323 人工智能深度学习
目录什么是机器学习函数类别机器学习举例步骤第一步：猜测函数第二步：定义Loss第三步：优化从线性到非线性：从函数逼近的角度理解多个特征变量逼近连续曲线表示更有弹性的模型总结用多个Featuresigmoid->ReLU从机器学习到深度学习早期的人工智能机器学习表征学习(representationlearning)深度学习总结主题SupervisedLearningSelf-supervisedL
【深度学习】初识深度学习 wmh1024 深度学习人工智能
初识深度学习什么是深度学习关系：人工智能机器学习深度学习卷积神经网络深度学习和机器学习的关系：机器学习：随着数据量增加会改进性能的算法深度学习：使用多层神经网络学习。深度学习是机器学习的子集。传统系统和深度学习的区别：传统编程系统：定义规则，输入数据获取输出（定义f(x)、x求得y）深度学习系统：输入答案和数据，输出规则（定义x、y求得f(x)，且f(x)具有泛化性）规则f(x)规则f(x)数据x
机器学习 | 深入理解并掌握核心概念亦世凡华、 #机器学习机器学习人工智能深度学习基础概念经验分享
在如今数字化时代的浪潮下，机器学习已经成为人工智能领域的璀璨明星。它像一面魔镜，赋予计算机系统学习和改进的能力，让机器能够从海量数据中提取规律、预测未来，甚至做出智能决策。本专栏将带您踏上机器学习的奇妙之旅，探索其原理、方法和应用。我们将揭开机器学习背后的神秘面纱，解释监督学习、无监督学习、强化学习等不同类型的机器学习算法。目录初识人工智能机器学习概述机器学习算法分类模型评估深度学习概述Jupyt
Python基础语法 Python私教 python python chrome 开发语言
计算机的组成硬件系统CPU：中央处理器存储器：内存，外存输入设备：鼠标，键盘输出设备：显示器，打印机软件系统系统软件：操作系统应用软件：微信、QQ、浏览器等Python简介Python是非常流行的编程语言，主要是因为：简单、易学、适应人群广泛免费、开源应用领域广泛自动化运维自动化测试网络爬虫数据分析人工智能机器学习Web开发注释注释的作用：对代码做解释说明，提高代码的可读性，便于别人阅读代码。被注
人工智能-机器学习-深度学习概念整理洛杉矶县牛肉板面深度学习机器学习深度学习人工智能
目录1.人工智能-ArtificialIntelligence2.机器学习-MachineLearning3.深度学习-DeepLearning4.人工智能机器学习深度学习三者之间的关系5.人工智能的流派6.特征工程-FeatureEngineering7.表示学习8.贡献度分配9.独热码10.word2vec11.神经网络12.端到端学习1.人工智能-ArtificialIntelligence
Ubuntu从ISO创建USB启动盘的工具 python测试开发
图片.pngStartupDiskStartupDiskCreator是Ubuntu中的内置应用程序。要使用它，启动盘创建程序Ubuntu图片.png参考资料讨论qq群630011153144081101本文涉及的python测试开发库谢谢点赞！本文相关海量书籍下载2018最佳人工智能机器学习工具书及下载(持续更新)UNetBootin安装sudoadd-apt-repositoryppa:gez
学习笔记目录雪的期许 go python 机器学习
文章目录⌨️编程基础编程语言工具使用️人工智能机器学习书籍/仓库经典算法评估指标深度学习书籍/仓库模型/数据加工优化方法⌨️编程基础编程语言go语言学习笔记工具使用git使用笔记️人工智能机器学习书籍/仓库机器学习资料-张北海经典算法Bagging和Boosting概念及区别随机森林–Randomforest（Bagging方法）XGBoost的原理、公式推导、Python实现和应用评估指标多分类
机器学习背景介绍与基本概念盛夏未来机器学习算法基础机器学习监督学习回归深度学习
机器学习背景介绍与基本概念人工智能机器学习神经网络深度学习基本概念数据挖掘和机器学习的关系训练数据/验证数据/测试数据监督学习/无监督学习/半监督学习回归/分类/聚类人工智能人工智能（ArtificialIntelligence），英文缩写为AI。是指使用某种算法来实现机器来模拟人的智能或者超越人的智能。人工智能并不是指任何的具体的算法，它只是一个模糊的、大概的概念。机器学习机器学习（Machin
上海交大全球午餐会——大语言模型机器学习ChatGPT（主讲人：赵海） zRezin 聊天机器人直播观后感 nlp 科技
实现强人工智能，从脑计划到与训练模型：在过去的十年中，一段时间很热，后面被人工智能机器学习盖过去了目前脑计划的现状不能宣布失败，仍在进行，但是没有之前那么热。预训练模型正在走向脑计划的方向。特别注意母语窗口是一次性获得的，后面就不容易学习其他语言了语言模型进化史：80年代诞生第一代，后面是连续空间的语言模型。语言概率链式法则改变：是有全空模型，自己模型不久之前：预训练+微调现在：大模型量变引起质变
数据分析工程师_第01讲Google python指南与数据科学python进阶程序员酱油哥 Python基础
第01讲Googlepython指南与数据科学python进阶目录0.python简介深度学习/人工智能机器学习大数据1.寻求帮助2.python运算python基本数据类型、变量、运算、表达式3.变量4.表达式5.字符串字符串切片/slice字符串函数列表/List列表切片流程控制判断条件ifelse循环列表推导式与或非集合/set字典/dict高级排序函数函数：不定长度的参数文件读写统计文件中
Python模块详细介绍 LoisMay Python python 经验分享开发语言
文章目录一、模块介绍二、导入模块的基本格式三、两种格式的优缺点四、补充知识五、循环导入问题六、判断文件类型七、模块的查找顺序一、模块介绍1.如何理解模块模块可以看成一个完整的功能非常强的大代码体使用了模块就相当于你也有这个功能了使用模块编程就相当于站在巨人的肩膀上(智能语音人工智能机器学习......)2.模块分类1>.内置模块内置模块就是python自带的可以直接调用的模块eg：importti
使用python语言、django开发框架、mysql数据库实现简单在线图书推荐系统基于用户的协同过滤推荐算法人工智能机器学习可视化数据分析爬虫个性化图书推荐系统 linge511873822 基于用户的协同过滤推荐算法 python 基于项目的协同过滤推荐算法 python django mysql 可视化数据分析图书推荐系统爬虫机器学习
使用python语言、django开发框架、mysql数据库实现简单在线图书推荐系统基于用户的协同过滤推荐算法人工智能机器学习可视化数据分析爬虫个性化图书推荐系统SimpleBookRecWebPy一、项目简介1、开发工具和使用技术Python3及以上版本，Django3.6及以上版本，mysql8，navicat数据库管理工具或者sqlyog数据库管理工具，bootstrap前端框架，boots
零基础入门影像组学与人工智能七刀人工智能人工智能机器学习 python
下载地址：点这里没有csdn账号的点这里下载：点这里├─第一章人工智能与影像组学在临床研究中的应用│2.人工智能、影像组学在医学研究领域的应用实例.mp4│【试听】人工智能与影像组学是什么？在临床研究中有哪些应用？.mp4│【试听】机器学习临床SCI思路解读.mp4│├─第二章轻松入门机器学习，搞定人工智能基础│1.理论基础：如何做人工智能机器学习研究？.mp4│2.工具基础：轻松入门Python
人工智能（Machine Learning）—— 机器学习 lghgqsy 人工智能机器学习
转载：https://blog.csdn.net/qq_27297393/article/details/82284384机器学习一、人工智能、机器学习与深度学习人工智能机器学习经典机器学习基于神经网络的机器学习浅层学习深层学习(深度学习)强化学习迁移学习二、机器学习基本类型1.有监督学习有监督学习:根据已知的输入和输出，建立联系它们的模型，根据该模型对未知输出的输入进行判断。1)回归：以无限连续
周志华《机器学习》西瓜书新出算法推导视频！（超级详细）深度之眼订阅号
如果你对人工智能跃跃欲试，第一步该怎么办？我通常的做法是，先收集人工智能有关的信息，或者问问身边正在学习的师兄师姐，寻求他们的方法或建议。如果你已经开始学习，并且了解一点机器学习这个概念，那么你就应该知道这本书“周志华《机器学习》”，号称人工智能领域中文版开山之作这是一本面向中文读者的机器学习教科书，适合正在学习机器学习的学生，以及对人工智能机器学习感兴趣的人士。为了让读者通过本书对机器学习有所了
人工智能机器学习现实里的童话xklss
机器学习资料下面是机器学习的资料，让你更深层次的了解以及学习机器学习链接：https://pan.baidu.com/s/1mpze_NnwMJox6TCiL0vX9g密码：u6hy还需要别的python相关资料，请联系QQ：1538444890Ｏ（∩＿∩）Ｏ谢谢
【免费分享淘宝视频教程】pyhton大数据人工智能神经网络爬虫零基础视频教程从入门到精通-百度云 weixin_41341299 Python Python视频教程 Python爬虫
00、Python安装包开发工具、注册01、Python入门到项目实战篇02、Python大数据入门到实战篇03、Python数据分析与数据挖掘篇04、Python高等数学与程序算法篇05、Python人工智能机器学习篇06、Python人工智能神经网络量化交易篇07、Python机器人与自然语言处理篇百度云下载地址：回复关键词Python教程获取下载地址
Windows10+UBUNTU-18.04 -20.04完整新手安装教程大山8606 ubuntu 操作系统 linux 神经网络深度学习
Windows10+UBUNTU双系统新手安装完全教程由于人工智能机器学习，开始学习Python旅程，并花费大量精力时间搭建Windows10下的Python环境，CUDA、TensorFlow、Keras、pytorch、OpenCV………经历各种坑、各种尝试。终于能成功搭建Windows10下的学习环境，顺利跑神经网络程序，一阵窃喜，哈哈哈，感觉良好，小有成绩！忽然发现网上查的资料大都是在Ub
人工智能机器学习-飞桨神经网络与深度学习 Williamtym 深度学习深度学习机器学习 paddlepaddle
飞桨神经网络与深度学习-机器学习目录飞桨神经网络与深度学习-机器学习1.机器学习概述2.机器学习实践五要素2.1.数据2.2.模型2.3.学习准则2.4.优化算法2.5.评估标准3.实现简单的线性回归模型3.1.数据集构建3.2.模型构建3.3.损失函数3.4.模型优化3.5.模型训练3.6.模型评估4.多项式回归4.1.数据集构建4.2.模型构建4.3.模型训练4.4.模型评估5.Runner类
数字化企业安全指南-数字化 IT阿土
数字化企业是信息化企业的升级版，信息化关注的是流程信息化，关注的是业务人财物的信息化运作。数字化是过程数字化的产物，在信息化的基础上扩大了数据采集处理分析应用的范围，信息从录入到采集，信息从结构化到非结构化，信息化模型从业务专业模式到人工智能机器学习和深度学习的自动化模式，数据规模从节俭到奢靡，相对于信息，数字化数据的稀疏矩阵有效性降低。
计算机专业套装书书单推荐人邮异步社区程序人生职业素养程序员修炼
1、深度学习经典教程深度学习+动手学深度学习“花书”与沐神大作双剑合璧，入门深度学习看这一套就够了，来自一线科学家的经验总结，人工智能机器学习AI算法数据科学领域的重磅作品。理论+实战，一套书帮你get深度学习的各种知识。动手学深度学习内容简介：本书旨在向读者交付有关深度学习的交互式学习体验。书中不仅阐述深度学习的算法原理，还演示它们的实现和运行。与传统图书不同，本书的每一节都是一个可以下载并运行
人工智能机器学习数据集收集整理--持续更新中 generalz
关键词：机器学习；人工智能；数据集；标准数据集；自然语言处理；图像识别自然语言处理相关数据集1、实体/名词语义关系标记数据集【DavidS.Batista】2、HackerNews数据集(2006年以来约1/4文章)【Kaggle】3、酒店评价数据集【Kaggle】4、来自StackOverflow平台的Python语言问答数据集【Kaggle】5、来自StackOverflow品台的R语言问答数
【人工智能技术专题】「入门到精通系列教程」打好AI基础带你进军人工智能领域的全流程技术体系（机器学习知识导论）洛神灬殇人工智能机器学习深度学习
零基础带你进军人工智能领域的全流程技术体系和实战指南（机器学习基础知识）前言专栏介绍专栏说明学习大纲前提条件面向读者学习目标核心内容机器学习的概念定义回顾人工智能机器学习概念国外知名学者对机器学习的定义中文翻译机器学习发展历程机器学习和人工智能的关系机器学习和人类学习的对比人类学习的行为处理模式机器学习的行为处理模式经典的「垃圾邮件过滤」应用应用程序原理分析机器学习三要素数据（数据驱动）训练集与数
ChatGPT对未来教育的影响：教师学生需要掌握这个新能力 Do1twell 人工智能机器学习 chatgpt 学习深度学习
美国人工智能公司OpenAI的大语言模型ChatGPT在推出约两个月后，1月已达到1亿月活跃用户，成为历史上增长最快的消费者应用程序。目录01.诞生过程02.背后的技术03.颠覆的行业04.对教育的未来变化01.诞生过程2018年6月，拥有1.17亿参数的GPT1启动，以往的人工智能机器学习要对学习内容事先要做标记，但GPT1可以对未标记文本的不同语料库进行语言模型的生成性预训练，然后对每个特定任
如何给ai机器提供学习数据_人工智能机器学习中的数据伦理 weixin_26704853 人工智能机器学习大数据 python java
如何给ai机器提供学习数据Ethicsisanimportantaspectoflifeandunethicalofanythingissimplyharmfulandscary.Thesameprincipleisalsovalidandlegitimateinthetechnicalworld.Withtheevolutionofbigdataandhighperformantcomputin
2019年上半年收集到的人工智能机器学习方向干货文章城市中迷途小书童
2019年上半年收集到的人工智能机器学习方向干货文章10种机器学习方法，掌握了就可以称霸朋友圈人工智能常见算法简介机器学习中的最优化算法总结最萌算法学习来啦，看不懂才怪！TheNextStep人工智能的学习，需要学习哪些算法和数学知识呢？需要什么学历？一文读懂机器学习项目的完整生命周期80+机器学习数据集，还不快收藏人工智能常见算法简介目前最实用的机器学习算法，你认为是哪几种？算法工程师必须要知道
Python和Java二选一该学啥？大方老师讲单片机硬件工程师自动化智能 javascript java-ee java 前端框架架构
Python和Java二选一该学啥？有网友说Python和Java之间选择一门进行学习，现在很纠结该选哪个。不知道这两种语言都有什么前景？选java，选java，选java！！！千万别听某些人说的什么python人工智能机器学习，是未来的发展balabala的。python对于人工智能工程师来说，最多也就相当螺丝刀与修理工，懂么，只是一种工具，且是工具之一。就业要求也比较简单，985211硕士。达
[深度学习]-飞桨-学习笔记-note1 aixinqing00 AI 深度学习
基本概念人工智能机器学习深度学习三者的关系是逐层专业化。人工智能是比较范的概念，而机器学习是实现人工只能又有效的方式，深度学习则是机器学习中的一个分支，目前发展火热，并替代了大多数机器学习的算法。机器学习机器学习从字面理解，是机器自我学习成长的过程，使得计算结果接近于人类思考后的目标。在机器学习领域中，有监督学习和无监督学习之分。监督学习是对已有的历史数据，并且知道了数据得到的结果，又可分为回归和
机器学习中的分类距离喜欢打酱油的老鸟人工智能机器学习中的分类距离
https://www.toutiao.com/a6710061523777094151/生活中，距离通常是用于形容两个地方或两个物体之间的远近。在人工智能机器学习领域，常使用距离来衡量两个样本之间的相似度。“物以类聚”我们知道“物以类聚”通常用于比喻同类的东西经常聚在一起。机器学习中，距离就是遵循物以类聚的思想。通过两个样本特征数据进行距离计算后，得到的距离值越小，代表两者的相似度越高，属于同一
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla