lucky_chaichai

知识图谱中“三元组”抽取——Python中模型总结实战（基于TensorFlow2.5）

一、pyhanlp
二、stanfordnlp
三、pyltp
四、openNRE
- 1、安装：我安装到windows上了
- 2、使用
五、基于TensorFlow 2自定义NER模型（构建、训练与保存模型范例）
- 1、BiLSTM+CRF模型
- 2、BERT+CRF（或 softmax）模型
- - 1、使用keras_bert：
  - 2、使用transformers
- 3、BERT+SPAN模型
六、SPO三元组抽取 / 关系抽取
- 1、基于bert4keras（抽取三元组）
- 2、基于DGCNN[CNN、Attention、BiLSTM]

一、pyhanlp

【基于java的，安装使用前必须先安装java环境】
1、安装：pip install pyhanlp
【安装过程中会自动安装jpype1，该模块仅支持到python3.7，所以python3.7以上的安装老是报错。】
2、使用：
1）分词

import pyhanlp
print([i.word for i in pyhanlp.HanLP.segment('我们都是中国人，坚持一个中国原则。')])

二、stanfordnlp

【官方GitHub介绍：https://stanfordnlp.github.io/stanfordnlp/training.html】
1、安装：pip 安装

 pip install stanfordnlp --proxy 111.666.88.688:808

2、简单使用

 import stanfordnlp

三、pyltp

【学习手札：https://blog.csdn.net/MebiuW/article/details/52496920 】
【基于C++的】

四、openNRE

GitHub：https://github.com/thunlp/OpenNRE#datasets
清华大学自然语言处理与社会人文计算实验室（THUNLP）推出的一款开源的神经网络关系抽取工具包，包括了多款常用的关系抽取模型。
使用wiki80数据集，包含80种关系。（也可以自己训练）
但是都是英文数据集，使用也都是基于英文的……

1、安装：我安装到windows上了

cmd中下载git相关安装文件：

git clone https://github.com/thunlp/OpenNRE.git

安装requirements.txt中的模块（括号中是我安装的模块版本）

torch==1.6.0   （1.9.0）
transformers==3.4.0  （4.21.3）
pytest==5.3.2 
scikit-learn==0.22.1 （0.23.2）
scipy==1.4.1  （1.4.1）
nltk>=3.6.4  （3.6.2）

安装openNRE

python setup.py develop

2、使用

【注意】
1）windows在导入包的时候会报错：TypeError: expected str, bytes or os.PathLike object, not NoneType
原因：opennre中的pretrain.py中的第13行在windows运行出错（os.getenv(‘HOME’)获取用户主文件地址，windows没有home地址）。
改为：

# default_root_path = os.path.join(os.getenv('HOME'), '.opennre') # Linux
default_root_path = os.path.join(str(Path.home()), 'opennre') # cqf: windows

2）windows在opennre.get_model(‘wiki80_cnn_softmax’)获取模型时报错：wget不是内部执行命令
原因：wget 是一个Linux环境下用于从万维网上提取文件的工具，windows使用时需要单独安装。
安装：①在网站 https://eternallybored.org/misc/wget/ 上下载windows 上适用的安装包（最新版就可）；
②下载完成后解压：比如我下载的是 wget-1.21.3-win64.zip ，解压到 D:\software\wget-1.21.3-win64；
③添加环境变量：比如我的

导入模块、加载模型、预测

>>> import opennre
>>> model = opennre.get_model('wiki80_cnn_softmax') # 模型还包括：wiki80_bert_softmax、wiki80_bertentity_softmax、tacred_bert_softmax、tacred_bertentity_softmax
>>> model.infer({'text': 'Huang Xiaoming starred in the TV series "the emperor of Han Dynasty", in which he played Emperor Wu of Han Dynasty.', 'h': {'pos':(0,13)}, 't': {'pos':(41,66)}})
('notable work', 0.96822190284729)

五、基于TensorFlow 2自定义NER模型（构建、训练与保存模型范例）

NER实质：对目标句子序列进行特征向量表示，然后输入模型，预测句子中每个词对应所有 class 的概率，概率最高的即为其标注结果。
环境要求：（keras4bert环境要求后面单独说明）

keras_bert.__version__ = 0.88.0 # 要求keras >= 2.4.3
keras.__version__ = 2.4.3
tf.__version__ = 2.5.0
tfa.__version__ = 0.16.1
transformers.__version__ = 4.9.1

超参：

# 超参
config_path='data/chinese_L-12_H-768_A-12/bert_config.json'
check_point_path='data/chinese_L-12_H-768_A-12/bert_model.ckpt'
seq_len=200
layer_nums=4  # keras_bert加载BERT时参数output_layer_num的值，BERT模型每个encoder的MultiHeadSelfAttentio层数
training=False
trainable=False
num_label=4
drop_rate=0.3
is_training=True
hidden_size=600
TransBERT_MODEL_NAME='data/bert-base-uncased'

1、BiLSTM+CRF模型

理解说明：
CRF作用：①训练过程中作为损失函数，计算loss；②预测过程中，用于解码，获取得分最高的句子标记结果。
CRF的解码函数：
tfa.text.crf_decode()获取CRF解码结果，即最高分数的句子标记结果，返回结果包括：
① decode_tags： A [batch_size, max_seq_len] matrix, with dtype tf.int32. Contains the highest scoring tag indices.
② best_score： A [batch_size] vector, containing the score of decode_tags.
1、模型构建

import tensorflow as tf
import tensorflow_addons as tfa # 需单独安装

# 基于tf.keras.layers.Layer类定义一个自己的CRF层
class CRF(tf.keras.layers.Layer):
    def __init__(self, label_num) -> None:
        super().__init__()
        self.trans_params = tf.Variable(
            tf.random.uniform(shape=(label_num, label_num)), name="transition")
    
    def call(self, inputs, labels, seq_lens):
        log_likelihood, self.trans_params = tfa.text.crf_log_likelihood(
                                                inputs,  # tensor：[batch_size, max_seq_len, num_tags] 
                                                labels,  # tensor：[batch_size, max_seq_len] 
                                                seq_lens,  # seq_lens为各个句子的真实长度(不包括padding的部分，本模型训练也将不存在于vocab中的部分排除)
                                                transition_params=self.trans_params)
        loss = tf.reduce_mean(-log_likelihood)
        return loss

class BiLSTM_CRF_model(tf.keras.Model):
    def __init__(self, embedding_dim, vocab_size, hidden_size, label_num) -> None:
        super().__init__()
        self.embeding_layer=tf.keras.layers.Embedding(input_dim=vocab_size, 
    						  output_dim=embedding_dim, 
    						  input_length=None,  #Length of input sequences,如果该层后面连接flatten并dense则必须指定input_length。
    						  embeddings_initializer='uniform')
        self.bilstm_layer=tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(hidden_size, return_sequences=True), 
                                                        merge_mode='concat')
        self.dense = tf.keras.layers.Dense(label_num)
        self.crf_layer=CRF(label_num)

    def call(self, input, labels=None, externalEmbed_file=None, training=True):
        # tf.math.not_equal()比较x、y相等情况，返回bool类型的tensor，shape同x或y
        # tf.cast()强制将给定数据转换为指定数据类型
        seq_lens=tf.math.reduce_sum(tf.cast(tf.math.not_equal(input, 0), dtype=tf.int32), axis=-1) # 计算各个橘子的真实长度
        if externalEmbed_file:
            x=tf.nn.embedding_lookup(externalEmbed_file, input)
        else:
            x=self.embeding_layer(input)
        x=self.bilstm_layer(x)
        logits=self.dense(x) # 得到CRF的输入[batch_size, max_seq_len, num_tags]
        if training:
            labels = tf.convert_to_tensor(labels, dtype=tf.int32)
            loss=self.crf_layer(logits, labels, seq_lens)
            return loss, logits, seq_lens
        else:
            return logits, seq_lens

继承tf.keras.Model类构建的模型结构：

2、模型训练与保存：

def get_acc_one_step(logits, text_lens, labels_batch, model):
    '''
    【这个计算方式不是很好（一般一个句子中什么都不是的部分占比很大，导致即使全部标记结果都是非实体，那最终准确率也很高），
    最后准确率普遍偏高，模型效果不咋地，可以尝试计算精确率、召回率】
    计算实体识别准确率： 计算每个句子标注的准确率，然后所有句子准确率相加求平均。
    '''
    paths = []
    accuracy = 0
    for logit, text_len, labels in zip(logits, text_lens, labels_batch):
        viterbi_path, _ = tfa.text.viterbi_decode(logit[:text_len],  # BiLSTM_CRF模型中dense层的输出（CRF的输入/model.predict(dataset)结果），[batch_size, max_seq_len, num_tags] 
                                                  model.get_layer('crf').get_weights()[0] # 获取CRF层的转移矩阵， [num_tags, num_tags]
                                                  )
        paths.append(viterbi_path)
        correct_prediction = tf.equal(
            tf.convert_to_tensor(tf.keras.preprocessing.sequence.pad_sequences([viterbi_path], padding='post'),
                                 dtype=tf.int32),
            tf.convert_to_tensor(tf.keras.preprocessing.sequence.pad_sequences([labels[:text_len]], padding='post'),
                                 dtype=tf.int32)
        )
        accuracy = accuracy + tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
    accuracy = accuracy / len(paths)
    return accuracy

def train_main(vocab_file, tag_file, train_path, output_dir):
	# text_sequences, label_sequences分别为token2id、padding之后的句子、标签tensor
	train_dataset = tf.data.Dataset.from_tensor_slices((text_sequences, label_sequences)) # 生成text和label一一对应的tensor
	train_dataset = train_dataset.shuffle(len(text_sequences)).batch(batch_size, drop_remainder=True) # 打乱上述tensor的顺序并分成多个大小为batch_size的batch
	
	model = BiLSTM_CRF_model(hidden_size = hidden_num, vocab_size = len(vocab2id), label_num= len(tag2id), embedding_dim = embedding_size)
	optimizer = tf.keras.optimizers.Adam(lr)
	
	# tf.train.Checkpoint是变量保存与恢复类，只保存模型的参数，不保存模型的计算过程，因此一般用于在具有模型源代码的时候恢复之前训练好的模型参数。
	# ckpt.restore()，模型中的变量还没有被建立的时候，Checkpoint 可以等到变量被建立的时候再进行数值的恢复（即提前声明也不会报错）
	# tf.train.CheckpointManager()对保存文件管理，指定文件保存路径、文件名前缀、保留的 Checkpoint数目
	ckpt = tf.train.Checkpoint(optimizer=optimizer, model=model) 
    ckpt.restore(tf.train.latest_checkpoint(output_dir)) # 载入已训练的模型文件，以恢复模型（可以进一步训练或者用于预测）。当保存了多个文件时，载入最近的一个
    ckpt_manager = tf.train.CheckpointManager(ckpt,
                                            output_dir,
                                            checkpoint_name='bilstm_crf_model.ckpt',
                                            max_to_keep=3)
	# 10个epoch，batch_size大小的batch基于Adam优化器（学习率1e-3）循环训练
	for epoch in range(10):
	    for _, (text_batch, labels_batch) in enumerate(train_dataset):
	        step = step + 1
	        with tf.GradientTape() as tape:
	            loss, logits, text_lens = model(text_batch, 
	                                            labels_batch, 
	                                            externalEmbed_file=False)
	            gradients = tape.gradient(loss, model.trainable_variables)
	            optimizer.apply_gradients(zip(gradients, model.trainable_variables))
	        if step==1:
	            print(model.summary())
	
	        accuracy = get_acc_one_step(logits, text_lens, labels_batch, model)
	        print('epoch %d, step %d, loss %.4f , accuracy %.4f' % (epoch, step, loss, accuracy))
	        if accuracy > best_acc:
	            best_acc = accuracy
	            ckpt_manager.save() # 保存训练好的模型的参数（路径中若有不存在的文件夹会自动创建），得到三个文件：checkpoint、.ckpt-28.index、.ckpt-28.data-00000-of-00001
	            # ckpt.save(model_path_file) # 不通过CheckpointManager的话也可直接保存模型的参数
	            print("model saved")

if __name__=='__main__':
    train_main(vocab_file='data/vocab_file.txt', 
               tag_file='data/tag_file.txt', 
               train_path='data/train.txt', 
               output_dir='checkpoints/')

训练结果：loss值、准确率

3、使用模型预测：
① 加载训练好的模型参数
② 使用predict()对输入序列预测
③ 基于预测的logit和模型中的转移矩阵，使用tfa.text.viterbi_decode()解码，得到最佳结果路径

def predict_main(vocab_file, tag_file, output_dir):
    vocab2id, id2vocab = read_vocab(vocab_file)
    tag2id, id2tag = read_vocab(tag_file)

    model = BiLSTM_CRF_model(hidden_size = hidden_num, 
                             vocab_size = len(vocab2id), 
                             label_num= len(tag2id), 
                             embedding_dim = embedding_size)
    optimizer = tf.keras.optimizers.Adam(lr)

    ckpt = tf.train.Checkpoint(optimizer=optimizer, model=model)
    ckpt.restore(tf.train.latest_checkpoint(output_dir))

    text = input("input:")
    dataset = tf.keras.preprocessing.sequence.pad_sequences([[vocab2id.get(char,0) for char in text]], padding='post')
    logits, text_lens = model.predict(dataset)
    paths = []
    for logit, text_len in zip(logits, text_lens):
        viterbi_path, _ = tfa.text.viterbi_decode(
        									logit[:text_len], 
        									model.get_layer('crf').get_weights()[0])
        paths.append(viterbi_path)

    print('结果路径:',paths) # 结果路径: [[1, 1, 1, 1, 1, 1, 5, 6, 6, 7, 1, 1, 1, 1, 1, 1, 1, 1, 1, 5, 6, 6, 7, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 4, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]

参考：https://github.com/saiwaiyanyu/bi-lstm-crf-ner-tf2.0

2、BERT+CRF（或 softmax）模型

BERT中包含四种special token，分别是：
[UNK]：指代在vocab中找不到的字/词
[CLS]：添加在每句句首。对于用于分类的向量，会聚集所有的分类信息
[SEP]：添加在每句句尾
[MASK]：使用[MASK]替换句子中的部分字/词。用于MLM（屏蔽语言模型）。

1、使用keras_bert：

tokenizer数据处理部分：

from keras_bert import Tokenizer

token2id={}
vocab_file=open('data/chinese_L-12_H-768_A-12/vocab.txt', 'r', encoding='utf-8')
for w in vocab_file.readlines():
    w=w.strip()
    token2id[w]=len(token2id)
tokenizer=Tokenizer(token2id)
r=tokenizer.tokenize('我是中糹国人！') # 对句子分字，并在句首和句尾分别添加[CLS]、[SEP]
print(r) # 结果：['[CLS]', '我', '是', '中', '糹', '国', '人', '！', '[SEP]']
r_encode=tokenizer.encode('我是糹中国人！') # 返回array类型的tikens_id， segments_id

方式一、模型构建代码：继承tf.keras.Model()
bert_model( [tokenid_tensor, segmentid_tensor] )

class NonMaskingLayer(tf.keras.layers.Layer):
    def __init__(self, **kwargs):
        self.supports_masking = True
        super(NonMaskingLayer, self).__init__(**kwargs)
    def build(self, input_shape):
        pass
    def compute_mask(self, inputs, input_mask=None):
        # do not pass the mask to the next layers
        return None
    def call(self, x, mask=None):
        return x
class BertCrf(tf.keras.Model):
    def __init__(self, 
                 seq_len=200, 
                 bertOut_layer_nums=4,  
                 bertTraining=False, 
                 bertTrainable=False, 
                 num_label=4, 
                 drop_rate=0.3, 
                 is_training=True,
                 config_path='data/chinese_L-12_H-768_A-12/bert_config.json',
                 check_point_path='data/chinese_L-12_H-768_A-12/bert_model.ckpt'):
        super(BertCrf, self).__init__()
        self.config_path=config_path
        self.check_point_path=check_point_path
        self.seq_len=seq_len
        self.layer_nums=bertOut_layer_nums
        self.training=bertTraining
        self.trainable=bertTrainable 
        self.num_label=num_label
        self.drop_rate=drop_rate
        self.is_training=is_training
        
        self.bert_model=keras_bert.load_trained_model_from_checkpoint(
				        		self.config_path,
				                self.check_point_path,
				                seq_len=self.seq_len,
				                output_layer_num=self.layer_nums, # 决定bert输出的最后一个维度是768 * bertOut_layer_nums
				                training=self.training,
				                trainable=self.trainable)
        self.NonMask_layer=NonMaskingLayer()
        self.Dropout_layer=tf.keras.layers.Dropout(self.drop_rate)
        self.Dense_layer=tf.keras.layers.Dense(self.num_label)
        self.crf_layer=CRF(self.num_label)
    
    def call(self, input, labels=None, train=False):
        '''
        input: [padded_tokenid_tensor, padded_segmentid_tensor], tensor shape=[batch, seq_len]
        '''
        seq_reallens=tf.math.reduce_sum(tf.cast(tf.math.not_equal(input[0], 0), dtype=tf.int32), axis=-1)
        out_put=self.bert_model(input)
        out_put=self.NonMask_layer(out_put)
        out_put=self.Dropout_layer(out_put)
        logits=self.Dense_layer(out_put)
        if train:
            labels=tf.convert_to_tensor(labels, dtype=tf.int32)
            loss=self.crf_layer(logits, labels, seq_reallens)
            return loss, logits, seq_reallens
        else:
            return logits, seq_reallens

模型结构：

方式二、模型构建代码：链式（串联）方式
bert_model.inputs ， bert_model.output

class MyBertCrfModel:
    def __init__(self, 
                 seq_len=200, 
                 bertOut_layer_nums=4, 
                 bertTraining=False, 
                 bertTrainable=False, 
                 num_label=4, 
                 drop_rate=0.3, 
                 is_training=True,
                 config_path='data/chinese_L-12_H-768_A-12/bert_config.json',
                 check_point_path='data/chinese_L-12_H-768_A-12/bert_model.ckpt'):
        self.config_path=config_path
        self.check_point_path=check_point_path
        self.seq_len=seq_len
        self.layer_nums=bertOut_layer_nums
        self.training=bertTraining
        self.trainable=bertTrainable 
        self.num_label=num_label
        self.drop_rate=drop_rate
        self.is_training=is_training
    
    def build_model(self):
        '''
        这种方式构建的模型，可以将BERT详细的模型结构打印出来。
        返回模型对象，后续直接使用model.compile()、 model.fit()、model.save()、 model.predict()编译、训练、保存和预测
        model调用时，有四个输入[input1, input2, input3, input4], 分别对应：
         input1：bert的输入1，padded_tokenid_tensor，shape=[batch, seq_len]
         input2：bert的输入2，padded_segmentid_tensor，shape=[batch, seq_len]，即段向量，用来区分两个句子，用于句子级别的Mask任务，第一句话标记0（两个句子时，另一句为1）
         input3：crf层要用的labels, [batch, seq_len]
         input4：crf层要用的各句子真实长度, [batch]
        '''
        label_input = tf.keras.layers.Input(shape=(self.seq_len,), name='target_ids', dtype='int32')
        seq_reallens = tf.keras.layers.Input(shape=(), name='input_reallens', dtype='int32')
        bert_model = keras_bert.load_trained_model_from_checkpoint(self.config_path,
                                                        self.check_point_path,
                                                        seq_len=self.seq_len,
                                                        output_layer_num=self.layer_nums,
                                                        training=self.training,
                                                        trainable=self.trainable)
        # bert_model=tf.keras.Model(bert_model.inputs, bert_model.output)
        out_put=NonMaskingLayer()(bert_model.output)
        out_put=tf.keras.layers.Dropout(self.drop_rate)(out_put, training=self.is_training)
        logits=tf.keras.layers.Dense(self.num_label)(out_put)
        # bert_dense_model=tf.keras.Model(bert_model.inputs, logits)

        loss=CRF(self.num_label)(logits, label_input, seq_reallens) 
        # bert_model.inputs是包含两个tensor的list，分别是Input-Token、Input-Segment
        model=tf.keras.Model([bert_model.inputs[0],bert_model.inputs[1],label_input, seq_reallens], loss) # input=[BERT模型的两个输入+自定义的两个输入层]
        model.summary()
        return model

模型结构图：

2、使用transformers

from transformers import BertTokenizer, TFBertModel, BertConfig

构建BERT+BiLSTM模型：

def build_model_tran():
    label_input = tf.keras.layers.Input(shape=(seq_len,), name='target_ids', dtype='int32')
    seq_reallens = tf.keras.layers.Input(shape=(), name='input_reallens', dtype='int32')
    
    input_ids=tf.keras.layers.Input(shape=(seq_len,), name='input_ids', dtype='int32')
    token_type_ids=tf.keras.layers.Input(shape=(seq_len,), name='token_type_ids', dtype='int32')
    attention_masks=tf.keras.layers.Input(shape=(seq_len,), name='attention_masks', dtype='int32')
    bert_input=[input_ids, token_type_ids, attention_masks]

    # 加载tf2的bert模型（模型文件是pytorch版本）
    bert_configs = BertConfig.from_pretrained(TransBERT_MODEL_NAME, num_labels=num_label)
    bert_model = TFBertModel.from_pretrained(TransBERT_MODEL_NAME, 
    										 config=bert_configs, 
    										 from_pt=True) # 注意，当加载.bin模型文件时，from_pt必须为True；加载.h5文件则直接默认值
    bert_model.trainable = False

    sequence_output = bert_model(bert_input)[0]
    output=tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(hidden_size, return_sequences=True), 
                                         merge_mode='concat')(sequence_output)
    output=tf.keras.layers.Dropout(drop_rate)(output)
    logits=tf.keras.layers.Dense(num_label)(output)
    loss=CRF(num_label)(logits, label_input, seq_reallens)

    model=tf.keras.Model(bert_input+[label_input, seq_reallens], logits)
    model.summary()
    return model

model=build_model_tran()

模型层次结构：

3、BERT+SPAN模型

未完待续

六、SPO三元组抽取 / 关系抽取

1、基于bert4keras（抽取三元组）

任务实质：p是给定的几种S-O之间的关系，其实任务实质就是抽取句子中S和O并确定他们之间关系属于哪一种。（实体识别 + 关系分类）
效果较差的一般思路：
①s、p、o作为整体的序列标注来搞；
②先通过序列标注识别出实体s、o，然后使用分类模型对s-o进行关系分类。
思路主干：先构建S预测模型 subject_model，预测 S ，然后构建P、O预测模型 object_model，共享 S 特征向量，与随机选择的 Si 的特征向量共同预测 Si 对应的所有 p、o。
环境要求：

'''
苏神bert4keras开发环境：tf 1.14 + keras 2.3.1
python3.8.0
'''
bert4keras.__version = 0.11.3
tensorflow.__version__ = 2.2.0(最好) / 2.5.0
keras.__version__ = 2.3.1 # 要求keras <= 2.3.1，与keras_bert冲突，keras_bert要求keras >= 2.4.3

模块导入：

import json
import numpy as np
from tqdm import tqdm

import os
os.environ["TF_KERAS"] = '1'

from bert4keras.backend import keras, K, batch_gather
from bert4keras.layers import Loss
from bert4keras.layers import LayerNormalization
from bert4keras.tokenizers import Tokenizer
from bert4keras.models import build_transformer_model
from bert4keras.optimizers import Adam, extend_with_exponential_moving_average
from bert4keras.snippets import sequence_padding, DataGenerator
from bert4keras.snippets import open, to_array

from tensorflow.keras.layers import Input, Dense, Lambda, Reshape
from tensorflow.keras.models import Model

config_path='data/chinese_L-12_H-768_A-12/bert_config.json'
checkpoint_path='data/chinese_L-12_H-768_A-12/bert_model.ckpt'
dict_path = 'data/chinese_L-12_H-768_A-12/vocab.txt'

基于bert4keras的tokenizer：
tokenizer处理部分：将字符转换为index表示，101是[CLS]，102是[SEP]

tokenizer = Tokenizer(dict_path, do_lower_case=True)
token_ids, segment_ids = tokenizer.encode('查尔斯·阿兰基斯（Charles Aránguiz），1989年4月17日出生于智利圣地亚哥，智利职业足球运动员，司职中场，效力于德国足球甲级联赛勒沃库森足球俱乐部', 
										   maxlen=maxlen)
print(token_ids, '\n', segment_ids)

结果：

基于bert三元组抽取联合模型逻辑图（参考苏神抽取三元组）：
数据集（batch）处理：一个text中s单独用首(1,0)尾(0,1)二维向量表示(shape = [token_ids_len, 2])，o、p统一用三维向量表示(shape = [token_ids_len, num_p, 2])
注意：s、o的label分开标注，防止s、o出现重叠的极端情况：如《鲁迅自传》由江苏文艺出版社出版，包含三元组 (鲁迅自传, 作者, 鲁迅) 。

模型结构：【基于GPLinker使用相同的环境配置】
调用bert模型（bert4keras加载的bert模型从0层开始，最后一层（11层）是最后一个encoder的Normalization层）；
构建三元组模型代码（苏神GitHub完整代码）：

class TotalLoss(Loss):
    """subject_loss与object_loss之和，都是二分类交叉熵
    """
    def compute_loss(self, inputs, mask=None):
        subject_labels, object_labels = inputs[:2]
        subject_preds, object_preds, _ = inputs[2:]
        if mask[4] is None:
            mask = 1.0
        else:
            mask = K.cast(mask[4], K.floatx())
        # subject部分loss
        subject_loss = K.binary_crossentropy(subject_labels, subject_preds)
        subject_loss = K.mean(subject_loss, 2)
        subject_loss = K.sum(subject_loss * mask) / K.sum(mask)
        # object部分loss
        object_loss = K.binary_crossentropy(object_labels, object_preds)
        object_loss = K.sum(K.mean(object_loss, 3), 2)
        object_loss = K.sum(object_loss * mask) / K.sum(mask)
        # 总的loss
        return subject_loss + object_loss

class Nre_model:
    def __init__(self, relation_num = 20, maxlen = 128, batch_size = 64, 
            config_path = 'data/chinese_L-12_H-768_A-12/bert_config.json',
            checkpoint_path = 'data/chinese_L-12_H-768_A-12/bert_model.ckpt',
            dict_path = 'data/chinese_L-12_H-768_A-12/vocab.txt') -> None:
        self.relation_num = relation_num
        self.maxlen = maxlen
        self.batch_size = batch_size
        self.config_path = config_path
        self.checkpoint_path = checkpoint_path
        self.dict_path = dict_path

        # 补充输入
        subject_labels = Input(shape=(None, 2), name='Subject-Labels')
        subject_ids = Input(shape=(2,), name='Subject-Ids')
        object_labels = Input(shape=(None, relation_num, 2), name='Object-Labels')

        # 加载预训练模型
        bert = build_transformer_model(
            config_path=config_path,
            checkpoint_path=checkpoint_path,
            return_keras_model=False,
        )

        # 预测subject
        output = Dense(
            units=2, activation='sigmoid', kernel_initializer=bert.initializer
        )(bert.model.output)
        subject_preds = Lambda(lambda x: x**2)(output)

        self.subject_model = Model(bert.model.inputs, subject_preds)
        # subject_model.summary()

        # 传入subject，预测object
        # 通过Conditional Layer Normalization将subject融入到object的预测中
        output = bert.model.layers[-2].get_output_at(-1)  # cqf：获取-2层的输出（-1层是bert最后一个encoder的FeedForward-Norm层）
        subject = Lambda(self._extract_subject)([output, subject_ids])
        output = LayerNormalization(conditional=True)([output, subject])
        output = Dense(
            units=relation_num * 2,
            activation='sigmoid',
            kernel_initializer=bert.initializer
        )(output)
        output = Lambda(lambda x: x**4)(output)
        object_preds = Reshape((-1, relation_num, 2))(output)

        self.object_model = Model(bert.model.inputs + [subject_ids], object_preds)
        # object_model.summary()


        subject_preds, object_preds = TotalLoss([2, 3])([
            subject_labels, object_labels, subject_preds, object_preds,
            bert.model.output
        ])

        # 训练模型
        self.train_model = Model(
            bert.model.inputs + [subject_labels, subject_ids, object_labels],
            [subject_preds, object_preds]
        )
        # AdamEMA = extend_with_exponential_moving_average(Adam, name='AdamEMA')
        # optimizer = AdamEMA(learning_rate=1e-5)
        optimizer = Adam(learning_rate=1e-4) # 去掉EMA并增大学习率 (学习率为1e-3时，loss第三轮就超过了36，为1e-5时欠拟合也严重)
        self.train_model.compile(optimizer=optimizer)

    def _extract_subject(self, inputs):
        """根据subject_ids从output中取出subject的向量表征
        """
        output, subject_ids = inputs
        start = batch_gather(output, subject_ids[:, :1])
        end = batch_gather(output, subject_ids[:, 1:])
        subject = K.concatenate([start, end], 2)
        return subject[:, 0]

模型保存说明：使用keras中模型保存和加载

# 方法1
# 保存结构、参数、优化器参数，可以使用keras.models的load_model()进行加载，并可继续进行训练
subject_model.save('best_subject_model.model') 
# 加载
from keras.models import load_model
my_model = load_model('best_subject_model.model')

# 方法2
# 只保存了模型参数而没有保存模型结构，它的保存格式是hdf5。
# 只能通过Model对象提供的load_weights()方法加载模型权重(加载之前要构建一模一样的模型，然后该方法将权重喂给各层), 它保存的数据不能用于继续训练模型。
subject_model.save_weights('best_subject_weight.weight') 
object_model.save_weights('best_oubject_weight.weight')
# 加载   事先构建一模一样的模型结构subject_model
subject_model.load_weights('best_subject_weight.weight')

2、基于DGCNN[CNN、Attention、BiLSTM]

参考代码：苏神解读
模块导入：

'''keras == 2.2.4
   tensorflow == 1.8.0
   python3.6.8'''
from keras.layers import *
from keras.models import Model
import keras.backend as K
from keras.callbacks import Callback
from keras.optimizers import Adam

数据标签处理过程：

模型结构：

你可能感兴趣的:(TensorFlow,python,知识图谱,tensorflow)

如何选择合适的后端技术栈？破碎的天堂鸟学习教程后端开发
选择合适的后端技术栈是构建高效、可靠和可扩展应用程序的关键步骤。以下是基于我搜索到的资料，详细说明如何科学地选择后端技术栈的建议：1.明确项目需求性能要求：根据项目的实时性、高并发处理能力以及数据处理需求，选择适合的技术栈。例如，Node.js适用于流式应用和实时交互，而Python则在数据分析和机器学习领域表现优异。功能需求：根据业务逻辑复杂度，选择支持所需功能的框架。例如，Django适合快速
留学生编程辅导Haskell/OCaml/Prolog/Rust/Python matlabgoodboy rust 开发语言后端
为留学生提供编程辅导涉及多种编程语言，包括Haskell、OCaml、Prolog、Rust和Python，这些语言各自具有独特的特性和应用场景。以下是对每种语言的简要介绍以及辅导建议：Haskell特性：纯函数式编程语言。强大的类型系统和惰性求值。适用于并发编程和数学计算。辅导建议：从基础语法开始，理解函数、变量和数据类型。学习Haskell的类型系统，特别是多态和类型类。通过解决简单的数学问题
【Python】已解决：ERROR: Could not find a version that satisfies the requirement cv2 (from versions: none) 屿小夏 python 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
.NET Aspire 百态老人 .net
.NETAspire是一个旨在简化.NET云原生服务开发的框架，由微软团队发布。它于2024年5月22日正式发布，在VisualStudio2022.17.10、.NETCLI或VisualStudioCode中均可使用。.NETAspire具有以下特点：首先，它是一个新的平台无关、语言无关的框架，虽支持多种编程语言和平台包括Java、PHP、Python、Node.js等，但主要聚焦于.NET云
python plt网格大负 python 开发语言
如何在Python中使用Matplotlib绘制带网格的图形在数据可视化的领域中，Matplotlib是Python中最常用的绘图库之一。网格线可以帮助读者更好地理解图表中的数据差异和趋势。本篇文章将指导您如何在使用Matplotlib绘制图形时添加网格线。接下来，我们将通过几个步骤来完成这个任务。流程概述以下是实现“Pythonplt网格”的整体流程：步骤说明1导入Matplotlib和其他必要
python中plt.plot()_python plt.plot()绘图 weixin_39953356
推荐用电脑绘图,如果是安卓手机,推荐应用汇--pydroid.#本文的命令都要调用的包包,#此外再次强调for条件要加冒号:回车后循环体要加四个空格importnumpyasnpimportmatplotlib.pyplotasplt一.plt.plot()参数篇#marker大全x=np.array([-1,0,1])y=np.array([-1,0,2])mk=.,ov^1234sp*hH+x
python openpyxl应用举例（集合法去重、random，split） kittykittyis python 开发语言
##0204集合法去重，添加标题、random.random()引入，split方法引入##importopenpyxlasvbimportosimportpandasaspdimportnumpyasnpimportrandomimportglobpath='c:/Users/Administrator/Desktop'data='三年级.xlsx'file=os.path.join(path,
青少年编程与数学 02-008 Pyhon语言编程基础 23课题、数据库操作明月看潮生编程与数学第02阶段青少年编程数据库 python 编程与数学编程语言
青少年编程与数学02-008Pyhon语言编程基础23课题、数据库操作一、访问数据库二、SQLServer使用pyodbc使用pymssql注意事项三、MySQL使用mysql-connector-python使用PyMySQL注意事项四、PostgreSQL1.安装`psycopg2`库2.连接到PostgreSQL数据库3.执行SQL查询4.插入、更新和删除数据5.关闭游标和连接6.异常处理五
Python分享10个Excel自动化脚本 mqwguardain python excel 自动化
在数据处理和分析的过程中，Excel文件是我们日常工作中常见的格式。通过Python，我们可以实现对Excel文件的各种自动化操作，提高工作效率。本文将再次分享10个实用的Excel自动化脚本，以帮助新手小白更轻松地掌握这些技能。1.Excel单元格批量填充importpandasaspd#批量填充指定列的单元格deffill_column(file_path,column_name,value)
python数据分析之matplotlib绘图 plt 的使用 OpenCv学堂视觉_Opencv
废话不多说，先上一张图:完整代码以及数据：https://download.csdn.net/download/bamboo265925/11548633（提供支持，公众号：海之鹰工作室）importosimportmathimportmatplotlib.pyplotaspltdefreadTxtShow(rootdir):withopen(rootdir,'r',encoding='utf-8
[Python]实现简单计时器应用 runepic Python python 开发语言
创建一个简单的计时器应用，使用Python的Tkinter库进行图形化界面设计。这个应用包括开始、暂停、重置等功能，可以设置一个倒计时并显示剩余时间。下面是代码实现的详细步骤。1.导入依赖库首先，导入tkinter用于图形界面的构建，并且使用time模块来处理计时。importtkinterastkfromtkinterimportmessageboximporttime2.创建主应用类将所有的逻
[python]使用 Pandas 分组和汇总表数据 runepic Python python pandas 开发语言
在数据分析中，数据的分组与汇总是非常常见的操作。下面使用Python的Pandas库来处理表数据，并生成汇总结果。导入数据首先，我们需要导入必要的库并读取Excel文件中的数据：importpandasaspd#读取工资表数据df=pd.read_excel('输入.xlsx')假设我们的表数据如下所示：姓名基础1基础2其他张三500020001000李四600025001200王五4500220
Django内置的ORM框架 ~春华秋实~ 测试知识大杂烩
Django中内嵌了ORM框架，ORM框架可以将类肯数据表进行对应起来只需要通过类和对象就可以对数据表进行操作。、设计类：models中设计模型类ORM宁外一个作用，根据设计的类生成数据库中的表数据库sqlite3：sudoapt-getinstallsqliteman1，生成迁移文件pythonmanage.pymakemigrations2，执行扦移生成表pythonmanage.pymigr
使用Python进行自动化测试：Behave与BDD的结合步入烟尘 python 开发语言
使用Python进行自动化测试：Behave与BDD的结合自动化测试是现代软件开发中不可或缺的一部分，它能够提高软件质量、加速开发周期并减少回归测试的成本。在Python领域，Behave作为一种行为驱动开发（BDD）工具，为开发人员提供了一种清晰、可读性强的方式来编写和执行测试用例。本文将介绍如何使用Python中的Behave库结合BDD来进行自动化测试，以及一些实际的代码示例。什么是BDD？
python的函数介绍心愿王 python 前端 javascript
一.定义和调用函数1.定义函数在Python中，使用def关键字来定义一个函数。函数可以包含参数，也可以包含返回值基本语法deffunction_name(parameters):"""docstring"""#Functionbodyreturnresultdefgreet(name):"""Thisfunctiongreetsthepersonpassedastheparameter."""r
基于Python的网络爬虫：天气数据爬取与可视化分析傅炯耘Shelley
基于Python的网络爬虫：天气数据爬取与可视化分析基于python爬取天气数据信息与可视化分析.zip项目地址:https://gitcode.com/open-source-toolkit/55ebe项目简介本项目是一个基于Python的网络爬虫课程大作业，旨在通过网络爬虫技术爬取天气数据，并利用Matplotlib和sk-learn等工具进行数据可视化分析。项目中包含了完整的代码实现、演示P
python按要求分割excel一列成两列 EaSoNgo111 excel python 开发语言
importopenpyxl#加载Excel文件workbook=openpyxl.load_workbook('example.xlsx')sheet=workbook.active#获取需要处理的列source_column=sheet['A']#定义输出列name_school_column=[]#循环遍历每个单元格forcellinsource_column:#分割姓名和学校parts=c
https://imgsa.baidu.com/forum/pic/item/...【贴吧图床】小黑LLB 杂项贴吧图床 python 爬虫诶改了标签没办法用颜表情了
参考链接隐藏图床之利用贴吧做图床-PHP版图床-百度百科什么是『图床』你们都用什么图床啊？使用Pythonrequestspost上传图片贴吧图床-小记目录1.这个链接是啥2.什么是图床3.利用贴吧做图床4.编程实现5.心得体会一、这个链接是啥↶之前逛B站的时候，看到有人在评论区放图，结果是一个链接，点进去就是一张动态图。？？？B站评论区可以发图的么。。。什么鬼后来，在查找资料的过程中，发现原来这
ImportError: urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the ‘ssl‘ module is compiled with D11_ ssl 服务器 linux
pycharm运行python项目发送request请求时报错ImportError:urllib3v2.0onlysupportsOpenSSL1.1.1+,currentlythe'ssl'moduleiscompiledwith。。。。。。。的错误这个错误是由于你的pycharm环境中的urib3库版本与ss!模块的OpenSSL版本不兼容导致的。urlib3v2.0版本只支持OpenSSL
[python]使用 Pandas 处理 Excel 数据：分割与展开列操作 runepic Python python pandas excel
在数据处理的过程中，时常需要对Excel表格中的数据进行清洗与转换，下面介绍使用Python中的Pandas库对Excel文件中的数据进行操作，具体包括分割列、展开数据、清除空格以及格式转换等操作。目标：读取一个没有表头的Excel文件。分割指定列的数据，并展开成多个行。清除空格，并按空格将列数据拆分成两列。删除原始列，保持数据格式整洁。保存处理后的数据到新的Excel文件。示例代码importp
Ansible在多台服务器上运行python脚本罗sir 99 ansible 服务器 python
使用Ansible在多台服务器上批量运行Python脚本是一种高效且可靠的方式。以下是具体的实现步骤和示例代码：---###1.准备工作-**安装Ansible**：确保您的Ansible控制节点已安装Ansible。如果没有安装，可以通过以下命令安装：```bashpipinstallansible```-**配置Inventory文件**：在Ansible控制节点上创建一个`hosts.ini
Python 实现 Ollama 提示词生成与优化系统老大白菜机器学习 python python 开发语言
1.基础环境配置importrequestsimportjsonfromtypingimportList,Dict,Optionalfromdataclassesimportdataclass@dataclassclassPromptContext:task:strdomain:strrequirements:List[str]classOllamaService:def__init__(self
简单爬虫的实现菜狗woc 爬虫 python 开发语言
简单爬虫的实现爬虫的简要介绍爬虫的简单实现运用python的库尝试向网页发送请求处理得到的数据爬虫的简要介绍爬虫就是在网络上通过伪装为用户从而从网站上下载数据的程序或者行为。这样的行为就好比你去别人家的时候带走了几个橘子袖中怀橘啦，合理的爬取是可以的（毕竟人家网站做着就是给人用的，但是不要耽误叔叔赚钱.jpg）爬虫的简单实现运用python的库在本次教程中我们使用了request库和beautif
简单的if判断（python）菜狗woc python
文章目录前言一、if判断介绍二、例子1.判断奇偶数总结前言简单介绍一下python中的if语句一、if判断介绍简单来说，if语句就是个闸口，通过判断条件来处理问题，使得主程序流向流向不同的方向。一般来说，if语句主要有以下几种：单分支，双分支，多分支，分支嵌套。二、例子1.判断奇偶数a=int(input("输入一个非负整数"))ifa%2==0print("偶数")这就是一个简单的单分支判断语句
使用python实现Hadoop中MapReduce qq_44801116 Python python hadoop mapreduce
Hadoop包含HDFS(分布式文件系统)、YARN（资源管理器）、MapReduce（编程模型）。一、三大组件的简介（1）HDFS（HadoopDistributedFileSystem）：HDFS是Hadoop的分布式文件系统，它是将大规模数据分散存储在多个节点上的基础。主要负责数据的存储和管理，可以将大数据集分成多个数据块，并将数据块分配到不同的计算节点上存储，提高数据的可靠性和处理效率。旨
python的dict和set Akzeptieren 我的Python笔记 python
python的dict和setdictPython字典：dict，使用键-值对（key-value）存储数据，具有较快的查找速度。举个例子，假设要根据一个人的的名字查找对应的对应的数据，如果用list实现，需要两个list：names=['张三','李四','王五']scores=[88,78,89]我们寻找对应的人的成绩，就先要在names中找到对应的位置，再从scores取出对应的成绩，数据越
【大数据技术】编写Python代码实现词频统计（python+hadoop+mapreduce+yarn） Want595 Python大数据采集与分析大数据 python hadoop
编写Python代码实现词频统计（python+hadoop+mapreduce+yarn）搭建完全分布式高可用大数据集群（VMware+CentOS+FinalShell）搭建完全分布式高可用大数据集群（Hadoop+MapReduce+Yarn）本机PyCharm连接CentOS虚拟机在阅读本文前，请确保已经阅读过以上三篇文章，成功搭建了Hadoop+MapReduce+Yarn+Python
Python的循环 Akzeptieren 我的Python笔记 python 开发语言
Python的循环Python的循环有两种，分别是for…in循环和while循环。for…in循环假设我们要循环输出一个列表里的元素：names=['张三','李四','王五']fornameinnames:print(name)执行这段代码后，会依次打印names的每一个元素：张三李四王五所以forxin...循环就是把每个元素代入变量x，然后执行后面的语句。while循环只要条件满足，就不断
【附源码】基于flask框架民宿后台管理系统的设计与实现 (python+mysql+论文) 海彤程序设计 python flask mysql
本系统（程序+源码）带文档lw万字以上文末可获取本课题的源码和程序系统程序文件列表系统的选题背景和意义选题背景：随着旅游业的迅猛发展，民宿作为一种新型的住宿方式，越来越受到人们的欢迎。民宿不仅提供了传统酒店无法比拟的个性化和温馨的家庭氛围，还为旅客提供了更加深入当地文化的体验。然而，伴随着民宿市场的快速扩张，管理上的复杂性也随之增加。对于民宿经营者来说，如何有效地管理客房预订、客户信息、房态更新、
python各个模块以及学习文档链接 Perhaps# Python python 正则表达式爬虫
Python_base一、python模块二、其他链接一、python模块名称来源用途类别链接os标准库文件和路径操作基础类https://docs.python.org/zh-cn/3/library/os.html#sys标准库系统和环境基础类https://docs.python.org/3/library/sys.htmltime标准库有关时间操作基础类https://docs.pytho
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi