AI科技大本营

用Bi-GRU语义解析，实现中文人物关系分析

作者 | 李秋键责编 | Carol 封图 | 区块链大本营（blockchain_camp）

语义解析作为自然语言处理的重要方面，其主要作用如下：在词的层次上，语义分析的基本任务是进行词义消歧；在句子层面上，语义角色标注是所关心的问题；在文章层次上，指代消解、篇章语义分析是重点。

而实体识别和关系抽取是构建知识图谱等上层自然语言处理应用的基础。关系抽取可以简单理解为一个分类问题：给定两个实体和两个实体共同出现的句子文本，判别两个实体之间的关系。

使用CNN或者双向RNN加Attention的深度学习方法被认为是现在关系抽取state of art的解决方案。已有的文献和代码，大都是针对英文语料，使用词向量作为输入进行训练。这里以实践为目的，介绍一个用双向GRU、字与句子的双重Attention模型，以天然适配中文特性的字向量(characterembedding)作为输入，网络爬取数据作为训练语料构建的中文关系抽取模型。代码主要是基于清华的开源项目thunlp/TensorFlow-NRE开发，其中效果如下：

实验前的准备

首先，我们使用的python版本是3.6.5所用到的模块如下：

tensorflow模块：用来创建整个模型训练和保存调用以及网络的搭建框架等等。

numpy模块：用来处理数据矩阵运算。

Sklearn模块：是一些机器学习算法的集成模块。

模型的网络搭建

其中模型的网络图如下：

双向GRU加字级别attention的模型想法来自文章 “Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification” [Zhou et al.,2016]。这里将原文的模型结构中的LSTM改为GRU，且对句子中的每一个中文字符输入为character embedding。这样的模型对每一个句子输入做训练，加入字级别的attention。

句子级别attention的想法来自文章 “Neural Relation Extraction with Selective Attention over Instances” [Lin et al.,2016]。原文模型结构图如下，这里将其中对每个句子进行encoding的CNN模块换成上面的双向GRU模型。这样的模型对每一种类别的句子输入做共同训练，加入句子级别的attention。

建立network.py文件，定义词向量大小、步数、类别数等等：

def __init__(self):
    self.vocab_size = 16691
    self.num_steps = 70
    self.num_epochs = 10
    self.num_classes = 12
    self.gru_size = 230
    self.keep_prob = 0.5
    self.num_layers = 1
    self.pos_size = 5
    self.pos_num = 123
    # the number of entity pairs of each batch during training or testing
    self.big_num = 50

然后建立GRU网络。按照所给出的网络模型图，定义出网络基本框架作为具体参数的调用：

def __init__(self, is_training, word_embeddings, settings):
    self.num_steps = num_steps = settings.num_steps
    self.vocab_size = vocab_size = settings.vocab_size
    self.num_classes = num_classes = settings.num_classes
    self.gru_size = gru_size = settings.gru_size
    self.big_num = big_num = settings.big_num
    self.input_word = tf.placeholder(dtype=tf.int32, shape=[None, num_steps], name='input_word')
    self.input_pos1 = tf.placeholder(dtype=tf.int32, shape=[None, num_steps], name='input_pos1')
    self.input_pos2 = tf.placeholder(dtype=tf.int32, shape=[None, num_steps], name='input_pos2')
    self.input_y = tf.placeholder(dtype=tf.float32, shape=[None, num_classes], name='input_y')
    self.total_shape = tf.placeholder(dtype=tf.int32, shape=[big_num + 1], name='total_shape')
    total_num = self.total_shape[-1]
    word_embedding = tf.get_variable(initializer=word_embeddings, name='word_embedding')
    pos1_embedding = tf.get_variable('pos1_embedding', [settings.pos_num, settings.pos_size])
    pos2_embedding = tf.get_variable('pos2_embedding', [settings.pos_num, settings.pos_size])
    attention_w = tf.get_variable('attention_omega', [gru_size, 1])
    sen_a = tf.get_variable('attention_A', [gru_size])
    sen_r = tf.get_variable('query_r', [gru_size, 1])
    relation_embedding = tf.get_variable('relation_embedding', [self.num_classes, gru_size])
    sen_d = tf.get_variable('bias_d', [self.num_classes])
    gru_cell_forward = tf.contrib.rnn.GRUCell(gru_size)
    gru_cell_backward = tf.contrib.rnn.GRUCell(gru_size)
    if is_training and settings.keep_prob < 1:
        gru_cell_forward = tf.contrib.rnn.DropoutWrapper(gru_cell_forward, output_keep_prob=settings.keep_prob)
        gru_cell_backward = tf.contrib.rnn.DropoutWrapper(gru_cell_backward, output_keep_prob=settings.keep_prob)
    cell_forward = tf.contrib.rnn.MultiRNNCell([gru_cell_forward] * settings.num_layers)
    cell_backward = tf.contrib.rnn.MultiRNNCell([gru_cell_backward] * settings.num_layers)
    sen_repre = []
    sen_alpha = []
    sen_s = []
    sen_out = []
    self.prob = []
    self.predictions = []
    self.loss = []
    self.accuracy = []
    self.total_loss = 0.0
    self._initial_state_forward = cell_forward.zero_state(total_num, tf.float32)
    self._initial_state_backward = cell_backward.zero_state(total_num, tf.float32)
    # embedding layer
    inputs_forward = tf.concat(axis=2, values=[tf.nn.embedding_lookup(word_embedding, self.input_word),
                                               tf.nn.embedding_lookup(pos1_embedding, self.input_pos1),
                                               tf.nn.embedding_lookup(pos2_embedding, self.input_pos2)])
    inputs_backward = tf.concat(axis=2,
                                values=[tf.nn.embedding_lookup(word_embedding, tf.reverse(self.input_word, [1])),
                                        tf.nn.embedding_lookup(pos1_embedding, tf.reverse(self.input_pos1, [1])),
                                        tf.nn.embedding_lookup(pos2_embedding,
                                                               tf.reverse(self.input_pos2, [1]))])
    outputs_forward = []
    state_forward = self._initial_state_forward
    # Bi-GRU layer
    with tf.variable_scope('GRU_FORWARD') as scope:
        for step in range(num_steps):
            if step > 0:
                scope.reuse_variables()
            (cell_output_forward, state_forward) = cell_forward(inputs_forward[:, step, :], state_forward)
            outputs_forward.append(cell_output_forward)
    outputs_backward = []
    state_backward = self._initial_state_backward
    with tf.variable_scope('GRU_BACKWARD') as scope:
        for step in range(num_steps):
            if step > 0:
                scope.reuse_variables()
            (cell_output_backward, state_backward) = cell_backward(inputs_backward[:, step, :], state_backward)
            outputs_backward.append(cell_output_backward)
    output_forward = tf.reshape(tf.concat(axis=1, values=outputs_forward), [total_num, num_steps, gru_size])
    output_backward = tf.reverse(
        tf.reshape(tf.concat(axis=1, values=outputs_backward), [total_num, num_steps, gru_size]), [1])
    # word-level attention layer
    output_h = tf.add(output_forward, output_backward)
    attention_r = tf.reshape(tf.matmul(tf.reshape(tf.nn.softmax(
        tf.reshape(tf.matmul(tf.reshape(tf.tanh(output_h), [total_num * num_steps, gru_size]), attention_w),
                   [total_num, num_steps])), [total_num, 1, num_steps]), output_h), [total_num, gru_size])

模型的训练和使用

其中用来训练的语料获取，由于中文关系抽取的公开语料比较少。我们从distant supervision的方法中获取灵感，希望可以首先找到具有确定关系的实体对，然后再去获取该实体对共同出现的语句作为正样本。负样本则从实体库中随机产生没有关系的实体对，再去获取这样实体对共同出现的语句。

对于具有确定关系的实体对，我们从复旦知识工厂得到，感谢他们提供的免费API！一个小问题是，相同的关系label在复旦知识工厂中可能对应着不同的标注，比如“夫妻”，抓取到的数据里有的是“丈夫”，有的是“妻子”，有的是“伉俪”等等，需要手动对齐。

（1）模型的训练：

建立train_GRU文件，通过训练已经经过处理后得到的npy文件进行训练。

其中训练的数据如下：

代码如下：

def main(_):
    # the path to save models
    save_path = './model/'
    print('reading wordembedding')
    wordembedding = np.load('./data/vec.npy')
    print('reading training data')
    train_y = np.load('./data/train_y.npy')
    train_word = np.load('./data/train_word.npy')
    train_pos1 = np.load('./data/train_pos1.npy')
    train_pos2 = np.load('./data/train_pos2.npy')
    settings = network.Settings()
    settings.vocab_size = len(wordembedding)
    settings.num_classes = len(train_y[0])
    big_num = settings.big_num
    with tf.Graph().as_default():
        sess = tf.Session()
        with sess.as_default():
            initializer = tf.contrib.layers.xavier_initializer()
            with tf.variable_scope("model", reuse=None, initializer=initializer):
                m = network.GRU(is_training=True, word_embeddings=wordembedding, settings=settings)
            global_step = tf.Variable(0, name="global_step", trainable=False)
            optimizer = tf.train.AdamOptimizer(0.0005)
            train_op = optimizer.minimize(m.final_loss, global_step=global_step)
            sess.run(tf.global_variables_initializer())
            saver = tf.train.Saver(max_to_keep=None)
            merged_summary = tf.summary.merge_all()
            summary_writer = tf.summary.FileWriter(FLAGS.summary_dir + '/train_loss', sess.graph)
            def train_step(word_batch, pos1_batch, pos2_batch, y_batch, big_num):
                feed_dict = {}
                total_shape = []
                total_num = 0
                total_word = []
                total_pos1 = []
                total_pos2 = []
                for i in range(len(word_batch)):
                    total_shape.append(total_num)
                    total_num += len(word_batch[i])
                    for word in word_batch[i]:
                        total_word.append(word)
                    for pos1 in pos1_batch[i]:
                        total_pos1.append(pos1)
                    for pos2 in pos2_batch[i]:
                        total_pos2.append(pos2)
                total_shape.append(total_num)
                total_shape = np.array(total_shape)
                total_word = np.array(total_word)
                total_pos1 = np.array(total_pos1)
                total_pos2 = np.array(total_pos2)
                feed_dict[m.total_shape] = total_shape
                feed_dict[m.input_word] = total_word
                feed_dict[m.input_pos1] = total_pos1
                feed_dict[m.input_pos2] = total_pos2
                feed_dict[m.input_y] = y_batch
                temp, step, loss, accuracy, summary, l2_loss, final_loss = sess.run(
                    [train_op, global_step, m.total_loss, m.accuracy, merged_summary, m.l2_loss, m.final_loss],
                    feed_dict)
                time_str = datetime.datetime.now().isoformat()
                accuracy = np.reshape(np.array(accuracy), (big_num))
                acc = np.mean(accuracy)
                summary_writer.add_summary(summary, step)
                if step % 50 == 0:
                    tempstr = "{}: step {}, softmax_loss {:g}, acc {:g}".format(time_str, step, loss, acc)
                    print(tempstr)
            for one_epoch in range(settings.num_epochs):
                temp_order = list(range(len(train_word)))
                np.random.shuffle(temp_order)
                for i in range(int(len(temp_order) / float(settings.big_num))):
                    temp_word = []
                    temp_pos1 = []
                    temp_pos2 = []
                    temp_y = []
                    temp_input = temp_order[i * settings.big_num:(i + 1) * settings.big_num]
                    for k in temp_input:
                        temp_word.append(train_word[k])
                        temp_pos1.append(train_pos1[k])
                        temp_pos2.append(train_pos2[k])
                        temp_y.append(train_y[k])
                    num = 0
                    for single_word in temp_word:
                        num += len(single_word)
                    if num > 1500:
                        print('out of range')
                        continue
                    temp_word = np.array(temp_word)
                    temp_pos1 = np.array(temp_pos1)
                    temp_pos2 = np.array(temp_pos2)
                    temp_y = np.array(temp_y)
                    train_step(temp_word, temp_pos1, temp_pos2, temp_y, settings.big_num)
                    current_step = tf.train.global_step(sess, global_step)
                    if current_step > 8000 and current_step % 100 == 0:
                        print('saving model')
                        path = saver.save(sess, save_path + 'ATT_GRU_model', global_step=current_step)
                        tempstr = 'have saved model to ' + path
                        print(tempstr)

训练过程：

（2）模型的测试：

其中得到训练后的模型如下：

while True:
    #try:
        #BUG: Encoding error if user input directly from command line.
        line = input('请输入中文句子，格式为 "name1 name2 sentence":')
        #Read file from test file
        '''
        infile = open('test.txt', encoding='utf-8')
        line = ''
        for orgline in infile:
            line = orgline.strip()
            break
        infile.close()
        '''
        en1, en2, sentence = line.strip().split()
        print("实体1: " + en1)
        print("实体2: " + en2)
        print(sentence)
        relation = 0
        en1pos = sentence.find(en1)
        if en1pos == -1:
            en1pos = 0
        en2pos = sentence.find(en2)
        if en2pos == -1:
            en2post = 0
        output = []
        # length of sentence is 70
        fixlen = 70
        # max length of position embedding is 60 (-60~+60)
        maxlen = 60
        #Encoding test x
        for i in range(fixlen):
            word = word2id['BLANK']
            rel_e1 = pos_embed(i - en1pos)
            rel_e2 = pos_embed(i - en2pos)
            output.append([word, rel_e1, rel_e2])
        for i in range(min(fixlen, len(sentence))):
            word = 0
            if sentence[i] not in word2id:
                #print(sentence[i])
                #print('==')
                word = word2id['UNK']
                #print(word)
            else:
                #print(sentence[i])
                #print('||')
                word = word2id[sentence[i]]
                #print(word)
            output[i][0] = word
        test_x = []
        test_x.append([output])
        #Encoding test y
        label = [0 for i in range(len(relation2id))]
        label[0] = 1
        test_y = []
        test_y.append(label)
        test_x = np.array(test_x)
        test_y = np.array(test_y)
        test_word = []
        test_pos1 = []
        test_pos2 = []
        for i in range(len(test_x)):
            word = []
            pos1 = []
            pos2 = []
            for j in test_x[i]:
                temp_word = []
                temp_pos1 = []
                temp_pos2 = []
                for k in j:
                    temp_word.append(k[0])
                    temp_pos1.append(k[1])
                    temp_pos2.append(k[2])
                word.append(temp_word)
                pos1.append(temp_pos1)
                pos2.append(temp_pos2)
            test_word.append(word)
            test_pos1.append(pos1)
            test_pos2.append(pos2)
        test_word = np.array(test_word)
        test_pos1 = np.array(test_pos1)
        test_pos2 = np.array(test_pos2)
         prob, accuracy = test_step(test_word, test_pos1, test_pos2, test_y)
        prob = np.reshape(np.array(prob), (1, test_settings.num_classes))[0]
        print("关系是:")
        #print(prob)
        top3_id = prob.argsort()[-3:][::-1]
        for n, rel_id in enumerate(top3_id):
            print("No." + str(n+1) + ": " + id2relation[rel_id] + ", Probability is " + str(prob[rel_id]))

完整代码：

链接：https://pan.baidu.com/s/1aY2WOAw9lgG_1I2rk_EPKw

提取码：noyv

   
    作者介绍：

李秋键，CSDN 博客专家，CSDN达人课作者。硕士在读于中国矿业大学，开发有taptap安卓武侠游戏一部，vip视频解析，文意转换工具，写作机器人等项目，发表论文若干，多次高数竞赛获奖等等。

    
     推荐阅读

python里class转换_python实现class对象转换成json/字典的方法八决子 python里class转换
python实现class对象转换成json/字典的方法发布于2016-03-2808:05:44|153次阅读|评论:0|来源:网友投递Python编程语言Python是一种面向对象、解释型计算机程序设计语言，由GuidovanRossum于1989年底发明，第一个公开发行版发行于1991年。Python语法简洁而清晰，具有丰富和强大的类库。它常被昵称为胶水语言，它能够把用其他语言制作的各种模块
时序数据库 Apache-IoTDB 源码解析之系统架构（二） zhoumouren88 技术
上一章聊到时序数据是什么样，物联网行业中的时序数据的特点：存量数据大、新增数据多（采集频率高、设备量多）。详情请见：时序数据库Apache-IoTDB源码解析之前言（一）打一波广告，欢迎大家访问IoTDB仓库，求一波Star。这一章主要想聊一聊：物联网行业的基本系统架构，及使用数据库遇到的需求与挑战IoTDB的功能特点及系统架构车联网因为本人是在做车联网行业，所以对这个行业的信息了解更深入一些，能
Class10代码实现 Morning的呀深度学习 python 深度学习 pytorch
Class10代码实现importtorchfromtorchimportnnfromd2limporttorchasd2l#定义丢弃法函数#X:输入张量#dropout:丢弃概率(0~1)defdropout_layer(X,dropout):#丢弃概率在0-1之间assert0dropout:对每个位置判断是否保留#float():将布尔类型转换为浮点类型mask=(torch.rand(X.
05/09先秦小记·真实的禅让制开心果子
昨天写到通过黄帝战蚩尤的故事，捋顺了三皇五帝的关系，三皇五帝的统治时期才是家天下真正的开始。今天我们来看看尧、舜、禹的禅让制。尧是帝喾之子，帝喾是黄帝的曾孙。舜是黄帝的八世孙，还娶了尧的女儿娥皇和女英。禹是黄帝的玄孙，颛顼的孙子，帝喾是颛顼的侄子。当然在上古时代，一颗族群部落，随着几代人的繁衍，必然是相互之间都有血缘关系。那为什么没有人定义为家天下，而是禅让制呢？当时的部落首领也确实是有德者居之，
2019-02-25 笑傲江湖201710
图片发自App图片发自App图片发自App我了解死亡的过程并不是想去死亡，而是了解下死亡是什么样子的，怎么死去的。二氧化碳中毒属于化学死亡，也是科学死亡的一种，上吊缢死则属于物理死亡了，因为尸体和物体有所接触。所有的死亡都是有原因的，真相只有一个。也就是说所有的事情都是因果关系，并不存在什么特殊的外力，如果有也不会被现如今的人们所接纳。现实生活中中的我们的课本和书本都是无神论的观点，我们所接收到的
“心”诚则“灵”（二）玄奇
把“心”和“灵”这两个字结合起来，就提炼出四个关键词：运动性、循环性、目标性、仪式性。“心诚”就是专注于一件事情的本身，而专注的关键点就是这四个关键词——第一，运行性，用发展的眼光看待问题，与时俱进；第二，循环性，人要需要持续地吸收养分，并不断地把吸收来的养分持续地转化为行动和力量，目的是要达到一个目标性；第三、目的性，不忘初心；第四，仪式性，表达的是一个人的虔诚。心诚就是专注，专注就是符合四个关
晚间黄金分析青色信物
2021年2月4日（周四）黄金TD行情分析：黄金TD方面，日内黄金整体是震荡行情，最高测试381附近，最低测试377.15附近，止损上方黄金多单小幅度获利；日线方面收取一根实体大阴柱，布林呈现向下运行发展，MACD死叉持续放量，上方关注承压点385附近，下方支撑377；4小时线方面收取一根实体阳柱，布林向下开口发展，MACD死叉形成并递增放量，上方关注384附近；下方支撑位378；小时线方面收取一
快速排序Java代码简洁实现 SKY技术修炼指南算法
学习过数据结构的同学们都知道，快速排序算法是一种时间复杂度为O(nlogn)的排序算法，在各种排序算法中算是较为高效的方法，企业面试中也经常有手撕快排的环节。本文将阐述算法的基本思想，并用Java代码的形式实现快速排序代码。算法思想快速排序主要采用分治的基本思想，每次将一个位置上的数据归位，此时该数左边的所有数据都比该数小，右边所有的数据都比该数大，然后递归将已归位的数据左右两边再次进行快排，从而
为什么越长大就会越觉得时间过得很快呢？微光_呀
为什么越长大越觉得时间过得很快呢？这是怎么回事？长大之后，感觉时间过得越来越快，一年一眨眼就过去了，但是小时候却没有这样的感觉？有人来分析一下这一现象吗？
Android Gson复杂数据结构（如Map、List）的序列化逻辑原理剖析
一、复杂数据结构序列化概述1.1复杂数据结构处理的重要性在Android开发中，JSON数据往往包含复杂数据结构，如Map、List等。Gson作为常用的JSON处理库，其对复杂数据结构的序列化能力至关重要。准确处理这些结构能确保数据在网络传输、本地存储等场景下保持完整的语义和结构，避免数据丢失或格式错乱。1.2核心处理流程Gson对复杂数据结构的序列化主要包含以下步骤：类型识别：确定待序列化对象
深入理解 UniApp：跨平台开发的终极解决方案
深入理解UniApp：跨平台开发的终极解决方案一、UniApp概述：重新定义跨平台开发（一）UniApp的诞生背景在移动互联网高速发展的今天，多端适配成为开发者面临的主要挑战。传统开发模式下，针对iOS、Android、微信小程序、H5等不同平台需要编写多套代码，开发成本高且维护困难。DCloud公司于2019年推出的UniApp，正是为了解决这一行业痛点而生。它基于Vue.js语法规范，实现了"
所有的好运气，都藏在背后的努力里孟小悦
生活中，看到别人光鲜亮丽的一面时，我们往往都会觉得那只不过是别人运气好。殊不知，所有的好运气，都藏在背后的努力里。朋友昕昕，入职三年了，在工作中，一直受到领导的器重和同事的喜欢。有一次我问她：“为什么领导总是很器重你？”她说：“我其实也没有什么秘诀，平日里努力的工作，用真情和真心去服务客户和同事，所以，领导总是很器重我，同事也都喜欢我。”真情和真心这几个字，说起来很容易，但大多数人往往都做不到。平
如何防止重复提交订单？天天摸鱼的java工程师 java
如何防止重复提交订单？作者：Java后端开发工程师一、背景介绍：为什么会产生重复提交？在电商平台中，用户提交订单是一个非常敏感的动作。这通常涉及：库存扣减优惠券核销支付下单消息发送但用户总喜欢：点两次“提交订单”按钮网络卡顿时刷新页面使用浏览器回退再次提交结果就是：重复提交订单，造成资源浪费，甚至业务损失！二、问题分析：重复提交的常见场景场景示例用户行为多次点击按钮、浏览器刷新接口幂等性差接口无幂
如何设计一个高并发短链接服务（如 bit.ly）？天天摸鱼的java工程师 java
如何设计一个高并发短链接服务（如bit.ly）？引言：在社交媒体营销、短信推广等场景中，短链接服务已成为互联网基础设施的关键组件。全球每天有数十亿短链接被创建，如Bitly、TinyURL等服务每天处理数十亿请求。作为一名拥有8年经验的Java架构师，我曾主导设计过日处理千万级短链接的系统。今天我将从原理到实现，深度解析如何构建一个高性能、高可用、可扩展的短链接服务。一、业务场景与技术挑战1.1核
七年老码农掏心窝：你踩过的 ThreadLocal 坑，我替你填了 3 遍天天摸鱼的java工程师 java 开发语言
工作一年踩坑记：我终于搞懂了ThreadLocal这玩意儿大家好，我是那个在多线程坑里摸爬滚打了七年的菜鸡程序员。上周写接口时遇到个诡异问题：两个线程同时操作一个日期格式化工具类，结果返回的时间居然串了！老员工丢给我一句“用ThreadLocal啊”，当时我心里直犯嘀咕：这玩意儿听起来像“线程本地变量”，但到底怎么用？为啥能解决线程安全？今天就把我啃源码、查资料、踩坑无数的心得掰碎了讲，咱用人话聊
【深度学习】softmax 回归的从零开始实现与简洁实现 Douglassssssss 深度学习深度学习回归人工智能 softmax回归交叉熵损失函数
前言小时候听过一个小孩练琴的故事，老师让他先弹最简单的第一小节，小孩练了两天后弹不出。接着，老师让他直接去练更难的第二小节，小孩练习了几天后还是弹不出，开始感觉到挫败和烦躁了。小孩以为老师之后会让他从简单的开始练，谁知老师直接让他开始练最难的一小节。小孩不干了，问老师是不是故意刁难他。老师笑笑，让他现在弹弹第一小节试试。神奇的是，小孩竟然发现自己已经能完整弹出来了。这有点像我现在的学习状况，前些天
时序数据库IoTDB好不好？时序数据说时序数据库数据库 iotdb 物联网开源
时序数据库IoTDB（InternetofThingsDatabase）是专为物联网场景设计的一款开源时序数据库系统，由清华大学团队开发并贡献给Apache基金会。经过多年发展，IoTDB已经在工业物联网、车联网、能源电力等多个领域得到广泛应用。那么IoTDB究竟好不好？下面我将从几个核心优势来分析。一、专为物联网优化的存储架构分层存储设计：IoTDB采用"内存缓冲区+磁盘文件+分布式存储"的分层
如何设计一个社交平台的关注/粉丝系统？一位8年Java开发者的架构心路天天摸鱼的java工程师 java 架构开发语言
如何设计一个社交平台的关注/粉丝系统？——一位8年Java开发者的架构心路当你的社交平台面临百万用户实时互动，如何确保关注操作毫秒级响应？如何保证粉丝列表的实时性和一致性？这个看似基础的功能背后，隐藏着读写扩散、数据一致性、热点用户等架构难题。本文将带你从业务模型到代码落地，构建一个支撑千万级关系的社交系统。一、业务场景与核心挑战典型关注业务流程：未关注已关注用户A关注用户B关系检查写入关注关系更
正念助你快乐工作幽兰茶屋
一、面对越来越重的工作压力，我们该怎么办？前段时间，非常著名的“996”工作时间引起了社会上的广泛热议，一周工作6天，每天早9点到晚9点。公司用延长工作时间的方式，希望员工能多付出一些努力，创造更大的价值。可是不断加重的工作量，延长的工作时间，员工就真的能创造比以前更多的价值吗？我们也听过很多因为工作压力，猝死在工作岗位上，跳楼的，结束自己生命的，每一年都有很多。如果再提倡延长工作时间，会不会有更
深入理解 SemaphoreSlim 在.NET Core API 开发中的应用爱吃香蕉的阿豪 .net core SemaphoreSlim 线程并发控制
目录什么是SemaphoreSlimSemaphoreSlim的核心方法构造函数等待方法释放方法基本使用模式同步使用模式异步使用模式（推荐在API中使用）在Web开发中的常见用途1.限制API接口的并发请求数2.保护共享资源的并发访问3.控制外部服务的调用频率4.实现分布式锁的本地补充注意事项与最佳实践1.确保正确释放信号量2.合理设置信号量的生命周期3.避免过度限制并发4.注意异步操作中的取消机
解密 Python 的 MRO：C3 线性化如何优雅解决多重继承的菱形难题》
《解密Python的MRO：C3线性化如何优雅解决多重继承的菱形难题》引言：继承的优雅与复杂在Python的面向对象编程中，继承是一种强大的机制，它让我们能够复用代码、构建抽象层次、实现多态行为。然而，当我们引入多重继承时，继承体系的复杂性也随之而来，尤其是著名的“菱形继承问题”。Python通过一种称为C3线性化（C3Linearization）的算法来解决方法解析顺序（MethodResolu
2021-3-24回忆录超超姐
重要的三件事：1《羊皮卷启示录》的阅读2房树人读心术特训营的集体分析3姑姑生病住院，做力所能及的支持第二卷《羊皮卷启示录》是在妈妈不烦的直播里，被主播口里津津乐道推荐的一本书。因为主播说读了这本书第一遍，你只觉得它很励志，但坚持读半年后，你会收获不一样的自己。因为无论从心智还是思维上，它都给人以启发和思考。所以我在微信读书上找到了这本书，并购买了纸质版的，我想通过对这本书的阅读，启发心智，成长自己
微服务之间有哪些调用方式？娄艺潇微服务架构云原生
随着微服务架构的广泛应用，服务之间的通信方式成为了系统设计中的重要一环。微服务的核心理念是将系统拆分为多个独立的服务，每个服务负责特定的业务功能。为了实现这些服务之间的协作，通信方式的选择至关重要。微服务之间的通信方式主要分为两大类：同步通信：服务之间直接调用，通常需要立即返回结果。异步通信：服务之间通过消息队列等中间件进行通信，调用方无需等待结果。一、同步通信：实时交互，强依赖场景1.HTTP/
ASP.NET Core MVC Redis 缓存应用郑小晨 .NET Redis ASP.NET Core 缓存
环境：ASP.NETCoreMVC，Redis-Win-x64-3.2.100本文介绍在ASP.NETCoreMVC中怎么用Redis缓存数据。1、启动Redis服务器，就是让我们的Redis跑起来，具体参照https://blog.csdn.net/u012835032/article/details/115438693。2、要在ASP.NETCoreMVC中用Redis需要做什么？参考http
男孩女孩的差异与社会地位分层王孟姐姐
图片发自App《红楼梦》里贾宝玉有一段关于男人女人的言论，说女人像水做的，男人是泥做的。用这种比喻看如今教育中男孩女孩的差异，居然这样吻合。水女孩和泥男孩放在学校大容器中，用考试这一神奇的玻璃棒用力搅拌混合，所有的孩子随着搅拌高速运转，直到数年之后，义务教育结束，意味着第一次搅拌停止。在高速运转结束后，所有的孩子会自然分层。女孩像清水，浮在表面，男孩像浊泥，沉于底层，出现第一次淘汰，以男孩居多的一
云平台健康检查全攻略：从入门到精通 AI云原生与云计算技术学院 AI云原生与云计算 ai
云平台健康检查全攻略：从入门到精通关键词：云平台、健康检查、监控指标、自动化运维、高可用性、故障诊断、性能优化摘要：本文全面解析云平台健康检查的核心技术与实践方法。从基础概念到高级应用，详细讲解健康检查的原理、实现方式和最佳实践。内容包括监控指标体系设计、自动化检查工具开发、常见故障诊断方法以及性能优化策略。通过实际案例和代码演示，帮助读者掌握构建健壮云平台的关键技术，提升系统可靠性和运维效率。1
放手爱吧，哪怕只有一天 Ahomelesskitten
在家里闲来无事，看了《beforesunrise》和《beforesunset》。两部电影的主演，导演，编剧都是同一批人，拍摄时间却相隔九年。电影的中文翻译时《爱在黎明破晓前》和《爱在落日余辉时》。中文的意境很悠远，一语道破，使原本稀松平常的片名有了别致的感觉。beforesunrise，beforesunset爱在黎明破晓前，爱在落日余辉时1995年，2004年。1995年的一个傍晚，列车上，他
主力洗盘未成功行情继续上行，今日数字币行情分析及走势如烟如金
据TokenInsight数据显示，反映区块链行业整体表现的TI指数北京时间03月27日8时报381.29点，较昨日同期上涨1.43点，涨幅为0.38%。据监测显示，BTC活跃地址数较前日下降3.62%，转账数较前日上升38.62%。BCtrend分析师Jeffrey认为，IEO带动市场活跃度上升，BTC转账数也随之同步上行，短期BTC或将延续升势。另据BitUniverse量化分析，VIA、RE
安享现在，品味生命観海廳世界
图片发自App一个人在森林中漫游时，突然遇见了一只饥饿的老虎，老虎大吼一声就扑了上来。他立刻用最快的速度逃开，但是老虎紧追不舍，他一直跑一直跑，最后被老虎逼到了断崖边。站在悬崖边上，他想：“与其被老虎捉到，活活被咬死，还不如跳入悬崖，说不定还有一线生机。”他纵身跳入悬崖，非常幸运地卡在一棵树上。那是长在断崖边的梅树，树上结满了梅子。正在庆幸之时，他听到断崖深处传来巨大的吼声，往崖底望去，原来有一只
（二十三）Java反射机制深度解析：原理、应用与最佳实践 MeyrlNotFound JAVA 开发语言 java
一、反射机制概述1.1什么是反射机制Java反射机制（Reflection）是Java语言中一种强大的内省（introspection）能力，它允许程序在运行时（runtime）获取类的内部信息，并能直接操作类或对象的内部属性及方法。这种"动态性"使得Java程序可以突破编译时的限制，实现许多灵活的功能。反射的核心思想是：在运行时而非编译时获取类型信息并执行操作。这与传统的静态编程形成鲜明对比，在
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

用Bi-GRU语义解析，实现中文人物关系分析

实验前的准备

模型的训练和使用

（1） 模型的训练：

（2） 模型的测试：

你可能感兴趣的:(用Bi-GRU语义解析，实现中文人物关系分析)

（1）模型的训练：

（2）模型的测试：