li123128

无所不能的Embedding 1 - Word2vec模型详解&代码实现

word2vec是google 2013年提出的，从大规模语料中训练词向量的模型，在许多场景中都有应用，信息提取相似度计算等等。也是从word2vec开始，embedding在各个领域的应用开始流行，所以拿word2vec来作为开篇再合适不过了。本文希望可以较全面的给出Word2vec从模型结构概述，推导，训练，和基于tf.estimator实现的具体细节。完整代码戳这里https://github.com/DSXiangLi/Embedding

模型概述

word2vec模型结构比较简单，是为了能够在大规模数据上训练，降低了模型复杂度，移除了非线性隐藏层。根据不同的输入输出形式又分成CBOW和SG两种方法。

让我们先把问题简化成1v1的bigram问题，单词i作为context,单词j是target。V是单词总数，N是词向量长度，D是训练词对，输入xi∈R1∗Vxi∈R1∗V是one-hot向量。

模型训练两个权重矩阵,W∈RV∗NW∈RV∗N是输入矩阵，每一行对应输入单词的词向量,W′∈RV∗NW′∈RV∗N是输出矩阵，每一行对应输出单词的词向量。词i和词j的共现信息用词向量的内积来表达，通过softmax得到每个单词的概率如下

h=vwIvw′jujyj=p(wj|wI)=WTxi=W′Txj=vTw′jh=exp(uj)∑Vj′=1exp(uj′)(1)(2)(3)(4)(1)h=vwI=WTxi(2)vw′j=W′Txj(3)uj=vw′jTh(4)yj=p(wj|wI)=exp(uj)∑j′=1Vexp(uj′)

对每个训练样本，模型的目标是最大化条件概率p(wj|wI)p(wj|wI), 因此我们的对数损失函数如下

E=−logP(wj|wI)=−u∗j+log∑j′=1Vexp(uj′)(5)(6)(5)E=−logP(wj|wI)(6)=−uj∗+log∑j′=1Vexp(uj′)

CBOW : Continuous bag of words

CBOW是把bigram的输入context，扩展成了目标单词周围2*window_size内的单词，用中心词前后的语境来预测中心词。

对比bigram, CBOW只多做了一步操作，对输入的2 * Window_size个单词，在映射得到词向量后，需要做average_pooling得到1*N的输入向量, 所以差异只在h的计算。假定C=2∗window_sizeC=2∗window_size

hE=1CWT(x1+x2+...+xC)=1C(vw1+vw2+...+vwc)T=−logp(wO|wI,1...wI,C)=−u∗j+log∑j′=1Vexp(uj′)(7)(8)(9)(10)(7)h=1CWT(x1+x2+...+xC)(8)=1C(vw1+vw2+...+vwc)T(9)E=−logp(wO|wI,1...wI,C)(10)=−uj∗+log∑j′=1Vexp(uj′)

SG : Skip Gram

SG是把bigram的输出target，扩展成了输入单词周围2*window_size内的单词，用中心词来预测周围单词的出现概率。

对比bigram，SG的差异只在于输出概率多项分布不再是一个而是C个

E=−logp(wO,1,wO,2,...wO,C|wI)=∑c=1Cu∗j,c+C⋅log∑j′=1Vexp(uj′)(11)(12)(11)E=−logp(wO,1,wO,2,...wO,C|wI)(12)=∑c=1Cuj,c∗+C⋅log∑j′=1Vexp(uj′)

模型推导：word embedding是如何得到的？

下面我们从back propogation推导下以上模型结构是如何学到词向量的，为简化我们还是先从bigram来看，ηη是learning rate。

首先是hidden->output W′W′的词向量的更新

∂E∂vw′jv(new)w′j=∂E∂uj∂uj∂vw′j=(p(wj|wi)−I(j=j∗))⋅h=ej⋅h=v(old)w′j−η⋅ej⋅h(13)(14)(15)(16)(13)∂E∂vw′j=∂E∂uj∂uj∂vw′j(14)=(p(wj|wi)−I(j=j∗))⋅h(15)=ej⋅h(16)vw′j(new)=vw′j(old)−η⋅ej⋅h

ejej是单词j的预测概率误差，所以W′W′的更新可以理解为如果单词j被高估就从vw′jvw′j中减去η⋅ej⋅hη⋅ej⋅h，降低h和vw′jvw′j的向量内积(similarity)，反之被低估则在vw′jvw′j上叠加η⋅ej⋅hη⋅ej⋅h增加内积相似度，误差越大更新的幅度越大。

然后是input->hidden W的词向量的更新

∂E∂hv(new)wI=∑j=1V∂E∂uj∂uj∂h=∑j=1Vej⋅vw′j=v(old)wI−η⋅∑j=1Vej⋅vw′j(17)(18)(19)(17)∂E∂h=∑j=1V∂E∂uj∂uj∂h(18)=∑j=1Vej⋅vw′j(19)vwI(new)=vwI(old)−η⋅∑j=1Vej⋅vw′j

每个输入单词对应的词向量vwIvwI，都用所有单词的输出词向量按预测误差加权平均得到的向量进行更新。和上述的逻辑相同高估做subtraction，低估的做addition然后按误差大小进行加权来更新输入词向量。

所以模型学习过程会是输入词向量更新输出词向量，输出词向量再更新输入词向量，然后back-and-forth到达稳态。

把bigram拓展到CBOW，唯一的变化在于更新input-hidden的词向量时，不是每次更新一个单词对应的向量，而是用相同的幅度同时更新C个单词的词向量.

v(new)wI,c=v(old)wI,c−1Cη⋅∑j=1Vej⋅vw′jvwI,c(new)=vwI,c(old)−1Cη⋅∑j=1Vej⋅vw′j

把bigram拓展到SG，唯一的变化在于更新hidden-output的词向量时，不再是用单词j的预测误差，而是用C个单词的预测误差之和

v(new)w′j=v(old)w′j−η⋅∑c=1Cec,j⋅hvw′j(new)=vw′j(old)−η⋅∑c=1Cec,j⋅h

模型训练

虽然模型结构已经做了优化，移除了非线性的隐藏层，但是模型训练起来并不高效,瓶颈在于Word2vec本质是多分类任务，类别有整个vocabulary这么多，所以p(wj|wI)=exp(uj)∑Vj′=1exp(uj′)p(wj|wI)=exp(uj)∑j′=1Vexp(uj′)每次需要计算整个vocabulary的概率O(VN)O(VN)。即便batch只有1个训练样本，也需要更新所有单词hidden->output的embedding矩阵。针对这个问题有两种解决方案

Hierarchical Softmax

如果把softmax看作一个1-layer tree,每个单词都是一个叶节点, 因为需要归一化所以计算每个单词的概率的复杂度是O(V)O(V)。Hierarchical Softmax只是把1-layer变成了multi-layer，在不增加embedding大小的情况下（V个叶节点，树有V-1个inner node), 把计算每个单词概率的复杂度降低到O(logV)O(logV)，直接用从root到叶节点的路径来计算每个单词的概率。树的构造作者选用了huffman tree,优点在于高频词从root到leaf的路径会比低频词更短，这样可以进一步加速训练，具体细节可以来看这篇博客human coding

例如下图（图片来源）

P(Horse)=P(0,left)⋅P(1,right)⋅P(2,left)(20)(20)P(Horse)=P(0,left)⋅P(1,right)⋅P(2,left)

那具体上面的p(0,left)要如何计算呢？

每一个node都有自己的embedding vn(w,j)vn(w,j), 既单词w路径上第j个node的embedding,输入输出的单词内积，变为输入单词和node的内积，每个单词的概率计算如下

p(w=wo)=∏j=1L(w)−1σ([n(w,j+1)=ch(n(w,j))]⋅vn(w,j)Th)p(w=wo)=∏j=1L(w)−1σ([n(w,j+1)=ch(n(w,j))]⋅vn(w,j)Th)

不得不说这个式子写的真是生怕别人能看懂>_<

[n(w,j+1)=ch(n(w,j))][n(w,j+1)=ch(n(w,j))] 是个啥？ch是left child，[⋅][⋅]只是用来判断path是往左还是往右

[⋅]={1−1if 往左if 往右 [⋅]={1if 往左−1if 往右

所以

p(n,left)p(n,right)=σ(vTn⋅h)=σ(−vTn⋅h)=1−σ(vTn⋅h)(21)(22)(21)p(n,left)=σ(vnT⋅h)(22)p(n,right)=σ(−vnT⋅h)=1−σ(vnT⋅h)

对应上面的模型推导，hidden->ouput的部分发生变化, 损失函数变为以下

E=−logP(w=wj|wI)=−∑j=1L(w)−1log([⋅]vTjh)E=−logP(w=wj|wI)=−∑j=1L(w)−1log([⋅]vjTh)

每次output单词对应的路径上的embedding会被更新，预测任务变为该路径上每个inner_node应该往左还是往右。

简单的huffman Hierarchy softmax的实现如下

class TreeNode(object):
    total_node = 0
    def __init__(self, frequency, char = None , word_index = None, is_leaf = False):
        self.frequency = frequency
        self.char = char # word character
        self.word_index = word_index # word look up index
        self.left = None
        self.right = None
        self.is_leaf = is_leaf
        self.counter(is_leaf)

    def counter(self, is_leaf):
        # node_index will be used for embeeding_lookup
        self.node_index = TreeNode.total_node
        if not is_leaf: TreeNode.total_node += 1

    def __lt__(self, other):
        return self.frequency < other.frequency

    def __repr__(self):
        if self.is_leaf:
            return 'Leaf Node char = [{}] index = {} freq = {}'.format(self.char, self.word_index, self.frequency)
        else:
            return 'Inner Node [{}] freq = {}'.format(self.node_index, self.frequency)

class HuffmanTree(object):
    def __init__(self, freq_dic):
        self.nodes = []
        self.root = None
        self.max_depth = None
        self.freq_dic = freq_dic
        self.all_paths = {}
        self.all_codes = {}
        self.node_index = 0

    @staticmethod
    def merge_node(left, right):
        parent = TreeNode(left.frequency + right.frequency)
        parent.left = left
        parent.right = right
        return parent

    def build_tree(self):
        """
        Build huffman tree with word being leaves
        """
        TreeNode.total_node = 0 # avoid train_and_evaluate has different node_index

        heap_nodes = []
        for word_index, (char, freq) in enumerate(self.freq_dic.items()):
            tmp = TreeNode( freq, char, word_index, is_leaf=True )
            heapq.heappush(heap_nodes, tmp )

        while len(heap_nodes)>1:
            node1 = heapq.heappop(heap_nodes)
            node2 = heapq.heappop(heap_nodes)
            heapq.heappush(heap_nodes, HuffmanTree.merge_node(node1, node2))

        self.root = heapq.heappop(heap_nodes)

    @property
    def num_node(self):
        return self.root.node_index + 1

    def traverse(self):
        """
        Compute all node to leaf path and direction: list of node_id, list of 0/1
        """
        def dfs_helper(root, path, code):
            if root.is_leaf :
                self.all_paths[root.word_index] = path
                self.all_codes[root.word_index] = code
                return
            if root.left :
                dfs_helper(root.left, path + [root.node_index], code + [0])
            if root.right :
                dfs_helper(root.right, path + [root.node_index], code + [1])

        dfs_helper(self.root, [], [] )

        self.max_depth = max([len(i) for i in self.all_codes.values()])



class HierarchySoftmax(HuffmanTree):
    def __init__(self, freq_dic):
        super(HierarchySoftmax, self).__init__(freq_dic)

    def convert2tensor(self):
        # padded to max_depth and convert to tensor
        with tf.name_scope('hstree_code'):
            self.code_table = tf.convert_to_tensor([ code + [INVALID_INDEX] * (self.max_depth - len(code)) for word, code
                                                     in sorted( self.all_codes.items(),  key=lambda x: x[0] )],
                                                   dtype = tf.float32)
        with tf.name_scope('hstree_path'):
            self.path_table = tf.convert_to_tensor([path + [INVALID_INDEX] * (self.max_depth - len(path)) for word, path
                                                    in sorted( self.all_paths.items(), key=lambda x: x[0] )],
                                                   dtype = tf.int32)

    def get_loss(self, input_embedding_vector, labels, output_embedding, output_bias, params):
        """
        :param input_embedding_vector: [batch * emb_size]
        :param labels: word index [batch * 1]
        :param output_embedding: entire embedding matrix []
        :return:
            loss
        """
        loss = []
        labels = tf.unstack(labels, num = params['batch_size']) # list of [1]
        inputs = tf.unstack(input_embedding_vector, num = params['batch_size']) # list of [emb_size]

        for label, input in zip(labels, inputs):

            path = self.path_table[tf.squeeze(label)]#  (max_depth,)
            code = self.code_table[tf.squeeze(label)] # (max_depth,)

            path = tf.boolean_mask(path, tf.not_equal(path, INVALID_INDEX)) # (real_path_length,)
            code = tf.boolean_mask(code, tf.not_equal(code, INVALID_INDEX) ) # (real_path_length,)

            output_embedding_vector = tf.nn.embedding_lookup(output_embedding, path) # real_path_length * emb_size
            bias = tf.nn.embedding_lookup(output_bias, path) # (real_path_length,)

            logits = tf.matmul(tf.expand_dims(input, axis=0), tf.transpose(output_embedding_vector) ) + bias # (1,emb_size) *(emb_size, real_path_length)
            loss.append(tf.nn.sigmoid_cross_entropy_with_logits(labels = code, logits = tf.squeeze(logits) ))

        loss = tf.reduce_mean(tf.concat(loss, axis = 0), axis=0, name = 'hierarchy_softmax_loss') # batch -> scaler

        return loss

Negative Sampling

Negative Sampling理解起来更加直观，因为模型的目标是训练出高质量的word embedding，也就是input word embedding，那是否每个batch都更新全部的output word embedding并不重要，我们可以每次只sample K个embedding来做更新。原始的正样本保留，我们再采样 K组负样本来进行训练，模型只需要学习正样本vs负样本，也就绕过了用V个单词来做归一化的问题，把多分类问题成功简化为二分类问题。作者表示小样本K=5~20，大样本k=2~5。

对应上述的模型推导，hidden->output的部分发生变化, 损失函数变为

E=−logσ(vTjh)−∑wj∈neglogσ(−vTwjh)E=−logσ(vjTh)−∑wj∈neglogσ(−vwjTh)

每个iteration只有K个embedding被更新

v(new)w′j=v(old)w′j−η⋅ej⋅hwhere j∈kvw′j(new)=vw′j(old)−η⋅ej⋅hwhere j∈k

而input->hidden的部分,只有k个embedding的加权向量会用于输入embedding的更新

v(new)wI=v(old)wI−η⋅∑j=1Kej⋅vw′jvwI(new)=vwI(old)−η⋅∑j=1Kej⋅vw′j

tensorflow有几种candidate sample的实现，两种比较常用的是nn.sampled_softmax_loss和nn.nce_loss, 它们调用了相同的采样函数。差异在于sampled_softmax_loss用的是softmax（排他单分类)，而nce_loss是求logistic (不排他多分类）。这两种实现都和negative sampling有些许差异，细节可以看下Notes on Noise Contrastive Estimation and Negative Sampling。而这二者之间比较是有观点说nce更适合skip-gram, sample更适合CBOW，具体差异我也还得再多用用试试看。

Subsampling

论文还有一个重点是subsampling，针对出现频率高的词，对于它们过多的训练样本不能进一步提高表现，因此可以对这些样本进行downsample。t是词频阈值， f(wi)f(wi)是单词在corpus里的出现频率，所有出现频率高于t的单词，都会按照以下概率被降采样

p(wi)=1−tf(wi)−−−−−√p(wi)=1−tf(wi)

模型实现

手残党现实体验是word2vec比较复杂的部分不是模型。。。而是input_pipe和loss function，所以在实现的时候也希望尽可能把dataset, model_fn, 和train的部分分割开来。以下只给出model_fn的核心部分

def avg_pooling_embedding(embedding, features, params):
    """
    :param features: (batch, 2*window_size)
    :param embedding: (vocab_size, www.chuancenpt.com emb_size)
    :return: 
        input_embedding : average pooling of context embedding
    """
    input_embedding= []
    samples = tf.unstack(features, www.tengyao3zc.cn  params['batch_size'])
    for sample in samples:
        sample = tf.boolean_mask(www.jintianxuesha.com sample, tf.not_equal(sample, INVALID_www.fanhji.cn INDEX), axis=0) # (real_size,)
        tmp = tf.nn.embedding_www.txinyl.cn lookup(embedding, sample) # (real_size, emb_size)
        input_embedding.append(tf.reduce_mean(tmp, axis=0)) # (emb_size, )

    input_embedding www.yinm3zc.cn= tf.stack(input_embedding, name = 'input_embedding_vector') # batch * emb_size
    return input_embedding
    
def model_fn(features, labels, mode, params):
    if params['train_algo'] == 'HS':
        # If Hierarchy Softmax is used, initialize a huffman tree first
        hstree = HierarchySoftmax( params['freq_dict'] )
        hstree.build_tree()
        hstree.traverse()
        hstree.convert2tensor()

    if params['model'] == 'CBOW':
        features = tf.reshape(features, shape = [-1, 2 * params['window_size']])
        labels = tf.reshape(labels, shape = [-1,1])
    else:
        features = tf.reshape(features, shape = [-1,])
        labels = tf.reshape(labels, shape = [-1,1])

    with tf.variable_scope(http://www.jintianxuesha.com/?id=885 'initialization' ):
        w0 = tf.get_variable( shape=[params['vocab_size'], params['emb_size']],
                              initializer=tf.truncated_normal_initializer(), name='input_word_embedding' )
        if params['train_algo'] == 'HS':
            w1 = tf.get_variable( shape=[hstree.num_node, params['emb_size']],
                                  initializer=tf.truncated_normal_initializer(), name='hierarchy_node_embedding' )
            b1 = tf.get_variable( shape = [hstree.num_node],
                                  initializer=tf.random_uniform_initializer(), name = 'bias')
        else:
            w1 = tf.get_variable( shape=[params['vocab_size'], params['emb_size']],
                                  initializer=tf.truncated_normal_initializer(), name='output_word_embedding' )
            b1 = tf.get_variable(http://www.jintianxuesha.com/?id=956 shape=[params['vocab_size']],
                                  initializer=tf.random_uniform_initializer(), name='bias'www.javachenglei.com www.tainfengyue.cn  www.zhuyngyule.cn   www.letianhuanchao.cn)
        add_layer_summary( w0.name, w0)
        add_layer_summary( w1.name, w1 )
        add_layer_summary( b1.name, b1 )

    with tf.variable_scope('input_hidden'):
        # batch_size * emb_size
        if params['model'] == 'CBOW':
            input_embedding_vector = avg_pooling_embedding(w0, features, params)
        else:
            input_embedding_vector = tf.nn.embedding_lookup(w0, features, name = 'input_embedding_vector')
        add_layer_summary(input_embedding_vector.name, input_embedding_vector)

    with tf.variable_scope('hidden_output'):
        if params['train_algo'] == 'HS':
            loss = hstree.get_loss( input_embedding_vector, labels, w1, b1, params)
        else:
            loss = negative_sampling(mode = mode,
                                     output_embedding = w1,
                                     bias = b1,
                                     labels = labels,
                                     input_embedding_vector =input_embedding_vector,
                                     params = params)

    optimizer = tf.train.AdagradOptimizer( learning_rate = params['learning_rate'] )
    update_ops = tf.get_collection( tf.GraphKeys.UPDATE_OPS )

    with tf.control_dependencies( update_ops ):
        train_op = optimizer.minimize( loss, global_step= tf.train.get_global_step() )

    return tf.estimator.EstimatorSpec( mode, loss=loss, train_op=train_op )

留言，评论，吐槽代码的都欢迎哈～

Ref

[Word2Vec A]Tomas Mikolov et al, 2013, Efficient Edtimation of Word Representations in Vector Space
[Word2Vec B]Tomas Mikolow et al, 2013, Distributed Representations of Words and Phrases and their Compositionality
Yoav GoldBerg, Omer Levy, 2014, Wor2Vec Explained: Deribing Mikolow et al's Negative-Sampling Word Embedding Method
Xin Rong, 2016, word2vec ParameterLearning Explained

20180207 紫微妈咪
因为单位新年慰问，所以稍微起得早了些，某人说准备点茶水糖果，结果来了没坐下就急着走了，说单位出了些事急需处理，但愿平安。
PPP 点到点协议太阁闫辉
一、PPP协议介绍PPP协议包含LCPPAPCHAPNCP（IPV4CPIPV6CPIPXCP）等工作在链路层支持链路级的AAA认证。Authentication认证：出示凭证主认证被认证如锁是主认证，钥匙就是被认证被认证方要向主认证方出示用户名密码，主认证方确定没有问题在把链路开启。Authorization授权：认证通过后，我需要判断你能使用多少资源Accounting审计：监控接收什么样流量
端到端神经网络视频编解码器介绍码流怪侠音视频基础深度学习-PyTorch 神经网络视频编解码人工智能 github DCVC 端到端神经网路音视频
一、技术演进：从模块优化到全局智能的范式跃迁传统编解码器的效率天花板（1990-2017）架构局限：H.264/HEVC依赖手工设计的运动估计、DCT变换、熵编码模块，各模块独立优化导致全局效率损失。高分辨率瓶颈：4K/8K视频普及后，码率与画质矛盾激化，HEVC在VR场景下码率仍需>20Mbps才能保持无伪影画质。端到端神经编解码的爆发期（2017-2024）2017奠基年：Ballé团队提出超
比CC还漂亮，全新一代索纳塔能成为最美韩国车吗？ zgbzy安雁
首先呢，造型设计本来就是个见仁见智千人千面的问题，一个人一个看法，所以题主的问题本身就不成立；其次，造型设计确实是在购车决策中扮演着相当重要的角色，尤其是在中国，不过除了颜值之外，消费者对于车型本身的综合素质和品牌也愈加重视，所以到最后是综合比拼。近几个月的时间里，现代第十代索纳塔的出镜率越来越高，先是现代官方发布了官图，后来又先后曝光了韩国本土原型车和路试谍照，种种迹象表明现代开始为全新一代索纳
CentOS 7如何平滑升级 MariaDB 5.5 到 10.x 新版本 Herotwins CentOS centos mariadb mysql
前言自从CentOS7开始，自带的数据库就变成MariaDB了，yum安装之后的默认版本是5.5，但是该版本不能满足Zabbix的需求，需要升级。无论是安装全新的还是升级MariaDB第一步始终是不要忘记备份。备份数据库重要的事情说三遍，备份，备份，备份！#备份数据库，如果升级顺利是不要实施备份还原的mysqldump-uroot-p--all-databases>alldb.sql#如果想保留自
综合学习的思考杨小芹
“综合学习”这是一个特别不容易理解的词语。不光是我国，世界范围内应该都对这个词都有不同的理解。佐藤先生认为日本的杂志教育在对综合学习课程大多都停留在了观念层面。那么按照佐藤先生的理解，什么是“综合学习”呢？作者提到：学科学习的重要性也许今后也不会改变，但在进行学科学习的同时，也应该把处理人生征途中谁都会面临的现实课题、现代社会所要求的的现实问题的直接学习和学科学习并行起来加以组织。综合学习就是在想
什么是 WebClient？
WebClient是SpringWebFlux提供的一个非阻塞、响应式的HTTP客户端，可以在异步和同步场景下发起HTTP请求，支持RESTfulAPI调用，适用于微服务间通信、第三方接口访问等。属于SpringFramework5之后的标准组件可以用于响应式应用（WebFlux），也可以用在普通SpringBoot项目支持GET、POST、PUT、DELETE等全套HTTP操作支持同步/异步、流
前后端分离项目中的接口设计与调用流程——以高仙机器人集成为例南山隐栈前后端分离实战机器人 java spring boot intellij-idea js ruoyi 前端
一、背景介绍在前后端分离项目开发中，前端页面需要频繁调用后端接口获取数据。在高仙机器人对接项目中，我们采用了若依（RuoYi）框架，前端通过统一的API封装与后端进行数据交互，而后端再对接高仙官方的OPENAPI实现数据获取。这里梳理一下接口调用链路和关键点，作为开发经验记录。二、前后端接口调用的链路1.前端请求（以获取机器人地图列表为例）//src/api/gsrobot.jsexportfun
实用计算机网络编程作业2.doc 骑猪逛街网络作业编程 internet 路由器 network
1．目前Internet提供了哪几类服务？答：1、即时通讯，视频会议，电子邮件2、电子商务，网络商城，电子银行3、信息与资源共享，远程信息管理2．TCP/IP分为哪几层？每层的基本功能是什么？答：TCP/IP分为四层（也有人划分为五层）1、网络接口层两个作用：(1)负责接收从IP层交来的IP数据报并将数据报通过低层物理网络发送出去（2）从低层物理网络接收物理帧，抽出IP数据报，交给IP层。2、互联
你活着可能已经死了-《得到》“武志红的心理学课”学习笔记28 大庆思考笔记
人生由几百、几千乃至几万个大大小小的选择构成，等你老了，回顾一生的时候，你发现最亏待的，恰恰是你自己，那你这一生，就白活了。我们来做一个调查，很简单，然而也许很“致命”：你能不能想起五件事，你特别想做的，但却一直没有去做的，就按照自由联想的顺序，把这五件事写出来。现在，你可以做你自己的“父母”，试试带着点偏执劲，去追逐一些你特别想追逐的事物，以此来滋养你的本我。分享一段鲁米的诗给你：有一颗光的种子
中国通史100-89 王朝的稳固夏奔奔
摄政王睿亲王多尔衮满蒙汉一体福临是入关后第一位皇帝，即顺治。多尔衮辅政。范文程。此时，北面清军，中北李自成，四川张献忠，南边明君弘光政权等。多尔衮、阿济格、多铎追击李自成和南明弘光政权，占领区强行命令汉人剃发，作为是否归顺清朝的一个标志。==》引起汉人反抗。“留头不留发，留发不留头”。陕西告急，多尔衮改南下为西进，合围陕西李自成，潼关大顺政权覆灭。多铎率军攻占南京。扬州十日，嘉定三屠。1647年1
我们的十年（第98节）五彩斑斓独角兽
奈静空闲时间去学校周围的一家餐厅打工做兼职，今天周末，人更加多了。忙的几个服务生跑来跑去都来不及应对，正好有个客人在最后一桌等了很久，她一直都在按铃，显得非常不耐烦。奈静赶紧跑过去，对着那位客人说：“不好意思，久等了。请问您需要点些什么？”那个女生一抬头，不可思议的看着她。“哦哟，你怎么来这里工作了？”奈静仔细一看，这不是欣彤嘛。今天欣彤打扮的格外漂亮，她特意烫过的长卷发，还化了一个精致的妆容。她
线上java程序CPU占用过高问题排查低调_0c1d
top命令查看CPU、内存等使用情况top定位问题线程ps-mppid-oTHREAD,tid,time[root@web-test~]#ps-mp12571-oTHREAD,tid,timeps-mp17480-oTHREAD,tid,timeUSER%CPUPRISCNTWCHANUSERSYSTEMTIDTIMEroot0.5------10:29:26root0.019-futex_--8
女人到中年以后，要把日子往简单里过，幸福就不远了作者深情解读
本文由【深情解读】原创出品，抄袭必究！女人要有将日子过好的能力。有些女人，经常埋怨，生活不幸，但你看她的生活条件，又不算太差，并不缺钱。若说男人对她不好，也完全算不上，相比起渣得只剩骨头的男人，她的婚姻，并不算太差。为什么她还会对生活不满意？我想了一下，归根结底，是女人的心态问题。婚姻是一个流动的过程，夫妻之间不可能一直都像谈恋爱那样你侬我侬，它一定会有一个客观发展的过程。由刚开始的甜蜜，逐渐过渡
孩子为什么胆小？方鱼为您深度解读孩子的内心世界方鱼爱吃鱼
孩子为什么胆小？其实，我们可以从另一个角度看孩子胆小的问题。儿童教育其实我不喜欢对孩子用“胆小”这个词语，因为这相当于给孩子贴了一个标签。当你觉得孩子是胆小的，那么孩子做某些事情的时候，你会不自觉的想：孩子怎么这么胆小？但是也许你以为的胆小并不是胆小，可能是谨慎，内向，害羞，细心……等等。孩子到水池边去看鱼，不敢走近了。父母想要孩子更近一点看鱼，于是把孩子拽到离水面很近的地方。这时孩子害怕的直往后
Windows符号链接解决vscode和pycharm占用C盘空间太大的问题爱听许嵩歌编程debug问题 vscode pycharm ide
Windows符号链接解决vscode和pycharm占用C盘空间太大的问题参考文章：Windows符号链接1、找到vscode和pycharm在C盘的缓存文件夹。C:\Users\用户名\AppData\Roaming\CodeC:\Users\用户名\.vscode\extensionsC:\Users\用户名\AppData\Local\JetBrainsC:\Users\用户名\AppDa
sbatch: error: Batch script contains DOS line breaks (\r\n) 爱听许嵩歌编程debug问题 batch matlab slurm
问题：在使用超算时，提交脚本出现batch:error:BatchscriptcontainsDOSlinebreaks(\r\n)sbatch:error:insteadofexpectedUNIXlinebreaks(\n)原因：dos下的换行和Unix是不一样的：windows中\r\n表示换行，linux等使用\n换行。差异：Windows系统下文本文件的换行符是：回车+换行CR/LF即\
【ruoyi-vue】前后端分离项目分析
【ruoyi-vue】前后端分离项目分析【一】介绍【1】简介【2】主要特性【3】内置功能【4】后端文件结构【二】基础功能【1】上传下载【2】事务管理【3】异常处理【4】自定义注解校验：Xxs注解【5】数据脱敏【三】后台扩展【一】介绍【1】简介RuoYi-Vue是一个JavaEE企业级快速开发平台，基于经典技术组合（SpringBoot、SpringSecurity、MyBatis、Jwt、Vue）
实体类序列化报错：Caused by: java.lang.NoSuchMethodException: com.xx.PoJo$Item.＜init＞() DN金猿 java 开发语言
原实体类代码@EqualsAndHashCode(callSuper=true)@DatapublicclassPojoextendsBaseBean{privatestaticfinallongserialVersionUID=-4291335073882689552L;@ApiModelProperty("")privateIntegerid;......privateListlist;@Al
交换机配置VLAN及Access接口蒋慧慧网络交换机VLAN
交换机VLAN配置VLAN原理VLAN配置实验内容实验拓扑实验步骤VLAN原理VLAN（VirtualLocalAreaNetwork，虚拟局域网），VLAN是一种比较新的技术，工作在OSI参考模型的第2层和第3层，一个VLAN就是一个广播域，VLAN之间的通信是通过第3层的路由器来完成的。与传统的局域网技术相比较，VLAN技术更加灵活，它具有以下优点：网络设备的移动、添加和修改的管理开销减少；可
基于 Mockito 框架的 Mock 单元测试
1.什么是Mock测试Mock通常是指，在测试一个对象A时，我们构造一些假的对象（一般是不容易构造或者不容易获取的对象，比如测试类所依赖的实现类、第三方接口、数据库操作对象）来模拟与A之间的交互，这些对象被称为Mock对象，而Mock对象的行为是我们事先设定且符合预期。通过这些Mock对象来测试A在正常逻辑，异常逻辑或压力情况下工作是否正常。下面是一个例子：当我们需要测试OrderService时
springboot+swagger2文档从swagger-bootstrap-ui更换为knife4j及文档接口参数不显示问题 DN金猿 springboot组件专题 spring boot bootstrap ui swagger
背景已有springboot项目，且使用的是swagger2+swagger-bootstrap-ui的版本1.pom依赖如下io.springfoxspringfox-swagger22.9.2io.swaggerswagger-modelsio.swaggerswagger-annotationsio.springfo
jvm调优中各参数如何设置比较合适 DN金猿服务器 jvm
以下是JVM调优核心参数的配置原则及推荐设置，结合生产环境性能指标综合调整：一、内存区域参数堆内存（Heap）初始值/最大值：-Xms与-Xmx必须相等，避免运行时扩容触发GC推荐值：物理内存≤8G时设4-6G；≥16G时设70%-80%内存总量新生代与老年代比例-XX:NewRatio=2（默认值：老年代/新生代=2:1）高吞吐应用可调至-XX:NewRatio=1Survivor区优化-XX:
给孩子做敬重长辈的典范趣口才
孩子们是以我们作为学习典范的。假如要孩子培育起对你们真正的尊崇，他们得明白尊崇的详细含义。孩子们不只会听你讲话，也会察看你和配偶是如何看待本人父母的。在犹太教神学中，行为的重量比信条还要重。平民施穆尔的故事也精辟地表达了这个道理，他年老的父亲由于手指哆嗦，老是把汤汁洒落在桌布上。有一天晚上，老人掉落了一只精致的茶杯，摔碎在地板上。施穆尔说：“爸，从如今以后，你本人在房间吃饭，这个木碗给你用。用这个
叶夫根尼·卢卡维钦：我怀疑索特尼科娃在当代女子花样滑冰中的竞争力云游四方的旅人
俄罗斯花样滑冰教练叶夫根尼·卢卡维钦就阿杰琳娜·索特尼科娃宣布放弃2018-2019赛季这件事情接受记者采访，根据教练的说法索契冬奥会冠军很难回到她当年的水平。“在很长时间缺席之后回到职业水平是困难的。”卢卡维钦说，“我知道现在女子花样滑冰的发展现状。这是一场疯狂的竞争。年轻人现在正在创造奇迹。这就是一个阻碍，怀疑，两个赛没有专业滑冰的她能够出场和这些姑娘们竞争。”
拼多多返现到银行卡是真的吗？拼多多返现43.2元到银行卡是真的吗全网优惠分享
最近几天都在问拼多多返现到银行卡是真的吗？拼多多返现43.2元到银行卡是真的吗，这几天就在这里来统一给大家回复一下吧。1：手机应用商店搜索“氧惠”下载氧惠APP，注册填写邀请码：222999你平时在淘宝,京东,拼多多,抖音,快手,买东西都有现金返现，比如淘宝100块的东西，你通过氧惠跳转到淘宝下单购买，可以返现20元，是不是就是等于你80元就买到了原来要100元才能买到的东西。该在哪下单还是在哪下
所遇良人畅想的千夏
今天闲着没事，看网上别人奇葩的相亲经历，真是发现什么人都有。有个女生说：有男生第一次约她见面，要求女生自己过来找他，直接说了个地点，说女生这点要求都做不到，还各种内心戏，什么时候能到说个时间就好，不要废话。（前提是这个男生很有钱，觉得女生既然经济各方面给予不了什么，那这点要求应该可以做到）底下评论都说，让女生回一句：可以打车过去给你一巴掌。把我笑死了。有男生说：网上认识一个女生，女生要求它请喝奶茶
GaussDB in的用法小云数据库服务专线 gaussdb 数据库 sql
1in的作用in运算符允许您在WHERE子句中指定多个值。in运算符是多个OR条件的简写。2in的语法selectcolumn_name(s)fromtable_namewherecolumn_namein(value1,value2,...);或者selectcolumn_name(s)fromtable_namewherecolumn_namein(selectstatement);3in使用
田姨的故事之《写春联》光风霁月_f8ba
当然，作为一个胸怀抱负的知识青年，我可不满意于仅仅做些针头线脑的活计，我还应该为乡亲们做更多的事，做知青该做的事。很快，这个活计就被我找到了。快过年了，家家户户忙着备年货、做年食，其中最重要的一件事就是写春联。春联儿展示着新年的红火，祈盼着来年的吉祥，所以家家都会派个可靠的人，拿着刚做好的年食，去请求写得一手好字的文化人，为自己家写好漂漂亮亮的春联。那一年，我也帮助干妈家去邻村的民办教师家求回了春
为什么做一头捍卫自己的狮子比做和气的绵羊还难?关于人际关系的功课。心灵炼金的旅程
我发现一个现象，一般压抑隐忍的人，会吐槽谁谁怎么可以这么说话，这么对我本人又不敢冲突，不敢表达，不敢把所谓不好的一面展示出来。可是，表面好像过去，其实强压下去，也很憋屈，就会找其他出口去诉说，对方如何如何让自己难受，自己又没有办法抗争。问题是，我们凭什么不可以?老实说，我也有过这种情况，闷葫芦发又不知道怎么发出来。可是时不时冒出来的情绪，就像一个不甘心的士兵，想战斗，想为自己说话，想做自己，想说自
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，