深度学习结构相关

Deep Learning

    • RNN
      • Standard RNN
      • LSTM
      • Attention
        • Self-attention
        • Multi-head Attention
    • CNN
      • Text-CNN
      • Bayesian CNN
    • Residual Network
    • Transformer
      • BERT
    • Embedding
      • CBOW vs skip-gram
      • hierarchical model
      • negative-sampling

RNN

Standard RNN

LSTM

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

Attention

Attention is a weighted sum mechanism (for nodes).
https://blog.csdn.net/hahajinbu/article/details/81940355

Self-attention

Multi-head Attention

CNN

Text-CNN

Bayesian CNN

https://arxiv.org/abs/1506.02158
贝叶斯网络不是采用BP来做的。而是对网络parameters有个prior distribution,通过x和y得到posterior distribution。

Residual Network

Transformer

BERT

Bidirectional Encoder Representations from Transformers

Embedding

CBOW vs skip-gram

  • CBOW是多对一预测,skip-gram是一对多预测。
    cbow中,是用周围词预测中心词,利用中心词的预测情况,使用GradientDescent方法,不断调整周围词的词向量。当训练完成之后,每个词都会作为中心词,把周围词的词向量做调整,这样获得整个文本里所有词的词向量。
    cbow的对周围词的调整是统一的:求出的gradient的值会同样的作用到每个周围词的词向量当中去。
    而skip-gram是用中心词来预测周围的词。在skip-gram中,会利用周围的词的预测结果情况,使用GradientDescent来不断的调整中心词的词向量,最终所有的文本遍历完毕之后,也就得到了文本所有词的词向量。
    因此skip-gram训练时间要长,但是更准确;cbow没有对生僻词做专门的训练。
    https://www.cnblogs.com/pinard/p/7160330.html

hierarchical model

先把词表组织成一个huffman tree。每个节点都是一个sigmoid的二元逻辑回归。提高模型训练的效率,但是若中心词是个生僻词,就要走很久。
https://www.cnblogs.com/pinard/p/7243513.html

negative-sampling

对cbow或skipgram的一个样本做neg个负采样(中心词随机取),然后和正例一起有个似然函数,通过GradientDescent极大化似然函数,中间的词向量即为所求。
https://www.cnblogs.com/pinard/p/7249903.html

你可能感兴趣的:(深度学习结构相关)