[深度学习] embedding 在test阶段遇到OOV怎么办

即使是char级别的rnn模型,在test阶段也会遇到OOV

这种情况肯定是没法用embedding层的lookup的


如果OOV情况不多,就可以当做UNK处理

有两类思路:

1. UNK有对应的embedding

    这种情况怎么来的呢,就是把训练集中所有出现频率小于某个阈值的词都标记为UNK,当然也别太多,这样就得到了UNK的embedding,这里的embedding有一定的语义信息,仁者见仁,可能不好使  


2. UNK没有对应的embedding

    a. 把UNK都初始化成0的向量

    b. 每次都把UNK初始化成一个新的随机向量

    

    都初始化成0向量,会使得UNK都共享相同的语义信息,所以很多人都倾向于对UNK直接随机,因为本身每个UNK都不同,随机更符合我们对UNK基于最大熵的估计,即我不知道你是个啥,所以我就随机出一个,很多地方也证实使用随机向量处理UNK带来的好处:

How to add new embeddings for unknown words in Tensorflow

Initializing Out of Vocabulary (OOV) tokens



如果OOV的情况较多,建议重新train一份embedding

你可能感兴趣的:(tensorflow,LSTM)