2017 · TACL · Enriching Word Vectors with Subword Information

想法来源:很多的词向量表达都是将词作为单一体来看待的,没有考虑参数的共享。从感知角度来说,就是失去了原有的内部结构。

价值
a. 学习到词与词形态学方面的信息,词与词交集越多,且语义相近的数据集,其效果越好。(可查看sisg-的效果)
b. 较好解决OOV的情况,对于长尾数据是很好的补充。(可查看sisg的效果)

方法:“火影忍者”的2-gram表示——<火,火影,影忍,忍者,者>,其中<和>分别为起始和结尾标识符。把原本的一个词分词若干个子单位。

缺点:词典数量巨大

详细方案
举例(n<4):word =“我/睡/不/着/仔细/看/了/半夜”,unigram有8个,bigram有7个,trigram有6个。这21个gram向量独立表示,然后用这21个向量和来表示这个word。

这样"睡"既要单独学习,也要在"我睡"、"睡不"、"我睡不"、"睡不着"当中表示,逻辑上有参数共享的功用,从而更好的学习表示。

然后利用skip-gram可以来无监督的训练。

你可能感兴趣的:(2017 · TACL · Enriching Word Vectors with Subword Information)