词向量训练总结

nlp中的词向量对比:word2vec/glove/fastText/elmo/GPT/bert

使用pytorch实现了TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention,DPCNN,Transformer。github:Chinese-Text-Classification-Pytorch,开箱即用。
一般字会比词效果好点,原因有几点:1.分词后会有长尾问题,有的词只在数据集中出现一两次,不能学到很好的分布。2.分词会有OOV问题。3.分词不标准,中文分词技术还不能达到没有错误。4.使用字的预训练向量会比使用词的容错性好一点

你可能感兴趣的:(词向量训练总结)