Tensorflow学习笔记(六)-word embedding

1、Word Embedding   词语向量化 

    仅仅把词语编号,没有体现语义之间的关联,

    尽量保证相似的词语有相似的特征,从而尽量可以方便语义理解

    这个特征也是通过机器学习得到的

    怎样学习能得到具备词义的特征?

    shape (samples, sequence_length, embedding_dimensionality)

2.  向量化数据学习过程实例(以影评为例)

"how to train and visualize word embeddings from scratch"

    step1.加载文本信息

    (train_data, test_data), info = tfds.load

    step2.数据padding。 每一条评论用10个数据表示。不足十个的补零 

    train_batches = train_data.shuffle(1000).padded_batch(10, padded_shapes=([None],[]))

    step3.word embedding 把整数序号的过程  转为向量化词汇

    step4.每条评论10个词汇取平均 得到一个特征值

    step5.加个16个节点的relu 网络层

    step6.给个sigmoid二分层

    step7.编译并训练

    step8.获得学好了的embedding层 写入文件

你可能感兴趣的:(Tensorflow学习笔记(六)-word embedding)