关于Embedding

Embedding

  • Embedding的定义
  • Embedding的应用
  • 如何Embedding?
  • Word Embedding的方法
  • 参考资料

本文对Embedding和word embedding作一个简要的介绍。

Embedding的定义

Embedding是从离散对象(例如字词)到实数向量的映射。 这些向量中的各个维度通常没有固定含义,机器学习所利用的是向量的位置和相互之间的距离这些整体模式。

Embedding的应用

  1. 用作机器学习的输入。机器学习的很多重要输入(例如文本的字词)没有自然的向量表示,而分类器适用于实数向量。Embedding可将离散输入对象转换为有用连续向量。
  2. 用作机器学习的输出。使用Embedding将离散输入转化为有用的连续向量。根据向量空间中的相似性来衡量对象的相似性。常见用途如,找到最近邻的点。
  3. 将高维矢量映射到低维空间中,通过使用Embedding,可以让大型输入(比如代表字词的稀疏矢量)上进行机器学习变得更加容易。

Embedding多是作为一种工具来使用的,应用十分广泛。最常见的如机器学习中的分类聚类,以及推荐系统中的应用等。

如何Embedding?

以下是一些常见的Embedding的方法:

  1. One-Hot
  2. 分布式表示(Distributed Representation),如word2vec、LSA等
  3. 神经网络训练

Word Embedding的方法

Word Embedding即词嵌入,词嵌入是自然语言处理中语言模型与表征学习技术的统称。概念上而言,它是把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。word embedding在自然语言处理中的应用十分广泛,以下是其中一些较为常见的方法。

  1. One-Hot.
  2. word2vec.
  3. 神经网络.

以上仅为一些代表性的方法,可能还有未列举出来的。

参考资料

[1] https://www.zhihu.com/question/32275069
[2] https://www.tensorflow.org/guide/embedding
[3] https://en.wikipedia.org/wiki/Embedding
[4] https://developers.google.com/machine-learning/crash-course/embeddings/video-lecture
[5] https://github.com/WillKoehrsen/wikipedia-data-science
[6] https://towardsdatascience.com/neural-network-embeddings-explained-4d028e6f0526
[7] https://blog.csdn.net/itplus/article/details/37969519
[8] https://zh.wikipedia.org/wiki/词嵌入
[9] https://blog.csdn.net/baimafujinji/article/details/77836142

你可能感兴趣的:(机器学习(理论))