文本处理

深度学习模型不会接收原始文本作为输入,它只能处理数值张量。

将文本分解成的单元(单词、字符或 n-gram)叫作标记(token),将文本分解成标记的过程叫作分词(tokenization)

所有文本向量化过程都是应用某种分词方案,然后将数值向量与生成的标记相关联。

将向量与标记相关联的主要方法有两种:做 one-hot 编码(one-hot encoding)与标记嵌入[token embedding,通常只用于单词,叫作词嵌入(word embedding)]。

可以得到onehot二进制表示的列表:[[ 0.  1.  1. ...,  0.  0.  0.][ 0.  1.  0. ...,  0.  0.  0.]]

你可能感兴趣的:(文本处理)