自然语言处理工具包spaCy初体验

spaCy是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。

初体验

本人对SpaCy做了一下初体验,具体尝试了以下功能:

  1. 词性分析
  2. 命名实体识别
  3. 语法 — 依赖关系刻画
  4. 语义 — 词向量的近似度计算
  5. 词向量降维和可视化

特别在第四部分中,我们解决了一个直观而很有趣的问题:
? - woman = king - queen
? - England = Paris - London

对于我们人来说,答案轻而易举,第一个问号是 ‘man’,第二个是“France”,那么我们看看怎么用SpaCy包让电脑得出这个结果的。

我在Jupiter Notebook上做了演示,详细内容请移步这里。

体验:这个包囊括了在NLP中你能想到的绝大部分功能,而且速度超快,不愧是工业级工具包。

你可能感兴趣的:(python,机器学习)