- 基本上所有的
NLP
的任务都可以完成,是一个不得不学的库。
Spacy功能简介
可以用于进行分词,命名实体识别,词性识别等等,但是首先需要下载预训练模型
pip install --user spacy
python -m spacy download en_core_web_sm
pip install neuralcoref
pip install textacy
sentencizer
- 将文章切分成句子,原理是
Spacy
通过将文章中某些单词的is_sent_start
属性设置为True
,来实现对文章的句子的切分,这些特殊的单词在规则上对应于句子的开头。
import spacy
nlp = spacy.load('en_core_web_sm')# 加载预训练模型
txt = "some text read from one paper ..."
doc = nlp(txt)
for sent in doc.sents:
print(sent)
print('#'*50)
- 我在对
Latex
文件切分的时候,发现$.
和}.
中的句点不能被正确识别为句子的结尾。当一个语句最后出现数学表达式,会有$.
模式。当一个语句结尾出现引用文献,会出现}.
模式。为了让Spacy
将这两种模式识别为句子结尾,我们需要判断$.
或}.
是否出现在某个单词中,如果出现,就将其后面一个单词的is_sent_start
属性设置成True
,代表新语句的开始。此外,需要将这个定制的语句边界函数添加切仅添加一次到spacy
的通道中。此后再使用nlp(text).sents
即可得到正确的句子切分。
def set_custom_boundaries(doc):
'''spacy does not set $. and }. as end of sentence.
This custom boundary will fix that bug. '''
for token in doc[:-1]:
if "$." in token.text or "}." in token.text or token.text == ";":
doc[token.i+1].is_sent_start = True
return doc
#add custom boundary once, skip if already exist
try:
nlp.add_pipe(set_custom_boundaries, before="parser")
except:
pass
Tokenization
将句子切分成单词,英文中一般使用空格分隔
import spacy
nlp = spacy.load('en_core_web_sm')
txt = "A magnetic monopole is a hypothetical elementary particle."
doc = nlp(txt)
tokens = [token for token in doc]
print(tokens)
Part-of-speech tagging
- 词性标注,标注句子中每个单词的词性,是名词动词还是形容词。
pos = [token.pos_ for token in doc]
print(pos)
>>> ['DET', 'ADJ', 'NOUN', 'VERB', 'DET', 'ADJ', 'ADJ', 'NOUN', 'PUNCT']
# 对应于中文是 【冠词,形容词,名词,动词,冠词,形容词,形容词,名词,标点】
# 原始句子是 [A, magnetic, monopole, is, a, hypothetical, elementary, particle, .]
Lemmatization
- 找到单词的原型,即词性还原,将
am, is, are, have been
还原成be
,复数还原成单数(cats -> cat)
,过去时态还原成现在时态(had -> have)
。在代码中使用token.lemma_
提取
lem = [token.lemma_ for token in doc]
print(lem)
>>> ['a', 'magnetic', 'monopole', 'be', 'a', 'hypothetical', 'elementary', 'particle', '.']
Stop words
- 识别停用词,
a,the
等等。
stop_words = [token.is_stop for token in doc]
print(stop_words)
>>> [True, False, False, True, True, False, False, False, False]
# 可以看到,这个磁单极的例子中停用词有 a 和 is。
Dependency Parsing
依存分析,标记单词是主语,谓语,宾语还是连接词。程序中使用 token.dep_
提取。
dep = [token.dep_ for token in doc]
print(dep)
>>> ['det', 'amod', 'nsubj', 'ROOT', 'det', 'amod', 'amod', 'attr', 'punct']
-
Spacy
的依存分析采用了ClearNLP
的依存分析标签 ClearNLP Dependency Labels。根据这个网站提供的标签字典,翻译成人话:[限定词, 形容词修饰, 名词主语, 根节点, 限定词, 形容词修饰, 形容词修饰, 属性, 标点]
Noun Chunks
- 提取名词短语,程序中使用
doc.noun_chunks
获取。
noun_chunks = [nc for nc in doc.noun_chunks]
print(noun_chunks)
>>> [A magnetic monopole, a hypothetical elementary particle]
Named Entity Recognization
- 命名实体识别,识别人名,地名,组织机构名,日期,时间,金额,事件,产品等等。程序中使用
doc.ents
获取。
txt = ''''European authorities fined Google a record $5.1 billion
on Wednesday for abusing its power in the mobile phone market and
ordered the company to alter its practices'
'''
doc = nlp(txt)
ners = [(ent.text, ent.label_) for ent in doc.ents]
print(ners)
>>> [('European', 'NORP'), ('Google', 'ORG'), ('$5.1 billion', 'MONEY'), ('Wednesday', 'DATE')]
- 更详细的命名实体简写列表。
Coreference Resolution
- 指代消解 ,寻找句子中代词
he
,she
,it
所对应的实体。为了使用这个模块,需要使用神经网络预训练的指代消解系数,如果前面没有安装,可运行命令:pip install neuralcoref
txt = "My sister has a son and she loves him."
# 将预训练的神经网络指代消解加入到spacy的管道中
import neuralcoref
neuralcoref.add_to_pipe(nlp)
doc = nlp(txt)
doc._.coref_clusters
>>> [My sister: [My sister, she], a son: [a son, him]]
Display
可视化。把这条功能单独列出来,是因为它太酷了。举几个简单的例子,第一个例子是对依存分析的可视化,
txt = '''In particle physics, a magnetic monopole is a
hypothetical elementary particle.'''
displacy.render(nlp(txt), style='dep', jupyter=True,\
options = {'distance': 90})
- 第二个例子是对命名实体识别的可视化
from spacy import displacy
displacy.render(doc, style='ent', jupyter=True)
知识提取
这一部分使用了 textacy, 需要通过pip命令进行安装,textacy.extract 里面的 semistructured_statements() 函数可以提取主语是 Magnetic Monopole,谓语原型是 be 的所有事实。首先将维基百科上的关于磁单极的这篇介绍的文字拷贝到 magneti_monopole.txt 中。
import textacy.extract
nlp = spacy.load('en_core_web_sm')
with open("magnetic_monopole.txt", "r") as fin:
txt = fin.read()
doc = nlp(txt)
statements = textacy.extract.semistructured_statements(doc, "monopole")
for statement in statements:
subject, verb, fact = statement
print(f" - {fact}")
- 如果搜索Magnetic Monopole, 输出只有第三条,如果搜索 monopole, 结果如下:
- a singular solution of Maxwell's equation (because it requires removing the worldline from spacetime
- a [[topological defect]] in a compact U(1) gauge theory
- a new [[elementary particle]], and would violate [[Gauss's law for magnetism