LawenceRay

python自然语言处理之分类和标注词性5.1-5.3

介绍下NLP的基本技术：包括序列标注、N-gram模型、回退和评估。

将词汇按照词性分类并相应的对他们进行标注，也即：词性标注（part-of-speech tagging, POS tagging），也称作标注。

词性也称为词类或者词汇范畴。用于特定任务标记的集合被称作一个标记集。

5.1使用词性标注器

用以处理一个词序列，为每一个词附加词性标记。

>>> import nltk

>>> text = nltk.word_tokenize('and now for something completely different')

>>> nltk.pos_tag(text)

[('and', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ')]

其中CC代表并列连词，RB代表副词，IN是介词，NN是名词，JJ是形容词。

NLTK中提供了每一个标记的文档，可以使用标记来查询它所对应的词性。如：

>>> nltk.help.upenn_tagset('RB')

RB: adverb

occasionally unabatingly maddeningly adventurously professedly

stirringly prominently technologically magisterially predominately

swiftly fiscally pitilessly ...

反映出RB所代表的含义是副词。同样可以查询NN的含义是名词：

>>> nltk.help.upenn_tagset('NN')

NN: noun, common, singular or mass

common-carrier cabbage knuckle-duster Casino afghan shed thermostat

investment slide humour falloff slick wind hyena override subhumanity

machinist ...

可以用nltk.help.brown_tagset('NN.*')近似查询，如同正则表达式一般匹配，如NN.*代表名词在前的某些搭配。

NN: noun, singular, common

failure burden court fire appointment awarding compensation Mayor

interim committee fact effect airport management surveillance jail

doctor intern extern night weekend duty legislation Tax Office ...

NN$: noun, singular, common, genitive

season's world's player's night's chapter's golf's football's

baseball's club's U.'s coach's bride's bridegroom's board's county's

firm's company's superintendent's mob's Navy's ...

NN+BEZ: noun, singular, common + verb 'to be', present tense, 3rd person singular

text.similar(word)用来找寻在整个文本中具有与word相似用法的其他单词，也就是如果word1与word的上下文单词一致，那么word1则出现在此函数的返回列表中。

>>> text = nltk.Text(word.lower() for word in nltk.corpus.brown.words())

>>> text.similar('women')

people men others the time children that one work man af house girls

and two way state years water this

这些返回的单词在某种意义上具有与‘women’相同的用法。可以用similar()函数分析不同文章是否属于同一作者。

>>> from nltk.book import *

*** Introductory Examples for the NLTK Book ***

Loading text1, ..., text9 and sent1, ..., sent9

Type the name of the text or sentence to view it.

Type: 'texts()' or 'sents()' to list the materials.

text1: Moby Dick by Herman Melville 1851

text2: Sense and Sensibility by Jane Austen 1811

text3: The Book of Genesis

text4: Inaugural Address Corpus

text5: Chat Corpus

text6: Monty Python and the Holy Grail

text7: Wall Street Journal

text8: Personals Corpus

text9: The Man Who Was Thursday by G . K . Chesterton 1908

>>> text2.similar('lady')

man house day moment world person brother subject family wife time

woman year case men week colonel park manner sister

>>> text1.similar('lady')

body whale one ship crew pequod world fish english whales deep boat

seas side man harpooneers voyage ribs boats fire

可以看出text1与text2的风格不太一致，可以推测两本书的作者不是同一个人。

5.2标注语料库

表示已标注的标识符

NLTK中用一个由标识符和标记组成的元祖表示。用到的函数是str2tuple()。

>>> tagged_token = nltk.tag.str2tuple('fly/NN')

>>> tagged_token

('fly', 'NN')

>>> tagged_token[1]

'NN'

>>> tagged_token[0]

'fly'

读取已标记的语料库

只要语料库包含已标注的文本，NLTK的语料库接口都将有一个tagged_words()方法。

>>> nltk.corpus.brown.tagged_words()

[('The', 'AT'), ('Fulton', 'NP-TL'), ...]

>>> nltk.corpus.brown.tagged_words(tagset='universal')

[('The', 'DET'), ('Fulton', 'NOUN'), ...]

简化的词性标记集

标记	含义	例子
ADJ	形容词	new, good, high, special, big, local
ADV	动词	really, already, still, early, now
CNJ	连词	and, or, but, if, while, although
DET	限定词	the, a, some, most, every, no
EX	存在量词	there, there’s
FW	外来词	dolce, ersatz, esprit, quo, maitre
MOD	情态动词	will, can, would, may, must, should
N	名词	year, home, costs, time, education
NP	专有名词	Alison, Africa, April, Washington
NUM	数词	twenty-four, fourth, 1991, 14:24
PRO	代词	he, their, her, its, my, I, us
P	介词	on, of, at, with, by, into, under
TO	词 to	to
UH	感叹词	ah, bang, ha, whee, hmpf, oops
V	动词	is, has, get, do, make, see, run
VD	过去式	said, took, told, made, asked
VG	现在分词	making, going, playing, working
VN	过去分词	given, taken, begun, sung
WH	Wh 限定词	who, which, when, what, where, how
.	标点符号	. , ; !

查看一下brown语料库词性的使用情况：

>>> from nltk.corpus import brown

>>> brown_news_tagged = brown.tagged_words(categories='news',tagset='universal')

>>> tag_fd = nltk.FreqDist(tag for (word,tag) in brown_news_tagged)

>>> tag_fd.keys()

dict_keys(['DET', 'NOUN', 'ADJ', 'VERB', 'ADP', '.', 'ADV', 'CONJ', 'PRT', 'PRON', 'NUM', 'X'])

>>> tag_fd.plot

>>> tag_fd.plot()

可以考虑使用nltk.app.concordance()函数调用nltk内置的图形界面搜索某个单词的用法，但是此处似乎支持搜索的语料库只有brown。

>>> nltk.app.concordance('fly/NN')

Traceback (most recent call last):

File "", line 1, in

TypeError: app() takes 0 positional arguments but 1 was given

>>> nltk.app.concordance()

切换语料库之后会报错：

对名词、动词以及形容词和副词的标注中由于tagged_words()方法中的参数由simplify_tags=True改为tagset=‘universal’后返回的包含词-标注字典的列表与参考书中的不太一致，并且在以后可能的实践中，并不是一定会使用nltk自带的已经实现词性标记的文本进行研究，所以此处不再刻意扩展。

使用python字典映射词及其属性

定义一个空的字典，并手动添加四个词并标注其词性，之后可以按键索引值。

>>> import nltk

>>> pairs ={}

>>> pairs['genius']='N'

>>> pairs['monstrous']='ADJ'

>>> pairs['have']='V'

>>> pairs['carelessly']='ADV'

>>> pairs

{'genius': 'N', 'monstrous': 'ADJ', 'have': 'V', 'carelessly': 'ADV'}

由于字典不是序列而是映射，所以其键值对的顺序并不是按固有的顺序排列。要找到健可以将字典转化为一个链表。

>>> list(pairs)

['genius', 'monstrous', 'have', 'carelessly']

>>> sorted(pairs)

['carelessly', 'genius', 'have', 'monstrous']

>>> list(pairs)

['genius', 'monstrous', 'have', 'carelessly']

>>> for word in sorted(pairs):

... print(word+':',pairs[word])

...

carelessly: ADV

genius: N

have: V

monstrous: ADJ

当然也可以通过字典的固有方法如keys()、values()、items()访问作为单独链表的键、值以及键值对。

>>> pairs.keys()

dict_keys(['genius', 'monstrous', 'have', 'carelessly'])

>>> pairs.values()

dict_values(['N', 'ADJ', 'V', 'ADV'])

>>> pairs.items()

dict_items([('genius', 'N'), ('monstrous', 'ADJ'), ('have', 'V'), ('carelessly', 'ADV')])

>>> for key ,val in sorted(pairs.items()):

... print(key+':',val)

...

carelessly: ADV

genius: N

have: V

monstrous: ADJ

当一个单词具有多种词性时，可以使用链表存储值也就是存储其词性。

>>> pairs['sleep']='V'

>>> pairs

{'genius': 'N', 'monstrous': 'ADJ', 'have': 'V', 'carelessly': 'ADV', 'sleep': 'V'}

>>> pairs['sleep']='N'

>>> pairs

{'genius': 'N', 'monstrous': 'ADJ', 'have': 'V', 'carelessly': 'ADV', 'sleep': 'N'}

>>> pairs['sleep']=['N','V']

>>> pairs

{'genius': 'N', 'monstrous': 'ADJ', 'have': 'V', 'carelessly': 'ADV', 'sleep': ['N', 'V']}

字典的键必须是不可改变的类型，比如元组和字符串，而使用字典是不可以的。

>>> pairs['good','nice']='ADJ'

>>> pairs

{('good', 'nice'): 'ADJ'}

>>> pos = {['ideas','blogs','adventures']:'N'}

Traceback (most recent call last):

File "", line 1, in

TypeError: unhashable type: 'list'

在某些时候，我们访问的单词（键）可能并不存在于字典中，这样查询时会返回错误信息。

python2.5之后自带一种方法可以使得当要查询的单词（键）不存在时，可以以预设的值类型存储到字典中。

>>> frequency = nltk.defaultdict(int)

>>> frequency['colorless']=4

>>> frequency['ideas']

>>> pos = nltk.defaultdict(lambda:'N')

>>> pos['colorless']='ADJ'

>>> pos['apple']

'N'

>>> pos.items()

dict_items([('colorless', 'ADJ'), ('apple', 'N')])

默认字典应用于较大规模的语言处理任务中，许多语言处理任务包括标注，费大力气来正确处理文本中只出现过一次的词。当有固定的词汇并且不会有新词出现时，可能处理效果会更好。在默认字典下预处理文本，并使用特殊的“超出词汇表”标识符，UNK替换低频词汇。

>> alice = nltk.corpus.gutenberg.words('carroll-alice.txt')

>>> vocab = nltk.FreqDist(alice)

>>> v1000 = list(vocab)[:1000]

>>> mapping = nltk.defaultdict(lambda:'UNK')

>>> for v in v1000:

... mapping[v]=v

...

>>> alice2 = [mapping[v] for v in alice]

>>> alice2[:100]

['[', 'Alice', "'", 's', 'Adventures', 'in', 'Wonderland', 'by', 'Lewis', 'Carroll', '1865', ']', 'CHAPTER', 'I', '.', 'Down', 'the', 'Rabbit', '-', 'Hole', 'Alice', 'was', 'beginning', 'to', 'get', 'very', 'tired', 'of', 'sitting', 'by', 'her', 'sister', 'on', 'the', 'bank', ',', 'and', 'of', 'having', 'nothing', 'to', 'do', ':', 'once', 'or', 'twice', 'she', 'had', 'peeped', 'into', 'the', 'book', 'her', 'sister', 'was', 'reading', ',', 'but', 'it', 'had', 'no', 'pictures', 'or', 'conversations', 'in', 'it', ',', "'", 'and', 'what', 'is', 'the', 'use', 'of', 'a', 'book', ",'", 'thought', 'Alice', "'", 'without', 'pictures', 'or', 'conversation', "?'", 'So', 'she', 'was', 'considering', 'in', 'her', 'own', 'mind', '(', 'as', 'well', 'as', 'she', 'could', ',']

>>> len(set(alice2))

递增更新字典

可以使用字典计数出现的次数。首先初始化一个空的defaultdict，然后处理文本中每个词性标记，如果以前没有出现相同标记，就默认该标记的计数为0。每遇到一个标记，都递增其计数值。

>>> counts = nltk.defaultdict(int)

>>> for (word,tag) in brown.tagged_words(categories='news'):

... counts[tag] += 1

...

c>>> counts['N']

>>> list(counts)

['AT', 'NP-TL', 'NN-TL', 'JJ-TL', 'VBD', 'NR', 'NN', 'IN', 'NP$', 'JJ', '``', "''", 'CS', 'DTI', 'NNS', '.', 'RBR', ',', 'WDT', 'HVD', 'VBZ', 'CC', 'IN-TL', 'BEDZ', 'VBN', 'NP', 'BEN', 'TO', 'VB', 'RB', 'DT', 'PPS', 'DOD', 'AP', 'BER', 'HV', 'DTS', 'VBG', 'PPO', 'QL', 'JJT', 'ABX', 'NN-HL', 'VBN-HL', 'WRB', 'CD', 'MD', 'BE', 'JJR', 'VBG-TL', 'BEZ', 'NN$-TL', 'HVZ', 'ABN', 'PN', 'PPSS', 'PP$', 'DO', 'NN$', 'NNS-HL', 'WPS', '*', 'EX', 'VB-HL', ':', '(', ')', 'NNS-TL', 'NPS', 'JJS', 'RP', '--', 'BED', 'OD', 'BEG', 'AT-HL', 'VBG-HL', 'AT-TL', 'PPL', 'DOZ', 'NP-HL', 'NR$', 'DOD*', 'BEDZ*', ',-HL', 'CC-TL', 'MD*', 'NNS$', 'PPSS+BER', "'", 'PPSS+BEM', 'CD-TL', 'RBT', '(-HL', ')-HL', 'MD-HL', 'VBZ-HL', 'IN-HL', 'JJ-HL', 'PPLS', 'CD-HL', 'WPO', 'JJS-TL', 'ABL', 'BER-HL', 'PPS+HVZ', 'VBD-HL', 'RP-HL', 'MD*-HL', 'AP-HL', 'CS-HL', 'DT$', 'HVN', 'FW-IN', 'FW-DT', 'VBN-TL', 'NR-TL', 'NNS$-TL', 'FW-NN', 'HVG', 'DTX', 'OD-TL', 'BEM', 'RB-HL', 'PPSS+MD', 'NPS-HL', 'NPS$', 'WP$', 'NN-TL-HL', 'CC-HL', 'PPS+BEZ', 'AP-TL', 'UH-TL', 'BEZ-HL', 'TO-HL', 'DO*', 'VBN-TL-HL', 'NNS-TL-HL', 'DT-HL', 'BE-HL', 'DOZ*', 'QLP', 'JJR-HL', 'PPSS+HVD', 'FW-IN+NN', 'PP$$', 'JJT-HL', 'NP-TL-HL', 'NPS-TL', 'MD+HV', 'NP$-TL', 'OD-HL', 'JJR-TL', 'VBD-TL', 'DT+BEZ', 'EX+BEZ', 'PPSS+HV', ':-HL', 'PPS+MD', 'UH', 'FW-CC', 'FW-NNS', 'BEDZ-HL', 'NN$-HL', '.-HL', 'HVD*', 'BEZ*', 'AP$', 'NP+BEZ', 'FW-AT-TL', 'VB-TL', 'RB-TL', 'MD-TL', 'PN+HVZ', 'FW-JJ-TL', 'FW-NN-TL', 'ABN-HL', 'PPS+BEZ-HL', 'NR-HL', 'HVD-HL', 'RB$', 'FW-AT-HL', 'DO-HL', 'PP$-TL', 'FW-IN-TL', 'WPS+BEZ', '*-HL', 'DTI-HL', 'PN-HL', 'CD$', 'BER*', 'NNS$-HL', 'PN$', 'BER-TL', 'TO-TL', 'FW-JJ', 'BED*', 'RB+BEZ', 'VB+PPO', 'PPSS-HL', 'HVZ*', 'FW-IN+NN-TL', 'FW-IN+AT-TL', 'NN-NC', 'JJ-NC', 'NR$-TL', 'FW-PP$-NC', 'FW-VB', 'FW-VB-NC', 'JJR-NC', 'NPS$-TL', 'QL-TL', 'FW-AT', 'FW-*', 'FW-CD', 'WQL', 'FW-WDT', 'WDT+BEZ', 'N']

>>> len(counts)

219

>>> from operator import itemgetter

>>> sorted(counts.items(),key=itemgetter(1),reverse=True)

[('NN', 13162), ('IN', 10616), ('AT', 8893), ('NP', 6866), (',', 5133), ('NNS', 5066), ('.', 4452), ('JJ', 4392), ('CC', 2664), ('VBD', 2524), ('NN-TL', 2486), ('VB', 2440), ('VBN', 2269), ('RB', 2166), ('CD', 2020), ('CS', 1509), ('VBG', 1398), ('TO', 1237), ('PPS', 1056), ('PP$', 1051), ('MD', 1031), ('AP', 923), ('NP-TL', 741), ('``', 732), ('BEZ', 730), ('BEDZ', 716), ("''", 702), ('JJ-TL', 689), ('PPSS', 602), ('DT', 589), ('BE', 525), ('VBZ', 519), ('NR', 495), ('RP', 482), ('QL', 468), ('PPO', 412), ('WPS', 395), ('NNS-TL', 344), ('WDT', 343), ('BER', 328), ('WRB', 328), ('OD', 309), ('HVZ', 301), ('--', 300), ('NP$', 279), ('HV', 265), ('HVD', 262), ('*', 256), ('BED', 252), ('NPS', 215), ('BEN', 212), ('NN$', 210), ('DTI', 205), ('NP-HL', 186), ('ABN', 183), ('NN-HL', 171), ('IN-TL', 164), ('EX', 161), (')', 151), ('(', 148), ('JJR', 145), (':', 137), ('DTS', 136), ('JJT', 100), ('CD-TL', 96), ('NNS-HL', 92), ('PN', 89), ('RBR', 88), ('VBN-TL', 87), ('ABX', 73), ('NN$-TL', 69), ('IN-HL', 65), ('DOD', 64), ('DO', 63), ('BEG', 57), (',-HL', 55), ('VBN-HL', 53), ('AT-TL', 50), ('NNS$', 50), ('CD-HL', 50), ('PPS+BEZ-HL', 1), ('HVD-HL', 1), ('RB$', 1), ('FW-AT-HL', 1), ('DO-HL', 1), ('PP$-TL', 1), ('FW-IN-TL', 1), ('*-HL', 1), ('PN-HL', 1), ('PN$', 1), ('BER-TL', 1), ('TO-TL', 1), ('BED*', 1), ('RB+BEZ', 1), ('VB+PPO', 1), ('PPSS-HL', 1), ('HVZ*', 1), ('FW-IN+NN-TL', 1), ('FW-IN+AT-TL', 1), ('JJ-NC', 1), ('NR$-TL', 1), ('FW-PP$-NC', 1), ('FW-VB', 1), ('FW-VB-NC', 1), ('JJR-NC', 1), ('NPS$-TL', 1), ('QL-TL', 1), ('FW-*', 1), ('FW-CD', 1), ('WQL', 1), ('FW-WDT', 1), ('WDT+BEZ', 1), ('N', 0)]

sorted()的第一个参数是要排序的项目，也就是词性搭配的种数，由一个pos标记和一个频率组成的元组链表。第二个参数使用itemgetter()指定排序键。最后一个参数的指定项目表明应以反序返回，即按频率值递减输出。

>>> last_letters = nltk.defaultdict(list)

>>> words = nltk.corpus.words.words('en')

>>> for word in words:

... key = word[-2:]

... last_letters[key].append(word)

...

>>> last_letters['lly']

[]

>>> len(last_letters['ly'])

11523

>>> anagrams = nltk.defaultdict(list)

>>> for word in words:

... key = ''.join(sorted(word))

... anagrams[key].append(word)

...

>>> anagrams['aeilnrt']

['entrail', 'latrine', 'ratline', 'reliant', 'retinal', 'trenail']

创建词字典并按照频率排序是一种常见的任务，所以NLTK提供了一种更为方便的创建方式：

>>> anagrams['aeilnrt']

['entrail', 'latrine', 'ratline', 'reliant', 'retinal', 'trenail']

>>> aragrams = nltk.Index((''.join(sorted(w)),w) for w in words)

>>> aragrams['aeilnrt']

['entrail', 'latrine', 'ratline', 'reliant', 'retinal', 'trenail']

可以看出的是nltk.Index是额外支持初始化的defaultdict(list)，而nltk.FreqDist()的本质是额外支持初始化的defaultdict（附带排序和绘图方法）

字典支持高级查找，可获得任意键对应的值，但当给定一个值，需查找对应的键，并且需要多次执行这种操作，可建立一个映射值到键的字典。在任意两个键都不具有相同值的情况下，只要得到字典中所有的键值对，并创建新的值键对字典即可。

>>> pos = {'colorless':'ADJ','ideas':'N','sleep':'V','furiously':'ADV'}

>>> pos2 = dict((value,key) for (key,value) in pos.items())

>>> pos2['N']

'ideas'

>>> pos.update({'cats':'N'.'search':'V','peaceful':'ADV','old':'ADJ'})

>>> pos.update({'cats':'N','search':'V','peaceful':'ADV','old':'ADJ'})

>>> pos2 = nltk.defaultdict(list)

>>> for key,value in pos.items():

... pos2[value].append(key)

...

>>> pos2['ADV']

['furiously', 'peaceful']

用update方法在pos中加入一个词，创建多个具有相同值的情况，因为append()积累词性后，每个键所对应的词会有相同的词性，不满足此前建立逆向字典的方法就失效了。

python字典方法总结：

d1.update(d2)：添加d2中所有项目到d1

defaultdict(int)：一个默认值为0的字典

你可能感兴趣的:(python自然语言处理)

Python 自然语言处理实战： NLTK 与 spaCy，文本分析的左右护法清水白石008 python Python题库 python 自然语言处理 easyui
Python自然语言处理实战：NLTK与spaCy，文本分析的左右护法引言在信息爆炸的时代，文本数据以前所未有的速度增长，蕴藏着巨大的信息和价值。从社交媒体的评论，到浩如烟海的文档，文本数据无处不在，成为了解用户意图、挖掘商业情报、洞察社会趋势的关键来源。然而，文本数据本质上是非结构化的，计算机难以直接理解和处理。自然语言处理(NaturalLanguageProcessing,NLP)技术应运而
python自然语言处理—Word2vec模型之Skip-gram 诗雨时 python
Word2vec模型之Skip-gram（跳字）模型一、skip-gram模型图二、skip-gram模型图示例说明举个例子来说明这个图在干嘛：1、假设我们的文本序列有五个词，["the","man","loves","his","son"]。2、假设我们的窗口大小为skip-window=2，中心词为"loves"，那么上下文的词即为："the"、"man"、"his"、"son"。这里的上下文
Python自然语言处理之spacy模块介绍、安装与常见操作案例袁袁袁袁满 Python实用技巧大全 python 自然语言处理 easyui
文章目录spacy模块介绍安装spacy常见操作案例及代码1.加载模型并处理文本2.词性标注3.命名实体识别4.依存句法分析5.可视化（在JupyterNotebook中）spacy模块介绍spacy是一个强大的Python库，用于自然语言处理（NLP）。它提供了丰富的功能，包括分词、词性标注、依存句法分析、命名实体识别等，并且支持多种语言。spacy以其高性能、易用性和可扩展性而受到广泛欢迎。安
自然语言处理（NLP）-总览图学习汤姆和佩琦 NLP 自然语言处理学习人工智能
文章目录自然语言处理（NLP）-总览图学习1.一张总览图的学习1.语音学（Phonology）2.形态学（Morphology）3.句法学（Syntax）4.语义学（Semantics）5.推理（Reasoning）小结自然语言处理（NLP）-总览图学习转自《Python自然语言处理第二版》1.一张总览图的学习这张图片展示了一个自然语言处理的流程模型，涵盖了从语音分析到应用推理和执行的多个阶段，每
Python与自然语言处理库Gensim实战心梓知识 python 自然语言处理 easyui
一、Gensim简介Gensim是一款Python自然语言处理库。它能够自动化训练出一个文本语料库，然后用该语料库来训练出一个词向量模型。在语料库中，每个语料库都是由一个个文档组成，每个文档则是由若干个单词组成。Gensim相对于其他Python自然语言处理库的优点在于它的速度和内存占用率较低。同时它还提供了许多文本处理的功能，比如文档相似度计算和主题建模等。二、安装Gensim在安装Gensim
Python自然语言处理：NLTK库详解小雨淋林 Python基础入门教程 python 自然语言处理 easyui
自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学与人工智能领域中一个重要的研究方向，旨在使计算机能够理解、解释、生成人类语言。在Python中，NLTK（NaturalLanguageToolkit）库是一个功能强大、广泛使用的自然语言处理库。本篇博客将深入介绍NLTK库的使用，包括分词、词性标注、命名实体识别、情感分析等常见任务，并通过实例演示其在实际应用中
【AI底层逻辑】——数学与机器学习：优雅的智慧之舞柯宝最帅 AI底层逻辑人工智能机器学习
目录“宝藏网站”聊聊数学“华尔兹”“智慧之舞”后续的章节我们将迎来新的篇章，新的切入点探索AI的奥秘，通过揭示高数、矩阵、概率论等数学知识与机器学习的关系来深入理解AI的奥秘！“宝藏网站”开头先给大家上几个宝藏网站（部分需要“梯子”）：sklearn主页特征工程免费专著模型选择深度学习开源专著Python自然语言处理学习手册图形讲数学与神经网络视频合集聊聊数学数学，即工具。与锤子、剪刀一样，数学也
深入NLTK：Python自然语言处理库高级教程 Python老猿 python 自然语言处理 easyui 机器学习开发语言自动化人工智能
在前面的初级和中级教程中，我们了解了NLTK库中的基本和进阶功能，如词干提取、词形还原、n-gram模型和词云的绘制等。在本篇高级教程中，我们将深入探索NLTK的更多高级功能，包括句法解析、命名实体识别、情感分析以及文本分类。一、句法解析句法解析是自然语言处理中的一项重要任务，它的目的是识别出文本中词语之间的句法关系。在NLTK中，我们可以使用StanfordParser进行句法解析：python
自然语言处理（NLP）-spacy简介以及安装指南（语言库zh_core_web_sm）汀、人工智能 python Elastic search 自然语言处理人工智能 spacy 实体抽取词法分析分词
spacy简介spacy是Python自然语言处理软件包，可以对自然语言文本做词性分析、命名实体识别、依赖关系刻画，以及词嵌入向量的计算和可视化等。1.安装spacy使用“pipinstallspacy"报错，或者安装完spacy，无法正常调用，可以通过以下链接将whl文件下载到本地，然后cd到文件路径下，通过pip安装。pipinstallspacy下载链接：Archived:PythonExt
python自然语言处理库_Python自然语言处理工具库（含中文处理） weixin_39876739 python自然语言处理库
自然语言处理（NaturalLanguageProcessing，简称NLP），是研究计算机处理人类语言的一门技术。随着深度学习在图像识别、语音识别领域的大放异彩，人们对深度学习在NLP的价值也寄予厚望。再加上AlphaGo的成功，人工智能的研究和应用变得炙手可热。自然语言处理作为人工智能领域的认知智能，成为目前大家关注的焦点。NLP研究领域包括：句法语义分析：对于给定的句子，进行分词、词性标记、
python自然语言处理实战微盘_Python自然语言处理实战：核心技术与算法 weixin_39624774 python自然语言处理实战微盘
涂铭：阿里巴巴数据架构师，对大数据、自然语言处理、Python、Java相关技术有深入的研究，积累了丰富的实践经验。曾就职于北京明略数据，是大数据方面的高级咨询顾问。在工业领域参与了设备故障诊断项目，在零售行业参与了精准营销项目。在自然语言处理方面，担任导购机器人项目的架构师，主导开发机器人的语义理解、短文本相似度匹配、上下文理解，以及通过自然语言检索产品库，在项目中构建了NoSQL+文本检索等大
Python自然语言处理实战（7）：文本向量化 CopperDong NLP
7.1文本向量化概述文本表示是自然语言处理中的基础工作，文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种重要方式。顾名思义，文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文，词语都是表达文本处理的最基本单元。当前阶段，对文本向量化大部分的研究都是通过词向量化实现的。与此同时，也有相当一部分研究者将句子作为文本处理的基本单元，于是产生了doc2
学习笔记（2):Python自然语言处理-BERT模型实战-特征分配与softmax机制意慢研发管理 python 自然语言处理人工智能 NLP 框架
立即学习:https://edu.csdn.net/course/play/26498/334606?utm_source=blogtoedu
学习笔记(04):Python自然语言处理-BERT模型实战-NER标注数据处理与读取 pt net 研发管理 python 自然语言处理人工智能 NLP 框架
立即学习:https://edu.csdn.net/course/play/26498/334637?utm_source=blogtoedu-data_dir=data-output_dir=result-init_checkpoint=chinese_L-12_H-768_A-12/bert_model.ckpt-bert_config_file=chinese_L-12_H-768_A-12
Python自然语言处理入门教程 JieLun_C python 自然语言处理 easyui Python
自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能领域中的一个重要分支，它研究如何使计算机能够理解和处理人类语言。Python是一种功能强大且易于使用的编程语言，广泛应用于NLP任务的开发。本教程将向您介绍使用Python进行简单的自然语言处理的基本知识和技巧。在开始之前，请确保已经安装了Python的最新版本，并安装了以下关键库：NLTK（NaturalLa
python自然语言处理技术分析辰东的《完美世界》艾瑞娅
本篇文章的灵感主要来源于网上各种各样的关于自然语言分析的教程。曾记得我N年前读过《完美世界》。突然有种想分析其人物关系的冲动。当然现在我已经对里面主人公忘得一干二净，正好排除外界因素来检测文本处理人物关系是否正确。首先介绍一下本篇文章的主要内容。第一步先统计小说里面出现的TOP20高频词。第二步就绘制一个关于小说的高频词词云。第三步则绘制人物关系图（CP图）第一步首先先说明一点由于本次处理
【自然语言处理】NLTK库的概念和作用酒酿小圆子～自然语言处理
文章目录一、NLTK库介绍二、NLTK库的使用2.1初级使用2.2中级使用参考资料一、NLTK库介绍NaturalLanguageToolkit(NLTK)是一个广泛使用的Python自然语言处理工具库，由StevenBird、EdwardLoper和EwanKlein于2001年发起开发。NLTK的目的是为自然语言处理（NLP）提供一个完整的、易于使用的工具集，使研究人员、学生和开发人员能够更加
《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记：05 特征工程和NLP算法 miniAI学堂 2017年度自然语言处理特征工程 Stanford spaCy
05特征工程和NLP算法5.1理解特征工程5.1.1特征工程的定义5.1.2特征工程的目的5.1.3一些挑战5.2NLP中的基础特征5.2.1句法解析和句法解析器5.2.2词性标注和词性标注器理解词性标注和词性标注器的概念一步步开发词性标注器即插即用现有词性标注器使用词性标注作为特征挑战5.2.3命名实体识别NER类StanfordNERSpacyNER提取和理解特征挑战5.2.4n元语法5.2.
python自然语言处理-几种常见的平滑算法诗雨时 python
几种常见的平滑算法在计算语言模型的过程中，对于句子中的每一个字符或者词都需要一个非零的概率值，因为一旦存在一个概率为0的结果，那么整个计算公式的结果都为0，这种问题我们叫做数据匮乏（稀疏），所以必须分配给所有可能出现的字符串一个非0的概率值来避免这种错误的发生。举个例子，当我们需要计算一个sentence我喜欢看电影的概率时：P(我,喜欢,看电影)=P(我)*P(喜欢|我)*P(看电影|喜欢)如果
一款简化Python自然语言处理的开源库迷途小书童的Note python 自然语言处理开发语言人工智能
迷途小书童读完需要3分钟速读仅需1分钟1简介TextBlob是一个Python库，用于处理文本数据的自然语言处理（NLP）任务。它提供了简单且易于使用的API，使得对文本进行分析、情感分析、词性标注、名词短语提取等任务变得更加简单。TextBlob的核心功能是基于NLTK（自然语言工具包）和Pattern库构建的。它使用了机器学习算法和语言模型来执行各种文本处理任务。2安装使用之前，需要安装，打开
FileNotFoundError: [Errno 2] No such file or directory: ‘errors.out‘ （python自然语言处理章节5.6 最后的示例报错） _Meilinger_ 碎片笔记 python nlp 自然语言处理数据类型
在使用python3.7运行NaturalLanguageProcessingwithPythonChapter5的最后一个示例fromnltk.tblimportdemoasbrill_demobrill_demo.demo()print(open("errors.out").read())时，出现如下错误：Traceback(mostrecentcalllast):File"E:/Python
自学Python看什么书？这6本Python高质量书籍，总有一本适合你一秋的编程笔记计算机科技 Python 编程人工智能 python 数据分析编程 Python书籍
文章目录1、《“笨办法”学Python》2、《Python快速编程入门》3、《Python高手之路(第3版)》4、《Python算法教程》5、《Python核心编程（第3版）》6、《精通Python自然语言处理》读者福利1、Python所有方向的学习路线2、Python课程视频3、精品书籍4、清华编程大佬出品《漫画看学Python》5、Python实战案例6、互联网企业面试真题随着我国在人工智能的
python自然语言处理工具包 zerowl
[NLTK]http://www.nltk.org/:NLTK在用Python处理自然语言的工具中处于领先的地位。它提供了WordNet这种方便处理词汇资源的借口，还有分类、分词、除茎、标注、语法分析、语义推理等类库。[Pattern]https://github.com/clips/pattern:Pattern的自然语言处理工具有词性标注工具(Part-Of-SpeechTagger)，N元搜
6个强大又容易上手的Python自然语言处理库 Python学研大本营 python 自然语言处理开发语言
6个顶级自然语言处理库指南。微信搜索关注《Python学研大本营》，加入读者群，分享更多精彩自然语言处理是最热门的研究领域之一。虽然NLP任务一开始可能看起来有点复杂，但通过使用正确的工具，它们可以变得更容易。本文涵盖了6个顶级NLP库，可以节省用户的时间和精力。简介不同的语言被用于交流目的，语言被认为是最复杂的数据形式之一。你有没有想过像谷歌翻译、Alexa和Siri这样的语音助手是如何理解、处
自学python数月，开贴第一天紫竹潇潇
简单介绍下自己，本菜鸟是财务背景妹子一枚，没有编程基础自学pyhon数月，半只脚入门，但是不够系统，准备立贴记下自己每天python成长路上的足迹，起到监督和相互学习的作用。目前主攻python自然语言，也会涉及数据分析，简单了解爬虫但不能熟练操作。准备跟着python自然语言处理这本书走，把每天自己实际操作遇到的问题和收获放置于此。一、对一些概念不熟悉，百度查询url:统一资源定位符是对可以从互
Python自然语言处理：NLTK入门指南格林希尔 Python实践 python 自然语言处理机器学习人工智能开发语言
Python自然语言处理：NLTK入门指南一、Python自然语言处理简介1.什么是自然语言处理（NLP）2.Python在NLP中的应用3.为什么选择使用Python进行NLP二、NLTK介绍1.NLTK是什么2.NLTK的历史和现状3.NLTK的安装和配置4.NLTK的基本功能分词：词性标注：去除停用词：词干提取：词形归一化：三、语料库和数据预处理1.语料库介绍2.NLTK支持的语料库3.数据
NLTK入门，‘tokenizers/punkt/PY3/english.pickle‘ not found报错王的备忘录 A8-人工智能与大数据 python nlp
安装nltk，并且下载到nltk_data后，将目录放置到C:\ProgramData\miniconda3下运行py，提示'tokenizers/punkt/PY3/english.pickle'notfoundimportnltknltk.download('punkt')运行以上代码下载punkt成功调用nltk中的方法nltk相关的详细使用方法可以参考如下连接。Python自然语言处理：N
用python处理自然语言 pdf_Python自然语言处理 PDF下载 weixin_39876595 用python处理自然语言 pdf
Python自然语言处理PDF下载内容简介自然语言处理(NaturalLanguageProcessing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法，涉及所有用计算机对自然语言进行的操作。《Python自然语言处理》是自然语言处理领域的一本实用入门指南，旨在帮助读者学习如何编写程序来分析书面语言。《Python自然语
python是自然语言吗_Python自然语言处理 weixin_39905624 python是自然语言吗
计算机热卖专区￥戳进来已售3500件下单优惠正版python基础教程零基础学Python编程从入门到实践计算机程序设计pathon3核心技术网络爬虫书籍数据分析实战教程教材￥戳进来已售5782件JS入门两件套JavaScript高级程序设计JavaScriptDOM编程艺术js入门到精通书籍权威指南web前端开发HTML网站JavaScript工具书￥戳进来已售6950件Cprimerplus第6
python自然语言理解_《Python自然语言处理》 weixin_39928818 python自然语言理解
《Python自然语言处理》基本信息作者：(美)StevenBirdEwanKleinEdwardLoper出版社：人民邮电出版社ISBN：9787115333681上架时间：2014-6-13出版日期：2014年6月开本：16开页码：508版次：1-1所属分类：计算机>软件与程序设计>Python内容简介书籍计算机书籍自然语言处理(naturallanguageprocessing，nlp)是计
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。