retacn

python自然语言处理学习笔记一

第一章语言处理与python

1 语言计算文本与词汇

NLTK入门

下载安装nltk

http://www.nltk.org

下载数据

>>> import nltk

>>> nltk.download()

下载完成,加载文本

>>> from nltk.book import *

*** Introductory Examples for the NLTK Book***

Loading text1, ..., text9 and sent1, ...,sent9

Type the name of the text or sentence toview it.

Type: 'texts()' or 'sents()' to list thematerials.

text1: Moby Dick by Herman Melville 1851

text2: Sense and Sensibility by Jane Austen1811

text3: The Book of Genesis

text4: Inaugural Address Corpus

text5: Chat Corpus

text6: Monty Python and the Holy Grail

text7: Wall Street Journal

text8: Personals Corpus

text9: The Man Who Was Thursday by G . K .Chesterton 1908

输入名字即可查询对应文本

>>> text1

>>> text2

搜索文本

>>> text1.concordance('monstrous')

Displaying 11 of 11 matches:

ong the former , one was of a mostmonstrous size . ... This came towards us ,

ON OF THE PSALMS . " Touching thatmonstrous bulk of the whale or ork we have r

ll over with a heathenish array ofmonstrous clubs and spears . Some were thick

d as you gazed , and wondered whatmonstrous cannibal and savage could ever hav

that has survived the flood ; mostmonstrous and most mountainous ! That Himmal

they might scout at Moby Dick as amonstrous fable , or still worse and more de

th of Radney .'" CHAPTER 55 Of theMonstrous Pictures of Whales . I shall ere l

ing Scenes . In connexion with themonstrous pictures of whales , I am strongly

ere to enter upon those still moremonstrous stories of them which are to be fo

ght have been rummaged out of thismonstrous cabinet there is no telling . But

of Whale - Bones ; for Whales of amonstrous size are oftentimes cast up dead u

#还有哪些词出现在相同的上文中

>>> text1.similar('monstrous')

impalpable puzzled part mystifying gamesomehorrible maddens

domineering curious exasperate untowardcontemptible careful

trustworthy delightfully christian meanuncommon abundant wise

>>> text2.similar('monstrous')

very exceedingly so heartily as vastamazingly extremely great sweet a

remarkably good

>>>text2.common_contexts(['monstrous','very'])

be_glad a_lucky am_glad is_pretty a_pretty

#美国总统就职演说词汇分布图

>>> text4.dispersion_plot(['citizens','democracy','freedom','duties','America'])

#产生随机文本

>>> text3.generate()

Traceback (most recent call last):

File "", line 1, in

AttributeError: 'Text' object has noattribute 'generate'

#计数词汇

>>> len(text3) #创世纪有44764个单词和标点符号

44764

#取得排序后的词汇条目

>>> sorted(set(text3))

['!', "'", '(', ')', ',', ',)','.', '.)', ':', ';', ';)', '?', '?)', 'A', 'Abel', 'Abelmizraim', 'Abidah','Abide', 'Abimael', 'Abimelech', 'Abr', 'A

brah', 'Abraham', 'Abram', 'Accad', 'Achbor','Adah', 'Adam', 'Adbeel', 'Admah', 'Adullamite', 'After', 'Aholibamah','Ahuzzath', 'Ajah', 'Akan', 'All

', 'Allonbachuth', 'Almighty', 'Almodad','Also', 'Alvah', 'Alvan', 'Am', 'Amal', 'Amalek', 'Amalekites', 'Ammon','Amorite', 'Amorites', 'Amraphel',

#取得词汇总数

>>> len(set(text3))

2789

#每个词平均使用了16次

>>> from __future__ importdivision

>>> len(text3)/len(set(text3))

16.050197203298673

#计算单词在文中出现次数

>>> text3.count('smote')

#计算特定词在文中占据的百分比

>>>100*text4.count('a')/len(text4)

1.4643016433938312

#定义函数实现以上功能

>>> def lexical_diversity(text):

... return len(text)/len(set(text))

...

>>> def percentage(count,total):

... return 100*count/total

...

#函数调用

>>> lexical_diversity(text3)

16.050197203298673

>>> percentage(text4.count('a'),len(text4))

1.4643016433938312

2 将文本当作词链表

链表定义

>>>sent1=['call','me','retacn','.']

>>> sent1

['call', 'me', 'retacn', '.']

>>> len(sent1)

>>> lexical_diversity(sent1)

1.0

>>> ['monty','python']+['and','the','holy','grail']

['monty', 'python', 'and', 'the', 'holy','grail']

>>> sent1.append('some')

>>> sent1

['call', 'me', 'retacn', '.', 'some']

列表索引

>>> text4[173]

'awaken'

>>> text4.index('awaken')

173

#切片

>>> text5[16715:16735]

['U86', 'thats', 'why', 'something','like', 'gamefly', 'is', 'so', 'good', 'because', 'you', 'can', 'actually','play', 'a', 'full', 'game', 'without

', 'buying', 'it']

>>> text6[1600:1625]

['We', "'", 're', 'an','anarcho', '-', 'syndicalist', 'commune', '.', 'We', 'take', 'it', 'in','turns', 'to', 'act', 'as', 'a', 'sort', 'of', 'execu

tive', 'officer', 'for', 'the', 'week']

#索引的错误使用

>>> len(text5)

45010

>>> text5[45010]

Traceback (most recent call last):

File "", line 1, in

File "D:\Python35\lib\site-packages\nltk\text.py", line 314,in __getitem__

return self.tokens[i]

IndexError: list index out of range

#使用索引示例

>>> text8[:3]

['25', 'SEXY', 'MALE']

>>> text8[4860:]

['FREE', 'to', 'advertise', 'in','Perfect', 'Match', '!']

变量

>>>sent1=['call','me','retacn','.']

字符串

>>> name='retacn'

>>> name[0]

'r'

>>> name[:5]

'retac'

>>> name[:]

'retacn'

#乘法/加法

>>> name*2

'retacnretacn'

>>> name+'!'

'retacn!'

#把字符串分割成链表

>>> ' '.join(['retacn','coder'])

'retacn coder'

>>> 'retacn coder'.split()

['retacn', 'coder']

3 简单的统计

>>>saying=['retacn','is','a','coder','!']

>>> saying

['retacn', 'is', 'a', 'coder', '!']

>>> tokens=set(saying)

>>> tokens

{'is', 'retacn', 'a', 'coder', '!'}

>>> tokens=sorted(tokens)

>>> tokens

['!', 'a', 'coder', 'is', 'retacn']

>>> tokens[-2:]

['is', 'retacn']

频率分布

#找到书中使用最频繁的50个字

>>> fdist1=FreqDist(text1)

>>> fdist1

FreqDist({',': 18713, 'the': 13721, '.':6862, 'of': 6536, 'and': 6024, 'a': 4569, 'to': 4542, ';': 4072, 'in': 3916,'that': 2982, ...})

>>> vocabulary1=fdist1.keys()

#单词总数

>>> len(fdist1)

19317

>>> vocabulary1=list(vocabulary1)

>>> vocabulary1[:50]

['sweetest', 'demeanor', 'cutlets','bathing', 'eddy', 'summits', 'eager', 'carcass', 'splintered', 'coppers','ruinous', 'ease', 'Gather', 'immovable

', 'Verdes', 'breathing', 'colony','dreamed', 'deepeningly', 'artisan', 'placid', 'seven', 'manipulator','Cistern', 'favourites', 'GOLDSMITH', 'Nick

', 'swooping', 'coupled', 'vocation','greatness', 'Tower', 'reelingly', 'ceti', 'Lavater', 'Zealand', 'unread','Spin', 'crape', 'screamed', '.\'"',

'charged', 'sublimer', 'phantoms', 'cheer','saved', 'timber', 'skins', 'yore', 'spot']

#出现906次

>>> fdist1['whale']

906

#查看词汇的累计频率图

>>>fdist1.plot(50,cumulative=True)

#查询只出现一次的词

>>> fdist1.hapaxes()

细粒度的选择词

#查找长度大于15的词

>>> v=set(text1)

>>> long_word=[w for w in v iflen(w)>15]

>>> long_word

['uninterpenetratingly','uncomfortableness', 'supernaturalness', 'physiognomically','characteristically', 'cannibalistically', 'CIRCUMNAVIGATION', '

circumnavigating', 'indiscriminately','apprehensiveness', 'superstitiousness', 'circumnavigation','simultaneousness', 'circumnavigations', 'preterna

turalness', 'Physiognomically','indispensableness', 'comprehensiveness', 'hermaphroditical', 'irresistibleness','undiscriminating', 'subterraneousne

ss', 'responsibilities','uncompromisedness']

>>> sorted(long_word)

['CIRCUMNAVIGATION', 'Physiognomically','apprehensiveness', 'cannibalistically', 'characteristically','circumnavigating', 'circumnavigation', 'circu

mnavigations', 'comprehensiveness','hermaphroditical', 'indiscriminately', 'indispensableness','irresistibleness', 'physiognomically', 'preternatura

lness', 'responsibilities','simultaneousness', 'subterraneousness', 'supernaturalness', 'superstitiousness','uncomfortableness', 'uncompromisedness'

, 'undiscriminating','uninterpenetratingly']

#长度超过7个字符且出现次数大于7

>>> fdist5=FreqDist(text5)

>>> sorted([w for w in set(fdist5)if len(w)>7 and fdist5[w]>7])

['#14-19teens', '#talkcity_adults', '((((((((((','........', 'Question', 'actually', 'anything', 'computer', 'cute.-ass','everyone', 'football', 'in

nocent', 'listening', 'remember','seriously', 'something', 'together', 'tomorrow', 'watching']

词语搭配和双连词

>>>bigrams(['more','is','said','than','done'])

Traceback (most recent call last):

File "", line 1, in

NameError: name 'bigrams' is not defined

#导入模块

>>> from nltk import *

>>>bigrams(['more','is','said','than','done'])

>>> v=bigrams(['more','is','said','than','done'])

>>> v

>>> list(v)

[('more', 'is'), ('is', 'said'), ('said','than'), ('than', 'done')]

#查找双连词

>>> text4.collocations()

United States; fellow citizens; four years;years ago; Federal

Government; General Government; Americanpeople; Vice President; Old

World; Almighty God; Fellow citizens; ChiefMagistrate; Chief Justice;

God bless; every citizen; Indian tribes;public debt; one another;

foreign nations; political parties

>>> text8.collocations()

would like; medium build; social drinker;quiet nights; non smoker;

long term; age open; Would like; easygoing; financially secure; fun

times; similar interests; Age open;weekends away; poss rship; well

presented; never married; single mum;permanent relationship; slim

Build

计算其他东西

#查看文本中词长分布

>>> [len(w) for w in text1][:10]

[1, 4, 4, 2, 6, 8, 4, 1, 9, 1]

#计数链表中每个数字出现的次数

>>> fdist=FreqDist([len(w) for win text1])

>>> fdist

FreqDist({3: 50223, 1: 47933, 4: 42345, 2:38513, 5: 26597, 6: 17111, 7: 14399, 8: 9966, 9: 6428, 10: 3528, ...})

#样本总数

>>> fdist.N()

#同上

>>> len(fdist)

>>> fdist.keys()

dict_keys([1, 2, 3, 4, 5, 6, 7, 8, 9, 10,11, 12, 13, 14, 15, 16, 17, 18, 20])

#可以看出最长字符个数为20

>>> list(fdist.keys())

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13,14, 15, 16, 17, 18, 20]

>>> fdist.items()

dict_items([(1, 47933), (2, 38513), (3,50223), (4, 42345), (5, 26597), (6, 17111), (7, 14399), (8, 9966), (9, 6428),(10, 3528), (11, 1873), (12, 105

3), (13, 567),(14, 177), (15, 70), (16, 22), (17, 12), (18, 1), (20, 1)])

#最频繁词的长度是3

>>> fdist.max()

#长度为3的词

>>> fdist[3]

50223

>>> fdist.freq(3)

0.19255882431878046

Nltk频率分布类中常用函数

Fdist=FreqDist(text) #创建频率分布

Fdist.inc(‘’) #增加样本

Fdist[‘’] #给定样本出现的次数

Fdist.freq(‘’) #给定样本的频率

fdist.N() #样本总数

Fdist.keys() #样本链表(频率递减速)

For w in fdist: #遍历样本链表

Fdist.max() #数值最大的样本

Fdist.tabulate() #绘制频率分布表

Fdist.plot() #绘制频率分布图

Fdist.plot(cumulative=True) #绘制累积频率分布图

Fdist1

4 决策与控制

条件

数值比较运算符

>>> from nltk.book import *

*** Introductory Examples for the NLTK Book***

Loading text1, ..., text9 and sent1, ...,sent9

Type the name of the text or sentence toview it.

Type: 'texts()' or 'sents()' to list thematerials.

text1: Moby Dick by Herman Melville 1851

text2: Sense and Sensibility by Jane Austen1811

text3: The Book of Genesis

text4: Inaugural Address Corpus

text5: Chat Corpus

text6: Monty Python and the Holy Grail

text7: Wall Street Journal

text8: Personals Corpus

text9: The Man Who Was Thursday by G . K .Chesterton 1908

>>> sent1

['Call', 'me', 'Ishmael', '.']

>>> sent7

['Pierre', 'Vinken', ',', '61', 'years','old', ',', 'will', 'join', 'the', 'board', 'as', 'a', 'nonexecutive','director', 'Nov.', '29', '.']

>>> [w for w in sent7 iflen(w)<4]

[',', '61', 'old', ',', 'the', 'as', 'a','29', '.']

>>> [w for w in sent7 iflen(w)<=4]

[',', '61', 'old', ',', 'will', 'join','the', 'as', 'a', 'Nov.', '29', '.']

>>> [w for w in sent7 iflen(w)==4]

['will', 'join', 'Nov.']

>>> [w for w in sent7 iflen(w)!=4]

['Pierre', 'Vinken', ',', '61', 'years','old', ',', 'the', 'board', 'as', 'a', 'nonexecutive', 'director', '29', '.']

词汇比较运算符

#以指定字符开头

>>> sorted(w for w in set(text1)if w.startswith('ab'))

['aback', 'abaft', 'abandon', 'abandoned','abandonedly', 'abandonment', 'abased', 'abasement', 'abashed', 'abate','abated', 'abatement', 'abating',

#以指定字符开头

>>> sorted(w for w in set(text1)if w.endswith('ableness'))

['comfortableness', 'honourableness','immutableness', 'indispensableness', 'indomitableness', 'intolerableness','palpableness', 'reasonableness', 'u

ncomfortableness']

#包含指定字符

>>> sorted([term for term inset(text4) if 'gnt' in term])

['Sovereignty', 'sovereignties','sovereignty']

#首字母大写

>>> sorted([term for term inset(text6) if term.istitle()])

['A', 'Aaaaaaaaah', 'Aaaaaaaah', 'Aaaaaah','Aaaah', 'Aaaaugh', 'Aaagh', 'Aaah', 'Aaauggh', 'Aaaugh', 'Aaauugh', 'Aagh','Aah', 'Aauuggghhh', 'Aauuugh

', 'Aauuuuugh', 'Aauuuves', 'Action','Actually', 'African', 'Ages', 'Aggh', 'Agh', 'Ah', 'Ahh', 'Alice', 'All','Allo', 'Almighty', 'Alright', 'Am',

#数字

>>> sorted([term for term inset(text6) if term.isdigit()])

['1', '10', '11', '12', '13', '14', '15','16', '17', '18', '19', '2', '20', '21', '22', '23', '24', '3', '4', '5', '6','7', '8', '9']

#小写

Islower()

#大写

Isupper()

#字母

Isalpha()

#字母或数字

Isalnum()

对每个元素进行操作

>>> [len(s.upper() for s in text1]

>>> [len(w.upper() for s in text1]

#词汇计数

>>> len(text1)

260819

>>> len(set(text1))

19317

>>> len(set([word.lower() for wordin text1]))

17231

>>> len(set([word.lower() for wordin text1 if word.isalpha()]))

16948

嵌套代码块

>>> word='cat'

>>> if len(word)<5:

... print('word length is less than 5')

...

word length is less than 5

#循环体内要空4个空格

>>> for word in sent1:

... print(word)

...

Call

Ishmael

#条件循环

>>> for word in sent1:

... if(word.endswith('l')):

... print(word)

...

Call

Ishmael

>>> for token in sent1:

... if token.islower():

... print(token,'is a lowercase word')

... elif token.istitle():

... print(token,'is a titlecase word')

... else:

... print(token,'is punctuation')

...

Call is a titlecase word

me is a lowercase word

Ishmael is a titlecase word

. is punctuation

5 自动理解自然语言

语言理解技术

词意消歧

指代消解

自动生成语言

机器翻译

人机对话系统

你可能感兴趣的:(python自然语言处理)

Python自然语言处理库之gensim使用详解 Rocky006 python 开发语言
概要Gensim是一个专门用于无监督主题建模和自然语言处理的Python开源库，由捷克共和国的RadimŘehůřek开发。该库专注于处理大规模文本数据，提供了多种经典的主题建模算法，如LDA（潜在狄利克雷分配）、LSI（潜在语义索引）等，以及现代化的词向量模型Word2Vec、Doc2Vec、FastText等。Gensim的设计理念是"为人类而非机器"，强调易用性和可扩展性，特别适合处理无标签
《Python自然语言处理（第二版）-Steven Bird等》学习笔记：第02章获得文本语料和词汇资源 miniAI学堂 2015年度 Python 自然语言处理语料库中文资源
第02章获得文本语料和词汇资源2.1获取文本语料库古腾堡语料库网络和聊天文本布朗语料库路透社语料库就职演说语料库标注文本语料库在其他语言的语料库文本语料库的结构载入你自己的语料库中文自然语言处理语料/数据集情感/观点/评论倾向性分析中文命名实体识别推荐系统2.2条件频率分布条件和事件按文体计数词汇绘制分布图和分布表使用双连词生成随机文本2.3更多关于Python代码重用使用文本编辑器创建程序函数模
Python自然语言处理：gensim库的探索与应用丶本心灬
本文还有配套的精品资源，点击获取简介：本文档介绍了gensim库——一个专为Python设计的开源自然语言处理工具，它支持词向量模型、主题模型、相似度计算、TF-IDF和LSA等核心功能。该库适用于文档相似性和主题建模任务，特别强调其在处理大规模语料库中的高效性和准确性。包含gensim-4.0.0版本的预编译安装包，为64位Windows系统上的Python3.6版本提供便捷安装体验。文档还提供
神经网络语言模型基本原理和实践隔壁的NLP小哥 NLP学习神经网络
神经网络语言模型(NNLM)基本原理和实践本文参照了《深度学习原理与Pytorch实战》和《Python自然语言处理实战核心技术与算法》中的部分代码和原理。1文本向量化概述对于常规的文本，计算机是无法直接处理的，需要我们将文本数据转换成计算机可以进行处理的形式。在NLP领域，文本的向量化是一项十分重要和基础的工作。所谓的文本向量化，就是将文本表示成一系列能够表示文本语义的向量。在一般的文本中，能够
Python 自然语言处理实战： NLTK 与 spaCy，文本分析的左右护法清水白石008 python Python题库 python 自然语言处理 easyui
Python自然语言处理实战：NLTK与spaCy，文本分析的左右护法引言在信息爆炸的时代，文本数据以前所未有的速度增长，蕴藏着巨大的信息和价值。从社交媒体的评论，到浩如烟海的文档，文本数据无处不在，成为了解用户意图、挖掘商业情报、洞察社会趋势的关键来源。然而，文本数据本质上是非结构化的，计算机难以直接理解和处理。自然语言处理(NaturalLanguageProcessing,NLP)技术应运而
python自然语言处理—Word2vec模型之Skip-gram 诗雨时 python
Word2vec模型之Skip-gram（跳字）模型一、skip-gram模型图二、skip-gram模型图示例说明举个例子来说明这个图在干嘛：1、假设我们的文本序列有五个词，["the","man","loves","his","son"]。2、假设我们的窗口大小为skip-window=2，中心词为"loves"，那么上下文的词即为："the"、"man"、"his"、"son"。这里的上下文
Python自然语言处理之spacy模块介绍、安装与常见操作案例袁袁袁袁满 Python实用技巧大全 python 自然语言处理 easyui
文章目录spacy模块介绍安装spacy常见操作案例及代码1.加载模型并处理文本2.词性标注3.命名实体识别4.依存句法分析5.可视化（在JupyterNotebook中）spacy模块介绍spacy是一个强大的Python库，用于自然语言处理（NLP）。它提供了丰富的功能，包括分词、词性标注、依存句法分析、命名实体识别等，并且支持多种语言。spacy以其高性能、易用性和可扩展性而受到广泛欢迎。安
自然语言处理（NLP）-总览图学习汤姆和佩琦 NLP 自然语言处理学习人工智能
文章目录自然语言处理（NLP）-总览图学习1.一张总览图的学习1.语音学（Phonology）2.形态学（Morphology）3.句法学（Syntax）4.语义学（Semantics）5.推理（Reasoning）小结自然语言处理（NLP）-总览图学习转自《Python自然语言处理第二版》1.一张总览图的学习这张图片展示了一个自然语言处理的流程模型，涵盖了从语音分析到应用推理和执行的多个阶段，每
Python与自然语言处理库Gensim实战心梓知识 python 自然语言处理 easyui
一、Gensim简介Gensim是一款Python自然语言处理库。它能够自动化训练出一个文本语料库，然后用该语料库来训练出一个词向量模型。在语料库中，每个语料库都是由一个个文档组成，每个文档则是由若干个单词组成。Gensim相对于其他Python自然语言处理库的优点在于它的速度和内存占用率较低。同时它还提供了许多文本处理的功能，比如文档相似度计算和主题建模等。二、安装Gensim在安装Gensim
Python自然语言处理：NLTK库详解小雨淋林 Python基础入门教程 python 自然语言处理 easyui
自然语言处理（NaturalLanguageProcessing，NLP）是计算机科学与人工智能领域中一个重要的研究方向，旨在使计算机能够理解、解释、生成人类语言。在Python中，NLTK（NaturalLanguageToolkit）库是一个功能强大、广泛使用的自然语言处理库。本篇博客将深入介绍NLTK库的使用，包括分词、词性标注、命名实体识别、情感分析等常见任务，并通过实例演示其在实际应用中
【AI底层逻辑】——数学与机器学习：优雅的智慧之舞柯宝最帅 AI底层逻辑人工智能机器学习
目录“宝藏网站”聊聊数学“华尔兹”“智慧之舞”后续的章节我们将迎来新的篇章，新的切入点探索AI的奥秘，通过揭示高数、矩阵、概率论等数学知识与机器学习的关系来深入理解AI的奥秘！“宝藏网站”开头先给大家上几个宝藏网站（部分需要“梯子”）：sklearn主页特征工程免费专著模型选择深度学习开源专著Python自然语言处理学习手册图形讲数学与神经网络视频合集聊聊数学数学，即工具。与锤子、剪刀一样，数学也
深入NLTK：Python自然语言处理库高级教程 Python老猿 python 自然语言处理 easyui 机器学习开发语言自动化人工智能
在前面的初级和中级教程中，我们了解了NLTK库中的基本和进阶功能，如词干提取、词形还原、n-gram模型和词云的绘制等。在本篇高级教程中，我们将深入探索NLTK的更多高级功能，包括句法解析、命名实体识别、情感分析以及文本分类。一、句法解析句法解析是自然语言处理中的一项重要任务，它的目的是识别出文本中词语之间的句法关系。在NLTK中，我们可以使用StanfordParser进行句法解析：python
自然语言处理（NLP）-spacy简介以及安装指南（语言库zh_core_web_sm）汀、人工智能 python Elastic search 自然语言处理人工智能 spacy 实体抽取词法分析分词
spacy简介spacy是Python自然语言处理软件包，可以对自然语言文本做词性分析、命名实体识别、依赖关系刻画，以及词嵌入向量的计算和可视化等。1.安装spacy使用“pipinstallspacy"报错，或者安装完spacy，无法正常调用，可以通过以下链接将whl文件下载到本地，然后cd到文件路径下，通过pip安装。pipinstallspacy下载链接：Archived:PythonExt
python自然语言处理库_Python自然语言处理工具库（含中文处理） weixin_39876739 python自然语言处理库
自然语言处理（NaturalLanguageProcessing，简称NLP），是研究计算机处理人类语言的一门技术。随着深度学习在图像识别、语音识别领域的大放异彩，人们对深度学习在NLP的价值也寄予厚望。再加上AlphaGo的成功，人工智能的研究和应用变得炙手可热。自然语言处理作为人工智能领域的认知智能，成为目前大家关注的焦点。NLP研究领域包括：句法语义分析：对于给定的句子，进行分词、词性标记、
python自然语言处理实战微盘_Python自然语言处理实战：核心技术与算法 weixin_39624774 python自然语言处理实战微盘
涂铭：阿里巴巴数据架构师，对大数据、自然语言处理、Python、Java相关技术有深入的研究，积累了丰富的实践经验。曾就职于北京明略数据，是大数据方面的高级咨询顾问。在工业领域参与了设备故障诊断项目，在零售行业参与了精准营销项目。在自然语言处理方面，担任导购机器人项目的架构师，主导开发机器人的语义理解、短文本相似度匹配、上下文理解，以及通过自然语言检索产品库，在项目中构建了NoSQL+文本检索等大
Python自然语言处理实战（7）：文本向量化 CopperDong NLP
7.1文本向量化概述文本表示是自然语言处理中的基础工作，文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种重要方式。顾名思义，文本向量化就是将文本表示成一系列能够表达文本语义的向量。无论是中文还是英文，词语都是表达文本处理的最基本单元。当前阶段，对文本向量化大部分的研究都是通过词向量化实现的。与此同时，也有相当一部分研究者将句子作为文本处理的基本单元，于是产生了doc2
学习笔记（2):Python自然语言处理-BERT模型实战-特征分配与softmax机制意慢研发管理 python 自然语言处理人工智能 NLP 框架
立即学习:https://edu.csdn.net/course/play/26498/334606?utm_source=blogtoedu
学习笔记(04):Python自然语言处理-BERT模型实战-NER标注数据处理与读取 pt net 研发管理 python 自然语言处理人工智能 NLP 框架
立即学习:https://edu.csdn.net/course/play/26498/334637?utm_source=blogtoedu-data_dir=data-output_dir=result-init_checkpoint=chinese_L-12_H-768_A-12/bert_model.ckpt-bert_config_file=chinese_L-12_H-768_A-12
Python自然语言处理入门教程 JieLun_C python 自然语言处理 easyui Python
自然语言处理（NaturalLanguageProcessing，简称NLP）是人工智能领域中的一个重要分支，它研究如何使计算机能够理解和处理人类语言。Python是一种功能强大且易于使用的编程语言，广泛应用于NLP任务的开发。本教程将向您介绍使用Python进行简单的自然语言处理的基本知识和技巧。在开始之前，请确保已经安装了Python的最新版本，并安装了以下关键库：NLTK（NaturalLa
python自然语言处理技术分析辰东的《完美世界》艾瑞娅
本篇文章的灵感主要来源于网上各种各样的关于自然语言分析的教程。曾记得我N年前读过《完美世界》。突然有种想分析其人物关系的冲动。当然现在我已经对里面主人公忘得一干二净，正好排除外界因素来检测文本处理人物关系是否正确。首先介绍一下本篇文章的主要内容。第一步先统计小说里面出现的TOP20高频词。第二步就绘制一个关于小说的高频词词云。第三步则绘制人物关系图（CP图）第一步首先先说明一点由于本次处理
【自然语言处理】NLTK库的概念和作用酒酿小圆子～自然语言处理
文章目录一、NLTK库介绍二、NLTK库的使用2.1初级使用2.2中级使用参考资料一、NLTK库介绍NaturalLanguageToolkit(NLTK)是一个广泛使用的Python自然语言处理工具库，由StevenBird、EdwardLoper和EwanKlein于2001年发起开发。NLTK的目的是为自然语言处理（NLP）提供一个完整的、易于使用的工具集，使研究人员、学生和开发人员能够更加
《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记：05 特征工程和NLP算法 miniAI学堂 2017年度自然语言处理特征工程 Stanford spaCy
05特征工程和NLP算法5.1理解特征工程5.1.1特征工程的定义5.1.2特征工程的目的5.1.3一些挑战5.2NLP中的基础特征5.2.1句法解析和句法解析器5.2.2词性标注和词性标注器理解词性标注和词性标注器的概念一步步开发词性标注器即插即用现有词性标注器使用词性标注作为特征挑战5.2.3命名实体识别NER类StanfordNERSpacyNER提取和理解特征挑战5.2.4n元语法5.2.
python自然语言处理-几种常见的平滑算法诗雨时 python
几种常见的平滑算法在计算语言模型的过程中，对于句子中的每一个字符或者词都需要一个非零的概率值，因为一旦存在一个概率为0的结果，那么整个计算公式的结果都为0，这种问题我们叫做数据匮乏（稀疏），所以必须分配给所有可能出现的字符串一个非0的概率值来避免这种错误的发生。举个例子，当我们需要计算一个sentence我喜欢看电影的概率时：P(我,喜欢,看电影)=P(我)*P(喜欢|我)*P(看电影|喜欢)如果
一款简化Python自然语言处理的开源库迷途小书童的Note python 自然语言处理开发语言人工智能
迷途小书童读完需要3分钟速读仅需1分钟1简介TextBlob是一个Python库，用于处理文本数据的自然语言处理（NLP）任务。它提供了简单且易于使用的API，使得对文本进行分析、情感分析、词性标注、名词短语提取等任务变得更加简单。TextBlob的核心功能是基于NLTK（自然语言工具包）和Pattern库构建的。它使用了机器学习算法和语言模型来执行各种文本处理任务。2安装使用之前，需要安装，打开
FileNotFoundError: [Errno 2] No such file or directory: ‘errors.out‘ （python自然语言处理章节5.6 最后的示例报错） _Meilinger_ 碎片笔记 python nlp 自然语言处理数据类型
在使用python3.7运行NaturalLanguageProcessingwithPythonChapter5的最后一个示例fromnltk.tblimportdemoasbrill_demobrill_demo.demo()print(open("errors.out").read())时，出现如下错误：Traceback(mostrecentcalllast):File"E:/Python
自学Python看什么书？这6本Python高质量书籍，总有一本适合你一秋的编程笔记计算机科技 Python 编程人工智能 python 数据分析编程 Python书籍
文章目录1、《“笨办法”学Python》2、《Python快速编程入门》3、《Python高手之路(第3版)》4、《Python算法教程》5、《Python核心编程（第3版）》6、《精通Python自然语言处理》读者福利1、Python所有方向的学习路线2、Python课程视频3、精品书籍4、清华编程大佬出品《漫画看学Python》5、Python实战案例6、互联网企业面试真题随着我国在人工智能的
python自然语言处理工具包 zerowl
[NLTK]http://www.nltk.org/:NLTK在用Python处理自然语言的工具中处于领先的地位。它提供了WordNet这种方便处理词汇资源的借口，还有分类、分词、除茎、标注、语法分析、语义推理等类库。[Pattern]https://github.com/clips/pattern:Pattern的自然语言处理工具有词性标注工具(Part-Of-SpeechTagger)，N元搜
6个强大又容易上手的Python自然语言处理库 Python学研大本营 python 自然语言处理开发语言
6个顶级自然语言处理库指南。微信搜索关注《Python学研大本营》，加入读者群，分享更多精彩自然语言处理是最热门的研究领域之一。虽然NLP任务一开始可能看起来有点复杂，但通过使用正确的工具，它们可以变得更容易。本文涵盖了6个顶级NLP库，可以节省用户的时间和精力。简介不同的语言被用于交流目的，语言被认为是最复杂的数据形式之一。你有没有想过像谷歌翻译、Alexa和Siri这样的语音助手是如何理解、处
自学python数月，开贴第一天紫竹潇潇
简单介绍下自己，本菜鸟是财务背景妹子一枚，没有编程基础自学pyhon数月，半只脚入门，但是不够系统，准备立贴记下自己每天python成长路上的足迹，起到监督和相互学习的作用。目前主攻python自然语言，也会涉及数据分析，简单了解爬虫但不能熟练操作。准备跟着python自然语言处理这本书走，把每天自己实际操作遇到的问题和收获放置于此。一、对一些概念不熟悉，百度查询url:统一资源定位符是对可以从互
Python自然语言处理：NLTK入门指南格林希尔 Python实践 python 自然语言处理机器学习人工智能开发语言
Python自然语言处理：NLTK入门指南一、Python自然语言处理简介1.什么是自然语言处理（NLP）2.Python在NLP中的应用3.为什么选择使用Python进行NLP二、NLTK介绍1.NLTK是什么2.NLTK的历史和现状3.NLTK的安装和配置4.NLTK的基本功能分词：词性标注：去除停用词：词干提取：词形归一化：三、语料库和数据预处理1.语料库介绍2.NLTK支持的语料库3.数据
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p