journeyend

4.2 英文分词及词性标注

转载自：
https://datartisan.gitbooks.io/begining-text-mining-with-python/content/%E7%AC%AC4%E7%AB%A0%20%E5%88%86%E8%AF%8D%E4%B8%8E%E8%AF%8D%E6%80%A7%E6%A0%87%E6%B3%A8/4.2%20%E8%8B%B1%E6%96%87%E5%88%86%E8%AF%8D%E5%8F%8A%E8%AF%8D%E6%80%A7%E6%A0%87%E6%B3%A8.html

4.2 英文分词及词性标注

与中文分词相比，英文分词要简单很多。在英文中，单词之间是以空格作为自然分界符组成语句，语句之间再利用标点分隔组成大篇幅文本，所以我们可以简单的利用标点进行分句处理，利用空格进行分词处理。设计分句函数的思路很简单，英文文本中出现的标点一般为逗号“,”、句点“.”和问号“?”，假设我们有一段英文文本，可以先将文本按照句点分割成若干小段的文本，再将各小段文本按照内部出现的逗号或者问号再次切分。基于这样的思路，我们即使不利用外部的工具包，也能够通过调用 Python 中的内置函数来构建一个简单的英文分词器。

例 1 按标点分句


In [1]:def sentence_split(sentence): # 编写分句函数
           text_sen = []
           for s in sentence.split('.'):
               if '?' in s:
                   tsxt_sen.extend(s.split('?'))
               elif ',' in s:
                   tsxt_sen.extend(s.split(','))
               else:
                   text_sen.append(s)
            return tsxt_sen
In [2]:text="text minming with python,TEXT MINING WITH PYTHON.Text Mining?With Python."
       sentence_split(text)
Out[2]:['text minming with python',
        'TEXT MINING WITH PYTHON',
        'Text Mining',
        'With Python',
        '']

例 2 按空格分词


In [3]:text_word=[]
       for i in sentence_split(text):
           if i != "":
               text_word.append(i.split(" "))
In [4]:text_word
Out[4]:[['text', 'minming', 'with', 'python'],
        ['TEXT', 'MINING', 'WITH', 'PYTHON'],
        ['Text', 'Mining'],
        ['With', 'Python']]

对于上例中结构比较简单的文本，可以自行编写函数进行处理，但是对于结构、内容更加复杂的英文文本，类似的操作就很难进行全面、细致的处理了，如对下例所示语句进行分句处理：

例 3


In [5]:text= "Good muffins cost $3.88\nin New York.  Please buy me two of them.\nThanks."
       sentence_split(text)
Out[5]:['Good muffins cost $3',
        '88\nin New York',
        '  Please buy me two of them',
        '\nThanks',
        '']

由于句中存在“$3.88”、“\n”等特殊表述，直接用自定义函数进行分句，并不能达到理想效果，本节将介绍几个英文分词工具，利用这些工具可以自动、快速实现分词处理，无需自行编写复杂的分句、分词函数，进而将更多的注意力集中在更加复杂的文本数据分析过程。

4.2.1 NLTK

作为基于 Python 的自然语言处理前沿平台， NLTK 为我们提供了一套更为专业的英文分词工具，相比于调用 Python 的内置函数， NLTK的英文分词工具模式更加丰富，并且在去除停用词、词干化处理方面更为优秀。

4.2.1.1 tokenize 分词包

tokenize 是 NLTK 的分词包，其中的函数可以识别英文词汇和标点符号对文本进行分句或分词处理。

（1） sent_tokenize

sent_tokenize 为 tokenize 分词包中的分句函数，返回文本的分句结果，调用方式为：sent_tokenize(text, language='english')

参数说明：

text:需要分句处理的文本

language:nltk.tokenize.punkt 中包含了很多预先训练好的分词模型，参数 language 即为模型的名称

例 1


In [1]:import nltk
       from nltk.tokenize import sent_tokenize
       text= "Good muffins cost $3.88\nin New York.  Please buy me two of them.\nThanks."
In [2]:sent_tokenize(text)
Out[2]:['Good muffins cost $3.88\nin New York.',
        'Please buy me two of them.',
        'Thanks.']

（2）word_tokenize

word_tokenize 为 tokenize 分词包中的分词函数，返回文本的分词结果，调用方式为：word_tokenize(text, language='english')

参数说明：

text: 需要分词处理的文本

language: nltk.tokenize.punkt 中包含了很多预先训练好的分词模型，参数 language 即为模型的名称

例 2


In [3]:from nltk.tokenize import word_tokenize
       word_tokenize(text)
Out[3]:['Good',
        'muffins',
         'cost',
         '$',
         '3.88',
         'in',
         'New',
         'York',
         '.',
         'Please',
         'buy',
         'me',
         'two',
         'of',
         'them',
         '.',
         'Thanks',
         '.']
In [4]:[word_tokenize(t) for t in sent_tokenize(text)]
Out[4]:[['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New', 'York', '.'],
        ['Please', 'buy', 'me', 'two', 'of', 'them', '.'],
        ['Thanks', '.']]

（3）regexp 模块：正则表达式分词

对于包含比较复杂词型（如 $10、10%）的字符串，以上的分词算法往往不能实现精确分割，此时需要借助正则表达式来完成分词任务。所谓正则表达式（Regular Expression），就是一个描述指定的规则的字符序列，可以用来检查一个字符串是否与该规则匹配，用正则表达式分词就是按照正则表达式指定的规则对字符串进行分割的过程，可以根据实际情况自行编写正则表达式。正则表达式的相关内容本书不做特别的介绍，感兴趣的读者可以参看深度阅读部分推荐的读物学习。NLTK 提供了 regexp 模块支持正则表达式分词，其中包括 regexp_tokenize 、wordpunct_tokenize、blankline_tokenize 等正则分词函数。

（3.1）RegexpTokenizer 类

RegexpTokenizer 是 regexp 模块下一个类，可以自行定义正则表达式进行分词，调用该类下的分词方法需要先实例化，实例化方式为：实例=RegexpTokenizer(pattern, gaps, discard_empty, flags)

参数说明：

pattern：必填参数，构建分词器的模式，即正则表达式字符串

gaps：可选参数，设置为 True 时，正则表达式指定识别标识符之间的间隔，默认缺失值为 False，即正则表达式用来识别标识符本身

discard_empty：可选参数，设置为 True 时，去除任何由分词器产生的空符“"”，只有当参数“gaps”取值为“True”时分词器才会差生空符

flags：可选参数，编译分词器模式的正则标识，默认使用的是 re.UNICODE | re.MULTILINE | re.DOTALL

实例化后即可利用该类下的分词方法进行分词处理，分词方法调用方式为：实例.tokenize（text）

例 3


In [5]:from nltk.tokenize import RegexpTokenizer
       text="The four-poster canopy bed made in U.S.A. costs $600. The seller stake out 40% of the profit."
       tokenizer = RegexpTokenizer('\w+|\$[\d\.]+|\S+')
       "/".join(tokenizer.tokenize(text))
Out[5]:'The/four/-poster/canopy/bed/made/in/U/.S.A./costs/$600./The/seller/stake/out/40/%/of/the/profit/.'

也可以直接调用函数 regexp_tokenize 实现同样的分词效果，调用方式为：regexp_tokenize(text, pattern, gaps=False, discard_empty=True, flags=56)

参数说明：

text：必填参数，需要分词的字符串

pattern：必填参数，构建分词器的模式，即正则表达式字符串

gaps：可选参数，设置为 True 时，正则表达式指定识别标识符之间的间隔，默认缺失值为 False，即正则表达式用来识别标识符本身

discard_empty：可选参数，设置为 True 时，去除任何由分词器产生的空符“"”，只有当参数“gaps”取值为“True”时分词器才会差生空符

flags：可选参数，编译分词器模式的正则标识，默认使用的是 re.UNICODE | re.MULTILINE | re.DOTALL

例 4


In [6]:from nltk.tokenize import regexp_tokenize
In [7]:"/".join(word_tokenize(text))
Out[7]:'The/four-poster/canopy/bed/made/in/U.S.A./costs/$/600/./The/seller/stake/out/40/%/of/the/profit/.'
In [8]:pattern = r"""(?x)                   # 设置以编写较长的正则条件
                     (?:[A-Z]\.)+           # 缩略词 
                     |\$?\d+(?:\.\d+)?%?    # 货币、百分数
                     |\w+(?:[-']\w+)*       # 用连字符链接的词汇
                     |\.\.\.                # 省略符号 
                     |(?:[.,;"'?():-_`])    # 特殊含义字符 
                  """  
In [9]:"/".join(regexp_tokenize(text,pattern))
Out[9]:'The/four-poster/canopy/bed/made/in/U.S.A./costs/$600/./The/seller/stake/out/40%/of/the/profit/.'

从上例中两个分词函数返回的结果可以看出，利用正则表达式进行分词可以更加有针对性的解决待分词语句中有特殊格式的词汇。

（3.2）RegexpTokenizer 子类：用预先定义好的正则表达式分词

（a）WhitespaceTokenizer

WhitespaceTokenizer 子类，可以直接将字符串按照空格（包括space, tab, newline)分词，效果相当于利用字符串 split 方法。调用方式为：实例.tokenize（text)

例 5


In [10]:from nltk.tokenize import WhitespaceTokenizer
        text="The four-poster canopy bed made in U.S.A. costs $600.\nThe seller stake out 40% of the profit." # 第二句换行
In [11]:print text
        The four-poster canopy bed made in U.S.A. costs $600.
        The seller stake out 40% of the profit.
In [12]:tokenizer_space=WhitespaceTokenizer()
        "/".join(tokenizer_space.tokenize(text))
Out[12]:'The/four-poster/canopy/bed/made/in/U.S.A./costs/$600./The/seller/stake/out/40%/of/the/profit.'

（b）WordPunctTokenizer

WordPunctTokenizer 子类，用正则表达式 “`\w+|\w\s+” 将字符串切分成字母和非字母字符，分词方法调用方式为：实例.tokenize（text）

例 6


In [13]:from nltk.tokenize import WordPunctTokenizer
        tokenizer_punct=WordPunctTokenizer()
        "/".join(tokenizer_punct.tokenize(text))
Out[13]:'The/four/-/poster/canopy/bed/made/in/U/./S/./A/./costs/$/600/./The/seller/stake/out/40/%/of/the/profit/.'

也可以直接调用函数 wordpunct_tokenize 实现同样的分词效果，调用方式为：wordpunct_tokenize（text）

例 7


In [14]:from nltk.tokenize import wordpunct_tokenize
        "/".join(wordpunct_tokenize(text))
Out[14]:'The/four/-/poster/canopy/bed/made/in/U/./S/./A/./costs/$/600/./The/seller/stake/out/40/%/of/the/profit/.'

（c）BlanklineTokenizer

BlanklineTokenizer 子类，将空行作为分隔符进行分词，空行是指不包含任何字符的行，空格 space 和制表符 tab 除外，相应的正则表达式为：'\s\n\s\n\s*'。分词方法调用方式为：实例.tokenize（text)

例 8


In [15]:from nltk.tokenize import BlanklineTokenizer
        text="The four-poster canopy bed made in U.S.A. costs $600.\n\nThe seller stake out 40% of the profit." # 第二句与第一句间空一行
In [16]:print text
        The four-poster canopy bed made in U.S.A. costs $600.

        The seller stake out 40% of the profit.    
In [17]:tokenizer_blank = BlanklineTokenizer()
        tokenizer_blank.tokenize(text)
Out[17]:['The four-poster canopy bed made in U.S.A. costs $600.',
         'The seller stake out 40% of the profit.']

也可以直接调用函数 blankline_tokenize 实现同样的分词效果，调用方式为：blankline_tokenize（text）

例 9


In [18]:from nltk.tokenize import blankline_tokenize
        blankline_tokenize(text)
Out[18]:['The four-poster canopy bed made in U.S.A. costs $600.',
         'The seller stake out 40% of the profit.']

（4）stanford 模块

tokenize 包中的 stanford 模块是 NLTK 的 Stanford Tokenizer 接口，模块中定义的 StanfordTokenizer 类提供了利用分词工具 PTBTokenizer 进行分词的方法，调用方式为：实例.tokenize(text)

例 10


In [19]:from nltk.tokenize import StanfordTokenizer
        tokenizer_stan = StanfordTokenizer()
        tokenizer_stan.tokenize("Good muffins cost $3.88\nin New York.  Please buy me\ntwo of them.\nThanks.")
Out[19]:['Good', 'muffins', 'cost', '$', '3.88', 'in', 'New', 'York', '.', 'Please', 'buy', 'me', 'two', 'of', 'them', '.', 'Thanks', '.']

（5）sexpr 模块

tokenize 包中的 sexpr 模块是用来识别字符串中的带括号的表示形式，特别之处在于，该模块可以将字符串同时按照空格和括号切分。可以通过该模块下的 SExprTokenizer 类的方法实现括号表示的切分，首先将类实例化：实例 = SExprTokenizer( parens='()', strict=True)

参数说明：

parens：设置识别的括号形式，默认为( 和 )

strict：若括号表示不完全（如只包含半个括号）则会返回错误提示信息，参数 strict 取值为 False 时，则会进行正常切分处理，切分时将不完全的括号当做字符处理，默认缺失值为 True

实例方法调用方式为：实例.tokenize(text)

例 11


In [20]:from nltk.tokenize import SExprTokenizer
        tokenizer_sexpr=SExprTokenizer()
        tokenizer_sexpr.tokenize("ab(c,d)((e f) g) h")
Out[20]:['ab', '(c,d)', '((e f) g)', ' h']
In [21]:tokenizer_sexpr.tokenize("a b)(c d e f g h")
        ValueError: Un-matched close paren at char 13
In [22]:tokenizer_sexpr=SExprTokenizer(strict=False)
        tokenizer_sexpr.tokenize("a b)(c d e f g h")
Out[22]:['a', 'b', ')', '(c d e f g h']
In [23]:tokenizer_sexpr.tokenize("ab{c,d}{{e f} g} h")
Out[23]:['ab{c,d}{{e f} g} h']
In [24]:tokenizer_sexpr=SExprTokenizer(parens="{}")
        tokenizer_sexpr.tokenize("ab{c,d}{{e f} g} h")
Out[24]:['ab', '{c,d}', '{{e f} g}', ' h']

也可以直接调用函数 sexpr_tokenize 达到相同的切分效果，调用方式为：sexpr_tokenize(text)

例 12


In [25]:from nltk.tokenize import sexpr_tokenize
        sexpr_tokenize('(a b (c d)) e f (g)')
Out[25]:['ab', '(c,d)', '((e f) g)', ' h']

（6）util 模块

util 模块提供了几个可以返回分词结果在原语句起始位置的函数，包括：regexp_span_tokenize、string_span_tokenize 等。

（6.1）regexp_span_tokenize

regexp_span_tokenize 函数按照给定的正则表达式对字符串进行分词处理，并返回分词后各个词的起始位置，形式如 (start, end) 的元组。调用方式为：regexp_span_tokenize(text,regexp)

参数说明：

text：需要分词的字符串

regexp：规定分割标识的正则表达式，不能为空

例 13


In [26]:from nltk.tokenize.util import regexp_span_tokenize
        text="Good muffins cost $3.88\nin New York.  Please buy me\ntwo of them.\nThanks."
        list(regexp_span_tokenize(text, r'\s'))
Out[26]:[(0, 4),(5, 12),(13, 17),(18, 23),(24, 26),(27, 30),(31, 36),(38, 44),(45, 48),(49, 51),(52, 55),(56, 58),(59, 64),(65, 72)]

（6.2）string_span_tokenize

string_span_tokenize 函数按照给定的分隔符进行分词，并返回分词后各个词的起始位置，形式如 (start, end) 的元组。调用方式为：regexp_span_tokenize(text,sep)

参数说明：

text：需要分词的字符串

sep：分隔符，即分词依据

例 14


In [27]:from nltk.tokenize.util import string_span_tokenize
list(string_span_tokenize(text, " "))
Out[27]:[(0, 4),(5, 12),(13, 17),(18, 26),(27, 30),(31, 36),(37, 37),(38, 44),(45, 48),(49, 55),(56, 58),(59, 72)]

4.2.1.2 去除停用词

文本经过简单的而分词处理后，还会包含大量的无实际意义的通用词，需要过滤掉，NLTK 提供了一份英文停用词词典供使用者直接使用，可以通过以下方式查看停用词词典：

例 15


In [28]:from nltk.corpus import stopwords
        english_stopwords = stopwords.words("english")
        print english_stopwords[0:10]
        [u'i', u'me', u'my', u'myself', u'we', u'our', u'ours', u'ourselves', u'you', u'your']
In [29]:len(english_stopwords)
Out[29]:153
In [30]:for i in word_tokenize("Everything is OK. I can do it all by myself."):
            if i not in english_stopwords:
                print i
        Everything
        OK
        .
        I
        .

从上面的结果可以看出，对于停用词典中未涵盖的大写停用词和标点并未过滤掉，这就要求在去除停用词前进行小写化处理，后续再过滤掉多余的标点符号。

例 16


In [31]:english_punctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '!', '@', '#', '%', '$', '*'] # 自定义英文表单符号列表
        for i in word_tokenize("Everything is OK. I can do it all by myself."):
            if i.lower() not in english_stopwords: # 过滤停用词
                if i not in english_punctuations: # 过滤标点符号
                    print i
        Everything
        OK

4.2.1.3 词干化处理

词干化处理( Stemming ) 就是去除形态词缀得到对应词根的过程，是英文特有的处理过程，比如说同一个英文单词有单数复数的变形（如 apple 和 apples）、ing 和 ed 等时态的变形（doing 和 did）、人称代词不同谓语的变形等（like 和likes），这些词虽然形式上有细微差别，但是都对应着相同的词根，在某些情况下应该当做相同的词处理（比如计算相关性），这就需要进行词干化处理。

NLTK 的 stem 包提供了几个相关模块进行词干化处理，包括 Lancaster Stemmer, Porter Stemmer （词干化处理有三大主流算法：Porter Stemming、Lovins stemmer 和 Lancaster Stemming）。

（1）lancaster 模块

lancaster 模块是基于 Lancaster Stemming 算法的词干分析模块，该模块下定义了 LancasterStemmer 类，通过调用该类下的 stem 方法可以实现英文词汇的词干化处理，调用方式为：实例.stem(word)

例 17


In [32]:from nltk.stem.lancaster import LancasterStemmer
        st1 = LancasterStemmer()
        words=['fishing', 'crying', 'likes', 'meant', 'owed','was', 'did', 'done', 'women',"avaliable"]
        for word in words:
            print word,st1.stem(word)
        fishing fish
        crying cry
        likes lik
        meant meant
        owed ow
        was was
        did did
        done don
        women wom
        avaliable avaly

（2）porter 模块

porter 模块是基于 Porter Stemming 算法的词干分析模块，该模块下定义了 PorterStemmer 类，通过调用该类下的 stem 方法可以实现英文词汇的词干化处理，调用方式为：实例.stem(word)

例 18


In [33]:from nltk.stem.porter import PorterStemmer
        st2 = PorterStemmer()
        for word in words:
            print word,st2.stem(word),st1.stem(word)
        fishing fish fish
        crying cri cry
        likes like lik
        meant meant meant
        owed owe ow
        was wa was
        did did did
        done done don
        women women wom
        avaliable avali avaly

（3）regexp 模块

regexp 模块是基于正则表达式识别词缀模式进行词干处理的模块，该模块下定义了 RegexpStemmer 类，通过调用该类下的 stem 方法可以实现英文词汇的词干化处理，实例化方式为：实例= RegexpStemmer(regexp, min=0)

参数说明：

regexp：用来识别词缀的正则表达式

min：需要词干化处理词汇的最小长度，默认缺失值为 0

stem 方法调用方式为：实例.stem(word)

例 19


In [34]:from nltk.stem.regexp import RegexpStemmer
        st3 = RegexpStemmer('ing$|s$|e$|able$', min=4)
        for word in words:
            print word,st3.stem(word),st2.stem(word),st1.stem(word)
        fishing fish fish fish
        crying cry cri cry
        likes like like lik
        meant meant meant meant
        owed owed owe ow
        was was wa was
        did did did did
        done don done don
        women women women wom
        avaliable avali avali avaly

4.2.1.4 NLTK 提供的语料库

（1）下载语料库

nltk.download() 是 Downloader 类下的一个方法，可以用于下载 NLTK 语料和相关的包，利用该方法下载 NLTK 语料的步骤如下：

In [1]:nltk.download()

@todo 插入下载截图 4.2.1.4-1

在 “Downloader>”后输入框输入“d”，回车确认后在下方出现新的 Identifier 输入框：

@todo 插入截图 4.2.1.4-2

此时可以直接输入需要下载的包的名称，也可以输入“l”查看所有包的列表：

@todo 插入截图 4.2.1.4-3

在 Identifier 输入框输入“book”，回车确认下载 NLTK 图书语料库合集

@todo 插入截图 4.2.1.4-4

在 Identifier 输入框输入“all-corpora”，回车确认下载 NLTK 全部语料库

（2）查看下载的语料

执行 nltk.download() 命令后，在“Downloader>”后输入框输入“l”，回车确认后可以查看已经下载的包：

@todo 插入截图 4.2.1.4-5

在上图 list 的第九行可以看到已经下载的 Brown 语料，继续回车可以继续向下查看。对于已经下载的语料库，可以通过以下方式查看：


In [2]:from nltk.corpus import brown
       print brown.readme() # readme 方法可以返回语料库内容
       BROWN CORPUS

       A Standard Corpus of Present-Day Edited American
       English, for use with Digital Computers.

       by W. N. Francis and H. Kucera (1964)
       Department of Linguistics, Brown University
       Providence, Rhode Island, USA

       Revised 1971, Revised and Amplified 1979

       http://www.hit.uib.no/icame/brown/bcm.html

       Distributed with the permission of the copyright holder,
       redistribution permitted.

In [3]:from nltk.book import *
       *** Introductory Examples for the NLTK Book ***
       Loading text1, ..., text9 and sent1, ..., sent9
       Type the name of the text or sentence to view it.
       Type: 'texts()' or 'sents()' to list the materials.
       text1: Moby Dick by Herman Melville 1851
       text2: Sense and Sensibility by Jane Austen 1811
       text3: The Book of Genesis
       text4: Inaugural Address Corpus
       text5: Chat Corpus
       text6: Monty Python and the Holy Grail
       text7: Wall Street Journal
       text8: Personals Corpus
       text9: The Man Who Was Thursday by G . K . Chesterton 1908

以上执行结果列举了几个 NLTK Book 的示例，输入语料名称即可直接查看语料：

In [4]:text1 Out[4]:

text1 属于 Text 类，在 Text 类中，NLTK 提供了一些常用的文本搜索方法：

（2.1）collocations

collocations 方法用于搜索 Text 文本中的去除停用词后的固定搭配词组，可以自主设置固定搭配的限制条件，调用方式为：Text.collocations(num=20, window_size=2)

参数说明：

num：输出搭配词组个数的最大值，默认缺失值为 20

window_size：形成固定搭配词组中的单词之间可以间隔的距离，即间隔超过该参数值的单词就不能形成词组，默认缺失值为 2 ，也是可以设置的最小值


In [5]:text1.collocations(num=10, window_size=2)
       Sperm Whale; Moby Dick; White Whale; old man; Captain Ahab; sperm
whale; Right Whale; Captain Peleg; New Bedford; Cape Horn

（2.2）common_contexts

common_contexts 方法可以查找给定单词的上下文，并给出最相似的频繁出现的上下文结构，调用方式为：Text.common_contexts(words, num=20)

参数说明：

words：用于做相似检索的单词，多个单词需放在同一个列表中并用逗号间隔

num：允许生成的词汇数，默认缺失值为 20


In [6]:text1.common_contexts(["very","great"],num=10) #查找使用"very"或"great"的相同结构的上下文
       the_body a_white a_long

（2.3）concordance

concordance 方法可以搜索文本中指定词语出现的位置，输出词语所在上下文，调用方式为：Text.concordance(word, width=79, lines=25)

参数说明：

word：需要检索的词语

width：输出的上下文的长度，默认缺失值为 79

lines：输出的上下文的行数，默认缺失值为 25


In [7]:text1.concordance("very",lines=5)
       Displaying 5 of 322 matches:
        horse - whales , which had bones of very great value for their teeth , of whi
       n inward bruise ." -- KING HENRY . " Very like a whale ." -- HAMLET . " Which 
       itself ," said Mr . Webster , " is a very striking and peculiar portion of the
       egree , some time or other , cherish very nearly the same feelings towards the
       o eat and sleep meanwhile . It was a very dubious - looking , nay , a very dar

（2.4）count

count 方法用于统计文中某个单词出现的次数，调用方式为：Text.count(word)，参数 “word" 即为需要统计的单词。


In [8]:text1.count("very")
Out[8]:311

（2.5）similar

similar 方法用于查找与指定单词有相同使用语境的单词，会先列出相似度最高的单词，调用方式为：Text.similar(word, num=20)，参数 num 设置生成的单词数。


In [8]:text1.similar("very")
       so a same the but last first too and as in pretty only other white that is strange now entire

（2.6）findall

findall 方法用于找出文中符合指定正则表达式形式为文本内容，正则表达式中的符号需用尖角括号（<>）括起，调用方式为：Text.findall(regexp)


In [9]:text1.findall("(<.*>)")
       monied; nervous; dangerous; white; white; white; pious; queer; good;
       mature; white; Cape; great; wise; wise; butterless; white; fiendish;
       pale; furious; better; certain; complete; dismasted; younger; brave;
       brave; brave; brave

对于不属于 NLTK 文本库的其他字符串，可以利用 Text（）函数将其转换为 Text 对象，转换为 Text 对象后上述方法都可以用于字符串的分析。

4.2.1.5 tag 词性标注包

tag 包除定义了一些词性标注的类外，还提供了部分词性标注的接口。它定义的几个词性标注器均以分词结果列表作为输入，对应返回每一个分词结果的词性，多数标注器都是根据训练语料构建的，比如一元语法模型（unigram ）词性标注器，对于给出的词汇，该标注器会在训练语料中查找每个词汇出现最多的词性并对其进行相应的标注，对于训练集中不存在的词汇，其词性会被标注为“None”。

（1）词性标注函数 pos_tag

函数 pos_tag 是利用 NLTK 推荐的词性标注器对指定词汇列表进行词性标注的函数，词性标注结果以列表形式返回，列表元素为词汇和对应词性构成的元组。调用方式为：pos_tag(tokens, tagset=None)

参数说明：

tokens：需要进行词性标注的词汇列表

tagset：使用的词性标记集。同一词性可以有不同的标注词，利用该参数可以进行标注词的规约，例如 universal 标记集，其标注词及含义如下表所示：

@todo 插入标注词含义表

例 1


In [1]:from nltk.tag import pos_tag
       from nltk.tokenize import word_tokenize
       pos_tag(word_tokenize("Good muffins cost $3.88\nin New York.  Please buy me\ntwo of them.\nThanks."))
Out[1]:[('Good', 'JJ'),('muffins', 'NNS'),('cost', 'VBP'),('$', '$'),('3.88', 'CD'),('in', 'IN'),('New', 'NNP'),('York', 'NNP'),('.', '.'),('Please', 'NNP'),('buy', 'VB'),('me', 'PRP'),('two', 'CD'),('of', 'IN'),('them', 'PRP'),('.', '.'),('Thanks', 'NNS'),('.', '.')]
In [2]:pos_tag(word_tokenize("Good muffins cost $3.88\nin New York.  Please buy me\ntwo of them.\nThanks."), tagset='universal')
Out[2]:[('Good', u'ADJ'),('muffins', u'NOUN'),('cost', u'VERB'),('$', u'.'),('3.88', u'NUM'),('in', u'ADP'),('New', u'NOUN'),('York', u'NOUN'),('.', u'.'),('Please', u'NOUN'),('buy', u'VERB'),('me', u'PRON'),('two', u'NUM'),('of', u'ADP'),('them', u'PRON'),('.', u'.'),('Thanks', u'NOUN'),('.', u'.')]

词性标注的一个比较重要的应用领域就是智能朗读，即将文本转换为语音，如果一个词汇同时有多种词性并且有不同的发音，那么准确识别词性对于语音准换是至关重要的，如下例展示的情况。

例 2


In [3]:pos_tag(word_tokenize("They desert the treasure in the desert."), tagset='universal')
Out[3]:[('They', u'PRON'),('desert', u'VERB'),('the', u'DET'),('treasure', u'NOUN'),('in', u'ADP'),('the', u'DET'),('desert', u'NOUN'),('.', u'.')]

语句"They desert the treasure in the desert."中，词汇“desert”出现了两次，但是两次的词性都不相同，前一次是动词，发音为“dɪˈzɜːt”，后一次是名词，发音为“ˈdɛzət”。利用词性标注函数 pos_tag 可以正确识别该词的词性，如果需要转换为语音的话就不会出现读音错误。

（2）词性标注函数 pos_tag_sents

函数 pos_tag_sents 是利用 NLTK 推荐的词性标注器对指定语句列表进行词性标注的函数，每一个语句都由词汇列表构成。调用方式为：pos_tag_sents(sentences, tagset=None)

参数说明：

sentences：需要进行词性标注的语句列表，每一个语句都由词汇列表构成

tagset：使用的词性标记集，如 universal, wsj, brown 等

例 3


In [4]:from nltk.tag import pos_tag_sents
       from nltk.tokenize import sent_tokenize
       sents="Good muffins cost $3.88\nin New York.  Please buy me\ntwo of them.\nThanks."
       pos_tag_sents([word_tokenize(i) for i in sent_tokenize(sents)]) #利用 sent_tokenize 进行分句后再通过 word_tokenize 进行分词，得到分词后的语句列表
Out[4]:[[('Good', 'JJ'),('muffins', 'NNS'),('cost', 'VBP'),('$', '$'),('3.88', 'CD'),('in', 'IN'),('New', 'NNP'),('York', 'NNP'),('.', '.')],
        [('Please', 'NNP'),('buy', 'VB'),('me', 'PRP'),('two', 'CD'),('of', 'IN'),('them', 'PRP'),('.', '.')],
        [('Thanks', 'NNS'), ('.', '.')]]       
In [5]:pos_tag_sents([word_tokenize(i) for i in sent_tokenize(sents)], tagset='universal')
Out[5]:[[('Good', u'ADJ'),('muffins', u'NOUN'),('cost', u'VERB'),('$', u'.'),('3.88', u'NUM'),('in', u'ADP'),('New', u'NOUN'),('York', u'NOUN'),('.', u'.')],
        [('Please', u'NOUN'),('buy', u'VERB'),('me', u'PRON'),('two', u'NUM'),('of', u'ADP'),('them', u'PRON'),('.', u'.')],
        [('Thanks', u'NOUN'), ('.', u'.')]]

（3）StanfordPOSTagger 类

stanford 是 tag 包中提供 Stanford 标注器接口的模块，StanfordPOSTagger 是该模块下定义的词性标注类。要使用该模块，需要事先下载标注模型，下载网址为：http://nlp.stanford.edu/software。该类实例化方式为：实例 = StanfordPOSTagger(model,path,encoding="UTF-8")

参数说明：

model：基于训练集的模型

path：可选参数，Stanford 标注器文件路径

encoding：可选参数，训练集编码，默认缺失值为 "UTF-8"

实例化后可以调用 tag 方法进行词性标注，调用方式为：实例.tag(tokens)，其中参数 tokens 即为需要词性标注的词汇列表。

例 4


In [6]:from nltk.tag import StanfordPOSTagger
       st = StanfordPOSTagger('english-bidirectional-distsim.tagger')
       st.tag('What is the airspeed of an unladen swallow ?'.split())
Out[6]:[('What', 'WP'), ('is', 'VBZ'), ('the', 'DT'), ('airspeed', 'NN'), ('of', 'IN'), ('an', 'DT'), ('unladen', 'JJ'), ('swallow', 'VB'), ('?', '.')]

此外，tag 包还提供了多个词性标注模块，包括：基于统计词性标注器 TnT 的模块 tnt、基于转换规则的词性标注模块 brill、基于 CRFSuite 的词性标注模块 crf 等，想进一步学习使用相关模块可以参见 4.4 节提供的深度阅读材料。

（4）读取已标注语料

在 NLTK 提供的部分语料中已经标注了词性，使用 tagged_words 方法即可查看已经标注的词性。

例 5


In [7]:nltk.corpus.brown.tagged_words(tagset='universal')
Out[7]:[(u'The', u'DET'), (u'Fulton', u'NOUN'), ...]

4.2.1.6 亚马逊英文评论语料分析实例

（1）数据抓取

抓取亚马逊美国站上一款鞋子（https://www.amazon.com/FAYALE-Driving-Cowhide-Leather-Lace-Up/dp/B01ASME6VI）的评论语料作为分析实例，共抓取评论文本 187 条，保存为 csv 格式文件 shoes_review.csv，并上传到 Jupyter Notebook 文件列表，新建一个 Python notebook，读取文本数据，并将数据保存到列表 corpus 中：


In [1]:import csv
       corpus=[]
       with open("shoes_review.csv") as f:
          reader=csv.reader(f)
          for i in reader:
              corpus.append(i)

查看 corpus 内元素形式：


In [2]:corpus[0:3]
Out[2]:[['id','product_id','author_name','author_id','helpful','rating','has_purchased','summary','content','published_at','created_at','updated_at','meta'],
 ['R3BANSXTDHC16U','B017D4ORMM','mari','A1SOIEM6ZWUK9B','','4','TRUE','great shoes',
  'Great color …… trendy style.','2016-07-16 00:00:00','2016-07-19 15:47:56','2016-07-19 15:47:56','{"Size": "6 B(M) US", "Color": "Wine Red", "variation_attribute": "Size: 6 B(M) US|Color: Wine Red"}'],
 ['R37EXA4Y7A32CS','B017D4ORMM','JR Taylor','A1QHRBBD0O63F1','','2','TRUE','no return information and feel like an 8',"I wear  …… at all.",'2016-07-12 00:00:00','2016-07-19 15:47:56','2016-07-19 15:47:56','{"Size": "9 B(M) US", "Color": "White", "variation_attribute": "Size: 9 B(M) US|Color: White"}']]

可以看到 corpus 第一个列表元素即为 csv 文件的第一行，即抓取的字段，包括：id、product_id、author_name、author_id、helpful、rating、has_purchased、summary、content、published_at、created_at、updated_at、meta，分别代表评论id、商品id、评论者姓名、评论者id、评论是否有帮助、评论得分、是否真实购买、评论摘要、评论内容、评论发布时间、评论创建时间、评论更新时间、商品属性，利用这些丰富的信息可以得到很有价值的分析结论。

（2）分词处理

（2.1）提取评论文本

将商品所属子类 id 为 3 的商品评论文本保存到列表 review 中：


In [3]:review=[]
       with open("shoes_review.csv") as f:
           reader=csv.reader(f)
           reader.next() # 跳过第一行字段内容
           for i in reader:
               review.append(i[8].decode('utf-8'))#以文件保存格式对内容进行解码，获得unicode字符串
In [4]:len(review) # 查看评论数
Out[4]:187
In [5]:for i in review[25:28]:
           print i + "\n"
       They fit very comfortably. I am a nurse working 12 hour shifts and these are very easy on my feet. They are as close to barefoot and still wear shoes. No arch support, but great for wide feet.

       would buy another pair! Very comfortable!!!

       Wore it 2 times and the stitching started coming undone.

（2.2）分句

对提取的英文评论文本进行分句处理，使用的是 sent_tokenize 函数，分句的结果保存在列表 sent 中。


In [6]:import nltk
       from nltk.tokenize import sent_tokenize
       sent=[]
       for i in review:
           sent.append(sent_tokenize(i))
In [7]:sent[0:3]
Out[7]:[[u'Great color, wear well but bought a size larger as recommended, but should have bought my reg.',
         u'shoe size.',
         u'Very comfortable but had to put in some inner soles to make it fit better.',
         u'Would like to try another color but will buy my size.',
         u'Many compliments on this trendy style.'],
        [u'I wear a nine- period.',
         u'I read the reviews and ordered my exact size.',
         u'The shoes arrived with no order form, no return information and feel like an 8.',
         u'I will never be able to wear them.',
         u"FYI, they are as cute in person as online, but I'm stuck with a shoe I can't wear...at all."],
        [u'Very comfortable']]

从分句的结果可以看出，每一条评论文本都被分割成若干句，且保存在一个列表中。

（2.3）分词

对以上分句的结果进一步做分词处理，这里使用最常用的分词函数 word_tokenize，分词的结果保存在列表 words 中。


In [8]:from nltk.tokenize import word_tokenize
       words=[]
       for i in sent:
           for j in i:
               words.extend(word_tokenize(j))
In [9]:words[0:3]
Out[9]:[u'Great', u'color', u',']

（2.4）小写处理

分词结果中有部分大写的字母，为了提高后续去除停用词、语意分词等过程的处理、分析效果，需要先进性小写处理，直接利用字符串的 lower 方法即可，将处理结果保存在列表 words_lower 中。


In [10]:words_lower=[i.lower() for i in words]
        words_lower[0:3]
Out[10]:[u'great', u'color', u',']

（2.5）去除标点符号和停用词

分词结果列表中还存在大量的标点符号和停用词，利用自定义标点符号列表以及 NLTK 提供的停用词典进行过滤，过滤后的分词结果保存在 words_clear 列表中。


In [10]:from nltk.corpus import stopwords
        english_stopwords = stopwords.words("english")
        english_punctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '!', '@', '#', '%', '$', '*', '...'] # 自定义英文表单符号列表
        words_clear=[]
        for i in words_lower:
            if i not in english_stopwords: # 过滤停用词
                if i not in english_punctuations: # 过滤标点符号
                    words_clear.append(i)
In [11]:print "/".join(words_clear[0:10])
        great/color/wear/well/bought/size/larger/recommended/bought/reg

（2.6）词干化处理

利用 porter 模块即 Porter Stemming 算法进一步进行词干化处理，将词干化后的结果保存在列表 words_stem 中。


In [12]:from nltk.stem.porter import PorterStemmer
        st = PorterStemmer()
        words_stem=[st.stem(word) for word in words_clear]

（2.7）简单的统计汇总

经过以上几步的处理，可以初步得到一份比较清爽的分词结果，读者可以根据实际需求选择合适的分词、词干化等方法，并且可以在此结果基础上进一步过滤掉较短的单词、纠正拼写错误的单词等等，下面仅利用分词的结果做几个简单的统计汇总。

利用函数 Text() 将分词结果转换为 Text 格式，名称为 word_text


In [13]:from nltk.text import Text
        word_text=Text(words_stem)

识别评论文本中常用固定词组搭配：


In [14]:word_text.collocations(num=20, window_size=2)
        arch support; love shoe; true size; mani compliment; differ color;
        read review; fit perfect; super comfort; everi color; wide feet; dark
        blue; well made; second pair; appreci fayal; dissip quickli; skirt
        short; someon said; extrem comfort; car around; skinni jean

结果显示，出现次数最多的词组为 arch support （足弓垫），此外 fit perfect、super comfort、well made、extrem comfort 等经常出现的好评词组显示了评论者较高的评价。

利用 Counter 计数器统计出现次数最多的前 20 个单词：


In [15]:from collections import Counter
        words_counter=Counter(words_stem)
        words_counter.most_common(20)
Out[15]:[(u'shoe', 152),(u'comfort', 93),(u'love', 63),(u'color', 47),(u'fit', 43),(u'wear', 41),(u'order', 40),(u'size', 39),(u'cute', 37),(u'pair', 35),(u"n't", 32),(u'like', 31),(u'look', 28),(u'great', 23),(u'day', 22),(u'feet', 22),(u'realli', 22),(u'buy', 22),(u'comfi', 20),(u'one', 19)]

计数结果显示，出现次数最多的词是“shoe”，共出现了 152 次，其次是 comfort、love、color 等。通过查看高频词上下文相关内容，可以了解评论的具体内容：


In [16]:word_text.concordance("comfort",lines=10)
        Displaying 10 of 93 matches:
                                            comfort put inner sole make fit better woul
        son onlin 'm stuck shoe ca n't wear comfort 've gotten plenti compliment shoe c
        t 've gotten plenti compliment shoe comfort wear day wear true 9 long toe found
        orter toe hit end rather wide still comfort bought arch insert arch support com
        ort bought arch insert arch support comfort shoe bought love help prevent feet 
        rch shoe meet qualif worth tri cute comfort shoe hesit order review state right
        shoe imposs keep side shoe lace tie comfort fit great rub even lot walk love mu
        t skinni jean etc feel like slipper comfort love first pair black order order p
        pair packag came felt like noth bag comfort order differ style color ca n't bea
        ld back case return love hope order comfort love size fit perfect need buy diff

如果想直接查看原始评论文本，可以通过索引查看。

（3）词性标注


In [17]:from nltk.tag import pos_tag
        pos_tag(words_stem,tagset='universal')
Out[17]:[(u'great', u'ADJ'),
         (u'color', u'NOUN'),
         (u'wear', u'NOUN'),
         ...]

筛选出形容词和名词，分别保存在列表 ADJ 和 NOUN 中：


In [18]:ADJ=[]
        NOUN=[]
        for a,b in pos_tag(words_stem,tagset='universal'):
            if b=="ADJ":
                ADJ.append(a)
            elif b=="NOUN":
                NOUN.append(a)
In [19]:len(ADJ) # 查看形容词个数
Out[19]:523
In [20]:len(NOUN) # 查看名词个数
Out[20]:1203

查看出现次数较多的形容词和名词：


In [21]:c1=Counter(ADJ)
        for i in c1.most_common(10):
            print i[0],i[1]
        fit 39
        cute 27
        great 23
        super 13
        nice 13
        perfect 11
        big 10
        red 10
        right 9
        much 9
In [22]:c2=Counter(NOUN)
        for i in c2.most_common(10):
            print i[0],i[1]
        shoe 131
        comfort 88
        color 42
        order 40
        size 39
        love 33
        pair 32        
        day 22
        feet 22
        comfi 19

从词性标注统计结果可以初步推断，购买者最常用来描述商品的形容词是“fit”，即“合脚”，此外“cute"、"great"等词出现的次数也比较多，除了名词“shoe”以外，出现次数较多的名词有“comfort”、“color”、“size”等，可以初步推断购买者更加关注鞋子的舒适度、颜色以及尺寸。

4.2.2 Pattern

Pattern 工具库中的 en 模块提供了英文词性标注、情感分析、动名词变换等工具，其中 Parser 类及相关方法可以实现英文分词和词性标注处理，使用的是一个含有 100000 个词汇及对应词性的词典，对于词典中未包含的词汇，根据词汇后缀及上下文词汇进行判断，准确率在 95% 左右，对于用词不规范的情境下准确率会更低。词性简写对照表可以参见官方文档（http://www.clips.ua.ac.be/pages/mbsp-tags）。

4.2.2.1 tag 函数

通过调用函数 tag 可以直接将英文语句切分并以元组形式返回词语及词语的词性标注结果，调用方式如下：tag(string, tokenize=True, encoding='utf-8', **kwargs)

参数说明：

string：待处理英文语句

tokenize：在分词时是否将标点符号和单词分开

encoding：所输入的英文语句的编码

例 1


In [1]:import pattern
       from pattern.en import tag
       tag("I eat *pizza !with a fork.",tokenize=False)
Out[1]:[(u'I', u'PRP'),
        (u'eat', u'VBP'),
        (u'*pizza', u'NN'),
        (u'!with', u'IN'),
        (u'a', u'DT'),
        (u'fork.', u'NN')]
In [2]:tag("I eat *pizza !with a fork.")
Out[2]:[(u'I', u'PRP'),
        (u'eat', u'VBP'),
        (u'*', u'SYM'),
        (u'pizza', u'NN'),
        (u'!', u'.'),
        (u'with', u'IN'),
        (u'a', u'DT'),
        (u'fork', u'NN'),
        (u'.', u'.')]

4.2.2.3 parse 函数

通过调用函数 parse 可以直接将英文语句切分并返回词性标注结果，除此之外还可以识别句子成分、进行词干化处理等等。调用方式如下：parse(string, tokenize=True, tags=True, chunks=True, relations=False, lemmata=False, encoding='utf-8', **kwargs)

参数说明：

string：待处理英文语句

tokenize：在分词时是否将标点符号和单词分开

tags：是否进行词性标注

chunks：是否切分词组

relations：是否识别句子成分，如主语、宾语

lemmata：是否进行词干处理

encoding：所输入的英文语句的编码

例 2


In [3]:from pattern.en import parse
       parse('I eat pizza with a fork.')
Out[3]:u'I/PRP/B-NP/O eat/VBP/B-VP/O pizza/NN/B-NP/O with/IN/B-PP/B-PNP a/DT/B-NP/I-PNP fork/NN/I-NP/I-PNP ././O/O'

输出结果为字符串形式，每个词的分析结果用空格分开，以“I”为例，结果“I/PRP”中，第一项“PRP”表示词性“pronoun, personal”，即人称代词，其余表示词组类型。Pattern 提供了 pprint 函数美化以上输出结果。


In [4]:from pattern.en import pprint
       pprint(parse('I eat pizza with a fork.',relations=True,lemmata=True))

          WORD   TAG    CHUNK   ROLE   ID     PNP    LEMMA   

             I   PRP    NP      SBJ    1      -      i       
           eat   VBP    VP      -      1      -      eat     
         pizza   NN     NP      OBJ    1      -      pizza   
          with   IN     PP      -      -      PNP    with    
             a   DT     NP      -      -      PNP    a       
          fork   NN     NP ^    -      -      PNP    fork    
             .   .      -       -      -      -      .

你可能感兴趣的:(NLP)

甘超波：NLP中EMBA状态管理甘超波
哈喽，大家好我是甘超波，一名NLP爱好者，每天一篇文章，分享我的NLP实战经验和案例，希望给你些启发和帮助，这是第23篇原创文章什么是EMBAEMBA：是总裁班吗？在NLP中EMBA指的一种状态管理，我们NLP所有技巧都是在EMBA中展开的，像催眠，潜意识沟通......等都是在基于EMBA。如果把NLP比作一个楼房，EMBA就是楼房的地基如果把NLP比作一个汽车，EMBA就是汽车的发动机。其中E
打造智能资讯引擎：基于 Python 的新闻数据爬取与个性化推荐系统实战全流程解析程序员威哥最新爬虫实战项目 python 开发语言
前言：数据时代的信息洪流，如何做到“千人千面”？在信息爆炸的时代，每天都有成千上万条新闻资讯涌现。如何从海量内容中挖掘出用户感兴趣的资讯？这不仅仅是爬虫技术的问题，更是数据建模与智能推荐算法的落地挑战。本篇文章将带你从零出发，构建一个具有实际应用价值的“个性化新闻阅读推荐系统”，从数据采集（爬虫）、文本处理（NLP）、兴趣建模（TF-IDF/协同过滤/Embedding）到推荐展示，覆盖整个推荐系
题解 | #使用join查询找出没有分类的电影id以及名称# 愤怒的小青春 java
58同城java后端一面凉经主流的哈希算法有哪几种？帮闺蜜们找靠谱男票hc多多光彩积云是什么企业，查不到有用信息太抽象了！培训班装公司招聘阿里巴巴前端暑期实习——无语八面挂怎么写自我介绍|自我介绍保姆级教学灵犀互娱客户端一面面经(求过啊)24找运维实习，这简历可行吗拓竹科技测试开发面经（25届暑期实习）分享一波攒了整个秋招的NLP算法岗面经腾讯广告暑期实习面试1、JVM垃圾回收机制2、syncho
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts) 视频教程 - 基于wordcloud库实现词云图
大家好，我是java1234_小锋老师，最近写了一套【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts)视频教程，持续更新中，计划月底更新完，感谢支持。今天讲解基于wordcloud库实现词云图视频在线地址：2026版【NLP舆情分析】基于python微博舆情分析可视化系统(flask+pandas+echarts+爬虫)视频教程（火爆连载更新中..
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
丰盛日记第三天幸运星小燕子
第123期NLP执行师二阶4组章艳Day3分享《有效引导他人的能力》学到情绪管理的方法和体验练习中感动的一天，我很开心！1、复习大脑结构:由原始脑、情绪脑、皮质层三部分组成；三部分需要充分配合和相互制约，考虑三赢后，才能做出正确的决定。2、情绪体验小游戏:树和松鼠，让我们提醒不同的情绪感受。3、处理情绪的四个方法:思维、体能、环境、关系；导师建议可以使用呼吸放松法，使自己的情绪可以及时的醒觉→_→
【转】【译】How to Handle Very Long Sequences with LSTM（LSTM RNN 超长序列处理）开始奋斗的胖子机器学习 RNN LSTM 序列深度学习
原文地址http://machinelearningmastery.com/handle-long-sequences-long-short-term-memory-recurrent-neural-networks/一个长的输入序列却只对应一个或者一小段输出就是我们经常说的序列标注和序列分类。主要包括下面一些例子：包含上千个词的文件情感分类（NLP）包含上千个时间状态的脑电痕迹分类（Medici
“闭门造车”之多模态思路浅谈：自回归学习与生成 PaperWeekly 回归学习数据挖掘人工智能机器学习
©PaperWeekly原创·作者|苏剑林单位|科学空间研究方向|NLP、神经网络这篇文章我们继续来闭门造车，分享一下笔者最近对多模态学习的一些新理解。在前文《“闭门造车”之多模态思路浅谈：无损》中，我们强调了无损输入对于理想的多模型模态的重要性。如果这个观点成立，那么当前基于VQ-VAE、VQ-GAN等将图像离散化的主流思路就存在能力瓶颈，因为只需要简单计算一下信息熵就可以表明离散化必然会有严重
自动字幕生成器：Auto-Subtitle — 技术解析与应用指南房耿园Hartley
自动字幕生成器：Auto-Subtitle—技术解析与应用指南在视频内容日益丰富的今天，自动字幕生成工具变得越来越重要，尤其是对于听障人士、非母语者和在嘈杂环境下观看视频的人来说。Auto-Subtitle是一个开源项目，它利用先进的自然语言处理（NLP）技术为你的视频自动生成准确的字幕。本文将深入探讨这个项目的原理、功能、应用场景及特点，以期吸引更多开发者和用户关注并使用。项目简介Auto-Su
略说NLP引入公理模型的可行性金井PRATHAMA 知识图谱与NLP 自然语言处理人工智能知识图谱
在自然语言处理（NLP）的深层语义分析中，公理化体系的引入具有理论可行性，但其实际应用仍面临挑战。以下从公理模型的设计思路、关键技术要点及注意事项三个方面展开分析，结合搜索结果的多个相关技术点进行综合说明：一、公理模型在深层语义分析中的设计思路公理的定义与语义形式化公理模型需以形式化逻辑为基础，定义语义分析中的原始概念（如谓词、实体、关系）和推理规则。例如：原始概念：将语义角色（如施事者、受事者）
NLP中情感分析如何结合知识图谱在跨文化领域提升观念分析和价值判断的准确性？
情感分析结合知识图谱，能够显著提升观念分析和价值判断的准确性。这一融合的核心在于利用知识图谱的结构化语义网络，为情感分析提供深层语境、实体关联和领域知识支撑。以下是具体机制和应用场景的分析：一、知识图谱如何提升情感分析的语义理解1.解决歧义与上下文依赖问题：情感词（如“冷”）在不同语境中含义不同（“服务态度冷”表负面，“冷静分析”表中性）。方案：知识图谱通过实体链接识别文本中的对象（如“服务态度”
SBERT、CoSENT和BETR以及transformers的区别和联系 panshengnan NLP nlp transformer
SBERT、CoSENT、BETR和Transformers的区别和联系这几个模型（SBERT、CoSENT、BETR）和框架（Transformers）都是围绕自然语言处理（NLP）的句子嵌入和语义理解任务展开的。它们的联系主要在于基于Transformer架构，并针对特定任务做了优化；区别则在于目标任务、优化策略、训练方法和适用场景等方面。1.联系基于Transformer架构：它们的核心编码
入门大模型神器：开源项目Happy LLM保姆级教程！
Happy-LLMHappy-LLM——从零开始的大语言模型原理与实践教程。本项目是一个系统性的LLM学习教程，将从NLP的基本研究方法出发，根据LLM的思路及原理逐层深入，依次为读者剖析LLM的架构基础和训练过程。同时，我们会结合目前LLM领域最主流的代码框架，演练如何亲手搭建、训练一个LLM，期以实现授之以鱼，更授之以渔。希望大家能从这本书开始走入LLM的浩瀚世界，探索LLM的无尽可能。特点•
【原创】下雨天要游泳饶金霞家庭教育心理咨询
下午，我照着昨天与小儿的约定，在四点半，就来到幼儿园门口接孩子。老师打开大门，孩子从教室里走出来，一见到我就问:“老妈，泳衣准备好了吗？”我半蹲下来拥抱他说：“都放在车上啦！”儿子在我额头上亲一口说：“你真是世界上最讲信用的好妈妈！”我有点怀疑我这儿子有NLP的基因，总是能及时地给沟通者作出良好的回应，而且还会用米尔顿。其实看着这满天的乌云，我心里还在嘀咕，这场大雨可能不会等到我们去游泳场。果不其
LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
AI数字人系统开发上线全攻略：从0到1全流程解析 v_qutudy 人工智能 AI系统开发 AI数字人开发
一、需求分析：定义数字人核心能力1.1功能规划矩阵模块基础功能进阶功能形象生成2D/3D建模实时表情捕捉与驱动语音交互TTS语音合成情感识别与应激反应动作系统预设动作库骨骼动画与物理引擎智能决策规则引擎强化学习驱动决策多模态交互文本/语音输入AR/VR空间交互1.2非功能性指标实时性：唇形同步延迟B[语音识别]A-->C[姿态检测]A-->D[文本理解]B-->E[NLP引擎]C-->F[动作解析
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
数据安全审计平台的三大关键技术：日志分析、行为监测与智能告警 KKKlucifer 安全算法
在数字化浪潮中，数据安全审计是企业守护核心资产的“瞭望塔”。通过日志分析、行为监测、智能告警三大技术，数据安全审计平台构建起“全流程监控-异常识别-快速响应”的闭环，为数据安全筑牢防线。以下从技术原理、实践价值与行业应用展开解析。日志分析：数据安全的“DNA图谱”1.多源日志融合技术实现：通过Agent采集操作系统、数据库、网络设备等200+日志源，利用正则表达式、NLP技术解析非结构化日志（如“
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
NLP-D7-李宏毅机器学习---X-Attention&&GAN&BERT&GPT 甄小胖机器学习自然语言处理机器学习 bert
—0521今天4:30就起床了！真的是迫不及待想看新的课程！！！昨天做人脸识别系统的demo查资料的时候，发现一个北理的大四做cv的同学，差距好大！！！我也要努力呀！！不是比较，只是别人可以做到这个程度，我也一定可以！！！要向他学习！！！开始看课程啦！-----0753看完了各种attention，由于attention自己计算的限制，当N很大的时候会产生计算速度问题，从各种不同角度（人工知识输入
PyTorch 在 Python 自然语言处理中的运用 Python编程之道 Python编程之道 python pytorch 自然语言处理 ai
PyTorch在Python自然语言处理中的运用关键词：PyTorch，Python，自然语言处理，深度学习，文本分类，情感分析摘要：本文全面探讨了PyTorch在Python自然语言处理（NLP）领域的运用。首先介绍了相关背景知识，包括目的范围、预期读者等内容。接着详细阐述了核心概念，如词嵌入、循环神经网络等，并给出了相应的原理示意图和流程图。深入讲解了核心算法原理，结合Python代码进行详细
VIT视觉妄想成为master opencv 目标检测机器学习数据挖掘语音识别人工智能计算机视觉
VisionTransformer视觉和语言(Vision-Language)NLPrompt:Noise-LabelPromptLearningforVision-LanguageModelsPaper:https://arxiv.org/abs/2412.01256Code:GitHub-qunovo/NLPromptPhysVLM:EnablingVisualLanguageModelsto
RAG实战指南 Day 11：文本分块策略与最佳实践在未来等你 RAG实战指南 RAG 检索增强生成文本分块语义分割文档处理 NLP 人工智能
【RAG实战指南Day11】文本分块策略与最佳实践文章标签RAG,检索增强生成,文本分块,语义分割,文档处理,NLP,人工智能,大语言模型文章简述文本分块是RAG系统构建中的关键环节，直接影响检索准确率。本文深入解析5种主流分块技术：1)固定大小分块的实现与调优技巧；2)基于语义的递归分割算法；3)文档结构感知的分块策略；4)LLM增强的智能分块方法；5)多模态混合内容处理方案。通过电商知识库和科
中文大模型的技术债问题大鹏的NLP博客大模型 transformer 大模型
中文大模型的技术债问题摘要随着中文大语言模型（LargeLanguageModels,LLMs）在自然语言处理（NLP）领域的广泛应用，其研发和部署过程中积累的“技术债”（TechnicalDebt）问题日益突出。本文系统性地分析了中文大模型在数据采集、预训练、微调、评估与部署等生命周期各阶段产生的技术债类型，包括代码复杂性、数据隐患、训练流程依赖、工具链碎片化、模型解释性差、隐性资源耦合等问题，
AI 正在深度重构软件开发的底层逻辑和全生命周期，从技术演进、流程重构和未来趋势三个维度进行系统性分析
AI正在深度重构软件开发的底层逻辑和全生命周期，从需求分析到运维维护的每个环节都产生了范式级变革。以下从技术演进、流程重构和未来趋势三个维度进行系统性分析：一、AI重构软件开发全栈的技术图谱需求工程智能化NLP驱动的需求解析：GPT-4架构实现用户访谈转录自动转化为UML用例图，准确率达89%（微软2023内部数据）情感计算应用：基于BERT的意图识别模型可捕捉用户需求中的隐性情绪，需求变更预测准
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr