Claire_chen_jia

python自然语言处理|分类和标注词汇

本章解决问题

什么是词汇分类，在自然语言处理中它们是如何使用?
一个好的存储词汇和它们的分类的Python数据结构是什么?
我们如何自动标注文本中词汇的词类?

词性标注：将词汇按它们的词性( parts-of-speech，POS）分类以及相应的标注它们的过程被称为词性标注(part-of-speech tagging，POS tagging）或干脆简称标注。词性也称为词类或词汇范畴。
标记集：用于特定任务的标记的集合。

这里写目录标题

1 使用词性标注器
2 标注语料库
- 2.1 表示已标注的标识符
- 2.2 读取已标注的语料库
- 2.3 通用词性标记集
- 2.4 名词
- 2.5 动词
- 2.6 形容词和副词
- 2.7 未简化的标记
- 2.8 探索已标注的语料库
3 使用Python字典映射单词到其属性
- 3.1 索引链表 VS 字典
- 3.2 Python字典
- 3.3 定义字典
- 3.4 默认字典
- 3.5 递增地更新字典
- 3.6 复杂的键和值
- 3.7 反转字典
4 自动标注
- 4.1 默认标注器
- 4.2 正则表达式标注器
- 4.3 查询标注器
- 4.4 评估
5 N-gram标注
- 5.1 一元标注
- 5.2 分离训练和测试数据
- 5.3 一般的N-gram标注
- 5.4 组合标注器
- 5.5 标注生词
- 5.6 存储标注器
- 5.7 性能限制
- 5.8 跨句子边界标注
6 基于转换的标注
7 如何确定一个词的分类
- 7.1 形态学线索
- 7.2 句法线索
- 7.3 语义线索
- 7.4 词性标记集中的形态学
8 小结
9 练习

1 使用词性标注器

import nltk
# nltk.download('averaged_perceptron_tagger')
# nltk.download('tagsets')
nltk.download('universal_tagset')

# 一个词性标注器处理一个词序列，为每个词附加一个词性标记。
text = nltk.word_tokenize("And now for something completely different")  #分词
nltk.pos_tag(text)   #词性标注器

NLTK中提供了每个标记的文档，可以使用标记来查询，如: nltk.help.upenn_tagset(‘RB’)，或正则表达式，如:nltk.help.upenn_brown_tagset(‘NN.*’)。一些语料库有标记集文档的README文件;见 nltk.name.readme()，用语料库的名称替换name。

 nltk.help.upenn_tagset('RB')  # RB: adverb

# 考虑下面的分析，涉及woman(名词)，bought(动词)、over(介词〉和 the(限定词)。
# text.similar()方法为一个词w找出所有上下文w1，w2，然后找出所有出现在相同上下文中的词 即w1，w2。
text = nltk.Text(word.lower() for word in nltk.corpus.brown.words())
print(text.similar("woman"),"\n")  # 找到的大部分是名词
print(text.similar("bought"),"\n")  # 找到的大部分是动词
print(text.similar("over"),"\n")   # 找到大部分是介词
print(text.similar("the"),"\n")   # 找到大部分是限定词

2 标注语料库

2.1 表示已标注的标识符

按照NLTK的约定，一个已标注的词符使用一个由词符和标记组成的元组来表示。
我们可以使用**函数str2tuple()**从表示一个已标注的词符的标准字符串创建一个这样的特殊元组：

tagged_token = nltk.tag.str2tuple("gly/NN")
print(tagged_token,"\n",tagged_token[0])

我们可以直接从一个字符串构造一个已标注的词符的列表。

第一步是对字符串分词以便能访问单独的单词/标记字符串；
然后将每一个转换成一个元组（使用str2tuple()）。

sent = '''
The/AT grand/JJ jury/NN commented/VBD on/IN a/AT number/NN of/IN
other/AP topics/NNS ,/, AMONG/IN them/PPO the/AT Atlanta/NP and/CC
Fulton/NP-tl County/NN-tl purchasing/VBG departments/NNS which/WDT it/PPS
said/VBD ``/`` ARE/BER well/QL operated/VBN and/CC follow/VB generally/RB
accepted/VBN practices/NNS which/WDT inure/VB to/IN the/AT best/JJT
interest/NN of/IN both/ABX governments/NNS ''/'' ./.
'''
print([nltk.tag.str2tuple(t) for t in sent.split()])  # [('The', 'AT'), ('grand', 'JJ'),...]

2.2 读取已标注的语料库

print(nltk.corpus.brown.tagged_words())  # [('The', 'AT'), ('Fulton', 'NP-TL'), ...]

# simplify _tags=True  --> 避免这些标记集复杂化
print(nltk.corpus.brown.tagged_words(tagset = "universal"))

2.3 通用词性标记集

# 哪些是布朗语料库的新闻类中最常见的
from nltk.corpus import brown
brown_news_tagged = brown.tagged_words(categories = "news", tagset = "universal")
tag_fd = nltk.FreqDist(tag for (word, tag) in brown_news_tagged)
print(tag_fd.most_common())
tag_fd.plot(cumulative = True)

2.4 名词

名词一般指的是人、地点、事情或概念，例如: woman, Scotland, book, intelligence。
名词可能出现在限定词和形容词之后，可以是动词的主语或宾语。

word_tag_pairs = nltk.bigrams(brown_news_tagged)  # [('The', 'DET'),('Fulton', 'NOUN'),('Fulton', 'NOUN'),('County', 'NOUN')...]

# for (a,b) in word_tag_pairs:
#     print(a,b)
#     print(a[1],b[1])
    
# 输出结果： ('The', 'DET') ('Fulton', 'NOUN')   |    DET NOUN

noun_preceders = [a[1] for (a,b) in word_tag_pairs if b[1] == "NOUN"]
fdist = nltk.FreqDist(noun_preceders)
print([tag for (tag, _) in fdist.most_common()])

# 名词出现在限定词和形容词之后，包括数字形容词（数词，标注为NUM）。

2.5 动词

动词是用来描述事件和行动的词，例如2.3中的fall, eat。在一个句子中，动词通常表示涉及一个或多个名词短语所指示物的关系

wsj = nltk.corpus.treebank.tagged_words(tagset = "universal")
word_tag_fd = nltk.FreqDist(wsj)
print([wt[0] for (wt, _) in word_tag_fd.most_common() if wt[1] == "VERB"][:10])  # 找出使用频率最高的10个词

"""
频率分布中计算的项目是词-标记对。
由于词汇和标记是成对的，我们可以把词作作为条件，标记作为事件，
使用条件-事件对的链表初始化一个条件频率分布。这让我们看到了一个给定的词的标记的频率顺序列表：
"""

cfd1 = nltk.ConditionalFreqDist(wsj)
print(cfd1["yield"].most_common()) # 词为条件，标记为事件 [('VERB', 28), ('NOUN', 20)]
print(cfd1["cut"].most_common())

"""
颠倒配对的顺序，这样标记作为条件，词汇作为事件。
现在我们可以看到对于一个给定的标记可能的词。
我们将用《华尔街日报 》的标记集而不是通用的标记集来这样做
"""
wsj = nltk.corpus.treebank.tagged_words()
cfd2 = nltk.ConditionalFreqDist((tag, word) for (word, tag) in wsj)
print(list(cfd2["VBN"])[:10])

"""
要弄清VBD（过去式）和VBN（过去分词）之间的区别，让我们找到可以同是VD和VBN的词汇，看看一些它们周围的文字
"""
print([w for w in cfd1.conditions() if "VBD" in cfd1[w] and "VBN" in cfd2[w]])

2.6 形容词和副词

形容词：修饰名词，可以作为修饰语（如the large pizza中的large），或者谓语（如the pizza is large）。英语形容词可以有内部结构（如the falling stocks中的fall+ing）。
副词：修饰动词，指定动词描述的事件的时间、方式、地点或方向（如the stocks fell quickly中的quickly）。副词也可以修饰的形容词（如Mary’s teacher was really nice中的really）。
其他词类：英语中还有几个封闭的词类，如介词，冠词（也常称为限定词）（如the、a），情态动词（如should、may）和人称代词（如she、they）。每个词典和语法对这些词的分类都不同。

2.7 未简化的标记

# 找出每个名词类型中最频繁的名词   函数定义的是
def findtags(tag_prefix, tagged_text):
    """
    tag_prefix: 要找出的标记
    找出的含有XX的标记中，在tagged_text内，前5最频繁的词语
    """
    cfd = nltk.ConditionalFreqDist((tag, word) for (word, tag) in tagged_text if tag.startswith(tag_prefix))
    return dict((tag, cfd[tag].most_common(5)) for tag in cfd.conditions())

tagdict = findtags("NN", nltk.corpus.brown.tagged_words(categories = "news"))
for tag in sorted(tagdict):
    print(tag, tagdict[tag])

 """
有许多NN的变种；最重要有$表示所有格名词，S表示复数名词（因为复数名词通常以s结尾），以及P表示专有名词。
此外，大多数的标记都有后缀修饰符：-NC表示引用，-HL表示标题中的词，-TL表示标题（布朗标记的特征）。
 """

2.8 探索已标注的语料库

# 假设我们正在研究词often，想看看它是如何在文本中使用的。我们可以试着看看跟在often后面的词汇
brown_learned_text = brown.words(categories = "learned")
print(sorted(set(b for (a, b) in nltk.bigrams(brown_learned_text) if a == "often")))

# 使用tagged_words()方法查看跟随词的词性标记可能更有指导性
brown_lrnd_tagged = brown.tagged_words(categories = "learned", tagset = "universal")
tags = [b[1] for (a, b) in nltk.bigrams(brown_lrnd_tagged) if a[0] == "often"]
fd = nltk.FreqDist(tags)
fd.tabulate()
# often后面最高频率的词性是动词。名词从来没有在这个位置出现（在这个特别的语料中）
"""
VERB  ADV  ADP  ADJ    .  PRT 
  37    8    7    6    4    2 
"""

# 使用tagged_words()方法查看跟随词的词性标记可能更有指导性
brown_lrnd_tagged = brown.tagged_words(categories = "learned", tagset = "universal")
tags = [b[1] for (a, b) in nltk.bigrams(brown_lrnd_tagged) if a[0] == "often"]
fd = nltk.FreqDist(tags)
fd.tabulate()
# often后面最高频率的词性是动词。名词从来没有在这个位置出现（在这个特别的语料中）
"""
VERB  ADV  ADP  ADJ    .  PRT 
  37    8    7    6    4    2 
"""

"""
看看与它们的标记关系高度模糊不清的词。为什么要标注这样的词-->因为它们各自的上下文可以帮助我们弄清楚标记之间的区别
"""
brown_news_tagged = brown.tagged_words(categories = "news", tagset = "universal")
data = nltk.ConditionalFreqDist((word.lower(), tag) for (word, tag) in brown_news_tagged)
for word in sorted(data.conditions()):
    if len(data[word]) > 3:
        # 标记超过3个
        tags = [tag for (tag, _) in data[word].most_common()]
        print(word, " ".join(tags))

3 使用Python字典映射单词到其属性

3.1 索引链表 VS 字典

3.2 Python字典

python之字典(dict)详细介绍

3.3 定义字典

# 两种方式
pos = {
     "colorless": "ADJ", "ideas": "N", "sleep": "V", "furiously": "ADV"}
pos = dict(colorless = "ADJ", ideas = "N", sleep = "V", furiously = "ADV")

# 字典的键必须是不可改变的类型，如字符串和元组。如果我们尝试使用可变键定义字典会得到一个TypeError：
pos = {
     ["ideas", "blogs", "adventures"]: "N"}  # 报错：TypeError

3.4 默认字典

试图访问一个不在字典中的键，会得到一个错误。然而，如果一个字典能为这个新键自动创建一个条目并给它一个默认值，如0或者一个空链表，将是有用的
defaultdict的字典的应用：提供一个参数，用来创建默认值，如int, float, str, list, dict, tuple。

# 导入包
from collections import defaultdict

#默认字典中的value为int，初始值为0
frequency = defaultdict(int)
frequency["colorless"] = 4
print(frequency["colorless"])
print(frequency["new"])  # 默认为0

#默认字典中的value为list，初始值为[]
pos = defaultdict(list)
pos["sleep"] = ["NOUN", "VERB"]
print(pos["new"])  # 默认为[]

指定任何我们喜欢的默认值，只要提供可以无参数的被调用产生所需值的函数的名字，采用lambda

pos = defaultdict(lambda: "NOUN")
pos["colorless"] = "ADJ"
print(pos["blog"])
print([pos])

"""
应用：替换掉低频汇的词语
%%javascript体而言：
1. 许多语言处理任务——包括标注——费很大力气来正确处理文本中只出现过一次的词。
2. 如果有一个固定的词汇和没有新词会出现的保证，它们会有更好的表现。
3. 在一个默认字典的帮助下，我们可以预处理一个文本，替换低频词汇为一个特殊的“超出词汇表”词符UNK。
"""

alice = nltk.corpus.gutenberg.words("carroll-alice.txt")  # 文本
vocab = nltk.FreqDist(alice)   # 每个文本中每个词的词频的字典
v1000 = [word for (word, _) in vocab.most_common(1000)]   # 找出使用频率最高的1000个词
mapping = defaultdict(lambda: "UNK")  # 定义默认标记字典为UNK
for v in v1000:    # 定义高频的1000个词的就是它本身
    mapping[v] = v
alice2 = [mapping[v] for v in alice]   # 其他低频的为UNK
print(alice2[:10])
print(len(alice))
print(len(alice2))

3.5 递增地更新字典

from collections import defaultdict
counts = defaultdict(int)
from nltk.corpus import brown

# 定义tag的计数
for (word, tag) in brown.tagged_words(categories = "news", tagset = "universal"):
    counts[tag] += 1
print(counts["NOUN"])
print(sorted(counts))

# 例5-3的列表演示了一个重要的按值排序一个字典的习惯用法，按频率递减顺序显示词汇。
# sorted()的第一个参数是要排序的项目，它是由一个POS标记和一个频率组成的元组的链表。
# 第二个参数使用函数 itemgetter()指定排序键。在一般情况下，itemgetter(n)返回一个函数，这个函数可以在一些其他序列对象上被调用获得这个序列的第n个元素的。

from operator import itemgetter
print(sorted(counts.items(), key = itemgetter(1), reverse = True))
print([t for t, c in sorted(counts.items(), key = itemgetter(1), reverse = True)])  # t是key，c是value，key = itemgetter(0)是从小到大，key = itemgetter(1)是从大到小

"""
在3.3的开头还有第二个有用的习惯用法，那里我们初始化一个defaultdict，然后使用for循环来更新其值。
下面是这种模式的另一个示例，我们按它们最后两个字母索引词汇
"""
last_letters = defaultdict(list)
words = nltk.corpus.words.words("en")  # 英文单词
for word in words:
    key = word[-2:]
    last_letters[key].append(word)
    
print(last_letters["ly"][:10])  # ly结尾
print(last_letters["zy"][:10])  # zy结尾

# 下面的例子使用相同的模式创建一个颠倒顺序的词字典。（你可能会试验第3行来弄清楚为什么这个程序能运行。）
anagrams = defaultdict(list)
for word in words:
    key = "".join(sorted(word))
    anagrams[key].append(word)
print(anagrams["aeilnrt"])  # 找出这种组合的单词 ['entrail', 'latrine', 'ratline', 'reliant', 'retinal', 'trenail']

# 由于积累这样的词是如此常用的任务，NLTK提供一个创建defaultdict(list)更方便的方式，形式为nltk.Index()。
anagrams = nltk.Index((''.join(sorted(w)), w) for w in words)
print(anagrams["aeilnrt"])
print(anagrams["eilnrt"])

"""
nltk.Index是一个支持额外初始化的defaultdict(list)。
类似地，nltk.FreqDist本质上是一个额外支持初始化的defaultdict(int)（附带排序和绘图方法）。
"""

3.6 复杂的键和值

我们可以使用具有复杂的键和值的默认字典。让我们研究一个词可能的标记的范围，给定词本身和它前一个词的标记。
我们将看到这些信息如何被一个词性标注器使用。

pos = defaultdict(lambda: defaultdict(int))
brown_news_tagged = brown.tagged_words(categories = "news", tagset = "universal")
for ((w1, t1), (w2, t2)) in nltk.bigrams(brown_news_tagged):  # (w1, t1), (w2, t2) w1，w2 是单词， t1，t2是标记
    pos[(t1, w2)][t2] += 1
print(pos[("DET", "right")])

3.7 反转字典

字典支持高效查找，只要你想获得任意键的值。如果d是一个字典，k是一个键，输入d[k]，就立即获得值。
给定一个值查找对应的键要慢一些和麻烦一些：

counts = defaultdict(int)
for word in nltk.corpus.gutenberg.words("milton-paradise.txt"):
    counts[word] +=1
print([key for (key, value) in counts.items() if value == 32])

# 经常做这样的一种“反向查找”，建立一个映射值到键的字典是有用的
pos = {
     "colorless": "ADj", "ideas": "N", "sleep": "V", "furiously": "ADV"}
pos2 = dict((value, key) for (key, value) in pos.items())
print(pos2["N"])

# 首先让我们将我们的词性字典做的更实用些，使用字典的update()方法加入再一些词到pos中，创建多个键具有相同的值的情况。这样一来，刚才看到的反向查找技术就将不再起作用（为什么不？）作为替代，我们不得不使用append()积累词和每个词性，如下所示
pos.update({
     'cats': 'N', 'scratch': 'V', 'peacefully': 'ADV', 'old': 'ADJ'})
pos2 = defaultdict(list)  # 建立默认字典
for key, value in pos.items():
    print(pos2[value])
    pos2[value].append(key)
    print(pos2[value])
print(pos2["N"])

# 反转字典pos:可以使用NLTK中的索引支持更容易的做同样的事
pos2 = nltk.Index((value, key) for (key, value) in pos.items())
print(pos2["ADV"])

4 自动标注

# 加载数据
from nltk.corpus import brown
brown_tagged_sents = brown.tagged_sents(categories='news')
brown_sents = brown.sents(categories='news')

4.1 默认标注器

默认的标注器给每一个单独的词分配标记，即使是之前从未遇到过的词。碰巧的是，一旦我们处理了几千词的英文文本之后，大多数新词都将是名词。正如我们将看到的，这意味着，默认标注器可以帮助我们提高语言处理系统的稳定性。

最简单的标注器是为每个词符分配同样的标记。这似乎是一个相当平庸的一步，但它建立了标注器性能的一个重要的底线。
为了得到最好的效果，我们用最有可能的标记标注每个词。让我们找出哪个标记是最有可能的（现在使用未简化标记集）

from nltk.corpus import brown
brown_tagged_sents = brown.tagged_sents(categories='news')
brown_sents = brown.sents(categories='news')

tags = [tag for (word, tag) in brown.tagged_words(categories = "news")]
print(nltk.FreqDist(tags).max())

# 现在我们可以创建一个将所有词都标注成NN的标注器。
raw = "I do not like green eggs and ham, I do not like them Sam I am!"
tokens = nltk.word_tokenize(raw)
default_tagger = nltk.DefaultTagger("NN")
print(default_tagger.tag(tokens)[:10])

# 评估标注器
default_tagger.evaluate(brown_tagged_sents)  # 在一个典型的语料库中，它只标注正确了八分之一的标识符

4.2 正则表达式标注器

正则表达式标注器基于匹配模式分配标记给词符。例如，我们可能会猜测任一以ed结尾的词都是动词过去分词，任一以’s结尾的词都是名词所有格。

patterns = [
     (r'.*ing$', 'VBG'),               # gerunds
     (r'.*ed$', 'VBD'),                # simple past
     (r'.*es$', 'VBZ'),                # 3rd singular present
     (r'.*ould$', 'MD'),               # modals
     (r'.*\'s$', 'NN$'),               # possessive nouns
     (r'.*s$', 'NNS'),                 # plural nouns
     (r'^-?[0-9]+(.[0-9]+)?$', 'CD'),  # cardinal numbers
     (r'.*', 'NN')                     # nouns (default)
]

regexp_tagger = nltk.RegexpTagger(patterns)
# 测试
print(regexp_tagger.tag(brown_sents[3]))
# 评估
print(regexp_tagger.evaluate(brown_tagged_sents))

4.3 查询标注器

很多高频词没有NN标记。让我们找出100个最频繁的词，存储它们最有可能的标记。然后我们可以使用这个信息作为“查找标注器”（NLTK UnigramTagger）的模型。

fd = nltk.FreqDist(brown.words(categories = "news"))
cfd = nltk.ConditionalFreqDist(brown.tagged_words(categories = "news"))
most_freq_words = fd.most_common(100)
likely_tags = dict((word, cfd[word].max()) for (word, _) in most_freq_words)
print([cfd["the"].max()])

# 构建查询标注器模型
baseline_tagger = nltk.UnigramTagger(model = likely_tags)
# 评估
baseline_tagger.evaluate(brown_tagged_sents)

# 看看它在一些未标注的输入文本上做的如何
sent = brown.sents(categories='news')[3]
print(baseline_tagger.tag(sent))

许多词都被分配了一个None标签，因为它们不在100个最频繁的词之中。在这些情况下，我们想分配默认标记NN。换句话说，我们要先使用查找表，如果它不能指定一个标记就使用默认标注器，这个过程叫做回退（5）。我们可以做到这个，通过指定一个标注器作为另一个标注器的参数，如下所示。现在查找标注器将只存储名词以外的词的词-标记对，只要它不能给一个词分配标记，它将会调用默认标注器。

baseline_tagger = nltk.UnigramTagger(model = likely_tags, backoff = nltk.DefaultTagger("NN"))  # backoff --》 回退器

"""
写一个程序来创建和评估具有一定范围的查找标注器
"""
def performance(cfd, wordlist):
    lt = dict((word, cfd[word].max()) for word in wordlist)  # 构建查找标注器，最频繁的词的标记
    baseline_tagger = nltk.UnigramTagger(model = lt, backoff = nltk.DefaultTagger("NN"))
    return baseline_tagger.evaluate(brown.tagged_sents(categories = "news"))

def display():
    import pylab
    word_freqs = nltk.FreqDist(brown.words(categories = "news")).most_common()
    words_by_freq = [w for (w, _) in word_freqs]
    cfd = nltk.ConditionalFreqDist(brown.tagged_words(categories = "news"))
    sizes = 2 ** pylab.arange(15)
    perfs = [performance(cfd, words_by_freq[:size]) for size in sizes]
    pylab.plot(sizes, perfs, "-bo")
    pylab.title("Lookup Tagger Performancce with Varying Model Size")
    pylab.xlabel("Model Size")
    pylab.ylabel("Performance")
    pylab.show()

# 随着模型规模的增长，最初的性能增加迅速，最终达到一个稳定水平，这时模型的规模大量增加性能的提高很小
display()

4.4 评估

5 N-gram标注

5.1 一元标注

一元标注器基于一个简单的统计算法：对每个标识符分配这个独特的标识符最有可能的标记。
例如，它将分配标记JJ给词frequent的所有出现，因为frequent用作一个形容词（例如a frequent word）比用作一个动词（例如I frequent this cafe）更常见。一个一元标注器的行为就像一个查找标注器（4），除了有一个更方便的建立它的技术，称为训练。
在下面的代码例子中，我们训练一个一元标注器，用它来标注一个句子，然后评估：

"""
我们训练一个UnigramTagger，通过在我们初始化标注器时指定已标注的句子数据作为参数。
训练过程中涉及检查每个词的标记，将所有词的最可能的标记存储在一个字典里面，这个字典存储在标注器内部。
"""
from nltk.corpus import brown
brown_tagged_sents = brown.tagged_sents(categories = "news")
brown_sents = brown.sents(categories = "news")
# 构建模型
unigram_tagger = nltk.UnigramTagger(brown_tagged_sents)
# 测试模型
print(unigram_tagger.tag(brown_sents[2007]))
# 评估模型
print(unigram_tagger.evaluate(brown_tagged_sents))

5.2 分离训练和测试数据

# 应该分割数据，90％为测试数据，其余10％为测试数据：
size = int(len(brown_tagged_sents) * 0.9)
print(size)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size:]
unigram_tagger = nltk.UnigramTagger(train_sents)
print(unigram_tagger.evaluate(test_sents))

5.3 一般的N-gram标注

在基于一元处理一个语言处理任务时，我们使用上下文中的一个项目。标注的时候，我们只考虑当前的词符，与更大的上下文隔离。给定一个模型，我们能做的最好的是为每个词标注其先验的最可能的标记。这意味着我们将使用相同的标记标注一个词，如wind，不论它出现的上下文是the wind还是to wind。
一个n-gram tagger标注器是一个一元标注器的一般化，它的上下文是当前词和它前面n-1个标识符的词性标记，如图5.1所示。要选择的标记是圆圈里的tn，灰色阴影的是上下文。在5.1所示的n-gram标注器的例子中，我们让n=3；也就是说，我们考虑当前词的前两个词的标记。一个n-gram标注器挑选在给定的上下文中最有可能的标记。

"""
NgramTagger类使用一个已标注的训练语料库来确定对每个上下文哪个词性标记最有可能。
n-gram标注器的一个特殊情况，二元标注器。首先，我们训练它，然后用它来标注未标注的句子
"""
bigram_tagger = nltk.BigramTagger(train_sents)
print(bigram_tagger.tag(brown_sents[2007]))

unseen_sent = brown_sents[4203]
print(bigram_tagger.tag(unseen_sent))
print(bigram_tagger.evaluate(test_sents))

二元标注器能够标注训练中它看到过的句子中的所有词，但对一个没见过的句子表现很差。只要遇到一个新词（如13.5），就无法给它分配标记。
它不能标注下面的词（如million)，即使是在训练过程中看到过的，只是因为在训练过程中从来没有见过它前面有一个None标记的词。因此，标注器标注句子的其余部分也失败了。它的整体准确度得分非常低：
当n越大，上下文的特异性就会增加，我们要标注的数据中包含训练数据中不存在的上下文的几率也增大。这被称为数据稀疏问题，在NLP中是相当普遍的。因此，我们的研究结果的精度和覆盖范围之间需要有一个权衡（这与信息检索中的精度/召回权衡有关）。
N-gram标注器不应考虑跨越句子边界的上下文。因此，NLTK的标注器被设计用于句子列表，其中一个句子是一个词列表。在一个句子的开始，tn-1和前面的标记被设置为None。

5.4 组合标注器

解决精度和覆盖范围之间的权衡的一个办法是尽可能的使用更精确的算法，但却在很多时候落后于具有更广覆盖范围的算法.方法 --> 可以按如下方式组合二元标注器、一元注器和一个默认标注器:

尝试使用二元标注器标注标识符。
如果二元标注器无法找到一个标记，尝试一元标注器。
如果一元标注器也无法找到一个标记，使用默认标注器。

t0 = nltk.DefaultTagger("NN")
t1 = nltk.UnigramTagger(train_sents, backoff = t0)
t2 = nltk.BigramTagger(train_sents, backoff = t1)
print(t2.evaluate(test_sents))

5.5 标注生词

标注生词常用方法是回退到一个正则表达式标注器或一个默认标注器，但其缺陷是无法利用上下文；
一个有用的基于上下文标注生词的方法是限制一个标注器的词汇表为最频繁的n 个词，使用字典中的方法替代每个其他的词为一个特殊的词UNK。训练时，一个一元标注器可能会学到UNK通常是一个名词。然而，n-gram标注器会检测它的一些其他标记中的上下文。例如，如果前面的词是to（标注为TO），那么UNK可能会被标注为一个动词。

5.6 存储标注器

将一个训练好的标注器保存到一个文件以后重复使用

# 保存我们的标注器t2到文件t2.pkl
from pickle import dump
output = open('5.t2.pkl', 'wb')
dump(t2, output, -1)
output.close()

# 在一个单独的Python进程中，我们可以载入保存的标注器
from pickle import load
input = open("5.t2.pkl", "rb")
tagger = load(input)
input.close()

# 检查它是否可以用来标注.
text = """The board's action shows what free enterprise
...     is up against in our complex maze of regulatory laws ."""
tokens = text.split()
print(tagger.tag(tokens))

5.7 性能限制

一个n-gram标注器准确性的上限是什么？考虑一个三元标注器的情况。它遇到多少词性歧义的情况？我们可以根据经验决定这个问题的答案

cfd = nltk.ConditionalFreqDist(
           ((x[1], y[1], z[0]), z[1])
           for sent in brown_tagged_sents
            for x, y, z in nltk.trigrams(sent))

ambiguous_contexts = [c for c in cfd.conditions() if len(cfd[c]) > 1]
print(sum(cfd[c].N() for c in ambiguous_contexts) / cfd.N())

给定当前单词及其前两个标记，根据训练数据，在5％的情况中，有一个以上的标记可能合理地分配给当前词。假设我们总是挑选在这种含糊不清的上下文中最有可能的标记，可以得出三元标注器准确性的一个下界。

调查标注器准确性的另一种方法是研究它的错误。有些标记可能会比别的更难分配，可能需要专门对这些数据进行预处理或后处理。一个方便的方式查看标注错误是混淆矩阵。它用图表表示期望的标记（黄金标准）与实际由标注器产生的标记：如下代码

test_tags = [tag for sent in brown.sents(categories  = "editorial") for (word, tag) in t2.tag(sent)]
gold_tags = [tag for (word, tag) in brown.tagged_words(categories='editorial')]
print(nltk.ConfusionMatrix(gold_tags, test_tags))

5.8 跨句子边界标注

brown_tagged_sents = brown.tagged_sents(categories='news')
brown_sents = brown.sents(categories='news')
size = int(len(brown_tagged_sents)* 0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size:]
t0 = nltk.DefaultTagger('NN')
t1 = nltk.UnigramTagger(train_sents, backoff=t0)
t2= nltk.BigramTagger(train_sents, backoff=t1)
print(t2.evaluate(test_sents))

6 基于转换的标注

# brill标注器演示 基于转换的标注学习一系列“改变标记s 为标记t 在上下文c 中”形式的修复规则
nltk.tag.brill.demo()  # 报错了？ AttributeError: module 'nltk.tag.brill' has no attribute 'demo'

7 如何确定一个词的分类

7.1 形态学线索

7.2 句法线索

7.3 语义线索

7.4 词性标记集中的形态学

8 小结

9 练习

https://blog.csdn.net/qq_34505594/article/details/79495999

你可能感兴趣的:(python,自然语言处理)

Python 高手编程系列一千七百零八：在事件循环中使用 executors 杨琴1 python 开发语言
Executor.submit()方法返回的Future类实例在概念上非常接近异步编程中使用的协程。这就是为什么我们可以使用执行器在协同多任务和多进程或多线程之间进行混合。此解决方法的核心是事件循环类的BaseEventLoop.run_in_executor(executor,func,*args)方法。它会在进程池或线程池中调度执行由executor参数表示的func函数。这个方法最重要的是它
conda将python低版本环境升级到高版本 dkgee conda python 开发语言
conda将python低版本环境3.7.16升级到高版本3.81.激活你的Conda环境2.升级Python版本3.验证升级4.处理依赖问题5.测试环境注意事项可以将Conda环境中的Python版本从3.7.16升级到3.8。以下是具体步骤：1.激活你的Conda环境首先，你需要激活你想要升级Python版本的环境。假设你的环境名为myenv，你可以使用以下命令激活它：condaactivat
python 爬取某乎某选全部内容路笑笑
在发布了python爬取知乎盐选文章内容后，没想到居然这么快就要更新新的内容了。在下午思考第一篇python爬取知乎盐选文章内容的时候，其实就把自动爬取目录内的其他内容的方法想出来了，但是本来没想这么快更新的，哈哈。不过思来想去还是发出来吧，毕竟要不哪天就忘了。fromDecryptLoginimportloginfrombs4importBeautifulSoupimportreimportba
（含import）两行代码，将ppt的每一页幻灯片保存为图片。（如果你没装office，只装了WPS也可以，只不过更麻烦一些）几道之旅人工智能智能体及数字员工 powerpoint wps
文章目录第一步:安装包第二步：写代码，运行第三步：如果你是Office，现在已经搞定了。但我是WPS，会报错：第四步：直接去包里改代码第五步：保存对包中代码的修改，重新运行咱最开头的代码第六步：成功了第一步:安装包pipinstallpython-office第二步：写代码，运行#安装库：pipinstallpython-officeimportoffice#单页转图片office.ppt.ppt
Python知识分享第十四天闵少搞AI python 开发语言
“”"1.面向对象相关概述概述面向对象是一种编程思想强调的是以对象为基础完成的各种操作它是基于面向过程的扩展Python中是同时支持面向对象和面向过程这两种编程思想的思想特点更符合人们的思考习惯把复杂的问题简单化把人们(程序员)从执行者变成了指挥者2.面向对象三大特征介绍封装继承多态封装概述封装就是隐藏对象的属性和实现细节仅对外提供公共的访问方式举例:插板电脑手机好处提高代码的安全性弊端代码量增加
pythontype函数使用_Python astype(np.float)函数使用方法解析 weixin_39870238 pythontype函数使用
Pythonastype(np.float)函数使用方法解析我的数据库如图结构我取了其中的nameagenr，做成array，只要所取数据存在str型，那么取出的数据，全部转化为str型，也就是array阵列的元素全是str，不管数据库定义的是不是int型。那么问题来了，取出的数据代入公式进行计算的时候，就会类型不符，这是就用到astype(np.float)代码如下importpymysqlim
conda install 和 pip install 的区别不知江月待何人.. 深度学习
condainstall和pipinstall是两个常用的包安装命令，但它们在很多方面存在差异。1.所属管理系统不同1.1condainstallcondainstall是Anaconda和Miniconda发行版自带的包管理工具conda的安装命令。conda是一个跨平台的开源包管理系统和环境管理系统，它不仅可以管理Python包，还能管理其他语言（如R、C++等）的包。conda更侧重于数据科
蓝桥杯备赛计划 laitywgx 蓝桥杯职场和发展
1-2小时的蓝桥杯PythonB组冲刺日程表（持续1个月，聚焦高频考点）：第一周：核心算法突破Day1（周一）学习重点：动态规划（01背包问题）学习资源：AcWing《蓝桥杯辅导课》第8讲（背包问题模板）代码模板速记：#一维01背包模板n,V=map(int,input().split())dp=[0]*(V+1)for_inrange(n):w,v=map(int,input().split()
When Large Language Models Meet Speech: A Survey on Integration Approaches UnknownBody LLM Daily Survey Paper 语言模型人工智能自然语言处理
主要内容研究背景：大语言模型（LLMs）在自然语言处理领域取得显著进展，其与语音的融合具有广泛应用前景，但缺乏相关集成方法的综述。文章将语音与LLMs集成方法分为基于文本、基于潜在表示和基于音频令牌三大类。集成方法基于文本的集成：通过级联集成、LLM重打分和LLM生成式错误纠正等方式，利用文本作为LLMs的输入和输出，处理语音相关任务，但存在信息损失和准确性与多样性平衡的问题。基于潜在表示的集成：
Conda常用命令汇总（持续更新中） X-future426 conda linux 运维
原文章：安装和使用Miniconda来管理Python环境-CSDN博客一、Miniconda的使用Miniconda没有GUI界面，只能通过conda命令对Python环境和软件包进行管理，所以这里主要介绍一下conda的常用命令。1.Conda相关(1)查询conda版本conda--version(2)更新conda版本condaupdateconda2.环境管理(1)查询已创建的虚拟环境c
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
Python 爬虫实战：从知乎盐选专栏，爬取优质内容付费数据西攻城狮北 python 爬虫开发语言实战案例知乎
目录一、前言二、准备篇2.1确定目标2.2工具与库2.3法律与道德声明三、实战篇3.1分析知乎盐选专栏页面3.2模拟登录3.3获取文章列表3.4爬取更多文章数据3.5数据存储四、分析篇4.1数据清洗4.2热门文章分析4.3收藏数分析4.4评论数分析五、总结与展望六、注意事项一、前言知乎盐选专栏作为知乎平台上的优质内容付费板块，汇聚了众多创作者的高质量文章。了解这些文章的付费数据，如点赞数、收藏数、
Python 常用函数全解析，轻松提升编码效率 jiajia651304 python 开发语言 windows
Python常用函数全解析，轻松提升编码效率Python常用函数全解析，轻松提升编码效率1.基础内置函数1.1`print()`与`input()`1.2`len()`、`type()`与`isinstance()`2.数学与数值处理函数2.1`abs()`、`round()`与`pow()`2.2`divmod()`与`max()/min()`3.序列与迭代相关函数3.1`range()`与`e
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
新手如何使用 Milvus 巴依老爷coder 数据库 milvus 向量数据库数据库
一文带你入门Milvus：详细指南新手如何使用Milvus：详细指南一、Milvus简介主要特点应用领域二、安装Milvus安装DockerCompose基于DockerCompose安装Milvus服务端安装attu-可视化界面工具三、快速入门安装PythonSDK连接数据库方式1方式2（方式1的封装）数据库操作核心概念集合操作数据操作插入数据精准查询数据-get条件查询数据-query查询数据
nginx-部署Python网站项目 skyQAQLinux python linux nginx 服务器
一、部署Python网站项目实验要求配置Nginx使其可以将动态访问转交给uWSGI安装Python工具及依赖1)拷贝软件到proxy主机[root@server1~]#scp-r/linux-soft/s2/wk/python/192.168.99.5:/root2)安装python依赖软件[root@proxy~]#yum-yinstallgccmakepython3python3-devel
Python 3.6.8 64位独立安装程序霍娴果Myrtle
Python3.6.864位独立安装程序【下载地址】Python3.6.864位独立安装程序Python3.6.864位独立安装程序欢迎使用Python3.6.64位版安装包！本资源专门针对需要在64位操作系统上进行Python环境搭建的用户项目地址:https://gitcode.com/open-source-toolkit/98d19欢迎使用Python3.6.64位版安装包！本资源专门针对
Python 3.6.8 安装包下载何盼思Kit
Python3.6.8安装包下载【下载地址】Python3.6.8安装包下载Python3.6.8安装包下载本仓库提供适用于Windows操作系统的Python3.6.8安装包，支持x86和x64架构项目地址:https://gitcode.com/open-source-toolkit/d9647本仓库提供适用于Windows操作系统的Python3.6.8安装包，支持x86和x64架构。Pyt
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
Python匿名函数Lambda，不止是省略函数名这么简单橙色小博 python的学习之旅 python 开发语言
目录1.前言2.Lambda函数的基本用法3.关于Lambda函数的应用3.1与map函数结合3.2lambda与if-else语句3.3多参数lambda3.4嵌套lambda3.5字典与lambda（也是我本人最喜欢的用法）3.6lambda其他用法4.总结：Lambda的编程哲学1.前言在Python的广阔天地里，Lambda函数宛如一颗璀璨的明珠，以其简洁优雅的姿态，为代码增添了一份独特的
AtCoder备赛冲刺必刷题（C++） | 洛谷 AT_abc396_a Triple Four 热爱编程的通信人 c++算法开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】洛谷：AT_abc396_a[ABC396A]
python 捕获异常 weixin_30730151 python 数据库
异常：由于代码的逻辑或者语法错误导致的程序中断。在学习Python的过程当中，大家一定要区分清楚异常和布尔值False布尔值的False只是一个值，通常代表的是一个条件的不成立，常用于逻辑判断比如：1num=22print(num>3)3ifnum>3:4print("num>3")异常指的是由于代码的逻辑或者语法错误导致的程序中断比如：1num=222+"2"了解了上面的逻辑之后，我们来看看大家
python爬虫Redis数据库 Æther_9 Python爬虫零基础入门数据库 python 爬虫
Redis数据库Redis简介Redis是完全开源免费的，遵守BSD协议，是一个高性能的key-value数据库。Redis与其他key-value缓存产品有以下三个特点：Redis支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据结构的存储。redis：半持
python sympy的安装与使用范哥来了 python 开发语言
为了安装和使用sympy，您可以按照以下步骤进行操作：安装SymPy首先，您需要确保已经安装了Python。接着，可以通过pip来安装sympy。打开命令行工具（如终端或命令提示符），然后输入以下命令来安装sympy：pipinstallsympy如果您使用的是特定的Python环境，请确保激活该环境后再执行上述安装命令。使用SymPy安装完成后，您就可以在Python项目中导入并使用sympy了
facefusion AI换脸软件的本地部署过程记录 kfrealme 人工智能
tags:AI驾驭facefusion我的环境Win10+N卡安装步骤安装Python3.10方案手动安装Python官网下载安装包安装PythonReleasesforWindows|Python.org我的蓝奏云分享https://www.lanzoub.com/i9La81s1o5gb密码:h17b命令行安装1以管理员身份打开「命令提示符」2删除Microsoft官方源wingetsourc
Python中手动实现进制转换棉猴 Python 进制转换十进制二进制十六进制八进制
在《Python中进制转换》中提到可以使用bin()、oct()、int()和hex()等函数编程实现数字间的进制转换。除了编程实现进制转换外，还可以通过手动实现。1手动实现二进制数转换为十进制可以通过“填空法”手动将二进制数转换为十进制数，例如将二进制数“0b1101”转换为十进制数的方法如图1所示。“填空法”可以归纳为四个步骤：首先“画空格”，接下来“写次方”，然后“填数字”，最后“列算式”。
Python中的进制转换棉猴 #Python数据类型 Python 进制转化二进制八进制十六进制 bin oct
常用的进制有二进制、八进制、十进制和十六进制。1四种进制简介最常用的十进制基本原理是“逢十进一”，因此十进制包括的数字是“0-9”;同理，二进制的基本原理是“逢二进一”，包含的数字是“0-1”;八进制是“逢八进一”，包含的数字是“0-7”；十六进制是“逢十六进一”，包含的数字是“0-15”，其中用“A、B、C、D、E、F”分别表示“10-15”这五个数。2四种进制数的表示对于一个数字“11”,可能
小菜鸟的Python笔记001：将Word文档中数据汇总到Excel表格蜉蝣2805 小菜鸟的Python笔记 python 数据分析
将Word文档中数据汇总到Excel表格前言一、应用场景二、程序思路及准备工作思路如下：准备工作：三、程序代码1、主程序2、获取Word文档列表3、提取文档内数据4、导入到Excel表格四、遇到的问题1、错误AttributeError:word.Application.Quit2、word文档中复选框的识别总结前言我并非一个专业的程序员，只是一个普通的编程爱好者、一只小菜鸟。得益于网络上各路大神
31天Python入门——第9天:再学函数安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录再学函数1.变量在函数中的作用域2.函数的参数传递.补充学习:不定长参数*args和**kwargs3.值传递和引用传递补充学习:把函数作为参数传递4.匿名函数5.python中内置的常用函数zip()map()filter()all()any()6.函数练习再学函数1.变量在函数中的作用域变量的作用域是指变量的作用范围.局部变量:在函数体或局部范围内声明的变量称为局部
Scrapy 入门教程 zru_9602 爬虫 scrapy
Scrapy入门教程Scrapy是一个用于爬取网站数据的Python框架，功能强大且易于扩展。本文将介绍Scrapy的基本概念、安装方法、使用示例，并展示如何编写一个基本的爬虫。1.什么是Scrapy？Scrapy是一个开源的、用于爬取网站数据的框架，主要特点包括：高效、异步的爬取机制强大的XPath和CSS选择器解析能力内置中间件，支持代理、去重等功能易于扩展，适用于各种爬虫需求2.安装Scra
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &