miniAI学堂

《Python自然语言处理（第二版）-Steven Bird等》学习笔记：第04章编写结构化程序

第04章编写结构化程序

4.1 回到基础

赋值
等式
条件语句

4.2 序列

序列类型上的操作
合并不同类型的序列
产生器表达式

4.3 风格的问题
过程风格与声明风格

计数器的一些合理用途

4.4 函数：结构化编程的基础

函数的输入和输出
参数传递
变量的作用域
参数类型检查
功能分解
文档说明函数

4.5 更多关于函数

作为参数的函数
累计函数
高阶函数
参数的命名

4.6 程序开发

Python模块的结构
多模块程序
误差源头
调试技术
防御性编程

4.7 算法设计

递归
权衡空间与时间
动态规划

4.8 Python 库的样例

Matplotlib绘图工具
NetworkX
CSV
NumPy
其他Python 库

4.9 小结

4.1 回到基础

赋值

foo = 'Monty'

bar = foo

foo = 'Python'  #bar 是foo 的一个副本，所以当用一个新的字符串'Python'覆盖foo 时，bar 的值不会受到影响。

bar

'Monty'

foo = ['Monty', 'Python']

bar = foo

foo[1] = 'Bodkin'

bar #bar = foo 行并不会复制变量的内容，只有它的“引用对象”

['Monty', 'Bodkin']

实际上，两个链表对象foo 和bar 引用计算机内存中的相同的位置；更新foo 将会修改bar，反之亦然。

empty = []

nested = [empty, empty, empty]

nested

[[], [], []]

nested[1].append('Python')

nested

[['Python'], ['Python'], ['Python']]

nested = [[]] * 3

nested

[[], [], []]

nested[1].append('Python') #修改链表中的一个元素，所有的元素都改变了

nested

[['Python'], ['Python'], ['Python']]

id(nested[0]),id(nested[1]),id(nested[2])

(80141320, 80141320, 80141320)

nested[1] = ['Monty'] #当我们分配一个新值给链表中的一个元素时，它并不会传送给其他元素
nested

[['Python'], ['Monty'], ['Python']]

注意：通过一个对象引用修改一个对象与通过覆盖一个对象引用之间的区别

等式

size = 5

python = ['Python']

snake_nest = [python] * size

snake_nest[0] == snake_nest[1] == snake_nest[2] == snake_nest[3] == snake_nest[4]

True

snake_nest[0] is snake_nest[1] is snake_nest[2] is snake_nest[3] is snake_nest[4]

True

import random
position = random.choice(range(size))
snake_nest[position] = ['Python']
snake_nest

[['Python'], ['Python'], ['Python'], ['Python'], ['Python']]

snake_nest[0] == snake_nest[1] == snake_nest[2] == snake_nest[3] == snake_nest[4] #==只能保证值相同

True

snake_nest[0] is snake_nest[1] is snake_nest[2] is snake_nest[3] is snake_nest[4] #is 既要求值相同，而且结构也需相同

False

[id(snake) for snake in snake_nest] #函数id()检测不同的位置

[79659272, 79659272, 79659272, 79659208, 79659272]

条件语句

mixed = ['cat', '', ['dog'], []]
for element in mixed:
    if element:    #一个非空字符串或链表被判定为真，而一个空字符串或链表的被判定为假。所以，不必在条件中写：len(element) > 0
        print(element)

cat
['dog']

animals = ['cat', 'dog']

if 'cat' in animals:
    print(1)
elif 'dog' in animals:  
    print(2)  # 表达式中if 子句条件满足，Python 就不会比较elif 子句，所有程序永远不会输出2

if 'cat' in animals:
    print(1)
    if 'dog' in animals:  
        print(2)

1
2

elif 子句比单独的if 子句潜在的给我们更多信息；当它被判定为真时，告诉我们不仅条件满足而且前面的if 子句的条件不满足。

sent = ['No', 'good', 'fish', 'goes', 'anywhere', 'without', 'a', 'porpoise', '.']

all(len(w) > 4 for w in sent)

False

any(len(w) > 4 for w in sent)

True

4.2 序列

元组由逗号操作符构造，而且通常使用括号括起来,元组可以有任何数目的成员。与链表和字符串一样，元组可以被索引和切片，并有长度。

t = 'walk', 'fem', 3

('walk', 'fem', 3)

t[0]

'walk'

len(t)

定义一个包含单个元素’snark’的元组是通过添加一个尾随的逗号，像这样：‘snark’。空元组是一个特殊的情况下，使用空括号()定义。

t= 'snark',
t

('snark',)

t= ()
t

()

raw = 'I turned off the spectroroute' #字符串
text = ['I', 'turned', 'off', 'the', 'spectroroute'] #链表
pair = (6, 'turned') #元组

raw[2], text[3], pair[1]

('t', 'the', 'turned')

raw[-3:], text[-3:], pair[-3:]

('ute', ['off', 'the', 'spectroroute'], (6, 'turned'))

len(raw), len(text), len(pair)

(29, 5, 2)

set(text) #定义一个集合

{'I', 'off', 'spectroroute', 'the', 'turned'}

序列类型上的操作

表4.1. 遍历序列的各种方式

Python	表达式评论
for item in s	遍历s 中的元素
for item in sorted(s)	按顺序遍历s 中的元素
for item in set(s)	遍历s 中的无重复的元素
for item in reversed(s)	按逆序遍历s 中的元素
for item in set(s).difference(t)	遍历在集合s 中不在集合t 的元素
for item in random.shuffle(s)	按随机顺序遍历s 中的元素

序列类型之间相互转换。例如：tuple(s)将任何种类的序列转换成一个元组，list(s)将任何种类的序列转换成一个链表。我们可以使用join()函数将一个字符串链表转换成单独的字符串，例如：’:’.join(words)。

raw = 'Red lorry, yellow lorry, red lorry, yellow lorry.'

import nltk
from nltk import word_tokenize

text = nltk.word_tokenize(raw)
fdist = nltk.FreqDist(text)
list(fdist)

['yellow', 'Red', '.', 'lorry', ',', 'red']

for key in fdist:
    print(fdist[key])

words = ['I', 'turned', 'off', 'the', 'spectroroute']

words[2], words[3], words[4] = words[3], words[4], words[2]

words

['I', 'turned', 'the', 'spectroroute', 'off']

#传统方式
tmp = words[2]
words[2] = words[3]
words[3] = words[4]
words[4] = tmp
words

['I', 'turned', 'spectroroute', 'off', 'the']

words = ['I', 'turned', 'off', 'the', 'spectroroute']

tags = ['noun', 'verb', 'prep', 'det', 'noun']

list(zip(words, tags))  #zip()取两个或两个以上的序列中的项目，将它们“压缩”打包成单个的配对链表。

[('I', 'noun'),
 ('turned', 'verb'),
 ('off', 'prep'),
 ('the', 'det'),
 ('spectroroute', 'noun')]

list(enumerate(words)) #给定一个序列words，enumerate(words)返回一个包含索引和索引处项目的配对。

[(0, 'I'), (1, 'turned'), (2, 'off'), (3, 'the'), (4, 'spectroroute')]

text = nltk.corpus.nps_chat.words()

cut = int(0.9 * len(text)) #分割数据,90％的数据来“训练”一个系统，剩余10％进行测试

training_data, test_data = text[:cut], text[cut:]

text == training_data + test_data

True

len(training_data) / len(test_data)

9.0

合并不同类型的序列

words = 'I turned off the spectroroute'.split()

wordlens = [(len(word), word) for word in words]

wordlens.sort()

' '.join(w for (_, w) in wordlens) #下划线只是一个普通的Python变量，约定可以用下划线表示不会使用其值的变量。）

'I off the turned spectroroute'

lexicon = [
... ('the', 'det', ['Di:', 'D@']),
... ('off', 'prep', ['Qf', 'O:f'])
... ]

列表可以被修改，而元组不能

lexicon.sort()

lexicon[1] = ('turned', 'VBD', ['t3:nd', 't3`nd'])

lexicon

[('off', 'prep', ['Qf', 'O:f']), ('turned', 'VBD', ['t3:nd', 't3`nd'])]

del lexicon[0]

lexicon

[('turned', 'VBD', ['t3:nd', 't3`nd'])]

lexicon = tuple(lexicon)

lexicon

(('turned', 'VBD', ['t3:nd', 't3`nd']),)

lexicon[1] = ('turned', 'VBD', ['t3:nd', 't3`nd'])

---------------------------------------------------------------------------

TypeError                                 Traceback (most recent call last)

 in ()
----> 1 lexicon[1] = ('turned', 'VBD', ['t3:nd', 't3`nd'])


TypeError: 'tuple' object does not support item assignment

产生器表达式

text = '''"When I use a word," Humpty Dumpty said in rather a scornful tone,
... "it means just what I choose it to mean - neither more nor less."'''

[w.lower() for w in nltk.word_tokenize(text)][:5] #产生器表达式

['``', 'when', 'i', 'use', 'a']

max([w.lower() for w in nltk.word_tokenize(text)])

'word'

max(w.lower() for w in nltk.word_tokenize(text))

'word'

4.3 风格的问题

Python 代码风格指南：http://www.python.org/dev/peps/pep-0008/

代码布局中每个缩进级别应使用4 个空格,避免使用tab 缩进,每行应少于80 个字符长，如果必要的话，可以在圆括号、方括号或花括号内换行

尽量避免键入空格来代替制表符

cv_word_pairs = [(cv, w) for w in rotokas_words
… for cv in re.findall(’[ptksvr][aeiou]’, w)]

cfd = nltk.ConditionalFreqDist(
… (genre, word)
… for genre in brown.categories()
… for word in brown.words(categories=genre))

ha_words = ['aaahhhh', 'ah', 'ahah', 'ahahah', 'ahh', 'ahhahahaha',
... 'ahhh', 'ahhhh', 'ahhhhhh', 'ahhhhhhhhhhhhhh', 'ha',
... 'haaa', 'hah', 'haha', 'hahaaa', 'hahah', 'hahaha']

if (len(syllables) > 4 and len(syllables[2]) == 3 and
… syllables[2][2] in [aeiou] and syllables[2][3] == syllables[1][3]):
… process(syllables)

if len(syllables) > 4 and len(syllables[2]) == 3 and
… syllables[2][2] in [aeiou] and syllables[2][3] == syllables[1][3]:
… process(syllables)

过程风格与声明风格

#过程，传统
tokens = nltk.corpus.brown.words(categories='news')
count = 0
total = 0
for token in tokens:
    count += 1
    total += len(token)
print(total / count)

4.401545438271973

#声明，优雅，效率高
total = sum(len(t) for t in tokens) #生成器表达式
print(total / len(tokens))

4.401545438271973

word_list = []
len_word_list = len(word_list)
i = 0
while i < len(tokens):
    j = 0
    while j < len_word_list and word_list[j] < tokens[i]:
        j += 1
        if j == 0 or tokens[i] != word_list[j]:
            word_list.insert(j, tokens[i])
            len_word_list += 1
    i += 1

word_list = sorted(set(tokens)) #等效的声明版本使用熟悉的内置函数

fd = nltk.FreqDist(nltk.corpus.brown.words())
cumulative = 0.0
most_common_words = [word for (word, count) in fd.most_common()]
for rank, word in enumerate(most_common_words):
    cumulative += fd.freq(word)
    print("%3d %6.2f%% %s" % (rank + 1, cumulative * 100, word))
    if cumulative > 0.25:
        break

  1   5.40% the
  2  10.42% ,
  3  14.67% .
  4  17.78% of
  5  20.19% and
  6  22.40% to
  7  24.29% a
  8  25.97% in

text = nltk.corpus.gutenberg.words('milton-paradise.txt')
longest = ''
for word in text:
    if len(word) > len(longest):
        longest = word
longest

'unextinguishable'

更加清楚的解决方案是使用两个链表推导

maxlen = max(len(word) for word in text)

[word for word in text if len(word) == maxlen]

['unextinguishable',
 'transubstantiate',
 'inextinguishable',
 'incomprehensible']

计数器的一些合理用途

使用一个循环变量中提取链表中连续重叠的n-grams：

sent = ['The', 'dog', 'gave', 'John', 'the', 'newspaper']
n = 3
[sent[i:i+n] for i in range(len(sent)-n+1)]

[['The', 'dog', 'gave'],
 ['dog', 'gave', 'John'],
 ['gave', 'John', 'the'],
 ['John', 'the', 'newspaper']]

确保循环变量范围的正确相当棘手的。因为这是NLP 中的常见操作，NLTK 提供了支持函数bigrams(text)、trigrams(text)和一个更通用的ngrams(text, n)。

建立一个m 行n 列的数组，其中每个元素是一个集合

import pprint
m, n = 3, 7
array = [[set() for i in range(n)] for j in range(m)]
array[2][5].add('Alice')
pprint.pprint(array)

[[set(), set(), set(), set(), set(), set(), set()],
 [set(), set(), set(), set(), set(), set(), set()],
 [set(), set(), set(), set(), set(), {'Alice'}, set()]]

4.4 函数：结构化编程的基础

#例4-1. 从文件读取文本
import re
def get_text(file):
    """Read text from a file, normalizing whitespace and stripping HTML markup."""
    text = open(file).read()
    text = re.sub('\s+', ' ', text)
    text = re.sub(r'<.*?>', ' ', text)
    return text

想从一个HTML 文件得到干净的文字，都可以用文件的名字作为唯一的参数调用get_text()。它会返回一个字符串，我们可以将它指定给一个变量，例如：contents = get_text(“test.html”)。

函数定义内的第一个字符串被称为docstring。

help(get_text)

Help on function get_text in module __main__:

get_text(file)
    Read text from a file, normalizing whitespace and stripping HTML markup.

函数有助于提高我们的工作的可重用性、可读性和可靠性。

函数的输入和输出

def repeat(msg, num):
    return ' '.join([msg] * num)
monty = 'Monty Python'
repeat(monty, 3)

'Monty Python Monty Python Monty Python'

def monty():
    return "Monty Python"
monty()

'Monty Python'

repeat(monty(), 3)

'Monty Python Monty Python Monty Python'

repeat('Monty Python', 3)

'Monty Python Monty Python Monty Python'

def my_sort1(mylist): # good: modifies its argument, no return value
    mylist.sort()

def my_sort2(mylist): # good: doesn't touch its argument, returns value
    return sorted(mylist)

def my_sort3(mylist): # bad: modifies its argument and also returns it
    mylist.sort()
    return mylist

第三个是危险的，因为程序员可能没有意识到它已经修改了给它的输入。一般情况下，函数应该修改参数的内容（my_sort1()）或返回一个值（my_s
ort2()），而不是两个都做（my_sort3()）。

参数传递

将一个空字符串分配给w，将一个空链表分配给p。调用该函数后，w 没有变，而p 改变了

def set_up(word, properties):
    word = 'lolcat'
    properties.append('noun')
    properties = 5

w = ''

p = []

set_up(w, p)

''

['noun']

比较一下

w = ''
word = w
word = 'lolcat'
w

''

p = []
properties = p
properties.append['noun']
properties = 5
p

---------------------------------------------------------------------------

TypeError                                 Traceback (most recent call last)

 in ()
      1 p = []
      2 properties = p
----> 3 properties.append['noun']
      4 properties = 5
      5 p


TypeError: 'builtin_function_or_method' object is not subscriptable

变量的作用域

LGB规则：本地（local），全局（global），然后内置（built-in）

注意！一个函数可以使用global 声明创建一个新的全局变量。然而，这种
做法应尽可能避免。在函数内部定义全局变量会导致上下文依赖性而限制
函数的便携性（或重用性）。一般来说，你应该使用参数作为函数的输入，
返回值作为函数的输出。

参数类型检查

def tag(word):
    if word in ['a', 'the', 'all']:
        return 'det'
    else:
        return 'noun'

tag('the')

'det'

tag('knight')

'noun'

tag(["'Tis", 'but', 'a', 'scratch'])

'noun'

def tag(word):
    assert isinstance(word, basestring), "argument to tag() must be a string"
    if word in ['a', 'the', 'all']:
        return 'det'
    else:
        return 'noun'

tag(["'Tis", 'but', 'a', 'scratch']) #防御性编程

---------------------------------------------------------------------------

NameError                                 Traceback (most recent call last)

 in ()
----> 1 tag(["'Tis", 'but', 'a', 'scratch']) #防御性编程


 in tag(word)
      1 def tag(word):
----> 2     assert isinstance(word, basestring), "argument to tag() must be a string"
      3     if word in ['a', 'the', 'all']:
      4         return 'det'
      5     else:


NameError: name 'basestring' is not defined

功能分解

#例4-2. 设计不佳的函数用来计算高频词。
from urllib import request
from bs4 import BeautifulSoup
def freq_words(url, freqdist, n):
    html = request.urlopen(url).read().decode('utf8')
    raw = BeautifulSoup(html).get_text()
    for word in word_tokenize(raw):
        freqdist[word.lower()] += 1
    result = []
    for word, count in freqdist.most_common(n):
        result = result + [word]
    print(result)

constitution = "https://www.baidu.com"
fd = nltk.FreqDist()
freq_words(constitution, fd, 30)

["''", '//', ':', ')', '(', 'https', '``', 'http', 'location.replace', ',', ';', 'location.href.replace']


C:\Program Files\Anaconda3\lib\site-packages\bs4\__init__.py:181: UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("lxml"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.

The code that caused this warning is on line 193 of the file C:\Program Files\Anaconda3\lib\runpy.py. To get rid of this warning, change code that looks like this:

 BeautifulSoup([your markup])

to this:

 BeautifulSoup([your markup], "lxml")

  markup_type=markup_type))

from urllib import request
from bs4 import BeautifulSoup
def freq_words(url, n):
    html = request.urlopen(url).read().decode('utf8')
    text = BeautifulSoup(html).get_text()
    freqdist = nltk.FreqDist(word.lower() for word in word_tokenize(text))
    return [word for (word, _) in fd.most_common(n)]

freq_words(constitution, 30)

C:\Program Files\Anaconda3\lib\site-packages\bs4\__init__.py:181: UserWarning: No parser was explicitly specified, so I'm using the best available HTML parser for this system ("lxml"). This usually isn't a problem, but if you run this code on another system, or in a different virtual environment, it may use a different parser and behave differently.

The code that caused this warning is on line 193 of the file C:\Program Files\Anaconda3\lib\runpy.py. To get rid of this warning, change code that looks like this:

 BeautifulSoup([your markup])

to this:

 BeautifulSoup([your markup], "lxml")

  markup_type=markup_type))





["''",
 '//',
 ':',
 ')',
 '(',
 'https',
 '``',
 'http',
 'location.replace',
 ',',
 ';',
 'location.href.replace']

文档说明函数

docstring 中可以包括一个doctest块，说明使用的函数和预期的输出。这些都可以使用
Python 的docutils 模块自动测试。docstring 中应当记录函数的每个参数的类型和返回类型。
至少可以用纯文本来做这些。

例如4-4 一个完整的docstring 的演示，包括一行总结，一个更详细的解释，一个doctest 例
子以及特定参数、类型、返回值和异常的epytext 标记。

def accuracy(reference, test):
    """
    Calculate the fraction of test items that equal the corresponding reference items.
    Given a list of reference values and a corresponding list of test values,
    return the fraction of corresponding values that are equal.
    In particular, return the fraction of indexes
    {0>> accuracy(['ADJ', 'N', 'V', 'N'], ['N', 'N', 'V', 'ADJ'])
    0.5
    :param reference: An ordered list of reference values
    :type reference: list
    :param test: A list of values to compare against the corresponding
    reference values
    :type test: list
    :return: the accuracy score
    :rtype: float
    :raises ValueError: If reference and length do not have the same length
    """
    if len(reference) != len(test):
        raise ValueError("Lists must have the same length.")
    num_correct = 0
    for x, y in zip(reference, test):
        if x == y:
            num_correct += 1
    return float(num_correct) / len(reference)

4.5 更多关于函数

作为参数的函数

sent = ['Take', 'care', 'of', 'the', 'sense', ',', 'and', 'the',
... 'sounds', 'will', 'take', 'care', 'of', 'themselves', '.']

def extract_property(prop):
    return [prop(word) for word in sent]

extract_property(len) #传递内置函数len()

[4, 4, 2, 3, 5, 1, 3, 3, 6, 4, 4, 4, 2, 10, 1]

def last_letter(word):
    return word[-1]

extract_property(last_letter) #用户定义的函数last_letter()

['e', 'e', 'f', 'e', 'e', ',', 'd', 'e', 's', 'l', 'e', 'e', 'f', 's', '.']

extract_property(lambda w: w[-1]) # lambda 表达式

['e', 'e', 'f', 'e', 'e', ',', 'd', 'e', 's', 'l', 'e', 'e', 'f', 's', '.']

累计函数

例4-5. 累计输出到一个链表

def search1(substring, words):
    result = []
    for word in words:
        if substring in word:
            result.append(word)
    return result
def search2(substring, words):
    for word in words:
        if substring in word:
            yield word

for item in search1('zz', nltk.corpus.brown.words()):
    print(item, end=" ")

Grizzlies' fizzled Rizzuto huzzahs dazzler jazz Pezza Pezza Pezza embezzling embezzlement pizza jazz Ozzie nozzle drizzly puzzle puzzle dazzling Sizzling guzzle puzzles dazzling jazz jazz Jazz jazz Jazz jazz jazz Jazz jazz jazz jazz Jazz jazz dizzy jazz Jazz puzzler jazz jazzmen jazz jazz Jazz Jazz Jazz jazz Jazz jazz jazz jazz Jazz jazz jazz jazz jazz jazz jazz jazz jazz jazz Jazz Jazz jazz jazz nozzles nozzle puzzle buzz puzzle blizzard blizzard sizzling puzzled puzzle puzzle muzzle muzzle muezzin blizzard Neo-Jazz jazz muzzle piazzas puzzles puzzles embezzle buzzed snazzy buzzes puzzled puzzled muzzle whizzing jazz Belshazzar Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie's Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie blizzard blizzards blizzard blizzard fuzzy Lazzeri Piazza piazza palazzi Piazza Piazza Palazzo Palazzo Palazzo Piazza Piazza Palazzo palazzo palazzo Palazzo Palazzo Piazza piazza piazza piazza Piazza Piazza Palazzo palazzo Piazza piazza pizza Piazza Palazzo palazzo dazzling puzzling Wozzek dazzling dazzling buzzing Jazz jazz Jazz Jazz jazz jazz jazz jazz Jazz jazz jazz jazz Fuzzy Lizzy Lizzy jazz fuzzy puzzles puzzling puzzling dazzle puzzle dazzling puzzled jazz jazz jazz jazzy whizzed frazzled quizzical puzzling poetry-and-jazz poetry-and-jazz jazz jazz jazz jazz jazz jazz jazz Jazz jazz jazz jazz poetry-and-jazz jazz jazz jazz Dizzy jazz jazz jazz jazz jazz poetry-and-jazz jazz jazz jazz jazz jazz jazz jazz jazz jazz jazz jazz jazz dazzled bedazzlement bedazzled Piazzo nozzles nozzles buzzing dazzles dizzy puzzling puzzling puzzling puzzle muzzle puzzled nozzle Pozzatti Pozzatti Pozzatti puzzled Pozzatti Pozzatti dazzling pizzicato Jazz jazz jazz jazz jazz nozzle grizzled fuzzy muzzle puzzled puzzle muzzle blizzard buzz dizzily drizzle drizzle drizzle sizzled puzzled puzzled puzzled fuzzed buzz buzz buzz buzz-buzz-buzz buzzes fuzzy frizzled drizzle drizzle drizzling drizzling fuzz jazz jazz fuzz puzzle puzzling Nozze mezzo puzzled puzzled dazzling muzzle muzzle muzzle buzzed whizzed sizzled palazzos puzzlement frizzling puzzled puzzled puzzled dazzling muzzles fuzzy jazz ex-jazz sizzle grizzly guzzled buzzing fuzz nuzzled Kizzie Kizzie Kizzie Kezziah Kizzie Kizzie Buzz's Buzz Buzz Buzz Buzz Buzz Buzz Buzz Buzz dizzy piazza buzzing Puzzled dizziness dazzled Piazza Carrozza fuzzy dizzy buzzing buzzing puzzled puzzling puzzled puzzled Quizzical pizza

for item in search2('zz', nltk.corpus.brown.words()):
    print(item, end=" ")

Grizzlies' fizzled Rizzuto huzzahs dazzler jazz Pezza Pezza Pezza embezzling embezzlement pizza jazz Ozzie nozzle drizzly puzzle puzzle dazzling Sizzling guzzle puzzles dazzling jazz jazz Jazz jazz Jazz jazz jazz Jazz jazz jazz jazz Jazz jazz dizzy jazz Jazz puzzler jazz jazzmen jazz jazz Jazz Jazz Jazz jazz Jazz jazz jazz jazz Jazz jazz jazz jazz jazz jazz jazz jazz jazz jazz Jazz Jazz jazz jazz nozzles nozzle puzzle buzz puzzle blizzard blizzard sizzling puzzled puzzle puzzle muzzle muzzle muezzin blizzard Neo-Jazz jazz muzzle piazzas puzzles puzzles embezzle buzzed snazzy buzzes puzzled puzzled muzzle whizzing jazz Belshazzar Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie's Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie Lizzie blizzard blizzards blizzard blizzard fuzzy Lazzeri Piazza piazza palazzi Piazza Piazza Palazzo Palazzo Palazzo Piazza Piazza Palazzo palazzo palazzo Palazzo Palazzo Piazza piazza piazza piazza Piazza Piazza Palazzo palazzo Piazza piazza pizza Piazza Palazzo palazzo dazzling puzzling Wozzek dazzling dazzling buzzing Jazz jazz Jazz Jazz jazz jazz jazz jazz Jazz jazz jazz jazz Fuzzy Lizzy Lizzy jazz fuzzy puzzles puzzling puzzling dazzle puzzle dazzling puzzled jazz jazz jazz jazzy whizzed frazzled quizzical puzzling poetry-and-jazz poetry-and-jazz jazz jazz jazz jazz jazz jazz jazz Jazz jazz jazz jazz poetry-and-jazz jazz jazz jazz Dizzy jazz jazz jazz jazz jazz poetry-and-jazz jazz jazz jazz jazz jazz jazz jazz jazz jazz jazz jazz jazz dazzled bedazzlement bedazzled Piazzo nozzles nozzles buzzing dazzles dizzy puzzling puzzling puzzling puzzle muzzle puzzled nozzle Pozzatti Pozzatti Pozzatti puzzled Pozzatti Pozzatti dazzling pizzicato Jazz jazz jazz jazz jazz nozzle grizzled fuzzy muzzle puzzled puzzle muzzle blizzard buzz dizzily drizzle drizzle drizzle sizzled puzzled puzzled puzzled fuzzed buzz buzz buzz buzz-buzz-buzz buzzes fuzzy frizzled drizzle drizzle drizzling drizzling fuzz jazz jazz fuzz puzzle puzzling Nozze mezzo puzzled puzzled dazzling muzzle muzzle muzzle buzzed whizzed sizzled palazzos puzzlement frizzling puzzled puzzled puzzled dazzling muzzles fuzzy jazz ex-jazz sizzle grizzly guzzled buzzing fuzz nuzzled Kizzie Kizzie Kizzie Kezziah Kizzie Kizzie Buzz's Buzz Buzz Buzz Buzz Buzz Buzz Buzz Buzz dizzy piazza buzzing Puzzled dizziness dazzled Piazza Carrozza fuzzy dizzy buzzing buzzing puzzled puzzling puzzled puzzled Quizzical pizza

def permutations(seq):
    if len(seq) <= 1:
        yield seq
    else:
        for perm in permutations(seq[1:]):
            for i in range(len(perm)+1):
                yield perm[:i] + seq[0:1] + perm[i:]

list(permutations(['police', 'fish', 'buffalo']))

[['police', 'fish', 'buffalo'],
 ['fish', 'police', 'buffalo'],
 ['fish', 'buffalo', 'police'],
 ['police', 'buffalo', 'fish'],
 ['buffalo', 'police', 'fish'],
 ['buffalo', 'fish', 'police']]

高阶函数

def is_content_word(word):
    return word.lower() not in ['a', 'of', 'the', 'and', 'will', ',', '.']

sent = ['Take', 'care', 'of', 'the', 'sense', ',', 'and', 'the',
... 'sounds', 'will', 'take', 'care', 'of', 'themselves', '.']

list(filter(is_content_word, sent))

['Take', 'care', 'sense', 'sounds', 'take', 'care', 'themselves']

[w for w in sent if is_content_word(w)]

['Take', 'care', 'sense', 'sounds', 'take', 'care', 'themselves']

lengths = list(map(len, nltk.corpus.brown.sents(categories='news')))

sum(lengths) / len(lengths)

21.75081116158339

lengths = [len(sent) for sent in nltk.corpus.brown.sents(categories='news')]

sum(lengths) / len(lengths)

21.75081116158339

参数的命名

def repeat(msg='', num=1):
    return msg * num
repeat(num=3) #关键字参数

''

repeat(msg='Alice') #关键字参数

'Alice'

repeat(num=5, msg='Alice') #关键字参数

'AliceAliceAliceAliceAlice'

def generic(*args, **kwargs): #定义一个函数，接受任意数量的未命名和命名参数，并通过一个就地的参数链表*args 和一个就地的关键字参数字典**kwargs 来访问它们。
    print(args)
    print( kwargs)

generic(1, "African swallow", monty="python") #当*args 作为函数参数时，它实际上对应函数所有的未命名参数。

(1, 'African swallow')
{'monty': 'python'}

处理可变数目的参数的函数zip()

song = [['four', 'calling', 'birds'],
... ['three', 'French', 'hens'],
... ['two', 'turtle', 'doves']]

list(zip(song[0], song[1], song[2]))

[('four', 'three', 'two'),
 ('calling', 'French', 'turtle'),
 ('birds', 'hens', 'doves')]

list(zip(*song)) #*song 仅仅是一个方便的记号，相当于输入了song[0]，song[1]，song[2]

[('four', 'three', 'two'),
 ('calling', 'French', 'turtle'),
 ('birds', 'hens', 'doves')]

def freq_words(file, min=1, num=10):
    text = open(file).read()
    tokens = word_tokenize(text)
    freqdist = nltk.FreqDist(t for t in tokens if len(t) >= min)
    return freqdist.most_common(num)

fw = freq_words(‘ch01.rst’, 4, 10)
fw = freq_words(‘ch01.rst’, min=4, num=10)
fw = freq_words(‘ch01.rst’, num=10, min=4)

设置了verbose 标志将会报告其进展情况：

def freq_words(file, min=1, num=10, verbose=False):
    freqdist = FreqDist()
    if verbose: print("Opening", file)
    text = open(file).read()
    if verbose: print("Read in %d characters" % len(file))
    for word in word_tokenize(text):
        if len(word) >= min:
            freqdist[word] += 1
            if verbose and freqdist.N() % 100 == 0: print(".", sep="")
        if verbose: print
    return freqdist.most_common(num)

4.6 程序开发

Python模块的结构

Python 模块只是一些单独的.py 文件，from module import * 导入这个模块

多模块程序

一个多模块程序的结构：主程序从其他模块导入函数；独特的分析任务在主程序本地进行，而一般的载入和可视化任务被分离开以便可以重用和抽象。

误差源头

首先，输入的数据可能包含一些意想不到的字符。
第二，提供的函数可能不会像预期的那样运作。
第三，我们对Python 语义的理解可能出错。

调试技术

Python 提供了一个调试器，它允许你监视程序的执行，指定程序暂停运行的行号（即断点），逐步调试代码段和检查变量的值。

import pdb

# import mymodule
# pdb.run('mymodule.myfunction()')

防御性编程

4.7 算法设计

分而治之，如：对一个数组排序，我们将其分成两半并对每一半进行排序（递归）；将每个排好序的一半合并成一个完整的链表（再次递归）；这个算法被称为“归并排序“。
预排序

递归

解决一个大小为n 的问题，可以将其分成两半，然后处理一个或多个大小为n/2 的问题。一种一般的方式来实现这种方法是使用递归。

#迭代
def factorial1(n):
    result = 1
    for i in range(n):
        result *= (i+1)
    return result

#递归
def factorial2(n):
    if n == 1:
        return 1
    else:
        return n * factorial2(n-1)

def size1(s):
    return 1 + sum(size1(child) for child in s.hyponyms())

def size2(s):
    layer = [s]
    total = 0
    while layer:
        total += len(layer)
        layer = [h for c in layer for h in c.hyponyms()]
    return total

from nltk.corpus import wordnet as wn

dog = wn.synset('dog.n.01')

size1(dog)

size2(dog)

例4-6. 构建一个字母查找树：一个递归函数建立一个嵌套的字典结构，每一级嵌套包
含给定前缀的所有单词，子查找树含有所有可能的后续词。

def insert(trie, key, value):
    if key:
        first, rest = key[0], key[1:]
        if first not in trie:
            trie[first] = {}
        insert(trie[first], rest, value)
    else:
        trie['value'] = value

trie = {}
insert(trie, 'chat', 'cat')
insert(trie, 'chien', 'dog')
insert(trie, 'chair', 'flesh')
insert(trie, 'chic', 'stylish')
trie = dict(trie) # for nicer printing
trie['c']['h']['a']['t']['value']

'cat'

pprint.pprint(trie, width=40)

{'c': {'h': {'a': {'i': {'r': {'value': 'flesh'}},
                   't': {'value': 'cat'}},
             'i': {'c': {'value': 'stylish'},
                   'e': {'n': {'value': 'dog'}}}}}}

迭代的解决方案往往比递归解决方案的更高效。

权衡空间与时间

例4-7. 一个简单的全文检索系统

def raw(file):
    contents = open(file).read()
    contents = re.sub(r'<.*?>', ' ', contents)
    contents = re.sub('\s+', ' ', contents)
    return contents
def snippet(doc, term):
    text = ' '*30 + raw(doc) + ' '*30
    pos = text.index(term)
    return text[pos-30:pos+30]
print("Building Index...")
files = nltk.corpus.movie_reviews.abspaths()
idx = nltk.Index((w, f) for f in files for w in raw(f).split())
query = ''
while query != "quit":
    query = input("query> ") # use raw_input() in Python 2
    if query in idx:
        for doc in idx[query]:
            print(snippet(doc, query))
    else:
        print("Not found")

Building Index...
query> efsdfds
Not found
query> we
the problems with the movie ? well , its main problem is tha.........................................
 " and you get something that well describes him and his art

例4-8. 预处理已标注的语料库数据，将所有的词和标注转换成整数

def preprocess(tagged_corpus):
    words = set()
    tags = set()
    for sent in tagged_corpus:
        for word, tag in sent:
            words.add(word)
            tags.add(tag)
    wm = dict((w,i) for (i,w) in enumerate(words))
    tm = dict((t,i) for (i,t) in enumerate(tags))
    return [[(wm[w], tm[t]) for (w,t) in sent] for sent in tagged_corpus]

from timeit import Timer
vocab_size = 10000
setup_list = "import random; vocab = range(%d)" % vocab_size
setup_set = "import random; vocab = set(range(%d))" % vocab_size
statement = "random.randint(0, %d) in vocab" % (vocab_size * 2)

print(Timer(statement, setup_list).timeit(100))

print(Timer(statement, setup_set).timeit(100))

动态规划

动态规划（Dynamic programming）是一种自然语言处理中被广泛使用的算法设计的一般方法。动态规划用于解决包含多个重叠的子问题的问题。

例4-9. 四种方法计算梵文旋律：（一）迭代；（二）自底向上的动态规划；（三）自上而下的动态规划；（四）内置默记法。

def virahanka1(n):
    if n == 0:
        return [""]
        elif n == 1:
        return ["S"]
    else:
        s = ["S" + prosody for prosody in virahanka1(n-1)]
        l = ["L" + prosody for prosody in virahanka1(n-2)]
        return s + l
    
def virahanka2(n):
    lookup = [[""], ["S"]]
    for i in range(n-1):
        s = ["S" + prosody for prosody in lookup[i+1]]
        l = ["L" + prosody for prosody in lookup[i]]
        lookup.append(s + l)
    return lookup[n]

def virahanka3(n, lookup={0:[""], 1:["S"]}):
    if n not in lookup:
        s = ["S" + prosody for prosody in virahanka3(n-1)]
        l = ["L" + prosody for prosody in virahanka3(n-2)]
        lookup[n] = s + l
    return lookup[n]

from nltk import memoize
@memoize
def virahanka4(n):
    if n == 0:
        return [""]
    elif n == 1:
        return ["S"]
    else:
        s = ["S" + prosody for prosody in virahanka4(n-1)]
        l = ["L" + prosody for prosody in virahanka4(n-2)]
        return s + l

virahanka1(4)

virahanka2(4)

virahanka3(4)

virahanka4(4)

4.8 Python 库的样例

Matplotlib绘图工具

from numpy import arange
from matplotlib import pyplot
colors = 'rgbcmyk' # red, green, blue, cyan, magenta, yellow, black
def bar_chart(categories, words, counts):
    "Plot a bar chart showing counts for each word by category"
    ind = arange(len(words))
    width = 1 / (len(categories) + 1)
    bar_groups = []
    for c in range(len(categories)):
        bars = pyplot.bar(ind+c*width, counts[categories[c]], width,
            color=colors[c % len(colors)])
        bar_groups.append(bars)
    pyplot.xticks(ind+width, words)
    pyplot.legend([b[0] for b in bar_groups], categories, loc='upper left')
    pyplot.ylabel('Frequency')
    pyplot.title('Frequency of Six Modal Verbs by Genre')
    pyplot.show()

genres = ['news', 'religion', 'hobbies', 'government', 'adventure']

modals = ['can', 'could', 'may', 'might', 'must', 'will']

import nltk
cfdist = nltk.ConditionalFreqDist(
    (genre, word)
    for genre in genres
    for word in nltk.corpus.brown.words(categories=genre)
    if word in modals)

counts = {}

for genre in genres:
    counts[genre] = [cfdist[genre][word] for word in modals]

bar_chart(genres, modals, counts)

from matplotlib import use, pyplot
use('Agg')
pyplot.savefig('modals.png')
print('Content-Type: text/html')
print()
print('')
print('')
print('')

Content-Type: text/html






C:\Program Files\Anaconda3\lib\site-packages\ipykernel\__main__.py:2: UserWarning: 
This call to matplotlib.use() has no effect because the backend has already
been chosen; matplotlib.use() must be called *before* pylab, matplotlib.pyplot,
or matplotlib.backends is imported for the first time.

The backend was *originally* set to 'module://ipykernel.pylab.backend_inline' by the following code:
  File "C:\Program Files\Anaconda3\lib\runpy.py", line 193, in _run_module_as_main
    "__main__", mod_spec)
  File "C:\Program Files\Anaconda3\lib\runpy.py", line 85, in _run_code
    exec(code, run_globals)
  File "C:\Program Files\Anaconda3\lib\site-packages\ipykernel\__main__.py", line 3, in 
    app.launch_new_instance()
  File "C:\Program Files\Anaconda3\lib\site-packages\traitlets\config\application.py", line 653, in launch_instance
    app.start()
  File "C:\Program Files\Anaconda3\lib\site-packages\ipykernel\kernelapp.py", line 474, in start
    ioloop.IOLoop.instance().start()
  File "C:\Program Files\Anaconda3\lib\site-packages\zmq\eventloop\ioloop.py", line 162, in start
    super(ZMQIOLoop, self).start()
  File "C:\Program Files\Anaconda3\lib\site-packages\tornado\ioloop.py", line 887, in start
    handler_func(fd_obj, events)
  File "C:\Program Files\Anaconda3\lib\site-packages\tornado\stack_context.py", line 275, in null_wrapper
    return fn(*args, **kwargs)
  File "C:\Program Files\Anaconda3\lib\site-packages\zmq\eventloop\zmqstream.py", line 440, in _handle_events
    self._handle_recv()
  File "C:\Program Files\Anaconda3\lib\site-packages\zmq\eventloop\zmqstream.py", line 472, in _handle_recv
    self._run_callback(callback, msg)
  File "C:\Program Files\Anaconda3\lib\site-packages\zmq\eventloop\zmqstream.py", line 414, in _run_callback
    callback(*args, **kwargs)
  File "C:\Program Files\Anaconda3\lib\site-packages\tornado\stack_context.py", line 275, in null_wrapper
    return fn(*args, **kwargs)
  File "C:\Program Files\Anaconda3\lib\site-packages\ipykernel\kernelbase.py", line 276, in dispatcher
    return self.dispatch_shell(stream, msg)
  File "C:\Program Files\Anaconda3\lib\site-packages\ipykernel\kernelbase.py", line 228, in dispatch_shell
    handler(stream, idents, msg)
  File "C:\Program Files\Anaconda3\lib\site-packages\ipykernel\kernelbase.py", line 390, in execute_request
    user_expressions, allow_stdin)
  File "C:\Program Files\Anaconda3\lib\site-packages\ipykernel\ipkernel.py", line 196, in do_execute
    res = shell.run_cell(code, store_history=store_history, silent=silent)
  File "C:\Program Files\Anaconda3\lib\site-packages\ipykernel\zmqshell.py", line 501, in run_cell
    return super(ZMQInteractiveShell, self).run_cell(*args, **kwargs)
  File "C:\Program Files\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2717, in run_cell
    interactivity=interactivity, compiler=compiler, result=result)
  File "C:\Program Files\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2821, in run_ast_nodes
    if self.run_code(code, result):
  File "C:\Program Files\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 2881, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "", line 2, in 
    from matplotlib import pyplot
  File "C:\Program Files\Anaconda3\lib\site-packages\matplotlib\pyplot.py", line 72, in 
    from matplotlib.backends import pylab_setup
  File "C:\Program Files\Anaconda3\lib\site-packages\matplotlib\backends\__init__.py", line 14, in 
    line for line in traceback.format_stack()


  from ipykernel import kernelapp as app

NetworkX

NetworkX 包定义和操作被称为图的由节点和边组成的结构。它可以从https://networkx.lanl.gov/ 得到。NetworkX 可以和Matplotlib 结合使用可视化如WordNet 的网络结构（语义网络）。

Anaconda Jupyter不同版本Python下共存使用

1、打开conda prompt ，一般默认的是base,可以使用conda env list 列出当前系统中存在多少环境，使用activate env_name 来激活你想要使用的环境，
2、接下来就是开挂似的conda create --name python34 python=3.4
3、激活环境 activate python34
4、python -m pip install ipykernel
5、python -m ipykernel install --user

以下几个软件工具包必须完整安装：

nltk
graphviz软件：http://www.graphviz.org Windows 环境下需安装graphviz-2.38.msi,将C:\Program Files (x86)\Graphviz2.38\bin增加到环境变量path中
networkx：建议安装1.9.1版本（报错：AttributeError: ‘module’ object has no attribute ‘graphviz_layout’)
pygraphviz：连接graphviz与networkx的API接口（可以在?http://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载wheel文件， pygraphviz-1.3.1-cp34-none-win_amd64.whl
matplotlib：Python绘图框架（可以在http://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载wheel文件）
Biopython：生物信息的Python包（可以在http://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载wheel文件）

安装完上述工具包后：

输入jupyter notebook就打开了当前环境的jupyter notebook

import networkx as nx
import matplotlib
from nltk.corpus import wordnet as wn
#版本升级后需要显示导入nexworkx的函数，例如graphviz_layout
from networkx.drawing.nx_agraph import graphviz_layout

def traverse(graph, start, node):
    graph.depth[node.name] = node.shortest_path_distance(start)
    for child in node.hyponyms():
        graph.add_edge(node.name, child.name)
        traverse(graph, start, child)

def hyponym_graph(start):
    G = nx.Graph()
    G.depth = {}
    traverse(G, start, start)
    return G

def graph_draw(graph):
    nx.draw_graphviz(graph,
        node_size = [16 * graph.degree(n) for n in graph],
        node_color = [graph.depth[n] for n in graph],
        with_labels = False)
    matplotlib.pyplot.show()

dog = wn.synset('dog.n.01')

graph = hyponym_graph(dog)

graph_draw(graph)

CSV

import csv
input_file = open("lexicon.csv", "rb")
for row in csv.reader(input_file):
    print(row)

NumPy

from numpy import array
cube = array([ [[0,0,0], [1,1,1], [2,2,2]],
              [[3,3,3], [4,4,4], [5,5,5]],
              [[6,6,6], [7,7,7], [8,8,8]] ])

cube[1,1,1]

cube[2].transpose()

array([[6, 7, 8],
       [6, 7, 8],
       [6, 7, 8]])

cube[2,1:]

array([[7, 7, 7],
       [8, 8, 8]])

#矩阵的奇异值分解，潜在语义分析中使用的操作，它能帮助识别一个文档集合中的隐含概念。
from numpy import linalg  
a=array([[4,0], [3,-5]])
u,s,vt = linalg.svd(a)

array([[-0.4472136 , -0.89442719],
       [-0.89442719,  0.4472136 ]])

array([6.32455532, 3.16227766])

vt

array([[-0.70710678,  0.70710678],
       [-0.70710678, -0.70710678]])

其他Python 库

http://pypi.python.org/

4.9 小结

Python 赋值和参数传递使用对象引用，例如：如果a 是一个链表，我们分配b = a，然后任何a 上的操作都将修改b，反之亦然。
is 操作测试是否两个对象是相同的内部对象，而==测试是否两个对象是相等的。两者的区别和标识符与类型的区别相似。
字符串、链表和元组是不同类型的序列对象，支持常见的操作如：索引、切片、len()、sorted()和使用in 的成员测试。
我们可以通过以写方式打开文件来写入文本到一个文件：ofile = open(‘output.txt’,‘w’)，然后加入内容到文件：ofile.write(“Monty Python”)，最后关闭文件ofile.close()。
声明式的编程风格通常会产生更简洁更可读的代码；手动递增循环变量通常是不必要的。枚举一个序列，使用enumerate()。
函数是一个重要的编程抽象，需要理解的关键概念有：参数传递、变量的范围和docstrings。
函数作为一个命名空间：函数内部定义的名称在该函数外不可见，除非这些名称被宣布为是全局的。
模块允许将材料与本地的文件逻辑的关联起来。一个模块作为一个命名空间：在一个模块中定义的名称——如变量和函数——在其他模块中不可见，除非这些名称被导入。
动态规划是一种在NLP 中广泛使用的算法设计技术，它存储以前的计算结果，以避免不必要的重复计算。

致谢
《Python自然语言处理》¹²³ ⁴，作者：Steven Bird, Ewan Klein & Edward Loper，是实践性很强的一部入门读物，2009年第一版，2015年第二版，本学习笔记结合上述版本，对部分内容进行了延伸学习、练习，在此分享，期待对大家有所帮助，欢迎加我微信（验证：NLP），一起学习讨论，不足之处，欢迎指正。

参考文献

http://nltk.org/ ↩︎
Steven Bird, Ewan Klein & Edward Loper,Natural Language Processing with Python,2009 ↩︎
（英）伯德，（英）克莱因，（美）洛普，《Python自然语言处理》，2010年，东南大学出版社 ↩︎
Steven Bird, Ewan Klein & Edward Loper,Natural Language Processing with Python,2015 ↩︎

你可能感兴趣的:(2015年度)

mysql plugin 没有_无法打开mysql.plugin表。某些插件可能未加载 ChinaTerran mysql plugin 没有
IhaveanissuewithMySQL.WhenI'mtryingtostartit,thatgivesmeanerrormessage,whichis2015-12-1010:52:3113f4InnoDB:Warning:Usinginnodb_additional_mem_pool_sizeisDEPRECATED.Thisoptionmayberemovedinfuturereleas
【分享】一个查看无线网络密钥的小方法（查看 WiFi密码，热点密码）| 区块链面试题：区块链技术中，如何保证交易的匿名性和隐私性？| 公钥加密，数字签名，零知识证明追光者♂ 工具技巧解决办法百题千解计划(项目实战案例）网络 wlan 热点密码 WiFi密码区块链面试 WiFi
“你不是我，你不会懂。”作者主页：追光者♂个人简介：[1]计算机专业硕士研究生[2]2023年城市之星领跑者TOP1(哈尔滨)[3]2022年度博客之星人工智能领域TOP4[4]阿里云社区特邀专家博主[5]CSDN-人工智能领域优质创作者无限进步，一起追光！！！感谢大家点赞收藏⭐留言！！！目录一、基础回顾步骤1、win+R:cmd，进入Dos命令窗口
2024实力进阶：百度智能云千帆AppBuilder年度盘点
2024，AI浪潮奔涌，百度智能云千帆AppBuilder持续升级，以AI原生之力，革新企业级大模型应用开发范式，重塑行业生态！企业级RAG实现重大突破，支持无限存储，高并发秒速响应，且能实现随业务弹性扩缩容。此外RAG支持一键联网，无缝连接百度搜索、文库、百科等全网最新资源，资讯获取实时更新，全面且精准。多语言RAG为企业开拓全球市场保驾护航；强图表解析功能让报告与报表分析更精准高效。企业级Ag
华为今年的人均分红。。前端后端程序员华为
华为分红1月18日，华为发布内部文件，公布了ESOP（员工持股计划）的2024年度分红。每股价格7.85元，每股分红1.41元，分红收益率达18%（税前）。总的来说，股价没变，分红收益率下降了。虽然相比于2023年度每股分红1.5（税前收益率19.1%），同比下降了6%，但收益率18%还是相当顶尖的。要知道，2024年，保本理财已经正式进入2字头的时代了。我们可以回顾一下自2010年以来，华为「股
这有一份神秘新年礼物！编程语言
亲爱的MoonBit社区成员们：烟花[烟花]随着新年的钟声即将敲响，我们满怀感激地回顾过去一年的成长与进步。感谢您一路的支持与陪伴！爱心[爱心]为了更好地服务大家，我们正式启动了2024年MoonBit社区年度调查。我们诚挚地邀请您参与问卷调查，完成问卷只需1~3分钟，您的每一条反馈都将是我们不断优化和提升MoonBit平台服务质量的宝贵财富。特别福利：前50名填写问卷并留下建议的参与者将获得Mo
这有一份神秘新年礼物！编程语言
亲爱的MoonBit社区成员们：烟花[烟花]随着新年的钟声即将敲响，我们满怀感激地回顾过去一年的成长与进步。感谢您一路的支持与陪伴！爱心[爱心]为了更好地服务大家，我们正式启动了2024年MoonBit社区年度调查。我们诚挚地邀请您参与问卷调查，完成问卷只需1~3分钟，您的每一条反馈都将是我们不断优化和提升MoonBit平台服务质量的宝贵财富。特别福利：前50名填写问卷并留下建议的参与者将获得Mo
UE4引擎Android打包只生成apk而不需要obb文件 ccccce UE4
前言使用UE4打过Android包的小伙伴都知道：UE4的默认打包方式会生成一个obb，一个apk，用处是为了方便减小apk的大小，因为googleplay对于上传的安装包是有限制的，网上大部分文章说这个限制是50M，但是我查到的最新资料是100M（日期：2017-06-07），这个限制放开来源于Google2015年9月28日的公告，具体参见新闻：谷歌放宽包体限制APK大小最高可达100MB.操
聚焦全球食品加工与包装——探索食品新生产系统、人工智能和可持续性的前沿全景动态人工智能
swop2024：聚焦全球食品加工与包装的热门话题——探索食品新生产系统、人工智能和可持续性的前沿科技创新被认为是发展新质生产力的核心，特别是在全球食品安全与健康领域的研究推动下，食品加工及包装行业正迎来前所未有的创新浪潮。根据中国食品科学技术学会发布的【2023-2024年度全球食品安全与健康十大研究热点】，食品新生产系统、人工智能以及可持续食品包装等三大热点趋势受到极大关注。swop包装世界（
解读 77页2024 集团企业IT技术架构规划方案智慧化智能化数字化方案方案解读馆架构
概述了集团企业2024年度IT技术架构规划方案的首课，旨在通过TOGAF企业架构框架方法论，系统规划并优化技术架构。项目核心目标在于结合集团信息化建设愿景与当前技术架构现状，制定前瞻性、标准化的技术架构规划及发展策略，以支撑集团业务的长远发展。规划内容涵盖技术架构设计原则、方法及参考，确保方案的科学性与可行性。技术架构设计将聚焦于产品研发、市场营销、战略经营等关键业务领域，通过明确技术架构的设计目
浅谈数据结构顺序表的实现（超详细，附代码）阿超没有蛀牙数据结构数据结构 c++
文章目录一、线性表介绍二、顺序表基本介绍2.1概念2.2分类2.3分类示例2.4应用范围三、顺序表的实现3.1Common.h3.2seqlist.h3.3test.cpp四、顺序表使用这篇博客我们来谈数据结构顺序表的实现操作。谈数据结构的顺序表，我们要从线性表开始说起。注：本顺序表的实现基于编译器：VS2015语言：C/C++头文件：2个源文件：1个一、线性表介绍线性表（linearlist）是
2022年10月15日学习笔记——电能量市场和辅助服务市场联合出清（仅为基础知识概念） XiaoGuYing 电气自动化最优化方法学习
电能量市场和辅助服务市场联合出清（仅为基础知识概念）电能量市场辅助服务市场英国电力市场改革美国电力市场改革北欧电力市场辅助服务的分类辅助服务交易类型电能量市场和辅助服务市场联合出清电能量市场在电力批发市场中，主要的电力交易产品是电能量。按照时间维度，电力交易类型可分为中长期交易、短期交易和及时交易[见《中共中央国务院关于进一步深化电力一直改革的若干意见》（中发[2015]9号文）（简称9号文）]，
数据产品交易市场|2024年度监测报告数据
根据遇见数据集平台监测数据分析，截止2024年12月底，数据交易市场总披露交易金额突破550亿元，总挂牌数据产品超4万个。超2000家企业供应数据，其中在多家交易所上架的企业占比17%。想要了解更多信息，请打开：五号数据雷达https://www.5radar.com/dplists/news/137462
Elasticsearch Date类型使用技巧 weixin_30886233 大数据 json java
elasticsearch原生支持date类型。这里简单记录下使用的方法。使用date类型可以用如下两种方式：使用毫秒的时间戳，直接将毫秒值传入即可。传入格式化的字符串，默认是ISO8601标准，例如2015-02-27T00:07Z(零时区)、2015-02-27T08:07+08:00(东八区),这两个时间实际是同一个，只是时区不同。另外还可以自定义时间格式，参见es的文档。但个人不建议使用自
e9000刀片服务器文档,华为E9000融合架构刀片服务器介绍.pdf 大苏牙 e9000刀片服务器文档
华为E9000融合架构刀片服务器培训Luoweitao@H201502目录ClicktoaddTitle1市场概述及定位ClicktoaddTitle2产品规格及亮点3产品对比4成功案例ClicktoaddTitle5订购指南ClicktoaddTitle6如何获取资源ClicktoaddTitle12014Q4连续6个季度全球第四2014Q4全球服务器发货量TOP1070100%万台6080%5
ProcessOn入选AI年度榜单《2024 AIGC赋能行业创新引领者》 ProcessOn官方账号 processon 人工智能 AIGC
2024年12月26日至27日，由中国产业海外发展协会指导、极新主办、前海香港科技青年之家与粤港澳大湾区青年创新创业中心联合主办的「重度垂直·2024极新AIGC峰会」在深圳、香港两地隆重举行，ProcessOn因在AI绘图解决方案方面的出色能力，荣登「2024AGI独角兽TOP50」和「2024AIGC赋能行业创新引领者」榜单，得到了各行各业的持续关注。2024AGI独角兽TOP50荣誉海报20
【粉丝福利社】Python OpenCV从入门到精通愚公搬代码愚公系列-送书福利社 python opencv 开发语言
标题详情作者简介愚公搬代码头衔华为云特约编辑，华为云云享专家，华为开发者专家，华为产品云测专家，CSDN博客专家，CSDN商业化专家，阿里云专家博主，阿里云签约作者，腾讯云优秀博主，腾讯云内容共创官，掘金优秀博主，亚马逊技领云博主，51CTO博客专家等。近期荣誉2022年度博客之星TOP2，2023年度博客之星TOP2，2022年华为云十佳博主，2023年华为云十佳博主，2024年华为云十佳博主等
2024：在成长、创作与生活中找到星光手握风云- 生活
目录一、前言二、年度创作与历程回顾三、个人成长与突破3.1.初入迷雾：懵懂的起点3.2.从迷茫到笃定，开启技术探索之旅3.3.破茧成蝶：在质疑与焦虑中坚守初心3.4.蜕变之路：代码能力的质变与成长四、个人学习与博客事业的融合五、结语一、前言不知不觉，2024年已经过去，2025年已经悄然而至。今天是我加入CSDN的第244天，回首这大半年的时光，仿佛一场充实而精彩的旅程，每一天都充满了新奇与成长。
docker构建Java项目镜像常用的Java版本，国内私有仓库公网快速下载，解决从docker.io无法下载的问题商鼎云技术云原生 docker Java项目镜像
2015工作至今，10年资深全栈工程师，CTO，擅长带团队、攻克各种技术难题、研发各类软件产品，我的代码态度：代码虐我千百遍，我待代码如初恋，我的工作态度：极致，责任，死磕！欢迎点赞、收藏、关注，更多分享请进我主页。常见问题使用docker构建Java项目镜像，Dockerfile需要声明JavaJDK或者Jre版本，Java版本默认是从docker.io进行下载的（亲测配置国内开源镜像仓库也没用
深度学习学习笔记（第30周） qq_51339898 深度学习人工智能
一、摘要本周报的目的在于汇报第30周的学习成果，本周主要聚焦于基于深度学习的图像分割领域的常用模型U-net。 U-net是最常用、最简单的一种分割模型，在2015年被提出。UNet网络是一种用于图像分割的卷积神经网络，其特点是采用了U型网络结构，因此称为UNet。UNet算法的关键创新是在解码器中引入了跳跃连接（SkipConnections），即将编码器中的特征图与解码器中对应的特征图进行连接
2024年CSDN年度回顾：个人成长、创作历程与生活的融合与平衡 IT枫斗者 JAVA基础工作中实际总结编程学习生活 java
2024年CSDN年度回顾：个人成长、创作历程与生活的融合与平衡时光荏苒，转眼间2024年已悄然落幕。这一年，我在CSDN平台上度过了169天，创作了264篇原创文章，收获了9976位粉丝的喜爱与支持。回顾这一年，不仅是我在技术领域的成长与突破，更是我个人生活与博客事业深度融合的一年。在这篇总结中，我将从个人成长与突破、年度创作历程回顾、以及个人生活与博客事业的融合与平衡三个方面，盘点这一年的点滴
2018年年度总结 weixin_30514745 前端后端 php ViewUI
首先先看2017年定下的小目标：PHP基础知识的再次学习。（今年在工作的时候也发现了这个问题，所以将PHP基础知识再学习了一遍，对一些容易混淆的概念进行了学习。这个目标算是实现了80%吧）对前端新特性的了解。（因为之前在太原工作的时候，前端后端都干，所以当时觉得前端和后台都很重要，今年在北京主要干的是后端的工作，所以这个并没有去进行了解）python的学习。（这个也没有进行学习，了解了也没有用，今
湖仓进化，极速统一｜StarRocks 2024 社区年度报告数据库
延伸阅读：Lakehouse白皮书|从理论到落地的现代数据架构升级指南StarRocks开源三周年：初心不忘，征程不止！StarRocksAwards2024年度贡献人物StarRocks培训课程重磅上线！专家出品，助你升级打怪不走弯路！更多交流，联系我们：https://wx.focussend.com/weComLink/mobileQrCodeLink/33412/515d5
docker运行Java项目，Kaptcha因为字体缺失没法显示验证码图片商鼎云技术 docker java 容器
2015工作至今，10年资深全栈工程师，CTO，擅长带团队、攻克各种技术难题、研发各类软件产品，我的代码态度：代码虐我千百遍，我待代码如初恋，我的工作态度：极致，责任，死磕！欢迎点赞、收藏、关注，更多分享请进我主页。Java项目在开发主机以及宿主服务器，Kaptcha都可以正常显示验证码图片，而docker运行Java项目，Kaptcha会因为字体缺失而没法显示验证码图片，报错如下java.lan
得物App亮相第七届进博会，科技赋能打造消费新热点唐天下文化生活
在2024年11月5日至11月10日举办的第七届进博会舞台上，上海交易团虹口分团表现亮眼，其中得物作为来自虹口品质电商的践行者，备受众多参观者关注。上海得物信息集团有限公司自2015年于上海虹口创立以来，始终坚守“满足年轻人对美好生活的向往”使命，凭借首创的“先鉴别、后发货”业务模式，在电商领域脱颖而出，已然成为年轻人钟爱的时尚消费品电商平台以及国内顶尖的线上潮流文化社区。秉持进博会“展品变商品，
威纶通 EXOB 文件反编译密码破解 UIUI 个人开发
版本easybuilderprov5.01.02build2015.01.29左右的软件生成的exob文件。可处理反编译密码（禁止反编译的不会,只会破解出密码），然后生成工程。如有需要，请私信：[email protected]
什么是 React Native 程序猿经理 react native react.js javascript
ReactNative（简称RN）是Facebook于2015年4月开源的跨平台移动应用开发框架，它是Facebook早先开源的JS框架React在原生移动应用平台的衍生产物，支持iOS和安卓两大平台。以下是关于ReactNative的详细介绍：一、基本概述定义：ReactNative是一个使用React和应用平台的原生功能来构建Android和iOS应用的开源框架。起源：由Facebook开发并
StarRocks Awards 2024 年度贡献人物开源
在过去一年，StarRocks在Lakehouse与AI等关键领域取得了显著进步，其卓越的产品功能极大地简化和提升了数据分析的效率，使得"OneData，AllAnalytics"的愿景变得更加触手可及。虽然实现这一目标的道路充满挑战且漫长，但我们并不孤单，因为有一群社区伙伴与我们并肩作战。每一位贡献者的代码提交和每一次的布道，都在推动着StarRocks社区向前发展。为了表达对这些贡献者的深深感
BOE（京东方）2024年度净利润预计52亿元-55亿元创新驱动业绩显著提升数据库
1月20日，京东方科技集团股份有限公司（京东方A：000725；京东方B：200725）发布2024年度业绩预告，预计全年实现归属于上市公司股东的净利润52亿元-55亿元，比上年同期增长104%-116%，经营业绩显著提升。凭借稳健的经营策略和引领行业的技术优势，BOE（京东方）在“屏之物联”战略下持续打造新业务增长极，积极构建产业发展的“第N曲线”，各业务亮点纷呈，创新成果涌现，为2025年创新
「AI 中国」榜单揭晓，OpenBayes贝式计算入选「大模型最具潜力创业企业 TOP 10」
日前，「AI中国」机器之心2024年度评选正式揭晓，OpenBayes贝式计算有幸入选「大模型最具潜力创业企业TOP10」。作为专业的人工智能媒体与产业服务平台，机器之心于2017年发布了AI榜单「SyncedMachineIntelligenceAwards」，在随后的时间里，伴随AI的跨越式发展，机器之心的年度评选也逐渐成为了产业风向标之一，覆盖的领域、范围更加广泛，维度更加细化。机器之心20
BOE（京东方）"向新2025”年终媒体智享会落地深圳 "屏”实力赋能产业创新发展数据库
12月27日，BOE（京东方）“向新2025”年终媒体智享会的收官之站在创新之都深圳圆满举行，为这场为期两周、横跨三地的年度科技盛会画上了完美句号。活动期间，全面回顾了BOE（京东方）2024年在多个关键领域取得的卓越成绩，深入剖析其在六大维度构建的“向新”发展格局，精彩呈现了以“屏”为核心搭建起的技术引领、伙伴赋能以及绿色发展等平台，全方位赋能全球生态合作伙伴，充分彰显BOE（京东方）作为全球领
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

《Python自然语言处理（第二版）-Steven Bird等》学习笔记：第04章 编写结构化程序

第04章 编写结构化程序