Claire_chen_jia

Python自然语言处理 | 获得文本语料与词汇资源

本章解决问题-

什么是有用的文本语料和词汇资源，我们如何使用Python获取它们?
哪些Python结构最适合这项工作?
编写Python代码时我们如何避免重复的工作?

这里写目录标题

1获取文本语料库
- 1.1 古腾堡语料库
- 1.2 网络和聊天文本
- 1.3 布朗语料库
- 1.4 路透社语料库
- 1.5 就职演说语料库
- 1.6 其他语料库
- 1.7 文本语料的结构
- 1.8 载入自己的语料库
2 条件频率分布
- 2.1 条件和事件
- 2.2 按文体计数词汇
- 2.4 使用双连词生成随机文本
3 更多关于python：代码重用
4 词典资源
- 4.1词汇列表语料库
- 4.2 停用词语料库
- 4.3 名字语料库
- 4.4 表格词典
- 4.5 词汇工具：Toolbox 和 Shoebox
5 Wordnet
6 练习

1获取文本语料库

1.1 古腾堡语料库

NLTK包含古腾堡项目（Project Gutenberg）电子文档的一小部分文本。该项目大约有25000（现在是36000）本免费电子书。

# 获得古腾堡语料库
import nltk
from nltk.corpus import gutenberg
gutenberg.fileids()  # 获得古腾堡语料库的文本

emma = gutenberg.words('austen-emma.txt')
len(emma)  # 告诉文本中词汇的个数

emma = nltk.Text(gutenberg.words('austen-emma.txt'))
emma.concordance("surprise")  # 找出surprise出现最多的句子

平均词长=字符总数/词语总数
平均句长=词语总数/句子总数
平均词种数=词语总数/词种数

# 需要先下载“punkt”数据；
# 下载失败解决方案：https://blog.csdn.net/xiangduixuexi/article/details/108601873
import nltk
nltk.download('punkt')

# 下载是否成功的尝试，sents:是计算句子数量
macheth_sentences = nltk.corpus.gutenberg.sents("shakespeare-macbeth.txt")
macheth_sentences

# 平均词长特征值序列
fea1_li = []
# 平均句长特征值序列
fea2_li = []
# 平均词种数特征值序列
fea3_li = []
# 遍历每个作者所写的文本
for fileid in gutenberg.fileids():
    # 统计字符数
    num_chars = len(gutenberg.raw(fileid))
    # 统计词语数
    num_words = len(gutenberg.words(fileid))
    # 统计句子数
    num_sents = len(gutenberg.sents(fileid))
    # 统计词种数
    num_vocab = len(set([w.lower() for w in gutenberg.words(fileid)]))
    # 特征1:计算平均词长
    average_word_len = int(num_chars/num_words)
    fea1_li.append(average_word_len)
    # 特征2:计算平均句长
    average_sent_len = int(num_words/num_sents)
    fea2_li.append(average_sent_len)
    # 特征3:计算平均词种数
    average_word_category = int(num_words/num_vocab)
    fea3_li.append(average_word_category)

1.2 网络和聊天文本

NLTK的网络文本小集合的内容包括Firefox交流论坛，在纽约无意听到的对话,《加勒比海盗》的电影剧本，个人广告和葡萄酒的评论。
一个即时消息聊天会话语料库,最初由美国海军研究生院为研究自动检测互联网幼童虐待癖而收集的。语料库包含超过10,000张帖子，以“UserNNN”形式的通用名替换掉用户名，手工编辑消除任何其他身份信息，制作而成。语料库被分成15个文件，每个文件包含几百个按特定日期和特定年龄的聊天室（青少年、20岁、30岁、40岁、再加上一个通用的成年人聊天室）收集的帖子。文件名中包含日期、聊天室和帖子数量，例如: 10-19-20s_706posts.xml包含2006年10月19日从20多岁聊天室收集的706个帖子。

# Firefox交流论坛
from nltk.corpus import webtext
for fileid in webtext.fileids():
    print(fileid, webtext.raw(fileid)[:65],'...')

# 即时消息聊天会话语料库
from nltk.corpus import nps_chat  
chatroom = nps_chat.posts('10-19-20s_706posts.xml')
chatroom[123]

1.3 布朗语料库

布朗语意库是第一个百万词集的英语电子语料库，有布朗大学于1961年创建，包含500多个不同来源的文本，按照文本类型，如新闻、社评等分类。

语料库基本操作

# 导入布朗语料库
from nltk.corpus import brown

#查看种类
print(brown.categories()) 

# 查看新闻类的文本
print(brown.words(categories="news")) 

 #  cg22是纯文学文体的标号，查看纯文学文体
print(brown.words(fileids=["cg22"]))

# 查看"news","editorial","reviews"的文本，以列表形式返回
print(brown.sents(categories=["news","editorial","reviews"])  )

比较不同问文体中情态动词用法差异

"""
第一步：对特定文体进行计数。
"""
#导入模块
from nltk.book import *
from nltk.corpus import brown

# 获得新闻类和小说的文本
news_text=brown.words(categories="news")
fiction_text=brown.words(categories="fiction")

# 将文本转为小写的文本，再计算词汇的分布
fdist1=FreqDist([w.lower() for w in news_text])
fdist2=FreqDist([w.lower() for w in fiction_text])

# 比较两类词汇["can","could","may","might","must","will"]的用法差异
modals=["can","could","may","might","must","will"]
for m in modals:
    print(m+" num in news_text:"+str(fdist1[m])+"   freq:"+str(100*fdist1[m]/len(news_text)))
    print(m+" num in fiction_text:"+str(fdist2[m])+"   freq:"+str(100*fdist2[m]/len(fiction_text)))

"""
第二步：统计每一个感兴趣的文体。我们使用NLTK提供的条件概率分布函数。
"""
cfd=nltk.ConditionalFreqDist(
    (genre,word) 
    for genre in brown.categories() 
    for word in brown.words(categories=genre))
 
genres=['news','religion','hobbies','science_fiction','romance','humor']
modals=['can','could','may','might','must','will']
cfd.tabulate(conditions=genres,samples=modals)

1.4 路透社语料库

路透社语料库包含10,788个新闻文档，共计130万字。
这些文档分成90个主题，按照“训练”和“测试”分为两组。因此，fileid为“test/14826”的文档属于测试组。
这样分割是为了训练和测试算法的，这种算法自动检测文档的主题，我们将在第6章中看到。
总结：包含的全是新闻文档，并按照测试和训练分组，可用来训练与测试算法。

语料库获取

# 导入模块
from nltk.corpus import reuters

# 获取文本
print(reuters.fileids())

# 获取文本分类
print(reuters.catergories())

语料库查询

由于路透社的新闻类别是有互相重叠部分，故接受查找含有一个或多个类别的文档，也可以查找一个或多个文档涉及到的类别。

print(reuters.categories('training/9865'))
print(reuters.categories(['training/9865','training/9880']))
print(reuters.fileids('barley'))
print( reuters.fileids(['barley','corn']))

查找句子
类似的，我们可以以文档或类别为单位查找我们想要的词或句子。这些文本中最开始的几个词是标题，按照惯例以大写字母存储。

print(reuters.words('training/9865')[:14])
print(reuters.words(categories=['barley','corn']))
print(reuters.words(['training/9865','training/9880']))

1.5 就职演说语料库

55个文本的集合，每个文本都是一个总统的演讲。这个集合的显著特征就是时间维度。

# 获取语料库
import nltk
from nltk.corpus import inaugural
print(inaugural.fileids())

# 每个文本的年代都出现在他的文件名中。要从文件名中提取出年代，只需要使用fileid[:4]即可。
for fileid in inaugural.fileids():
    print(fileid[:4])

# 看看‘American’和‘citizen’随着时间推移的使用情况。
import nltk
from nltk.corpus import inaugural
cfd=nltk.ConditionalFreqDist((target,fileid[:4])
                            for fileid in inaugural.fileids()
                            for w in inaugural.words(fileid)
                            for target in ['american','citizen']
                            if w.lower().startswith(target) )
 
cfd.plot()

1.6 其他语料库

标注文本语料库：许多文本语料库都包含语言学标注，有词性标注，命名实体，句法结构，语义角色等。
世界人权宣言语料库：包含300种语言的世界人权宣言，其fileids包含所使用的编码，如utf-8或者Latin1编码

# 比较其中一种语言的前20字母分布频率
from nltk.corpus import udhr
raw_text=udhr.raw("English-Latin1")
print(FreqDist(raw_text))
FreqDist(raw_text).plot(20)

# 不同语言版本的字长差异
from nltk.corpus import udhr
lan = ['Chickasaw', 'English','German_Deutsch','Greenlandic_Inuktikut','Hungarian_Magyar']
cfd = nltk.ConditionalFreqDist((lang,len(word)) for lang in lan for word in udhr.words(lang + '-Latin1'))

# 绘制不同语言版本的字符长度分布
cfd.plot(cumulative=True)

# 看英语和Chickasaw中单词长度小于10个字符的词汇个数
cfd.tabulate(conditions=['Chickasaw', 'English'],samples=range(10),cumulative=True)

1.7 文本语料的结构

最简单的语料库结构是简单的文本集合。但是可以根据文本的文体、来源、作者、语言等属性对文本进行分类。
NLTK语料库阅读器支持高效的访问大量语料库，并且能用于处理新的语料库。
NLTK中定义了很多语料库函数。

"""
比较区别：
raw：原始文本
words:词汇
sents：句子
"""
raw = gutenberg.raw("burgess-busterbrown.txt")
print(raw[1:20])

words = gutenberg.words("burgess-busterbrown.txt")
print(words[1:20])

sents = gutenberg.sents("burgess-busterbrown.txt")
print(sents[1:20])

1.8 载入自己的语料库

在NLTK中，使用PlaintextCorpusReader\ BracketParseCorpusReader对象来载入自己的语料库或者文本集合

from nltk.corpus import PlaintextCorpusReader
corpus_root = '/usr/share/dict' # 自己的语料库路径
wordlists = PlaintextCorpusReader(corpus_root,'.*') # 载入自己的语料库
wordlists.fileids()  # 列出语料库中的文本文件

from nltk.corpus import BracketParseCorpusReader
corpus_root = r"C:\corporalpenntreebank\parsed\mrglwsj"  # 存放路径
file_pattern = r".*/wsj_.*\.mrg"  # 文件匹配
ptb = BracketParseCorpusReader(corpus_root,file_pattern)
ptb.fileids()
ptb.sents(fileids='20/wsj_2013.mrg')[19]

2 条件频率分布

条件频率分布是频率分布的集合，每个频率分布有一个不同的“条件”。这个条件通常是文本的类别。图2-4描绘了–个带两个条件的条件频率分布
的片段，一个是新闻文本，一个是言情文本

2.1 条件和事件

条件频率分布需要给每个事件关联一个条件，因此处理的不是一个词序列，而是一个配对序列。
也就是说，创建条件频率分布对象需要的是元组的列表，这个元组列表一般通过列表解析的方法来得到，形式为(条件，事件)。

2.2 按文体计数词汇

这里以文体计数词汇的应用来反映条件

from nltk.corpus import brown

cfd = nltk.ConditionalFreqDist(
    (genre,word)
    for genre in brown.categories()
    for word in brown.words(categories=genre)
)
cfd

genre_word = [
    (genre,word)
    for genre in ['news','romance']
    for word in brown.words(categories=genre)
]
print(len(genre_word))
print(genre_word[:4])  #  news 的文本的单词
print(genre_word[-4:])  #romance 的文本的单词

cfd = nltk.ConditionalFreqDist(genre_word)
cfd

# 访问cfd中的两个条件
cfd["news"]
cfd["romance"]

## 2.3绘制分布图和分布表
1. 条件频率分布对象含有一个plot方法来给内部的数据绘图，也含有一个tabulate方法给内部数据绘制表格。通过图和表格更容易表现出数据间的关系。
2. plot方法和tabulate方法都含有conditions参数和samples参数。conditions参数控制图和表格中条件的显示，而samples参数控制样本的显示。
3. 一个特别的地方就是，在创建条件频率分布对象时，传入的列表解析式可以不加方括号。

cdf=nltk.ConditionalFreqDist(
     (target,file[:4])
     for target in ['america','citizen']
     for file in inaugural.fileids()
     for w in inaugural.words(file)
     if w.lower().startswith(target))

print(cdf["america"])
print(cdf["citizen"])

# 绘制表格
cdf.tabulate(samples=["1988","1989","1990"])

# 绘制累计分布的表格
cdf.tabulate(samples=["1988","1989","1990","2000","2001"],cumulative=True)

# 绘制分布图
cdf.plot(samples=["1988","1989","1990","2000","2001"],cumulative=True)

"""
处理布朗语料库的新闻和言情文体，找出一周中最有新闻价值并且是最浪漫的日子。
定义一个变量days 包含星期的链表如[‘Monday’, …]。然后使用cfd.tabulate(samples=days)为这些词的计数制表。
接下来用绘图替代制表尝试同样的事情。
你可以在额外的参数conditions=[‘Monday’, …]的帮助下控制星期输出的顺序。
"""

days=['Monday', 'Tuesday', 'Wednesday','Thursday', 'Friday', 'Saturday', 'Sunday']
cdf=nltk.ConditionalFreqDist(
    (genre,word)
    for genre in ['news','romance']
    for word in brown.words(categories=genre))

cfd.tabulate(conditions=['romance','news'],samples=days)
cfd.plot(samples=days)

# 以一定比例取日子的新闻价值和浪漫性属性作为综合评价指标
import matplotlib.pyplot as plt
idays = [1,2,3,4,5,6,7]#代表星期一到星期日
lr = []
for rr in range(0,10,1):
    r = rr/10        # 默认以0.1为步长
    res =[(r)*cfd['news'][d]+(1-r)*cfd['romance'][d] for d in days ]#计算每一天的权重
#     print(res)
    plt.plot(idays, res)
    lr.append(res.index(max(res)))
else:
    print (lr)
    plt.show()

2.4 使用双连词生成随机文本

思路是由于bigrams可以生成双连词配对（word1,word2）。
对一个文本使用bigrams得到这个文本所有双连词，并统计每个双连词的个数，其中以搭配中的word1作为条件，word2作为事件。
在文本生成模型中，num为生成文本的长度，word为起始词，选取双连词中以word为条件的所有搭配中频率最高的。如living后面跟着的{‘creature’: 7, ‘thing’: 4, ‘substance’: 2, ‘soul’: 1, ‘.’: 1, ‘,’: 1}，creature频率最高，这样生成的文本中living后面就会跟creature。

from nltk import corpus
def generate_model(cfdist,word,num=10):
    for i in range(num):
            print(word)
            word=cfdist[word].max()

text = corpus.genesis.words("english-kjv.txt")
bigrams = bigrams(text)
cfd=nltk.ConditionalFreqDist(bigrams)
print(cfd["living"])
generate_model(cfd,"living")

3 更多关于python：代码重用

使用文本编辑器创建程序
函数
模块

在一个文件中定义的变量和函数的集合称为python的一个模块。
相关模块的集合称为一个包，而包的集合称为库。
要注意的是文件命名最好不要重复，不然会被当前目录下的文件覆盖掉的。

4 词典资源

词典或者词典资源是一个词和/或短语及其相关信息的集合，例如：词性和词意定义等相关信息。词典资源附属于文本，而且通常在文本的基础上创建和丰富。

4.1词汇列表语料库

nltk中包括了一些仅仅包含词汇列表的语料库。词汇语料库是UNIX中的/usr/dict/words文件，被一些拼写检查程序所使用。我们可以用它来寻找文本语料中不常见的或拼写错误的词汇。

# 过滤异常词汇
def unusual_words(text):
    text_vocab=set(w.lower() for w in text if w.isalpha())
    english_vocab=set(w.lower() for w in nltk.corpus.words.words())
#     print(text_vocab)
    unusual=text_vocab.difference(english_vocab)   # text_vocab.difference()
    return sorted(unusual)

dif1=unusual_words(nltk.corpus.gutenberg.words('austen-sense.txt'))
dif1[:20]

dif2=unusual_words(nltk.corpus.nps_chat.words())
dif2[:20]

# dict1.difference(dict2)表示dict1-dict2,即dict1中所有不属于dict2的词。
dict1 = {
     '1','2','3'}
dict2 = {
     '1','2','4'}
dict1.difference(dict2)

4.2 停用词语料库

该语料库包括的是高频词汇，如：the, to 和 and，有时在进一步进行处理之前需要将他们从文档中过滤。停用词通常没有什么词汇内容，而它们的出现会使区分文本变得困难。

"""
nltk中的常用词库
"""
from nltk.corpus import stopwords
stopwords.words('english')

# 过滤停用词列表
def content_fraction(text):
    stopwords=nltk.corpus.stopwords.words('english')
    content=[w for w in text if w.lower() not in stopwords]  # 过滤掉常用词
    print (content[:50])
    return len(content)/len(text)

content_fraction(nltk.corpus.reuters.words())

4.3 名字语料库

该语料库包括8000个按性别分类的名字。男性和女性的名字存储在单独的文件中。

# 找出同时出现在两个文件中的名字即分辨不出性别的名字
names=nltk.corpus.names
names.fileids()

male_name=names.words('male.txt')
female_name=names.words('female.txt')
[w for w in male_name if w in female_name]

# 研究男性和女性名字的结尾字母
cfd=nltk.ConditionalFreqDist(
    (fileid, name[-1])
    for fileid in names.fileids()
    for name in names.words(fileid))

# 绘表
cfd.tabulate()
# 绘图
cfd.plot()

4.4 表格词典

表格（或电子表格）是一种略微丰富的词典资源，在每一行中含有一个词及其一些性质。nltk中包括美国英语的CMU发音词典。

# 发音的词典：CMU发音词典是为语音合成器而设计的。
entries=nltk.corpus.cmudict.entries()
len(entries)

# 对任意一个词，词典资源都有语音的代码——不同的声音有着不同的标签——称做音素。CMU发音词典中的符号是从Arpabet来的。
for entry in entries[39943:39951]:
        print (entry)

# 比较词典：nltk中包含了所谓的斯瓦迪士核心词列表（Swadesh wordlists）, 包括几种语言的约200个常用词的列表。
# 语言标识符使用ISO639双字母码。
from nltk.corpus import swadesh
# swadesh.fileids()获得的是语言的类别。
swadesh.fileids()

# swadesh.words()获得的是语言下的词列表。
swadesh.words('en')  # 英语的常用词

# 法语和英语的词汇转换
fr2en=swadesh.entries(['fr', 'en'])
fr2en

# 构建法语与英语的转换器
translate=dict(fr2en)
translate['chien']

# 通过添加其他源语言，我们可以让我们这个简单的翻译器更为有用。
# 让我们使用dict()函数把德语-英语和西班牙语-英语对相互转换成一个词典，然后用这些添加的映射更新我们原来的翻译词典。

de2en=swadesh.entries(['de', 'en'])
es2en=swadesh.entries(['es', 'en'])
translate.update(dict(de2en))
translate.update(dict(es2en))

print(translate['Hund'])
print(translate['perro'])
print(translate['jeter'])

在这里插入代码片

4.5 词汇工具：Toolbox 和 Shoebox

目前最流行的语言学家用来管理数据的工具是Toolbox（工具箱），以前叫Shoebox（鞋柜）。
Toolbox文件由一些条目的集合组成，其中每个条目由一个或者多个字段组成。
大多数字段都是可选是或者重复的，这意味着这个词汇资源不能作为一个表格或电子表格来处理。

# 条目包括一系列的属性-值对，如('ps','V')，表示词性是'V'(动词)，('ge', 'gag')表示英文注释是'gag'。
# 最后的3个配对包含一个罗托卡特语例句和它的巴布亚皮钦语及英语翻译。

from nltk.corpus import toolbox
dic1=toolbox.entries('rotokas.dic')
dic1[:20]
"""
('kaa',
  [('ps', 'V'),
   ('pt', 'A'),
   ('ge', 'gag'),
   ('tkp', 'nek i pas'),
   ('dcsv', 'true'),
   ('vx', '1'),
   ('sc', '???'),
   ('dt', '29/Oct/2005'),
   ('ex', 'Apoka ira kaaroi aioa-ia reoreopaoro.'),
   ('xp', 'Kaikai i pas long nek bilong Apoka bikos em i kaikai na toktok.'),
   ('xe', 'Apoka is gagging from food while talking.')])
"""

5 Wordnet

学习参考：

知识图谱之WordNet

python WordNet的使用方法（整理版）

Wordnet 介绍

WordNet是普林斯顿大学认知科学实验室与计算机系联合开发的一个英语词库，收录了超过十万个实词。
在WordNet中，意义相近的单词组成一个同义词组（Synset），而同义词组之间则以上-下义，同义-反义，整体-部分以及蕴含等语义关系连接在一起，构成一个由同义词组作为结点，语义关系作为边的网状结构。
基本功能有如下网址可以学习：http://wordnetweb.princeton.edu/perl/webwn、http://www.nltk.org/howto/wordnet.html

安装与测试

# 安装
import nltk
nltk.download('wordnet')

# 测试
from nltk.corpus import wordnet as wn
print(wn.synsets('published'))    #　打印publish的多个词义
 
dog = wn.synset('dog.n.01')  #　狗的概念
print(dog.hypernyms())　#　狗的父类（上位词）
print(dog.hyponyms())　#　狗的子类（下位词）

主要功能介绍

# (1) 上位词/下位词
hypernyms() # 上位（父类）
hyponyms() # 下位（子类）

# (2) 同义词/反义词
lemma_names() # 同义
antonyms() # 反义

# (3) 蕴涵关系
entailments()

# (4) 整体与部位
part_meronyms() # 部分
substance_meronyms() # 实质
member_holonyms() # 成员

# (5) 计算概念之间距离
path_similarity()　#　相似度
lowest_common_hypernyms() # 在何种层面相似

举例

# 导入包
from nltk.corpus import wordnet as wn

# 查询一个词所在的所有词集（synsets），如查找dog这个词有多少种意思
wn.synsets('dog')  # [Synset('dog.n.01'), Synset('frump.n.01'), Synset('dog.n.03'),Synset('cad.n.01'),Synset('frank.n.02'), Synset('pawl.n.01'), Synset('andiron.n.01'), Synset('chase.v.01')]

# 查询一个词在一个同义词集中的定义
wn.synset('dog.n.01').definition()

# 查询一个词语在一所属词集的一个词义的例子
wn.synset('dog.n.01').examples()

# 查询词语某种词性所在的同义词集合，pos值可以为——NOUN,VERB,ADJ,ADV…
wn.synsets('dog',pos=wn.NOUN)

# 查询一个同义词集中的所有词，同义词
wn.synset('dog.n.01').lemma_names( )

# 输出词集和词的配对——词条（lemma）
wn.synset('dog.n.01').lemmas( )

# 利用词条查询反义词
good = wn.synset('good.a.01')
good.lemmas()[0] # Lemma('good.a.01.good')
good.lemmas()[0].antonyms() # [Lemma('bad.a.01.bad')]

# 查询两个词之间的语义相似度
dog = wn.synset('dog.n.01')
cat = wn.synset('cat.n.01')
dog.path_similarity(cat)

# 查询两个词之间的语义相似度
dog = wn.synset('dog.n.01')
cat = wn.synset('cat.n.01')
dog.path_similarity(cat)

# 查询一个词的整体与局部
print(wn.synset('tree.n.01').part_meronyms() ) # 部分
print(wn.synset('tree.n.01').substance_meronyms())  # 实质
print(wn.synset('tree.n.01').member_holonyms() )# 整体

for synset in wn.synsets('mint',wn.NOUN):
    print( synset.name, ':',synset.definition)
    
"""
 : 
 : 
 : 
 : 
 : 
 : 
"""

# mint.n.04是mint.n.02的一部分，是组成mint.n.05的材质。
wn.synset('mint.n.04').part_holonyms()  # [Synset('mint.n.02')]
wn.synset('mint.n.04').substance_holonyms() # [Synset('mint.n.05')]

# 蕴含的关系：走路蕴含着抬脚
wn.synset('walk.v.01').entailments()

# 在何种成面相似
right = wn.synset('right_whale.n.01')
orca = wn.synset('orca.n.01')
minke = wn.synset('minke_whale.n.01')
tortoise = wn.synset('tortoise.n.01')
novel = wn.synset('novel.n.01')
right.lowest_common_hypernyms(minke)  # [Synset('baleen_whale.n.01')]


```python
# 可以通过查找每个同义词集深度量化这个一般性的概念

print(wn.synset('baleen_whale.n.01').min_depth())  # 14
print(wn.synset('right_whale.n.01').min_depth())   # 15
print(wn.synset('vertebrate.n.01').min_depth())  # 8
print(wn.synset('entity.n.01').min_depth())  # 0

6 练习

Python自然语言处理第二章习题

# 根据Strunk和White的《Elements of Style》，词howerer在开头使用是“in whatever way”或“to whatever extent”的意思，而没有“nevertheless”的意思。
# 正确用法的例子：However you advise him,he will probably do as he thinks best.使用词汇索引工具在各种文本中研究这个词的实际用法。
however=nltk.Text(gutenberg.words('austen-persuasion.txt'))
however.concordance("However")

你可能感兴趣的:(笔记,python,自然语言处理)

关于bitsandbytes安装报错跃跃欲试88 语言模型人工智能 transformer
RunTimeError:CUDASetupfaileddespiteGPUbeingavailable.InspecttheCUDASETUPoutputsabovetofixyourenvironment!ubuntu@VM-0-8-ubuntu:~$python-mbitsandbytesFalse===================================BUGREPORT===
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
python3实现爬取淘宝页面的商品的数据信息（selenium+pyquery+mongodb） flood_d mongodb python selenium pyquery 爬虫
1.环境须知做这个爬取的时候需要安装好python3.6和selenium、pyquery等等一些比较常用的爬取和解析库，还需要安装MongoDB这个分布式数据库。2.直接上代码spider.pyimportrefromconfigimport*importpymongofromseleniumimportwebdriverfromselenium.common.exceptionsimportT
《算法笔记》9.4小节——数据结构专题(2)-＞二叉查找树（BST）问题 A: 二叉排序树圣保罗的大教堂《算法笔记》算法
题目描述输入一系列整数，建立二叉排序数，并进行前序，中序，后序遍历。输入输入第一行包括一个整数n(1#include#include#include#include#include#include#include#include#include#include#include#include#include#defineINF0x3f3f3f3f#definedb1(x)coutleft);Fre
一篇文章教会你用Python爬取淘宝评论数据【淘宝商品评论数据接口参数】 Tinalee-电商API接口呀主流电商数据采集API接口淘宝天猫商品API接口淘宝商品评论API接口 python 开发语言人工智能大数据爬虫 java
【一、项目简介】本文主要目标是采集淘宝的评价，找出客户所需要的功能。统计客户评价上面夸哪个功能多，比如防水，容量大，好看等等。【二·淘宝/天猫获得淘宝商品评论API返回值】item_review-获得淘宝商品评论taobao.item_review公共参数名称类型必须描述keyString是调用key（必须以GET方式拼接在URL中）secretString是调用密钥api_nameString是
Python for Android 安装和配置指南舒欣和Queenly
PythonforAndroid安装和配置指南python-for-androidTurnyourPythonapplicationintoanAndroidAPK项目地址:https://gitcode.com/gh_mirrors/py/python-for-android1.项目基础介绍和主要编程语言项目基础介绍PythonforAndroid(p4a)是一个开源工具，旨在将Python应用
python -m bitsandbytes 报错解释与解决 MityKif python 开发语言
RuntimeError:CUDASetupfaileddespiteGPUbeingavailable.Pleaserunthefollowingcommandtogetmoreinformation:python-mbitsandbytesInspecttheoutputofthecommandandseeifyoucanlocateCUDAlibraries.Youmightneedtoad
小红书app复制链接转换为直接可访问链接，网页版链接，小红书短链转长链（最新版）才华是浅浅的耐心 python 爬虫开发语言
简介：小红书手机app分享的链接需要点击才能获取完成链接，本文教大家如何通过代码的方式将xhs的短连接转化为长链接。1.正常我们分享的链接是这样的：44小猪吃宵夜发布了一篇小红书笔记，快来看吧！KeA1GIGiSMXGWy7http://xhslink.com/a/sT7omKb6ijX6，复制本条信息，打开【小红书】App查看精彩内容！转换后是这样的：https://www.xiaohongsh
推特关键词爬虫Python实现最新版（2025.2.20）才华是浅浅的耐心爬虫 python 开发语言
引言随着各类自媒体平台的兴起，数据挖掘和分析变得尤为重要。推特作为全球最大的自媒体平台，越来越来越多的人需要通过爬取其内容进行分析。然后自从马斯克接手推特之后，推特api不可再用，推特的反爬力度也在逐渐增强。今天小编就分享一个推特爬虫的教程。描述这篇文章主要通过关键词爬取帖子内容信息以及帖子作者主页相关信息，用户也可根据自己需要的时间段进行筛选。推特可支持筛选多种语言，我这里先展示中文和英文的。字
基于Python拉取tiktok直播视频流，并将视频流切割成一定时长的视频片段 sh_moranliunian 蜘蛛侠网络爬虫后端 python 爬虫
通过访问tiktok的直播间网页，从网页的script标签内部提取出关于该直播间的相关信息的JSON串，最终从JSON里提取出直播视频流的hls地址和直播间的其他信息。importsysimportrequestsimportjsonimporttimeimportsubprocessfromurllib.parseimporturlunparsefrombs4importBeautifulSou
C# 技术使用笔记：如何高效处理字符串 caifox菜狐狸 C#技术使用笔记 c#笔记 string StringBuilder Substring Replace Split
1.C#字符串基础概念1.1字符串不可变性在C#中，字符串具有不可变性，这意味着一旦创建了一个字符串对象，其内容就不能被修改。例如，当我们执行以下代码时：stringstr="Hello";str=str+"World";实际上，str+"World"并是修改了原来的"Hello"字符串，而是创建了一个全新的字符串对象"HelloWorld"，并将str的引用指向了这个新对象，原来的"Hello"
python中datetime模块 a1111111111ss python python
参考大佬cmzsteven双手奉上大佬的网址https://blog.csdn.net/cmzsteven/article/details/64906245datetime模块中包含如下类：2、通过year,month,day三个数据描述符可以进行访问：date对象由year年份、month月份及day日期三部分构成：date（year，month，day)>>>a=datetime.date.t
如何合法抓取TikTok视频信息和评论：完整Python爬虫教程 Python爬虫项目 2025年爬虫实战项目音视频 python 爬虫开发语言
一、引言TikTok是全球最受欢迎的短视频平台之一，每天吸引着数百万的用户上传和分享视频内容。作为内容创作者和数据分析师，抓取TikTok上的视频和评论可以帮助你分析社交趋势、受欢迎的内容类型和用户互动。然而，TikTok明确表示其平台的数据抓取行为受到限制，这也意味着我们不能直接通过常规的网络爬虫技术去抓取其数据。本文将介绍如何在合法的前提下进行TikTok数据抓取。我们将探索TikTok的AP
谈高考真题的使用（数学） weixin_34116110 python 测试
2019独角兽企业重金招聘Python工程师标准>>>在高三数学复习中，大家常说“以本为本，以纲为纲，高考真题当主粮”，就是以教材内容为根本，以“考试大纲”为准绳，以高考真题的训练为主线；抓住了本，把握了纲，训练有的放矢，我们的复习就会事半功倍。高考数学试题难度相对稳定，考查形式的变化却是异彩纷呈，而变化中又有着一定的规律：全国试题与各省市试题的考试要求基本一致；题型除上海和江苏外，全国和其他各省
TCP/IP学习笔记(5) --IP选路 ox0080 Linux 网络 linux网络
静态IP选路一个简单的路由表选路是IP层最重要的一个功能之一。前面的部分已经简单的讲过路由器是通过何种规则来根据IP数据包的IP地址来选择路由。这里就不重复了。首先来看看一个简单的系统路由表。命令:routeprint|more对于一个给定的路由器，可以打印出五种不同的flag。U表明该路由可用。G表明该路由是到一个网关。如果没有这个标志，说明和Destination是直连的，而相应的Gatewa
Python之pip的安装和使用详细教程叫我技术帝 Python python
我们都知道python有海量的第三方库或者说模块，这些库针对不同的应用，发挥不同的作用。我们在实际的项目中，或多或少的都要使用到第三方库，那么如何将他人的库加入到自己的项目中内呢？打个电话？大哥你好，想用下你那个库，麻烦给邮箱发个源码呗！显然这是个笑话。Python官方的PyPi仓库为我们提供了一个统一的代码托管仓库，所有的第三方库，甚至你自己写的开源模块，都可以发布到这里，让全世界的人分享下载。
python使用pip安装本地包-Python之pip使用详解|附第三方库安装总结 weixin_37988176
首先简单介绍下pip是什么？pip是python的第三方库管理器，可以根据所开发项目的需要，使用pip相关命令安装不同库。Pyhon3.4以后，pip都默认跟Python一块安装，pip在python安装目录中的位置如下：执行方法：运行【win+R】+cmd，执行pip，查看是否安装成功。（找不到命令，则需要手动添加到环境变量）python官方提供了一个pypi库（https://pypi.org
理解并使用基于n-gram重叠的示例选择器 shuoac easyui 前端 javascript python
在AI及自然语言处理任务中，选择与输入最相似的示例可以显著提升生成的质量和上下文相关性。本文将介绍如何使用NGramOverlapExampleSelector工具，通过n-gram重叠来筛选和排序示例，从而帮助实现这一目标。技术背景介绍n-gram重叠技术通过比较输入文本与示例文本在字符或词组上的相似度，计算一个介于0到1之间的分数来表示相似度。这个分数越高，表示文本间的重叠越大。NGramOv
2024年09月中国电子学会青少年软件编程（Python）等级考试试卷（二级）答案 + 解析伶俐角少儿编程 python 少儿编程青少年编程等级考试中国电子学会青少年编程
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37点击前往在线模拟练习一、单选题(共25题，共50分)1.a=['甲','乙','丙','丁','子','丑']print(a[4])以上代码的输出是ÿ
Python pip download下载安装包到指定路径飘～～～～ python
一、Python第三方安装包下载pipdownload-dsave_pathpackages-d:后面接下载包路径(save_path)packages:安装包名称二、Python第三方安装包安装2.1whl包python-mpipinstallxxx.whl2.2tar.gz包tar-zxvfxxx.tar.gzcdxxxpythonsetup.pybuildpythonsetup.pyinst
【免费】中国电子学会2024年03月份青少年软件编程Python等级考试试卷二级真题(含答案) Lemon Liu 电子学会Python真题前端 javascript microsoft python 青少年编程
2024-03Python二级真题分数：100题数：37测试时长：60min一、单选题(共25题，共50分)1.期末考试结束了，全班的语文成绩都储存在列表score中，班主任老师请小明找到全班最高分，小明准备用Python来完成，以下哪个选项，可以获取最高分呢？（B）（2分）A.min(score)B.max(score)C.score.max()D.score.min()答案解析：max()函数
中国电子学会202309青少年软件编程（Python）等级考试试卷（二级）真题晴朗向上 python 考级编程开发语言 microsoft
青少年软件编程（Python）等级考试试卷（二级）分数：100题数：37一、单选题（共25题，每题2分，共50分）1、yyh = [2023, '杭州亚运会', ['拱宸桥', '玉琮''莲叶']]jxw = yyh[2][0]print(jxw[1] * 2)以上代码运行结果是？（）A.宸宸B.杭杭C.玉玉D.州州2、阿宝在学习Python语言编程，他写了一个程序可以实现输入月份数字就可以输出2
2024年9月中国电子学会青少年软件编程（Python）等级考试试卷（三级）答案 + 解析 Sinsa_SI python windows 开发语言电子学会等级考试
更多真题在线练习系统：历年真题在线练习系统一、单选题1、以下表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)正确答案：C答案解析：A和B选项，False；D选项，报错；C选项，True。2、下列代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,
2024年9月电子学会青少年软件编程Python等级考试（三级）真题试卷 No0d1es 青少年软件编程（Python）等级考试试卷 python 开发语言青少年编程电子学会三级
2024年9月青少年软件编程Python等级考试（三级）真题试卷选择题第1题单选题以下python表达式的值为True的是？（）A.all('','1','2','3')B.any([])C.bool('abc')D.divmod(6,0)第2题单选题下列python代码的运行结果是？（）l=list(map(float,(1,2,3,4)))print(l)A.[1,2,3,4]B.['1','
【mysql】mysql之主从部署以及介绍向往风的男子 DBA mysql 数据库
本站以分享各种运维经验和运维所需要的技能为主《python零基础入门》：python零基础入门学习《python运维脚本》：python运维脚本实践《shell》：shell学习《terraform》持续更新中：terraform_Aws学习零基础入门到最佳实战《k8》从问题中去学习k8s《docker学习》暂未更新《ceph学习》ceph日常问题解决分享《日志收集》ELK+各种中间件《运维日常》
MySQL5.6主从复制最佳实践 weixin_34252090 数据库操作系统 python
2019独角兽企业重金招聘Python工程师标准>>>MySQL5.6主从复制最佳实践MySQL5.6主从复制的配置环境操作系统：CentOS-6.6-x86_64MySQL版本：mysql-5.6.26.tar.gz主节点IP：192.168.31.57主机名：edu-mysql-01从节点IP：192.168.31.59主机名：edu-mysql-02MySQL主从复制官方文档http://d
vs code配置python_如何在vscode里的python配置好matplotlib？,vscode配置python环境教程 weixin_39564151 vs code配置python
如何在vscode里的python配置好matplotlib？,vscode配置python环境教程vscode配置python环境教程2020-09-2015:14:33人已围观VScode配置Python环境“配置任务运行程序”遇到问题我建议尝试再把bug写出来，不能因为不一样就不继续首先需要VScodePython插件。打开Python任意脚可以直接拖入。点击左下角的扩展按钮，在弹出界面选择
TikTokenizer 开源项目教程邱纳巧Gillian
TikTokenizer开源项目教程tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目介绍TikTokenizer是一个基于Python的开源项目，旨在提供一个高效、灵活的文本分词工具。该项目利用先进的算法和数据结构，能够快速准确地对文本进行分词处
python类方法和类的实例化 Cachel wood 程序设计杂事 python 开发语言 mysql hive sql 机器学习数据库
文章目录类方法实例方法类方法静态方法特殊方法私有方法Python类的实例化1.调用`__new__`方法2.调用`__init__`方法3.返回实例对象总结类方法在Python里，类的自定义方法是类中用户自行定义的函数，这些方法能够实现特定的功能，并且可以访问和操作类的属性。下面详细介绍Python类中常见的自定义方法。实例方法定义：实例方法是类中最常见的方法，它的第一个参数通常是self，代表类
python 输入一行字符串删除其中所有大写字母后输出_Python练习题3.17删除字符 weixin_39624873 python 输入一行字符串删除其中所有大写字母后输出
输入一个字符串str，再输入要删除字符c，大小写不区分，将字符串str中出现的所有字符c删除。输入格式:在第一行中输入一行字符在第二行输入待删除的字符输出格式:在一行中输出删除后的字符串输入样例:在这里给出一组输入。例如：beee输出样例:在这里给出相应的输出。例如：result:b代码如下：#!/usr/bin/python#-*-coding:utf-8-*-s=input().strip()
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在