人邮异步社区

用文本分析算法探索20个新闻组数据集

什么是NLP

20个新闻组数据集，顾名思义，由从新闻文章抽取的文本组成。它是由Ken Lang采集的，广泛用于机器学习技术驱动的文本类应用的实验，尤其是用自然语言处理技术开发文本类应用。

自然语言处理（Natural Language Processing，NLP）是机器学习的一个重要领域，它研究机器（计算机）和人类（自然）语言之间的交互。自然语言不局限于演讲和对话，它们也可以是书面语或符号语言。NLP任务所用的数据形式多样，有社交媒体、网页、医学处方的文本、音频邮件、控制系统的命令，甚至是我们最喜欢的音乐或电影的音频。如今，NLP广泛应用于日常生活：我们的生活离不开机器翻译；天气预报的脚本是自动生成的；我们发现语音搜索很方便；有了智能问答系统，我们可以快速获得问题的答案（比如，加拿大的人口是多少？）；语音转文本技术可帮助有特殊需求的学生。

机器若能像人一样，理解语言，我们就可认为它具有智能。1950年，著名的数学家（艾伦•图灵）在题为“Computing Machinery and Intelligence”一文中，提出了一项可以评判机器是否具有智能的测试标准，该标准后被称为图灵测试（Turing test）。它的目标是检验计算机是否能充分理解语言，以至于让人类误以为计算机是一个人。至今，还没有计算机能够通过图灵测试，这一点似乎不足为奇。20世纪50年代，自然语言处理的历史开启了。

理解一门语言也许很困难，但自动将文本从一种语言译为另一种语言是否比较简单一些？我还记得人生的第一堂编程课，实验手册上印有很初级的机器翻译算法。我们能够想象，这种水平的翻译算法，无非是查词典，生成译文。更加可行的方法则是，收集人们已翻译的文本，用它们训练计算机程序。1954年，科学家在Georgetown-IBM实验（乔治城大学和IBM合作的一个项目）中宣称机器翻译将在3～5年内解决。

不幸的是，能够击败翻译员的机器翻译系统至今还没有。但自从引入深度学习方法之后，机器翻译的质量有了大幅提升。

聊天机器人（conversational agent或chatbot）是NLP领域的另一热门话题。计算机能够与人对话这一事实改变了商业的运作方式。2016年，微软公司的人工智能聊天机器人Tay发布，它模仿一个少女，可在Twitter上与用户实时对话。她从用户发表的推文和评论中，学习如何聊天。然而，一波波推文袭来，她招架不住，自动学习了他们的恶言恶语，开始输出不合适的推文到她的主页。她在24小时之内就被关停。

还有一些NLP任务尝试组织知识和概念，从而降低计算机程序操作它们的难度。我们组织和表示概念的方式称为本体论（ontology）。本体定义的是概念与概念间的关系。例如，我们可以用所谓的本体三元组表示两个概念之间的关系，比如Python是一门编程语言。

在NLP的重要应用场景中，比以上使用场景更偏底层的是词性标注。词性（Part Of Speech，POS）是语法意义上单词的类别，比如名词或动词。词性标注尝试确定句子或更长的文档中每个单词的词性。举几个英语单词词性的例子，如表2-1所示。

表2-1　英语单词词性示例

词性	示例
名词（noun）	david、machine
代词（pronoun）	them、her
形容词（adjective）	awesome、amazing
动词（verb）	read、write
副词（adverb）	very、quite
介词（preposition）	out、at
连词（conjunction）	and、but
感叹词（interjection）	oh[2]
冠词（article）	a、the

2.2　强大的Python NLP库之旅

介绍了NLP的几种实际应用之后，接下来这一部分将带你一览Python NLP技术栈。这些Python包可处理包括前面提到的几种NLP应用在内的多种NLP任务，比如情感分析、文本分类、命名实体识别等。

用Python编写的、最著名的NLP库有自然语言处理工具集（Natural Language Toolkit，NLTK）、Gensim和TextBlob。sicikit-learn库也提供了NLP的相关功能。NLTK最初是为教育而开发的，如今在业界也被广泛应用。有这样一种说法，不提NLTK，无以言NLP。它是用Python开发NLP应用最著名、也是最为领先的平台之一。我们在终端运行sudo pip install –U nltk命令，即可安装它。

NLTK配备了50多种大型、结构良好的文本数据集，用NLP的术语来讲，它们称为语料库（corpora[3]）。语料库可用作检验单词是否出现的词典，也可用作模型学习和训练的数据集。NLTK中一些实用且有趣的语料库介绍如下：Web文本语料库（Web Text Corpus）、Twitter推文数据（Twitter Sample）、莎士比亚作品数据（Shakespeare XML Corpus Sample）、情感极性（Sentiment Polarity）、姓名语料库（Names Corpus，它包含常用名字，稍后我们会使用）、Wordnet和路透社基准语料库（Reuters-21578 benchmark corpus）。NLTK的所有语料库列表请见官网。不论要用哪个语料库的资源，使用之前，我们都得在Python解释器中运行如下脚本来下载语料库：

>>> import nltk
>>> nltk.download()

运行上述命令，将弹出一个新窗口，询问我们要下载哪个包或语料库，如图2-1所示。

我强烈建议你安装整个包，它囊括了本书及以后做研究要用到的所有重要的数据集，大家一般都这么干。安装好之后，我们立马来探索一番它的姓名语料库Names。

首先，导入该语料库：

用以下代码输出列表的前10个名字：

>>> print names.words()[:10]
[u'Abagael', u'Abagail', u'Abbe', u'Abbey', u'Abbi', u'Abbie',
u'Abby', u'Abigael', u'Abigail', u'Abigale']

共有7944个名字：

>>> print len(names.words())
7944

其他语料库也很有趣，同样值得探索。

NLTK除了提供这些易于使用且数据丰富的语料库外，更重要的是它为攻克以下多种NLP和文本分析任务提供了莫大帮助。

分词（tokenization）：分词是指将给定文本序列切分为用空格隔开的字符片段，通常还会捎带删除标点、数字和表情符号。分词得到的这些字符片段称为词串（token），留待进一步处理。一个单词组成的词串，在计算语言学中称为一元组（unigram）；原文中紧邻的两个单词组成的，称为二元组（bigram）；3个连续的单词组成的，称为三元组（trigram）；个连续的单词组成的，称为 $\boldsymbol{n}$ 元组（n-gram）。分词示例如图2-2所示。

词性标注（POS tagging）：我们可利用现成的标注器标注词性，也可以综合利用NLTK的多个标注器来自定义标注过程。直接使用内置的标注函数pos_tag很简单，比如我们可以这样用：pos_tag(input_tokens)。但是该函数调用的背后，实际上是用预先建好的有监督学习模型做预测。该模型是用大型语料库训练的，语料库中的单词事先已正确标注了词性。
命名实体识别（named entities recognition）：给定文本序列，命名实体识别的任务是定位和识别起定义作用的单词或短语，比如人名、公司名和位置。下一章还会详细介绍该内容。
词干抽取（stemming）和词形还原（lemmatization）：词干抽取是指将屈折变化后或派生得到的单词转换回原形的过程。比如，machine是machines的词干，learning和learned来自learn。词形还原比起词干抽取更加小心谨慎，还原词形时，需要考虑单词的词性。稍后我们会更加详细地讨论这两种文本预处理技术。现在，我们先来快速了解下它们在NLTK中是如何实现的。

首先，导入3个内置的词干抽取算法中的PorterStemmer（另外两个是LancasterStemmer和SnowballStemmer），并初始化一个词干抽取器：

>>> from nltk.stem.porter import PorterStemmer
>>> porter_stemmer = PorterStemmer()

抽取machine和learning的词干：

>>> porter_stemmer.stem('machines')
u'machin'
>>> porter_stemmer.stem('learning')
u'learn'

请注意抽取词干时，如有必要的话，抽取器还会将某些字母切去，比如上面的machin就切去了字母e。

现在，导入基于内置的Wordnet语料库实现的词形还原算法，并初始化一个词形还原器：

>>> from nltk.stem import WordNetLemmatizer
>>> lemmatizer = WordNetLemmatizer()

类似地，我们也可以还原machines和learning：

>>> lemmatizer.lemmatize('machines')
u'machine'
>>> lemmatizer.lemmatize('learning')
'learning'

为什么经过还原操作之后，learning的词形并未发生变化？原因是该算法默认只还原名词的词形。

Radim Rehurek开发的Gensim库最近几年颇受欢迎。在2008年最初设计时，它的功能是生成给定文章的相似文章列表，它的名字也就是这么来的（Gensim是generate similar的缩写）。后来，Radim Rehurek又大幅改进了它的效率和可扩展性。该库同样可以在终端安装，非常简单，只要运行pip install --upgrade gensim即可。它依赖NumPy和SciPy库，在安装它之前，请确保这两个库已安装。

Gensim以它强大的语义和话题建模算法而出名。话题建模是一种典型的文本挖掘任务，旨在发现文档中的隐语义结构。语义结构说白了就是词语在文档中的分布，显然它是一种无监督学习任务。我们需要输入普通文本，让模型从中找出抽象的话题。

除了强大的语义建模方法外，Gensim还具有以下功能。

相似度查询：检索与给定查询对象相似的对象。
词向量化：一种表征词的新方法，可保留词语之间的共现特征。
分布式计算：可高效地从百万级文本学习。

TextBlob是在NLTK基础上开发的一个相对较新的库。它不仅提供简单易用的内置函数和方法，还封装了常用任务，简化了NLP和文本分析任务。在终端运行pip install –U textblob命令，即可安装TextBlob。

此外，TextBlob还具有目前NLTK所没有的功能，比如拼写检查和纠正以及语言检测和翻译。

虽然最后才讲scikit-learn，但是它也很重要，正如在第一章所讲的，scikit-learn是全书都要用到的主要库。幸运的是，它提供了我们所需的全部文本处理功能（比如分词）和多种机器学习功能。此外，它还内置了20个新闻组数据集的加载器。

我们了解了用什么工具，并正确安装它们之后，那数据又是什么情况呢？

2.3　新闻组数据集

本书的第一个项目，我们使用了scikit-learn的20个新闻组数据集。该数据集包括了20个在线新闻组的大约20 000篇文章。新闻组是网上就特定话题展开问答的场所。该数据集已按特定日期，切分成训练集和测试集。

数据集中所有文档为英文。从新闻组的名称即可推断出它们讨论的话题。

其中，一些新闻组紧密相关，甚至重合，比如这5个计算机新闻组（comp.graphics、comp.os.ms-windows.misc、comp.sys.ibm.pc.hardware、comp.sys.mac.hardware和comp.windows.x），而某些新闻组又非常不相关，比如棒球新闻组（rec.sport.baseball）。数据集被做了标注，每篇文档由文本数据和一组标签组成，非常适合有监督学习任务，比如文本分类。我们将在第4章详细介绍有监督学习。现在，我们还是重点介绍无监督学习，从获取数据讲起。

2.4　获取数据

从原网站或其他在线仓库手动下载数据集是可以的，只不过该数据集有很多版本，有些做过一定程度的清洗，有些则还是原始数据格式。为了避免混淆，我们最好使用一致的方法来获取该数据集。scikit-learn库提供了一个功能函数，可用该函数来加载该数据集。

下载数据集后，scikit-learn自动将其加载到缓存中，我们无须再次下载。大多数情况下，缓存数据集可视为一种最佳实践，尤其是数据集相对较小的情况。其他Python库也提供下载函数，但并不是都实现了自动缓存功能。这是我们喜欢scikit-learn的另一个原因。

加载该数据集前，先导入该数据集的加载器：

>>> from sklearn.datasets import fetch_20newsgroups

然后，我们用加载器下载数据集，使用默认参数即可。

>>> groups = fetch_20newsgroups()

我们也可以指定一个或多个话题或数据集的某个部分（训练集、测试集或两者都要），也可以只加载数据集的一个子集。加载器函数的所有参数和参数值如表2-2所示。

表2-2　加载器参数介绍

参数	默认参数值	参数值示例	描述
`subset`	`train`	`train、test、all`	加载训练集、测试集还是加载全部数据集
`data_home`	`~/scikit_learn_data`	`~/myfiles`	数据集存储目录
`categories`	`None`	`alt.atheism`、`sci.space`	要加载的新闻组名称列表。默认加载所有新闻组
`shuffle`	`True`	`True`、`False`	布尔值，表明是否要打乱数据的顺序
`random_state`	`42`	`7`、`43`	打乱数据所依据的整型随机种子
`remove`	`()`	`header`、`footers`、 `quotes`	元组，表明省略文章的哪一部分（头、尾和引用）。默认不省略任何部分
`download_if_ missing`	`True`	`True`、`False`	布尔值，表明如果在本地未找到数据，是否下载

2.5　思考特征

不论用哪一种方式下载，下载了20个新闻组数据集之后，我们就可在程序中用数据对象groups调用数据集了。该数据对象是键值对形式的字典结构，它的键如下所示。

>>> groups.keys()
dict_keys(['description', 'target_names', 'target', 'filenames',
  'DESCR', 'data'])

键target_names给出了20个新闻组的名称：

>>> groups['target_names']
['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc',
'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x',
'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball',
'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space',
'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast',
'talk.politics.misc', 'talk.religion.misc']

键target为20个新闻组所有文档的话题编号（属于哪个新闻组）列表，话题编号是用整数表示的：

>>> groups.target
array([7, 4, 4, ..., 3, 1, 8])

上述输出结果中共有多少个不同的整数？我们可用NumPy的unique函数找出来：

>>> import numpy as np
>>> np.unique(groups.target)
array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

从0到19，共有20个数，代表20个话题。我们看下第一篇文档的话题编号和对应的新闻组名称：

从以上输出可见，第一篇文档来自rec.autos新闻组，该新闻组的编号为7。阅读该文章，不难看出它是关于汽车的。单词car实际上在文章中出现了好几次。bumper（保险杠）等单词看上去也和汽车相关。然而，doors（门）等单词也许不一定跟汽车有关，它们也可能出现在家居装修或其他话题中。捎带一提，不区分doors、door或同一单词的大小写形式（比如Doors）是有道理的。需要区分大小写的情况很少见，比如我们要找出一篇文档是介绍乐队The Doors，还是介绍门（用木头做的）这一更普通的概念时，则需区分大小写。

我们可以大胆下结论，如想知道一篇文档是否出自rec.autos新闻组，car、doors和bumper这类词的出现与否，是很有帮助的特征。出现或不出现，可用一个布尔型变量来表示，我们也可以考察特定单词的出现次数。例如，car在文档中出现了多次。也许这样的词在文档中出现次数越多，文档与汽车相关的可能性就越大。文档长度不同，特定单词出现次数也存在差异。显然，长文本通常词汇量更大，因而我们还得抵消词汇量大的影响。例如，头两篇文档长度不同：

>>> len(groups.data[0])
721
>>> len(groups.data[1])
858

那么，我们是否应该考虑文档的长度？以我之见，本书页数即使发生变化（在合理范围内），本书也还是与Python和机器学习相关的；因而，文章的长度可能不是一个很显著的特征。

单词序列呢？比如front bumper（前保险杠）、sports car（赛车）和engine specs（发动机类型）这些短语似乎强烈表明文档是以汽车为主题的。然而，car出现的频率比sports car更频繁。并且，二元组的数量比去重后得到的一元组数量多得多。比如，this car和looking car二元组，对新闻组分类而言，二者所拥有的信息量基本相同。显然，一些词的信息量很小。在所有类别的文档中都频繁出现的单词，比如a、the和are称为停用词（stop word），我们应该忽略它们。我们只对特定单词是否出现及其出现次数或其他度量值感兴趣，而不关心单词的出现次序。因而，我们可将文本看作装有若干单词的袋子，这种模型称为词袋模型（bag of words model）。虽然这是一种很基础的模型，但在实际应用中效果不错。我们也可定义更复杂的模型，将单词的次序和词性考虑在内。然而，这类复杂模型计算开销更大，代码实现的难度也很大。基本的词袋模型能满足大多数需求。你不信？我们可尝试绘制一元组的分布图，来看看词袋模型是否好用。

2.6　可视化

可视化技术可以展示数据，让用户大致了解数据的结构、发现潜在问题并断明数据是否含有需特殊处理的不规则结构。可视化技术大有裨益。

在多话题或类别分类任务中，明确话题的分布很重要。与类别分布均匀，则最容易处理，因为不存在欠代表或过代表的类别。然而，数据集的分布往往是有倾向的，一个或多个类别会占主导地位。我们用seaborn包计算类别的直方图，并用matplotlib包绘图。两个包都可用pip安装。我们通过以下代码绘制各类别的分布图：

>>> import seaborn as sns
>>> sns.distplot(groups.target)

>>> import matplotlib.pyplot as plt
>>> plt.show()

上述代码的输出结果如图2-3所示。

如图2-3所示，各类别（近似）服从均匀分布，我们又少了件担心的事。

20个新闻组数据集的文本数据维度很高。每个特征都得用一维来表示。我们若是用单词计数作为特征，那么感兴趣的特征有多少，维度就有多少。若用一元组计数，那么我们使用CountVectorizer类，它的参数说明请见表2-3。

表2-3　CountVectorizer参数说明

构造器参数	默认参数值	参数值示例	描述
`ngram_range`	`(1,1)`	`(1, 2)、(2, 2)`	从输入的文本中抽取元组的下限和上限
`stop_words`	`None`	`English`、`[a, the, of]`、`None`	使用哪个停用词表。若为None，则不过滤停用词
`lowercase`	`True`	`True`、`False`	抽取特征时，是否将字母转换为小写
`max_features`	`None`	`None`、`500`	若不用None，仅抽取有限数量的特征
`binary`	`False`	`True`、`False`	若设为True，所有非零的单词计数都算作1次

我们用下面代码绘制500个高频词的单词计数直方图：

>>> from sklearn.feature_extraction.text import CountVectorizer
>>> import numpy as np
>>> import matplotlib.pyplot as plt
>>> import seaborn as sns
>>> from sklearn.datasets import fetch_20newsgroups
　
>>> cv = CountVectorizer(stop_words="english", max_features=500)
>>> groups = fetch_20newsgroups()
>>> transformed = cv.fit_transform(groups.data)
>>> print(cv.get_feature_names())
　
>>> sns.distplot(np.log(transformed.toarray().sum(axis=0)))
>>> plt.xlabel('Log Count')
>>> plt.ylabel('Frequency')
>>> plt.title('Distribution Plot of 500 Word Counts')
>>> plt.show()

输出结果如图2-4所示。

500个高频词列表如下：

    ['00', '000', '0d', '0t', '10', '100', '11', '12', '13', '14', '145',
'15', '16', '17', '18', '19', '1993', '1d9', '20', '21', '22', '23', '24',
'25', '26', '27', '28', '29', '30', '31', '32', '33', '34', '34u', '35',
'40', '45', '50', '55', '80', '92', '93', '__', '___', 'a86', 'able', 'ac',
'access', 'actually', 'address', 'ago', 'agree', 'al', 'american',
'andrew', 'answer', 'anybody', 'apple', 'application', 'apr', 'april',
'area', 'argument', 'armenian', 'armenians', 'article', 'ask', 'asked',
'att', 'au', 'available', 'away', 'ax', 'b8f', 'bad', 'based', 'believe',
'berkeley', 'best', 'better', 'bible', 'big', 'bike', 'bit', 'black',
'board', 'body', 'book', 'box', 'buy', 'ca', 'california', 'called',
'came', 'canada', 'car', 'card', 'care', 'case', 'cause', 'cc', 'center',
'certain', 'certainly', 'change', 'check', 'children', 'chip', 'christ',
'christian', 'christians', 'church', 'city', 'claim', 'clinton', 'clipper',
'cmu', 'code', 'college', 'color', 'colorado', 'columbia', 'com', 'come',
'comes', 'company', 'computer', 'consider', 'contact', 'control', 'copy',
'correct', 'cost', 'country', 'couple', 'course', 'cs', 'current', 'cwru',
'data', 'dave', 'david', 'day', 'days', 'db', 'deal', 'death',
'department', 'dept', 'did', 'didn', 'difference', 'different', 'disk',
'display', 'distribution', 'division', 'dod', 'does', 'doesn', 'doing',
'don', 'dos', 'drive', 'driver', 'drivers', 'earth', 'edu', 'email',
'encryption', 'end', 'engineering', 'especially', 'evidence', 'exactly',
'example', 'experience', 'fact', 'faith', 'faq', 'far', 'fast', 'fax',
'feel', 'file', 'files', 'following', 'free', 'ftp', 'g9v', 'game',
'games', 'general', 'getting', 'given', 'gmt', 'god', 'going', 'good',
'got', 'gov', 'government', 'graphics', 'great', 'group', 'groups',
'guess', 'gun', 'guns', 'hand', 'hard', 'hardware', 'having', 'health',
'heard', 'hell', 'help', 'hi', 'high', 'history', 'hockey', 'home', 'hope',
'host', 'house', 'hp', 'human', 'ibm', 'idea', 'image', 'important',
'include', 'including', 'info', 'information', 'instead', 'institute',
'interested', 'internet', 'isn', 'israel', 'israeli', 'issue', 'james',
'jesus', 'jewish', 'jews', 'jim', 'john', 'just', 'keith', 'key', 'keys',
'keywords', 'kind', 'know', 'known', 'large', 'later', 'law', 'left',
'let', 'level', 'life', 'like', 'likely', 'line', 'lines', 'list',
'little', 'live', 'll', 'local', 'long', 'look', 'looking', 'lot', 'love',
'low', 'ma', 'mac', 'machine', 'mail', 'major', 'make', 'makes', 'making',
'man', 'mark', 'matter', 'max', 'maybe', 'mean', 'means', 'memory', 'men',
'message', 'michael', 'mike', 'mind', 'mit', 'money', 'mr', 'ms', 'na',
'nasa', 'national', 'need', 'net', 'netcom', 'network', 'new', 'news',
'newsreader', 'nice', 'nntp', 'non', 'note', 'number', 'numbers', 'office',
'oh', 'ohio', 'old', 'open', 'opinions', 'order', 'org', 'organization',
'original', 'output', 'package', 'paul', 'pay', 'pc', 'people', 'period',
'person', 'phone', 'pitt', 'pl', 'place', 'play', 'players', 'point',
'points', 'police', 'possible', 'post', 'posting', 'power', 'president',
'press', 'pretty', 'price', 'private', 'probably', 'problem', 'problems',
'program', 'programs', 'provide', 'pub', 'public', 'question', 'questions',
'quite', 'read', 'reading', 'real', 'really', 'reason', 'religion',
'remember', 'reply', 'research', 'right', 'rights', 'robert', 'run',
'running', 'said', 'sale', 'san', 'saw', 'say', 'saying', 'says', 'school',
'science', 'screen', 'scsi', 'season', 'second', 'security', 'seen',
'send', 'sense', 'server', 'service', 'services', 'set', 'similar',
'simple', 'simply', 'single', 'size', 'small', 'software', 'sorry', 'sort',
'sound', 'source', 'space', 'speed', 'st', 'standard', 'start', 'started',
'state', 'states', 'steve', 'stop', 'stuff', 'subject', 'summary', 'sun',
'support', 'sure', 'systems', 'talk', 'talking', 'team', 'technology',
'tell', 'test', 'text', 'thanks', 'thing', 'things', 'think', 'thought',
'time', 'times', 'today', 'told', 'took', 'toronto', 'tried', 'true',
'truth', 'try', 'trying', 'turkish', 'type', 'uiuc', 'uk', 'understand',
'university', 'unix', 'unless', 'usa', 'use', 'used', 'user', 'using',
'usually', 'uucp', 've', 'version', 'video', 'view', 'virginia', 'vs',
'want', 'wanted', 'war', 'washington', 'way', 'went', 'white', 'win',
'window', 'windows', 'won', 'word', 'words', 'work', 'working', 'works',
'world', 'wouldn', 'write', 'writes', 'wrong', 'wrote', 'year', 'years',
'yes', 'york']

我们第一次的尝试得到了上面所列的500个高频词词表，我们的目标是找出最具指示意义的特征。但上述列表不够完美。我们能改善它吗？是的，用下节所讲的数据预处理技巧就能改善它。

本文截选自《Python机器学习实战》

1.在讲解算法的原理和用 scikit-learn 库封装好的方法实现算法之前，先通过几个例子，教会你具体的计算方法，让你手动实现算法；
2.书中代码比较连贯，可直接粘贴到Jupyter Notebook中运行，这一点对初学者非常有帮助；
3.书中示例浅显易懂，涵盖多种应用场景：新闻话题分类、垃圾邮件过滤、在线广告点击率预测和股票价格预测等，讲解方式生动有趣；
4.提供源代码。

本书开篇介绍Python语言和机器学习开发环境的搭建方法。后续章节介绍相关的重要概念，比如数据分析、数据预处理、特征抽取、数据可视化、聚类、分类、回归和模型性能度量等。本书包含多个项目案例，涉及几种重要且有趣的机器学习算法，引导读者从头实现自己的模型。学完本书，你将了解机器学习生态系统的全貌，并掌握机器学习技术的实践和应用。
在本书的帮助下，你将学会用强大却很简单的Python语言来处理数据科学难题，并构建自己的解决方案。

本书包括以下内容：
·利用Python语言抽取数据、处理数据和探索数据；
·用Python对多维数据进行可视化，并抽取有用特征；
·深入钻研数据分析技术，正确预测发展趋势；
·用Python从头实现机器学习分类算法和回归算法；
·用雅虎财经数据来分析和预测股价；
·评估并优化机器学习模型的性能；
·用机器学习和Python解决实际问题。

你可能感兴趣的:(Python,机器学习,人工智能,NLP)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST

用文本分析算法探索20个新闻组数据集

什么是NLP

2.2 强大的Python NLP库之旅

2.3 新闻组数据集

2.4 获取数据

2.5 思考特征