Lynn Wen

数据分析学习总结笔记16：NLP自然语言处理与文本探索性分析

文章目录

1 引言
2 数据集
3 文本统计信息分析
4 Ngram模型探索
5 基于pyLDAvis的主题模型探索
6 绘制词云图
7 情感分析

7.1 TextBlob
7.2 Vader Sentiment Analysis

8 命名实体识别NER
9 词性标签探索分析
10 文本可读性分析
11 结语

1 引言

探索性数据分析是所有机器学习工作流程中最重要的部分之一，自然语言处理也不例外。但是应该选择哪些工具来进行有效地探索，及对文本数据进行可视化呢？

本文将讨论并实现几乎所有可用于理解文本数据的主要技术，并对完成这项工作的 Python 代码进行全面介绍。

2 数据集

本文将使用来自kaggle的包含100万个新闻标题的数据集。如果读者想一步一步地进行分析，可能需要安装以下python库:

pip install \ pandas matplotlib numpy \ nltk seaborn sklearn gensim pyldavis \ wordcloud textblob spacy textstat

现在，来看一下数据。

news= pd.read_csv('data/abcnews-date-text.csv',nrows=10000)
news.head(3)

数据集只包含两列，即发布日期和新闻标题。为了简单起见，本文将只对数据集中的前10000行进行探索分析，由于标题是按发布日期排序的，实际上是从2003年2月19日到2003年4月7日的两个月时间的新闻。

3 文本统计信息分析

文本统计可视化是一种简单但非常有见地的技术。包括:

词频分析
句子长度分析
平均字长分析
其他

这些有助于探索文本数据的基本特征。为此，我们将主要使用直方图(连续数据)和条形图(分类数据)。

首先，对每个句子中出现的字符数可视化。这可以让我们大致了解新闻标题的长度。

news['headline_text'].str.len().hist()

直方图显示新闻标题从10到70个字符不等，一般在25到55个字符之间。
现在，进行词级的数据探索，计算出每个新闻标题中出现的词数。

news['headline_text'].str.split().map(lambda x: len(x)).hist()

之后，进行每个句子中的平均词长度分析。

news['headline_text'].str.split().apply(lambda x : [len(i) for i in x]). map(lambda x: np.mean(x)).hist()

词的平均长度范围在3到9之间，5最常见。这是否意味着人们真正在新闻标题中使用了简短的词汇？

这种想法可能不正确的一个原因是“停用词”。在任何语言中，诸如英文中“ the”、“ a”、“ an”等，中文里的“的”、“在”等，最常用的词就是“停用词”。由于这些词的长度可能很小，也就可能导致了上面的图向左倾斜。

要获得包含停用词的语料库，可以使用nltk库。 nltk库包含多种语言的停用词。由于本文处理英语新闻，我们将从语料库中过滤英语中的停用词。

import nltk
nltk.download('stopwords')
stop = nltk.corpus.stopwords.words("english")

创建语料库。

corpus=[]
new= news['headline_text'].str.split()
new=new.values.tolist()
corpus=[word for i in new for word in i]
from collections import defaultdict
dic=defaultdict(int)
for word in corpus:
    if word in stop:
        dic[word]+=1
top=sorted(dic.items(), key=lambda x:x[1],reverse=True)[:10] 
x,y=zip(*top)
plt.bar(x,y)

然后写出最后的停用词。

可以清楚地看到，诸如“ to”、“ in”和“ for”之类的停用词在新闻标题中占据主导地位。现在知道在文本中哪些停用词经常出现，那么除了这些停用词以外的哪些词经常出现。

我们将使用collections库中的 counter 函数来计数并在元组列表中存储每个词的出现次数。在处理自然语言处理中的词级分析时，这是一个非常有用的函数。

counter=Counter(corpus)
most=counter.most_common()
x, y= [], []
for word,count in most[:40]:
    if (word not in stop):
        x.append(word)
        y.append(count)

sns.barplot(x=y,y=x)

“us”、“Iraq”和“war”占据了过去15年的新闻头条。这里的“ us”可能指美国或者我们(你和我)。us不是一个停顿词，但当观察图表中的其他词时，它们都与美伊战争有关，那么这里的“us”可能指的是美国。

4 Ngram模型探索

Ngrams是n个词的简单连续序列。例如“riverbank”、“The three musketeers”等等。如果词的数量是2，那么它就被称为二元组；有3个词叫做三元组。

关注最常见的n-grams可以更好地理解这个词的上下文。

为实现n-grams，本文将使用nltk.util中的ngrams函数:

from nltk.util import ngrams
list(ngrams(['I' ,'went','to','the','river','bank'],2))

知道如何创建 n-grams，就可以进行可视化。为词汇表构建代表，将使用 Countvectorizer。

Countvectorizer是一种简单的方法，用于标记、向量化和以适当的形式表示语料库。可以在sklearn.feature_extraction.text中使用。

因此，我们将分析新闻标题中的二元组。

def get_top_ngram(corpus, n=None):
    vec = CountVectorizer(ngram_range=(n, n)).fit(corpus)
    bag_of_words = vec.transform(corpus)
    #前两行可直接写为
    #bag_of_words = CountVectorizer(ngram_range=(n, n)).fit_transform(corpus)
    sum_words = bag_of_words.sum(axis=0) 
    words_freq = [(word, sum_words[0, idx]) 
                  for word, idx in vec.vocabulary_.items()] #vec.vocabulary_矩阵化后，二元组词对应的列id
    words_freq =sorted(words_freq, key = lambda x: x[1], reverse=True)
    return words_freq[:10]

top_n_bigrams=get_top_ngram(news['headline_text'],2)[:10]
x,y=map(list,zip(*top_n_bigrams))
sns.barplot(x=y,y=x)

可以看到，与战争有关的“反战”、“阵亡”等重大事件占据了新闻头条。三元组词是怎么样的？

top_tri_grams=get_top_ngram(news['headline_text'],n=3)
x,y=map(list,zip(*top_tri_grams))
sns.barplot(x=y,y=x)

可以看到，其中许多是“面对法庭”和“反战抗议”的一些组合。这意味着我们应该在数据清理方面投入一些精力，看看是否能够将这些同义词组合成一个干净的标记(token)。

5 基于pyLDAvis的主题模型探索

建立主题模型是一个过程，它使用非监督学习技术提取出文档集合中出现的主要主题。**隐含狄利克雷分布（LDA）**是一个简单易用的主题建模模型。每个文档由主题的分布来表示，每个主题由词语的分布来表示。

一旦将文档按主题进行分类，就可以对每个主题或主题组的进行深入的数据探索。

但在进入主题模型之前，必须对数据进行一些预处理:

tokenize:将句子转换成标记或词列表的过程
删除停顿词
lemmatize(词元法):把每个词的变化形式减少为一个共同的基础或词根
转换为单词包: 单词包是一个字典，其中键是单词(或ngram / token)，值是每个单词在语料库中出现的次数

使用 NLTK，可以很容易地进行tokenize和lemmatize:

nltk.download('punkt')
nltk.download('wordnet')
def preprocess_news(df):
    corpus=[]
    stem=PorterStemmer()
    lem=WordNetLemmatizer()
    for news in df['headline_text']:
        words=[w for w in nltk.word_tokenize(news) if (w not in stop)]

        words=[lem.lemmatize(w) for w in words if len(w)>2]

        corpus.append(words)
    return corpus
corpus=preprocess_news(news)

我们使用gensim创建一个单词包模型。

dic=gensim.corpora.Dictionary(corpus)
bow_corpus = [dic.doc2bow(doc) for doc in corpus]

最终可以创建 LDA 模型:

lda_model = gensim.models.LdaMulticore(bow_corpus, 
                                   num_topics = 4, 
                                   id2word = dic,                                    
                                   passes = 10,
                                   workers = 2)
lda_model.show_topics()

主题0表示与伊拉克战争和警察有关的东西。题目3显示与美伊战争声明和抗议相关。
可以展示所有的主题并尝试理解它们，但是有一些工具可以更有效地运行这种数据探索。其中一个工具是pyLDAvis，它可以交互式地可视化LDA的结果。

pyLDAvis.enable_notebook()
vis = pyLDAvis.genism.prepare(lda_model, bow_corpus, dic)
vis

在左边，每个圆圈的面积代表主题相对于语料库的重要性。由于设定为四个主题，则会显示出四个圈子。
圆心之间的距离表示主题之间的相似度。可以看到主题1和主题3重叠，这表明主题更加相似。
在右边，每个主题的直方图显示了前30个相关单词。例如，在主题1中最相关的词是“Iraq”，“say”，“death”等。

所以在案例中，可以在新闻标题中看到很多与战争相关的词语和话题。

6 绘制词云图

词云是表示文本数据的一种很好的方式。出现在词云中的每个单词的大小和颜色表示它的频率或重要性。

使用python创建词云很容易，但是需要以语料库的形式提供数据。幸运的是，前面的部分已经准备了它。

stopwords = set(STOPWORDS)
def show_wordcloud(data):
    wordcloud = WordCloud(
        background_color='white',
        stopwords=stopwords,
        max_words=100,
        max_font_size=30,
        scale=3,
        random_state=1)

    wordcloud=wordcloud.generate(str(data))
    fig = plt.figure(1, figsize=(12, 12))
    plt.axis('off')
    plt.imshow(wordcloud)
    plt.show()

show_wordcloud(corpus)

同样可以看到与战争相关的术语被突出显示，这表明这些词经常出现在新闻标题中。

程序中有许多参数可以调整，其中最突出的有:

stopwords: 被阻止出现在图像中的一组词
max_words: 指示要显示的最大词数
max_font_size: 最大字体大小

7 情感分析

情感分析是一种非常常见的自然语言处理任务，它决定文本所表达的情感是正面的、负面的还是中性的。这对于发现与评论相关的情绪非常有用，评论可以帮助我们从文本数据中获得一些有价值的见解。

关于情感分析若需详细了解可查看之前的笔记：数据分析学习总结笔记01：情感分析

有很多python库可以用来进行情绪分析，本文将介绍 TextBlob 和 Vader Sentiment。

7.1 TextBlob

Textblob是一个构建在nltk之上的python库。它已经出现了一段时间，非常容易和方便使用。

Textblob的情感分析函数会返回两个属性:

polarity极性: [-1,1]范围内的浮点数，其中1表示肯定，-1表示否定。
subjectivity主观性: 指一个人的判断是如何被个人的观点和感觉所塑造的。主观性被表示为位于[0,1]范围内的浮点值

在新闻标题数据中运行这个函数。

TextBlob('100 people killed in Iraq').sentiment

Textblob得到结果，“100人在伊拉克被杀害”文本是负面的，且不是一种意见或感觉，而是一种事实陈述。我们知道如何计算这些情绪得分后，可以使用直方图将它们可视化，并进一步探索数据。

def polarity(text):
    return TextBlob(text).sentiment.polarity
news['polarity_score']=news['headline_text'].apply(lambda x : polarity(x))
news['polarity_score'].hist()

可以看到极性主要在0.00到0.20之间。这表明大多数新闻标题是偏中性的。再深入一点，根据极性得分将新闻分为消极、积极和中性。

def sentiment(x):
    if x<0:
        return 'neg'
    elif x==0:
        return 'neu'
    else:
        return 'pos'

news['polarity']=news['polarity_score'].map(lambda x: sentiment(x))
plt.bar(news.polarity.value_counts().index,
        news.polarity.value_counts())

可以确定，70%的新闻是中性的，只有18%的正面新闻和11%的负面新闻。看看一些正面和负面的标题。

news[news['polarity']=='pos']['headline_text'].head()

可以看出，正面新闻标题大多是关于体育方面的胜利。再看看负面新闻的标题：

news[news['polarity']=='neg']['headline_text'].head()

7.2 Vader Sentiment Analysis

相比Textblob，Vader在侦测负面情绪方面做得更好。这在社交媒体文本情感分析中是非常有用的。

Vader或Valence Aware Dictionary and Sentiment Reasoner 是一个基于规则 / 词典的开源情绪分析器预先构建的库，受MIT许可证保护。

Vader情感分析类会返回一个字典，其中包含文本为正、负和中性的概率。之后就可以以最大的概率对情绪进行过滤和选择。

我们将使用VADER进行同样的分析，并检查是否有很大差别。

nltk.download('vader_lexicon')
sid = SentimentIntensityAnalyzer()
def get_vader_score(sent):
    # Polarity score returns dictionary
    ss = sid.polarity_scores(sent)
    #return ss
    return np.argmax(list(ss.values())[:-1])
news['polarity']=news['headline_text'].\
    map(lambda x: get_vader_score(x))
polarity=news['polarity'].replace({0:'neg',1:'neu',2:'pos'})
plt.bar(polarity.value_counts().index,
        polarity.value_counts())

可以发现，在分布上有细微的差别。更多的新闻标题被归类为中性，大约85%，而负面新闻标题的数量增加到了13%。

8 命名实体识别NER

命名实体识别是一种信息抽取识别方法，它将文本中出现的实体分为预定义的实体类型，如“人”、“地点”、“组织”等。
通过使用 NER，我们可以获得给定文本数据集中存在的实体类型的深刻见解。

让我们来看一篇新闻报道为例子。

在上面的新闻中，命名实体识别模型应该能够识别实体，例如RBI作为一个组织，孟买和印度作为地点，等等。

有三个标准库可以进行命名实体识别:

Standford NER

spaCy

NLTK

在本文中，将使用spaCy，这是一个用于高级自然语言处理任务的开源库。除了NER之外，spaCy还提供了许多其他功能，如词性标注、词向量转换等。

Spacy的命名实体识别已经在OntoNotes 5语料库上进行了训练，它支持以下实体类型:

Spacy有三种预训练过的英语模型。本文将使用en_core_web_sm来完成分析，但是也可以尝试其他的模型。

要使用它，必须先进行下载:

python -m spacy download en_core_web_sm

初始化语言模型:

nlp = spacy.load("en_core_web_sm")

Spacy 的一个优点是我们只需要应用一次nlp函数，整个后台就会返回我们需要的对象。

doc=nlp('India and Iran have agreed to boost the economic viability \
of the strategic Chabahar port through various measures, \
including larger subsidies to merchant shipping firms using the facility, \
people familiar with the development said on Thursday.')

[(x.text,x.label_) for x in doc.ents]

可以看到，印度和伊朗被认为是地理位置(GPE) ，恰巴哈尔被认为是人，星期四被认为是日期。还可以使用 spaCy 中的display模块来实现输出的可视化。

spacy.displacy.render(doc, style='ent')

这样就创建了一个非常简洁的可视化的句子，其中每个实体类型都用不同的颜色标记。

知道了如何执行NER，就可以通过对从数据集中提取的命名实体进行各种可视化来进一步探索数据。

首先，在新闻标题上进行命名实体识别，并存储实体类型。

def ner(text):
    doc=nlp(text)
    return [X.label_ for X in doc.ents]
ent=news['headline_text'].apply(lambda x : ner(x))
ent=[x for sub in ent for x in sub]
counter=Counter(ent)
count=counter.most_common()

将实体频率可视化:

x,y=map(list,zip(*count))
sns.barplot(x=y,y=x)

现在可以看到地理位置GPE 和机构ORG 占据了新闻头条，其次是 PERSON实体。

还可以将每个实体中最常见的标记可视化。新闻标题中最常见的地理位置：

def ner(text,ent="GPE"):
    doc=nlp(text)
    return [X.text for X in doc.ents if X.label_ == ent]
gpe=news['headline_text'].apply(lambda x: ner(x))
gpe=[i for x in gpe for i in x]
counter=Counter(gpe)
x,y=map(list,zip(*counter.most_common(10)))
sns.barplot(y,x)

从上图可以证实这样一个事实: “us”在新闻标题中表示是美国。
以下可视化新闻标题中最常见的人名：

per=news['headline_text'].apply(lambda x: ner(x,"PERSON"))
per=[i for x in per for i in x]
counter=Counter(per)
x,y=map(list,zip(*counter.most_common(10)))
sns.barplot(y,x)

萨达姆·侯赛因和乔治·布什分别是战时伊拉克和美国的总统。此外，可以看到，该模型的分类并不完美，“ vic govt”或“ nsw govt”作分类为人名，而不是一个政府机构。

9 词性标签探索分析

词性标注是将词性标注分配给句子中的词的一种方法。

词性可分为八个主要部分:

名词(NN) - 约瑟夫，伦敦，桌子，猫，老师，笔，城市
动词(VB) - 阅读，说话，跑步，吃饭，玩耍，生活，走路，拥有，喜欢
形容词(JJ) -美丽，快乐，悲伤，年轻，有趣，三个
副词(RB) - 慢慢地，安静地，非常，总是，从来没有，也，好吧，明天
介词(IN) - 在，关于，来自
连词(CC) - 和，或，与，因为，如果
代词(PRP) - 我，你，我们，他们，他，她，它，我，他，她，这个
感叹词(INT) - 哎哟! 哇! 太棒了! 救命! 哦! 嘿! 嗨!

这不是一个简单的任务，因为同一个词可能在不同的句子和不同的上下文中使用。但是，一旦这样做了，就可以创建许多有用的可视化，可以得到额外的洞察。

本文将使用nltk来进行词性标注，但是还有其他库(spacy、textblob)可以做得很好。
让我们来看一个例子。

nltk.download('averaged_perceptron_tagger')
sentence="The greatest comeback stories in 2019"
tokens=nltk.word_tokenize(sentence)
nltk.pos_tag(tokens)

同样，还可以使用 spacy.displacy 模块可视化句子中的词类及其依存图。

doc = nlp('The greatest comeback stories in 2019')
displacy.render(doc, style='dep', jupyter=True, options={'distance': 150})

可以在这里观察到各种依赖标签。例如，DET标记表示限定词“ the”和名词“ stories”之间的关系。可以在这里查看依赖项标记列表及其含义。

知道了什么是词性标签，就可以用它来探索新闻标题数据集。

def pos(text):
    pos=nltk.pos_tag(nltk.word_tokenize(text))
    pos=list(map(list,zip(*pos)))[1]
    return pos
tags=news['headline_text'].apply(lambda x : pos(x))
tags=[x for l in tags for x in l]
counter=Counter(tags)
x,y=list(map(list,zip(*counter.most_common(7))))
sns.barplot(x=y,y=x)

可以清楚地看到，名词(NN)在新闻标题中占主导地位，其次是形容词(JJ)。这是典型的新闻文章，而艺术形式较高的形容词(JJ)出现频率相当高。

通过调查新闻标题中最常出现的单数名词来深入研究这个问题。

def get_adjs(text):
    adj=[]
    pos=nltk.pos_tag(nltk.word_tokenize(text))
    for word,tag in pos:
        if tag=='NN':
            adj.append(word)
    return adj
words=news['headline_text'].apply(lambda x : get_adjs(x))
words=[x for l in words for x in l]
counter=Counter(words)
x,y=list(map(list,zip(*counter.most_common(7))))
sns.barplot(x=y,y=x)

可以通过调查新闻标题中最常出现的单数名词来深入研究这个问题。

诸如“战争”、“伊拉克”、“人”等名词在新闻标题中占主导地位。同样可以使用上面的函数来观察和检查其他词类。

10 文本可读性分析

了解文本易读性(难以阅读)和什么类型的读者可以充分理解它，是非常重要的。是否需要拥有大学学位才能理解信息，或者一个一年级学生就可以清楚地看到重点是什么？
实际上，可以在文档或文本上放置一个称为可读性索引的数字。可读性索引是一个数值，表示阅读和理解文本的难度(或容易程度)。

英语中有许多可读性评分公式，其中最突出的有:

Textstat是一个很酷的Python库，它提供了所有这些文本统计计算方法的实现函数。让我们使用Textstat来实现Flesch-Kincaid可读性测试索引。

现在，可以绘制分数的直方图并可视化输出。

news['headline_text'].apply(lambda x : flesch_reading_ease(x)).hist()

几乎所有的可读性分数都在60以上，这意味着一个普通的11岁学生可以阅读和理解的新闻标题。看看所有可读性得分低于5的新闻标题。

reading = list(news['headline_text'].apply(lambda x : flesch_reading_ease(x)))
x=[i for i in range(len(reading)) if reading[i]<5]
news.iloc[x]['headline_text'].head()

可以发现，在新闻标题中存在一些复杂的词语，如“投降”、“临时”、“诱捕”等。这些词语可能导致分数降到了5分以下。

11 结语

在本文中，我们讨论并实现了针对文本数据的各种探索性数据分析方法。有些是常见的，有些是不太为人所知的，但这些都可以成为数据探索工具箱的一个很好的补充。

希望读者能在当前和未来的项目中发现其中的一些有用之处。

本文主要参考于：
NLP自然语言处理与探索性分析（沈浩老师）

相关笔记：

Python相关实用技巧01：安装Python库超实用方法，轻松告别失败！
Python相关实用技巧02：Python2和Python3的区别
Python相关实用技巧03：14个对数据科学最有用的Python库
Python相关实用技巧04：网络爬虫之Scrapy框架及案例分析
Python相关实用技巧05：yield关键字的使用
Scrapy爬虫小技巧01：轻松获取cookies
Scrapy爬虫小技巧02：HTTP status code is not handled or not allowed的解决方法
数据分析学习总结笔记01：情感分析
数据分析学习总结笔记02：聚类分析及其R语言实现
数据分析学习总结笔记03：数据降维经典方法
数据分析学习总结笔记04：异常值处理
数据分析学习总结笔记05：缺失值分析及处理
数据分析学习总结笔记06：T检验的原理和步骤
数据分析学习总结笔记07：方差分析
数据分析学习总结笔记07：回归分析概述
数据分析学习总结笔记08：数据分类典型方法及其R语言实现
数据分析学习总结笔记09：文本分析
数据分析学习总结笔记10：网络分析
数据分析学习总结笔记11：空间复杂度和时间复杂度
数据分析学习总结笔记12：空间自相关——空间位置与相近位置的指标测度
数据分析学习总结笔记13：生存分析及Python实现
数据分析学习总结笔记14：A/B Test及Python实现
数据分析学习总结笔记15：时间序列分析及Python实现
笔记专栏——数据研发笔试Leetcode刷题

你可能感兴趣的:(数据分析学习总结笔记)

数据分析学习总结笔记16：NLP自然语言处理与文本探索性分析 Lynn Wen 数据分析学习总结笔记
文章目录1引言2数据集3文本统计信息分析4Ngram模型探索5基于pyLDAvis的主题模型探索6绘制词云图7情感分析7.1TextBlob7.2VaderSentimentAnalysis8命名实体识别NER9词性标签探索分析10文本可读性分析11结语1引言探索性数据分析是所有机器学习工作流程中最重要的部分之一，自然语言处理也不例外。但是应该选择哪些工具来进行有效地探索，及对文本数据进行可视化呢
数据分析学习总结笔记14：A/B Test及Python实现 Lynn Wen 数据分析学习总结笔记
文章目录1引言2A/BTest的必要性3统计形式主义的必要性4假设检验入门4.1z检验评估平均花费时间4.2z检验评估平均花费时间4.3Z检验评估转化率5总结1引言A/BTest，又称为对比测试，指的是一种实验技术，以确定根据一个选定的指标，新的设计是否带来改进。在Web分析和UI用户体验中，这个想法是通过随机分割流量并比较每个分割点的指标，来比较现有网站(a)和新网站(b)的区别。举个例子说明：
数据分析学习总结笔记10：网络分析 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记10：网络分析1网络分析概述1.1三大社会科学理论1.2网络分析内容2网络的基本概念与特征量2.1网络的发展2.2网络的表达形式2.3网络基本概念与特征量2.3.1网络整体指标2.3.2网络节点指标3社会网络分析3.1社会网络分析法概述3.2微博传播简介3.3社会网络分析工具——Cytoscape简介3.4社会网络分析的应用4社交网络4.1社交网络传播4.2社交网络营销4.2.
数据分析学习总结笔记07：方差分析 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记07：方差分析1方差分析概述1.1方差分析简介1.2方差分析基本思想和原理1.3方差分析的基本假设2单因素方差分析（One-wayANOVA）2.1单因素方差分析概念2.2单因素方差分析的原理2.3单因素方差分析的基本假设3双因素方差分析（Two-wayANOVA）3.1无交互作用的双因素方差分析3.2有交互作用的双因素方差分析4方差分析实践操作4.1Excel4.2SPSS4
数据分析学习总结笔记07：回归分析概述 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记07：回归分析概述1什么是回归分析1.1回归分析概述1.2“回归”的由来1.3回归分析归纳1.3.1回归分析的主要内容1.3.2回归分析的一般模型2统计学中的回归模型2.1相关分析与回归分析2.2回归模型的具体化2.3回归类型的判断2.4回归分析中的统计问题3机器学习角度看回归3.1数据分析问题的不同视角3.2机器学习分类3.3机器学习的流程1什么是回归分析1.1回归分析概述回
数据分析学习总结笔记08：数据分类典型方法及其R语言实现 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记08：数据分类典型方法及其R语言操作1判别分析1.1判别分析简介1.1.1判别分析概念1.1.2判别分析的种类1.2距离判别法1.2.1两总体距离判别1.2.2多总体距离判别1.3Fisher判别法1.3.1Fisher判别法原理1.3.2Fisher判别法步骤1.4Bayes判别法1.4.1Bayes判别法概念1.4.2概率判别1.4.3损失判别1.5几种判别方法总结1.6F
数据分析学习总结笔记09：文本分析 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记09：文本分析1文本分析1.1文本分析概述1.2结构/非结构化数据1.3文本数据特点1.4自然语言处理——NLP1.5文本挖掘的应用2文本分词2.1英文分词——KNIME2.2中文分词2.2.1中文分词工具2.2.2分词的方法2.2.3中文分词实操——pynlpir2.2.3.1pynlpir准备2.2.3.1操作步骤3中文关键词提取3.1关键词提取概述3.2关键词提取方法3.
数据分析学习总结笔记04：异常值处理 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记04：异常值处理1异常值概述2如何判断异常值2.1简单的统计分析2.23δ原则2.3四分位数检验/箱型图分析2.4格拉布斯检验2.5基于模型检测2.6基于距离检测2.7基于密度检测3如何处理异常值1异常值概述数据存在异常值、缺失值和重复值是数据清洗工作中主要可能遇到的三个问题。异常值是数据中的极端的观测值，即在数据集中存在不合理的值，又称离群点。在统计学中异常值（outlier
数据分析学习总结笔记03：数据降维经典方法 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记03：数据降维经典方法1.数据降维概述2.数据降维的应用3.数据降维经典方法3.1主成分分析（PCA）3.1.1PCA概述3.1.2PCA原理3.1.3PCA&LDA3.1.4基于标准化变量的主成分分析3.1.5主成分个数的选择3.1.6主成分分析的用途3.1.7PCA实现3.2因子分析（FactorAnalysis）3.2.1因子分析概述3.2.2因子分析原理3.2.3因子分
数据分析学习总结笔记05：缺失值分析及处理 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记05：缺失值分析及处理1缺失值概念2缺失值分析的类别2.1按数据缺失形式划分2.2按缺失机制与方式划分3缺失值的处理方法3.1删除缺失值3.2缺失值替代3.3缺失值分析1缺失值概念在数据收集过程中，由于各种原因可能导致数据收集不全，就会产生缺失值，且这种情况往往无法避免。因此，缺失值分析是数据处理工作中常见的问题之一，如果处理不当，会导致部分分析过程简单地从分析中丢弃这些有缺失
数据分析学习总结笔记17：文本分析入门案例实战 Lynn Wen 数据分析学习总结笔记
文章目录1数据准备2分词3统计词频4词云5提取特征6用sklearn进行训练1数据准备数据样例如下，数据总量为7.7万+：本节通过一个实战的例子来展示文本分析的最简单流程。首先设定因变量为原始数据中的"评分"。自变量是"评价内容"，这里根据评价内容提取TF-IDF特征。之后，通过评价内容的特征建模预测下整体评分。importjieba#导入分词模块importpandasaspd#导入Pandas
数据分析学习总结笔记13：生存分析及Python实现 Lynn Wen 数据分析学习总结笔记
文章目录1引言2定义3数学直观4Kaplan-Meier估计5Cox比例风险模型6总结1引言生存分析是一套统计方法，用来解决诸如“多长时间后，某个特定事件发生”这样的问题;换句话说，也可以称之为事件时间分析。这种方法被称为生存分析，是由于主要是由医学研究人员开发的，他们更感兴趣的是寻找不同群体患者的预期寿命(例如:用药物a治疗的组群1和用药物b治疗的组群2)。这种分析不仅可以应用于传统的死亡事件，
数据分析学习总结笔记11：空间复杂度和时间复杂度 Lynn Wen 数据分析学习总结笔记
文章目录1算法与程序2算法复杂度概述3时间复杂度3.1时间复杂度记号O3.2时间复杂度的计算3.3时间复杂度的类别3.4时间复杂度分析实例4空间复杂度5O(1),O(n),O(logn),O(nlogn)的区别本文较简略，具体可参照：算法的时间复杂度和空间复杂度-总结1算法与程序（1）算法：是解决问题的方法或过程，严格的讲是满足下述性质的指令序列：输入：有零个或多个外部量作为算法的输入；输出：算法
数据分析学习总结笔记15：时间序列分析及Python实现 Lynn Wen 数据分析学习总结笔记
文章目录1引言2时间序列的特性2.1自相关2.2季节性2.3平稳性3时间序列建模3.1移动平均法3.2指数平滑法3.3双指数平滑法3.4三重指数平滑法3.5周期性差分自动平滑回归模型(SARIMA)4实例——股票价格的预测5结论1引言本篇主要帮助大家理解移动平均，指数平滑，平稳性，自相关，SARIMA，通过案例和Python编程实现时间序列的预测技术。无论我们是预测金融市场或股票趋势，或是电能耗费
数据分析学习总结笔记02：聚类分析及其R语言实现 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记02：聚类分析及其R语言实现1.聚类分析概述1.1聚类分析简介1.2聚类分析原理1.3聚类&分类1.4如何刻画相似度？2.聚类分析的方法2.1层次聚类2.1.1层次聚类步骤2.1.2简介2.1.3层次聚类的类型2.1.4层次聚类族群个数的选择2.1.5层次聚类R语言实践2.2非层次聚类——K-Means2.2.1K-means聚类简介2.2.2K-means聚类步骤2.2.3k
数据分析学习总结笔记06：T检验的原理和步骤 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记06：T检验的原理和步骤1单样本T检验1.1单样本T检验概念1.2单样本T检验步骤2独立样本T检验2.1独立样本T检验概念2.2独立样本T检验步骤1单样本T检验1.1单样本T检验概念目的：利用来自某总体的样本数据，推断该总体的均值是否与指定的检验值之间存在显著性差异。前提：样本来自的总体服从正态分布。基本思想：首先，计算出样本均值；其次，根据经验或以往的调查结果，对总体的均值提
数据分析学习总结笔记12：空间自相关——空间位置与相近位置的指标测度 Lynn Wen 数据分析学习总结笔记
文章目录1空间地理相关性2技术性定义3空间相关类型4Moran’sI（莫兰系数）5空间自相关的应用6案例研究:意大利人口迁移分析7总结8实现工具1空间地理相关性地理空间自相关是指一个物体与附近其他物体的相似程度。通俗地说，它度量的是相近物体与其他相近物体的相似程度。地理信息系统的第一规则:一切事物都与其他事物相关联。但是相近事物比较远事物更相关(Waldor.Tobler，1970)。为了理解这个
数据分析学习总结笔记01：情感分析 Lynn Wen 数据分析学习总结笔记
数据分析学习总结笔记01：情感分析1.情感分析概述1.1什么是情感分析1.2情感分析的范畴1.3细粒度情感分析1.4情感分析的实际应用2.情感分析方法2.1情感分析基本步骤2.2情感分析分类2.2.1基于情感词典2.2.2基于机器学习2.2.3混合方法2.3情感分析评价标准[^1]3.情感分析工具3.1可能用到的软件3.2情感分析网站3.2Python情感分析APIs3.3情感分析资源[^4]3.
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS