星之空殇

python数据分析(分析文本数据和社交媒体）

1、安装NLTK

pip install nltk

至此，我们的安装还未完成，还需要下载NLTK语料库，下载量非常大，大约有1.8GB。可以直接运行代码下载、代码如下：

import nltk
nltk.download()

这样可以直接下载NLTK语料库了。

2、滤除停用词、姓名和数字

进行文本分析时，我们经常需要对停用词（Stopwords）进行剔除，这里所谓停用词就是那些非常常见，但没有多大信息含量的词。

代码：

import nltk
sw=set(nltk.corpus.stopwords.words('french'))
print "Stop words",list(sw)[:7]

运行结果：

Stop words [u'e\xfbtes', u'\xeates', u'aient', u'auraient', u'aurions', u'auras', u'serait']

注意，这个语料库中的所有单词都是小写形式。

nltk还提供一个Gutenberg语料库。该项目是一个数字图书馆计划，旨在收集大量版权已经过期的图书，供人们在互联网上免费阅读。下面代码是加载Gutenberg语料库，并输出部分书名的代码：

gb=nltk.corpus.gutenberg
print "Gutenberg files",gb.fileids()[-5:]

运行结果：

Gutenberg files [u'milton-paradise.txt', u'shakespeare-caesar.txt', u'shakespeare-hamlet.txt', u'shakespeare-macbeth.txt', u'whitman-leaves.txt']

从milton-paradise.txt中取前两个句子，并去除停用词。

代码：

text_sent=gb.sents("milton-paradise.txt")[:2]  #取前两个句子
print "Unfiltered:",text_sent

for sent in text_sent:   #去除停用词
	filtered=[w for w in sent if w.lower() not in sw]
	print "Filtered:",filtered

运行结果：

Filtered: [u'[', u'Paradise', u'Lost', u'John', u'Milton', u'1667', u']']
Filtered: [u'Book']

与前面相比已经滤掉了by和I，因为他们出现在停用词语料库中，有时，我们希望把文本中的数字和姓名也删掉，可以根据词性标签来删除某些单词，数字对应基数标签（CD），姓名对应着单数形式的专有名词（NNP）标签。
代码：

#coding:utf8
import nltk
sw=set(nltk.corpus.stopwords.words('english'))
print "Stop words",list(sw)[:7]
gb=nltk.corpus.gutenberg
print "Gutenberg files",gb.fileids()[-5:]

text_sent=gb.sents("milton-paradise.txt")[:2]  #取前两个句子
print "Unfiltered:",text_sent

for sent in text_sent:   #去除停用词
	filtered=[w for w in sent if w.lower() not in sw]
	print "Filtered:",filtered

	taggled=nltk.pos_tag(filtered)  #输出每个词的标签数据
	print "Tagged:",taggled

	words=[]
	for word in taggled:  #过滤标签数据
		if word[1]!='NNP' and word[1]!='CD':
			words.append(word[0])
	print words

运行结果：

Stop words [u'all', u'just', u'being', u'over', u'both', u'through', u'yourselves']
Gutenberg files [u'milton-paradise.txt', u'shakespeare-caesar.txt', u'shakespeare-hamlet.txt', u'shakespeare-macbeth.txt', u'whitman-leaves.txt']
Unfiltered: [[u'[', u'Paradise', u'Lost', u'by', u'John', u'Milton', u'1667', u']'], [u'Book', u'I']]
Filtered: [u'[', u'Paradise', u'Lost', u'John', u'Milton', u'1667', u']']
Tagged: [(u'[', 'JJ'), (u'Paradise', 'NNP'), (u'Lost', 'NNP'), (u'John', 'NNP'), (u'Milton', 'NNP'), (u'1667', 'CD'), (u']', 'NN')]
[u'[', u']']
Filtered: [u'Book']
Tagged: [(u'Book', 'NN')]
[u'Book']

3、词袋模型

所谓词袋模型，即它认为一篇文档是由其中的词构成的一个集合，词与词之间没有顺序以及先后的关系。对于文档中的每个单词，我们都需要计算它出现的次数，即单词计数，据此，我们可以进行垃圾邮件识别之类的统计分析。

利用所有单词的计数，可以为每个文档建立一个特征向量，如果一个单词存在于语料库中，但是不存在于文档中，那么这个特征的值就为0，nltk中并不存在创建特征向量的应用程序，需要借助python机器学习库scikit-learn中的CountVectorizer类来轻松创建特征向量。

首先安装scikit-learn，代码：

pip install scikit-learn

然后可以加载文档，去除停用词，创建向量：

#coding:utf8
import nltk
from sklearn.feature_extraction.text import CountVectorizer
#加载两个文档
gb=nltk.corpus.gutenberg 
hamlet=gb.raw("shakespeare-hamlet.txt")
macbeth=gb.raw("shakespeare-macbeth.txt")

#去除停用词并生成特征向量
cv=CountVectorizer(stop_words="english")
print "Feature Vector:",cv.fit_transform([hamlet,macbeth]).toarray()

运行结果：

Feature Vector: [[ 1  0  1 ..., 14  0  1]
 [ 0  1  0 ...,  1  1  0]]

4、词频分析

NLTK提供的FreqDist类可以用来将单词封装成字典，并计算给定单词列表中各个单词出现的次数。下面，我们来加载Gutenberg项目中莎士比亚的Julius Caesar中的文本。

代码：

#coding:utf8
import nltk
import string
gb=nltk.corpus.gutenberg
sw=set(nltk.corpus.stopwords.words('english'))
words=gb.words("shakespeare-caesar.txt")  #加载文档

punctuation=set(string.punctuation)  #去除标点符号
filtered=[w.lower() for w in words if w.lower() not in sw and w.lower()not in punctuation]
fd=nltk.FreqDist(filtered)  #词频统计
print "Words:",fd.keys()[:5]
print "Counts:",fd.values()[:5]
print "Max:",fd.max()
print "Count",fd['pardon']

#bigrams：对双字词进行统计分析
#trigrams:对三字词进行统计分析
fd=nltk.FreqDist(nltk.bigrams(filtered))  #对双字词进行统计分析
print "Bigrams:",fd.keys()[:5]
print "Counts:",fd.values()[:5]
print "Bigram Max:",fd.max()
print "Bigram Count",fd['decay', 'vseth']

运行结果：

Words: [u'fawn', u'writings', u'legacies', u'pardon', u'hats']
Counts: [1, 1, 1, 10, 1]
Max: caesar
Count 10
Bigrams: [(u'bru', u'must'), (u'bru', u'patient'), (u'angry', u'flood'), (u'decay', u'vseth'), (u'cato', u'braue')]
Counts: [1, 1, 1, 1, 1]
Bigram Max: (u'let', u'vs')
Bigram Count 1

5、朴素贝页斯分类

朴素贝页斯分类是机器学习中常见的算法，常常用于文本文档的研究，它是一个概率算法，基于概率与数理统计中的贝页斯定理。

代码：

#coding:utf8
import nltk
import string
import random
gb=nltk.corpus.gutenberg
sw=set(nltk.corpus.stopwords.words('english'))
punctuation=set(string.punctuation)  #去除标点符号

def word_features(word):  #计算单词长度
	return {'len':len(word)}

def isStopWord(word):  #判断是否是停用词
	return word in sw or word in punctuation

words=gb.words("shakespeare-caesar.txt")  #加载文档

labeled_words=([(word.lower(),isStopWord(word.lower())) for word in words])

random.seed(42)
random.shuffle(labeled_words)  #元组随机排序
print labeled_words[:5]

featuresets=[(word_features(n),word) for (n,word) in labeled_words]
cutoff=int(.9*len(featuresets))
train_set,test_set=featuresets[:cutoff],featuresets[cutoff:] #划分训练集和测试集
classifier=nltk.NaiveBayesClassifier.train(train_set)
print "'behold' class:",classifier.classify(word_features('behold'))
print "'the' class:",classifier.classify(word_features('the'))
print "Accuracy:",nltk.classify.accuracy(classifier,test_set)    #计算模型准确率
print classifier.show_most_informative_features(5)             #查看哪些特征贡献较大

运行结果：

[(u'was', True), (u'greeke', False), (u'cause', False), (u'but', True), (u'house', False)]
'behold' class: False
'the' class: True
Accuracy: 0.857585139319
Most Informative Features
                     len = 7               False : True   =     65.7 : 1.0
                     len = 1                True : False  =     52.0 : 1.0
                     len = 6               False : True   =     51.4 : 1.0
                     len = 5               False : True   =     10.9 : 1.0
                     len = 2                True : False  =     10.4 : 1.0

6、情感分析

随着社交媒体，产品评论网站及论坛的兴起，用来自动抽取意见的观点挖掘或情感分析也随之变成一个刺手可热的新研究领域。通常情况下，我们希望知道某个意见的性质是正面的，中立的，还是负面的。当然，这种类型的分类我们在前面就曾遇到过。也就是说，我们有大量的分类算法可用。还有一个方法就是，通过半自动（经过某些人工编辑）方法来编制一个单词列表，每个单词赋予一个情感分，即一个数值(单词“good“的情感分为5，而单词”bad“的情感分为-5）。如果有了这样一张表，就可以给文本文档中的所有单词打分，从而得出一个情感总分。当然，类别的数量可以大于3，如五星级分级方案。

我们会应用朴素贝叶斯分类方法对NLTK的影评语料进行分析，从而将影评分为正面的或负面的评价。首先，加载影评语料库，并过滤掉停用词和标点符号。这些步骤在此省略，因为之前就介绍过。也可以考虑更精细的过滤方案。不过，需要注意的是，如果过滤得过火了，就会影响准确性，

#coding:utf8
import random
from  nltk.corpus import movie_reviews
from nltk.corpus import stopwords
from nltk import FreqDist
from nltk import NaiveBayesClassifier
from nltk.classify import accuracy
import string


#使用categories
labeled_docs=[(list(movie_reviews.words(fid)),cat)
				for cat in movie_reviews.categories()
				for fid in movie_reviews.fileids(cat)]
random.seed(42)
random.shuffle(labeled_docs)
#print labeled_docs[:1]
review_words=movie_reviews.words()
print "# Review Words:",len(review_words)

sw=set(stopwords.words('english'))
punctuation=set(string.punctuation)  #去除标点符号
def isStopWord(word):  #判断是否是停用词
	return word in sw or word in punctuation
filtered=[w.lower() for w in review_words if not isStopWord(w.lower())]
print "#After filter:",len(filtered)  #去除停用词后的长度

words=FreqDist(filtered)  #词频统计
N=int(0.05*len(words.keys()))
word_features=words.keys()[:N]

def doc_features(doc):
	doc_words=FreqDist(w for w in doc if not isStopWord(w))
	features={}
	for word in word_features:
		features['count (%s)'%word]=(doc_words.get(word,0))
	return features

featuresets=[(doc_features(d),c) for (d,c) in labeled_docs]
train_set,test_set=featuresets[200:],featuresets[:200]
classifier=NaiveBayesClassifier.train(train_set)
print "Accuracy",accuracy(classifier,test_set)

print classifier.show_most_informative_features()

运行结果：

# Review Words: 1583820
#After filter: 710579
Accuracy 0.695
Most Informative Features
          count (nature) = 2                 pos : neg    =      8.5 : 1.0
             count (ugh) = 1                 neg : pos    =      8.2 : 1.0
            count (sans) = 1                 neg : pos    =      8.2 : 1.0
    count (effortlessly) = 1                 pos : neg    =      6.3 : 1.0
      count (mediocrity) = 1                 neg : pos    =      6.2 : 1.0
       count (dismissed) = 1                 pos : neg    =      5.8 : 1.0
            count (wits) = 1                 pos : neg    =      5.8 : 1.0
            count (also) = 6                 pos : neg    =      5.8 : 1.0
            count (want) = 3                 neg : pos    =      5.5 : 1.0
            count (caan) = 1                 neg : pos    =      5.5 : 1.0

7、创建词云

可以直接利用wordle网站在线创建词云，地址：http://www.wordle.net/advanced。网站需要支持Java插件，最好使用MAC的Safari浏览器。利用Wordle生成词云时，需要提供一个单词列表及其对应的权值，具体格式为
word1 ： weight
word2 ：weight
利用之前代码，生成词频，代码如下：

#coding:utf8
import random
from  nltk.corpus import movie_reviews
from nltk.corpus import stopwords
from nltk import FreqDist
from nltk import NaiveBayesClassifier
from nltk.classify import accuracy
import string


sw=set(stopwords.words('english'))
punctuation=set(string.punctuation)  #去除标点符号
def isStopWord(word):  #判断是否是停用词
	return word in sw or word in punctuation
review_words=movie_reviews.words()
filtered=[w.lower() for w in review_words if not isStopWord(w.lower())]
#print filtered

words=FreqDist(filtered)  #词频统计
N=int(0.01*len(words.keys()))
tags=words.keys()[:N]

for tag in tags:
	print tag,":",words[tag]

将上面运行结果复制粘贴到wordle页面，就可以得到如下词云图：

仔细研究这个词云图，发现并不完美，还有很大改进空间。因此可以进一步改进：
进一步过滤：剔除包含数字字符和姓名的单词，可以借助NLTK的names语料库。此外，对于只出现一次的单词，可以置之不理，因为不太可能提供足够有价值的信息。
使用更好的度量标签：词频和逆文档频率（TF-IDF）
度量指标TF-IDF可以通过对语料库的单词进行排名，并据此赋予这些单词相应的权重。这些权重的值与单词在特定文档中出现的次数即词频成正比。同时，它还与语料库中含有改单词的文档数量成反比，及逆文档频率。TF-IDF的值为词频和逆文档频率之积。如果需要自己动手实现TF-IDF，那么还必须考虑对数标处理，幸运的是，scikit-learn已经为我们准备好了一个TfidfVectorizer类，它有效实现了TF-IDF。
代码：

#coding:utf8
import random
from  nltk.corpus import movie_reviews
from nltk.corpus import stopwords
from nltk.corpus import names
from nltk import FreqDist
from nltk import NaiveBayesClassifier
from nltk.classify import accuracy
from sklearn.feature_extraction.text import TfidfVectorizer
import itertools
import pandas as pd 
import numpy as np 
import string


sw=set(stopwords.words('english'))
punctuation=set(string.punctuation)  #去除标点符号
all_names=set([name.lower() for name in names.words()])   #得到所有名字信息

def isStopWord(word):  #判断是否是停用词   isalpha函数判断字符是否都是由字母组成
	return (word in sw or word in punctuation or word in all_names or not word.isalpha())
review_words=movie_reviews.words()
filtered=[w.lower() for w in review_words if not isStopWord(w.lower())]
#print filtered

words=FreqDist(filtered)  #词频统计
texts=[]
for fid in movie_reviews.fileids():
	#print fid     fid表示文件
	texts.append(" ".join([w.lower() for w in movie_reviews.words(fid) if not isStopWord(w.lower()) and words[w.lower()]>1]))

vectorizer=TfidfVectorizer(stop_words='english')
matrix=vectorizer.fit_transform(texts)   #计算TD-IDF
#print matrix

sums=np.array(matrix.sum(axis=0)).ravel()  #每个单词的TF-IDF值求和，并将结果存在numpy数组
ranks=[]
#itertools.izip把不同的迭代器的元素聚合到一个迭代器中。类似zip（）方法，但是返回的是一个迭代器而不是一个list
for word, val in itertools.izip(vectorizer.get_feature_names(),sums):
	ranks.append((word,val))

df=pd.DataFrame(ranks,columns=["term","tfidf"])
df=df.sort_values(['tfidf'])

#print df.head()

N=int(0.01*len(df))  #得到排名靠前的1%
df=df.tail(N)


for term,tfidf in itertools.izip(df["term"].values,df["tfidf"].values):
	print term,":",tfidf
# tags=words.keys()[:N]

# for tag in tags:
# 	print tag,":",words[tag]

同样放到wordle中生成词云图：

8、社交网络分析

所谓社交网络分析，实际上就是利用网络理论来研究社会关系。其中网络的节点代表的是网络中的参与者。节点之间的连线代表的是参与者之间的相互关系。本节介绍如何使用Python库NetworkX来分析简单的图。并通过matplotlib库对这些网络图可视化。

安装networkx：pip install networkx

networkx提供许多示例图，可以列出，具体代码如下：

#coding:utf8
import networkx as nx
#networkx提供许多示例图，可以列出
print [s for s in dir(nx) if s.endswith('graph')]

运行结果：

['LCF_graph', 'adjacency_graph', 'barabasi_albert_graph', 'barbell_graph', 'binomial_graph', 'bull_graph', 'caveman_graph', 'chordal_cycle_graph', 'chvatal_graph', 'circulant_graph', 'circular_ladder_graph', 'complete_bipartite_graph', 'complete_graph', 'complete_multipartite_graph', 'connected_caveman_graph', 'connected_watts_strogatz_graph', 'cubical_graph', 'cycle_graph', 'cytoscape_graph', 'davis_southern_women_graph', 'dense_gnm_random_graph', 'desargues_graph', 'diamond_graph', 'digraph', 'directed_havel_hakimi_graph', 'dodecahedral_graph', 'dorogovtsev_goltsev_mendes_graph', 'duplication_divergence_graph', 'edge_subgraph', 'ego_graph', 'empty_graph', 'erdos_renyi_graph', 'expected_degree_graph', 'extended_barabasi_albert_graph', 'fast_gnp_random_graph', 'florentine_families_graph', 'frucht_graph', 'gaussian_random_partition_graph', 'general_random_intersection_graph', 'geographical_threshold_graph', 'gn_graph', 'gnc_graph', 'gnm_random_graph', 'gnp_random_graph', 'gnr_graph', 'graph', 'grid_2d_graph', 'grid_graph', 'havel_hakimi_graph', 'heawood_graph', 'hexagonal_lattice_graph', 'hoffman_singleton_graph', 'house_graph', 'house_x_graph', 'hypercube_graph', 'icosahedral_graph', 'induced_subgraph', 'is_directed_acyclic_graph', 'jit_graph', 'joint_degree_graph', 'json_graph', 'k_random_intersection_graph', 'karate_club_graph', 'kl_connected_subgraph', 'krackhardt_kite_graph', 'ladder_graph', 'line_graph', 'lollipop_graph', 'make_max_clique_graph', 'make_small_graph', 'margulis_gabber_galil_graph', 'moebius_kantor_graph', 'multidigraph', 'multigraph', 'navigable_small_world_graph', 'newman_watts_strogatz_graph', 'node_link_graph', 'null_graph', 'nx_agraph', 'octahedral_graph', 'pappus_graph', 'partial_duplication_graph', 'path_graph', 'petersen_graph', 'planted_partition_graph', 'powerlaw_cluster_graph', 'projected_graph', 'quotient_graph', 'random_clustered_graph', 'random_degree_sequence_graph', 'random_geometric_graph', 'random_k_out_graph', 'random_kernel_graph', 'random_partition_graph', 'random_regular_graph', 'random_shell_graph', 'relabel_gexf_graph', 'relaxed_caveman_graph', 'scale_free_graph', 'sedgewick_maze_graph', 'star_graph', 'stochastic_graph', 'subgraph', 'tetrahedral_graph', 'to_networkx_graph', 'tree_graph', 'triad_graph', 'triangular_lattice_graph', 'trivial_graph', 'truncated_cube_graph', 'truncated_tetrahedron_graph', 'turan_graph', 'tutte_graph', 'uniform_random_intersection_graph', 'watts_strogatz_graph', 'waxman_graph', 'wheel_graph', 'windmill_graph']

导入davis_southern_women_graph,并绘制各个节点的度的柱状图，代码如下：

G=nx.davis_southern_women_graph()
plt.figure(1)
a={}
a=dict(nx.degree(G))
plt.hist(a.values())

运行结果：

下面绘制带节点标签的网络图，代码如下：

plt.figure(2)
pos=nx.spring_layout(G)
nx.draw(G,node_size=9)
nx.draw_networkx_labels(G,pos)
plt.show()

运行结果：

情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
芦花鞋一四许叶晗
又是在一个寒冷的夏日里，青铜和葵花决定今天一起去卖芦花鞋，奶奶亲手给他们做了一碗热乎乎的粥对他们说:“就靠你们两挣生活费了这碗粥赶紧趁热喝了吧！”于是青铜和葵花喝完了奶奶给她们做的粥，就准备去镇上卖卢花鞋，这回青铜和葵花穿着新的芦花鞋来到了镇上。青铜这回看到了很多人都在卖，用手势表达对葵花说:“这回有好多人在抢我们生意呢！我们必须得吆喝起来。”葵花点了点头。可是谁知他们也大声的叫，卖芦花喽！卖芦花
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
一百九十四章. 自相矛盾巨木擎天
唉！就这么一夜，林子感觉就像过了很多天似的，先是回了阳间家里，遇到了那么多不可思议的事情儿。特别是小伙伴们，第二次与自己见面时，僵硬的表情和恐怖的气氛，让自己如坐针毡，打从心眼里难受！还有东子，他现在还好吗？有没有被人欺负？护城河里的小鱼小虾们，还都在吗？水不会真的干枯了吧？那对相亲相爱漂亮的太平鸟儿，还好吧！春天了，到了做窝、下蛋、喂养小鸟宝宝的时候了，希望它们都能够平安啊！虽然没有看见家人，也
UI学习——cell的复用和自定义cell Magnetic_h ui 学习
目录cell的复用手动（非注册）自动（注册）自定义cellcell的复用在iOS开发中，单元格复用是一种提高表格（UITableView）和集合视图（UICollectionView）滚动性能的技术。当一个UITableViewCell或UICollectionViewCell首次需要显示时，如果没有可复用的单元格，则视图会创建一个新的单元格。一旦这个单元格滚动出屏幕，它就不会被销毁。相反，它被添
element实现动态路由+面包屑软件技术NINI vue案例 vue.js 前端
el-breadcrumb是ElementUI组件库中的一个面包屑导航组件，它用于显示当前页面的路径，帮助用户快速理解和导航到应用的各个部分。在Vue.js项目中，如果你已经安装了ElementUI，就可以很方便地使用el-breadcrumb组件。以下是一个基本的使用示例：安装ElementUI（如果你还没有安装的话）:你可以通过npm或yarn来安装ElementUI。bash复制代码npmi
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
谢谢你们，爱你们！鹿游儿
昨天家人去泡温泉，二个孩子也带着去，出发前一晚，匆匆下班，赶回家和孩子一起收拾。饭后，我拿出笔和本子（上次去澳门时做手帐的本子）写下了1\2\3\4\5\6\7\8\9,让后让小壹去思考，带什么出发去旅游呢？她在对应的数字旁边画上了，泳衣、泳圈、肖恩、内衣内裤、tapuy、拖鞋……画完后，就让她自己对着这个本子，将要带的，一一带上，没想到这次带的书还是这本《便便工厂》(晚上姑婆发照片过来，妹妹累得
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
消息中间件有哪些常见类型 xmh-sxh-1314 java
消息中间件根据其设计理念和用途，可以大致分为以下几种常见类型：点对点消息队列（Point-to-PointMessagingQueues）：在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。队列中的消息只能被一个消费者消费，消费后即被删除。常见的实现包括IBM的MQSeries、RabbitMQ的部分使用场景等。适用于任务分发、负载均衡等场景。发布/订阅消息模型（Pub/Sub
ArcGIS栅格计算器常见公式（赋值、0和空值的转换、补充栅格空值）研学随笔 arcgis 经验分享
我们在使用ArcGIS时通常经常用到栅格计算器，今天主要给大家介绍我日常中经常用到的几个公式，供大家参考学习。将特定值（-9999）赋值为0，例如-9999.Con("raster"==-9999,0,"raster")2.给空值赋予特定的值（如0）Con(IsNull("raster"),0,"raster")3.将特定的栅格值(如1)赋值为空值，其他保留原值SetNull("raster"==
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
回溯 Leetcode 332 重新安排行程 mmaerd Leetcode刷题学习记录 leetcode 算法职场和发展
重新安排行程Leetcode332学习记录自代码随想录给你一份航线列表tickets，其中tickets[i]=[fromi,toi]表示飞机出发和降落的机场地点。请你对该行程进行重新规划排序。所有这些机票都属于一个从JFK（肯尼迪国际机场）出发的先生，所以该行程必须从JFK开始。如果存在多种有效的行程，请你按字典排序返回最小的行程组合。例如，行程[“JFK”,“LGA”]与[“JFK”,“LGB
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

python数据分析(分析文本数据和社交媒体）

1、安装NLTK

2、滤除停用词、姓名和数字

3、词袋模型

4、词频分析

5、朴素贝页斯分类

6、情感分析

7、创建词云

8、社交网络分析

你可能感兴趣的:(python数据分析(分析文本数据和社交媒体）)