艾派森

数据挖掘实战-基于word2vec的短文本情感分析

‍♂️ 个人主页：@艾派森的个人主页

✍作者简介：Python学习者
希望大家多多支持，我们一起进步！
如果文章对你有帮助的话，
欢迎评论点赞收藏加关注+

一、实验背景

二、相关算法

2.1Word2vec

2.2支持向量机

2.3随机森林

三、实验数据

3.1 数据说明

3.2评价标准

四、实验步骤

五、实验结果与分析

5.1 SVM模型评估结果

5.2随机森林模型评估结果

六、实验总结

文末推荐与福利

源代码

一、实验背景

当前，随着社交媒体的迅猛发展，人们也越来越习惯于在论坛、博客、微博等社交网络中发表主观性的言论，用于表达自己对周围所见所闻的观点和看法，从而形成了大量带有主观情感倾向性的文本。这些海量的主观性文本对人们的行为会产生重要影响，因而人们渴望对其进行自动挖掘和处理。然而，这些文本大多表现为非结构化的或半结构化的形式，使得自动地分析和抽取其中蕴含的情感倾向性成为一项极具挑战性的课题。如果仅仅通过人工获取并分析这些评论中的情感信息，效率将会十分低下，无法满足实际的需求．自然语言处理领域存在一种可行的方法———情感分析（sentiment analysis），情感分析大致兴起于世纪年代末，在进入本世纪后，人们开始普遍认识到情感分析的巨大研究价值和潜能，经过二十年的发展，情感分析已经成为数据挖掘、机器学习、自然语言处理等领域的研究热点之一。

情感分析，又叫作观点挖掘，倾向性分析等，简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。目的是理解文本中作者对于某个实体（包括产品、服务、人、组织机构、事件、话题）的评判态度（支持或反对、喜欢或厌恶等）或情感状态（高兴、愤怒、悲伤、恐惧等）。在研究工作中，人们往往把情感分析看作是一种分类问题，并将文本的情感标签划分为两类（正倾向、负倾向）或三类（正倾向、负倾向、中立正倾向情感（是指主题中持有积极的、支持的、健康的态度和立场；负倾向情感（是指文本中持有消极的、反对的、不健康的态度和立场；中立类别（是指文本中持中立态度和立场。虽然文本情感分析的实质是分类问题，但它与传统的文本分类任务有着很大的不同。传统的文本分类通常基于文本主题（例如：体育、经济、政治等）进行分类，对文本内容的分析与理解都处于比较浅的层次。而情感分析关注的是文本内容所体现的情感、观点或态度，并非文本本身的内容。它是对传统的文本分类研究的深入和拓展，可以满足人们更深层次获取和利用信息的需求。

文本情感分析涉及到人工智能、机器学习、数据挖掘、信息抽取、信息检索、自然语言处理、计算语言学、统计学等多个研究领域，不仅需要应用这些领域的前沿技术，而且反过来又对这些技术提出了新的挑战，推动了其发展。因此，情感分析在科学研究方面具有重要意义。同时，情感分析又具有广泛的应用前景，主要包括：

1.舆情分析。舆情是指在一定社会空间内，围绕社会事件的发生、发展和变化，民众对事件和当事各方的社会政治态度，是人们对于社会中各种现象、问题所表现的信念、态度、意见和情绪等的总和。近年来，随着社交媒体的迅速发展，我们已经感受到网络舆论对于政策改革、企业重塑、经济调控等发挥的巨大影响。利用文本情感分析技术，可以实时、准确地收集、把握群众意见，使政府和商家能够及时做出相应调整。

2.市场情报。在购买商品时，消费者希望通过其他用户发表的评论来决定自己的购买意向。同时，许多商家也希望通过用户评论来及时了解产品的优缺点及用户满意度。文本情感分析技术可自动地从海量评论语料中挖掘有用信息，并对这些信息进行组织和分类，直观地展示给用户和商家。

3.其他相关系统。情感分析技术可推动其他系统的发展。例如：推荐系统中可利用情感分析技术拒绝推荐收到大量负面反馈的项目；情感分析技术有利于一些在线网站根据正、负情感信息的数量排列广告；自动问答系统中需要将主观情感型问题与客观事实型问题区别对待；自动摘要系统中需要考虑文档的多角度主观观点从而丰富摘要的信息量和多样性；人机交互系统中利用情感分析技术判断人的情绪，提高系统的智能水平。

目前，文本情感分析方法主要分为３类：基于情感词典的方法、基于传统机器学习的方法以及基于深度学习的方法．基于情感词典的方法主要依赖人工构建的情感词典，该方法实现简单，但构建情感词典困难，需要耗费大量的人力物力；基于传统机器学习的方法依赖人工设计的特征，该方法计算量小容易实现，但需要专业领域的专业人士分析并提取相关特征，且泛化能力不足；基于深度学习的方法通过构建网络模型模拟人脑神经系统对文本进行学习，自动提取特征进行文本分类。

二、相关算法

2.1Word2vec

Word2vec 是 Word Embedding 的方法之一。他是 2013 年由谷歌的 Mikolov 提出的一套新的词嵌入方法，是一种神经网络概率语言模型，可以用于计算单词的词向量。与传统的高维词向量 one-hot representation 相比，Word2vec 词向量的维度通常在 100~300 维之间，减少了计算的复杂度，也不会造成向量维数灾难。除此之外，Word2vec词向量是根据词汇所在上下文计算出的，充分捕获了上下文的语义信息，很容易通过它计算两个词汇的相似程度。

Word2vec是一个用于处理文本的双层神经网络。它的输入是文本语料，输出则是一组向量：该语料中词语的特征向量。虽然Word2vec并不是深度神经网络，但它可以将文本转换为深度神经网络能够理解的数值形式。

Word2vec的应用不止于解析自然语句。它还可以用于基因组、代码、点赞、播放列表、社交媒体图像等其他语言或符号序列，同样能够有效识别其中存在的模式。为什么呢？因为这些数据都是与词语相似的离散状态，而我们的目的只是求取这些状态之间的转移概率，即它们共同出现的可能性。所以gene2vec、like2vec和follower2vec都是可行的。Word2vec的目的和功用是在向量空间内将词的向量按相似性进行分组。它能够识别出数学上的相似性。

Word2vec能生成向量，以分布式的数值形式来表示词的上下文等特征。而这一过程无需人工干预。给出足够的数据、用法和上下文，Word2vec就能根据过去经验对词的意义进行高度准确的预测。这样的预测结果可以用于建立一个词与其他词之间的联系（例如，“男人”和“男孩”的关系与“女人”和“女孩”的关系相同），或者可以将文档聚类并按主题分类。而这些聚类结果是搜索、情感分析和推荐算法的基础，广泛应用于科研、调查取证、电子商务、客户关系管理等领域。Word2vec神经网络的输出是一个词汇表，其中每个词都有一个对应的向量，可以将这些向量输入深度学习网络，也可以只是通过查询这些向量来识别词之间的关系。Word2vec衡量词的余弦相似性，无相似性表示为90度角，而相似度为1的完全相似则表示为0度角，即完全重合。

Word2vec包含了两种训练模型，分别是CBOW（Continuous Bag-of-words Model）和 Skip_gram(Continuous Skip-gram Model)。CBOW的意思就是用上下文来预测当前词，而Skip-gram就是用当前词来预测上下文，如图所示：

优点：

（1）由于 Word2vec 会考虑上下文，跟之前的 Embedding 方法相比效果更好。

（2）比之前的 Embedding方法维度更少，所以速度更快。

（3）通用性很强，可以用在各种 NLP 任务中。

缺点：

（1）由于词和向量是一对一的关系，所以多义词的问题无法解决。

（2）Word2vec 是一种静态的方式，虽然通用性强，但是无法针对特定任务做动态优化。

2.2支持向量机

支持向量机（support vector machine），故一般简称SVM，通俗来讲，它是一种二分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区，因此支持向量机也被称为最大边缘区分类器。其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。SVM在很多诸如文本分类，图像分类，生物序列分析和生物数据挖掘，手写字符识别等领域有很多的应用。

支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面，分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。

如图所示，我们希望找到如图中粗线所示的边界函数（分类超平面），因为粗线有更大的几何间距，对于离群点有更好的兼容性，鲁棒性更好，即泛化能力更好。

优点：

(1)非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射；

(2)对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心；

(3)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。

(4)SVM 是一种有坚实理论基础的新颖的小样本学习方法。它基本上不涉及概率测度及大数定律等,因此不同于现有的统计方法。从本质上看,它避开了从归纳到演绎的传统过程,实现了高效的从训练样本到预报样本的“转导推理”,大大简化了通常的分类和回归等问题。

(5)SVM 的最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。

(6)少数支持向量决定了最终结果,这不但可以帮助我们抓住关键样本、“剔除”大量冗余样本,而且注定了该方法不但算法简单,而且具有较好的“鲁棒”性。

SVM的限制包括：

（1）SVM算法不适用于大型数据集。

（2）当数据集的噪声较大时，支持向量机不能很好地工作。

（3）如果每个数据点的实体数量超过了训练数据样本的数量，SVM将会表现不佳。

（4）由于支持向量分类器通过在分类超平面的上方和下方放置数据点来工作，因此没有概率解释。

2.3随机森林

随机森林（Random Forest）是一种基于分类树（classification tree）的算法（Breiman，2001）。这个算法需要模拟和迭代，被归类为机器学习中的一种方法。经典的机器学习模型是神经网络（Hopfield，1982），有半个多世纪的历史了。神经网络预测精确，但是计算量很大。上世纪八十年代Breiman等人发明了分类和回归树（Classification and Regression Tree，简称CART）的算法，通过反复二分数据进行分类或回归，计算量大大降低。

2001年Breiman和Cutler借鉴贝尔实验室的Ho所提出的随机决策森林（random decision forests）的方法，把分类树组合成随机森林，即在变量（列）的使用和数据（行）的使用上进行随机化，生成很多分类树，再汇总分类树的结果。后来Breiman在机器学习杂志上发表了他和Cutler设计的随机森林的算法。这篇文章被大量引用（根据Google Scholar，该文章至2013年被引用9000多次），成为机器学习领域的一个里程碑。

随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感，结果对缺失数据和非平衡的数据比较稳健，可以很好地预测多达几千个解释变量的作用，被誉为当前最好的算法之一。在机器学习的诸多算法中，随机森林因高效而准确而备受关注，在各行各业得到越来越多的应用。

同其他模型一样，随机森林可以解释若干自变量（X1、X2、...、Xk）对因变量Y的作用。如果因变量Y有n个观测值，有k个自变量与之相关；在构建分类树的时候，随机森林会随机地在原数据中重新选择n个观测值，其中有的观测值被选择多次，有的没有被选到，这是Bootstrap重新抽样的方法。同时，随机森林随机地从k个自变量选择部分变量进行分类树节点的确定。这样，每次构建的分类树都可能不一样。一般情况下，随机森林随机地生成几百个至几千个分类树，然后选择重复程度最高的树作为最终结果。

随机森林通过产生大量的分类树，建立若干自变量X和一个因变量Y的关系。随机森林的优点是：它的学习过程很快。在处理很大的数据时，它依旧非常高效。随机森林可以处理大量的多达几千个的自变量。现有的随机森林算法评估所有变量的重要性，而不需要顾虑一般回归问题面临的多元共线性的问题。它包含估计缺失值的算法，如果有一部分的资料遗失，仍可以维持一定的准确度。随机森林中分类树的算法自然地包括了变量的交互作用（interaction），即X1的变化导致X2对Y的作用发生改变。交互作用在其他模型中（如逻辑斯蒂回归）因其复杂性经常被忽略。随机森林对离群值不敏感，在随机干扰较多的情况下表现稳健。随机森林不易产生对数据的过度拟合（overfit），然而这点尚有争议。

随机森林通过袋外误差（out-of-bag error）估计模型的误差。对于分类问题，误差是分类的错误率；对于回归问题，误差是残差的方差。随机森林的每棵分类树，都是对原始记录进行有放回的重抽样后生成的。每次重抽样大约1/3的记录没有被抽取。没有被抽取的自然形成一个对照数据集。所以随机森林不需要另外预留部分数据做交叉验证，其本身的算法类似交叉验证，而且袋外误差是对预测误差的无偏估计随机森林的缺点是它的算法倾向于观测值较多的类别（如果昆虫B的记录较多，而且昆虫A、B和C间的差距不大，预测值会倾向于B）。另外，随机森林中水平较多的分类属性的自变量（如土地利用类型 > 20个类别）比水平较少的分类属性的自变量（气候区类型<10个类别）对模型的影响大。总之，随机森林功能强大而又简单易用，相信它会对各行各业的数据分析产生积极的推动作用。

三、实验数据

3.1 数据说明

实验训练 word2vec 模型的语料爬虫采集自当当图书评论，京东商品评论，携程用户评论以及豆瓣电影评论，去重后保留 20 000 条数据，包括 10000条积极评论和10000条消极评论。为了进行实验，将积极和消极的数据集各分为两份，其中 80％作为训练集，余下20％作为测试集，数据样例如表所示。

实验数据

积极

感觉手写识别能力强26TFT屏幕效果很好，64的YMAHA声音也不错，很好听

信号好！闹铃中有一星期中具体某几日响铃，很方便了！显示屏在强光下，比以前那个明显清晰！

听音乐和相片拍摄及编辑功能非常强。

1.相片拍摄及编辑功能实为超强。2.所拍影像整体色彩以及清晰度都比较理想。

外观很独特，给人耳目一新的感觉，而且导航键很方便平常的操作。按键手感也不错。16和弦铃声效果还可以，声音也比较大。

这本书我想应该大部分人都看过，感觉挺好的

交通很方便，房间小了一点，但是干净整洁，很有香港的特色，性价比较高。

笑得开心，那就够了。

笑到不行，喜剧就要有喜剧的样子，笑中带泪很想二刷的一部电影，不错！

五星好评！必须支持！

前笑后泪，非常动人，非常真实的电影

走在去二刷的路上，能够大家一起坐下来笑笑，不容易了。

消极

机子没发现什么缺点，就是京东的服务好像不怎么的，5号就完成了付款，订单到今天才完成

很后悔买这本书，觉得并非作者自己的观点体会，而是东拼西凑来的。想吐的感觉。（心情指数为什么没“气愤”可选？）

2.现在为什么订单要等货物审核才可以支付，我要老等的。我就直接网上支付不行的。 3.电话服务老让人等的，请增加服务人数

感觉内容很虚，泛泛而谈，没有介绍的那么吸引我有点失望

质量和速度是不错啦,就是圆通快递太差啦,单上注明是本人签收的,可快递员随便一个人就给签啦,一点责任感都没有!

毫无疑问，是烂片。

故事老套，强行煽情，后边真的太拖拉了

笑料还算有点意思，但觉得价值观问题很大，直导致该片完全是无意义的扯淡

完全get不到笑点…但看的确实特烦

不喜欢就是不喜欢

3.2评价标准

本文情感分类的评价指标采用精度（Precision）、召回率（Recall）、F-score。下表是两分类分类器的混淆矩阵（Confusion Matrix），其中 TP（True Positive）表示实际为正类、预测也为正类的文本数量；FN 表示实际为正类、预测为反类的文本数量；FP 表示实际为反类、预测为正类的文本数量；TN表示实际为反类、预测也为反类的文本数量。

数据类别	预测正例	预测反例
实际正例	TP	FN
实际反例	FP	TN

四、实验步骤

1 .首先导入本次实验用到的第三方库

from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
import jieba as jb
from sklearn.externals import joblib
from sklearn.svm import SVC
from gensim.models.word2vec import Word2Vec
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics

2. 加载数据，使用jieba将数据进行分词，将正反样本拼接，然后创建全是0和全是1的向量拼接起来作为标签

#读取数据文件
neg = pd.read_excel("data/neg.xlsx", header=None)
pos = pd.read_excel("data/pos.xlsx", header=None)
# 这两类数据都是x值
neg['words'] = neg[0].apply(lambda x: jieba.lcut(x))
pos['words'] = pos[0].apply(lambda x: jieba.lcut(x))
#需要y值 0 代表neg ，1代表是pos
x = np.concatenate((pos['words'],neg['words']))
y = np.concatenate((np.ones(len(pos)),np.zeros(len(neg))))
#拆分训练集和测试集
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=3)
#保存数据
np.save("dataset/y_train.npy",y_train)
np.save("dataset/y_test.npy",y_test)

3.定义生成每一个句子vec的函数

def build_vector(text,size,w2v):
    #创建一个指定大小的数据空间
    vec = np.zeros(size).reshape((1,size))
    #count是统计有多少词向量
    count = 0
    #循环所有的词向量进行求和
    for w in text:
        try:
            vec +=  w2v[w].reshape((1,size))
            count +=1
        except:
            continue
    #循环完成后求均值
    if count!=0:
        vec/=count
    return vec

4 .计算词向量

#初始化模型和词表
w2v = Word2Vec(size=300,min_count=10)
w2v.build_vocab(x_train)
# 训练并建模
w2v.train(x_train,total_examples=w2v.corpus_count, epochs=w2v.iter)
#获取train_vecs
train_vecs = np.concatenate([ build_vector(z,300,w2v) for z in x_train])
#保存处理后的词向量
np.save('dataset/train_vecs.npy',train_vecs)
#保存模型
w2v.save("dataset/w2v_model.pkl")
w2v.train(x_test,total_examples=w2v.corpus_count, epochs=w2v.iter)
test_vecs = np.concatenate([build_vector(z,300,w2v) for z in x_test])
np.save('dataset/test_vecs.npy',test_vecs)

5.训练SVM/RF模型

#创建SVC模型/RF模型
cls = SVC(kernel="rbf",verbose=True)
cls = RandomForestClassifier()
#训练模型
cls.fit(train_vecs,y_train)
#保存模型
joblib.dump(cls,"dataset/svm_model.pkl")
joblib.dump(cls,"dataset/RF_model.pkl")

6.对训练得出的模型进行评估

y_pred = cls.predict(test_vecs)
#模型评估
print('准确率:', metrics.accuracy_score(y_test, y_pred)) #预测准确率输出
#计算宏平均、微平均、加权平均精确率输出
print('宏平均精确率:',metrics.precision_score(y_test,y_pred,average='macro')) 
print('微平均精确率:', metrics.precision_score(y_test, y_pred, average='micro')) 
print('加权平均精确率:', metrics.precision_score(y_test, y_pred, average='weighted')) 
#计算宏平均、微平均、加权平均召回率输出
print('宏平均召回率:',metrics.recall_score(y_test,y_pred,average='macro'))
print('微平均召回率:',metrics.recall_score(y_test,y_pred,average='micro'))
print('加权平均召回率:',metrics.recall_score(y_test,y_pred,average='weighted')) 
#计算宏平均、微平均、加权平均f1-score输出
print('宏平均F1-score:',metrics.f1_score(y_test,y_pred,labels=[0,1],average='macro'))
print('微平均F1-score:',metrics.f1_score(y_test,y_pred,labels=[0,1],average='micro'))
print('加权平均F1-score:',metrics.f1_score(y_test,y_pred,labels=[0,1],average='weighted')) 
print('混淆矩阵输出:\n',metrics.confusion_matrix(y_test,y_pred))#混淆矩阵输出
print('分类报告:\n', metrics.classification_report(y_test, y_pred))#分类报告

五、实验结果与分析

5.1 SVM模型评估结果

5.2随机森林模型评估结果

通过对同一评论数据集采用word2vec生成词向量，然后分别采用支持向量机和随机森林两种算法训练并建立模型，然后用测试集对两个模型进行评估。分别得出如上图所示结果。通过对两组数据进行对比，可以得出，支持向量机模型的精确率，召回率以及F1值均大于随机森林模型的评估结果。因此，可得出支持向量机训练所建立的模型取得的效果更好。

通过网络爬虫采集了电影《你好，李焕英》的豆瓣短评483条，采用支持向量机所训练得出的分类模型进行判断。部分典型结果如下表所示：

评论内容	判断结果	判断正误
“你以为自己已经很爱很爱妈妈了，妈妈却远比想象中更爱更爱你。你以为自己是在为妈妈圆梦，没成想只是她陪你做了一场好梦。”	[积极]	正确
“观众已经笑得不行了”	[消极]	错误
说实话吧，这要都算电影，电影的门槛是太低了点。	[消极]	正确
在夏洛特烦恼的穿越梗用得已经烂大街的时候，贾玲用亲情再次焕发了生机	[积极]	正确
什么电影手法，在真挚感人面前不重要	[消极]	错误
不知道有多尴尬全程尬笑	[消极]	正确
"我宝"那一句真的泪奔了，五星好评，前面笑点不尬，后面反转真的流泪了…	[消极]	错误
没有刻意的笑点，没有刻意的煽情，淳朴自然。最后的反转锦上添花！我哭的一塌糊涂好喜欢贾玲张小斐！我宝！	[消极]	错误
看懂的人是幸福的。	[积极]	正确
任何时候真心都是最打动人的。	[消极]	错误

根据上表分析，该模型对大部分评论可以很好的进行情感分类，尤其是采用了比较明显的表达积极或者消极情绪的词汇的评论，可以做到很好的分类。而对一部分评论，比如“看哭了”，“笑得不行”等出现了分类错误。另外对于一些不是很明显，偏向于中性的评论以及过长的评论，容易出现分类错误。根据分析，认为存在数据集中此类表述不够多的原因，导致模型对此类评论不能做到很准确的分类。总的来说，该模型对大部分评论能够做到较好的分类，基本上达到了实验目标。

六、实验总结

通过做本次情感分析的项目实战，学习并了解了word2vec生成词向量的相关原理，同时学习了支持向量机与随机森林算法在解决文本分类问题中的应用。虽然在通过python编程进行实现的过程中也遇到过一些困难和疑惑，最终都通过自己查阅相关资料并在老师的悉心指导下，以及和同学的交流过程中得以解决。本次项目虽然经过了不懈得努力得以完成，但仍有不足之处，在之后得学习中，我会继续学习与文本情感分析相关的算法，并将其加以应用以期更好的解决文本情感分析相关问题。

文末推荐与福利

《AI时代项目经理成长之道》与《AI时代产品经理升级之道》二选一免费包邮送出3本！

内容简介：

《AI时代项目经理成长之道》：

        本书是一本致力于揭示人工智能如何颠覆和重塑项目管理，并以ChatGPT为核心工具推动项目管理创新的实用指南。本书通过 13 章的系统探讨，带领读者踏上项目管理卓越之路。

        第 1 章人工智能颠覆与重塑项目管理，首先揭示了人工智能对项目管理的深刻影响和带来的机遇与挑战，为读者构建了认知框架。紧接着，第 2 章至第 13 章依次介绍了使用ChatGPT编写各种文档、在项目启动中的应用、帮助组建高效团队、辅助项目沟通管理、项目计划与管理、项目成本管理、项目时间管理、项目质量管理、项目风险管理、采购计划与采购流程、项目绩效管理，以及辅助进行项目总结等各方面的内容。

        本书注重理论与实践的结合，每章都以具体案例、实用技巧和最佳实践为基础，帮助读者深入了解ChatGPT的应用场景，掌握在项目管理中实际运用的方法和策略。无论您是初入职场的新手项目经理还是经验丰富的专业人士，本书都将成为您的导航指南，帮助您在人工智能时代展现卓越的项目管理和创新能力，并在日常工作中取得更加优异的成果。

购买链接：

当当网链接：http://product.dangdang.com/29621634.html

京东的链接：https://item.jd.com/14129232.html

《AI时代产品经理升级之道》：

        本书是一本面向产品经理的实用新书，分 12 章系统探讨如何用ChatGPT提升产品管理工作的效率和质量。

        第 1 章介绍了人工智能对产品管理的影响；第 2 章介绍用ChatGPT提高文档写作效率；第 3 章介绍用ChatGPT进行竞品和市场分析；第 4 章介绍用ChatGPT优化需求管理；第 5 章介绍用ChatGPT分析产品数据；第 6 章介绍用ChatGPT改进用户体验；第 7 章介绍用ChatGPT设计产品原型；第 8 章介绍用ChatGPT管理产品项目；第 9 章介绍用ChatGPT测试和控制产品质量；第 10 章介绍用ChatGPT发布和运营产品；第 11 章介绍用ChatGPT驱动产品创新；第12 章介绍用ChatGPT维护和支持产品。

        通过本书的理论和实践指导，产品经理可以在AI时代，高效利用ChatGPT全流程提升产品管理能力，从而取得更好的工作成果。本书将帮助产品经理在激烈竞争的环境中站稳脚跟，获得持续成功。

购买链接：

当当网链接：http://product.dangdang.com/29634895.html

京东的链接：https://item.jd.com/14194202.html

抽奖方式：评论区随机抽取3位小伙伴免费送出！

参与方式：关注博主、点赞、收藏、评论区评论“人生苦短，拒绝内卷！”（切记要点赞+收藏，否则抽奖无效，每个人最多评论三次！）

活动截止时间：2023-12-3 20:00:00

名单公布时间：2023-12-3 21:00:00

源代码

model-train.py

from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
import jieba as jb
from sklearn.externals import joblib
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from gensim.models.word2vec import Word2Vec
from sklearn.model_selection import cross_val_score
from sklearn import metrics

neg =pd.read_excel("dataset/800neg.xlsx",header=None,index=None)
pos =pd.read_excel("dataset/800pos.xlsx",header=None,index=None)
# 这是两类数据都是x值
pos['words'] = pos[0].apply(lambda x:list(jb.cut(x)))
neg['words'] = neg[0].apply(lambda x:list(jb.cut(x)))
#需要y值  0 代表neg 1代表是pos
y = np.concatenate((np.ones(len(pos)),np.zeros(len(neg))))
x = np.concatenate((pos['words'],neg['words']))
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=3)
#保存数据
np.save("dataset/y_train.npy",y_train)
np.save("dataset/y_test.npy",y_test)

def build_vector(text,size,w2v):
    #创建一个指定大小的数据空间
    vec = np.zeros(size).reshape((1,size))
    #count是统计有多少词向量
    count = 0
    #循环所有的词向量进行求和
    for w in text:
        try:
            vec +=  w2v[w].reshape((1,size))
            count +=1
        except:
            continue   
    #循环完成后求均值
    if count!=0:
        vec/=count
    return vec

#初始化模型和词表
w2v = Word2Vec(size=300,min_count=10)
w2v.build_vocab(x_train)
# 训练并建模
w2v.train(x_train,total_examples=w2v.corpus_count, epochs=w2v.iter)
#获取train_vecs
train_vecs = np.concatenate([ build_vector(z,300,w2v) for z in x_train])
#保存处理后的词向量
np.save('dataset/train_vecs.npy',train_vecs)
#保存模型
w2v.save("dataset/w2v_model.pkl") 
w2v.train(x_test,total_examples=w2v.corpus_count, epochs=w2v.iter)
test_vecs = np.concatenate([build_vector(z,300,w2v) for z in x_test])
np.save('dataset/test_vecs.npy',test_vecs)

#创建SVC模型
cls = SVC(kernel="rbf",verbose=True)
cls = RandomForestClassifier()
#训练模型
cls.fit(train_vecs,y_train)
#保存模型
joblib.dump(cls,"dataset/svm_model.pkl")
joblib.dump(cls,"dataset/RF_model.pkl")
y_pred = cls.predict(test_vecs)
#模型评估
print('准确率:', metrics.accuracy_score(y_test, y_pred)) #计算准确率输出
print('宏平均精确率:',metrics.precision_score(y_test,y_pred,average='macro')) #计算宏平均精确率输出
print('微平均精确率:', metrics.precision_score(y_test, y_pred, average='micro')) #计算微平均精确率输出
print('加权平均精确率:', metrics.precision_score(y_test, y_pred, average='weighted')) #计算加权平均精确率输出
print('宏平均召回率:',metrics.recall_score(y_test,y_pred,average='macro'))#计算宏平均召回率输出
print('微平均召回率:',metrics.recall_score(y_test,y_pred,average='micro'))#计算微平均召回率输出
print('加权平均召回率:',metrics.recall_score(y_test,y_pred,average='weighted'))#计算加权平均召回率输出
 print('宏平均F1-score:',metrics.f1_score(y_test,y_pred,labels=[0,1],average='macro'))#计算宏平均f1-score输出
print('微平均F1-score:',metrics.f1_score(y_test,y_pred,labels=[0,1],average='micro'))#计算微平均f1-score输出
print('加权平均F1-score:',metrics.f1_score(y_test,y_pred,labels=[0,1],average='weighted'))#计算加权平均f1-score输出
print('混淆矩阵输出:\n',metrics.confusion_matrix(y_test,y_pred))#混淆矩阵输出
print('分类报告:\n', metrics.classification_report(y_test, y_pred))#分类报告

test.py

import jieba 
import numpy as np
import pandas as pd
from gensim.models.word2vec import Word2Vec
from sklearn.externals import joblib
from sklearn.model_selection import cross_val_score
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier

model = joblib.load('dataset/svm_model.pkl')
#model = joblib.load('dataset/RF_model.pkl')

def total_vec(words):
    w2v = joblib.load('dataset/w2v_model.pkl')
    vec = np.zeros(300).reshape((1,300))
    count = 0
    for word in words:
        try:
            vec += w2v.wv[word].reshape((1,300))
            count +=1
        except KeyError:
            continue
    #循环完成后求均值
    if count!=0:
        vec/=count
    return vec
    
def svm_predict():
    #读取数据
    df = pd.read_excel("dataset/comments.xlsx")
    #读取支持向量机模型
  
    comment_sentiment = []
    for string in df['评论内容']:
        #对评论分词
        words = jieba.lcut(str(string))
        words_vec = total_vec(words)
        result = model.predict(words_vec)
        comment_sentiment.append('积极' if int(result[0]) else '消极')
        if int(result[0]) == 1:
         
            print(string,'[积极]')
        else:
    
            print(string,'[消极]')
comment_sentiment = []
svm_predict()

你可能感兴趣的:(数据分析,文本分析,python,数据挖掘,word2vec,自然语言处理,机器学习)

Python 数据分析：numpy，抽提，基本索引。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy python 数据分析 numpy 开发语言数据挖掘人工智能机器学习
目录1示例代码2欢迎纠错3免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导
Python 数据分析：pandas 的 DataFrame，抽行、抽列、抽行列。df[] / df.loc[] / df.iloc[]，位置索引 / 标签索引，切片 / 不切片好开心啊没烦恼 Python数据分析 python 数据分析 pandas 开发语言数据挖掘
目录1预备知识：Series1.1生成1.2抽提（1）单条（2）多条不连（3）多条连1.3取值2正文：DataFrame2.1生成df2.2抽提2.2.1抽列（1）单列df[]df.loc[]df.iloc[]（2）多列不连df[]df.loc[]df.iloc[]（3）多列连df[]←不存在这种抽提法！df.loc[]df.iloc[]2.2.2抽行（1）单行df[]df.loc[]df.ilo
Python 数据分析：numpy.transpose() ，转换维度。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy numpy python 开发语言数据分析数据挖掘人工智能机器学习
目录1一维数组2二维数组3三维数组4欢迎纠错5免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowch
Python 编辑器：Geany，不是内部或外部命令，系统找不到指定路径
目录1找到设置选项2开始设置2.1complie2.2execute3欢迎纠错4免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
文本生成新纪元：解锁大模型的企业级应用密码
数字化浪潮席卷各行业的当下，文本生成技术正经历着翻天覆地的变革，这场变革的幕后功臣正是大模型。今天，咱们就来深入探讨大模型在文本生成领域的奥秘，看看它如何赋能企业，又该怎样规避风险，实现价值最大化。技术跃迁：从笨拙规则到智能生成回首往昔，文本生成依靠规则模板与关键字替换，虽能实现基础自动化，却如机械舞者，动作生硬、缺乏灵动。业务稍有变动，规则需全面重构，耗时费力。随着N-gram等统计机器学习方法
【有源码】基于爬虫+python的美食数据分析与可视化flask热门美食推荐系统的设计与实现 Q2643365023 Python 大数据 python 爬虫计算机毕设选题毕业设计源码计算机毕设项目数据分析美食推荐系统
注意：该项目只展示部分功能，如需了解，文末咨询即可。本文目录1.开发环境2系统设计2.1设计背景2.2设计内容3系统展示3.1功能展示视频3.2系统页面4更多推荐5部分功能代码1.开发环境开发语言：Python采用技术：flask、爬虫数据库：MySQL开发环境：PyCharm2系统设计2.1设计背景在现代社会中，人们对美食的兴趣和需求日益增长。互联网和社交媒体的普及使得各种美食信息、评论和推荐变
【零基础学AI】第10讲：线性回归 1989 0基础学AI 人工智能线性回归算法 python 回归 numpy 开源
本节课你将学到理解线性回归的原理和应用场景掌握最小二乘法的基本思想使用Python构建房价预测模型学会评估回归模型的性能指标开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseabornnumpy前置知识第9讲：机器学习概述基本的Python和数据处理能力核心概念什么是
【零基础学AI】第9讲：机器学习概述 1989 0基础学AI 人工智能机器学习 python numpy devops 开源
本节课你将学到理解什么是机器学习，以及它与传统编程的区别掌握监督学习、无监督学习的基本概念使用scikit-learn完成你的第一个机器学习项目构建一个完整的iris花朵分类器开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseaborn前置知识基本的Python语法（
python递归实现乘法_算法-递归 weixin_39817012 python递归实现乘法
我们在前面学习过递归函数，递归函数采用的就是递归算法，前面我们通过最常见的菲波那切数列去学习了递归函数，这一节我们再来详细了解一下递归算法。1.递归算法递归算法(英语：recursionalgorithm)在计算机科学中是指一种通过重复将问题分解为同类的子问题而解决问题的方法。递归式方法可以被用于解决很多的计算机科学问题，因此它是计算机科学中十分重要的一个概念，递归算法有三个特点：1)递归的过程一
自然语言处理(NLP)中的文本生成控制技术 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据自然语言处理 easyui 人工智能 ai
自然语言处理(NLP)中的文本生成控制技术关键词：文本生成、可控生成、语言模型、Prompt工程、解码策略、条件控制、评估指标摘要：本文深入探讨自然语言处理中文本生成控制技术的最新进展。我们将从基础概念出发，系统分析各种控制方法的原理和实现，包括Prompt设计、解码策略优化、条件控制机制等核心内容。文章将结合数学模型、算法实现和实际案例，全面展示如何实现高质量、可控的文本生成，并探讨该领域面临的
算法-基础算法-枚举算法（Python）总裁余(余登武) 算法与数据结构算法 leetcode
文章目录前言解题思路题目1两数之和2计数质数前言枚举算法（EnumerationAlgorithm）：也称为穷举算法，指的是按照问题本身的性质，一一列举出该问题所有可能的解，并在逐一列举的过程中，将它们逐一与目标状态进行比较以得出满足问题要求的解。在列举的过程中，既不能遗漏也不能重复。枚举算法的核心思想是：通过列举问题的所有状态，将它们逐一与目标状态进行比较，从而得到满足条件的解。由于
NLP随机插入 Humbunklung 机器学习自然语言处理人工智能 python nlp
文章目录随机插入示例Python代码示例随机插入随机插入是一种文本数据增强方法，其核心思想是在原句中随机选择若干位置，插入与上下文相关的词语，从而生成新的训练样本。这种方法能够增加句子的多样性，提高模型对不同词序和表达方式的鲁棒性。示例原句：机器学习可以提升数据分析的效率。随机插入后（插入“显著”）：机器学习可以显著提升数据分析的效率。Python代码示例下面是一个简单的随机插入实现，假设我们有一
Python全栈数据工程师养成攻略-全部代码实战详解国营窝窝乡蛮大人
本文还有配套的精品资源，点击获取简介：本攻略提供全面资源，帮助初学者系统掌握Python全栈数据工程师的核心技能，包括数据处理、分析、数据库管理及Web开发。攻略详细指导如何使用.gitignore保持项目整洁，通过README.md文档深入了解项目内容，以及如何操作data目录中的数据集和codes目录中的Python代码，实现从数据处理到Web应用构建的全流程。学习内容涵盖数据ETL、Pand
python爬虫登录校验之滑块验证、图形验证码（OCR） yuwinter Python python 爬虫 ocr 滑块验证
在爬虫过程中，验证码和滑块验证是常见的反爬措施。针对这些挑战，通常采用OCR识别图形验证码和模拟滑块拖动来处理滑块验证。以下是如何处理这两种类型验证的详细方法。1.图形验证码（OCR）a.使用tesserocr和Pillow处理图形验证码tesserocr是基于TesseractOCR引擎的Python封装，常用来识别简单的图形验证码。如果验证码不太复杂，可以用它来识别文本。步骤：安装依赖：pip
从传统Cube到现代化指标体系：物化视图驱动的指标平台升级之路镜舟科技 StarRocks 物化视图数据架构 OLAP 数据分析数据库湖仓一体
在高并发、高吞吐量的数据分析场景下，简单的事情往往变得不那么简单。一个业务逻辑简单的指标大盘，在日常情况下可能运行良好，但一旦面临大促或年终数据汇总等高峰期，就会出现卡顿甚至崩溃的情况。为什么在这些特定场景下，原本稳定的系统会变得不稳定？这是因为传统的指标大盘解决方案在设计时，往往没有针对高并发、多维度分析和秒级刷新等特殊需求做好充分准备。一、传统数据架构在指标分析场景下的困境1.指标平台的常见诉
python + selenium通过滑块验证 weixin_51144854 python selenium 爬虫 opencv
1、介绍使用python进行自动化操作或者爬虫过程中，可能会遇到需要进行验证的情况。本文介绍了两种通过滑块验证的方法：轮廓检测通过OpenCV进行轮廓检测，找到滑块背景中缺口的位置，计算缺口到滑块的距离。模板匹配通过OpenCV分析滑块背景图与滑块的相似度，找到滑块背景图中与滑块最相似的区域就是缺口的位置，然后计算缺口到滑块的距离。2、轮廓检测测试地址：https://accounts.douba
Python爬虫实战：研究MarkupSafe库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 MarkupSafe
1.引言1.1研究背景与意义随着互联网数据量的爆炸式增长，网页内容自动提取与分析技术在信息检索、舆情监控、数据挖掘等领域的需求日益凸显。网络爬虫作为获取网页内容的核心工具，能够自动化采集互联网信息。然而，直接渲染爬取的网页内容存在安全隐患，特别是跨站脚本攻击（XSS）风险。攻击者可能通过注入恶意脚本窃取用户信息或破坏网站功能。MarkupSafe作为Python的安全字符串处理库，能够有效处理不可
Python爬虫实战：研究sanitize库相关技术 ylfhpy 爬虫项目实战 python 爬虫网络开发语言安全 sanitize
1.引言1.1研究背景与意义在当今数字化时代，互联网已成为人们获取信息、交流互动的重要平台。随着Web2.0技术的发展，用户生成内容(UGC)、社交媒体嵌入、第三方插件等功能极大丰富了网页的内容和交互性，但也带来了严峻的安全挑战。根据Web应用安全联盟(WAS)的统计数据，2025年全球范围内因网页安全漏洞导致的数据泄露事件超过15万起，造成的经济损失高达250亿美元。其中，跨站脚本攻击(XSS)
Python爬虫实战：研究xmltodict库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 xmltodict
1.引言1.1研究背景与意义气象数据在农业生产、交通规划、灾害预警等多个领域具有重要应用价值。传统的气象数据获取方式主要依赖于气象部门发布的统计信息，存在更新不及时、数据维度有限等问题。随着互联网技术的发展，气象网站提供了丰富的实时气象数据，但这些数据通常以HTML、XML等非结构化或半结构化形式存在，难以直接利用。因此，开发高效的数据采集与解析系统具有重要的现实意义。1.2国内外研究现状网络爬虫
【TVM 教程】PAPI 入门
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/性能应用程序编程接口（PerformanceApplicationProgrammingInterface，简称PAPI）是一个可在各种平台上提供性能计数器的库。在指定的运行期间，性能计数器提供处理器行为的准确底层信息，包含简单的指标，如总
Pthon httpx 使用代理下载文件（qbit）
前言技术栈Python3.11.8httpx0.28.1示例代码#encoding:utf-8#author:qbit#date:2025-06-30#summary:httpx使用代理下载文件importhttpxproxy='http://127.0.0.1:8081'defDownFile(url,file):withopen(file,'wb')asf:withhttpx.stream('
python网络安全实战_基于Python网络爬虫实战 weixin_39907850 python网络安全实战
文件的操作：一般都要使用os模块和os.path模块importos.pathos.path.exists('D:\\Python\\1.txt')#判断文件是否存在abspath(path)#返回path所在的绝对路径dirname(p)#返回目录的路径exists(path)#判断文件是否存在getatime(filename)#返回文件的最后访问时间getctime(filename)#返回
Java流式处理太阳伞下的阿呆 java 生成器迭代器 stream 流式处理
在Java中，没有直接类似Python生成器的语法，但可以通过迭代器（Iterator）和流式处理（如使用Spliterator或ReactiveStreams）来实现类似生成器的功能。此外，也可以通过BlockingQueue和线程的组合实现异步文件解压流。以下是几种实现方式：**方法1：使用****Iterator**实现一个Iterator，在每次调用next()时返回解压完成的下一个文件名
【Python系列PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘numpy’问题
【Python系列PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘numpy’问题摘要在日常Python开发过程中，pipinstall相关的问题频繁困扰着新手和老手。尤其是在PyCharm控制台下执行pipinstallnumpy后，仍然报ModuleNotFoundError:Nomodulenamed'n
【Python系列PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘flask’问题 lyzybbs 全栈Bug解决方案专栏 python pycharm pip sklearn 开发语言 flask pandas
【Python系列PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘flask’问题摘要在进行Python开发时，我们常常会遇到通过pipinstall安装依赖包时出现的各种问题。其中最常见的报错之一是ModuleNotFoundError:Nomodulenamed‘flask’。这个错误通常发生在安装Flas
MCP+A2A：从实验室到生产环境的落地之旅 CarlowZJ AI应用落地+MCP+A2A 数据库 MCP+A2A
目录摘要一、引言二、MCP与A2A概念讲解（一）MCP（ModelContextProtocol）（二）A2A（Application-to-Application）（三）MCP与A2A的融合三、MCP+A2A技术架构图与工作流程图（一）整体架构图（二）工作流程图四、MCP+A2A代码示例（一）基于Python的MCP+A2A通信示例（二）基于Java的MCP+A2A应用集成示例五、MCP+A2A
Python爬虫实战：研究difflib库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui 开发语言前端 difflib
1.引言1.1研究背景与意义在信息爆炸的数字时代，互联网每天产生海量文本内容。据统计，全球新闻网站日均发布文章超过300万篇，社交媒体平台产生的文本信息量更以亿级单位增长。这种信息过载带来了内容同质化、抄袭剽窃等问题，给新闻媒体行业、学术研究领域和搜索引擎优化等带来了挑战。文本相似度分析作为自然语言处理的重要分支，能够有效识别内容间的相似程度，具有重要的应用价值：新闻媒体行业：通过检测新闻抄袭和重
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
面向隐私保护的机器学习：联邦学习技术解析与应用 Blossom.118 机器学习与人工智能机器学习人工智能深度学习 tensorflow python 神经网络 cnn
在当今数字化时代，数据隐私和安全问题日益受到关注。随着《数据安全法》《个人信息保护法》等法律法规的实施，企业和机构在数据处理和分析过程中面临着越来越严格的合规要求。然而，机器学习模型的训练和优化往往需要大量的数据支持，这就产生了一个矛盾：如何在保护数据隐私的前提下，充分利用数据的价值进行机器学习模型的训练和优化？联邦学习（FederatedLearning）作为一种新兴的隐私保护技术，为解决这一问
JAVA基础灵静志远位运算加载 Date 字符串池覆盖
一、类的初始化顺序 1 （静态变量，静态代码块）-->（变量，初始化块）--> 构造器同一括号里的，根据它们在程序中的顺序来决定。上面所述是同一类中。如果是继承的情况，那就在父类到子类交替初始化。二、String 1 String a = "abc"; JAVA虚拟机首先在字符串池中查找是否已经存在了值为"abc"的对象，根
keepalived实现redis主从高可用 bylijinnan redis
方案说明两台机器（称为A和B），以统一的VIP对外提供服务 1.正常情况下，A和B都启动，B会把A的数据同步过来（B is slave of A） 2.当A挂了后，VIP漂移到B；B的keepalived 通知redis 执行：slaveof no one，由B提供服务 3.当A起来后，VIP不切换，仍在B上面；而A的keepalived 通知redis 执行slaveof B，开始
java文件操作大全 0624chenhong java
最近在博客园看到一篇比较全面的文件操作文章，转过来留着。 http://www.cnblogs.com/zhuocheng/archive/2011/12/12/2285290.html 转自http://blog.sina.com.cn/s/blog_4a9f789a0100ik3p.html 一.获得控制台用户输入的信息 &nbs
android学习任务不懂事的小屁孩工作
任务完成情况搞清楚带箭头的pupupwindows和不带的使用已完成熟练使用pupupwindows和alertdialog，并搞清楚两者的区别已完成熟练使用android的线程handler,并敲示例代码进行中了解游戏2048的流程，并完成其代码工作进行中-差几个actionbar 研究一下android的动画效果，写一个实例已完成复习fragem
zoom.js 换个号韩国红果果 oom
它的基于bootstrap 的 https://raw.github.com/twbs/bootstrap/master/js/transition.js transition.js模块引用顺序 <link rel="stylesheet" href="style/zoom.css"> <script src=&q
详解Oracle云操作系统Solaris 11.2 蓝儿唯美 Solaris
当Oracle发布Solaris 11时，它将自己的操作系统称为第一个面向云的操作系统。Oracle在发布Solaris 11.2时继续它以云为中心的基调。但是，这些说法没有告诉我们为什么Solaris是配得上云的。幸好，我们不需要等太久。Solaris11.2有4个重要的技术可以在一个有效的云实现中发挥重要作用：OpenStack、内核域、统一存档（UA）和弹性虚拟交换（EVS）。
spring学习——springmvc（一） a-john springMVC
Spring MVC基于模型-视图-控制器（Model-View-Controller，MVC）实现，能够帮助我们构建像Spring框架那样灵活和松耦合的Web应用程序。 1，跟踪Spring MVC的请求请求的第一站是Spring的DispatcherServlet。与大多数基于Java的Web框架一样，Spring MVC所有的请求都会通过一个前端控制器Servlet。前
hdu4342 History repeat itself-------多校联合五 aijuans 数论
水题就不多说什么了。 #include<iostream>#include<cstdlib>#include<stdio.h>#define ll __int64using namespace std;int main(){ int t; ll n; scanf("%d",&t); while(t--)
EJB和javabean的区别 asia007 bean ejb
EJB不是一般的JavaBean,EJB是企业级JavaBean,EJB一共分为3种,实体Bean,消息Bean,会话Bean,书写EJB是需要遵循一定的规范的,具体规范你可以参考相关的资料.另外,要运行EJB,你需要相应的EJB容器,比如Weblogic,Jboss等,而JavaBean不需要,只需要安装Tomcat就可以了 1.EJB用于服务端应用开发, 而JavaBeans
Struts的action和Result总结百合不是茶 struts Action配置 Result配置
一:Action的配置详解: 下面是一个Struts中一个空的Struts.xml的配置文件 <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC &quo
如何带好自已的团队 bijian1013 项目管理团队管理团队
在网上看到博客" 怎么才能让团队成员好好干活"的评论，觉得写的比较好。原文如下：我做团队管理有几年了吧，我和你分享一下我认为带好团队的几点： 1.诚信对团队内成员，无论是技术研究、交流、问题探讨，要尽可能的保持一种诚信的态度，用心去做好，你的团队会感觉得到。 2.努力提
Java代码混淆工具 sunjing ProGuard
Open Source Obfuscators ProGuard http://java-source.net/open-source/obfuscators/proguardProGuard is a free Java class file shrinker and obfuscator. It can detect and remove unused classes, fields, m
【Redis三】基于Redis sentinel的自动failover主从复制 bit1129 redis
在第二篇中使用2.8.17搭建了主从复制，但是它存在Master单点问题，为了解决这个问题，Redis从2.6开始引入sentinel，用于监控和管理Redis的主从复制环境，进行自动failover，即Master挂了后，sentinel自动从从服务器选出一个Master使主从复制集群仍然可以工作，如果Master醒来再次加入集群，只能以从服务器的形式工作。什么是Sentine
使用代理实现Hibernate Dao层自动事务白糖_ DAO spring AOP 框架 Hibernate
都说spring利用AOP实现自动事务处理机制非常好，但在只有hibernate这个框架情况下，我们开启session、管理事务就往往很麻烦。 public void save(Object obj){ Session session = this.getSession(); Transaction tran = session.beginTransaction(); try
maven3实战读书笔记 braveCS maven3
Maven简介是什么？ Is a software project management and comprehension tool.项目管理工具是基于POM概念(工程对象模型) [设计重复、编码重复、文档重复、构建重复，maven最大化消除了构建的重复] [与XP：简单、交流与反馈；测试驱动开发、十分钟构建、持续集成、富有信息的工作区] 功能：
编程之美-子数组的最大乘积 bylijinnan 编程之美
public class MaxProduct { /** * 编程之美子数组的最大乘积 * 题目: 给定一个长度为N的整数数组，只允许使用乘法，不能用除法，计算任意N-1个数的组合中乘积中最大的一组，并写出算法的时间复杂度。 * 以下程序对应书上两种方法，求得“乘积中最大的一组”的乘积——都是有溢出的可能的。 * 但按题目的意思，是要求得这个子数组，而不
读书笔记-2 chengxuyuancsdn 读书笔记
1、反射 2、oracle年-月-日时-分-秒 3、oracle创建有参、无参函数 4、oracle行转列 5、Struts2拦截器 6、Filter过滤器(web.xml) 1、反射 (1)检查类的结构在java.lang.reflect包里有3个类Field,Method,Constructor分别用于描述类的域、方法和构造器。 2、oracle年月日时分秒 s
[求学与房地产]慎重选择IT培训学校 comsci it
关于培训学校的教学和教师的问题,我们就不讨论了,我主要关心的是这个问题培训学校的教学楼和宿舍的环境和稳定性问题我们大家都知道，房子是一个比较昂贵的东西，特别是那种能够当教室的房子... &nb
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系 daizj oracle rman filesperset PARALLELISM
RMAN配置中通道(CHANNEL)相关参数 PARALLELISM 、FILESPERSET的关系转 PARALLELISM --- 我们还可以通过parallelism参数来指定同时"自动"创建多少个通道： RMAN > configure device type disk parallelism 3 ; 表示启动三个通道，可以加快备份恢复的速度。
简单排序:冒泡排序 dieslrae 冒泡排序
public void bubbleSort(int[] array){ for(int i=1;i<array.length;i++){ for(int k=0;k<array.length-i;k++){ if(array[k] > array[k+1]){
初二上学期难记单词三 dcj3sjt126com sciet
concert 音乐会 tonight 今晚 famous 有名的；著名的 song 歌曲 thousand 千 accident 事故；灾难 careless 粗心的，大意的 break 折断；断裂；破碎 heart 心（脏） happen 偶尔发生，碰巧 tourist 旅游者；观光者 science （自然）科学 marry 结婚 subject 题目；
I.安装Memcahce 1. 安装依赖包libevent Memcache需要安装libevent,所以安装前可能需要执行 Shell代码收藏代码 dcj3sjt126com redis
wget http://download.redis.io/redis-stable.tar.gz tar xvzf redis-stable.tar.gz cd redis-stable make 前面3步应该没有问题，主要的问题是执行make的时候，出现了异常。异常一： make[2]: cc: Command not found 异常原因：没有安装g
并发容器 shuizhaosi888 并发容器
通过并发容器来改善同步容器的性能，同步容器将所有对容器状态的访问都串行化，来实现线程安全，这种方式严重降低并发性，当多个线程访问时，吞吐量严重降低。并发容器ConcurrentHashMap 替代同步基于散列的Map，通过Lock控制。 &nb
Spring Security（12）——Remember-Me功能 234390216 Spring Security Remember Me 记住我
Remember-Me功能目录 1.1 概述 1.2 基于简单加密token的方法 1.3 基于持久化token的方法 1.4 Remember-Me相关接口和实现
位运算焦志广位运算
一、位运算符Ｃ语言提供了六种位运算符： & 按位与 | 按位或 ^ 按位异或 ~ 取反 << 左移 >> 右移 1. 按位与运算按位与运算符"&"是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时，结果位才为1 ，否则为0。参与运算的数以补码方式出现。例如：9&am
nodejs 数据库连接 mongodb mysql liguangsong mongodb mysql node 数据库连接
1.mysql 连接 package.json中dependencies加入 "mysql":"~2.7.0" 执行 npm install 在config 下创建文件 database.js
java动态编译 olive6615 java HotSpot jvm 动态编译
在HotSpot虚拟机中，有两个技术是至关重要的，即动态编译(Dynamic compilation)和Profiling。 HotSpot是如何动态编译Javad的bytecode呢？Java bytecode是以解释方式被load到虚拟机的。HotSpot里有一个运行监视器，即Profile Monitor,专门监视
Storm0.9.5的集群部署配置优化 roadrunners 优化 storm.yaml
nimbus结点配置（storm.yaml）信息： # Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional inf
101个MySQL 的调节和优化的提示 tomcat_oracle mysql
　1. 拥有足够的物理内存来把整个InnoDB文件加载到内存中——在内存中访问文件时的速度要比在硬盘中访问时快的多。　　2. 不惜一切代价避免使用Swap交换分区 – 交换时是从硬盘读取的，它的速度很慢。　　3. 使用电池供电的RAM（注：RAM即随机存储器）。　　4. 使用高级的RAID（注：Redundant Arrays of Inexpensive Disks，即磁盘阵列
zoj 3829 Known Notation(贪心) 阿尔萨斯 ZOJ
题目链接：zoj 3829 Known Notation 题目大意：给定一个不完整的后缀表达式，要求有2种不同操作，用尽量少的操作使得表达式完整。解题思路：贪心，数字的个数要要保证比∗的个数多1，不够的话优先补在开头是最优的。然后遍历一遍字符串，碰到数字+1，碰到∗-1,保证数字的个数大于等1，如果不够减的话，可以和最后面的一个数字交换位置（用栈维护十分方便），因为添加和交换代价都是1