哎呦-_-不错

数据挖掘实战—电商产品评论数据情感分析

文章目录

- 引言
- 一、评论预处理
- - 1.评论去重
  - 2.数据清洗
- 二、评论分词
- - 1.分词、词性标注、去除停用词
  - 2.提取含名词的评论
  - 3.绘制词云查看分词效果
- 三、构建模型
- - 1.评论数据情感倾向分析
  - - 1.1 匹配情感词
    - 1.2 修正情感倾向
    - 1.3 查看情感分析效果
  - 2.使用LDA主题模型进行主题分析
  - - 2.1 建立词典及语料库
    - 2.2 寻找最优主题数
    - 2.3 评价主题分析结果

案例数据及notebook提取码：1234

传送门：

数据挖掘实战—财政收入影响因素分析及预测
数据挖掘实战—航空公司客户价值分析
数据挖掘实战—商品零售购物篮分析
数据挖掘实战—基于水色图像的水质评价
数据挖掘实战—家用热水器用户行为分析与事件识别
数据挖掘实战—电商产品评论数据情感分析

引言

本文主要针对用户在电商平台上留下的评论数据，对其进行分词、词性标注和去除停用词等文本预处理。基于预处理后的数据进行情感分析，并使用LDA主题模型提取评论关键信息，以了解用户的需求、意见、购买原因及产品的优缺点等，最终提出改善产品的建议。
定义如下挖掘目标：

对京东商城中美的电热水器的评论进行情感分析
从评论文本中挖掘用户的需求、意见、购买原因及产品的优缺点
根据模型结果给出改善产品的建议

定义如下挖掘步骤：

利用Python对京东商城中美的电热水器的评论进行爬取。
利用Python爬取的京东商城中美的电热水器的评论数据，对评论文本数据进行数据清洗、分词、停用词过滤等操作。
对预处理后的数据进行情感分析，将评论文本数据按照情感倾向分为正面评论数据（好评)和负面评论数据（差评)。
分别对正、负面评论数据进行LDA 主题分析，从对应的结果分析文本评论数据中有价值的内容。

一、评论预处理

1.评论去重

由语言的特点可知，在大多数情况下，不同购买者之间的有价值的评论是不会出现完全重复的，如果不同购物者的评论完全重复，那么这些评论一般都是毫无意义的。显然这种评论中只有最早的评论才有意义(即只有第一条有作用)。有的部分评论相似程度极高，可是在某些词语的运用上存在差异。此类评论即可归为重复评论，若是删除文字相近评论，则会出现误删的情况。由于相近的评论也存在不少有用的信息，去除这类评论显然不合适。因此，为了存留更多的有用语料，本节针对完全重复的语料下手，仅删除完全重复部分，以确保保留有用的文本评论信息。

%matplotlib inline
import pandas as pd
import numpy as np
import re
import jieba.posseg as psg

# 加载评论数据
reviews = pd.read_csv('data/reviews.csv')

# 统计重复数据
reviews[['content', 'content_type']].duplicated().sum()

# 评论去重
reviews = reviews[['content', 'content_type']].drop_duplicates()
# 重置索引
reviews.reset_index(drop=True,inplace=True)

2.数据清洗

通过人工观察数据发现，评论中夹杂着许多数字与字母，对于本案例的挖掘目标而言，这类数据本身并没有实质性帮助。另外，由于该评论文本数据主要是围绕京东商城中美的电热水器进行评价的，其中“京东”“京东商城”“美的”“热水器”“电热水器"等词出现的频数很大，但是对分析目标并没有什么作用，因此可以在分词之前将这些词去除，对数据进行清洗

# 去掉评论中的数字、字母，以及“京东”“京东商城”“美的”“热水器”“电热水器"
content = reviews['content']
# 编译匹配模式
pattern = re.compile('[a-zA-Z0-9]|京东|美的|电热水器|热水器|京东商城')
# re.sub用于替换字符串中的匹配项
content = content.apply(lambda x : pattern.sub('',x))

二、评论分词

1.分词、词性标注、去除停用词

jieba的几个分词接口：cut、lcut、posseg.cut、posseg.lcut

# 自定义简单的分词函数
worker = lambda s : [[x.word,x.flag] for x in psg.cut(s)]   # 单词与词性
seg_word = content.apply(worker)

# 将词语转化为数据框形式，一列是词，一列是词语所在的句子id，最后一列是词语在该句子中的位置
 # 每一评论中词的个数
n_word = seg_word.apply(lambda x: len(x)) 
# 构造词语所在的句子id
n_content = [[x+1]*y for x,y in zip(list(seg_word.index), list(n_word))]
# 将嵌套的列表展开，作为词所在评论的id
index_content = sum(n_content, [])  

seg_word = sum(seg_word,[])
# 词
word = [x[0] for x in seg_word]
# 词性
nature = [x[1] for x in seg_word]
# content_type评论类型
content_type = [[x]*y for x,y in zip(list(reviews['content_type']),list(n_word))]
content_type = sum(content_type,[])

# 构造数据框
result = pd.DataFrame({
     'index_content': index_content,
                      'word' : word,
                      'nature': nature,
                      'content_type' : content_type})

观察nature列得，x表示标点符号
删除标点符号

# 删除标点符号
result = result[result['nature'] != 'x']

删除停用词

# 删除停用词
# 加载停用词
stop_path = open('data/stoplist.txt','r',encoding='utf-8')
stop = [x.replace('\n','') for x in stop_path.readlines()]
# 得到非停用词序列
word = list(set(word) - set(stop))
# 判断表格中的单词列是否在非停用词列中
result = result[result['word'].isin(word)]

# 构造各词在评论中的位置列
n_word = list(result.groupby(by=['index_content'])['index_content'].count())
index_word = [list(np.arange(0,x)) for x in n_word]
index_word = sum(index_word,[])
result['index_word'] = index_word
result.reset_index(drop=True,inplace=True)

2.提取含名词的评论

由于本案例的目标是对产品特征的优缺点进行分析，类似“不错，很好的产品”“很不错，继续支持”等评论虽然表达了对产品的情感倾向，但是实际上无法根据这些评论提取出哪些产品特征是用户满意的。评论中只有出现明确的名词，如机构团体及其他专有名词时，才有意义，因此需要对分词后的词语进行词性标注。之后再根据词性将含有名词类的评论提取出来。
根据得出的词性,提取评论中词性含有“n”的评论

# 提取含名词的评论的句子id
ind = result[[x == 'n' for x in result['nature']]]['index_content'].unique()
# 提取评论
result = result[result['index_content'].isin(ind)]
# 重置索引
result.reset_index(drop=True,inplace=True)

3.绘制词云查看分词效果

进行数据预处理后，可绘制词云查看分词效果，词云会将文本中出现频率较高的‘关键词”予以视觉上的突出。首先需要对词语进行词频统计，将词频按照降序排序,选择前100个词，使用wordcloud模块中的WordCloud绘制词云，查看分词效果

from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 按word分组统计数目
frequencies = result.groupby(by = ['word'])['word'].count()
# 按数目降序排序
frequencies = frequencies.sort_values(ascending = False)
# 从文件中将图像读取为数组
backgroud_Image=plt.imread('data/pl.jpg')
wordcloud = WordCloud(font_path="C:\Windows\Fonts\STZHONGS.ttf",# 这里的字体要与自己电脑中的对应
                      max_words=100,            # 选择前100词
                      background_color='white',  # 背景颜色为白色
                      mask=backgroud_Image)
my_wordcloud = wordcloud.fit_words(frequencies)
# 将数据展示到二维图像上
plt.imshow(my_wordcloud)
# 关掉x,y轴
plt.axis('off') 
plt.show()

# 将结果写出
result.to_csv("word.csv", index = False, encoding = 'utf-8')

对评论数据进行预处理后,分词效果较为符合预期。其中“安装”“师傅”“售后”“物流”“服务”等词出现频率较高,因此可以初步判断用户对产品的这几个方面比较重视。

三、构建模型

1.评论数据情感倾向分析

1.1 匹配情感词

情感倾向也称为情感极性。在某商品评论中，可以理解为用户对该商品表达自身观点所持的态度是支持、反对还是中立，即通常所指的正面情感、负面情感、中性情感。由于本案例主要是对产品的优缺点进行分析，因此只要确定用户评论信息中的情感倾向方向分析即可，不需要分析每一评论的情感程度。对评论情感倾向进行分析首先要对情感词进行匹配，主要采用词典匹配的方法，本案例使用的情感词表是2007年10月22日知网发布的“情感分析用词语集（ beta版)”,主要使用“中文正面评价”词表、“中文负面评价”“中文正面情感”“中文负面情感"词表等。将“中文正面评价”“中文正面情感”两个词表合并，并给每个词语赋予初始权重1，作为本案例的正面评论情感词表。将“中文负面评价”“中文负面情感”两个词表合并，并给每个词语赋予初始权重-1，作为本案例的负面评论情感词表。
一般基于词表的情感分析方法，分析的效果往往与情感词表内的词语有较强的相关性，如果情感词表内的词语足够全面，并且词语符合该案例场景下所表达的情感，那么情感分析的效果会更好。针对本案例场景，需要在知网提供的词表基础上进行优化.例如“好评”“超值”“差评”“五分”等词只有在网络购物评论上出现，就可以根据词语的情感倾向添加至对应的情感词表内。将“满意”“好评”“很快”“还好”“还行”“超值”“给力”“支持”“超好”“感谢”“太棒了”“厉害”“挺舒服”“辛苦”“完美”“喜欢”“值得”“省心”等词添加进正面情感词表。将“差评”“贵”“高”“漏水”等词加入负面情感词表。
读入正负面评论情感词表，正面词语赋予初始权重1，负面词语赋予初始权重-1。

# 读入评论词表
word = pd.read_csv('word.csv',header=0)
# 读入正面、负面情感评价词
pos_comment = pd.read_csv("data/正面评价词语（中文）.txt", header=None,sep="\n", 
                          encoding = 'utf-8', engine='python')
neg_comment = pd.read_csv("data/负面评价词语（中文）.txt", header=None,sep="\n", 
                          encoding = 'utf-8', engine='python')
pos_emotion = pd.read_csv("data/正面情感词语（中文）.txt", header=None,sep="\n", 
                          encoding = 'utf-8', engine='python')
neg_emotion = pd.read_csv("data/负面情感词语（中文）.txt", header=None,sep="\n", 
                          encoding = 'utf-8', engine='python')

# 合并情感词与评价词
positive = set(pos_comment.iloc[:,0])|set(pos_emotion.iloc[:,0])
negative = set(neg_comment.iloc[:,0])|set(neg_emotion.iloc[:,0])
# 正负面情感词表中相同的词语
intersection = positive & negative  
# 去掉相同的词
positive = list(positive - intersection)
negative = list(negative - intersection)

# 正面词语赋予初始权重1，负面词语赋予初始权重-1
positive = pd.DataFrame({
     "word":positive,
                         "weight":[1]*len(positive)})
negative = pd.DataFrame({
     "word":negative,
                         "weight":[-1]*len(negative)})
posneg = positive.append(negative)
# 将分词结果与正负面情感词表合并，定位情感词
data_posneg = pd.merge(left=word,right=posneg,on='word',how='left')
# 先按评论id排序，再按在评论中的位置排序
data_posneg = data_posneg.sort_values(by = ['index_content','index_word'])

1.2 修正情感倾向

情感倾向修正主要根据情感词前面两个位置的词语是否存在否定词而去判断情感值的正确与否，由于汉语中存在多重否定现象，即当否定词出现奇数次时，表示否定意思;当否定词出现偶数次时，表示肯定意思。按照汉语习惯，搜索每个情感词前两个词语,若出现奇数否定词，则调整为相反的情感极性。本案例使用的否定词表共有19个否定词，分别为:不、没、无、非、莫、弗、毋、未、否、别、六、休、不是、不能、不可、没有、不用、不要、从没、不太。读入否定词表，对情感值的方向进行修正。计算每条评论的情感得分，将评论分为正面评论和负面评论，并计算情感分析的准确率。

# 根据情感词前面两个位置的词语是否存在否定词或双层否定词对情感值进行修正
# 载入否定词表
notdict = pd.read_csv("data/not.csv")
# 处理否定修饰词
# 构造新列，作为经过否定词修正后的情感值
data_posneg['amend_weight'] = data_posneg['weight'] 
data_posneg['id'] = np.arange(0, len(data_posneg))
# 只保留有情感值的词语
only_inclination = data_posneg.dropna()  
# 修改索引
only_inclination.index = np.arange(0, len(only_inclination))

index = only_inclination['id']
for i in np.arange(0, len(only_inclination)):
    # 提取第i个情感词所在的评论
    review = data_posneg[data_posneg['index_content'] == only_inclination['index_content'][i]]  
    # 修改索引
    review.index = np.arange(0, len(review))
    # 第i个情感值在该文档的位置
    affective = only_inclination['index_word'][i]  
    if affective == 1:
        # 情感词前面的单词是否在否定词表
        ne = sum([i in notdict['term'] for i in review['word'][affective - 1]])
        if ne == 1:
            data_posneg['amend_weight'][index[i]] = -data_posneg['weight'][index[i]]          
    elif affective > 1:
        # 情感词前面两个位置的词语是否在否定词，存在一个调整成相反的情感权重，存在两个就不调整
        ne = sum([i in notdict['term'] for i in review['word'][[affective - 1, affective - 2]]])
        if ne == 1:
            data_posneg['amend_weight'][index[i]] = -data_posneg['weight'][index[i]]

# 计算每条评论的情感值
emotional_value = only_inclination.groupby(['index_content'],as_index=False)['amend_weight'].sum()
# 去除情感值为0的评论
emotional_value = emotional_value[emotional_value['amend_weight'] != 0]
emotional_value.reset_index(drop=True,inplace=True)

1.3 查看情感分析效果

提取正面评论与负面评论，然后分别绘制词云，来查看情感分析效果

# 给情感值大于0的赋予评论类型pos，小于0的赋予neg
emotional_value['a_type'] = ''
emotional_value['a_type'][emotional_value['amend_weight'] > 0] = 'pos'
emotional_value['a_type'][emotional_value['amend_weight'] < 0] = 'neg'
# 查看情感分析的结果
result = pd.merge(left=word,right=emotional_value,on='index_content',how='right')

# 去重
result = result[['index_content','content_type', 'a_type']].drop_duplicates()

# 混淆矩阵-交叉表
confusion_matrix = pd.crosstab(result['content_type'],result['a_type'],margins=True)

# 准确率
(confusion_matrix.iloc[0,0] + confusion_matrix.iloc[1,1])/confusion_matrix.iloc[2,2]

# 提取正负面评论信息
# 得到正面评论与负面评论对应的索引
ind_pos = list(emotional_value[emotional_value['a_type'] == 'pos']['index_content'])
ind_neg = list(emotional_value[emotional_value['a_type'] == 'neg']['index_content'])
# 得到正面评论与负面评论
posdata = word[[i in ind_pos for i in word['index_content']]]
negdata = word[[i in ind_neg for i in word['index_content']]]

# 绘制正面情感词云
# 正面情感词词云
freq_pos = posdata.groupby(by = ['word'])['word'].count()
freq_pos = freq_pos.sort_values(ascending = False)
backgroud_Image=plt.imread('data/pl.jpg')
wordcloud = WordCloud(font_path="C:/Windows/Fonts/STZHONGS.ttf",
                      max_words=100,
                      background_color='white',
                      mask=backgroud_Image)
pos_wordcloud = wordcloud.fit_words(freq_pos)
plt.imshow(pos_wordcloud)
plt.axis('off') 
plt.show()

由正面情感评论词云可知,“不错”“满意”“好评”等正面情感词出现的频数较高，并且没有掺杂负面情感词语，可以看出情感分析能较好地将正面情感评论抽取出来。

# 绘制负面评论词云
freq_neg = negdata.groupby(by = ['word'])['word'].count()
freq_neg = freq_neg.sort_values(ascending = False)
neg_wordcloud = wordcloud.fit_words(freq_neg)
plt.imshow(neg_wordcloud)
plt.axis('off') 
plt.show()

由负面情感评论词云可知，“贵”“垃圾”“不好”“太坑人”等负面情感词出现的频数较高，并且没有掺杂正面情感词语，可以看出情感分析能较好地将负面情感评论抽取出来。

# 将结果写出,每条评论作为一行
posdata.to_csv("posdata.csv", index = False, encoding = 'utf-8')
negdata.to_csv("negdata.csv", index = False, encoding = 'utf-8')

为了进一步查看情感分析效果，假定用户在评论时不存在“选了好评的标签，而写了差评内容”的情况，比较原评论的评论类型与情感分析得出的评论类型，绘制情感倾向分析混淆矩阵，查看词表的情感分析的准确率

通过比较原评论的评论类型与情感分析得出的评论类型，基于词表的情感分析的准确率达到了89.34%，证明通过词表的情感分析去判断某文本的情感程度是有效的。

2.使用LDA主题模型进行主题分析

2.1 建立词典及语料库

import pandas as pd
import numpy as np
import re
import itertools
import matplotlib.pyplot as plt

# 载入情感分析后的数据
posdata = pd.read_csv("../data/posdata.csv", encoding = 'utf-8')
negdata = pd.read_csv("../data/negdata.csv", encoding = 'utf-8')

from gensim import corpora, models
# 建立词典
pos_dict = corpora.Dictionary([[i] for i in posdata['word']])  # 正面
neg_dict = corpora.Dictionary([[i] for i in negdata['word']])  # 负面

# 建立语料库
pos_corpus = [pos_dict.doc2bow(j) for j in [[i] for i in posdata['word']]]  # 正面
neg_corpus = [neg_dict.doc2bow(j) for j in [[i] for i in negdata['word']]]   # 负面

2.2 寻找最优主题数

基于相似度的自适应最优LDA模型选择方法，确定主题数并进行主题分析。实验证明该方法可以在不需要人工调试主题数目的情况下，用相对少的迭代找到最优的主题结构。具体步骤如下:

取初始主题数k值，得到初始模型，计算各主题之间的相似度(平均余弦距离)
增加或减少k值,重新训练模型，再次计算各主题之间的相似度。
重复步骤2,直到得到最优k值。

利用各主题间的余弦相似度来度量主题间的相似程度。从词频入手，计算它们的相似度，用词越相似,则内容越相近。

使用LDA主题模型，找出不同主题数下的主题词，每个模型各取出若干个主题词(比如前100个)，合并成一个集合。生成任何两个主题间的词频向量，计算两个向量的余弦相似度，值越大就表示越相似;计算各个主题数的平均余弦相似度，寻找最优主题数。

def cos(vector1, vector2):
    """
    计算两个向量的余弦相似度函数
    :param vector1:
    :param vector2:
    :return: 返回两个向量的余弦相似度
    """
    dot_product = 0.0
    normA = 0.0
    normB = 0.0
    for a, b in zip(vector1, vector2):
        dot_product += a * b
        normA += a ** 2
        normB += b ** 2
    if normA == 0.0 or normB == 0.0:
        return (None)
    else:
        return (dot_product / ((normA * normB) ** 0.5))



def lda_k(x_corpus, x_dict):
    """
    主题数寻优
    :param x_corpus: 语料库
    :param x_dict: 词典
    :return:
    """
    # 初始化平均余弦相似度
    mean_similarity = []
    mean_similarity.append(1)

    # 循环生成主题并计算主题间相似度
    for i in np.arange(2, 11):
        lda = models.LdaModel(x_corpus, num_topics=i, id2word=x_dict)  # LDA模型训练
        for j in np.arange(i):
            term = lda.show_topics(num_words=50)

        # 提取各主题词
        top_word = []
        for k in np.arange(i):
            top_word.append([''.join(re.findall('"(.*)"', i)) for i in term[k][1].split('+')])  # 列出所有词

        # 构造词频向量
        word = sum(top_word, [])  # 列出所有的词
        unique_word = set(word)  # 去除重复的词

        # 构造主题词列表，行表示主题号，列表示各主题词
        mat = []
        for j in np.arange(i):
            top_w = top_word[j]
            mat.append(tuple([top_w.count(k) for k in unique_word]))

        p = list(itertools.permutations(list(np.arange(i)), 2))
        l = len(p)
        top_similarity = [0]
        for w in np.arange(l):
            vector1 = mat[p[w][0]]
            vector2 = mat[p[w][1]]
            top_similarity.append(cos(vector1, vector2))

        # 计算平均余弦相似度
        mean_similarity.append(sum(top_similarity) / l)
    return (mean_similarity)

# 计算主题平均余弦相似度
pos_k = lda_k(pos_corpus, pos_dict)
neg_k = lda_k(neg_corpus, neg_dict)        
print('正面评论主题的平均相似度',pos_k)
print('负面评论主题的平均相似度',neg_k)

# 绘制主题平均余弦相似度图形
# 解决中文显示问题
plt.rcParams['font.sans-serif']=['SimHei']
# 解决负号显示问题
plt.rcParams['axes.unicode_minus'] = False  
fig = plt.figure(figsize=(10,8))
ax1 = fig.add_subplot(211)
ax1.plot(pos_k)
ax1.set_xlabel('正面评论LDA主题数寻优',fontsize=14)

ax2 = fig.add_subplot(212)
ax2.plot(neg_k)
ax2.set_xlabel('负面评论LDA主题数寻优', fontsize=14)

正面评论主题的平均相似度 [1, 0.06, 0.0, 0.013333333333333334, 0.024, 0.013333333333333334, 0.013333333333333334, 0.02642857142857144, 0.03888888888888891, 0.0631111111111111]
负面评论主题的平均相似度 [1, 0.06, 0.0, 0.0033333333333333335, 0.0, 0.0, 0.0038095238095238095, 0.011428571428571432, 0.012777777777777784, 0.021777777777777788]

由图可知，对于正面评论数据，当主题数为2或3时，主题间的平均余弦相似度就达到了最低。因此，对正面评论数据做LDA，可以选择主题数为3;对于负面评论数据，当主题数为3时，主题间的平均余弦相似度也达到了最低。因此，对负面评论数据做LDA，也可以选择主题数为3。

2.3 评价主题分析结果

根据主题数寻优结果，使用Python的 Gensim模块对正面评论数据和负面评论数据分别构建LDA 主题模型，设置主题数为3，经过LDA主题分析后，每个主题下生成10个最有可能出现的词语以及相应的概率。

pos_lda = models.LdaModel(pos_corpus, num_topics = 3, id2word = pos_dict)  
neg_lda = models.LdaModel(neg_corpus, num_topics = 3, id2word = neg_dict)  
pos_lda.print_topics(num_words = 10)

[(0,
  '0.028*"送货" + 0.024*"服务" + 0.020*"好评" + 0.016*"太" + 0.012*"速度" + 0.011*"告诉" + 0.011*"质量" + 0.011*"活动" + 0.010*"收到" + 0.010*"服务态度"'),
 (1,
  '0.128*"安装" + 0.060*"满意" + 0.045*"师傅" + 0.027*"客服" + 0.026*"不错" + 0.016*"购物" + 0.016*"人员" + 0.011*"真心" + 0.011*"态度" + 0.010*"装"'),
 (2,
  '0.029*"值得" + 0.028*"很快" + 0.023*"东西" + 0.022*"售后" + 0.021*"差" + 0.020*"信赖" + 0.016*"电话" + 0.016*"物流" + 0.015*"真的" + 0.014*"品牌"')]

结果反映了美的电热水器正面评价文本中的潜在主题，主题1中的高频特征词,关注点主要是质量、服务态度、送货速度等，主要反映美的电热水器质量好，服务好等;主题2中的高频特征词，即关注点主要是师傅、安装等，主要反映美的电热水器的安装师傅服务好等;主题3中的高频特征词，即物流、很快等，主要反映京东美的电热水器产品物流快

neg_lda.print_topics(num_words = 10)

[(0,
  '0.032*"垃圾" + 0.031*"售后" + 0.030*"太" + 0.025*"安装费" + 0.022*"东西" + 0.019*"装" + 0.019*"小时" + 0.018*"收" + 0.018*"打电话" + 0.016*"烧水"'),
 (1,
  '0.142*"安装" + 0.034*"师傅" + 0.021*"客服" + 0.019*"收费" + 0.019*"不好" + 0.018*"贵" + 0.017*"慢" + 0.017*"太慢" + 0.014*"人员" + 0.012*"坑"'),
 (2,
  '0.026*"差" + 0.016*"加热" + 0.014*"漏水" + 0.011*"材料" + 0.009*"材料费" + 0.008*"只能" + 0.007*"做" + 0.007*"找" + 0.006*"实体店" + 0.006*"度"')]

结果反映了美的电热水器负面评价文本中的潜在主题，主题1中的高频特征词主要关注点在安装、安装费、收费这几方面，说明可能存在安装师傅收费过高等问题;主题2中的高频特征词主要与售后、服务这几方面有关，主要反映该产品售后服务差等问题;主题3中的高频特征词主要与加热功能有关，主要反映的是美的电热水器加热性能存在问题等。
综合以上对主题及其中的高频特征词的分析得出，美的电热水器有价格实惠、性价比高、外观好看、服务好等优势。相对而言，用户对美的电热水器的抱怨点主要体现在安装的费用高及售后服务差等方面。
总结
根据对京东平台上美的电热水器的用户评价情况进行LDA主题模型分析，对美的品牌提出以下两点建议:
①在保持热水器使用方便、价格实惠等优点的基础上，对热水器进行加热功能上的改进，从整体上提升热水器的质量。
②提升安装人员及客服人员的整体素质，提高服务质量，注重售后服务。建立安装费用收取的明文细则，并进行公布，以减少安装过程中乱收费的现象。适度降低安装费用和材料费用,以此在大品牌的竞争中凸显优势。

参考于《python数据分析与挖掘实战》

如果对您有帮助，麻烦点赞关注，这真的对我很重要！！！如果需要互关，请评论或者私信！

你可能感兴趣的:(#,数据挖掘项目实战,数据挖掘,LDA主题模型,情感分析模型,评论数据)

机器学习笔记 - 监督学习备忘清单坐望云起深度学习从入门到精通监督学习线性模型支持向量机生成学习集成方法
一、监督学习简介给定一组数据点关联到一组结果，我们想要构建一个分类器，学习如何从预测。1、预测类型下表总结了不同类型的预测模型：2、模型类型下表总结了不同的模型：
能源行业非结构化数据管理创新案例研究 CaritoB 非结构化数据管理非结构化数据管理
在能源行业，非结构化数据的管理正逐渐成为提升企业竞争力和运营效率的关键。从油气勘探的日志、图像到电力行业的监控视频、设备运行记录，这些非结构化数据蕴含着巨大的价值。然而，传统的数据管理方法难以应对非结构化数据的复杂性和规模。能源行业非结构化数据管理的挑战（一）数据存储与分布能源行业的非结构化数据通常分布在不同的地理位置和系统中。例如，油气田的勘探数据可能存储在野外设备中，而电力变电站的监控视频可能
非结构化数据管理中的标签体系构建方法 CaritoB 非结构化数据管理非结构化数据管理
在数字化转型的浪潮中，非结构化数据如文档、图片、音频、视频等，因其格式多样、内容丰富，成为企业数据资产的重要组成部分。然而，这些数据的管理也面临着诸多挑战，尤其是如何有效地组织和检索这些数据。一、标签体系的重要性标签体系是非结构化数据管理的核心，它通过为数据添加标签，实现数据的分类、检索和分析。一个有效的标签体系可以帮助企业快速定位所需数据，提高数据的利用效率，同时也有助于数据的安全管理和合规性控
非结构化数据中台AI大模型对接解决方案 CaritoB 非结构化数据管理人工智能机器学习大数据
引言企业数字化升级持续推进，数据要素和相应数据法律法规逐步完善，企业数据合规监管力度加大。大模型等前沿AI技术快速发展，企业利用AI推动生产力发展时也面临着数据安全和合规的挑战。例如AI智能问答应用场景中，企业敏感信息可能被无权限用户获取。此背景下，企业数据安全管理、应用、流通至关重要。非结构化数据中台为企业提供了一个安全整合、管理、分析和应用非结构化数据的解决方案，它能够快速整合、处理和分析大量
非结构化数据的“汇、存、管、用”之道探究 CaritoB 数据库大数据人工智能
摘要随着信息技术的飞速发展，非结构化数据作为数字时代的重要资产，其管理与利用成为企业与社会关注的焦点。本文系统探究了非结构化数据的“汇、存、管、用”之道，为数据的有效治理与价值挖掘提供了新视角。在汇集方面，我们深入剖析了非结构化数据的多元来源与高效采集技术，强调了数据源多样性与采集效率的重要性。存储策略方面，探讨了存储介质与格式选择对数据管理的影响，并引入了数据压缩与去重技术以优化存储效能。管理挑
企业知识图谱构建: 整合结构化与非结构化数据 CaritoB 非结构化数据管理知识图谱
随着企业数据的爆炸性增长，如何有效地整合、分析和利用这些数据成为了重要课题。企业知识图谱作为一种先进的知识管理工具，通过将不同来源的结构化和非结构化数据统一在一个语义化的框架中，能够为企业提供全局性视角，提升决策效率和创新能力。本文将探讨如何在企业中构建知识图谱，并有效整合结构化与非结构化数据，为企业提供智能化的数据支持。1.企业知识图谱的基本概念知识图谱是一种语义网络，它通过节点和边的形式，将实
如何使用Java爬虫处理API接口返回的JSON数据？小爬虫程序猿 API java json 开发语言
处理API接口返回的JSON数据是Java爬虫开发中的一个常见任务。在Java中，有多个库可以帮助我们解析JSON数据，其中最流行的是Jackson和Gson。以下是使用这两个库处理JSON数据的基本步骤和示例代码。使用Jackson处理JSONJackson是一个功能强大的JSON处理库，它不仅可以将JSON字符串解析为Java对象，还可以将Java对象转换为JSON字符串。添加Jackson依
NCU使用指南及模型性能测试（pytorch2.5.1） Jakari cuda gpu ncu python docker 深度学习 pytorch
本项目在原项目的基础上增加了NsightCompute(ncu)测试的功能，并对相关脚本功能做了一些健硕性的增强，同时，对一些框架的代码进行了更改（主要是数据集的大小和epoch等），增加模型性能测试的效率，同时完善了模型LSTM的有关功能。OverviewNsightCompute(NCU)是NVIDIA提供的GPU内核级性能分析工具，专注于CUDA程序的优化。它提供详细的计算资源、内存带宽、指
基于tensorflow使用VGG16实现猫狗识别 Jakari tensorflow python
importtensorflowastfimportnumpyasnpfromtensorflow.kerasimportlayers,models,optimizersfromtensorflow.keras.preprocessing.imageimportImageDataGenerator#定义VGG16模型classVGG16(tf.keras.Model):def__init__(se
深度学习数据集封装-----目标检测篇科研小天才深度学习目标检测人工智能
前言在上篇文章中，我们深入探讨了图像分类数据集的制作流程。图像分类作为计算机视觉领域的一个基础任务，通常被认为是最为简单直接的子任务之一。然而，当我们转向目标检测任务时，复杂度便显著提升，尤其是在标注框的处理环节。不同的模型架构往往对标注框的处理方式有着各自独特的要求。以YOLO系列为例，它自有一套成熟且高效的方法来应对这一挑战。鉴于篇幅有限，本文暂不深入展开YOLO的相关内容，感兴趣的读者可以查
微信小程序实现nfc功能（读取，写入） _lucky_boy 新手小白微信小程序 nfc标签卡前端微信小程序小程序
标签读取功能可以放到onLoad中，也可以是一个点击事件//获取NFC实例constnfc=wx.getNFCAdapter()//绑定监听NFC标签nfc.onDiscovered(res=>{//监听到数据进行返回根据返回的数据在进行处理console.log(9999,res)})//开始监听不能缺少nfc.startDiscovery({success(res){console.log(5
Python 中字符串的操作倾听醉梦语 python 学习学习方法
字符串（string）是Python中的基础数据类型之一，表示一系列有序的字符集合。它是不可变的，也就是说，一旦创建，字符串的内容就不能被修改。以下是字符串的关键知识点及相关操作总结：1.字符串的定义字符串通过单引号''或双引号""定义。my_str="myloveandmylife"2.通过下标索引访问字符串可以通过下标访问字符串中的某个字符。正索引从0开始，负索引从-1开始表示从末尾向前访问。
Langchain解锁LLM大语言模型的结构化输出能力（多种实现方案）晨欣 langchain 语言模型人工智能
在LangChain解锁LLM大语言模型的结构化输出能力：调用with_structured_output()方法这篇博客中，我们了解了格式化LLM输出内容的必要性以及如何通过调用langchain框架中提供的with_structured_output()方法对LLM输出进行格式化（三种可选方式：基于TypedDict类（类型化字典）、JSONSchema（JSON模式）和Pydantic类）。
玩转顺序表：用 C 语言实现数据的插入与删除赔罪数据结构 c语言开发语言
目录顺序表的定义插入元素删除元素查找元素主函数打印顺序表完整代码总结在这篇博客中，我们将探讨如何使用C语言实现一个简单的顺序表（也称为动态数组），并实现一些基本操作，包括插入、删除和查找元素。顺序表是一种线性数据结构，具有固定的大小，适合存储相同类型的元素。顺序表的定义首先，我们定义顺序表的结构。顺序表由一个数组和一个表示当前长度的变量组成。#defineMaxSize50//定义顺序表的最大容量
语义向量模型全解：从基础到现在的deepseek中的语义向量主流模型来自于狂人人工智能语言模型
一、语义向量模型：自然语言处理的基石语义向量模型（SemanticVectorModel）是自然语言处理（NLP）的核心技术，它将词汇、句子或文档映射为高维向量，在数学空间中量化语义信息。通过向量距离（如余弦相似度）衡量语义的相似性，支撑了搜索引擎、情感分析、机器翻译等实际应用。1.1发展简史1980s~2000s：基于统计的浅层模型，如TF-IDF（直接表征词的重要性）、LSA（通过矩阵分解降维
基于Ubuntu+vLLM+NVIDIA T4高效部署DeepSeek大模型实战指南来自于狂人 python 人工智能 pytorch 语言模型
一、前言：拥抱vLLM与T4显卡的强强联合在探索人工智能的道路上，如何高效地部署和运行大型语言模型（LLMs）一直是一个核心挑战。尤其是当我们面对资源有限的环境时，这个问题变得更加突出。原始的DeepSeek-R1-32B模型虽然强大，但在T4显卡上遭遇了显存溢出的问题，这限制了其在实际应用中的潜力。为了解决这一难题，我们转向了官方提供的优化版本——DeepSeek-R1-Distill-Qwen
Kotlin Flow常用用法 tangweiguo03051987 Kotlin语法 kotlin 前端开发语言
KotlinFlow是Kotlin编程语言中的一个强大特性，用于处理异步数据流。它是Kotlin协程库的一部分，旨在以声明式和响应式的方式处理异步数据流。Flow的设计与协程无缝集成，使得异步编程更加简单和直观。suspendfunmain(){//创建Flow的几种方法valflow=flow{emit(1)emit(2)emit(3)emit(4)emit(5)}.collect{printl
DeepSeek 提示词技巧深度解析：从原理到实践悠悠空谷1615 经验分享深度学习语言模型
深度掌握AI交互：DeepSeek提示词技巧全解析突破认知：重新理解AI对话的本质在与DeepSeek等大语言模型交互时，我们需要建立全新的对话范式。不同于人类对话的模糊性与容错性，AI对话遵循"输入决定输出"的确定性原则。统计数据显示，经过专业提示词训练的用户，其获取有效答案的成功率可提升300%以上。要实现这种质的飞跃，需要掌握以下核心认知：1.信息解码机制：AI通过token化处理理解文本，
迷你世界脚本云服数据存储接口：CloudSever 星空露珠笔记 lua 游戏数据结构
云服数据存储接口：CloudSever迷你世界更新时间:2024-04-2819:09:10具体函数名及描述如下：序号函数名函数描述1setOrderDataBykey(...)设置排行榜中指定键的数值2removeOrderDataByKey(...)删除排行榜中指定键的数值3getOrderDataByKeyEx(...)获取排行榜中指定键的数值4getOrderDataIndexValueE
Redis--单线程模型 04Koi. Redis redis 数据库缓存
目录一、引言二、Redis单线程模型三、原因四、为什么redis是单线程模型，但他的速度这么快？五、总结一、引言本篇文章就Redis为什么是单线程模型做简单介绍。二、Redis单线程模型redis只使用一个线程，处理所有的命令请求，但是不是说redis服务器内部真的就只有一个线程，其实也有多个线程，这些线程在处理网络IO。假设同时有两个客户端向redis服务器发送了命令请求，但是redis还是会将
C++对象序列化库推荐：轻松实现数据持久化到文本文件 C语言小火车 C语言编程入门 c++java 开发语言
在C++开发中，将对象持久化保存到文本文件是常见需求。本文精选了4个高效、易用的序列化库，涵盖不同场景下的文本序列化方案，助你快速实现数据存储与传输。一、Cereal（推荐指数：⭐⭐⭐⭐⭐）核心特性多格式支持：原生支持JSON、XML和二进制格式，其中JSON/XML可直接保存为可读文本文件非侵入式设计：通过添加serialize模板函数实现序列化，无需修改现有类定义轻量级：纯头文件库，无需编译即
费曼学习法12 - 告别 Excel！用 Python Pandas 开启数据分析高效之路 (Pandas 入门篇) 修昔底德 Python费曼学习法学习 excel python 人工智能 pandas
第一篇：告别Excel！用PythonPandas开启数据分析高效之路(Pandas入门篇)开篇提问：想象一下，你是一位数据侦探，手头有一堆案件线索（数据）。你的目标是从这些线索中找出真相，发现数据背后的秘密。如果你的工具箱里只有一把普通的放大镜（Excel），处理少量简单的数据还行，但面对海量复杂的数据，是不是感觉有点力不从心，效率低下？是时候升级你的装备了！PythonPandas就是你数据分
华为服务器虚拟化巡检报告,pc服务器巡检报告保贝说保华为服务器虚拟化巡检报告
pc服务器巡检报告内容精选换一换JMeter测试报告提供实时、离线两种类型的测试报告，供用户随时查看和分析测试数据。JMeter测试报告说明如表1所示。本测试报告展现了测试过程中被测系统在模拟高并发用户的响应性能，为了更好的帮助您阅读测试报告，我们提供以下信息供您参考：统计维度：本报告的RPS，响应时间、并发等统计维度均为单个线程组，如线程组中有请求多个报文，只有在多个云桌面支持多种终端登录方式(
mysql-bin.index_mysqlbin.index是什么文件张太学 mysql-bin.index
匿名用户1级2016-06-01回答今天发现/usr/local/mysql/var下很多mysql-bin.000001、mysql-bin.000002文件，GOOGLE之。。这是数据库的操作日志，例如UPDATE一个表，或者DELETE一些数据，即使该语句没有匹配的数据，这个命令也会存储到日志文件中，还包括每个语句执行的时间，也会记录进去的。这样做主要有以下两个目的：1：数据恢复如果你的数据
公共课计算机总复习核心知识点(1) 荣华富贵8 程序员的知识储备1 经验分享
信息的符号化就是数据，所以数据是信息的具体表示形式，信息是数据抽象出来的逻辑意义。信息技术是指人们获取、存储、传递、处理、开发和利用信息资源的相关技术。文化的核心是:观念和价值。计算机文化是人类文化发展的四个里程碑之一（前三个分别为：语言的产生、文字的使用与印刷术的发明）。计算机的特点1）运算速度快2）存储容量大3）通用性强4）工作自动化5）精确性高字长是计算机一次所能处理的实际位数长度，字长是衡
2025年初-值得关注的几款推理模型数据分析能量站机器学习人工智能
1Claude3.7SonnetClaude3.7Sonnet是由AI研究公司Anthropic开发的最新混合推理模型，于2025年2月24日发布。这款模型被定位为“迄今最智能的模型”，并首次引入了混合推理功能，结合了普通大型语言模型（LLM）和专门的推理模型能力。核心特点与功能混合推理模式：Claude3.7Sonnet具有标准和扩展两种思考模式。标准模式提供近乎即时的响应，适合快速交互；扩展思
Python入门实例造夢先森编程语言 python 实例 tuple 集合 set
相关基础Python数据类型：#-*-encoding:utf-8-*-#列表（list）:可修改s1=['a','s','d']s1[2]='z'prints1[2]#元组（tuple）:不可修改.tuple也是一种lists2=(1,2,3)prints2[2]#集合(set)a=set('asdfghdd')b=set('zxdfvb')printa&bprinta|bprinta-bpri
TCP三次握手四次挥手详解与相关面试题重生之我在成电转码网络网络协议 tcp/ip
一、TCP三次握手（Three-WayHandshake）目的：建立可靠的全双工通信通道，确保客户端与服务端都能正常发送和接收数据。1.1三次握手过程第一次握手（SYN）：客户端向服务端发送一个SYN（SynchronizeSequenceNumber，同步序列号）报文，请求建立连接。标志位：SYN=1，序列号Seq=x。此时，客户端进入SYN-SENT状态。第二次握手（SYN+ACK）：服务端收
【LeetCode 热题 100】160. 相交链表 | python 一只小白跳起来 leetcode leetcode 算法职场和发展 python 笔记经验分享链表
边练习边更新，加油！！！题目：160.相交链表给你两个单链表的头节点headA和headB，请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点，返回null。图示两个链表在节点c1开始相交：题目数据保证整个链式结构中不存在环。注意，函数返回结果后，链表必须保持其原始结构注意点：用集合储存，减少遍历时间和判断时间（集合里的元素只能唯一，在这里不影响）将b指针直接代入集合搜索，减少储存
DS-3KM220250226 3K引擎修复版传奇2025版完整源码搭建教程 legendji oracle 数据库 delphi 开源
DS-3KM2202502263K引擎修复版传奇2025版完整源码搭建教程本文将详细介绍如何搭建DS-3KM2202502263K引擎修复版传奇2025版，确保能顺利运行游戏。一、前期准备1.环境配置在服务器或本地电脑上安装以下必要环境：操作系统：WindowsServer2012/2016/2019或Windows10/11（建议使用64位）数据库：MicrosoftSQLServer2008及
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&