ZhuNian的学习乐园

数据挖掘实战（6）：实战篇

博客内容是书籍： 《Python数据分析与挖掘实战》 的阅读笔记。
内容分为三个部分：
　　　　第一部分：第13章：财政收入影响因素分析及预测模型 的内容；
　　　　第二部分：第14章：基于基站定位数据的商圈分析 的内容；
　　　　第三部分：第15章：电商产品评论数据情感分析 的内容；

课件 PDF 和源码移步到Github ： https://github.com/Stormzudi/Python-Data-Mining
邮箱：[email protected]

简单说下：博客的内容是按照原书的结构整理的，也算是读书笔记。
编译器：Pycharm

- 第一部分：
- - 整理思维导图
  - 1. 背景与挖掘目标
  - 2. 分析方法与过程
  - - 2.1 数据抽取
    - 2.2 数据探索分析
    - 2.3 模型构建
  - 3. 小结
- 第二部分：
- - 整理思维导图
  - 1. 背景与挖掘目标
  - 2. 分析方法与过程
  - - 2.1 数据抽取
    - 2.2 数据探索分析
    - 2.3 数据预处理
    - 2.4 模型构建
  - 3. 小结
- 第三部分：
- - 整理思维导图
  - 1. 背景与挖掘目标
  - 2. 分析方法与过程
  - - 2.1 数据抽取
    - 2.2 数据预处理
    - 2.3 模型构建
  - 3. 小结

第一部分：

整理思维导图

在学习过程中，按照自己理解的重点将本章分成四个部分：挖掘目标、模型、建模步骤。
其中，在学习这章中，有两个地方值得我们学习，如果遇到了类似的问题，可以运用本章中解题思路进行研究。

（1）描述性统计、相关系数分析
（2）Adaptive-Lasso选择模型、GM灰色预测、BP神经网络

1. 背景与挖掘目标

背景：

在我国现行的分税制财政管理体制下，地方财政收入不仅是国家财政收入的重要组成部分，还具有其相对独立的构成内容。如何有效地利用地方财政收人，合理地分配来促进地方的发展，提高市民的收人和生活质量是每个地方政府需要考虑的首要问题。因此，对地方财政收人进行预测，不但是必要的，而且是可能的。科学、合理地预测地方财政收入，对于克服年度地方预算收支规模的随意性和盲目性，正确处理地方财政与经济的相互关系具有十分重要的意义。

挖掘目标：

1. 梳理影响地方财政收入的关键特征，分析、识别影响地方财政收入的关键特征的选择模型。
2. 在结合目标 (1) 的因素分析，对某市2015年的财政总收入及各个类别收入进行预测。

2. 分析方法与过程

在文章的开头，介绍了时间序列的分析过程中常用的模型有：多元线性回归模型，再运用最小二乘估计方法来估计回归模型的系数，通过系数能否通过检验来检验它们之间的关系，可以发现这样的结果对数据的依赖程度很大，

于是，提出了用Lasso方法来解决过拟合的问题，在正规方程后面加上第一范数的惩罚项，通过最小二乘法来求解（也可以使用梯度下降法来求解）。

文章又提到了运用新的改进的方法：Adaptive-Lasso方法，不同的是给不同的系数加上了不同的权重。

接下来就是灰色预测模型GM(1,1)。
重点在于构造了一阶微分方程，和求解。
这个模型之前用MATLAB有些过，附上它的代码。

灰色系统GM（1，1） ： https://wenku.baidu.com/view/ba8816adf71fb7360b4c2e3f5727a5e9856a27f6.html

clear all
clc
load AA
x0=AA';
x1=cumsum(x0); %求一次累加序列
n=length(x0);
z=0.5*(x1(2:n)+x1(1:(n-1))); %求x1的均值生成序列
B=[-z',ones(29,1)];
Y=x0(2:end)';
ab_hat=B\Y;
a=ab_hat(1,1);
b=ab_hat(2,1);
% x=dsolve('Dx+a*x=b*x^2','x(0)=x0');%求常微分;
x=dsolve('Dx+a*x=b','x(0)=x0');%求常微分
x=simplify(x);%对符号解进行简化；
x=subs(x,{'a','b','x0'},{ab_hat(1),ab_hat(2),x0(1)});%带入参数值
x=vpa(x,6);%显示六位数
 
yuce=subs(x,'t',[0:n]);  % 预测0~30号
yuce=double(yuce);  % 将数据转化成整数型类型

% 求解已知数据的预测值
x0_hat = [yuce(1),diff(yuce)]' 
x0_hat=double(x0_hat); 
% 得到第31号的预测值
yuce_31 = x0_hat(n+1)
x0_hat = x0_hat(1:n)

epsilon=AA-x0_hat; %求残差
delta=abs(epsilon./AA); %求相对误差
A=[x0',x0_hat,epsilon,delta]

运用Python，编写后封装成函数后，附上它的代码。

def GM11(x0): #自定义灰色预测函数
  import numpy as np
  x1 = x0.cumsum() #1-AGO序列
  z1 = (x1[:len(x1)-1] + x1[1:])/2.0  # 紧邻均值（MEAN）生成序列
  z1 = z1.reshape((len(z1),1))
  B = np.append(-z1, np.ones_like(z1), axis = 1)
  Yn = x0[1:].reshape((len(x0)-1, 1))
  [[a],[b]] = np.dot(np.dot(np.linalg.inv(np.dot(B.T, B)), B.T), Yn)  # 计算参数
  f = lambda k: (x0[0]-b/a)*np.exp(-a*(k-1))-(x0[0]-b/a)*np.exp(-a*(k-2))  # 还原值
  delta = np.abs(x0 - np.array([f(i) for i in range(1,len(x0)+1)]))
  C = delta.std()/x0.std()
  P = 1.0*(np.abs(delta - delta.mean()) < 0.6745*x0.std()).sum()/len(x0)
  return f, a, b, x0[0], C, P  # 返回灰色预测函数、a、b、首项、方差比、小残差概率

2.1 数据抽取

选取了时间序列为1994至2013年的数据。需要预测的是后两年的数据。在本次数据挖掘案例中，预测模型流程如下：

1）从某市统计局网站以及各统计年鉴搜集到该市财政收入以及各类别收入相关数据。
2）利用步骤1）形成的已完成数据预处理的建模数据，建立Adaptive-Lasso变量选择模型。
3）在步骤2）的基础上建立单变量的灰色预测模型以及人工神经网络预测模型。
4）利用步骤3）的预测值代人构建好的人工神经网络模型中，从而得到2014/2015年某市财政收入以及各类别收入的预测值。

2.2 数据探索分析

在数据探索分析阶段，对影响财政收入的13项指标 $X_i,i=1...13$ 进行了分析，y表示财政收入。
　　　　　　　　　　　　　　　　　　　　　
这里注意的是在使用模型时，要进行标准化处理。

（1）描述分析
通过描述性统计分析，可以获得对数据的整体性认识。
可以使用专门的统计学软件进行描述性统计分析。

#-*- coding: utf-8 -*-
import numpy as np
import pandas as pd
inputfile = '../data/data1.csv'  # 输入的数据文件
data = pd.read_csv(inputfile)  # 读取数据
r = [data.min(), data.max(), data.mean(), data.std()]  # 依次计算最小值、最大值、均值、标准差
r = pd.DataFrame(r, index = ['Min', 'Max', 'Mean', 'STD']).T   # 计算相关系数矩阵
np.round(r, 2)  # 保留两位小数
print(r)

（2）相关性分析
相关性分析也是统计学分析中的很重要的组成部分，相关系数矩阵可以看出哪些指标与待预测的财政收入是相关。同时，可以得到正相关和负相关。
对于相关性不显著的情况下可以剔除掉这个属性。

原始数据求解Pearson相关系数代码：

#-*- coding: utf-8 -*-
import numpy as np
import pandas as pd
inputfile = '../data/data1.csv' #输入的数据文件
data = pd.read_csv(inputfile) #读取数据
pearson = np.round(data.corr(method = 'pearson'), 2) #计算相关系数矩阵，保留两位小数
print(pearson)

2.3 模型构建

（1）Adaptive-Lasso变量选择模型
运用这个变量选择模型可以获得各个变量的系数，可以通过系数是否为0来判断是否将这个变量剔除掉。

变量选择模型的代码：

# -*- coding: utf-8 -*-
import pandas as pd
inputfile = '../data/data1.csv'  # 输入的数据文件
data = pd.read_csv(inputfile)  # 读取数据

# 导入LassoCV算法。
from sklearn.linear_model import LassoCV
model = LassoCV()
model.fit(data.iloc[:, 0:13], data['y'])
result = model.coef_  # 各个特征的系数
print(result)

这里说明下，目前Adaptive-Lasso方法已经被弃用了，于是改用LassoCV算法，但是效果是一样的。
最后的到进行建模的属性有： $X_1$ 、 $X_2$ 、 $X_3$ 、 $X_4$ 、 $X_5$ 、 $X_7$ 六个属性。

（2）财政收入预测模型
在这部分的内容中，第一步是需要通过建立灰色预测模型来获得，六个属性在2014年的预测值，并评价这个预测值的精确度。

建立灰色预测模型，代码如下：

#-*- coding: utf-8 -*-
import numpy as np
import pandas as pd
from GM11 import GM11 #引入自己编写的灰色预测函数

inputfile = '../data/data1.csv' #输入的数据文件
outputfile = '../tmp/data1_GM11.xls' #灰色预测后保存的路径
data = pd.read_csv(inputfile) #读取数据
data.index = range(1994, 2014)

data.loc[2014] = None
data.loc[2015] = None
l = ['x1', 'x2', 'x3', 'x4', 'x5', 'x7']

for i in l:
  f, a, b, x0, C, P = GM11(data[i][0:20].values)
  data[i][2014] = f(len(data)-1)  # 2014年预测结果
  data[i][2015] = f(len(data))  # 2015年预测结果
  data[i] = data[i].round(2)  # 保留两位小数

# data[l+['y']].to_excel(outputfile) #结果输出

得到了各个属性在2014年的预测值后，接下来就是建立神经网络模型来得到财政收入y的预测值。

建立神经网络模型，代码如下：

#-*- coding: utf-8 -*-
import pandas as pd
inputfile = '../tmp/data1_GM11.xls' #灰色预测后保存的路径
outputfile = '../data/revenue.xls' #神经网络预测后保存的结果
modelfile = '../tmp/1-net.model' #模型保存路径
data = pd.read_excel(inputfile) #读取数据
feature = ['x1', 'x2', 'x3', 'x4', 'x5', 'x7'] #特征所在列

data_train = data[0:20].copy() #取2014年前的数据建模
data_mean = data_train.mean()
data_std = data_train.std()
data_train = (data_train - data_mean)/data_std #数据标准化
x_train = data_train[feature].values #特征数据
y_train = data_train['y'].values #标签数据



from keras.models import Sequential
from keras.layers.core import Dense, Dropout, Activation

model = Sequential() #建立模型
model.add(Dense(output_dim=12, input_dim=6))  # 添加输入层6、隐藏层12的连接
model.add(Activation('relu')) #用relu函数作为激活函数，能够大幅提供准确度
model.add(Dense(output_dim=1, input_dim=12))  # 添加隐藏层12、输出层1的连接
model.compile(loss='mean_squared_error', optimizer='adam') #编译模型
model.fit(x_train, y_train, nb_epoch = 10000, batch_size = 16) #训练模型，学习一万次
model.save_weights(modelfile) #保存模型参数

#预测，并还原结果。
x = ((data[feature] - data_mean[feature])/data_std[feature]).values
data[u'y_pred'] = model.predict(x) * data_std['y'] + data_mean['y']
data.to_excel(outputfile)

import matplotlib.pyplot as plt #画出预测结果图
p = data[['y','y_pred']].plot(subplots = True, style=['b-o','r-*'])
plt.show()

通过代码可以得到图片：

同时通过训练得到预测的财政收入，见表格如下。

3. 小结

本章结合某市地方财政收入以及各类别收入分析和预测的案例，重点介绍了数据挖掘算法中Adaptive-Lasso方法和神经网络算法在实际案例中的应用。重点研究影响某市地方财政收入的关键因素，并在这些关键影响因素的基础上采用神经网络算法对2014、2015年的财政收入进行预测。

第二部分：

整理思维导图

（1）属性规约
（2）层次聚类算法

1. 背景与挖掘目标

背景：

随着个人手机终端的普及，出行群体中手机拥有率和使用率已达到相当高的比例，手机移动网络也基本实现了城乡空间区域的全覆盖。根据手机信号在真实地理空间上的覆盖情况，将手机用户时间序列的手机定位数据，映射至现实的地理空间位置，即可完整、客观地还原出手机用户的现实活动轨迹，从而挖掘得到人口空间分布与活动联系的特征信息。移动通信网络的信号覆盖逻辑上被设计成由若干六边形的基站小区相互邻接而构成的蜂窝网络面状服务区，如图14-1所示，手机终端总是与其中某一个基站小区保持联系，移动通信网络的控制中心会定期或不定期地主动或被动地记录每个手机终端时间序列的基站小区编号信息。

商圈是现代市场中企业市场活动的空间，最初是站在商品和服务提供者的产地角度提出来的，后来逐渐扩展到商圈，同时也是商品和服务享用者的区域。商圈划分的目的之一是为了研究潜在的顾客的分布以制定适宜的商业对策。

挖掘目标：

1. 对用户的历史定位数据，采用数据挖掘技术，对基站进行分群。
2. 对不同的商圈分群进行特征分析，比较不同商圈类别的价值，选择合适的区域进行运营商的促销活动。

2. 分析方法与过程

基于移动基站定位数据的商圈分析的主要步骤：

1）从移动通信运营商提供的特定接口上解析、处理、并滤除用户属性后得到用户定位数据。
2）以单个用户为例，进行数据探索分析，研究在不同基站的停留时间，并进一步地进行预处理，包括数据规约和数据变换。
3）利用步骤2）形成的已完成数据预处理的建模数据，基于基站覆盖范围区域的人流特征进行商圈聚类，对各个商圈分群进行特征分析，选择合适的区域进行运营商的促销活动。

2.1 数据抽取

从移动通信运营商提供的特定接口上解析、处理、并滤除用户属性后得到位置数据以2014-1-1为开始时间，2014-6-30为结束时间作为分析的观测窗口，抽取观测窗口内某市某区域的定位数据形成建模数据，部分数据见表14-1。
　　　　　　　　　　　　　　　　　　　　　

2.2 数据探索分析

在数据抽取后，可以去分析单个用户“55555”在2014年1月1日一天内的运用范围，该用户在某个时间点所处的位置可以通过基站编号来定位。
　　　　　　　　　　　　　　　　　　　　　
可以发现在00:31:48 ~ 00:53:46时间段上，用户在36908基站位置上。在00:53:46 ~ 02:13:46时间段上，用户在36902基站位置范围内。等等，可以出一天的时间坐标轴如下。

2.3 数据预处理

（1）数据规约
原始数据的属性较多，但网络类型、LOC编号和信令类型这3个属性对于挖掘目标没有用处，故剔除这3个冗余的属性。而衡量用户的停留时间，并不需要精确到毫秒级，故可把毫秒这一属性删除。

在计算用户的停留时间时，只计算两条记录的时间差，为了减少数据维度，把年、月和日合并记为日期，时、分和秒合并记为时间，得到表14-4。

（2）数据变换

挖掘的目标是寻找出高价值的商圈，需要根据用户的定位数据提取出衡量基站覆盖范围区域的人流特征，如人均停留时间和人流量等，高价值的商圈具有人流量大，人均停留时间长的特点，但是在写字楼工作的上班族在白天所处的基站范围基本固定，停留时间也相对较长，晚上的住宅区的居民所处的基站范围基本固定，停留时间也相对较长，仅通过停留时间作为人流特征难以区分高价值商圈和写字楼与住宅区，所以提取出来的人流特征必须能较为明显地区别这些基站范围。

下面设计工作日上班时间人均停留时间、凌晨人均停留时间、周末人均停留时间、日均人流量作为基站覆盖范围区域的人流特征。

工作日上班时间人均停留时间是所有用户在工作日上班时间处在该基站范围内的平均时间，居民一般的上班工作时间是在9:00～18:00，所以工作日上班时间人均停留时间是计算所有用户在工作日9:00～18:00处在该基站范围内的平均时间。

凌晨人均停留时间是指所有用户在00:00～07:00处在该基站范围内的平均时间，一般居民在00:00～07:00都是在住处休息，利用这个指标则可以表征出住宅区基站的人流特征。

周末人均停留时间是指所有用户周末处在该基站范围内的平均时间，高价值商圈在周末的逛街人数和时间都会大幅增加，利用这个指标则可以表征出高价值商圈的人流特征。

日均人流量指平均每天曾经在该基站范围内的人数，日均人流量大说明经过该基站区域的人数多，利用这个指标则可以表征出高价值商圈的人流特征.

在之前分析的是用户“5555”的一天的活动情况，这里需要统计N个基站下，M个用户，在观察窗口期间（L天）之内的各个指标的数据。

由于各个属性之间的差异较大，为了消除数量级数据带来的影响，在进行聚类前，需要进行离差标准化处理，离差标准化处理的Python代码如下代码。

#-*- coding: utf-8 -*-
#数据标准化到[0,1]
import pandas as pd

#参数初始化
filename = '../data/business_circle.xls' #原始数据文件
standardizedfile = '../tmp/standardized.xls' #标准化后数据保存路径

data = pd.read_excel(filename, index_col = u'基站编号') #读取数据
data = (data - data.min())/(data.max() - data.min()) #离差标准化
data = data.reset_index()

data.to_excel(standardizedfile, index = False) #保存结果

标准化后的数据见下表。

2.4 模型构建

（1）构建商圈聚类模型
数据经过预处理过后，形成建模数据。采用层次聚类算法对建模数据进行基于基站数据的商圈聚类，画出谱系聚类图。
代码如下：

#-*- coding: utf-8 -*-
#谱系聚类图
import pandas as pd

#参数初始化
standardizedfile = '../data/standardized.xls' #标准化后的数据文件
data = pd.read_excel(standardizedfile, index_col = u'基站编号') #读取数据

import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import linkage,dendrogram
#这里使用scipy的层次聚类函数

Z = linkage(data, method = 'ward', metric = 'euclidean') #谱系聚类图
P = dendrogram(Z, 0) #画谱系聚类图
plt.show()

可以得到的谱系聚类图
　　　　　　　　　　　　　　　　　　　　　

从上图可以看出，可把聚类类别数取3类，Python代码中取聚类类别数为k=3，输出结果typeindex为每个样本对应的类别号。
层次聚类算法如下：

#-*- coding: utf-8 -*-
#层次聚类算法
import pandas as pd

#参数初始化
standardizedfile = '../data/standardized.xls' #标准化后的数据文件
k = 3 #聚类数
data = pd.read_excel(standardizedfile, index_col = u'基站编号') #读取数据

from sklearn.cluster import AgglomerativeClustering #导入sklearn的层次聚类函数
model = AgglomerativeClustering(n_clusters = k, linkage = 'ward')
model.fit(data) #训练模型

#详细输出原始数据及其类别
r = pd.concat([data, pd.Series(model.labels_, index = data.index)], axis = 1)  #详细输出每个样本对应的类别
r.columns = list(data.columns) + [u'聚类类别'] #重命名表头

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False #用来正常显示负号

style = ['ro-', 'go-', 'bo-']
xlabels = [u'工作日人均停留时间', u'凌晨人均停留时间', u'周末人均停留时间', u'日均人流量']
pic_output = '../tmp/type_' #聚类图文件名前缀

for i in range(k): #逐一作图，作出不同样式
  plt.figure()
  tmp = r[r[u'聚类类别'] == i].iloc[:,:4] #提取每一类
  for j in range(len(tmp)):
    plt.plot(range(1, 5), tmp.iloc[j], style[i])
  
  plt.xticks(range(1, 5), xlabels, rotation = 20) #坐标标签
  plt.title(u'商圈类别%s' %(i+1)) #我们计数习惯从1开始
  plt.subplots_adjust(bottom=0.15) #调整底部
  plt.savefig(u'%s%s.png' %(pic_output, i+1)) #保存图片
  plt.show()

（2）模型分析
针对聚类结果按不同类别画出4个特征的折线图，如图所示。

对于商圈类别1，日均人流量较大，同时工作日上班时间人均停留时间、凌晨人均停留时间和周末人均停留时间相对较短，该类别基站覆盖的区域类似于商业区。
　　　　　　　　　　　　　　　　　　　　　
对于商圈类别2，凌晨人均停留时间和周末人均停留时间相对较长，而工作日上班时间人均停留时间较短，日均人流量较少，该类别基站覆盖的区域类似于住宅区。

对于商圈类别3，这部分基站覆盖范围的工作日上班时间人均停留时间较长，同时凌晨人均停留时间、周末人均停留时间相对较短，该类别基站覆盖的区域类似于白领上班族的工作区域。

总的来讲，商圈类别2的人流量较少，商圈类别3的人流量一般，而且白领上班族的工作区域一般的人员流动集中在上、下班时间和午间吃饭时间，这两类商圈均不利于运营商的促销活动的开展，商圈类别1的人流量大，在这样的商业区有利于进行运营商的促销活动。

3. 小结

本章结合基于基站定位数据的商圈分析的案例，重点介绍了数据挖掘算法中层次聚类算法在实际案例中的应用。研究用户的定位数据，总结出人流特征，并采用层次聚类算法进行商圈聚类，识别出不同类别的商圈，最后选择合适的区域进行运营商的促销活动。

第三部分：

整理思维导图

（1）LDA模型
（2）运用jieba分词、机械压缩去词

1. 背景与挖掘目标

背景：

随着网上购物越来越流行，人们对于网上购物的需求变得越来越高，这让京东、淘宝等电商平台得到了很大的发展机遇。但是，这种需求也推动了更多的店商平台的崛起，引发了激烈的竞争。在这种电商平台激烈竞争的大背景下，除了提高商品质量、压低商品价格外，了解更多消费者的心声对于店商平台来说也变得越来越有必要，其中非常重要的方式就是对消费者的文本评论数据进行内在信息的数据挖掘分析。而得到的这些信息，也有利于对应商品的生产厂家自身竞争力的提升。

挖掘目标：

1. 分析某一品牌热水器的用户情感倾向。
2. 从评论文本中挖掘出该品牌热水器的优点与不足。
3. 提炼不同品牌热水器的卖点。

2. 分析方法与过程

本次建模针对京东商城上“美的”品牌的热水器的消费者的文本评论数据，在对文本进行基本的机器预处理、中文分词、停用词过滤后，通过建立包括栈式自编码深度学习、语义网络与LDA主题模型等多种数据挖掘模型，实现对文本评论数据的倾向性判断以及所隐藏的信息的挖掘并分析，以期望得到有价值的内在内容。
　　　　　　　　　　　　　　　　　　　　　

电商产品评论数据情感分析流程，主要的步骤如下：
1）利用爬虫工具——八爪鱼采集器，对京东商城进行热水器评论的数据采集。
2）对获取的数据进行基本的处理操作，包括数据预处理、中文分词、停用词过滤等操作。
3）文本评论数据经过处理后，运用多种手段对评论数据进行多方面的分析。
4）从对应结果的分析中获取文本评论数据中有价值的内容。

2.1 数据抽取

在数据抽取阶段，需要运用网页爬取的工具，选择八爪鱼采集器，抓取京东网页的数据。
最主要的是：每页评论信息。
评论汇总文件如下：

接下来就是截取评论数据，抽取代码如下：

#-*- coding: utf-8 -*-
import pandas as pd

inputfile = '../data/huizong.csv' #评论汇总文件
outputfile = '../data/meidi_jd.txt' #评论提取后保存路径
data = pd.read_csv(inputfile, encoding = 'utf-8')
data = data[[u'评论']][data[u'品牌'] == u'美的']
data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')

最后，对采集到的评论数据进行处理，得到原始文本的评论数据。

如果在运行上面的程序会报错：
UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd2 in position 0: invalid continuation byte
　　　　　　　　　　　　　　　　　　　　　
修改一处导入数据的代码为：

data = pd.read_csv(inputfile, encoding='gb18030')

2.2 数据预处理

（1）评论预处理

低甚至没有价值含量的条目，如果将这些评论数据也引入进行分词、词频统计乃至情感分析等，必然会对分析造成很大的影响，得到的结果的质量也必然是存在问题的。那么，在利用到这些文本评论数据之前就必须先进行文本预处理，把大量的此类无价值含量的评论去除。

文本评论数据的预处理主要由3个部分组成：文本去重、机械压缩去词、短句删除。

文本去重

#-*- coding: utf-8 -*-
import pandas as pd

inputfile = '../data/meidi_jd.txt' #评论文件
outputfile = '../data/meidi_jd_process_1.txt' #评论处理后保存路径
data = pd.read_csv(inputfile, encoding = 'utf-8', header = None)
l1 = len(data)
data = pd.DataFrame(data[0].unique())
l2 = len(data)
data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')
print(u'删除了%s条评论。' %(l1 - l2))

机械压缩去词

例如：
（１）可以，可以可以可以可以
　　　可以
（２）好费电好费电好费电好费电
　　　好费电

短句删除
在机械压缩去词后，会出现很多短句，例如：可以，很不错。
这样的短句在实际操作中要删除掉，一般通过机械压缩去词后得到的语料若小于等于4个国际字符，则将该语料删除。

（2）文本评论分词
这里不得不介绍一下 jieba 这个分词包，个人体验很不错，它提供分析，词性标注，支持用户词典等功能。

它可以将一段很长的话进行关键字分词，最大化获取语料所表达的关键信息。

2.3 模型构建

（1）情感倾向性模型
首次需要训练得到词向量，为了将文本情感分析转化成机器学习问题，首先要将其符号化，其中最常见的是one-hot编码，在神经网络模型中，有时语义文本使用one-hot编码时，向量维度会很大，这样操作起来运行速度会非常慢，这里就需要读者去优化分析辽。

在之前写过用户画像有运用过word2vec这个模块。
用户画像: https://blog.csdn.net/qq_41709378/article/details/107942339.

（2）基于语义网络的评论分析
这部分可以下载软件ROSTCM6进行具体分析，可以按照课本上的步骤进行一步一步分析。

在这部分主要目的是对某型号的好、差评文本数据生成的语义网络图，结合共词矩阵以及评论定向筛选回查来完成对评论的分析。

（3）基于LDA模型的主题分析
1. 删除前缀评分代码

#-*- coding: utf-8 -*-
import pandas as pd

#参数初始化
inputfile1 = '../data/meidi_jd_process_end_负面情感结果.txt'
inputfile2 = '../data/meidi_jd_process_end_正面情感结果.txt'
outputfile1 = '../data/meidi_jd_neg.txt'
outputfile2 = '../data/meidi_jd_pos.txt'

data1 = pd.read_csv(inputfile1, encoding = 'utf-8', header = None) #读入数据
data2 = pd.read_csv(inputfile2, encoding = 'utf-8', header = None)

data1 = pd.DataFrame(data1[0].str.replace('.*?\d+?\\t ', '')) #用正则表达式修改数据
data2 = pd.DataFrame(data2[0].str.replace('.*?\d+?\\t ', ''))

data1.to_csv(outputfile1, index = False, header = False, encoding = 'utf-8') #保存结果
data2.to_csv(outputfile2, index = False, header = False, encoding = 'utf-8')

2. 分词代码

#-*- coding: utf-8 -*-
import pandas as pd
import jieba #导入结巴分词，需要自行下载安装

#参数初始化
inputfile1 = '../data/meidi_jd_neg.txt'
inputfile2 = '../data/meidi_jd_pos.txt'
outputfile1 = '../data/meidi_jd_neg_cut.txt'
outputfile2 = '../data/meidi_jd_pos_cut.txt'

data1 = pd.read_csv(inputfile1, encoding = 'utf-8', header = None) #读入数据
data2 = pd.read_csv(inputfile2, encoding = 'utf-8', header = None)

mycut = lambda s: ' '.join(jieba.cut(s)) #自定义简单分词函数
data1 = data1[0].apply(mycut) #通过“广播”形式分词，加快速度。
data2 = data2[0].apply(mycut)

data1.to_csv(outputfile1, index = False, header = False, encoding = 'utf-8') #保存结果
data2.to_csv(outputfile2, index = False, header = False, encoding = 'utf-8')

接下来，在分好词的正面评价、负面评价文件以及过滤用的停用词表的基础上，使用Python的Gensim库完成LDA分析的代码。

#-*- coding: utf-8 -*-
import pandas as pd

#参数初始化
negfile = '../data/meidi_jd_neg_cut.txt'
posfile = '../data/meidi_jd_pos_cut.txt'
stoplist = '../data/stoplist.txt'

neg = pd.read_csv(negfile, encoding = 'utf-8', header = None) #读入数据
pos = pd.read_csv(posfile, encoding = 'utf-8', header = None)
stop = pd.read_csv(stoplist, encoding = 'utf-8', header = None, sep = 'tipdm')
#sep设置分割词，由于csv默认以半角逗号为分割词，而该词恰好在停用词表中，因此会导致读取出错
#所以解决办法是手动设置一个不存在的分割词，如tipdm。
stop = [' ', ''] + list(stop[0]) #Pandas自动过滤了空格符，这里手动添加

neg[1] = neg[0].apply(lambda s: s.split(' ')) #定义一个分割函数，然后用apply广播
neg[2] = neg[1].apply(lambda x: [i for i in x if i not in stop]) #逐词判断是否停用词，思路同上
pos[1] = pos[0].apply(lambda s: s.split(' '))
pos[2] = pos[1].apply(lambda x: [i for i in x if i not in stop])

from gensim import corpora, models

#负面主题分析
neg_dict = corpora.Dictionary(neg[2]) #建立词典
neg_corpus = [neg_dict.doc2bow(i) for i in neg[2]] #建立语料库
neg_lda = models.LdaModel(neg_corpus, num_topics = 3, id2word = neg_dict) #LDA模型训练
print("负面主题分析")
for i in range(3):
  print(neg_lda.print_topic(i))  # 输出每个主题

#正面主题分析
pos_dict = corpora.Dictionary(pos[2])
pos_corpus = [pos_dict.doc2bow(i) for i in pos[2]]
pos_lda = models.LdaModel(pos_corpus, num_topics = 3, id2word = pos_dict)
print("正面主题分析")
for i in range(3):
  print(neg_lda.print_topic(i))  # 输出每个主题

3. 小结

本章结合京东商城美的热水器评论的文本分析的案例，重点介绍了数据挖掘算法中文本挖掘分词算法以及LDA主题模型在实际案例中的应用。本章研究京东平台上的热水器评论问题，从分析某一热水器的用户情感倾向出发挖掘出该热水器的优点与不足，从而提升对应商品的生产厂家自身的竞争力。

你可能感兴趣的:(数据挖掘,数据挖掘,python)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
python中的深拷贝与浅拷贝 anshejd70787 python
深拷贝和浅拷贝浅拷贝的时候，修改原来的对象，浅拷贝的对象不会发生改变。1、对象的赋值对象的赋值实际上是对象之间的引用：当创建一个对象，然后将这个对象赋值给另外一个变量的时候，python并没有拷贝这个对象，而只是拷贝了这个对象的引用。当对对象做赋值或者是参数传递或者作为返回值的时候，总是传递原始对象的引用，而不是一个副本。如下所示：>>>aList=["kel","abc",123]>>>bLis
用Python实现简单的猜数字游戏程序媛了了 python 游戏 java
猜数字游戏代码：importrandomdefpythonit():a=random.randint(1,100)n=int(input("输入你猜想的数字："))whilen!=a:ifn>a:print("很遗憾，猜大了")n=int(input("请再次输入你猜想的数字："))elifna::如果玩家猜的数字n大于随机数字a，则输出"很遗憾，猜大了"，并提示玩家再次输入。elifn
用Python实现读取统计单词个数程序媛了了 python 游戏 java
完整实例代码：fromcollectionsimportCounterdefpythonit():danci={}withopen("pythonit.txt","r",encoding="utf-8")asf:foriinf:words=i.strip().split()forwordinwords:ifwordnotindanci:danci[word]=1else:danci[word]+=
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

数据挖掘实战（6）：实战篇

目录

第一部分：

整理思维导图

1. 背景与挖掘目标

2. 分析方法与过程

2.1 数据抽取

2.2 数据探索分析

2.3 模型构建

3. 小结

第二部分：

整理思维导图

1. 背景与挖掘目标

2. 分析方法与过程

2.1 数据抽取

2.2 数据探索分析

2.3 数据预处理

2.4 模型构建

3. 小结

第三部分：

整理思维导图

1. 背景与挖掘目标

2. 分析方法与过程

2.1 数据抽取

2.2 数据预处理

2.3 模型构建

3. 小结

你可能感兴趣的:(数据挖掘,数据挖掘,python)