Python数据挖掘：利用聚类算法进行航空公司客户价值分析

无小意丶
个人博客地址：无小意
知乎主页：无小意丶
公众号：数据路（shuju_lu）

刚刚开始写博客，希望能保持关注，会继续努力。
以数据相关为主，互联网为辅进行文章发布。

本文是《Python数据分析与挖掘实战》一书的实战部分，在整理分析后的复现。
本篇文章是本书第七章的实战：航空公司客户价值分析。
相关附件代码、数据和PDF，关注公众号“数据路”，回复：挖掘实战。
更好的观看体验，在线Jupyter notebook科赛平台，直接体验，点击这里

1.背景与挖掘目标

1.1背景

航空公司业务竞争激烈，从产品中心转化为客户中心。
针对不同类型客户，进行精准营销，实现利润最大化。
建立客户价值评估模型，进行客户分类，是解决问题的办法

1.2挖掘目标

借助航空公司客户数据，对客户进行分类。
对不同的客户类别进行特征分析，比较不同类客户的客户价值
对不同价值的客户类别提供个性化服务，制定相应的营销策略。

详情数据见数据集内容中的air_data.csv和客户信息属性说明

2.分析方法与过程

2.1分析方法

首先，明确目标是客户价值识别。
识别客户价值，应用最广泛的模型是三个指标（消费时间间隔（Recency）,消费频率（Frequency）,消费金额（Monetary））
以上指标简称RFM模型，作用是识别高价值的客户
- 消费金额，一般表示一段时间内，消费的总额。但是，因为航空票价收到距离和舱位等级的影响，同样金额对航空公司价值不同。
- 因此，需要修改指标。选定变量，舱位因素=舱位所对应的折扣系数的平均值=C，距离因素=一定时间内积累的飞行里程=M。
- 再考虑到，航空公司的会员系统，用户的入会时间长短能在一定程度上影响客户价值，所以增加指标L=入会时间长度=客户关系长度
- 总共确定了五个指标，消费时间间隔R，客户关系长度L，消费频率F，飞行里程M和折扣系数的平均值C
- 以上指标，作为航空公司识别客户价值指标，记为LRFMC模型
如果采用传统的RFM模型，如下图。它是依据，各个属性的平均值进行划分，但是，细分的客户群太多，精准营销的成本太高。
综上，这次案例，采用聚类的办法进行识别客户价值，以LRFMC模型为基础
本案例，总体流程如下图

2.2挖掘步骤

从航空公司，选择性抽取与新增数据抽取，形成历史数据和增量数据
对步骤一的两个数据，进行数据探索性分析和预处理，主要有缺失值与异常值的分析处理，属性规约、清洗和变换
利用步骤2中的已处理数据作为建模数据，基于旅客价值的LRFMC模型进行客户分群，对各个客户群再进行特征分析，识别有价值客户。
针对模型结果得到不同价值的客户，采用不同的营销手段，指定定制化的营销服务，或者针对性的优惠与关怀。（重点维护老客户）

2.3数据抽取

选取，2014-03-31为结束时间，选取宽度为两年的时间段，作为观测窗口，抽取观测窗口内所有客户的详细数据，形成历史数据
对于后续新增的客户信息，采用目前的时间作为重点，形成新增数据

2.4探索性分析

本案例的探索分析，主要对数据进行缺失值和异常值分析。
发现，存在票价为控制，折扣率为0，飞行公里数为0。票价为空值，可能是不存在飞行记录，其他空值可能是，飞机票来自于积分兑换等渠道，
查找每列属性观测值中空值的个数、最大值、最小值的代码如下。

import pandas as pd
datafile= r'/home/kesci/input/date27730/air_data.csv' #航空原始数据,第一行为属性标签
resultfile = r'/home/kesci/work/test.xls' #数据探索结果表
data = pd.read_csv(datafile, encoding = 'utf-8') #读取原始数据，指定UTF-8编码（需要用文本编辑器将数据装换为UTF-8编码）
explore = data.describe(percentiles = [], include = 'all').T #包括对数据的基本描述，percentiles参数是指定计算多少的分位数表（如1/4分位数、中位数等）；T是转置，转置后更方便查阅
print(explore)
explore['null'] = len(data)-explore['count'] #describe()函数自动计算非空值数，需要手动计算空值数
explore = explore[['null', 'max', 'min']]
explore.columns = [u'空值数', u'最大值', u'最小值'] #表头重命名
print('-----------------------------------------------------------------以下是处理后数据')
print(explore)
'''这里只选取部分探索结果。
describe()函数自动计算的字段有count（非空值数）、unique（唯一值数）、top（频数最高者）、freq（最高频数）、mean（平均值）、std（方差）、min（最小值）、50%（中位数）、max（最大值）'''

-----------------------------------------------------------------以下是处理前数据
                         count unique         top   freq      mean       std  
MEMBER_NO                62988    NaN         NaN    NaN   31494.5   18183.2   
FFP_DATE                 62988   3068  2011/01/13    184       NaN       NaN   
FIRST_FLIGHT_DATE        62988   3406  2013/02/16     96       NaN       NaN   
GENDER                   62985      2           男  48134       NaN       NaN   
FFP_TIER                 62988    NaN         NaN    NaN   4.10216  0.373856   
WORK_CITY                60719   3310          广州   9385       NaN       NaN   
WORK_PROVINCE            59740   1185          广东  17507       NaN       NaN   
WORK_COUNTRY             62962    118          CN  57748       NaN       NaN  
...

-----------------------------------------------------------------以下是处理后数据
                          空值数       最大值   最小值
MEMBER_NO                   0     62988     1
FFP_DATE                    0       NaN   NaN
FIRST_FLIGHT_DATE           0       NaN   NaN
GENDER                      3       NaN   NaN
FFP_TIER                    0         6     4
WORK_CITY                2269       NaN   NaN
WORK_PROVINCE            3248       NaN   NaN
WORK_COUNTRY               26       NaN   NaN
AGE                       420       110     6
LOAD_TIME                   0       NaN   NaN
FLIGHT_COUNT                0       213     2
BP_SUM                      0    505308     0
...

2.3数据预处理

数据清洗
- 丢弃票价为空记录
- 丢弃票价为0、平均折扣率不为0、总飞行公里数大于0的记录

import pandas as pd
datafile= '/home/kesci/input/date27730/air_data.csv' #航空原始数据,第一行为属性标签
cleanedfile = '' #数据清洗后保存的文件
data = pd.read_csv(datafile,encoding='utf-8') #读取原始数据，指定UTF-8编码（需要用文本编辑器将数据装换为UTF-8编码）
data = data[data['SUM_YR_1'].notnull() & data['SUM_YR_2'].notnull()] #票价非空值才保留
#只保留票价非零的，或者平均折扣率与总飞行公里数同时为0的记录。
index1 = data['SUM_YR_1'] != 0
index2 = data['SUM_YR_2'] != 0
index3 = (data['SEG_KM_SUM'] == 0) & (data['avg_discount'] == 0) #该规则是“与”,书上给的代码无法正常运行，修改'*'为'&'
data = data[index1 | index2 | index3] #该规则是“或”
print(data)
# data.to_excel(cleanedfile) #导出结果

————————————————————以下是处理后数据————————
       MEMBER_NO    FFP_DATE FIRST_FLIGHT_DATE GENDER  FFP_TIER  \
0          54993  2006/11/02        2008/12/24      男         6   
1          28065  2007/02/19        2007/08/03      男         6   
2          55106  2007/02/01        2007/08/30      男         6   
3          21189  2008/08/22        2008/08/23      男         5   
4          39546  2009/04/10        2009/04/15      男         6   
5          56972  2008/02/10        2009/09/29      男         6   
6          44924  2006/03/22        2006/03/29      男         6   
7          22631  2010/04/09        2010/04/09      女         6   
8          32197  2011/06/07        2011/07/01      男         5   
9          31645  2010/07/05        2010/07/05      女         6

属性规约

原始数据中属性太多，根据航空公司客户价值LRFMC模型，选择与模型相关的六个属性。
删除其他无用属性，如会员卡号等等

def reduction_data(data):
    data = data[['LOAD_TIME', 'FFP_DATE', 'LAST_TO_END', 'FLIGHT_COUNT', 'SEG_KM_SUM', 'avg_discount']]
# data['L']=pd.datetime(data['LOAD_TIME'])-pd.datetime(data['FFP_DATE'])
# data['L']=int(((parse(data['LOAD_TIME'])-parse(data['FFP_ADTE'])).days)/30)
    d_ffp = pd.to_datetime(data['FFP_DATE'])
    d_load = pd.to_datetime(data['LOAD_TIME'])
    res = d_load - d_ffp
    data2=data.copy()
    data2['L'] = res.map(lambda x: x / np.timedelta64(30 * 24 * 60, 'm'))
    data2['R'] = data['LAST_TO_END']
    data2['F'] = data['FLIGHT_COUNT']
    data2['M'] = data['SEG_KM_SUM']
    data2['C'] = data['avg_discount']
    data3 = data2[['L', 'R', 'F', 'M', 'C']]
return data3
data3=reduction_data(data)
print(data3)

————————————以下是以上代码处理后数据————————————
L    R    F       M         C
0       90.200000    1  210  580717  0.961639
1       86.566667    7  140  293678  1.252314
2       87.166667   11  135  283712  1.254676
3       68.233333   97   23  281336  1.090870
4       60.533333    5  152  309928  0.970658
5       74.700000   79   92  294585  0.967692
6       97.700000    1  101  287042  0.965347
7       48.400000    3   73  287230  0.962070
8       34.266667    6   56  321489  0.828478

数据变换

意思是，将原始数据转换成“适当”的格式，用来适应算法和分析等等的需要。
本案例，主要采用数据变换的方式为属性构造和数据标准化 3.需要构造LRFMC的五个指标
- L=LOAD_TIME-FFP_DATE(会员入会时间距观测窗口结束的月数=观测窗口的结束时间-入会时间（单位：月）)
- R=LAST_TO_END（客户最近一次乘坐公司距观测窗口结束的月数=最后一次。。。）
- F=FLIGHT_COUNT(观测窗口内的飞行次数)
- M=SEG_KM_SUM(观测窗口的总飞行里程)
- C=AVG_DISCOUNT(平均折扣率)

def zscore_data(data):
    data = (data - data.mean(axis=0)) / data.std(axis=0)
    data.columns = ['Z' + i for i in data.columns]
return data
data4 = zscore_data(data3)
data4

————————————以下是以上代码处理后数据————————————
ZL           ZR         ZF           ZM         ZC
0     1.435707    -0.944948   14.034016   26.761154   1.295540
1     1.307152    -0.911894   9.073213    13.126864   2.868176
2     1.328381    -0.889859   8.718869    12.653481   2.880950
3     0.658476    -0.416098   0.781585    12.540622   1.994714
4     0.386032    -0.922912   9.923636    13.898736   1.344335
5     0.887281    -0.515257   5.671519    13.169947   1.328291

模型构建

1.客户聚类

利用K-Means聚类算法对客户数据进行客户分群，聚成五类（根据业务理解和需要，分析与讨论后，确定客户类别数量）
代码如下

inputfile = r'/home/kesci/input/date27730/zscoreddata.xls' #待聚类的数据文件
k = 5                       #需要进行的聚类类别数
#读取数据并进行聚类分析
data = pd.read_excel(inputfile) #读取数据
#调用k-means算法，进行聚类分析
kmodel = KMeans(n_clusters = k, n_jobs = 4) #n_jobs是并行数，一般等于CPU数较好
kmodel.fit(data) #训练模型
r1 = pd.Series(kmodel.labels_).value_counts()
r2 = pd.DataFrame(kmodel.cluster_centers_)
r = pd.concat([r2, r1], axis=1)
r.columns = list(data.columns) + ['类别数目']
# print(r)
# r.to_excel(classoutfile,index=False)
r = pd.concat([data, pd.Series(kmodel.labels_, index=data.index)], axis=1)
r.columns = list(data.columns) + ['聚类类别']
print(kmodel.cluster_centers_)
print(kmodel.labels_)
r

[[-0.70078704 -0.41513666 -0.1607619  -0.16049688 -0.25665898]
[-0.31411607  1.68662534 -0.57386257 -0.53661609 -0.17243195]
[ 0.48347647 -0.79941777  2.48236495  2.42356419  0.30943042]
[ 1.16033496 -0.37744106 -0.0870043  -0.09499704 -0.15836889]
[ 0.05165705 -0.00258448 -0.23089344 -0.23513858  2.17775056]]
[3 3 3 ... 3 3 3]
ZL          ZR         ZF           ZM           ZC    聚类类别
0     1.689882    0.140299    -0.635788   0.068794    -0.337186   3
1     1.689882    -0.322442   0.852453    0.843848    -0.553613   3
2     1.681743    -0.487707   -0.210576   0.158569    -1.094680   3
3     1.534185    -0.785184   0.002030    0.273091    -1.148787   3
4     0.890167    -0.426559   -0.635788   -0.685170   1.231909    4
5     -0.232618   -0.690983   -0.635788   -0.603898   -0.391293   0
6     -0.496949   1.996225    -0.706656   -0.661752   -1.311107   1

就剩下最后一步，画图：

def density_plot(data):
    plt.rcParams['font.sans-serif']=['SimHei']
    plt.rcParams['axes.unicode_minus']=False
    p=data.plot(kind='kde',linewidth=2,subplots=True,sharex=False)
    [p[i].set_ylabel('密度') for i in range(5)]
    [p[i].set_title('客户群%d' %i) for i in range(5)]
    plt.legend()
    plt.show()
return plt
density_plot(data4)

clu = kmodel.cluster_centers_  
x = [1,2,3,4,5]  
colors = ['red','green','yellow','blue','black']  
for i in range(5):  
   plt.plot(x,clu[i],label='clustre '+str(i),linewidth=6-i,color=colors[i],marker='o')   
plt.xlabel('L  R  F  M  C')  
plt.ylabel('values')  
plt.show()

客户群1：red，客户群2：green，客户群3：yellow，客户群4：blue，客户群5：black

客户关系长度L，消费时间间隔R，消费频率F，飞行里程M，折扣系数的平均值C。
横坐标上，总共有五个节点，按顺序对应LRFMC。
对应节点上的客户群的属性值，代表该客户群的该属性的程度。

2.客户价值分析

我们重点关注的是L，F，M，从图中可以看到：
1、客户群4[blue] 的F,M很高，L也不低，可以看做是重要保持的客户；
2、客户群3[yellow] 重要发展客户
3、客户群1[red] 重要挽留客户，原因：入会时间长，但是F,M较低
4、客户群2[green] 一般客户
5、客户群5[black] 低价值客户

重要保持客户：R（最近乘坐航班）低，F（乘坐次数）、C（平均折扣率高，舱位较高）、M（里程数）高。最优先的目标，进行差异化管理，提高满意度。
重要发展客户：R低，C高，F或M较低，潜在价值客户。虽然说，当前价值不高，但是却有很大的发展潜力，促使这类客户在本公司消费和合作伙伴处消费。
重要挽留客户：C、F、M较高，但是较长时间没有乘坐（R）小。增加与这类客户的互动，了解情况，采取一定手段，延长客户生命周期。
一般与低价值客户：C、F、M、L低，R高。他们可能是在公司打折促销时才会乘坐本公司航班。

3.模型应用

会员的升级与保级（积分兑换原理相同）
会员可以分为，钻石，白金，金卡，银卡…
部分客户会因为不了解自身积分情况，错失升级机会，客户和航空公司都会有损失
在会员接近升级前，对高价值客户进行促销活动，刺激他们消费达到标准，双方获利
交叉销售
通过发行联名卡与非航空公司各做，使得企业在其他企业消费过程中获得本公司的积分，增强与本公司联系，提高忠诚度。
管理模式
企业要获得长期的丰厚利润，必须需要大量稳定的、高质量的客户。
维持老客户的成本远远低于新客户，保持优质客户是十分重要的。
精准营销中，也有成本因素，所以按照客户价值排名，进行优先的，特别的营销策略，是维持客户的关键。

4.小结

本文，结合航空公司客户价值案例的分析，重点介绍了数据挖掘算法中K-Means聚类算法的应用。针对，传统RFM模型的不足，结合案例进行改造，设定了五个指标的LRFMC模型。最后通过聚类的结果，选出客户价值排行，并且制定相应策略

数据挖掘实战-基于决策树算法构建北京市空气质量预测模型艾派森数据挖掘机器学习人工智能数据挖掘 python 决策树
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.项目简介2.1项目说明2.2数据说明2.3技术工具3.算法原理4.项目实施步骤4.1理解数据4.2数据预处理4.3探索性数据分析4.4特征工程4.5模型构建4.6模型评估5.实验总结源代码1.项目背景随着城市化进程的加速，空气质量问题日
python数据挖掘实战项目开源git_强烈推荐：8个顶级git/github项目数据分析工具 weixin_39619635
任何重要的决定都应基于数据，对于信息项目和软件开发亦是如此。如果你不仔细查看描述项目演进的数据就无法了解项目的健康状况，并给出合理的改进措施。为了分析和挖掘这些信息，我们可以从Git存储库和项目所在的代码托管平台(例如GitHub，Gitlab)获取一些有意义的数据。然而从Git/GitHub轻松获取数据实际也不是一件简单的事情。本文虫虫就给大家介绍一些Git/GitHub开源分析工具供大家学习参
数据挖掘实战-基于机器学习的电商文本分类模型艾派森数据挖掘 python 数据挖掘人工智能
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具4.实验步骤4.1数据探索4.2数据预处理4.3文本归一化4.4特征工程4.5训练模型1.项目背景随着电子商务的蓬勃发展，电商平台上产生了海量的文本数据，包括商品描述、用户评价、客服对话等。这些文本数据包含了丰富的
Python商业数据挖掘实战——爬取网页并将其转为Markdown 雪碧有白泡泡粉丝福利活动 python 数据挖掘开发语言
前言「作者主页」：雪碧有白泡泡「个人网站」：雪碧的个人网站ChatGPT体验地址文章目录前言前言正则表达式进行转换送书活动前言在信息爆炸的时代，互联网上的海量文字信息如同无尽的沙滩。然而，其中真正有价值的信息往往埋在各种网页中，需要经过筛选和整理才能被有效利用。幸运的是，Python这个强大的编程语言可以帮助我们完成这项任务。本文将介绍如何使用Python将网页文字转换为Markdown格式，这将
数据挖掘实战1：泰坦尼克号数据 bb8886 数据挖掘数据挖掘 python 人工智能
一、数据挖掘流程1.数据读取-读取数据-统计指标-数据规模2.数据探索（特征理解）-单特征的分析，诸个变量分析对结果y的影响（x,y的相关性）-多变量分析（x,y之间的相关性）-统计绘图3.数据清洗和预处理-缺失值填充-标准化、归一化-特征工程（筛选有价值的特征）-分析特征之间的相关性4.建模-特征数据的准备和标签-数据集的切分-多种模型对比：交叉验证、调参（学习曲线，网格搜索）-集成算法（提升算
企业级实战项目：基于 pycaret 自动化预测公司是否破产 Python数据挖掘机器学习数据分析及可视化数据挖掘数据分析算法 python
本文系数据挖掘实战系列文章，我跟大家分享一个数据挖掘实战，与以往的数据实战不同的是，用自动机器学习方法完成模型构建与调优部分工作，深入理解由此带来的便利与效果。1.Introduction本文是一篇数据挖掘实战案例，详细探索了从台湾经济杂志收集的1999年到2009年的数据，看看在数据探索过程中，可以洞察出哪些有用的信息，判断哪一个模型能够最准确地预测公司是否破产。公司破产的定义是根据台湾证券交易
数据挖掘实战-基于word2vec的短文本情感分析艾派森数据分析文本分析 python 数据挖掘 word2vec 自然语言处理机器学习
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录一、实验背景二、相关算法2.1Word2vec2.2支持向量机2.3随机森林三、实验数据3.1数据说明3.2评价标准四、实验步骤五、实验结果与分析5.1SVM模型评估结果5.2随机森林模型评估结果六、实验总结文末推荐与福利源代码一、实验背景当前，随着社
125在线民宿 UGC 数据挖掘实战--民宿地理位置可视化分析 Jachin111
民宿地理位置可视化分析数据准备本实验采集了民宿店家共400家，利用抽样分析的方法，将评论数高于民宿评价平均数为200条的民宿挑选出来，总共挑选出来了89家民宿作为样本。image.png使用Pandas加载抽样后的在线数据表格，并查看数据维度和第一行数据。importpandasaspddata=pd.read_csv('https://labfile.oss.aliyuncs.com/cours
数据挖掘实战：基于 Python 的个人信贷违约预测 Python数据挖掘 python 机器学习数据分析及可视化数据挖掘 python 数据分析机器学习人工智能
本次分享我们Python觅圈的一个练手实战项目：个人信贷违约预测，此项目对于想要学习信贷风控模型的同学非常有帮助。技术交流技术要学会交流、分享，不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。好的文章离不开粉丝的分享、推荐，资料干货、资料分享、数据、技术交流提升，均可加交流群获取，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。方式①、添加微信号：dk
一个企业级数据挖掘实战项目｜客户细分模型（上） weixin_38754337 聚类 python 机器学习数据分析大数据
导读：今天给大家带来了一个Python业务分析实战项目——客户细分模型的应用案例上篇，本文阐述比较详细，包括代码演示、可视化图形展示、以及文字详细分析。分析较浅，希望能够给大家带来些许帮助，欢迎交流学习！文章较长，建议收藏～本文来源：数据STUDIO作者：云朵君客户细分模型是将整体会员划分为不同的细分群体或类别，然后基于细分群体做管理、营销和关怀。客户细分模型常用于整体会员的宏观性分析以及探索性分
41丨数据挖掘实战（3）：如何对比特币走势进行预测？张九日zx
数据挖掘算法有一种叫时间序列分析的算法，时间序列分析模型建立了观察结果与时间变化的关系，能帮我们预测未来一段时间内的结果变化情况。时间序列分析和回归分析的区别：-结果与变量的关系。回归分析训练得到的是目标变量y与自变量x（一个或多个）的相关性，然后通过新的自变量x来预测目标变量y。而时间序列分析得到的是目标变量y与时间的相关性。-回归分析擅长的是多变量与目标结果之间的分析，即便是单一变量，也往往与
数据挖掘实战（七）--使用朴素贝叶斯进行社会媒体挖掘 bb8886 数据挖掘数据挖掘媒体 python 数据分析
一、朴素贝叶斯分类算法贝叶斯定理公式如下：表示“在A发生的情况下，B发生的概率”。在数据挖掘中，A通常是观察样本个体（也就是物特征），B为被测个体所属的类别。那么上述公式如下：我们可以用上述公式进行分类。但是一个物体包含多个特征。对于公式我们先假设特征1,特征2,特征3...相互独立，那么，有以下结论：所以有以下公式：因此，朴素贝叶斯公式如下：因为在所有的类别取值相同，所以贝叶斯的判定标准为：我们
深度学习简述秋无之地数据分析深度学习人工智能
⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️作者：秋无之地简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据开发、数据分析等。欢迎小伙伴们点赞、收藏⭐️、留言、关注，关注必回关上一篇文章已经跟大家介绍过《数据挖掘实战（3）：如何对比特币走势进行预测？》，相信大家对数据挖掘实战（3）都有一个基本的认识。下面我讲
数据挖掘实战（2）：信用卡诈骗分析秋无之地数据分析数据挖掘人工智能数据分析
⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️作者：秋无之地简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据开发、数据分析等。欢迎小伙伴们点赞、收藏⭐️、留言、关注，关注必回关上一篇文章已经跟大家介绍过《数据挖掘实战（1）：信用卡违约率分析》，相信大家对数据挖掘实战（1）都有一个基本的认识。下面我讲一下：数据
数据挖掘实战（3）：如何对比特币走势进行预测？秋无之地数据分析数据挖掘人工智能
⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️作者：秋无之地简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据开发、数据分析等。欢迎小伙伴们点赞、收藏⭐️、留言、关注，关注必回关上一篇文章已经跟大家介绍过《数据挖掘实战（2）：信用卡诈骗分析》，相信大家对数据挖掘实战（2）都有一个基本的认识。下面我讲一下：数据挖
128在线民宿 UGC 数据挖掘实战--基于 LDA 模型的评论主题挖掘 Jachin111
基于LDA模型的评论主题挖掘数据准备本次实验使用基于LDA主题聚类和主题分布可视化的方式研究顾客评论中的主题分布情况，并参考《旅游民宿基本要求与评价》标准中的评级指标辅助定义用户评价主题，具体的评价参考指标如下图所示。image.png使用Pandas加载在线数据表格，并查看数据维度和第一行数据。importpandasaspddata=pd.read_csv('https://labfile.o
python数据挖掘实战现实里的童话xklss
以下有数据挖掘实战的项目，请各位阅读链接：https://pan.baidu.com/s/1rB_7m6xVeg2PHDwgeXZHug密码：erl6如果还想要一些python相关资料，请联系QQ：1538444890谢谢
数据挖掘实战—餐饮行业的数据挖掘之数据探索(EDA) 哎呦-_-不错 #数据挖掘项目实战 EDA 数据挖掘餐饮行业
文章目录引言一、前期准备1.目标定义与任务理解二、数据采集与抽样三、数据探索1.数据质量分析1.1缺失值分析1.1.1缺失值可视化1.1.2描述性统计1.1.3统计缺失数与缺失率1.2异常值分析1.2.13σ原则1.2.2箱型图分析1.3一致性分析1.4重复数据处理2.数据特征分析2.1分布分析2.1.1定量数据的分布分析2.1.1定性数据的分布分析2.2对比分析2.2.1绝对数比较2.2.2相对
机器学习及其matlab实现竞争神经网络与SOM神经网络进阶与提高视频教程平蝶与波澜
机器学习及其matlab实现竞争神经网络与SOM神经网络进阶与提高视频教程大数据，云计算，架构，数据分析师，Hadoop，Spark，Storm，Docker，Mapreduce，Kafka，Flume，OpenStack，Hive，HDFS，YARN，人工智能，机器学习，深度学习，高等数学，自然语言处理等项目实战大数据和人工智能技术包含：大数据，云计算，架构，数据挖掘实战，实时推荐系统实战，电视
123在线民宿 UGC 数据挖掘实战--快速实现民宿整体的意见挖掘 Jachin111
快速实现民宿整体的意见挖掘数据准备对于采集后的在线评论，本次实验采用的主要的处理步骤包含：数据转换、数据清洗、数据划分、数据建模和数据可视化，在线源数据如下所示。image.png使用Pandas加载在线数据表格，并查看数据维度和第一行数据。importpandasaspddata=pd.read_csv('https://labfile.oss.aliyuncs.com/courses/2628
130在线民宿 UGC 数据挖掘实战--集成模型在情感分析中的应用 Jachin111
集成模型在情感分析中的应用数据准备本次实验将加载两个数据，一个是已经标注好的用户评论数据，另外一个是用户评价主题句，通过标注过的用户评论数据进行基于集成模型的情感极性模型训练，然后利用模型对主题句进行情感极性推理，最后通过数据聚合可视化得出主题情感极性。使用Pandas加载在线数据表格，并查看数据维度和前5行数据。importpandasaspddata=pd.read_csv('https://
数据挖掘实战：基于KMeans算法对超市客户进行聚类分群（文末送书）艾派森数据分析机器学习机器学习算法 python 数据挖掘聚类
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录一、研究背景二、算法原理三、实验步骤3.1加载数据集3.2数据预处理3.3确定聚类参数k3.4kmeans聚类3.5聚类结果四、总结完整代码文末推荐文末福利一、研究背景超市作为零售业的主要形式之一，在现代都市生活中扮演着重要角色。随着社会经济的发展和消
人工智能学习路线自律阳阳
学好人工智能并非易事，需要循序渐进，阶段性的学习，先入门后进阶，一步一脚印，那么怎样的学习路线适合初级者，下面简单分享：分为五个阶段：第一阶段：数学包括三科，也都是考研的三科：高等数学／线性代数／概率论；第二阶段：编程python工具库实战／python网络爬虫；第三阶段：机器学习也就是基础知识，机器学习导论，机器学习入门／机器学习提升；第四阶段：数据挖掘实战，只有掌握了数据挖掘处理，才能知道机器
基于大数据技术推荐系统算法案例实战视频教程平蝶与波澜
基于大数据技术推荐系统算法案例实战视频教程大数据，云计算，架构，数据分析师，Hadoop，Spark，Storm，Docker，Mapreduce，Kafka，Flume，OpenStack，Hive，HDFS，YARN，人工智能，机器学习，深度学习，高等数学，自然语言处理等项目实战大数据和人工智能技术包含：大数据，云计算，架构，数据挖掘实战，实时推荐系统实战，电视收视率项目实战，实时流统计项目实
127在线民宿 UGC 数据挖掘实战--基于词向量的主题聚类挖掘 Jachin111
基于词向量的主题聚类挖掘数据准备参考《旅游民宿基本要求与评价》标准中的评级指标辅助定义用户评价主题，本次实验将使用基于Word2Vec和KMeans主题词聚类的方式研究顾客评论中的主题分布情况。image.png使用Pandas加载在线数据表格，并查看数据维度和第一行数据。importpandasaspddata=pd.read_csv('https://labfile.oss.aliyuncs.
【数据挖掘实战】——科大讯飞：跨境广告ROI预测 Lingxw_w 数据挖掘数据挖掘人工智能回归
‍♂️个人主页：@Lingxw_w的个人主页✍作者简介：计算机科学与技术研究生在读希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录一、赛题背景二、赛事任务三、赛题数据四、评价指标五、Baseline解题思路1、读取数据2、数据预处理3、LGBMRegressor4、可视化一、赛题背景跨境电商广告ROI（收入/广告消耗）预测一直以来都是效果类广告领域的重要挑战。在
129在线民宿 UGC 数据挖掘实战--文本自动化标注和数据采样 Jachin111
文本自动化标注和数据采样数据准备首先使用Pandas加载在线数据表格，并查看数据维度和第一行数据。importpandasaspddata=pd.read_csv('https://labfile.oss.aliyuncs.com/courses/2628/1-2.csv')print(data.shape)data.head(1)image.png数据清洗针对用户打分出现的问题进行处理，首先打印
【数据挖掘实战】——舆情分析：对微博文本进行情绪分类 Lingxw_w 数据挖掘数据挖掘机器学习人工智能 nlp 自然语言处理
‍♂️个人主页：@Lingxw_w的个人主页✍作者简介：计算机科学与技术研究生在读希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录一、背景介绍二、比赛任务三、评审规则1.数据说明2.评估指标3.评测及排行四、作品提交要求五、解题思路1、读取数据和预处理2、TFIDF和逻辑回归3、transformersbert模型一、背景介绍疫情发生对人们生活生产的方方面面产生
40丨数据挖掘实战（2）：用逻辑回归分析信用卡诈骗张九日zx
构建逻辑回归分类器逻辑回归是分类方法，主要解决二分类问题。在逻辑回归中使用了Logistic函数，也称为Sigmoid函数。为什么逻辑回归算法是基于Sigmoid函数实现的呢？你可以这样理解：我们要实现一个二分类任务，0即为不发生，1即为发生。我们给定一些历史数据X和y。其中X代表样本的n个特征，y代表正例和负例，也就是0或1的取值。通过历史样本的学习，我们可以得到一个模型，当给定新的X的时候，可
qiuzitao机器学习（七）：桑坦德银行客户交易预测项目 qiuzitao 机器学习系列 python 机器学习数据挖掘数据分析
数据挖掘实战–桑坦德银行客户交易预测项目一、项目介绍：这是2019年Kaggle的比赛：kaggle官网：https://www.kaggle.com/c/santander-customer-transaction-prediction/leaderboard百度云数据集：https://pan.baidu.com/s/1Ph655Ha07eVjCmJoloybsg赛题介绍：桑坦德银行客户交易预
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多