航空公司客户价值分析

1.背景方面

准确的客户分类的结果是企业优化营销资源的重要依据，本文利用了航空公司的部分数据，利用Kmeans聚类方法，对航空公司的客户进行了分类，来识别出不同的客户群体，从来发现有用的客户，从而对不同价值的客户类别提供个性化服务，指定相应的营销策略。

本次数据挖掘与数据分析目标：

（1）借助航空公司数据，对客户进行分类；

（2）对不同类别的客户进行特征分析，比较不同类别客户的价值分析；

（3）对不同价值的客户类别进行个性化服务，制定相应的营销策略。

2.分析过程

识别客户价值应用最广泛的模型是通过3个指标（最近消费时间间隔（Recency）、消费频率（Frequency）和消费金额（Money））来进行客户细分，识别出高价值客户，简称RFM模型。

RFM模型中，消费金额表示一段时间内，客户购买企业产品金额的总和。由于航空票价受到运输距离、舱位等级等多种因素影响，同样消费金额的不同旅客对航空公司的价值是不同的。例如，一位购买长航线、低等舱位票的旅客与一位购买短航线、高等级舱位票的旅客相比，后者对于航空公司的价值可能更高。因此，这个指标并不适合航空公司客户价值分析。我们选择客户在一定时间内累积的飞行里程M和客户在一定时间内乘坐舱位所对应的折扣系数的平均值C两个指标代替消费金额。此外，还考虑航空公司会员入会时间的长短在一定程度上影响客户价值，所以在模型中增加客户关系长度L，作为区分客户的另一指标。

综上所述，航空公司识别客户价值模型（LRFMC）指标如下：

客户关系长度L：会员入会时间距观测窗口结束的月份

消费时间间隔R：客户最近一次乘坐公司飞机距观测窗口结束的月数

消费频率F：客户在观测窗口内乘坐公司飞机的次数

飞行里程M：客户在观测窗口内飞行里程

折扣系数的平均值C：客户在观测窗口内乘坐舱位所对应的折扣系数的平均值

传统的RFM模型采用属性分箱的方法，如下图所示（依据属性的平均值进行划分），虽然也能识别出最有价值客户，但是如果LRFMC模型使用同样的方法，则细分的属性太多，提高了后续根据客户类别的营销成本。故本次分析使用聚类方法，通过对航空公司客户价值的五个指标进行Kmeans聚类分析，识别出最有价值客户。

本项目航空公司客户价值分析的总体流程如下图所示：

航空公司客户价值信息挖掘主要包話以下步骤：

（1）从航空公司的数据源中进行选择性抽取与新增数据抽取分别形成历史数据和增量数据；

（2）对步骤1）中形成的两个数据集进行数据探索分析和预处理，包括数据缺失值和异常值分析，数据属性的规约、清洗和变换；

（3）利用步骤2）中的处理的数据进行建模，基于旅客价值的LRFMC模型进行客户分类，对各个客户群进行特征分析，识别出最有价值的客户；

（4）针对模型结果得到不同价值的客户，采用不同的营销手段，提供定制化的服务。

3.数据探索分析

针对本项目的数据，主要进行缺失值分析和异常值分析。比如票价为空值，票价最小值为0、折扣率最小值为、总飞行里程数大于零的记录。

拿到原始数据后，可以使用Python代码实现对数据的初步分析，主要使用pandas库中的describe()函数，代码如下：

# -*- coding:utf-8 -*-
"""
对数据进行基本的探索，返回缺失值个数以及最大值最小值等
"""

import pandas as pd

datafile = "F:\DeskTop\Python-Data\chapter7\demo\data\\air_data.csv"  #原始数据
resultfile = "F:\DeskTop\Python-Data\chapter7\demo\data\explore.xls"   #数据探索结果总结表

data = pd.read_csv(datafile,encoding = "utf-8")  #读取原始数据，指定UTF-8编码（需要用文本编辑器将数据装换为UTF-8编码）

"""
包括对数据的基本描述，percentiles参数是指定计算多少的分位数表
（如1/4分位数、中位数等）；T是转置，转置后更方便查
"""
explore = data.describe(percentiles=[],include="all").T

#describe()函数自动计算非空值数，需要手动计算空值数
explore["null"] = len(data) - explore["count"]

explore = explore[["null","max","min"]]
explore.columns = [u"空数值",u"最大值",u"最小值"] #对结果统计的表头重命名
"""
'''这里只选取部分探索结果。
describe()函数自动计算的字段有count（非空值数）、unique（唯一值数）、
top（频数最高者）、freq（最高频数）、mean（平均值）、std（方差）、min（最小值）、50%（中位数）、max（最大值）'''
"""
# print(explore)

explore.to_excel(resultfile) ##导出结果

统计结果中的部分如下所示：

4.数据预处理

针对上述问题的数据预处理包括数据清洗、属性规约和数据变换。

4.1 数据清洗

由上述分析可知，原始数据中存在着票价为空值，票价最小值为0、折扣率最小值为0而总飞行里程数大于零的等异常记录。考虑原始数据样本量较大，而这类数据的数量又很小，因此可以选择舍弃处理。

（1）舍弃票价为空的记录；

（2）舍弃票价为零、平均折扣率不为零，总飞行公里大于零的数据。

同样适用Python的Pandas库进行数据清洗，代码如下所示：

#-*- coding: utf-8 -*-
#数据清洗，过滤掉不符合规则的数据

import pandas as pd

datafile = "F:\DeskTop\Python-Data\chapter7\demo\data\\air_data.csv"
cleanfile = "F:\DeskTop\Python-Data\chapter7\demo\data\data_cleaned.csv"

data = pd.read_csv(datafile,encoding="utf-8")

##只保留票价非空值的，每个data["SUM_YR_1"].notnull()返回布尔值的列表，同为True才保留
data = data[data["SUM_YR_1"].notnull() & data["SUM_YR_2"].notnull()]

##只保留票价非零的，或者平均折扣率与总飞行公里数同时为0的记录
index1 = data["SUM_YR_1"] != 0
index2 = data["SUM_YR_2"] != 0
index3 = (data["SEG_KM_SUM"] == 0) & (data["avg_discount"] == 0)
data = data[index1 | index2 |index3]

data.to_excel(cleanfile)

4.2 属性规约

原始数据中有众多属性，需要选取与本次模型相关的属性，最终选取的6个相关属性分别为：入会时间（FFP_DATE）、观测窗口的结束时间（LOAD_TIME）、飞行次数（FLIGHT_COUNT）、平均折扣率（AVG_DISCOUNT）、观测窗口总飞行里程数（SEG_KM_SUM）、最后一次乘机时间至观察窗口末端时长（LAST_TO_END）。删除与模型不相关、弱相关或冗余的属性，比如，会员卡号、性别、工作地城市、工作地所在省份等。

4.3数据变换

数据变换，即将数据变换为“适当的”格式，以适应挖掘任务以及算法的需求。本项目主要的数据变换方式为属性构造和数据标准化。

（1）属性构造

由于数据中并没有直接给出LRFMC5个指标，需要通过属性构造来提取这5个指标。具体的计算方式如下：

（1）L=LOAD_TIME-FFP_DATE

（2）R=LAST_TO_END

（3）F=FLIGHT_COUNT

（4）M=SEG_KM_SUM

（5）C= AVG_DISCOUNT

（2）数据标准化

得到LRFMC5个指标后，对这五个指标进行分析，发现五个指标取值范围数据差异较大，为了消除数量级数据带来的影响，需要对数据进行标准化处理，本次使用标准差标准化处理，代码如下所示：

# -*- coding:utf-8 -*-
#标准差标准化

import pandas as pd

datafile = "F:\DeskTop\Python-Data\chapter7\demo\data\\zscoredata.xls"
zscorefile = "F:\DeskTop\Python-Data\chapter7\demo\data\zscoreddata.xls"

#标准化处理
data = pd.read_excel(datafile)
data = (data - data.mean(axis=0))/(data.std(axis=0))

data.columns = ["Z"+i for i in data.columns] ##表头重新命名，前面加上Z

data.to_excel(zscorefile,index=False)

5.构建专家样本

最终得到的专家样本库如下所示，专家样本共62044个。

6.模型构建

采用KMeans聚类算法对客户数据进行客户分群，结合业务相关知识确定聚成5类客户。

Kmeans聚类算法位于Sklearn库下的聚类子库（sklearn.cluster），代码如下所示：

# -*- coding:utf-8 -*-

#KMeans聚类方法



import pandas as pd

from sklearn.cluster import KMeans  ##导入KMeans聚类方法



inputfile = "F:\DeskTop\Python-Data\chapter7\demo\data\zscoreddata.xls"



k = 5 #聚类为5类



data = pd.read_excel(inputfile)



#调用KMeans方法，进行分析

kmodel = KMeans(n_clusters=k,n_jobs=1)  #n_job为并行数，设定为CPU数目较好

kmodel.fit(data) #训练模型



#查看聚类中心以及聚类数目

r1=pd.Series(kmodel.labels_).value_counts()

r2=pd.DataFrame(kmodel.cluster_centers_)

r=pd.concat([r2,r1],axis=1)

r.columns=list(data.columns)+['类别数目']



print(r)

7.结果分析

对聚类结果进行特征分析，绘制客户群特征分析图（雷达图），如下图所示：

最终将客户可以分为四种，如下表所示：

重要保持客户：平均折扣率高，乘坐次数或里程高，最近坐过本公司航班。

重要发展客户：平均折扣率较高，乘坐次数和里程较低。

重要挽留客户：平均折扣率，乘坐次数或者里程较高，较长时间没坐本公司航班。

一般与低价值客户：扣率低，较长时间未做本公司航班，乘坐次数或里程较低，入会时长短。

对于使用历史数据建立的模型而言，要经常对新加入的客户进行聚类中心判断，同时对本次新增客户的特征进行特征分析。如果新增的客户的特征与模型判断有较大误差，需要重点关注和解决。可以每隔半年重新训练一次模型。

8.项目总结

通过“航空公司客户价值分析”项目：

（1）进一步熟悉了数据挖掘以及数据探索分析的一般流程；

（2）加深了对数据预处理中属性规约，数据变化的理解，包括标准差标准化，属性构造等；

（3）加深了对Kmeans聚类方法的理解，进一步熟悉了Sklearn中相关函数的运用；

（4）掌握了使用雷达图对结果进行特征分析的方法。

你可能感兴趣的:(数据挖掘实战)

数据挖掘实战-基于决策树算法构建北京市空气质量预测模型艾派森数据挖掘机器学习人工智能数据挖掘 python 决策树
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.项目简介2.1项目说明2.2数据说明2.3技术工具3.算法原理4.项目实施步骤4.1理解数据4.2数据预处理4.3探索性数据分析4.4特征工程4.5模型构建4.6模型评估5.实验总结源代码1.项目背景随着城市化进程的加速，空气质量问题日
python数据挖掘实战项目开源git_强烈推荐：8个顶级git/github项目数据分析工具 weixin_39619635
任何重要的决定都应基于数据，对于信息项目和软件开发亦是如此。如果你不仔细查看描述项目演进的数据就无法了解项目的健康状况，并给出合理的改进措施。为了分析和挖掘这些信息，我们可以从Git存储库和项目所在的代码托管平台(例如GitHub，Gitlab)获取一些有意义的数据。然而从Git/GitHub轻松获取数据实际也不是一件简单的事情。本文虫虫就给大家介绍一些Git/GitHub开源分析工具供大家学习参
数据挖掘实战-基于机器学习的电商文本分类模型艾派森数据挖掘 python 数据挖掘人工智能
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具4.实验步骤4.1数据探索4.2数据预处理4.3文本归一化4.4特征工程4.5训练模型1.项目背景随着电子商务的蓬勃发展，电商平台上产生了海量的文本数据，包括商品描述、用户评价、客服对话等。这些文本数据包含了丰富的
Python商业数据挖掘实战——爬取网页并将其转为Markdown 雪碧有白泡泡粉丝福利活动 python 数据挖掘开发语言
前言「作者主页」：雪碧有白泡泡「个人网站」：雪碧的个人网站ChatGPT体验地址文章目录前言前言正则表达式进行转换送书活动前言在信息爆炸的时代，互联网上的海量文字信息如同无尽的沙滩。然而，其中真正有价值的信息往往埋在各种网页中，需要经过筛选和整理才能被有效利用。幸运的是，Python这个强大的编程语言可以帮助我们完成这项任务。本文将介绍如何使用Python将网页文字转换为Markdown格式，这将
数据挖掘实战1：泰坦尼克号数据 bb8886 数据挖掘数据挖掘 python 人工智能
一、数据挖掘流程1.数据读取-读取数据-统计指标-数据规模2.数据探索（特征理解）-单特征的分析，诸个变量分析对结果y的影响（x,y的相关性）-多变量分析（x,y之间的相关性）-统计绘图3.数据清洗和预处理-缺失值填充-标准化、归一化-特征工程（筛选有价值的特征）-分析特征之间的相关性4.建模-特征数据的准备和标签-数据集的切分-多种模型对比：交叉验证、调参（学习曲线，网格搜索）-集成算法（提升算
企业级实战项目：基于 pycaret 自动化预测公司是否破产 Python数据挖掘机器学习数据分析及可视化数据挖掘数据分析算法 python
本文系数据挖掘实战系列文章，我跟大家分享一个数据挖掘实战，与以往的数据实战不同的是，用自动机器学习方法完成模型构建与调优部分工作，深入理解由此带来的便利与效果。1.Introduction本文是一篇数据挖掘实战案例，详细探索了从台湾经济杂志收集的1999年到2009年的数据，看看在数据探索过程中，可以洞察出哪些有用的信息，判断哪一个模型能够最准确地预测公司是否破产。公司破产的定义是根据台湾证券交易
数据挖掘实战-基于word2vec的短文本情感分析艾派森数据分析文本分析 python 数据挖掘 word2vec 自然语言处理机器学习
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录一、实验背景二、相关算法2.1Word2vec2.2支持向量机2.3随机森林三、实验数据3.1数据说明3.2评价标准四、实验步骤五、实验结果与分析5.1SVM模型评估结果5.2随机森林模型评估结果六、实验总结文末推荐与福利源代码一、实验背景当前，随着社
125在线民宿 UGC 数据挖掘实战--民宿地理位置可视化分析 Jachin111
民宿地理位置可视化分析数据准备本实验采集了民宿店家共400家，利用抽样分析的方法，将评论数高于民宿评价平均数为200条的民宿挑选出来，总共挑选出来了89家民宿作为样本。image.png使用Pandas加载抽样后的在线数据表格，并查看数据维度和第一行数据。importpandasaspddata=pd.read_csv('https://labfile.oss.aliyuncs.com/cours
数据挖掘实战：基于 Python 的个人信贷违约预测 Python数据挖掘 python 机器学习数据分析及可视化数据挖掘 python 数据分析机器学习人工智能
本次分享我们Python觅圈的一个练手实战项目：个人信贷违约预测，此项目对于想要学习信贷风控模型的同学非常有帮助。技术交流技术要学会交流、分享，不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。好的文章离不开粉丝的分享、推荐，资料干货、资料分享、数据、技术交流提升，均可加交流群获取，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。方式①、添加微信号：dk
一个企业级数据挖掘实战项目｜客户细分模型（上） weixin_38754337 聚类 python 机器学习数据分析大数据
导读：今天给大家带来了一个Python业务分析实战项目——客户细分模型的应用案例上篇，本文阐述比较详细，包括代码演示、可视化图形展示、以及文字详细分析。分析较浅，希望能够给大家带来些许帮助，欢迎交流学习！文章较长，建议收藏～本文来源：数据STUDIO作者：云朵君客户细分模型是将整体会员划分为不同的细分群体或类别，然后基于细分群体做管理、营销和关怀。客户细分模型常用于整体会员的宏观性分析以及探索性分
41丨数据挖掘实战（3）：如何对比特币走势进行预测？张九日zx
数据挖掘算法有一种叫时间序列分析的算法，时间序列分析模型建立了观察结果与时间变化的关系，能帮我们预测未来一段时间内的结果变化情况。时间序列分析和回归分析的区别：-结果与变量的关系。回归分析训练得到的是目标变量y与自变量x（一个或多个）的相关性，然后通过新的自变量x来预测目标变量y。而时间序列分析得到的是目标变量y与时间的相关性。-回归分析擅长的是多变量与目标结果之间的分析，即便是单一变量，也往往与
数据挖掘实战（七）--使用朴素贝叶斯进行社会媒体挖掘 bb8886 数据挖掘数据挖掘媒体 python 数据分析
一、朴素贝叶斯分类算法贝叶斯定理公式如下：表示“在A发生的情况下，B发生的概率”。在数据挖掘中，A通常是观察样本个体（也就是物特征），B为被测个体所属的类别。那么上述公式如下：我们可以用上述公式进行分类。但是一个物体包含多个特征。对于公式我们先假设特征1,特征2,特征3...相互独立，那么，有以下结论：所以有以下公式：因此，朴素贝叶斯公式如下：因为在所有的类别取值相同，所以贝叶斯的判定标准为：我们
深度学习简述秋无之地数据分析深度学习人工智能
⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️作者：秋无之地简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据开发、数据分析等。欢迎小伙伴们点赞、收藏⭐️、留言、关注，关注必回关上一篇文章已经跟大家介绍过《数据挖掘实战（3）：如何对比特币走势进行预测？》，相信大家对数据挖掘实战（3）都有一个基本的认识。下面我讲
数据挖掘实战（2）：信用卡诈骗分析秋无之地数据分析数据挖掘人工智能数据分析
⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️作者：秋无之地简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据开发、数据分析等。欢迎小伙伴们点赞、收藏⭐️、留言、关注，关注必回关上一篇文章已经跟大家介绍过《数据挖掘实战（1）：信用卡违约率分析》，相信大家对数据挖掘实战（1）都有一个基本的认识。下面我讲一下：数据
数据挖掘实战（3）：如何对比特币走势进行预测？秋无之地数据分析数据挖掘人工智能
⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️作者：秋无之地简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据开发、数据分析等。欢迎小伙伴们点赞、收藏⭐️、留言、关注，关注必回关上一篇文章已经跟大家介绍过《数据挖掘实战（2）：信用卡诈骗分析》，相信大家对数据挖掘实战（2）都有一个基本的认识。下面我讲一下：数据挖
128在线民宿 UGC 数据挖掘实战--基于 LDA 模型的评论主题挖掘 Jachin111
基于LDA模型的评论主题挖掘数据准备本次实验使用基于LDA主题聚类和主题分布可视化的方式研究顾客评论中的主题分布情况，并参考《旅游民宿基本要求与评价》标准中的评级指标辅助定义用户评价主题，具体的评价参考指标如下图所示。image.png使用Pandas加载在线数据表格，并查看数据维度和第一行数据。importpandasaspddata=pd.read_csv('https://labfile.o
python数据挖掘实战现实里的童话xklss
以下有数据挖掘实战的项目，请各位阅读链接：https://pan.baidu.com/s/1rB_7m6xVeg2PHDwgeXZHug密码：erl6如果还想要一些python相关资料，请联系QQ：1538444890谢谢
数据挖掘实战—餐饮行业的数据挖掘之数据探索(EDA) 哎呦-_-不错 #数据挖掘项目实战 EDA 数据挖掘餐饮行业
文章目录引言一、前期准备1.目标定义与任务理解二、数据采集与抽样三、数据探索1.数据质量分析1.1缺失值分析1.1.1缺失值可视化1.1.2描述性统计1.1.3统计缺失数与缺失率1.2异常值分析1.2.13σ原则1.2.2箱型图分析1.3一致性分析1.4重复数据处理2.数据特征分析2.1分布分析2.1.1定量数据的分布分析2.1.1定性数据的分布分析2.2对比分析2.2.1绝对数比较2.2.2相对
机器学习及其matlab实现竞争神经网络与SOM神经网络进阶与提高视频教程平蝶与波澜
机器学习及其matlab实现竞争神经网络与SOM神经网络进阶与提高视频教程大数据，云计算，架构，数据分析师，Hadoop，Spark，Storm，Docker，Mapreduce，Kafka，Flume，OpenStack，Hive，HDFS，YARN，人工智能，机器学习，深度学习，高等数学，自然语言处理等项目实战大数据和人工智能技术包含：大数据，云计算，架构，数据挖掘实战，实时推荐系统实战，电视
123在线民宿 UGC 数据挖掘实战--快速实现民宿整体的意见挖掘 Jachin111
快速实现民宿整体的意见挖掘数据准备对于采集后的在线评论，本次实验采用的主要的处理步骤包含：数据转换、数据清洗、数据划分、数据建模和数据可视化，在线源数据如下所示。image.png使用Pandas加载在线数据表格，并查看数据维度和第一行数据。importpandasaspddata=pd.read_csv('https://labfile.oss.aliyuncs.com/courses/2628
130在线民宿 UGC 数据挖掘实战--集成模型在情感分析中的应用 Jachin111
集成模型在情感分析中的应用数据准备本次实验将加载两个数据，一个是已经标注好的用户评论数据，另外一个是用户评价主题句，通过标注过的用户评论数据进行基于集成模型的情感极性模型训练，然后利用模型对主题句进行情感极性推理，最后通过数据聚合可视化得出主题情感极性。使用Pandas加载在线数据表格，并查看数据维度和前5行数据。importpandasaspddata=pd.read_csv('https://
数据挖掘实战：基于KMeans算法对超市客户进行聚类分群（文末送书）艾派森数据分析机器学习机器学习算法 python 数据挖掘聚类
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录一、研究背景二、算法原理三、实验步骤3.1加载数据集3.2数据预处理3.3确定聚类参数k3.4kmeans聚类3.5聚类结果四、总结完整代码文末推荐文末福利一、研究背景超市作为零售业的主要形式之一，在现代都市生活中扮演着重要角色。随着社会经济的发展和消
人工智能学习路线自律阳阳
学好人工智能并非易事，需要循序渐进，阶段性的学习，先入门后进阶，一步一脚印，那么怎样的学习路线适合初级者，下面简单分享：分为五个阶段：第一阶段：数学包括三科，也都是考研的三科：高等数学／线性代数／概率论；第二阶段：编程python工具库实战／python网络爬虫；第三阶段：机器学习也就是基础知识，机器学习导论，机器学习入门／机器学习提升；第四阶段：数据挖掘实战，只有掌握了数据挖掘处理，才能知道机器
基于大数据技术推荐系统算法案例实战视频教程平蝶与波澜
基于大数据技术推荐系统算法案例实战视频教程大数据，云计算，架构，数据分析师，Hadoop，Spark，Storm，Docker，Mapreduce，Kafka，Flume，OpenStack，Hive，HDFS，YARN，人工智能，机器学习，深度学习，高等数学，自然语言处理等项目实战大数据和人工智能技术包含：大数据，云计算，架构，数据挖掘实战，实时推荐系统实战，电视收视率项目实战，实时流统计项目实
127在线民宿 UGC 数据挖掘实战--基于词向量的主题聚类挖掘 Jachin111
基于词向量的主题聚类挖掘数据准备参考《旅游民宿基本要求与评价》标准中的评级指标辅助定义用户评价主题，本次实验将使用基于Word2Vec和KMeans主题词聚类的方式研究顾客评论中的主题分布情况。image.png使用Pandas加载在线数据表格，并查看数据维度和第一行数据。importpandasaspddata=pd.read_csv('https://labfile.oss.aliyuncs.
【数据挖掘实战】——科大讯飞：跨境广告ROI预测 Lingxw_w 数据挖掘数据挖掘人工智能回归
‍♂️个人主页：@Lingxw_w的个人主页✍作者简介：计算机科学与技术研究生在读希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录一、赛题背景二、赛事任务三、赛题数据四、评价指标五、Baseline解题思路1、读取数据2、数据预处理3、LGBMRegressor4、可视化一、赛题背景跨境电商广告ROI（收入/广告消耗）预测一直以来都是效果类广告领域的重要挑战。在
129在线民宿 UGC 数据挖掘实战--文本自动化标注和数据采样 Jachin111
文本自动化标注和数据采样数据准备首先使用Pandas加载在线数据表格，并查看数据维度和第一行数据。importpandasaspddata=pd.read_csv('https://labfile.oss.aliyuncs.com/courses/2628/1-2.csv')print(data.shape)data.head(1)image.png数据清洗针对用户打分出现的问题进行处理，首先打印
【数据挖掘实战】——舆情分析：对微博文本进行情绪分类 Lingxw_w 数据挖掘数据挖掘机器学习人工智能 nlp 自然语言处理
‍♂️个人主页：@Lingxw_w的个人主页✍作者简介：计算机科学与技术研究生在读希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录一、背景介绍二、比赛任务三、评审规则1.数据说明2.评估指标3.评测及排行四、作品提交要求五、解题思路1、读取数据和预处理2、TFIDF和逻辑回归3、transformersbert模型一、背景介绍疫情发生对人们生活生产的方方面面产生
40丨数据挖掘实战（2）：用逻辑回归分析信用卡诈骗张九日zx
构建逻辑回归分类器逻辑回归是分类方法，主要解决二分类问题。在逻辑回归中使用了Logistic函数，也称为Sigmoid函数。为什么逻辑回归算法是基于Sigmoid函数实现的呢？你可以这样理解：我们要实现一个二分类任务，0即为不发生，1即为发生。我们给定一些历史数据X和y。其中X代表样本的n个特征，y代表正例和负例，也就是0或1的取值。通过历史样本的学习，我们可以得到一个模型，当给定新的X的时候，可
qiuzitao机器学习（七）：桑坦德银行客户交易预测项目 qiuzitao 机器学习系列 python 机器学习数据挖掘数据分析
数据挖掘实战–桑坦德银行客户交易预测项目一、项目介绍：这是2019年Kaggle的比赛：kaggle官网：https://www.kaggle.com/c/santander-customer-transaction-prediction/leaderboard百度云数据集：https://pan.baidu.com/s/1Ph655Ha07eVjCmJoloybsg赛题介绍：桑坦德银行客户交易预
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他