HuanXiang1235

商业数据分析实战（酒卷隆志/里洋平）——第四章案例 B—交叉列表统计什么样的顾客会选择离开

案例提要：社交游戏的用户流失分析
和上月相比，本月《黑猫拼图》游戏的用户数减少了很多，和上月相比，本月的商业宣传和月度活动并无大的变化。因此，我们需要调查用户数大量减少的原因并改善这种状况，我们该怎么做呢？

文章目录

商业数据分析实战（酒卷隆志/里洋平）——第四章案例 B—交叉列表统计什么样的顾客会选择离开
- 现状和预期
- 发现问题
- 数据的收集和加工
- - 探讨分析所需的数据
  - 数据加工
- 数据分析
- - 对每个用户群进行交叉列表统计（用户群分析）
  - - ● 用户群分析（性别）
    - ● 用户群分析（年龄段）
    - ● 用户群分析（性别×年龄段）
    - ● 用户群分析（设备）
  - 将用户群分析结果可视化
- 解决对策
- 小结
- 注：

# 加载python所需模块
import pandas as pd
import pandasql
import numpy as np #之后需要用到
import seaborn as sns
import matplotlib as mpl #设置环境变量
import matplotlib.pyplot as plt #绘图专用
from mpl_toolkits.mplot3d import Axes3D #绘制3D图
mpl.rcParams['font.sans-serif'] = ['FangSong']
mpl.rcParams['axes.unicode_minus']=False

现状和预期

《黑猫拼图》游戏从发布到现在已经有一年零三个月了。在游戏刚发布时，用户数大量增加，其中大部分是游戏发布前就已经注册的用户。然而，几周后的一次严重的程序问题导致了用户流失。又过了一个月，由于投放的广告发挥了作用，用户数量再次增加，而后这些新的用户又逐渐流失。虽然用户数在短期内经常反复地上下波动，但从按月统计的数据来看，在游戏发布后的半年时间里，用户数保持了上升的势头。而这之后的 8 个月时间，游戏的用户数也一直维持之前的水平。
然而，从这个月开始，用户数开始大量减少。因为《黑猫拼图》游戏是公司具有代表性的成功应用，所以这次用户数减少的问题也备受关注。
广告部的负责人表示：“和上个月相比，商业推广活动无论是从内容上还是从数量上来看都没有发生变化。”
游戏企划部的负责人也表示：“每月开展的游戏活动并没有什么大的差异。”
因此，社交游戏事业部的部长向数据分析部门下达了指示：“调查清楚用户数量减少的原因，并尽全力改善这种状况。”

一般说来，无论是什么课题，数据分析的负责人首先需要做的就是明确问题现状和预期。本例中同样需要首先分析现状和预期。
首先，我们面临的现状是“和上月相比，本月的用户数减少了”。在本例中，我们的目标是查清用户数减少的原因，并确保和上月相同的用户数。那么，下一步要做的就是通过数据分析查清原因，并明确所需要解决的问题。

发现问题

同样，在第 4 章中，为了明确现状和预期之间差距的结构，我们需要首先思考上月和本月有哪些不同的地方。在发现问题的阶段，重要的是从大而广的视角出发来考虑各种可能性。例如，我们可以尝试做出如下假设。
1. 商业推广上存在问题，流失的用户数超过了新增的用户数
2. 每月不同主题的游戏活动开始变得很无聊，用户都不爱玩了
3. 按用户的性别或者年龄段等属性来划分用户群，可能是其中某个用户群出现了问题
做出上述假设后，应尽可能地在短时间内大致验证一下。我们通过咨询市场部和游戏开发部，得到了下述信息。
1. 同上月相比，商业推广的力度大体没变，新增用户数也大致保持在相同的水平
2. 开展的各种游戏活动同上月相比几乎没有变化
因此，只剩下第 3 条假设“可能是其中某个用户群出现了问题”没能得到验证了。也就是说，并没有发现现有问题是由第 1 条或第 2 条假设造成的。再进一步深挖假设的内容，可以知道用户群通常是按照性别、年龄段等来划分的。于是，首先我们可以考虑是否有某个属性的用户群数量减少了，然后通过和上月的数据加以比较，确认用户数量减少了的用户属性，并思考如何恢复用户数量。

数据的收集和加工

探讨分析所需的数据

在确定了分析的主题后，就需要探讨一下分析所需的数据了。
这次的用户群分析到底需要哪些数据呢？本案例中我们提出的假设如下所示。
问　题
● 和上月相比，用户数量减少了（事实）
● 某个用户群出现了问题（假设）
解决方案
● 针对用户数量减少了的用户群采取相应的措施，使用户数量回到和上月相同的水平
基于这个假设，让我们整理一下分析的过程。
1.《黑猫拼图》游戏的用户数量相比上月减少了（事实）
2. 某些用户群的用户数量减少了（假设）
3. 针对该用户群制定相应的措施，使用户数量回到和上月相同的水平（解决方案）
为了完成这个方案，需要调查一下《黑猫拼图》游戏的销售额构成。
在上一章中，针对销售额减少的问题，我们猜测原因可能是商业宣传活动减少了，并在随后的数据分析中验证了上述猜测是否正确。这种分析方式称为“验证型数据分析”。而在本章中，我们只知道“存在问题”，却无法轻易找到原因。也就是说，本例中无法事先猜测问题出现的原因，而是需要通过数据分析来探索原因所在，这种方式称为“探索型数据分析”。从其他行业的数据分析师口中也了解到，不管什么企业，对“探索型数据分析”和“验证型数据分析”的需求大约各占一半。本章将主要关注占二分之一的“探索型数据分析”。
为了能够通过数据明确问题，我们需要下面的数据。
● DAU（Daily Active User，每天至少来访 1 次的用户数据）
● user_info（用户属性数据）
● DAU

数据内容	数据类型	语言中的标识
访问时间	string（字符串）	log_data
应用名称	string（字符串）	app_name
用户 ID	int（数值）	user_id

● user_info

数据内容	数据类型	语言中的标识
首次使用日期	string（字符串）	install_data
应用名称	string（字符串）	app_name
用户 ID	int（数值）	user_id
性别（女性、男性）	string（字符串）	gender
年龄段（10、20、30、40、50）	int（数值）	generation
设备类型（iOS、Android）	string（字符串）	device_type

这里的数据基本都来自于日志，即使没有数据分析的需求，每天也都持续积累着。
总之我们已经确定了需要分析哪些数据，下一步就该考虑如何收集这些数据了。本次的情况和上一章一样，所有数据都存在服务器上，只需将其读入处理即可。

● DAU

dau = pd.read_csv('../../data/section4-dau.csv')
dau.head(5)

	log_date	app_name	user_id
0	2013-08-01	game-01	33754
1	2013-08-01	game-01	28598
2	2013-08-01	game-01	30306
3	2013-08-01	game-01	117
4	2013-08-01	game-01	6605

我们以第 1 行数据为例来介绍一下数据的内容。该行数据表示“2013 年 8 月 1 日 ID 为 33754 的用户访问了《黑猫拼图》游戏”。每天到访的用户 ID 都收集在这个数据中。

● user.info

user_info = pd.read_csv('../../data/section4-user_info.csv')
user_info.head(5)

	install_date	app_name	user_id	gender	generation	device_type
0	2013-04-15	game-01	1	M	40	iOS
1	2013-04-15	game-01	2	M	10	Android
2	2013-04-15	game-01	3	F	40	iOS
3	2013-04-15	game-01	4	M	10	Android
4	2013-04-15	game-01	5	M	40	iOS

接下来是 user.info 数据。这个数据集包含了首次使用日期、应用名称、用户 ID、性别、年龄段、所使用的手机终端类型这些用户属性数据。例如数据的第 1 行表示“在 2013 年 4 月 15 日，ID 为 1、年龄段在40~49 岁的男性用户使用 iOS 手机终端首次访问了《黑猫拼图》游戏”。

数据加工

在像本例这样探索原因的数据分析中，大多是将某个状态的数据（结果数据）和用户的属性信息（原因数据）合并起来，从而得知哪些属性（原因）可能导致哪种状态（结果）。因此我们将上述两种数据合并起来。

● 把DAU数据和user.info数据合并起来

dau_info = dau.merge(user_info, how='left', on=['user_id', 'app_name'])
dau_info.head(5)

	log_date	app_name	user_id	install_date	gender	generation	device_type
0	2013-08-01	game-01	33754	2013-08-01	M	20	iOS
1	2013-08-01	game-01	28598	2013-07-16	M	50	iOS
2	2013-08-01	game-01	30306	2013-07-20	F	30	iOS
3	2013-08-01	game-01	117	2013-04-17	F	20	iOS
4	2013-08-01	game-01	6605	2013-05-02	M	20	iOS

这里我们在 user.info 的属性数据中追加了 DAU 中各个用户的访问日期信息。这样一来，用户是否使用了该应用的信息和用户自身的属性信息都被归纳到了同一个数据表中。

数据分析

由于在之前的处理中，我们将包含用户访问情况的 DAU 数据和包含用户属性的 user.info 数据进行了合并，因此接下来就可以对上述数据
进行因果关系的分析了。为了弄清楚哪种属性的用户群人数比上月减少了，我们对数据进行交叉列表统计，如果发现了可能是问题原因的属性，就将其可视化。进行因果关系的分析时，具体来说有以下几步。
1. 用户群分析（对每个用户群进行交叉列表统计）
2. 将已明确的用户群数据可视化

对每个用户群进行交叉列表统计（用户群分析）

● 用户群分析（性别）

# 增加登录月份列
dau_info['log_month'] = pd.to_datetime(dau_info['log_date']).map(lambda x : x.strftime('%Y-%m'))
# 把数据中的F变成女，M变成男
dau_info['性别'] = dau_info['gender'].replace({'F':'女','M':'男'})
# 求透视图
dau_info_pivot = pd.pivot_table(dau_info,index='log_month',columns='性别',values='user_id',aggfunc=np.count_nonzero)
dau_info_pivot

性别	女	男
log_month
2013-08	47343	46842
2013-09	38027	38148

通过上表就可以看出性别的影响。比较 2013 年 8 月和 9 月男女用户的数量，可以看出虽然整体上用户数量在下降，但用户的男女构成比例大体没有变化。由此可以判断性别属性对用户数量下降的影响很小。
接着我们考虑年龄段属性的影响，并统计出各个年龄段用户数的变化情况。

● 用户群分析（年龄段）

# 分桶出来的列是category类型的，这种类型有很多bug，画图、做透视图都会出错，要转成str类型
dau_info['年龄段'] = pd.cut(dau_info['generation'],np.arange(0,max(dau_info['generation'])+10*2,10),right=False).astype(str)
dau_info_pivot = dau_info.pivot_table(index='log_month',columns=['年龄段'],values='user_id',aggfunc=np.count_nonzero)
dau_info_pivot

年龄段	[10, 20)	[20, 30)	[30, 40)	[40, 50)	[50, 60)
log_month
2013-08	18785	33671	28072	8828	4829
2013-09	15391	27229	22226	7494	3835

通过比较 2013 年 8 月和 9 月的数据，我们可以看到无论是哪个年龄段，在整体用户数量中所占的比例都没有发生大的变化，也没有发现哪个年龄段的用户数大量减少了。这里我们需要再进一步细分，看看是否某个性别下的某个年龄段的用户数量减少了。也就是说，将性别和年龄段属性组合起来进行交叉列表统计。像这样将交叉列表统计的分析轴组合起来的方法称为 n 重交叉列表统计。这里我们将性别和年龄段组合起来，形成 2 重交叉列表统计。

● 用户群分析（性别×年龄段）

dau_info_pivot = dau_info.pivot_table(index='log_month',columns=['性别','年龄段'],values='user_id',aggfunc=np.count_nonzero)
dau_info_pivot

性别	女					男
年龄段	[10, 20)	[20, 30)	[30, 40)	[40, 50)	[50, 60)	[10, 20)	[20, 30)	[30, 40)	[40, 50)	[50, 60)
log_month
2013-08	9091	17181	14217	4597	2257	9694	16490	13855	4231	2572
2013-09	7316	13616	11458	3856	1781	8075	13613	10768	3638	2054

通过将性别和年龄段进行交叉组合，形成了 20~29 岁女性、30~39岁女性等新的分析轴。通过观察统计数据，我们发现各个用户群的用户数量整体都下降了，但每个用户群所占的比例大体没变，也没有发现哪个用户群的数量急剧下降。
下面我们需要考虑的是用户所使用的设备的差异。

● 用户群分析（设备）

dau_info_pivot = dau_info.pivot_table(index='log_month',columns=['device_type'],values='user_id',aggfunc=np.count_nonzero)
dau_info_pivot

device_type	Android	iOS
log_month
2013-08	46974	47211
2013-09	29647	46528

结果是使用 iOS 设备的用户数略有下降，而使用 Android 的用户却大量减少了，因此这个用户群的分析很可能就是解决该问题的关键。
为了更详细地看到上述数值的差异，我们可以生成以天为单位的时间序列图，据此来确认用户数的变化程度。

交叉列表统计
交叉列表统计是将有因果关系的二者组合起来进行统计分析的方法。比如考虑“30~39 岁的女性用户和 20~29 岁的男性用户的行为有何差异”等，像这样对两种用户属性和行为结果之间关系进行统计，我们称为 2 重交叉列表统计。2 重交叉列表统计在大多数工作中经常会用到。以此类推，对由两类以上的用户属性组合起来形成的复合属性的因果关系进行分析，就称为多重（n 重）交叉列表统计。
为了通过数据分析得到想要的结果，找出哪些用户属性对期望的用户行为（比如“购买”）影响最大，或者哪些用户属性的影响较小才是最为重要的。要想找出这些属性，首先需要和业务负责人讨论。然后，通过数值比较快速确认对“期望的用户行为”=“结果”有较大影响的“用户属性”=“原因”（比如性别、年龄等）。在这一点上，交叉列表统计是一种非常有效的方法。如果我们能够找出对结果有较大影响的属性组合，那么就可以采取行动，将其列为重点经营的地方。
由上可知，交叉列表统计在商业中有着广泛的用途。不单是数据分析人员，其他职务的员工也经常使用。当需要对收集的数据加以解读时，首先为了对数据整体有一个初步的了解，通常会对数据进行单纯的统计，或者作出柱状图。如果是需要分析数据的变化趋势或者像上面那样通过复合属性来发掘因果关系，那么仅对数据的属性分别进行交叉列表统计，就可以得到十分有用的结论。
交叉列表统计可以使用 Excel 的数据透视表功能来实现，但是当需要生成大量的交叉统计表或者多重的交叉统计表时，使用 Excel 会非常麻烦。当需要知道所有属性和结果的因果关系时，用 Excel 去处理会耗费大量的时间，因此这种情况下就会经常使用应用性较强的 python 语言。

将用户群分析结果可视化

# 生成数据
dau_info['log_date'] = pd.to_datetime(dau_info['log_date'])
dau_info_pivot = dau_info.pivot_table(
    index='log_date', columns='device_type', values='user_id', aggfunc=np.count_nonzero)
x = dau_info_pivot.index
y1 = dau_info_pivot.loc[:, 'Android']
y2 = dau_info_pivot.loc[:, 'iOS']
# 开始折线画图
fontsize = 20
font = {'color': 'yellow',
        'size': fontsize
        }
plt.style.use("tableau-colorblind10")
plt.figure(figsize=(20, 9))
# 堆积柱状图
plt.plot(x, y1, label='Android')
plt.plot(x, y2, label='iOS')
# 添加图例
plt.legend(loc='best', fontsize=fontsize,
           title='device_type', title_fontsize=fontsize)
plt.title("不同类型设备的用户数变迁", fontsize=fontsize)
plt.xlabel("登录日期", fontsize=fontsize)
plt.ylabel("访问人数", fontsize=fontsize)
plt.xticks(fontsize=fontsize-5)
plt.yticks(fontsize=fontsize-5)
plt.show()

为了确定每种设备用户数在时间序列上的变化情况，我们利用时间序列图将数据可视化，并得出了显而易见的结论。上图的横轴表示访问日期，纵轴表示访问次数，两条曲线分别表示 iOS 和 Android 设备的访问次数随时间的变化情况。
可以看出，iOS 的用户数和之前大体相同，而 Android 的用户数从9 月的第 2 周开始急剧减少。

解决对策

虽说本例是一种探索型数据分析，但在这种情况下，经常回顾事先提出的假设，确认数据分析的出发点，对提升工作效率也依然非常重要。在数据分析中，如果对数据进行深度考察，往往会没有止境，导致在不必要的分析上花费很多时间。为了防止这种情况的发生，重要的是在数据分析之前建立假设，并每次参照这个假设进行分析，那么我们再来看看本例中事先建立的假设。
1.《黑猫拼图》游戏的用户数量相比上月减少了（事实）
2. 某些用户群的用户数量减少了（假设）
3. 针对该用户群制定相应的措施，使用户数量回到和上月相同的水平（解决方案）
根据上述假设，我们将之前数据分析的结果总结如下。
1.《黑猫拼图》游戏的用户数量相比上月减少了（事实）
2. 使用 Android 手机的用户群数量显著减少了（事实）
3. 弄清楚 Android 手机端的问题，并制定相应的改善策略，使用户数量回到和上月相同的水平（确信度较高的解决方案）
根据分析的结果，和游戏开发部门确认后，得知 9 月 12 日 Android版应用进行了一次版本升级。给他们看了数据后，被告知已确认某些机型在测试中没有问题，但是不能确定旧的机型是否也能够通过测试。于是，我们将用户数减少的机型数据导出，并再度咨询他们的意见，发现这些机型的共同点是都安装了旧版本的 Android 系统。当这些机型中的应用升级后，用户就无法登录游戏了。于是，公司紧急修复了这个版本的系统。
我们将整件事情向社交游戏事业本部的部长做了汇报，部长高兴地对我们的工作表示了感谢：“你们利用数据找出了问题的原因，还给出了具体的解决方案，真是非常感谢啊。”

小结

本章我们利用交叉列表统计进行了用户群的分析。
我们抓住和上月相比用户数减少了这样一个问题，探究了这个问题的原因。同上一章一样，在进行数据分析之前，尽可能地听取了相关部门的意见，并掌握了一定的事实依据。但即便如此，也会有无法找出问题原因的情况。
在本章的示例中，出现了不好的现象却无法找出原因，需要我们找出到底是哪里出了问题，这就是探索型数据分析。在验证过程中会伴随很多次失败的尝试，因此需要根据最初的假设，进一步深挖数据，不断探究问题的原因所在，这才是最重要的。
另外，数据分析的委托方最好能够和数据分析师分享问题可能的原因，这样能够提高数据分析的效率，有助于早日解决问题。

分析流程	第 4 章中数据分析的成本
现状和预期	低
发现问题	中
数据的收集和加工	低
数据分析	高
解决对策	低

注：

本文文字内容主要来源于书籍：《数据分析实战》 [日] 酒卷隆志里洋平/著肖峰/译
本文代码是自己手打的
本文github地址：https://github.com/qq1044645270/data_analysis

Python在股票数据分析中的应用，如何通过代码实现精准预测股价走势？股票程序化交易接口量化交易股票API接口 Python股票量化交易数据分析 python 股票数据分析股价走势预测代码实现股票量化接口股票API接口
Python股票接口实现查询账户，提交订单，自动交易（1）Python股票程序交易接口查账，提交订单，自动交易（2）股票量化，Python炒股，CSDN交流社区>>>数据获取与导入在股票数据分析中，首先要获取相关数据。Python有许多库可实现这一功能，比如pandas-datareader。使用它可以轻松从知名数据源如雅虎财经获取股票的历史价格、成交量等数据。只需简单几行代码，就能将特定股票在特
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰电子人工智能
浮漂式水质监测设备：智能守护水环境的未来之眼柏峰【BF-FBSZ】随着全球水资源短缺和水污染问题日益严峻，水质监测技术正迎来前所未有的发展机遇。作为这一领域的创新突破，浮漂式水质监测设备凭借其实时性、智能化和网络化优势，正在重塑水资源管理的新格局。本文将深入探讨这一技术的原理、特点、应用场景及未来发展趋势。一、技术原理与系统架构浮漂式水质监测设备是一种集成了现代传感器技术、物联网和大数据分析的智能
NUS：LLM表格数据建模综述
标题：LanguageModelingonTabularData:ASurveyofFoundations,TechniquesandEvolution来源：arXiv,2408.10548摘要表格数据是一种跨领域的流行数据类型，由于其异构性和复杂的结构关系，带来了独特的挑战。在表格数据分析中实现高预测性能和鲁棒性对许多应用程序具有重大前景。受自然语言处理，特别是转换器架构的最新进展的影响，出现了
套数据分析模板（含 Python 代码和示例数据）女码农的重启开发语言数据清洗 python java 数据分析
一、销售数据分析模板（1-10套）模板1：月度销售趋势分析示例数据（sales_monthly.csv）月份,销售额,销量,客单价2023-01,120000,500,2402023-02,135000,550,245.452023-03,150000,600,250...Python代码importpandasaspdimportmatplotlib.pyplotasplt#设置中文显示plt.
疫情下，我的健康码首次变成了黄码唯我一心
3月中旬，老公在广州白云区接了一单生意，要很久才回来，就在那里租了一间房，带我和孩子一起住。房子在七楼，步梯，因孩子小，自己就很少下楼，都是他买菜回来，4月8号，订单完成，返程回了佛山。过了两天突然接到短信通知，白云区要大规模核酸筛查，又过一天收到短信:通过大数据分析，您近期行程涉及疫情防控重点区域，您的健康码将被赋予2次黄码并需开展2次核酸检测，请注意健康码状态，尽快凭码到附近黄码核酸检测点进行
【云原生】Helm来管理Kubernetes集群的详细使用方法与综合应用实战景天科技苑云原生K8S 零基础到进阶实战云原生 kubernetes 容器 Helm k8s k8s集群
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，linux，she
关于 Excel 学习和数据分析有什么书籍或网站推荐？ cda2024 excel 学习数据分析
在当今信息爆炸的时代，Excel和数据分析已经成为职场人士必备的技能。无论是处理日常工作中的数据、制作报表，还是进行更深入的数据分析，Excel都是一个不可或缺的工具。那么，如何系统地学习Excel和数据分析呢？有哪些书籍或网站能够帮助我们快速上手并掌握这些技能？今天，我们就来探讨一下关于Excel学习和数据分析的书籍与网站推荐。一、Excel学习入门（一）书籍推荐《Excel数据分析与应用实战》
Synergizing RAG and Reasoning: A Systematic Review-RAG与推理能力深度结合-新方向数据分析能量站机器学习人工智能
欢迎关v：数据分析能量站0论文小结一、研究背景与核心问题大语言模型（LLM）在处理复杂任务时面临两大瓶颈：知识局限性：纯LLM存在“知识幻觉”（编造事实）和“领域知识缺口”；推理浅度：传统检索增强生成（RAG）仅通过关键词匹配获取信息，无法处理多跳推理、语义歧义等复杂需求。核心主张：RAG与推理的深度整合（RAG+Reasoning）是突破上述瓶颈的关键，通过“检索提供实时知识，推理赋予逻辑能力”
AI+Python赋能！长时序植被遥感动态分析全攻略：从物候提取到生态评估梦想的初衷~ 土壤植被遥感人工智能遥感植被土壤
在遥感技术与人工智能深度融合的2025年，AI大模型正重塑长时序植被遥感数据分析范式。从Landsat/Sentinel卫星数据的智能化去云处理，到MODIS植被产品的AI辅助质量控制，以ChatGPT、DeepSeeK为代表的大模型技术已成为提升遥感数据处理效率与精度的核心工具——尤其在长时序植被动态监测、物候期精准提取、时空变异归因分析及生态环境质量评估等领域，展现出传统方法难以企及的技术优势
Python 数据分析与可视化：从基础到进阶的技术实现与优化策略女码农的重启 python 数据分析开发语言
数据分析与可视化是数据科学领域的核心技能，Python凭借其丰富的库生态和灵活的编程范式，成为该领域的首选工具。本文将系统讲解Python数据分析与可视化的技术栈实现，从基础操作到性能优化，结合实战场景提供可复用的解决方案。数据分析核心库技术解析Pandas数据处理引擎原理Pandas作为数据分析的基石，其核心优势在于基于NumPy的矢量运算和高效的内存管理。与Excel的单元格级操作不同，Pan
Python - 数据分析三剑客之Pandas MinggeQingchun Python Python Pandas
阅读前可参考NumPy文章https://blog.csdn.net/MinggeQingchun/article/details/148253682https://blog.csdn.net/MinggeQingchun/article/details/148253682‌Pandas是Python中一个强大的开源数据分析库，专门用于处理结构化数据（如表格、时间序列等），其核心数据结构为Seri
新增AI Copilot，DataEase开源数据可视化分析工具v2.9.0发布 FIT2CLOUD飞致云开源数据可视化 DataEase AI Copilot 嵌入式
2024年8月5日，人人可用的开源数据可视化分析工具DataEase正式发布v2.9.0版本。这一版本的功能变动包括：导航栏新增Copilot入口，借助AI技术，通过自然语言交互实现即问即答，让数据分析更加直观和便捷；图表方面，对有图例的图表支持序列颜色设置，并对地图、表格等图表类型进行功能增强和优化；仪表板和数据大屏方面，新增应用导出/导入功能，仪表板和数据大屏中可以支持富文本和跑马灯组件刷新，
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
数据分析常用指标名词解释及计算公式走过冬季学习笔记数据分析大数据
数据分析中有大量常用指标，它们帮助我们量化业务表现、用户行为、产品健康度等。下面是一些核心指标的名词解释及计算方式，按常见类别分类：一、流量与用户规模指标页面浏览量名词解释：用户访问网站或应用时，每次加载或刷新一个页面就算一次PV。它衡量的是页面被打开的总次数。计算方式：PV=∑(所有页面被加载的次数)(通常由埋点或日志直接统计)独立访客数名词解释：在特定时间范围内（如一天、一周、一月），访问网站
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
python-pandas数据分析+案例分析
文章目录前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比2.车辆销售规模及环比、不同价位车销量及环比3.各车系、厂商、品牌车销量及环比，市占率及变化趋势4.品牌、车类、车型、级别的各top销量二、地质灾害航空公司客户价值分析1.原始数据存在少量的缺失值和异常值前言一、汽车销售数据可视化分析1.各年度汽车总销量及环比，各车类、级别车辆销量及环比importnump
数据分析案例-电脑笔记本价格数据可视化分析3 艾派森数据分析信息可视化 python 数据分析数据挖掘电脑
‍♂️个人主页：@艾派森的个人主页✍作者简介：Python学习者希望大家多多支持，我们一起进步！如果文章对你有帮助的话，欢迎评论点赞收藏加关注+目录1.项目背景2.数据集介绍3.技术工具
用Python做数据分析之数据统计学掌门 Python 数据分析大数据 python 数据分析人工智能
接下来说说数据统计部分，这里主要介绍数据采样，标准差，协方差和相关系数的使用方法。1、数据采样Excel的数据分析功能中提供了数据抽样的功能，如下图所示。Python通过sample函数完成数据采样。2、数据抽样Sample是进行数据采样的函数，设置n的数量就可以了。函数自动返回参与的结果。1#简单的数据采样2df_inner.sample(n=3)3、简单随机采样Weights参数是采样的权重，
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
Python数据分析：从入门到精通
引言在当今数据驱动的时代，数据分析已成为企业和组织做出明智决策的关键。Python作为一种强大的编程语言，因其简洁性和丰富的数据分析库而成为数据科学领域的首选工具。无论你是初学者还是有一定经验的数据分析师，本指南都将带你从入门到精通Python数据分析，掌握必备技能和最佳实践。数据分析的重要性与Python的角色数据分析涉及收集、处理和解释数据，以揭示模式、趋势和见解。它有助于解决复杂问题，优化业
数据分析框架和方法 XiaoQiong.Zhang 人工智能
一、核心分析框架(TheBigPictureFrameworks)描述性分析(WhatHappened?)目的：了解过去发生了什么，描述现状，监控业务健康。核心工作：汇总、聚合、计算基础指标(KPI)，生成报表和仪表盘。常用方法/指标：计数/求和/平均值/中位数：DAU/MAU，总销售额，客单价等。比率：转化率，点击率，流失率，毛利率等。分布：用户活跃度分布、订单金额分布、地域分布等。常用于理解群
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
【数据分析】多数据集网络分析：探索健康与退休研究中的变量关系生信学习者1 数据分析 (2025版)数据分析 r语言数据挖掘数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍加载R包数据下载导入数据数据预处理函数网络分析画图保存图片总结系统信息介绍在医学和社会科学研究中，理解多个变量之间的复杂关系对于揭示潜在的病理生理机制和社会行为模式至关重要。本文介绍了一种基于R语言的网络分析方法，用于探索HRS（健康与退休研究）及其类似研究（CHARLS、ELSA、MHAS、SHARE）中的变
基于Python的旅游数据可视化应用
摘要本文详细介绍了一个功能完善的基于Python语言开发的旅游行业数据可视化分析应用系统。该系统采用Pandas这一强大的数据处理库进行数据清洗、转换和预处理工作，确保数据质量可靠。在可视化展示方面，系统整合了Matplotlib和Seaborn两大主流可视化库，通过丰富的图表类型直观呈现数据分析结果。特别值得一提的是，所有可视化图表均采用统一的绿色主题配色方案，这种设计不仅美观大方，更能突出体现
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
动态时间规整（Dynamic Time Warping，DTW）介绍 EmorZhong 机器学习人工智能深度学习数据结构算法
在时序数据分析中，动态时间规整（DynamicTimeWarping，DTW）是一种经典的用于度量两个时间序列相似度的算法。它的核心价值在于解决了传统距离度量（如欧氏距离）在处理时间序列时的局限性——尤其是当序列存在时间错位（如节奏快慢不同）或长度差异时，仍能准确捕捉它们的“形状相似性”。一、为什么需要DTW？传统的距离度量（如欧氏距离）要求两个时间序列必须长度相同且时间点严格对齐。但实际场景中，
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
一文搞懂怎么入门大模型
在人工智能飞速发展的当下，大模型已然成为推动众多领域创新变革的核心力量。无论是在智能客服、内容创作，还是数据分析、科学研究等方面，大模型都展现出了令人瞩目的能力。对于渴望踏入大模型领域的初学者而言，构建一个系统且全面的入门路径至关重要。接下来，我们将以DeepSeek为例，详细阐述如何系统地入门大模型。一、理论基础：搭建认知框架在深入实践之前，理解大模型的基础理论是关键。大模型，通常指具有海量参数
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

商业数据分析实战（酒卷隆志/里洋平）——第四章案例 B—交叉列表统计什么样的顾客会选择离开

商业数据分析实战（酒卷隆志/里洋平）——第四章案例 B—交叉列表统计什么样的顾客会选择离开

文章目录

现状和预期

发现问题

数据的收集和加工

探讨分析所需的数据

数据加工

数据分析

对每个用户群进行交叉列表统计（用户群分析）

● 用户群分析（性别）

● 用户群分析（年龄段）

● 用户群分析（性别×年龄段）

● 用户群分析（设备）

将用户群分析结果可视化

解决对策

小结

注：

你可能感兴趣的:(数据分析)