小步积

基于RFM的用户管理

案例背景

用户价值细分是了解用户价值度的重要途径，销售型公司对于订单交易尤为关注，因此基于订单交易的价值度模型将更适合运营需求。针对交易数据分析的常用模型是RFM模型，该模型不仅简单、容易理解，且业务落地能力非常强。

一、导入库

import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier

二、读取数据

本项目选择4年的订单数据，可以从不同年份对比不同时间下各个分组的变化情况，方便了解会员的波动。

col_ = ['userID','orderID','date','bill']

df_2015 = pd.read_excel('sales.xlsx',sheet_name='2015', names=col_)

df_2016 = pd.read_excel('sales.xlsx',sheet_name='2016', names=col_)

df_2017 = pd.read_excel('sales.xlsx',sheet_name='2017', names=col_)

df_2018 = pd.read_excel('sales.xlsx',sheet_name='2018', names=col_)

df_member = pd.read_excel('sales.xlsx',sheet_name='会员等级')

df0 = pd.concat([df_2015,df_2016,df_2017,df_2018], axis=0)

df = df0.copy()

三、数据审查

1、数据概况

df.head()

	userID	orderID	date	bill
0	15278002468	3000304681	2015-01-01	499.0
1	39236378972	3000305791	2015-01-01	2588.0
2	38722039578	3000641787	2015-01-01	498.0
3	11049640063	3000798913	2015-01-01	1572.0
4	35038752292	3000821546	2015-01-01	10.1

df.shape

(204240, 4)

df.info()


Int64Index: 204240 entries, 0 to 81348
Data columns (total 4 columns):
 #   Column   Non-Null Count   Dtype         
---  ------   --------------   -----         
 0   userID   204240 non-null  int64         
 1   orderID  204240 non-null  int64         
 2   date     204240 non-null  datetime64[ns]
 3   bill     204238 non-null  float64       
dtypes: datetime64[ns](1), float64(1), int64(2)
memory usage: 7.8 MB

订单金额有缺失，缺失2条记录。

df.describe()

	userID	orderID	bill
count	2.042400e+05	2.042400e+05	204238.000000
mean	2.901064e+10	4.287966e+09	963.079622
std	1.399716e+10	1.527312e+08	2236.971821
min	8.100000e+01	3.000305e+09	0.000000
25%	1.900445e+10	4.317356e+09	59.525000
50%	3.727031e+10	4.334091e+09	148.000000
75%	3.923266e+10	4.348166e+09	899.000000
max	3.954614e+10	4.354235e+09	174900.000000

通过以上结果可以得到以下结论：

每个sheet的数据都能正常读取识别，没有错误。
日期列已经自动识别成日期格式，省去了后期做转换的过程。
订单金额的分布不均匀，由明显的极大值和极小值。极大值应该是客户一次性购买多个高价值商品，是有意义的。极小值0是使用优惠支付的金额，没有实际意义。数据处理中丢掉订单金额小于1的记录。
存在缺失值，但数量不多只有2条，数据处理中丢掉含有缺失值的记录。

四、数据处理

1、去除重复值、缺失值

df = df.drop_duplicates()

df = df.dropna()

2、创建新特征

data = df[df['bill']>1]

data['year'] = [x.year for x in data['date']]

df_lastestdate = data.groupby(['year'],as_index=False)['date'].max()

df_all = pd.merge(data, df_lastestdate, how='left', on='year')

df_all['datediff'] = df_all[['date_x','date_y']].apply(lambda x: (x['date_y']-x['date_x']).days,axis=1)

df_all = df_all.drop(['date_y'], axis=1)

df_all.rename({'date_x':'date'}, axis=1, inplace=True)

C:\ProgramData\Anaconda3\lib\site-packages\ipykernel_launcher.py:3: SettingWithCopyWarning: 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until

3、按userID汇总

rfm_gb = df_all.groupby(['year','userID'],as_index=False).agg({'datediff':'min','date':'count','bill':'sum'})

rfm_gb.columns = ['year','userID','r','f','m']

rfm_gb.head()

	year	userID	r	f	m
0	2015	267	197	2	105.0
1	2015	282	251	1	29.7
2	2015	283	340	1	5398.0
3	2015	343	300	1	118.0
4	2015	525	37	3	213.0

五、确定RFM划分区间

做RFM划分时，基本逻辑是分别对R,F,M做分箱或离散化操作，然后才能得到离散化的得分。

rfm_gb.describe()

	year	userID	r	f	m
count	148591.000000	1.485910e+05	148591.000000	148591.000000	148591.000000
mean	2016.773075	2.811669e+10	165.524043	1.365002	1323.741329
std	1.129317	1.477660e+10	101.988472	2.626953	3753.906883
min	2015.000000	8.100000e+01	0.000000	1.000000	1.500000
25%	2016.000000	1.728262e+10	79.000000	1.000000	69.000000
50%	2017.000000	3.689151e+10	156.000000	1.000000	189.000000
75%	2018.000000	3.923337e+10	255.000000	1.000000	1199.000000
max	2018.000000	3.954614e+10	365.000000	130.000000	206251.800000

从数据描述可以看出，总数据一共有14万条，r和m的数据分布相对离散，表现在min、25%、50%、75%、max的数据没有特别集中；而f（购买频率）中，大部分用户的分布都趋近于1，表现在min、25%、50%、75%的分段值都是1，并且均值才为1.3.

我们对r、f、m分别做3个区间的离散化，这样出来的用户群体最多有27个。划分区间过多不利于用户群体的拆分，划分区间过小则可能导致每个特征上的用户区分不显著。

我们计划选择25%、75%作为区间划分的2个边界值。问题在于，r和m本身能较好的区分用户特征，而f则无法有效区分（大部分用户只有1个订单）。针对这个问题需要跟业务部门沟通了解进而确定划分边界值。由于行业属性（大家电）的原因，用户发生复购确实很少，1年购买1次是比较普遍，因此选择2和5作为边界值：选择2是因为一般的业务认为当年购买2次及以上就可以被定位为复购用户，5次是业务认为普通用户购买5次已经是非常高的次数，超过该次数就属于非常高价值用户群体，这2个边界值是基于业务经验获得的。

rbins = [rfm_gb['r'].quantile(0)-1,rfm_gb['r'].quantile(0.25),rfm_gb['r'].quantile(0.75),rfm_gb['r'].quantile(1)]

mbins = [rfm_gb['m'].quantile(0)-1,rfm_gb['m'].quantile(0.25),rfm_gb['m'].quantile(0.75),rfm_gb['m'].quantile(1)]

fbins = [rfm_gb['f'].quantile(0)-1,2,5,rfm_gb['f'].quantile(1)]

最小值边界为什么小于特征的最小值呢？
后续使用的pd.cut方法，它对于自定义边界实行的是左开右闭的原则，造成最左侧的值无法划分到任何区间，因此在定义最小值时，一定要将最小值的边界定义的比特征的最小值小。

六、计算RFM因子权重

在计算RFM组合得分时，可以直接将结果组合成一个新分组，或者加权求和得到一个新的RFM得分。使用加权求和需要确定一个权重值。

这个项目里有会员等级数据，可以基于会员等级来确定RFM3个特征的权重，思路是建立RFM和会员等级的分类模型，通过模型输出权重。

没有这种会员数据的则可以根据业务经验分配权重。

df_member.rename({'会员ID':'userID','会员等级':'class'},axis=1,inplace=True)

rfm = pd.merge(rfm_gb,df_member,how='inner',on='userID')

rfm.head()

	year	userID	r	f	m	class
0	2015	267	197	2	105.0	1
1	2015	282	251	1	29.7	5
2	2017	282	314	2	12992.0	5
3	2018	282	19	5	30027.0	5
4	2015	283	340	1	5398.0	4

rfm.info()


Int64Index: 142292 entries, 0 to 142291
Data columns (total 6 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   year    142292 non-null  int64  
 1   userID  142292 non-null  int64  
 2   r       142292 non-null  int64  
 3   f       142292 non-null  int64  
 4   m       142292 non-null  float64
 5   class   142292 non-null  int64  
dtypes: float64(1), int64(5)
memory usage: 7.6 MB

clf = RandomForestClassifier().fit(rfm[['r','f','m']], rfm['class'])

weights = clf.feature_importances_

weights

array([0.4036885 , 0.00640852, 0.58990298])

从以上结果可知，在这RFM这3个特征中，用户等级首先侧重会员的价值贡献度（实际订单那的贡献），其次是新近程度，最后是频次。这种逻辑与很多公司的整体会员等级一致。

七、RFM计算过程

rfm_gb['r_score'] = pd.cut(rfm_gb['r'], bins=rbins, labels=[i for i in range(len(rbins)-1,0,-1)])

rfm_gb['f_score'] = pd.cut(rfm_gb['f'], bins=fbins, labels=[i+1 for i in range(len(fbins)-1)])

rfm_gb['m_score'] = pd.cut(rfm_gb['m'], bins=mbins, labels=[i+1 for i in range(len(mbins)-1)])

rfm_gb.head()

	year	userID	r	f	m	r_score	f_score	m_score
0	2015	267	197	2	105.0	2	1	2
1	2015	282	251	1	29.7	2	1	1
2	2015	283	340	1	5398.0	1	1	3
3	2015	343	300	1	118.0	1	1	2
4	2015	525	37	3	213.0	3	2	2

rfm_gb = rfm_gb.apply(np.int32)

# 加权得分
rfm_gb['rfm_score'] = rfm_gb['r_score']*weights[0] + rfm_gb['f_score']*weights[1] + rfm_gb['m_score']*weights[1]

rfm_gb.head()

	year	userID	r	f	m	r_score	f_score	m_score	rfm_score
0	2015	267	197	2	105	2	1	2	0.826603
1	2015	282	251	1	29	2	1	1	0.820194
2	2015	283	340	1	5398	1	1	3	0.429323
3	2015	343	300	1	118	1	1	2	0.422914
4	2015	525	37	3	213	3	2	2	1.236700

# R F M组合
rfm_gb['rfm_group'] = rfm_gb.apply(lambda row: str(int(row['r_score']))+str(int(row['f_score']))+str(int(row['m_score'])),axis=1)

rfm_gb.head()

	year	userID	r	f	m	r_score	f_score	m_score	rfm_score	rfm_group
0	2015	267	197	2	105	2	1	2	0.826603	212
1	2015	282	251	1	29	2	1	1	0.820194	211
2	2015	283	340	1	5398	1	1	3	0.429323	113
3	2015	343	300	1	118	1	1	2	0.422914	112
4	2015	525	37	3	213	3	2	2	1.236700	322

八、RFM图形展示

display_df = rfm_gb.groupby(['rfm_group','year'], as_index=False)['userID'].count()

display_df.rename({'userID':'number'},axis=1,inplace=True)

display_df2 = display_df.pivot_table(index='rfm_group',columns='year',values='number')

display_df2.plot.bar()

九、数据分析

1、基于图形的分析

重点人群分布：通过柱状图做简单分析，在左右分组中，212群体的用户是相对集中且变化最大的。通过图形可以发现，从2016年到2017年用户群体数量变化不大，但到2018年增长了一倍。因此，这个群体将作为重点分析群体。

重点分组分布：除了212群体，柱状图还显示了312、213、211、112群体在各个年份占很大重量，虽然规模不大，但合起来的总量超过212群体。因此，后期也要分析。

2、基于统计的分析

result_df = display_df.groupby('rfm_group')['number'].sum()

result_1 = result_df.sort_values(ascending=False)/result_df.sum()*100

result_2 = result_1.cumsum()

result = pd.concat([result_1,result_2,result_df],axis=1)

result.columns = ['ratio','cunsum_ratio','number']

result

	ratio	cunsum_ratio	number
212	24.792215	24.792215	36839
211	12.802256	37.594471	19023
312	12.554596	50.149067	18655
112	11.337160	61.486227	16846
213	11.016818	72.503045	16370
311	6.241293	78.744338	9274
111	6.136307	84.880646	9118
313	5.613395	90.494041	8341
113	5.070967	95.565007	7535
123	1.300213	96.865221	1932
233	0.703946	97.569166	1046
122	0.683083	98.252249	1015
333	0.326399	98.578649	485
133	0.317650	98.896299	472
322	0.275925	99.172224	410
222	0.251698	99.423922	374
223	0.249006	99.672928	370
323	0.246314	99.919241	366
332	0.024901	99.944142	37
321	0.022882	99.967024	34
221	0.016152	99.983175	24
232	0.008749	99.991924	13
121	0.006057	99.997981	9
132	0.001346	99.999327	2
331	0.000673	100.000000	1

从统计结果可以看出，前9个用户群体的累计占比接近96%，和柱状图显示一致，因此我们把分析重点放到这9个群体上。

3、RFM用户特征分析

第一类群体：占比超过10%，用户量大，必须采取批量的方式落地运营策略，不能主要依赖人工。

212群体：可发展的一般性群体，购买新进度和订单金额处于中等层级，购买频率低。采用常规性礼品兑换赠送、活动签到免运费等手段提升消费状态。
211群体：可发展的低价值群体，相比于212群体在订单金额表现略差，在212群体策略基础上，增加与订单相关的刺激措施，比如组合商品优惠券发送、积分购买商品等。
312群体：有潜力的一般性群体，购买新进度高，对公司还有比较熟悉的接触渠道和认知；购买频率低，对网站的忠诚度一般；订单金额中等水平，华友提升的空间。可借助最近购买的商品，制定一些与上次购买相关的商品，通过向上销售提高购买频率和订单金额。
112群体：可挽回的一般性群体：购买新进度低，距离上次购买时间较长，可能处于沉默、预流失、流失阶段；购买频率低，对网站忠诚度一般；订单金额处于中等层级，还有提升的空间。首先通过多种途径触达用户并挽回，比如邮件、短信、电话等，然后通过针对流失用户的专享优惠（优惠券之类）促进消费。增加接触频次和刺激力度，提高用户复购。
213群体：可发展的高价值群体：购买频次低，指定不同的活动触达用户（比如节日活动、每周推新、高价值用户专享商品等），促使回访和购买。

第二类群体：占比1%~10%，用户数量适中，落地时可以借助人工。

311群体：有潜力的一般性群体，与211群体类似，但是在新进度较好，使用211群体策略即可。在最近接触的渠道上增加广告和营销投入，再次将用户引入网站完成消费。
111群体，各个维度都较差的群体，在其他群体策略都落地后再考虑这个群体。主要策略还是先通过多种方式挽回用户，然后为用户推送当前热销的商品或折扣力度大的商品。先在优惠券、优惠商品的刺激下完成消费，再考虑购买频次和订单金额的提升。
313群体：有潜力的高价值群体，购买频次低，需要提升购买频次。除了在最近一次接触渠道上增加曝光外，与最近一次接触渠道相关访问渠道也考虑增加营销投入。213群体的策略也适用。
113群体：可挽回的高价值群体，与112群体类似，除了112群体策略外，增加部分人工参与（线下访谈、电话沟通）挽回高价值用户。

第三类群体：占比很少，但非常重要。

333群体：忠诚的高价值群体。用户数量少，但是各个维度表现都很好，可以倾斜更多资源在这个群体，设计VIP服务、专享服务、绿色通道等。
233、223、133群体：一般性的高价值群体，重点在于提高新近购买度，促使其实现最近一次的消费，可通过电子邮件、短信、电话、微信等方式挽回用户。
322、323、332群体：有潜力的普通群体，要提升新近购买度和订单金额，如个性化推荐、组合优惠券、打包商品销售等策略。

Julia语言的学习路线樟松包罗万象 golang 开发语言后端
Julia语言学习路线指南引言在编程语言层出不穷的今天，Julia作为一门新兴的高级编程语言，以其出色的性能和易用性逐渐获得了越来越多的关注。特别是在科学计算、数据分析和机器学习等领域，Julia的表现十分出色，成为研究人员和开发者的热门选择。本文将为希望学习Julia语言的读者提供一条详细的学习路线，包括基础知识、工具、库、项目和实践经验等，帮助大家有效地掌握这门语言。一、了解Julia语言在开
架构模式之黑板模式 weixin_30518397 c/c++游戏数据库
一、定义黑板模式是一种常用的架构模式，应用中的多种不同数据处理逻辑相互影响和协同来完成数据分析处理。黑板模式允许多个消息读写者同时存在，消息的生产者和消费者完全分开。这就像一个黑板，任何一个教授（消息的生产者）都可以在其上书写消息，任何一个学生（消息的消费者）都可以从黑板上读取消息，两者在空间和时间上可以解耦，并且互不干扰。这种模式对于没有确定解决方案策略的问题是有用的。二、模式组成黑板模式由3个
使用Python爬取豆瓣用户信息：从入门到实战 Python爬虫项目 2025年爬虫实战项目 python 开发语言人工智能爬虫大数据
引言豆瓣作为一个知名的社交平台，拥有丰富的用户信息。对于数据分析师、研究人员或普通用户来说，获取豆瓣用户信息具有重要的价值。本文将详细介绍如何使用Python及其相关库来爬取豆瓣用户信息，并展示如何利用最新的技术手段来实现这一目标。1.准备工作在开始编写爬虫之前，我们需要准备一些工具和环境：Python3.x：确保你已经安装了Python3.x版本。Requests库：用于发送HTTP请求。Bea
深入 Python 网络爬虫开发：从入门到实战南玖yy python python爬虫
一、为什么需要爬虫？在数据驱动的时代，网络爬虫是获取公开数据的重要工具。它可以帮助我们：监控电商价格变化抓取学术文献构建数据分析样本自动化信息收集二、基础环境搭建1.核心库安装pipinstallrequestsbeautifulsoup4lxmlseleniumscrapy2.开发工具推荐PyCharm（专业版）VSCode+Python扩展JupyterNotebook（适合调试）三、爬虫开发
数组中最长递增子序列问题的深入研究 cloudman08 算法
目录摘要一、引言二、问题定义三、问题分析3.1暴力枚举法的困境3.2动态规划的应用3.3二分查找优化四、算法设计4.1动态规划算法4.2二分查找优化算法4.3代码实现（Python）4.4代码解释五、复杂度分析5.1动态规划算法复杂度5.2二分查找优化算法复杂度六、实际应用6.1数据分析6.2生物信息学6.3信号处理七、结论摘要在数组处理的算法领域，寻找最长递增子序列是一个经典且具有广泛应用的问题
Python 爬虫实战：国际航班数据抓取与全球航班网络分析西攻城狮北 python 爬虫开发语言
一、引言随着全球化的加速，国际航班网络已成为现代交通体系的重要组成部分。通过分析国际航班数据，我们可以深入了解全球航空枢纽、热门航线以及航班流量的变化趋势。本文将介绍如何通过爬取国际航班数据，分析全球航班网络的情况，并给出实现爬虫和数据分析的详细过程及代码。二、项目背景与目标2.1项目背景航空交通是全球经济和旅游业的核心部分，了解全球航班网络有助于掌握各大航空公司之间的竞争格局、全球机场的枢纽作用
不知道天气咋样？一起用Python爬取天气数据分析告诉你 Dragon少年 Python python 爬虫图表可视化
前言今天我们分享一个小案例，获取天气数据，进行可视化分析，带你直观了解天气情况！一、核心功能设计总体来说，我们需要先对中国天气网中的天气数据进行爬取，保存为csv文件，并将这些数据进行可视化分析展示。拆解需求，大致可以整理出我们需要分为以下几步完成：通过爬虫获取中国天气网7.20-7.21的降雨数据，包括城市，风力方向，风级，降水量，相对湿度，空气质量。对获取的天气数据进行预处理，分析河南的风力等
Python 爬虫实战：于好大夫在线抓取医生评价数据，选择优质医疗服务西攻城狮北 python 爬虫实战案例好大夫在线
目录引言一、爬虫基础预备知识1.1爬虫的基本概念1.2必备库介绍二、抓取医生评价数据2.1目标网站分析2.2发送HTTP请求2.3解析网页内容2.4保存数据三、数据分析与可视化3.1数据清洗3.2数据分析3.3数据可视化四、选择优质医疗服务4.1选择标准4.2推荐医生4.3分享推荐五、总结与展望5.1总结5.2展望引言在当今医疗信息爆炸的时代，选择一位合适的医生对于患者来说至关重要。好大夫在线是一
Python处理CSV文件的12个高效技巧宇宙大豹发 python 开发语言
今天，我们的Python之旅，目标是那片由逗号分隔的宝藏——CSV文件。别看它简单，掌握这些技巧，你的数据处理能力将直线上升，轻松驾驭千行万列的数据海洋。让我们一起，用Python的魔力，让CSV舞动起来吧！1.初次见面，你好，CSV！安装pandas，是这场冒险的起点。它，是Python数据分析的瑞士军刀。pipinstallpandas导入我们的英雄——pandas，并亲切地叫它pd。impo
DeepSeek 使用教程及部署指南：从入门到实践点我头像干啥 Ai 信息可视化 python 人工智能分类数据挖掘深度学习
目录引言第一部分：DeepSeek简介1.1什么是DeepSeek？1.2DeepSeek的核心功能1.3DeepSeek的应用场景第二部分：DeepSeek使用教程2.1注册与登录2.2创建项目2.3数据导入2.4数据分析2.5文本挖掘2.6信息检索2.7保存与分享第三部分：DeepSeek部署指南3.1本地部署3.1.1环境准备3.1.2安装DeepSeek3.1.3启动DeepSeek3.2
怎样通过企业数据资产管理推动企业数字化转型阿桂天山数据资产化理论篇
企业数据资产管理在推动企业数字化转型中发挥着关键作用，以下是其主要推动方式：1.提升数据质量数据资产管理通过对数据进行清洗、整合和标准化处理，消除数据冗余和错误，提高数据的准确性和一致性。这为企业后续的数据分析和应用奠定了坚实基础，确保企业能够基于高质量的数据做出科学决策。2.促进数据共享与协同在数字化转型过程中，企业内部不同部门之间的数据共享和协同至关重要。数据资产管理通过建立统一的数据标准和规
数字孪生对于新基建的价值浅析，算是抛砖引玉。大牛工控设计师人工智能信息可视化前端
数字孪生（DigitalTwin）作为一项融合物理世界与数字世界的关键技术，在新基建中扮演着虚实协同、智能决策、全生命周期管理的核心角色，其价值贯穿于基础设施的设计、建设、运维到优化全流程。一、核心价值：虚实映射与智能决策实时动态映射通过传感器、IoT设备实时采集物理实体（如工厂、城市、电网）的运行数据，构建高精度虚拟模型，实现**“所见即所控”**的透明化管理。模拟预测与优化利用AI和大数据分析
浅谈StarRocks数据库简介及应用微笑的曙光（StevenLi）数据库数据库
StarRocks是一款高性能的实时分析型数据库，专为复杂的SQL查询提供极高的性能，尤其适用于数据分析场景。它是一款开源的新一代极速全场景MPP（MassivelyParallelProcessing，大规模并行处理）数据库，致力于构建极速和统一的分析体验。StarRocks兼容MySQL协议，用户可以使用MySQL客户端和常用的BI（BusinessIntelligence，商业智能）工具进行
用Python打造智能家居安防系统，让科技守护你的家 Echo_Wish Python 笔记 Python 算法 python 智能家居科技
友友们好！我是Echo_Wish，我的的新专栏《Python进阶》以及《Python！实战！》正式启动啦！这是专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
解锁高性能Web应用：Gunicorn、Flask与Docker的高并发部署秘籍我是瓦力前端 gunicorn flask
引言在当今的互联网时代，高并发Web应用已成为许多企业的核心需求。无论是电商平台、社交网络还是实时数据分析系统，高并发能力直接影响到用户体验和业务成败。本文将带你深入探讨如何利用Gunicorn、Flask和Docker，实现高性能、高并发的Web应用部署。Gunicorn、Flask和Docker的基本概念Gunicorn：GreenUnicorn(简称Gunicorn)是一个PythonWSG
数据分析大数据面试题大杂烩01 爱学习的菜鸟罢了大数据 flink 大数据面试 hive hadoop kafka
互联网:通过埋点实时计算用户浏览频次用优惠券等措施吸引用户,通过历史信息用非智能学习的title方式构造用户画像(抖音,京东)电信,银行统计营收和针对用户的个人画像:处理大量非实时数据政府:健康码,扫码之后确诊,找出与确诊对象有关联的人订单订单表(除商品以外所有信息),商品详情表,通过搜集用户title进行定制化推荐点击流数据通过埋点进行用户点击行为分析FLINK一般用来做实时SPARK一般用来做
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
基础知识《Redis解析》 Hum8le redis 数据库缓存安全 web安全
Redis详细解析与介绍Redis（RemoteDictionaryServer）是一个开源的高性能键值对（Key-Value）数据库，支持多种数据结构（如字符串、哈希、列表、集合等），广泛应用于缓存、消息队列、实时数据分析等场景。核心特点：内存存储：数据主要存储在内存中，读写性能极高（10万+/秒QPS）。持久化支持：支持RDB（快照）和AOF（追加日志）两种持久化方式。多数据结构：支持字符串、
使用 Excel 实现绩效看板的自动化 chenchihwen 自动化运维
引言在日常工作中，团队的绩效监控和管理是确保项目顺利进行的重要环节。然而，面临着以下问题：数据分散：系统中的数据难以汇总，缺乏一个宏观的团队执行情况视图。看板缺失：系统本身可能无法提供合适的Dashboard，导致数据分析困难。手动操作繁琐：数据采集、汇总和分析过程繁琐且耗时。本文将介绍如何利用免费的软件和工具（如Python、MySQL、Excel等）实现绩效看板的自动化。通过邮件自动推送和接收
MATLAB 操作指南（结尾附实操案例） vvvae1234 信息可视化
一、MATLAB简介MATLAB（矩阵实验室）是一个高级技术计算语言和交互环境，它主要用于数值计算、数据分析、算法开发和可视化。MATLAB的核心功能是矩阵运算，它能够处理向量和矩阵为中心的数学问题，方便用户进行算法的开发和数据可视化。主要特点高效的数值计算：MATLAB内置了许多用于数学和工程计算的函数，用户可以轻松地进行数值运算。可视化功能：MATLAB提供了丰富的工具，用于生成各种类型的图形
该如何升级Tableau server呢？
在现代数据分析的世界中，Tableau作为一个强大的企业级数据可视化工具，受到众多公司喜爱。但是由于Tableau退出中国市场，如果仍在使用Tableau的企业，一定要做好TableauServer升级。随着技术的不断更新，升级TableauServer变得越来越重要，以确保您能够利用最新的功能和安全性。在这篇文章中，我们将详细探讨如何进行TableauServer升级，步骤、注意事项以及最佳实践
数据分析及人工智能框架汇总 xihuanyuye 机器学习
一、数据分析二、人工智能1、Tensorflow1、简介TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor（张量）意味着N维数组，Flow（流）意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。Tenso
AI 之路——数据分析（1）Pandas小结与框架整理 Robin_Pi 机器学习之路数据分析数据分析 python 人工智能可视化
目录1.写在前面1.1AI之路：1.2工具/技能：2.数据分析2.1数据分析的流程2.2数据的基本操作方法2.2.1Pandas概览2.2.2使用Pandas操作数据的核心(1)选择数据(2)操作数据2.2.2数据详解3.写在最后1.写在前面主要是阶段性框架总结1.1AI之路：数据分析——机器学习——深度学习——CV/NLP1.2工具/技能：Python、NumPy、Pandas、Matplotl
AI 大模型应用数据中心的数据分析架构 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
《AI大模型应用数据中心的数据分析架构》关键词：数据中心、AI大模型、数据分析、架构设计、应用实践摘要：本文深入探讨了AI大模型在数据中心数据分析架构中的应用，从数据中心背景、AI大模型架构与技术、数据处理与分析技术、AI大模型应用与实践等多个方面，全面解析了AI大模型如何助力数据中心实现高效数据分析和智能处理，为读者提供了系统的理论指导和实际案例分析。第一部分:数据中心背景与AI大模型概述第1章
极致出海友好，融云 IM 支持消息免打扰设置时区 im融云社交
归纳来看，业务全球化难题，其实是无数细微本地化挑战的叠加。时区差异就是应用出海的关键本地化挑战之一，需要在产品设计中充分考虑时间显示、通知推送、内容时效、用户互动、数据分析和团队协作等方面。在应用的社交模块，时区差异更是全球化产品必须考虑的核心要素。比如，若产品支持消息免打扰设置时段，就要针对不同时区进行相应的计算和实现。大多通信服务商提供的解决方案以UTC（世界标准时间）为准，需要业务根据目标市
百度官方！打造「大模型全开发周期系列课程」，AI应用开发入门课率先发布！（内含英雄帖）
在这个大模型技术日新月异的时代，AI的潜力正被无限释放，改变着我们的工作和生活方式。你是否渴望成为这场变革的参与者？你是否也想在这个大模型时代中抢占先机？那“学习AI”、“使用AI”、“入局AI”我们真的可以受益吗？学习辅助：将AI使用融入学习当中，依据当前学习情况，整理重点难点，让复习有的放矢，更高效掌握知识点。效率提升：帮助处理繁琐重复的工具，如数据分析师使用AI识别数据中的关键信息，自动整理
数据处理与图形绘制的多领域应用案例，学会了你也是高手！ A达峰绮经验分享数据处理图形绘制经典案例
一、引言在当今数字化时代，数据处理与图形绘制已成为各领域不可或缺的技术手段。从科学研究到商业分析，从工程设计到日常决策，海量的数据需要高效处理，而直观清晰的图形则能帮助人们迅速理解数据背后的信息。本教程将通过多个具体应用案例，涵盖多种编程语言，深入讲解数据处理与图形绘制的实践方法，助力学习者解决学习过程中的难题，提升相关技能。二、Python在数据处理与图形绘制中的应用（一）金融数据分析案例数据获
Python 爬虫实战：开放数据集抓取与大数据分析应用西攻城狮北 python 爬虫数据分析
引言在数据驱动的时代，开放数据集成为了各领域研究和应用的宝贵资源。通过抓取和分析开放数据集，我们可以挖掘出有价值的信息，为决策提供支持。本文将详细介绍如何使用Python爬虫技术抓取开放数据集，并进行大数据分析应用。一、项目背景与目标1.项目背景随着信息技术的飞速发展，越来越多的机构和组织开始开放其数据集，以促进创新和研究。这些开放数据集涵盖了各个领域，如气象、交通、医疗、金融等。通过抓取和分析这
Python 爬虫基础教程盛子涵666 python 爬虫开发语言
爬虫的背景与应用诞生爬虫（WebCrawling）是自动化程序，用于从互联网上获取信息。爬虫的基本任务是自动访问网站，通过抓取网页内容并提取有用数据来构建数据库、索引或者进行进一步的数据分析。爬虫通常会模拟浏览器的行为，以避免被服务器识别为机器人，并且能够在大规模范围内高效地抓取信息。爬虫技术最早由搜索引擎开发者提出，目的是自动收集网页信息并将其索引，便于用户搜索时快速检索相关内容。随着互联网的快
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found