Rebeccaluna

拼多多用户优惠券使用行为预测分析项目

- - 一、项目分析背景
  - 二、项目分析目标
  - 三、项目分析内容
  - - 1. 数据预处理
    - - （1）导入所需库及数据集信息
      - （2）了解数据基本情况
      - 1）观察数据类型和数据量
        
        2）观察数据集结构与内容
        
        3）观察数值型变量的描述性统计情况
        
        4）观察字符型变量的分类情况
      - （3）数据清洗
      - 1）数值型变量的离群值过滤
        
        2）字符型变量（job变量）的噪声数据处理
      - （4）特征类型转化
      - 1）job变量（用户岗位详情）的数据类型转换
        
        2）marital变量（用户婚姻状况）的数据类型转换
        
        3）default变量（用户信用卡是否存在违约行为）的数据类型转换
        
        4）returned变量(用户是否有过退货行为)的数据类型转换
        
        5）loan变量(用户是否使用信用卡付款)的数据类型转换
    - 2. 算法模型的学习与调参
    - - （1）模型建立
      - （2）模型参数调整
      - （3）连续性变量离散化后对模型的优化
      - 1）连续性变量的离散化
        
        2）重新构建模型
    - 3. 模型的结果预测
    - - （1）模型中特征重要性分析
      - （2）模型的结果预测
  - 四、项目分析结论
  - - 1. 构建用户画像
    - - （1）用户年龄及用户职位详情
      - 1）用户年龄分布情况
        
        2）用户年龄与用户职位信息间相关关系
      - （2）用户是否有过退货行为
      - （3）用户在1个月内累计使用优惠券数量
    - 2. 相关建议

一、项目分析背景

拼多多是国内主流的手机购物APP，成立于2015年9月，用户通过发起和朋友、家人、邻居等的拼团，以更低的价格，拼团购买商品。

拼多多作为新电商开创者，致力于将娱乐社交的元素融入电商运营中，通过“社交+电商”的模式,让更多的用户带着乐趣分享实惠,享受全新的共享式购物体验。

对于各大电商平台，在“双十一”这种大促时间段，优惠券会起到非常大的促销作用。那么，如何找到更容易使用优惠券的用户，对他们精准地推送与营销，从而在双十一期间促使销售额获得很大程度上的提升呢？这将是一个待分析和解决的问题。

二、项目分析目标

根据对已获取数据的分析和信息挖掘，构建具有较好泛化能力的预测模型，从而对导入模型的未知特征矩阵数据进行优惠券是否被使用的有效预测，是此次项目的主要实践目标。

通过对包含用户属性信息以及优惠券的累计使用情况的数据集进行算法模型的构建，来预测不同属性下的消费者在未来是否会产生优惠券的使用行为，从而提出关于针对性发放优惠券、提升优惠券使用率的相关决策建议。

三、项目分析内容

1. 数据预处理

（1）导入所需库及数据集信息

# 导入第三方库
import pandas as pd
import numpy as np
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')

# 导入数据库
pdd= pd.read_csv('E:/数据分析课程/week seven（逻辑回归）/拼多多优惠券数据.csv')
pdd.set_index('ID',inplace=True)

（2）了解数据基本情况

1）观察数据类型和数据量

pdd.info()

通过上述观察可知，整个数据集共有4个数值型变量及5个字符型变量，包含25317个数据样本，且不存在缺失值。

2）观察数据集结构与内容

pdd.head()

通过对数据集的结构与内容进行观察可知，其包含8个特征及一个标签，特征矩阵中存有两个数据维度，分别为用户属性以及用户消费行为信息，如下是不同维度内的特征及标签列含义解读情况：

用户属性维度
- age：数值型变量，用户年龄
- job：字符型变量，用户岗位详情
- marital：字符型变量，用户婚姻状态
- default：字符型变量，信用卡是否存在违约行为
用户消费行为维度
- returned：字符型变量，用户是否有过退货行为
- loan：字符型变量，用户是否使用信用卡付款
- coupon_used_in_last6_month：数值型变量，用户在6个月内累计使用优惠券数量
- coupon_used_in_last_month：数值型变量，用户在1个月内累计使用优惠券数量
数据标签字段
- coupon_ind：数值型变量，用户是否在此次活动中使用优惠券

3）观察数值型变量的描述性统计情况

pdd.loc[:,pdd.columns!='coupon_ind'].describe([0.1,0.25,0.5,0.75,0.85,0.9,0.99,0.999]).T

通过观察数值型变量的描述性统计情况可得：

age（用户年龄）：最小值为18岁，最大值却达到了95岁，并且从分布情况来看90%以后的分布离散情况过于严重，存在一定的数据异常。首先，从数据本身入手，在99.9%处的年龄值为83岁，而最大值却达到了95岁，离散值偏离整体数据过远，存在异常。其次，从现实意义来看，95岁高龄的老年人不太可能使用拼多多软件进行购物，为此数据存在录入异常情况。后续会对异常值进行数据清洗。
coupon_used_in_last6_month（用户在6个月内累计使用优惠券数量）：近50%的用户在6个月内仅使用过一张优惠券，而分布在75%后的用户的累计优惠券使用数量达到3张及以上，拉动整体使用数量的平均值达到了3张左右，这种现象符合帕累托定律（80/20法则），反映出拼多多近80%的优惠券使用量由仅20%的用户提供，从优惠券使用率的角度来看，拼多多存在高价值用户，后续需要有区分性的对高价值用户和一般用户制定优惠券推广策略，尝试推动一般用户提升优惠券的使用量，重点关注如何维护高价值用户的忠诚度。

除此之外，从整体分布以及合理性来看，数据存在异常值（离群值），后续需对其进行过滤，其目的是为了减少模型在学习过程中拟合效果出现偏差的可能性。
coupon_used_in_last_month（用户在1个月内累计使用优惠券数量）：近75%的用户在近1个月内没有使用过优惠券，仅有分布在最后的15%左右的用户使用了1张及以上的优惠券。从整体上来看，优惠券累计使用数量的平均值仅为0.3，标准差值也不大，说明在近一个月内使用优惠券较多的用户数量占比很小，未能起到拉动整体平均使用量提升的效果，且数值分布较均衡，多数用户使用至多一张优惠券，仅存在极少量的离群值，可知拼多多在1个月内对优惠券的推广效果并不可观，需进一步改进优惠券的策略制定。
类似于用户在6个月内累计使用优惠券数量变量的情况，数据本身存在异常值（离群值），为此需要在后续进行数据过滤。

4）观察字符型变量的分类情况

# 构建字符型变量分类情况函数
def fun(group):
    m=pdd.groupby(group).count()['coupon_ind']
    n=pdd.count()['coupon_ind']
    lis=['{}%'.format(round(i*100/n,2)) for i in m]
    data=pd.DataFrame([m.index.tolist(),m.values.tolist(),lis]).T
    data.columns=['{}'.format(group),'total_num','percent']
    return data

# job变量(用户职位分类情况)
fun('job')

job（用户职位信息）：通过观察用户职位的分类情况可知，其共包含11个分类，分别为admin.、blue_collar、entrepreneur、housemaid、management、retired、self_employed、services、student、technician及unemployed，其中存在163个未知分类数据，后续需对这些噪声值进行适当的处理。

# marital变量(用户婚姻状况)

marital（用户婚姻状况）：通过观察用户婚姻状况的分类情况可知，其共包含3个分类，分别为divorced、married及single，该字段并不存在异常的分类情况。

# default变量(用户信用卡是否存在违约行为)

default（用户信用卡是否存在违约行为）：通过观察用户信用卡是否存在违约行为的分类情况可知，其共包含2个分类，分别为yes和no，且两者的分布情况非常不均衡，占比达到99:1。除此之外，该字段不存在异常分类情况。

# returned变量(用户是否有过退货行为)
fun('returned')

returned（用户是否有过退货行为）：通过观察用户是否有过退货行为的分类情况可知，其共包含2个分类，分别为yes和no，两者的分布情况较均衡，且该字段不存在异常分类情况。

# loan变量(用户是否使用信用卡付款)
fun('loan')

loan（用户是否使用信用卡付款）：通过观察用户是否使用信用卡付款的分类情况可知，其共包含2个分类，分别为yes和no，且两者的分布情况非常不均衡，占比达到5:1。除此之外，该字段不存在异常分类情况。

（3）数据清洗

1）数值型变量的离群值过滤

# 先过滤age字段离群值 
des=pdd.loc[:,pdd.columns!='coupon_ind'].describe([0.1,0.25,0.5,0.75,0.9,0.99,0.999]).T
q3=des['75%']['age']
q1=des['25%']['age']
min_bound=q1-1.5*(q3-q1)
max_bound=q3+1.5*(q3-q1)
pdd=pdd.loc[(pdd['age']>min_bound)&(pdd['age']<max_bound)]
pdd.loc[:,pdd.columns!='coupon_ind'].describe([0.1,0.25,0.5,0.75,0.85,0.9,0.99,0.999]).T

利用箱线图的分布规律先过滤age字段的离群值，过滤掉<下四分位—1.5x（上四分位—下四分位）以及>上四分位+1.5x（上四分位—下四分位）的离群数据样本。通过对age字段的清洗可观察到离群值已经得到了有效的过滤，清洗了近300条异常值，数据总量还有25033条。
进一步观察描述性统计结果发现coupon_used_in_last6_month和coupon_used_in_last_month字段依旧存在较离谱的离群值，但是为了保证不大量减少该字段所包含的信息量，将不使用箱线图分布情况进行筛选方法，而是直接删除大于99.9%处数值的样本数据，避免过度损失字段信息。

# 过滤coupon_used_in_last6_month字段离群值
pdd=pdd.loc[pdd['coupon_used_in_last6_month']<des.loc
               ['coupon_used_in_last6_month','99.9%'],:]
# 过滤coupon_used_in_last_month字段离群值
pdd=pdd.loc[pdd['coupon_used_in_last_month']<des.loc
               ['coupon_used_in_last_month','99.9%'],:]
pdd.loc[:,pdd.columns!='coupon_ind'].describe([0.1,0.25,0.5,0.75,0.85,0.9,0.99,0.999]).T

通过对coupon_used_in_last6_month和coupon_used_in_last_month字段采用相同方式的异常值清洗，可得上述的描述性统计结果，数据总量剩余24952条。

2）字符型变量（job变量）的噪声数据处理

# 清洗job变量的噪声数据
pdd=pdd[pdd['job']!='unknown']
fun('job')

通过前面对job变量分类情况的分析，可以获知未知分类仅占总体的0.64%，异常值数据量较少且数据的填充值具有不确定性，为此可对其直接进行删除操作。

（4）特征类型转化

为了便于后续建立分类器模型，需提前将字符型数据转化为数值型数据。（sklearn中分类器无法处理字符型）

1）job变量（用户岗位详情）的数据类型转换

# 将job变量的11个类别分别用0-10来表示
from sklearn.preprocessing import LabelEncoder
le=LabelEncoder().fit_transform(pdd.job)
pdd['job_label']=le
m=list(pdd.groupby('job').count()['job_label'].index)
n=list(pdd.groupby('job_label').count()['job'].index)
show=pd.DataFrame(m,columns=['job'])
show['job_label']=n

使用数据预处理库中的LabelEncode对字符型数据进行编码处理，将字符型数据转化为0-10的数值型数据，便于后续分类器模型的建立。

2）marital变量（用户婚姻状况）的数据类型转换

# 将marital变量的3个类别分别用0-2来表示
le1=LabelEncoder().fit_transform(pdd.marital)
pdd['marital_label']=le1
m1=list(pdd.groupby('marital').count()['marital_label'].index)
n1=list(pdd.groupby('marital_label').count()['marital'].index)
show1=pd.DataFrame(m1,columns=['marital'])
show1['marital_label']=n1

处理方法同job变量，将用户婚姻状况字符型变量转化为3个类别，分别用0-2来表示。

3）default变量（用户信用卡是否存在违约行为）的数据类型转换

# 将default变量的2个类别分别0和1来表示
pdd['default_label']=pdd.default.apply(lambda x:0 if x=='no' else 1)
m2=list(pdd.default.unique())                             
n2=list(pdd.default_label.unique())
show2=pd.DataFrame(m2,columns=['default'])
show2['default_label']=n2

直接使用匿名函数将default变量进行二值化处理，no用0来表示，yes用1来表示。

4）returned变量(用户是否有过退货行为)的数据类型转换

# 将returned变量的2个类别分别0和1来表示
pdd['returned_label']=pdd.returned.apply(lambda x:0 if x=='no' else 1)
m3=list(pdd.returned.unique())                             
n3=list(pdd.returned_label.unique())
show3=pd.DataFrame(m3,columns=['returned'])
show3['returned_label']=n3

直接使用匿名函数将default变量进行二值化处理，no用0来表示，yes用1来表示。

5）loan变量(用户是否使用信用卡付款)的数据类型转换

# 将loan变量的2个类别分别0和1来表示
pdd['loan_label']=pdd.loan.apply(lambda x:0 if x=='no' else 1)
m4=list(pdd.loan.unique())                             
n4=list(pdd.loan_label.unique())
show4=pd.DataFrame(m4,columns=['loan'])
show4['loan_label']=n4

直接使用匿名函数将loan变量进行二值化处理，no用0来表示，yes用1来表示。

# 最终数据集内容如下所示
pddnew=pdd.loc[:,['job_label','marital_label','default_label','loan_label',                	                 'returned_label','age','coupon_used_in_last_month',
                  'coupon_used_in_last6_month','coupon_ind']]
pddnew.head()

2. 算法模型的学习与调参

项目本身是解决分类型问题，且数据集多包含离散型变量，此次将选择随机森林分类器作为项目的模型。

（1）模型建立

# 导入所需的sklearn模块
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score,train_test_split
# 利用学习曲线确定n_estimators参数最佳值
score1=[]
for i in range(80,101):
    rfc=RandomForestClassifier(n_estimators=i,random_state=10)
    score_=cross_val_score(rfc,x,y,cv=10).mean()
    score1.append(score_)
max_estimators=(score1.index(max(score1)))+80 # 最后结果为86
# 绘制可视化折线图确定最佳参数值及最高准确率
scatter1=go.Scatter(x=list(range(80,101)),y=score1,marker=dict(color='#c9422d'))
fig=go.Figure(scatter1)
fig.update_layout(
    plot_bgcolor='#FEFEFE',
    xaxis_title='n_estimators参数取值',
    yaxis=dict(title='准确率',gridcolor='#F1F0EF')
)
fig.show()

n_estimators参数学习曲线折线图

n_estimators参数是一个超参数，偏向于越大所得结果越好，可通过绘制学习曲线确定，随着其参数值不断增加，不会影响模型的复杂程度，从而影响模型的泛化误差，为此可作为随机森林模型第一个调整的参数。
构建随机森林分类器后，利用交叉验证结果绘制n_estimators参数的学习曲线，确定最佳参数值为86。

（2）模型参数调整

# 判断模型处于何种拟合状态(欠拟合或者过拟合)
xtrain,xtest,ytrain,ytest=train_test_split(x,y,test_size=0.3,random_state=1)
rfc=RandomForestClassifier(n_estimators=86,random_state=10).fit(xtrain,ytrain)
score_test=rfc.score(xtest,ytest)
score_train=rfc.score(xtrain,ytrain)
print(score_train,score_test)

对训练集进行预测所获准确率为0.936，对测试集进行预测准确率为0.869，两者相差较大，表明现在模型处于过拟合状态（随机森林的基评估器决策树本是就是一个易过拟合的模型），接下来需要对模型进行剪枝操作，从而提升模型的泛化能力。

# 调整对模型复杂程度影响较大的max_depth
train_s=[]
test_s=[]
for i in range(1,15):
	rfc=RandomForestClassifier(n_estimators=86,max_depth=i,
                               random_state=10).fit(xtrain,ytrain)
    score_test=rfc.score(xtest,ytest)
    score_train=rfc.score(xtrain,ytrain)
    train_s.append(score_train)
    test_s.append(score_test)
# 绘制训练集和测试集在不同max_depth下的准确率
train_=go.Scatter(x=list(range(1,15)),y=train_s,
                  name='train_score',
                  marker=dict(color='#F8C0A5'))
test_=go.Scatter(x=list(range(1,15)),y=test_s,
                 name='test_score',
                 marker=dict(color='#c9422d'))
fig=go.Figure([train_,test_])
fig.update_layout(
    plot_bgcolor='#FEFEFE',
    xaxis_title='max_depth参数取值',
    yaxis=dict(title='准确率',gridcolor='#F1F0EF')
)
fig.show()

max_depth参数取值

通过对max_depth参数的学习曲线绘制，可以确定当参数值为9时，训练集和测试集的准确率差距最小，且测试集的准确率具有所大幅度的提升，分别达到了0.891和0.893。

（3）连续性变量离散化后对模型的优化

根据连续性变量的分布情况，对其进行离散化处理，从而达到优化模型预测结果的效用。

1）连续性变量的离散化

age变量（用户年龄）的离散化

# 观察用户年龄的分布情况
his=go.Histogram(x=list(pddnew.age.values),nbinsx=30,
                 histnorm='percent',
                 marker=dict(color='#c9422d'))
fig=go.Figure(his)
fig.update_layout(
    xaxis_title='年龄分布',
    yaxis=dict(title='所占整体比例',gridcolor='#F1F0EF'),
    plot_bgcolor='#FEFEFE'
)
fig.show()

年龄频率分布直方图

# 对数据集进行复制，暂时不在原数据集上做改动
pddnew_=pddnew.copy()
# age用户年龄变量的数据类型转换
age=[]
for i in list(pddnew.age.values):
    if i<=30:
        age.append('小于30')
    elif i>30 and i<=40:
        age.append('30-40')
    elif i>40 and i<=60:
        age.append('40-60')
    else:
        age.append('大于60')
# 通过编码的方式转化数据类型
pddnew_=pddnew.copy()
pddnew_['age_label']=LabelEncoder().fit_transform(age)
data_age=pd.DataFrame(set(age),columns=['age'])
data_age['age_label']=LabelEncoder().fit_transform(data_age.age)

根据图像的分布情况所示，先将用户年龄连续性变量划分为以下几个区间，分别为<=30、30-40、40-60以及>60四个年龄分布区间。
根据年龄分布区间的设定，再将其通过编码的方式转化为数值型，便于后续模型的学习。

coupon_used_in_last6_month变量（用户在6个月内累计使用优惠券数量）的离散化

# 观察用户在6个月内累计使用优惠券数量的分布情况
his=go.Histogram(x=list(pddnew.coupon_used_in_last6_month.values),nbinsx=32,
                 histnorm='percent',
                 marker=dict(color='#c9422d'))
fig=go.Figure(his)
fig.update_layout(
    xaxis_title='6个月内累计使用优惠券数量分布',
    yaxis=dict(title='所占整体比例',gridcolor='#F1F0EF',tickvals=np.arange(0,41,10)),
    plot_bgcolor='#FEFEFE'
)
fig.show()

用户在6个月内累计使用优惠券频率分布直方图

# 用户在6个月内累计使用优惠券数量变量的数据类型转换
used_6=[]
for i in list(pddnew.coupon_used_in_last6_month.values):
    if i<=2:
        used_6.append('2张以内')
    elif i>2 and i<=10:
        used_6.append('2-10张')
    else:
        used_6.append('超出10张')
# 通过编码的方式转化数据类型
pddnew_['used_6_label']=LabelEncoder().fit_transform(used_6)
data_used6=pd.DataFrame(set(used_6),columns=['used_6'])
data_used6['used_6_label']=LabelEncoder().fit_transform(data_used6.used_6)

根据图像的分布情况所示，先将用户在6个月内累计使用优惠券数量字段的连续性变量划分为以下几个区间，分别为2张之内、2-10张以及超出10张三个分布区间。
根据用户6个月内累计使用优惠券数量分布区间的设定，再将其通过编码的方式转化为数值型，便于后续模型的学习。

coupon_used_in_last_month变量（用户在1个月内累计使用优惠券数量）的离散化

# 观察用户在1个月内累计使用优惠券数量的分布情况
his=go.Histogram(x=list(pdd.coupon_used_in_last_month.values),nbinsx=18,
                 histnorm='percent',
                 marker=dict(color='#c9422d'))
fig=go.Figure(his)
fig.update_layout(
    width=600,
    xaxis_title='1个月内累计使用优惠券数量分布',
    yaxis=dict(title='所占整体比例',gridcolor='#F1F0EF',tickvals=np.arange(0,81,20)),
    plot_bgcolor='#FEFEFE'
)
fig.show()

用户在1个月内累计使用优惠券频率分布直方图

根据图像的分布情况所示，整体呈现出非常明显的使用数量分布区间，数据本身就是离散型的变量，为此将不进行进一步修改。

# 最终转化后数据类型后的数据集呈现
pddnew_.rename(columns={'coupon_used_in_last_month':'used_1_label'},inplace=True)
pddnew_.drop(columns=['age','coupon_used_in_last6_month'],inplace=True)
pddnew_=pddnew_.loc[:,['job_label','marital_label','default_label','loan_label',
                'returned_label','age_label','used_1_label','used_6_label','coupon_ind']]
pddnew_.head()

2）重新构建模型

x_=pddnew_.loc[:,pddnew_.columns!='coupon_ind']
y_=pddnew_.coupon_ind
xtrain_,xtest_,ytrain_,ytest_=train_test_split(x_,y_,test_size=0.3,random_state=10)
rfc_=RandomForestClassifier(n_estimators=86,max_depth=9,
                            random_state=10).fit(xtrain_,ytrain_)
rfc.score(xtest_,ytest_)# 所得结果并未由明显提升，为此以未进行数据离散化前的数据集为准

# 最终模型如下
x=pddnew.loc[:,pddnew.columns!='coupon_ind']
y=pddnew['coupon_ind']
xtrain,xtest,ytrain,ytest=train_test_split(x,y,test_size=0.3,random_state=1)
rfc=RandomForestClassifier(n_estimators=86,max_depth=9,
                               random_state=10).fit(xtrain,ytrain)
score_test=rfc.score(xtest,ytest)
score_train=rfc.score(xtrain,ytrain)
print('训练集准确率：{}，测试集准确率：{}'.format(score_train,score_test))

通过调整变量的数据类型发现，所得结果与未进行调整之前相差无几，为此可以将为调整数据类型前的模型确定为最终模型，训练集准确率和测试集准确率分别为0.891和0.893。
t通过对模型结果的迭代优化，基本构建出具有较优泛化能力的随机森林分类评估器，后续将利用模型对样本标签进行预测，根据预测结果构建出较易使用优惠券的用户画像。

3. 模型的结果预测

接下来将根据所建成的随机森林分类器模型，来预测训练集样本中用户是否使用优惠券的情况，并对不同优惠券使用情况下的用户属性及用户行为进行细化分析。

（1）模型中特征重要性分析

# 模型特征重要性
impo=rfc.feature_importances_.tolist()
feature=pddnew.loc[:,pddnew.columns!='coupon_ind'].columns.tolist()
data=pd.DataFrame({'feature_names':feature,'importances':impo})
data=data.sort_values('importances',ascending=False)
data.index=range(len(impo))

分析特征对于模型建立的重要性，可知用户年龄、用户是否有过退货行为、用户在1个月内累计使用优惠券数量以及用户职位详情四个特征对模型的影响程度较大，重要程度较高。

（2）模型的结果预测

# 是否使用优惠券的预测
ypredict=rfc.predict_proba(x)
label_0=[]
label_1=[]
for i in ypredict.tolist():
    label_0.append(i[0])
    label_1.append(i[1])
pdd_=x
pdd_['proba_not_use']=label_0
pdd_['proba_use']=label_1
pdd_.head()

利用predict_proba属性返回优惠券使用情况分类下的概率情况，当一方概率大于0.5时，将其样本的预测结果判定为所属分类。

# 用户是否使用优惠券的概率筛选
p=pdd_.loc[pdd_['proba_use']>0.75,:]
p.head()

筛选得出具有75%可能性会使用优惠券的样本数据，而非直接利用predict属性来获取用户具有50%的优惠券使用可能性，提升用户使用优惠券可能性的筛选条件，更有助于后续对用户属性及行为对优惠券使用情况影响的准确分类分析。

四、项目分析结论

根据上述分析可知，用户年龄、用户是否有过退货行为、用户在1个月内累计使用优惠券数量以及用户职位详情四个特征对模型的重要程度较高，为此，这四个特征将作为构建用户画像的主要考量因素。

1. 构建用户画像

（1）用户年龄及用户职位详情

1）用户年龄分布情况

# 绘制用户年龄分布直方图
age_h=go.Histogram(x=list(p.age.values),nbinsx=25,
                 histnorm='percent',
                 marker=dict(color='#c9422d'))
fig=go.Figure(age_h)
fig.update_layout(
    width=800,
    xaxis_title='用户年龄分布',
    yaxis=dict(title='所占整体比例',gridcolor='#F1F0EF',tickvals=np.arange(0,40,5)),
    plot_bgcolor='#FEFEFE'
)
fig.show()

用户年龄分布直方图

通过上述直方图所示，更加偏向于使用优惠券的用户，其年龄分布区间主要聚集在两个部分，分别为24-30岁以及60-67岁。

2）用户年龄与用户职位信息间相关关系

用户职位信息变量的分布情况过于松，且不具有一定规律，为此将其与用户年龄进行整体分析，从而得出更加具体且有意义的用户画像分析结果。

# 绘制用户年龄及用户职位信息间的散点图
s=go.Scatter(x=p.age,y=p.job_label,mode='markers',marker=dict(color='#c9422d'))
fig=go.Figure(s)
fig.update_layout(
    width=800,
    xaxis=dict(title='用户年龄',gridcolor='#F1F0EF'),
    yaxis=dict(title='用户职位信息',gridcolor='#F1F0EF'),
    plot_bgcolor='#FEFEFE'
)
fig.show()

用户年龄与用户职位信息相关关系散点图

通过上述散点图分布所示，用户年龄分布在30-40以及50-55岁，且属于用户职位信息变量中unemployed类别下的用户，更加偏向于使用优惠券。

（2）用户是否有过退货行为

# 用户是否有过退货行为变量的分布情况 
d=p.returned_label.describe([0.1,0.2,0.25,0.45,0.5,0.65,0.75,0.85,0.9])
pd.DataFrame(d).T

通过观察上述用户是否有过退货行为的描述性统计情况可知，偏向于使用优惠券的用户中，有超过75%的用户并未有过退货行为，大致可以推断出未产生退货行为的用户存在更大的可能性使用优惠券。

（3）用户在1个月内累计使用优惠券数量

# 用户在1个月内与在6个月内累计使用优惠券数量分布对比
p.loc[:,['coupon_used_in_last_month','coupon_used_in_last6_month']].describe(
    	[0.1,0.2,0.25,0.4,0.5,0.6,0.75,0.8,0.9]).T

根据上述描述性统计分析结果可知，用户在近1个月内产生过使用优惠券的行为更易在下一次销售活动或者消费中使用优惠券。
除此之外，对比1个月和6个月下用户累计使用优惠券数量的分布情况可以发现，两者的数值分布情况几乎保持一致，大致可以断定这些用户为拼多多近1个月内的新用户，之前并未有过使用优惠券行为，其全部的优惠券使用数量都集中在近1个月内。

2. 相关建议

构建用户画像，定位目标用户，有针对性的发放优惠券，从而提升优惠券使用率，并且间接达到促进拼多多销售额提升的效用。
拼多多在有针对性的发放优惠券时，需重点关注近1个月内新注册，年龄分布在24-30岁及60-67岁范围内，且很大程度上没有产生过退货行为的新用户，这类用户需被看作发放优惠券的重要目标，不仅可以提升优惠券的使用率，也可达到促进销售的效果。
除此之外，也可将无雇佣状态下的用户看作优惠券的重点发放对象，这类用户对优惠券的需求较大，对其进行优惠券的批量发放，可以提升优惠券的使用率，并且易于将其培养成拼多多的忠实用户。但由于这类用户的数量并不可观，为此，仅从优惠券的使用率方面考虑，具有较优异的效果，不会起到促进销售的效用。

你可能感兴趣的:(机器学习,数据挖掘,数据分析)

支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
高斯混合模型（GMM）中的协方差矩阵类型与聚类形状关系详解码字的字节机器学习机器学习人工智能高斯混合模型 GMM
高斯混合模型（GMM）简介高斯混合模型（GaussianMixtureModel,GMM）是概率统计与机器学习交叉领域的重要模型，其核心思想是通过多个高斯分布的线性组合来描述复杂数据分布。与单一高斯分布不同，GMM能够捕捉数据中的多模态特性，这使得它在处理真实世界非均匀分布数据时展现出独特优势。从数学形式上看，一个包含K个分量的GMM可表示为：其中(\pi_k)是第k个高斯分量的混合系数（满足(\
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
【数据结构】详解堆排序当中的topk问题（leetcode例题） ylfxw 数据结构 leetcode 算法
文章目录前言如何理解topk问题代码逻辑代码实现前言Leetcode相关题目：215.数组中的第K个最大元素如何理解topk问题**TopK问题是一个经典的问题，在计算机科学中，它的目标是在一组数据中找到前K个最大或最小的元素。**这个问题在许多场景下都很重要，比如搜索引擎的搜索结果排名、数据分析中的热门元素筛选等。.在最简单的形式中，给定一个数组（或列表）和一个整数K，TopK问题要求返回数组中
拼多多官方返利新动向，高省App引领购物省钱新趋势古楼
电商行业的快速发展带来了无数的新趋势和新机遇，而拼多多官方返利的新趋势无疑是其中的一大亮点。高省App作为这一趋势的敏锐洞察者和积极参与者，致力于帮助用户精准把握这些新机遇。通过高省App，用户可以及时了解拼多多官方返利的最新政策和活动信息，从而做出更加明智的购物决策。同时，高省App还提供了专业的数据分析工具，帮助用户分析自己的消费行为和省钱效果，让省钱之路更加清晰和明确。我们在开始讲今天的文章
2023年第10期(NeuroImage)：DomainATM：多中心医学图像数据标准化工具箱影浮科技ImageFlow
基本信息1.标题：DomainATM:Domainadaptationtoolboxformedicaldataanalysis.2.期刊：NeuroImage3.IF/JCR/分区：7.4/Q1/中科院一区4.DOI：10.1016/j.neuroimage.2023.119863目录1、导读2、背景动机3、研究目的4、工具箱介绍5、测试试验6、局限不足1导读域适应（DA）是基于机器学习的现代医
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
2023-04-12 王松奇
京心❤️达理想城店：王松奇2023年4月12日日精进落地真经严格就是爱，放纵既是害正能量语录每一颗螺丝都有标准每一颗螺丝都是标准产值目标：13万台次目标:80台油卡目标：13张今日体验今天开数据分析会台次少保养预存一定要盯紧中间10天要努力冲刺一下
迁移学习：知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式大千AI助手人工智能 Python #OTHER 迁移学习人工智能机器学习算法神经网络大模型迁移
让AI像人类一样“举一反三”的通用学习框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与基本概念迁移学习（TransferLearning）是一种机器学习范式，其核心思想是：将源领域（SourceDomain）学到的知识迁移到目标领域（TargetDomain），以提升目标任务的性能
AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
小程序领域的营销推广策略小程序开发2020 小程序 ai
小程序领域的营销推广策略：从流量获取到生态运营的全链路解析关键词：小程序营销、用户增长策略、社交裂变、私域流量运营、数据分析驱动、场景化营销、全域流量整合摘要：本文系统解析小程序营销推广的核心策略体系，从微信生态底层逻辑出发，结合用户生命周期管理理论，构建包含「用户拉新-留存转化-裂变增长-数据迭代」的全链路运营框架。通过深度拆解社交裂变模型、场景化运营策略、私域流量沉淀方法及数据驱动决策体系，结
大学专业科普 | 计算智能、信息学与大数据鸭鸭鸭进京赶烤大数据
一、专业背景随着信息技术的飞速发展，数据的产生速度呈爆炸式增长，传统数据处理技术已经无法满足如此庞大的数据量和复杂的数据类型，大数据专业应运而生，旨在培养能够应对大数据挑战的专业人才。二、主要课程内容数学基础课程高等数学、概率论与数理统计、线性代数是大数据分析的核心数学基础，为数据处理、算法优化和模型构建提供必要的理论支持。计算机基础课程数据结构与算法、计算机网络、操作系统是大数据技术的重要支撑，
万字长文，解读大模型技术原理（非常详细）零基础入门到精通，收藏这一篇就够了
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发，对大模型领域的各个技术细节进行详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。一、大模型的定义大语言模型作为一个被验证可行的方向，其“大”体现在训练数据集广，模型参数和层数大，计算量大，其价值体现在通用性上，并且有更好的泛化能力。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
从零开始构建AI原生应用的认知架构 AI原生应用开发 AI-native 架构 ai
从零开始构建AI原生应用的认知架构关键词：AI原生应用、认知架构、机器学习、知识图谱、神经网络、智能决策、系统设计摘要：本文深入探讨如何从零开始构建AI原生应用的认知架构。我们将从基本概念出发，逐步解析认知架构的核心组件，包括知识表示、推理机制和学习能力等。通过生动的比喻和实际代码示例，帮助读者理解如何设计一个能够模拟人类认知过程的AI系统。文章还将介绍当前最先进的认知架构模型，并展望未来发展趋势
【源码交付】一站式自助数据分析解决方案（jvs-bi）愤怒的小青春 java
简历咨询听说Java简历上写外卖，头条，商城项目没用，到底真的假的。不写这些还能写什么#简历中的项目经历要美团实习体验～❤️入职流程和体验入职先领工牌，电脑（可提前在网上申请入职电脑版本，技术岗应该是mac）还可以申请显24offer帮选个人情况:本硕末流211科班光大银行总行科技研发中心入职:总包24w最高:涨幅两三年普调一级，涨一级简历咨询听说项目写外卖，头条，商城项目没用。有一说一，真的没有
数据分析全攻略：从基础概念到实战应用的完整指南 SickeyLee 产品经理人工智能大数据信息可视化
数据分析全攻略：从基础概念到实战应用的完整指南数据分析已成为现代商业决策的核心驱动力，但很多人在面对数据时，常常陷入“不知道看什么、怎么分析、如何应用”的困境。本文将系统梳理数据分析的核心知识，从数据的本质到分析流程，从方法工具到实战指标，帮你搭建一套完整的数据分析思维框架，让数据真正为业务服务。一、数据是什么？不止于数字的“信息载体”提到数据，很多人会首先想到数字，但实际上数据的范畴远更广阔。数
Python Pandas 实践学习笔记（1）
PythonPandas教程Pandas是一个开源的、BSD许可证的Python库，为Python编程语言提供高性能、易于使用的数据结构和数据分析工具。Python与Pandas在学术和商业领域都被广泛应用，包括金融、经济、统计学、分析等领域。在本教程中，我们将学习PythonPandas的各种特性以及如何在实践中使用它们。教程对象本教程适用于那些想要学习Pandas基础知识和各种函数的人。对于从
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
「日拱一码」033 机器学习——严格划分胖达不服输「日拱一码」机器学习人工智能严格划分组划分
目录简单随机划分（train_test_split）分组划分（GroupSplitting）简单分组划分(GroupSplitting)分层分组划分(StratifiedGroupSplitting)交叉验证法（Cross-Validation）分组K折交叉验证（GroupKFold）留一组法（LeaveOneGroupOut）简单随机划分（train_test_split）简单随机分组通过随机分
综合智能监测系统设计：有害气体实时检测与管理黑泡尖子
本文还有配套的精品资源，点击获取简介：在工业化进程中，有害气体的排放对人类健康和环境构成威胁。设计一种智能监测系统，利用传感器技术、物联网和数据分析等，实时监控环境中有害气体的浓度，确保生产安全和环保。该系统涵盖硬件构建、软件开发和数据处理等环节，并提供高效准确的监测能力。系统集成了无线通信模块进行数据传输，具备数据预处理和分析能力，能够进行阈值设定与预警响应。用户界面友好，系统具有良好的集成性、
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
基于机器学习的加密货币资金费率预测与套利策略云梦量化科技 python
一、资金费率机制解析永续合约的资金费率是加密货币衍生品市场独有的机制，旨在使永续合约价格锚定现货价格。资金费率每8小时结算一次，结算时多空双方互相支付资金费用：费率为正时，多头支付给空头；费率为负时，空头支付给多头。此机制既促使永续合约价格回归现货价格，也反映市场多空情绪。某安永续合约资金费率计算公式通常为：资金费率 F = 平均溢价指数 P + Clamp(综合利率 I − 溢价指数 P, +0
高省app没有邀请码怎么注册？高省app总部邀请码是什么？古楼
高省是正规平台吗？高省app是杭州长孚科技有限公司旗下的一款电商导购应用，为用户打造一个电商购物优惠平台，用户可以在这个App中领取主流商城的商品隐藏优惠券以及获得返利。基于第三方电商平台海量数据挖掘与分析，“高省”APP通过内容制作、分享等方式，为消费者打通吃喝玩乐购全场景全业态，让消费者省心省钱省时省力，为平台和品牌方导流创造收入，拓展了商家新的销售渠道。高省app逐渐构筑起了集各大主流电商平
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &