sklearn 相关性分析_Python数据分析:小红书销售额预测

一、分析背景

根据小红书的部分用户数据以及消费行为数据,使用Python建立线性回归模型,找到对用户消费影响较大的因素,预测用户的消费金额变化。根据模型,确定销售额较高用户的相关特征,并由此提出营销方案建议。

二、数据分析的流程

数据分析的整体流程如图所示:

sklearn 相关性分析_Python数据分析:小红书销售额预测_第1张图片

(一)数据概况分析

1、调用基本包和读取数据

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

df = pd.read_csv('小红书数据.csv')

2、数据概况分析

使用info/describe/head这3个函数查看数据的基本情况

# 使用head函数查看前5行数据
df.head()

sklearn 相关性分析_Python数据分析:小红书销售额预测_第2张图片

共有8个数据变量,为了后续分析方便,下面对这8个变量进行简单的分类和含义说明:

sklearn 相关性分析_Python数据分析:小红书销售额预测_第3张图片
# 使用info函数查看数据总体情况,包括行数、列数、各列名称、数据类型等
df.info()

sklearn 相关性分析_Python数据分析:小红书销售额预测_第4张图片
# 使用describe函数查看所有数值型变量的描述统计,包括均值,最大值,最小值,标准差等
df.describe()

sklearn 相关性分析_Python数据分析:小红书销售额预测_第5张图片

发现:gender、age和engaged_last_30这3个字段中都存在很多缺失值,而且gender和engaged_last_30的数据类型不对,它们应该是类别型变量。

3、缺失值处理

先查看缺失值在整个数据集中的占比情况,发现缺失值的占比很大接近40%,因此不能直接删除,需要根据情况进行数据的填充;

你可能感兴趣的:(sklearn,相关性分析)