用python进行数据分析:杂乱字符串的处理

用python进行数据分析:杂乱字符串的处理

python:杂乱字符串的处理

数据集来自科大讯飞算法营销大赛,目的是探索各个维度与广告点击率的关系。

品牌和机型的数据清洗处理

1.让我们先来看一下原数据,清洗思路是合拼机型与品牌再做数据可视化分析。
用python进行数据分析:杂乱字符串的处理_第1张图片
2.来简单探索下原数据,可以看到机型与品牌都有一定的空值,同一品牌有不同的描述语句。
用python进行数据分析:杂乱字符串的处理_第2张图片
用python进行数据分析:杂乱字符串的处理_第3张图片
3.第一步选择合并两列数据,填充空值为0,并且全部大写处理,清楚空格,为后续处理做准备。
在这里插入图片描述
在这里插入图片描述
4.简单探索后,提取10个左右使用量最多的品牌,按如下语法去逐一清洗。
用python进行数据分析:杂乱字符串的处理_第4张图片
用python进行数据分析:杂乱字符串的处理_第5张图片
5.清洗完成后,分析数据,可视化结果。
用python进行数据分析:杂乱字符串的处理_第6张图片
用python进行数据分析:杂乱字符串的处理_第7张图片
在这里插入图片描述

用python进行数据分析:杂乱字符串的处理_第8张图片
用python进行数据分析:杂乱字符串的处理_第9张图片
6.总结:
1.使用OPPO或VIVO的用户的广告点击率较高均超过0.2,其余品牌点击率相似。

你可能感兴趣的:(数据分析,python,python,数据分析)