python大数据挖掘系列之淘宝商城数据预处理实战

在上一章节https://blog.csdn.net/qq_60168783/article/details/121824746

我们聊了python大数据分析的基本模块,下面就说说2个项目吧,第一个是进行淘宝商品数据的挖掘,第二个是进行文本相似度匹配。好了,废话不多说,赶紧上车。

淘宝商品数据挖掘

数据来源:

自己写个爬虫爬吧,爬到后入库(mysql)。

数据清洗:

所谓的数据清洗,就是把一些异常的、缺失的数据处理掉,处理掉不一定是说删除,而是说通过某些方法将这个值补充上去,数据清洗目的在于为了让我们数据的可靠,因为脏数据会对数据分析产生影响。 拿到数据后,我们进行数据清洗分为两方面:

  1. 缺失值发现:可以查找
  2. 异常值发现:画图分析
  • 缺失值:在下载数据、搜集数据的时候刚好就缺失。可以通过查找的方法去发现。
  • 异常值:不一定就是异常,可能就是客观存在,但是这个值对于总的数据来说是一个就比较特殊点。可以通过画散点图发现。

这两方面的处理方法如下:

  1. 缺失值处理:均值/中位数插补、固定值、临近插补、回归分析、插值法(拉格朗日插值,牛顿插值)
  2. 异常值处理:视为缺失,平均值修正,不处理。

方法解释:

  • 均值/中位数插补:在缺失位置插入一个总数据的均值或者中位数。
  • 固定值::在缺失位置插入一个固定值
  • 临近插补:看这个缺失位置附近的值是什么,就把附近的某一个值插到缺失位置,这类应用场景应用于物以类聚的场景
  • 回归分析:等日后用上的时候在研究。
  • 插值法:此算法复杂,暂未研究,等日后用上的时候在研究。
  • 视为缺失:可以看成缺失值,然后通过缺失值来处理。
  • 平均值修正:通过平均值来替代这个值
  • 不处理:不处理这个值

开始分析:

表结构介绍:

淘宝商品表结构如下:

  • title:商品名称
  • link:商品URL
  • price:商品价钱
  • comment:商品评论数量
mysql> desc taob;
+---------+-------------+------+-----+---------+-------+
| Field   | Type        | Null | Key | Default | Extra |
+---------+-------------+------+-----+---------+-------+
| title   | varchar(50) | YES  |     | NULL    |       |
| link    | varchar(60) | NO   | PRI | NULL    |       |
| price   | int(30)     | YES  |     | NULL    |       |
| comment | int(30)     | YES  |     | NULL    |       |
+---------+-------------+------+-----+---------+-------+复制代码

对于上面四个字段,比较好处理的就是价钱和评论数,比如价钱是0(没有采集到的数据),可以通过刚才平均值或者中位数来填充,对于异常值,比如某个评论10W+,那么也可以采用平均值修正。

Python环境介绍:

依赖于pymysql,numpy,pandas,matplotlib,请自己先安装。可以参考我上篇博文:www.cnblogs.com/liaojiafa/p…

拿代码说话:

你可能感兴趣的:(程序员,数据挖掘,数据分析,python)