PySpark学习笔记(7)——数据清洗

在正式建模之前,数据清洗和特征工程是必不可少的准备工作。其中,数据清洗是将杂乱的原始数据规整化的过程,本文主要介绍数据清洗中的一些小技巧:

1.正则表达式概述

正则表达式是对字符串操作的一种逻辑公式,是事先定义好的一些特定字符及这些特定字符的组合,这个组合可以用来表达对字符串的一种过滤逻辑。在实际数据清洗过程中,如果遇到特别杂乱的脏数据,可以通过多次使用正则表达式来实现无关信息的过滤和有用信息的规整化操作。

2.常见的数据清洗技巧

2.1 正则表达式提取特定信息

(1)只提取字符串中花括号内的数据:

import re

#只提取花括号内的数据
_str = "test{key1:value1,key2:value2}result"
result = re.findall('\{(.*?)\}',_str)
print(result)

输出结果如下所示:

(2)提取字符串中的年份和数字

import re

#提取字符串中的年份
strings = "2017 was a good year but 2018 will be better! There are 528 feet to a mile."
years = re.findall('[2][0-9]{3}',strings)
print(years)

#提取字符串中的数字
result = re.findall("\d+",strings)
print(result)

输出结果如下所示:

PySpark学习笔记(7)——数据清洗_第1张图片

 

 

 

 

 

 

你可能感兴趣的:(正则表达式,PySpark学习笔记,数据清洗)