(2019-04-24)初识pandas

pandas有两种数据类型:series和dataframe

series是一维数组,可以看成一组数,其中每个数对应一个index标签,就是:0、1、2、3之类的

dataframe是一个二维数组,表格型的数据结构,跟excel差不多

数据导入,还有索引行和列什么的在标签栏里找,不在赘述。

想说的是数据清洗部分:


例如这个数据,他的others中包含两个数据,一个是性别,一个是婚姻状况。目的是将这两个数据分开。

1.检索文件中的others列中的字符串含有‘woman’的,并赋值给df1。如下

2.将性别和婚姻状况分隔,用split函数:



从上可以看出,split方法实际上是将你split(‘content’)的content(字符串)进行替换,直接替换成了“,”(逗号),并且进行分隔。而在分隔之后就可以理解为一个个的数,可以通过[0]、[1]的方法来选择第几个数。如下:

del将原来的others列给删除。

3.对于数字的处理:

转换为整数:

转换为浮点数:


你可能感兴趣的:((2019-04-24)初识pandas)