数据清洗 —— Pandas 的简单使用方法
Pandas —— 数据读取
Series 是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引)组成
# author : Woo_home
# create_time : 2020/7/18 11:33
import pandas as pd
s1 = pd.Series([1,'a',5.2,7])
print(s1)
# author : Woo_home
# create_time : 2020/7/18 11:33
import pandas as pd
s1 = pd.Series([1,'a',5.2,7])
# 获取 Series 的索引
print(s1.index)
# author : Woo_home
# create_time : 2020/7/18 11:33
import pandas as pd
s1 = pd.Series([1,'a',5.2,7])
print(s1.values)
使用 index 属性,可以指定索引名称
# author : Woo_home
# create_time : 2020/7/18 11:33
import pandas as pd
s1 = pd.Series([1, 'a', 5.2, 7], index=['a', 'b', 'c', 'd'])
print(s1)
# author : Woo_home
# create_time : 2020/7/18 11:33
import pandas as pd
s1 = pd.Series([1, 'a', 5.2, 7], index=['a', 'b', 'c', 'd'])
print(s1.index)
# author : Woo_home
# create_time : 2020/7/18 11:33
import pandas as pd
# 定义一个字典
data = {
'id': 1,
'name': 'Lisa',
'age': 18
}
series_data = pd.Series(data)
print(series_data)
比如我们想获取字典中某个键对应的值,那么可以这样做:
# author : Woo_home
# create_time : 2020/7/18 11:33
import pandas as pd
# 定义一个字典
data = {
'id': 1,
'name': 'Lisa',
'age': 18
}
series_data = pd.Series(data)
print(series_data['id']) # 获取 id 对应的值
print(series_data['name']) # 获取 name 对应的值
或者也可以这样
print(series_data[['id','name']])
DataFrame 是一个表格类型的数据结构
# author : Woo_home
# create_time : 2020/7/18 11:33
import pandas as pd
# 定义一个字典
data = {
'id': [1, 2, 3, 4, 5],
'name': ['lisa', 'john', 'ling', 'sire', 'demo'],
'age': [11, 12, 12, 15, 18]
}
series_data = pd.DataFrame(data)
print(series_data)
打印值的类型
print(series_data.dtypes)
打印列名
print(series_data.columns)
打印索引
print(series_data.index)
还是以这个字典为例
# 定义一个字典
data = {
'id': [1, 2, 3, 4, 5],
'name': ['lisa', 'john', 'ling', 'sire', 'demo'],
'age': [11, 12, 12, 15, 18]
}
# author : Woo_home
# create_time : 2020/7/18 11:33
import pandas as pd
# 定义一个字典
data = {
'id': [1, 2, 3, 4, 5],
'name': ['lisa', 'john', 'ling', 'sire', 'demo'],
'age': [11, 12, 12, 15, 18]
}
series_data = pd.DataFrame(data)
# 打印一列
print(series_data['name'])
print()
print(type(series_data['name']))
# author : Woo_home
# create_time : 2020/7/18 11:33
import pandas as pd
# 定义一个字典
data = {
'id': [1, 2, 3, 4, 5],
'name': ['lisa', 'john', 'ling', 'sire', 'demo'],
'age': [11, 12, 12, 15, 18]
}
series_data = pd.DataFrame(data)
# 打印多列
print(series_data[['id', 'name']])
print()
print(type(series_data[['id', 'name']]))
输出:
从输出结果可以发现,当我们打印多列时,是一个 DataFrame
# author : Woo_home
# create_time : 2020/7/18 11:33
import pandas as pd
# 定义一个字典
data = {
'id': [1, 2, 3, 4, 5],
'name': ['lisa', 'john', 'ling', 'sire', 'demo'],
'age': [11, 12, 12, 15, 18]
}
series_data = pd.DataFrame(data)
# 打印一行
print(series_data.loc[1])
print()
print(type(series_data.loc[1]))
输出:
从输出结果可以发现,当打印一行时,是一个 Series 对象
# author : Woo_home
# create_time : 2020/7/18 11:33
import pandas as pd
# 定义一个字典
data = {
'id': [1, 2, 3, 4, 5],
'name': ['lisa', 'john', 'ling', 'sire', 'demo'],
'age': [11, 12, 12, 15, 18]
}
series_data = pd.DataFrame(data)
# 打印索引从 0 开始到最后的数据
print(series_data.loc[0:])
print()
print(type(series_data.loc[0:]))