初始Pandas数据结构(DataFrame和Series)

认识Pandas

Pandas 是 Python 语言的一个扩展程序库,用于数据挖掘数据分析,同时也提供数据清洗功能。

pandas(panel data & data analysis),是基于 numpy(提供高性能的矩阵运算)专门用于数据分析的工具,是一个强大的分析结构化数据(表格数据)的工具集;

Pandas的操作是基于两种结构: DataFrame结构 和 Series结构

DataFrame

每一列都为Series结构,多个Series组成DataFrame结构
DataFrame 构造方法

pandas.DataFrame( data, index, columns, dtype, copy)

data:数据(array-like 类型:可以是ndarray、series, map, lists, dict 等类型)。
index:行索引,如果不指定行索引—默认给一个0、1、2、3、… 这样的序号行索引。
columns:列索引 ,如果不指定列索引—默认给一个0、1、2、3、… 这样的序号列索引。
dtype:数据类型。
copy:拷贝数据,默认为 False。

1、属性

以该DataFrame为基准

import pandas as pd
# 创建DataFrame结构
df = pd.DataFrame(
    data=[
        ['zs', 19, 1],
        ['ls', 20, 1],
        ['ww', 19, 2]
    ],
    index=['stu0', 'stu1', 'stu2'],
    columns=['name', 'age', 'group']
)
print(

你可能感兴趣的:(数据分析,python,数据挖掘)