pandas —— pd.read_csv 与df.to_csv

  • 对 DataFrame 对象迭代得到的是其各个属性列的列名,自然为 list 类型;

0. read_csv 与 df.to_csv

  • df.to_csv
    • na_rep=‘NA’:缺失值替换为NA
    • header=1/0:是否保存表头;
    • index=1/0:是否保存行的索引;

1. 从文件读取数据返回 data frame

pandas.read_csv参数详解

  • read_csvread_excel

    df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/'
                     'breast-cancer-wisconsin/wdbc.data', header=None)
    						# df: data frame
    						# type(df): 
    
  • header:表头,默认不为空(为 0,也即将第一行视为表头)。如果我们要读取的文件,直接就是数据,没有所谓的表头。就需指定 header=None,否则将以文件的第一行作为 df.columns。指定 header=None,df.columns 返回的是列索引,如一个三列的数据:

    Int64Index([0, 1, 2], dtype='int64')
    
  • index_col:认定原始 csv 文件的第几列(从0开始计数)为索引列(也即从1开始编号,表示每一行样本的编号)

    • 一般会指定 index_col=0,表示第0列为索引列
    • index_col 指定的列将不会作为 DataFrame 的一列进行返回;
  • parse_datas:指明日期列,为字符串构成的 list;

  • thousands : str, default None,千分位分割符,如“,”或者“."

2. pandas 基本数据结构:Series 与 DataFrame

from pandas import Series, DataFrame

  • Series 最重要的一个功能在于:它在算术运算中会自动对齐不同索引的数据;
X, y = df.values[:, 2:], df.values[:, 1]
				# df.values 的类型为 numpy.ndarray
# 也可以
X, y = df.loc[:, 2:].values, df.loc[:, 1].values

3. dataframe 与 numpy 下的多维数组的转换

dataframe ⇒ numpy.ndarray

  • df.ax_matrix()
  • df.values

4. 基本成员函数

你可能感兴趣的:(pandas —— pd.read_csv 与df.to_csv)