机器学习中使用pands库处理结构化数据

问题描述

在机器学习中,需要做的第一件事情就是准备输入的数据,这些数据有来自于文本文件的,有来自于数据库的,有来自于网络网页的,格式五花八门,都不一样,为了方便后边的数据处理,我们首先需要格式化这些数据,让这些数据具有统一的格式。

结构化的平面文件

Color   Value
Red 1
Orange  2
Yellow  3
Green   4
Blue    5
Purple  6
Black   7
White   8

如上面的数据所示,结构化的数据,最开始的一行是title,表示每一列数据的意义,从第二行开始每一行都是一个有效的记录对象。

如何有效的的处理这些数据

使用python本身文件输入输出功能并不是非常智能,它把数据当作普通的文本一行一行的读取。并不能很智能的读取结构化的文本文件。
在机器学习中,padas库,是专门用来处理这些数据的。

如何用pandas库来处理这类结构化的数据

导入pandas库

import pandas as pd

具体运用

color_table = pd.read_table("colors.txt")
print(color_table)

输出结果

    Color  Value
0     Red      1
1  Orange      2
2  Yellow      3
3   Green      4
4    Blue      5
5  Purple      6
6   Black      7
7   White      8

你可能感兴趣的:(机器学习中使用pands库处理结构化数据)