2017.02.18:利用python进行数据分析02

1.pandas数据结构:Series和DataFrame。

1.1.Series是一种类似于一位数组的对象,它由一组数据以及一组与之相关的数据的标签组成。

1.2.NaN:Not aNumber,非数字,表示缺失或是NA值。

1.3.pandas中的index,将轴标签表示为一个由python对象组成的Numpy数组。Index对象不可修改。

1.4.对于一个DataFrame,每条轴都可以有分层索引。

2.大部分存储在磁盘上的表格类型数据都能用pandas.read_table进行加载。对于任何单字符号符分隔符文件,可以直接使用python内置的CSV模块,将任意已打开的文件或文件类型的对象传给CSV.reader。

3.通过JSON.loads即可将JSON字符串转换成Python形式。

3.XML(ExtensibleNarkup Language)是另一种常见的支持分层。嵌套数据以及元数据的结构化格式。

4.存储在MongoDB中的文档被组织在数据库的集合中,MongoDB服务器的每个运行实例可以村多个数据库,而每个数据又可以有多个集合。

5.Pandas对象中的数据可以同郭一些内置方式进行合并。

5.1.pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来。SQL或其他关系型数据的用户对此应该会比较熟悉。实现数据库的连接操作。

5.2.Pandas.contact可以沿着一条轴将多个对象堆叠到一起。

5.3.实例方法combine.first可以将重复数据编接在一起。用一个对象中的值填充另一个对象中的缺失值。

5.4.默认情况下,merge做的是inner链接,结果中的健是交集。

6.DataFrame中的join实例方法,实现按索引合并。用于合并多个带有相同或相似索引的DataFrame对象。

7.层次化索引为DataFrame数据的重排任务提供了一种具有良好一致性的方式。

7.1.stack:将数据的列“旋转”为行。

7.2.unstack:将数据的行“旋转”为列。

stack默认会滤除缺失数据,该运算是可逆的。

你可能感兴趣的:(学习笔记,数据分析)