Task01:数据加载及探索性数据分析(第一章第1,2,3节)(2天)

1 第一章:数据加载:

任务一:导入python库

import numpy as np

import pandas as pd

import os

from matplotlib import pyplot as plt

*注:import numpy和from numpy import 的区别

两种方式都是引入numpy库中的所有函数、函数、对象、变量等,两者的区别在于调用其中内容时不同。

import numpy,则后续使用该库下的属性都需要在前面加上numpy

from numpy import *,则不需要加入。以调用numpy中的random模块为例,第一种方式要用numpy.random,第二种方式只用random即可,一般推荐使用第一种方式

任务三:逐块读取数据

每1000行为一个数据模块,逐块读取

df = pd.read_csv('train.csv',chunksize = 1000)

1

这时我们想要查看表格的前几行,可以看到使用chunksize赋值之后 df的数据类型变成textfilereader之后head方法不再适用,需要用到命令df.get_chunk()

————————————————

df.shape ——行数 列数

df.dtypes——列数据类型

df.ndim ——数据维度

df.index——行索引

df.columns——列索引

df.values——对象值,二维ndarray数组

df.info() #查看数据类型结构

df.describe()

df.head(10)——显示前10行,默认是5行

df.tail()——显示末尾几行,默认是5

df.info()——相关系数,如行数,列数,列索引、列非空值个数,列类型,内存占用

df.describe()——快速统计结果,计数、均值、标准差、最大值、四分数、最小值

df.isnull()——判断数据是否为空,为空的地方返回True,其余地方返回False

# 注意:不同的操作系统保存下来可能会有乱码,大家可以加入`encoding='GBK' 或者 ’encoding = ’utf-8`

encoding = 'utf-8'

df.to_csv('train_chinese.csv')

Series是带标签的一维数组,可存储整数、浮点数、字符串、python对象登类型的数据,轴标签统称为索引。调用pd.Series即可创建Series s=pd.Series(data, index=index)

Dataframe是由多种类型的列构成的二维标签数据结构,类似于excel、SQL表、或series对象构成的字典


原文链接:https://blog.csdn.net/weixin_45409985/article/details/119761173

你可能感兴趣的:(Task01:数据加载及探索性数据分析(第一章第1,2,3节)(2天))