Python数据分析详解(适合新手的详细教程)

前言

这篇文章主要介绍了Python中的数据分析详解,对数据进行分析。数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。

目录

  • 数据分析概述

    • python在数据分析方面有哪些优势

    • 数据的导入和导出

      • 导入数据
      • 导出数据
    • 数据预处理

    • 数据的选择和运算

    • 数据分类汇总和统计

    • 时间序列

    • 数据可视化

数据分析概述

python在数据分析方面有哪些优势

  • Python不受数据规模的约束,能够处理大规模数据。
  • Python的sklearn库提供了丰富的数据挖掘和人工智能方法,为使用者分析各种场景提供方法支持。
  • Python的自动数据分析能够显著提升工作效率。
  • Python能够绘制各种前沿的数据图表。
  • Python在海量数据采集方面也有独特的优势。

数据分析的流程是什么?

  • 数据采集
  • 数据整理和存储
  • 数据分析和可视化
  • 数据报表和总结

数据的导入和导出

导入数据

Excel格式

#excel有xls,xlsx两种格式,都可以使用read_excel
#read_excel方法返回的结果是DataFrame,DataFrame的一列对应着Excel的一列。
import pandas as pd
data = pd.read_excel(path)
"""
参数含义:
(1)sheet_name参数:该参数用于指定导入Excel文件中的哪一个sheet,如果不填写这个参数,则默认导入第一个sheet。
(2) index_col参数:该参数用于指定表格的哪一列作为DataFrame的行索引,从0开始计数。
(3)nrows参数:该参数可以控制导入的行数,该参数在导入文件体积较大时比较有用。
(4)skipfooter参数:该参数可以在导入数据时,跳过表格底部的若干行。
(5)header参数:当使用Pandas的read_excel方法导入Excel文件时,默认表格的第一行为字段名。如果表格的第一段不是字段名,则需要使用该参数设置字段名。
(6)usecols参数:该参数可以控制导入Excel表格中的哪些列。
(7)names参数:该参数可以对导入数据的列名进行重命名。 
"""

csv格式

#CSV是一种用分隔符分割的文件格式。由于Excel文件在存放巨量数据时会占用极大空间,且导入时也存在占用极大内存的缺点,因此,巨量数据常采用CSV格式。
import pandas as pd
data = pd.read_csv(path,encoding="utf-8")
#sep参数表示要导入的csv文件的分隔符,默认值是半角逗号
data = pd.read_csv(path,sep=',',encoding="utf-8")

json格式

#用Pandas模块的read_json方法导入JSON数据,其中的参数为JSON文件的路径。 
import pandas as pd
data  = pd.read_json(path)

txt格式

#需要导入存在于txt文件中的数据时,可以使用pandas模块中的read_table方法。它的参数和用法与read_csv方法类似。
import pandas as pd
data = pd.read_table(path)
导出数据

CSV格式数据输出

import pandas as pd
data = pd.read_csv(path,sep=",",encoding="utf-8",nrows=10)
data.to_csv("test.csv",nrows=10)
"""
1、CSV格式数据输出
对于pandas库的to_csv方法,有下列参数说明:
path_or_buf:要保存的路径及文件名。
sep:分割符,默认为“,”。
columns:指定要输出的列,用列名,列表表示,默认值为None。
header:是否输出列名,默认值为True。
index:是否输出索引,默认值为True。
encoding:编码方式,默认值为“utf-8”。
"""

xlsx格式数据输出

import pandas as pd
data = pd.read_excel(path)
data.to_excel(path,encoding='gbk')
"""
sheet_name:字符串,默认值为“Sheet1”,指包含DataFrame数据的表的名称。
np_rep:字符串,默认值为 ‘ '。指缺失数据的表示方式
columes:序列,可选参数,要编辑的列
header:布尔型或字符串列表,默认值为True。如果给定字符串列表,则表示它是列名称的别名。
index:布尔型,默认值为True,行名(索引)
index_label:字符串或序列,默认值为None。如果文件数据使用多索引,则需使用序列。
encoding:指定Excel文件的编码方式,默认值为None。
"""
data2 = pd.read_excel(path)
work = pd.ExcelWriter('path')
data.to_excel(work,sheet_name='data')
data2.to_excel(work,sheet_name="data2")

数据预处理

熟悉数据

import pandas as pd
data = pd.read_csv(path)
#使用info()方法查看数据基本类型
data.info()
#查看数据表的大小
d = data.shape[0]
w = data.shape[1]
#数据格式的查看
type(data)
#series的查看
data.dtype
#dataframe的查看
data

你可能感兴趣的:(Python零基础入门,python,数据分析,开发语言)