数据分析和处理1

数据分析和处理

    • 1 数据分析和数据挖掘
    • 2 数据挖掘的过程
    • 3 模块安装及使用
    • 4 模块使用
      • 4.1 numpy
      • 4.2 pandas
    • 5 数据导入
    • 6 数据探索和清洗

1 数据分析和数据挖掘

数据分析:对已知数据进行分析,然后提取一些有价值的信息,比如统计出平均数,标准差等信息。
数据挖掘:对大量的数据进行分析与挖掘,得到一些未知的、有价值的信息。
数据挖掘是数据分析的提升.
数据挖掘可以帮助我们更好的发现实物之间的规律,可以利用数据挖掘技术实现数据规律的探索。

2 数据挖掘的过程

1、定义目标
2、获取数据(爬虫欧下载数据)
3、数据探索
4、数据预处理(数据清洗【去掉脏数据,即无效数据】、数据集成【集中,不同来源的数据放一起】、数据变换【规范化,转置等】、数据规约【精简,合并,减少工作量】)
5、挖掘建模(分类、聚类、关联、预测)
6、模型评价与发布

3 模块安装及使用

1、numpy可以搞下处理数据、提供数组支持,很多模块如pandas、scipy、matplotlib都依赖他,numpy是基础。
2、pandas主要用于进行数据探索和数据分析。
3、matplotlib作图模块,解决可视化问题。
4、scipy主要进行数值计算,同时支持矩阵云散,提供很多高等数据处理功能。
5、statsmodels主要用于统计分析。
6、Gensim主要用于文本挖掘。
7、sklearn、keras前者机器学习,后者深度学习。
安装注意事项
1、先安装numpy,推荐下载numpy+mkl的安装包进行安装,否则mkl后期安装可能有问题 numpy+mkl .whl
2、numpy和scipy推荐下载安装,其他模块都可以采用网络安装。

4 模块使用

4.1 numpy

import numpy as np
arr1 = np.array([2,1,3]) #创建一维数组
arr2 = np.array([[2,3,1],
				[6,5,4]]) #创建二维数组
arr1[2] #结果为3,数组从0开始编号
arr2[2][1] #结果为5,第三行二列
arr1.sort() #排序,结果为[1,2,3]
arr2.sort() #结果为[[1,2,3],[4,5,6]]
arr2.max() #结果为6,取数值最大值,最小值min
#切片  数组[起始下标:最终下标+1]
arr1[:1] #结果为[2,1]

4.2 pandas

import pandas as pd
#Series 一维数组,一行或一列,默认索引index从0,1,2,...
#DataFrame数据框,二维或多维数组,类似表格,行和列,行索引index,列索引columns
#从二维DataFrame中得到一行或一列就降到一维Series
pd.Series([8,9,2,1],index=["one","two","three","four"]) #指定行名
pd.DataFrame([[1,3,2],[3,6,4],[5,2,6]],column=["one","two","three"]) #指定列名
pd.DataFrame({
"one":4,
"two":[6,2,1],
"three":list(str(982))}) 
# 输出结果:
#  one two three
# 0 4 6 9
# 1 4 2 8
# 2 4 1 2
#数组名.head() 括号内不写数,默认取前5行
#数组名.tail() 括号内不写数,默认取后5行
#数组名.describe() 数组统计信息,个数、平均数、分位数、最大值等
#数组名.T  转置,行列对换 

5 数据导入

import pandas as pd
pd.read_csv('文件路径')
pd.read_excel(('文件路径')
pd.read_html(('文件路径')
pd.read_sql(('文件路径')
pd.read_table(('文件路径')

6 数据探索和清洗

数据探索目的是及早发现数据的一些简单规律或特征,数据清洗的目的是留下可靠数据,避免脏数据的干扰。
数据探索的核心:
1、数据质量分析(数据清洗,处理数据)
2、数据特征分析(发现数据的基本规律)

你可能感兴趣的:(python,数据分析,数据挖掘,pandas,numpy)