python大数据挖掘系列之基础知识入门

1.python大数据挖掘系列之基础知识入门

Python在大数据行业非常火爆近两年,as a pythonic,所以也得涉足下大数据分析,下面就聊聊它们。

Python数据分析与挖掘技术概述
所谓数据分析,即对已知的数据进行分析,然后提取出一些有价值的信息,比如统计平均数,标准差等信息,数据分析的数据量可能不会太大,而数据挖掘,是指对大量的数据进行分析与挖倔,得到一些未知的,有价值的信息等,比如从网站的用户和用户行为中挖掘出用户的潜在需求信息,从而对网站进行改善等。
数据分析与数据挖掘密不可分,数据挖掘是对数据分析的提升。数据挖掘技术可以帮助我们更好的发现事物之间的规律。所以我们可以利用数据挖掘技术可以帮助我们更好的发现事物之间的规律。比如发掘用户潜在需求,实现信息的个性化推送,发现疾病与病状甚至病与药物之间的规律等。

预先善其事必先利其器
我们首先聊聊数据分析的模块有哪些:
*********************************************
numpy 高效处理数据,提供数组支持,很多模块都依赖它,比如pandas,scipy,matplotlib都依赖他,所以这个模块都是基础。所以必须先安装numpy。
pandas 主要用于进行数据的采集与分析
scipy 主要进行数值计算。同时支持矩阵运算,并提供了很多高等数据处理功能,比如积分,微分方程求样等。
matplotlib 作图模块,结合其他数据分析模块,解决可视化问题
statsmodels 这个模块主要用于统计分析
Gensim 这个模块主要用于文本挖掘
==sklearnkeras ==前者机器学习,后者深度学习。
*********************************************

2.这些模块的基础使用方法

numpy模块安装与使用
安装:
下载地址是:http://www.lfd.uci.edu/~gohlke/pythonlibs/
我这里下载的包是1.11.3版本,地址是:http://www.lfd.uci.edu/~gohlke/pythonlibs/f9r7rmd8/numpy-1.11.3+mkl-cp35-cp35m-win_amd64.whl
下载好后,使用pip install “numpy-1.11.3+mkl-cp35-cp35m-win_amd64.whl”
安装的numpy版本一定要是带mkl版本的,这样能够更好支持numpy

2.1通过pandas导入数据

pandas支持多种输入格式,我这里就简单罗列日常生活最常用的几种,对于更多的输入方式可以查看源码后者官网。

CSV文件
csv文件导入后显示输出的话,是按照csv文件默认的行输出的,有多少列就输出多少列,比如我有五列数据,那么它就在prinit输出结果的时候,就显示五列

csv_data = pandas.read_csv('F:\Learnning\CSDN-python大数据\hexun.csv')
print(csv_data)

举个例子:

from matplotlib import  pylab
import numpy
csv_data = pandas.read_csv('F:\Learnning\CSDN-python大数据\hexun.csv')
dt = csv_data.T   # 装置下,把阅读数和评论数转为行
readers=dt.values[3]   
comments = dt.values[4]
pylab.xlabel(u'reads')
pylab.ylabel(u'comments')   # 打上标签
pylab.title(u"The Article's reads and comments")
pylab.plot(readers,comments,'ob')
pylab.show()

2.3介绍修改图的样式
2.3.1关于图形类型,有下面几种:
1.直线图(默认)
2.- 直线
3.-- 虚线
4.-. -.形式
5.: 细小虚线

2.3.2关于颜色,有下面几种:
1.c-青色
2.r-红色
3.m-品红
4.g-绿色
5.b-蓝色
6.y-黄色
7.k-黑色
8.w-白色

2.3.3关于形状,有下面几种:
1.s 方形
2.* 星形
3.p 五角形

pylab.plot(x,y,'or')   # 添加O表示画散点图,r表示red
pylab.show()

你可能感兴趣的:(python&大数据)