数据挖掘-python数据分析与挖掘实战

第一章-数据挖掘基础

一、过程

1、确定目标

2、数据取样:随机取样、等距取样、分层取样、从起始顺序取样、分类抽样

3、数据探索:异常值分析、缺失值分析、相关性分析和周期分析

4、数据预处理:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、物选择规约

5、数据建模:model(分类、聚类、关联规则、时序模式或者智能推荐)

6、模型评价:找出最好的模型

二、数据挖掘建模工具(sas、spss、sql server、python、weka、knme、rapidminer、tipdm)-java包含豆


第二章-phython数据分析简介

一、简单的python介绍:

1. 基本运算:

    1. a**2  平方运算

    2. a, b, c = 2, 3, 4   多变量同时赋值

    3. 字符串:

s = 'I like u'
s = s + 'very much'
s = s.split('')   #判断为空格的地方断开
    4. range
for i range(1,4,1):#从1开始到4,1是等差值
   print (i)

result:
1,2,3
    5. 函数返回可以返回多个数,同时用多个变量接收调用结果
def add(x,y):
  return x+3,y+2

a,b = add(1,2)
    6. 行内函数
f = lambda x: x+2

二、数据结构

    1. 列表/元组  

      列表:用符号[]表示,可以修改,里面可以放不同类型的变量值。

                列表不能直接复制,比如a = b,这里a只是b的别名,修改a,b也会改变。正确的复制:b=a[:]

                将其它类型变量转换成list类型:list('ab')----['a','b']

c = [1,'abc',[1,2]]      

      元组:用符号()表示,不能修改。

                将其它类型变量转换成list类型:tuple([1,2])----(1,2)

b = (1,2,3)

        一些其它函数及其用法:     

#列表和元组匀适用
cmp(a,b)  #比较两个列表/元组的元素
len(a)
max(a)
min(a)
sum(a)
sorted(a)   #对列表元素进行升序排序

#列表适用
a.append(1)
a.count(1)  #统计列表中元素1出现的次数
a.extend([1,2])  #将列表[1,2]追加到列表a末尾
a.index(1)   #从列表中找出第一个1的索引位置
a.insert(2,1)  #将1插入列表a的索引为2的位置
a.pop(1)  #移除列表a中索引为1的元素

    2. 字典

d = {'today':20, 'tomorrow':30}

d['today'] == 20
d['tomorrow'] == 30
#其它方法
dict([['today',20], ['tomorrow',30]])
dict.fromkeys(['today','tomorrow'],20)

    3. 集合(元素不重复、无序、不支持索引,用{}表示)

s = {1,2,2,3}  #2会自动去掉
s = set([1,2,2,3])

    4. 函数式编程











你可能感兴趣的:(数据挖掘-python数据分析与挖掘实战)