第一章-数据挖掘基础
一、过程
1、确定目标
2、数据取样:随机取样、等距取样、分层取样、从起始顺序取样、分类抽样
3、数据探索:异常值分析、缺失值分析、相关性分析和周期分析
4、数据预处理:数据筛选、数据变量转换、缺失值处理、坏数据处理、数据标准化、主成分分析、属性选择、物选择规约
5、数据建模:model(分类、聚类、关联规则、时序模式或者智能推荐)
6、模型评价:找出最好的模型
二、数据挖掘建模工具(sas、spss、sql server、python、weka、knme、rapidminer、tipdm)-java包含豆
第二章-phython数据分析简介
一、简单的python介绍:
1. 基本运算:
1. a**2 平方运算
2. a, b, c = 2, 3, 4 多变量同时赋值
3. 字符串:
s = 'I like u'
s = s + 'very much'
s = s.split('') #判断为空格的地方断开
4. range
for i range(1,4,1):#从1开始到4,1是等差值
print (i)
result:
1,2,3
5. 函数返回可以返回多个数,同时用多个变量接收调用结果
def add(x,y):
return x+3,y+2
a,b = add(1,2)
6. 行内函数
f = lambda x: x+2
二、数据结构
1. 列表/元组
列表:用符号[]表示,可以修改,里面可以放不同类型的变量值。
列表不能直接复制,比如a = b,这里a只是b的别名,修改a,b也会改变。正确的复制:b=a[:]
将其它类型变量转换成list类型:list('ab')----['a','b']
c = [1,'abc',[1,2]]
元组:用符号()表示,不能修改。
将其它类型变量转换成list类型:tuple([1,2])----(1,2)
b = (1,2,3)
一些其它函数及其用法:
#列表和元组匀适用
cmp(a,b) #比较两个列表/元组的元素
len(a)
max(a)
min(a)
sum(a)
sorted(a) #对列表元素进行升序排序
#列表适用
a.append(1)
a.count(1) #统计列表中元素1出现的次数
a.extend([1,2]) #将列表[1,2]追加到列表a末尾
a.index(1) #从列表中找出第一个1的索引位置
a.insert(2,1) #将1插入列表a的索引为2的位置
a.pop(1) #移除列表a中索引为1的元素
2. 字典
d = {'today':20, 'tomorrow':30}
d['today'] == 20
d['tomorrow'] == 30
#其它方法
dict([['today',20], ['tomorrow',30]])
dict.fromkeys(['today','tomorrow'],20)
3. 集合(元素不重复、无序、不支持索引,用{}表示)
s = {1,2,2,3} #2会自动去掉
s = set([1,2,2,3])
4. 函数式编程