python与数据挖掘

1、python的变量是不可改变的变量，如果变量的值发生变化x=x*2，就会自动开辟另一个空间
2、python不用申明变量类型系统会自动识别

冒号的使用情况

加号和逗号的使用

3、for循环对字符串列表的遍历 for a in ['e','f','g'] print a result: e f g、
for in range(5) 相当于for（i=0;i<5;i++）
4、 range()和len()函数一起用于遍历整个序列

image.png

5、数据结构：
a.标量:整数浮点数
b.序列：列表(没有固定的数据类型) 字符串元组字节数组
c.映射：数据结构字典

d.集合：
列表：索引可以是负值切片 list[开始的位置：切片的大小]
list[-1]表示从后往前第一个数
列表有很多算法例如 append extend insert remove pop index sort reverse count append 和pop函数可以用于栈的先进后出
Unicode字符串 Unicode 编码 u'\u4f60\u597d' 表示你好
编码方式：ASCII utf-8 utf-16 gbk
元组和列表除了一个能改变内容一个不能改变内容外，格式上有什么区别
字典键值对 keys() 遍历所有的键
文件句柄：相当于流在文件I/O中，要从一个文件读取数据，应用程序首先要调用操作[系统函数]并传送文件名，并选一个到该文件的路径来打开文件。该函数取回一个顺序号，即文件句柄（file handle），该文件句柄对于打开的文件是唯一的识别依据。要从文件中读取一块数据，应用程序需要调用函数ReadFile，并将文件句柄在内存中的地址和要拷贝的字节数传送给操作系统。当完成任务后，再通过调用系统函数来关闭该文件。
open()函数返回的是一个文件句柄
read()函数是根据句柄来找到文件

??????
列表data=[[1,2],[3,4]]二维列表
元组tuple3 =(1,2,3)   # 创建仅有一个数据的元组
Python没有数组: 只有元组(tuple)和列表(list); 元组一旦创建不可改变,例如:aa=tuple(1,2,3); 元组不能追加(append)元素,弹出(pop)元素等; 
集合 
print '''创建字符串''' str1 = 'learn Python'

的关系
有哪些模块？
os 模块 文件目录  pandas模块 读取csv文件

文件放置在哪
fr = open('../data/ticdata.txt')
f = open('output.txt','w')

在python中，如果有中文的话，需要用到下面一行代码

# -*- coding: UTF-8 -*-

list的append和pop函数可以用于改变列表
如果需要导入pandas模块，需要用到anaconda 然后用到下面链接的步骤，这里可以通过包来安装anaconda ，也可以通过.sh文件来进行安装。 .sh文件是通过命令行bash命令来安装的，bash /Users/apple/Downloads/Anaconda2-5.0.1-MacOSX-x86_64.sh
这里的sh文件的路径就是你下载文件的路径。
http://blog.csdn.net/muzilanlan/article/details/50479931

文件访问的问题：

image.png

不同的函数的路径是不一样的

image.png

这里的路径可以通过

image.png

../tmp/lines.html函数进行调用
Welcome to Bokeh
(https://bokeh.pydata.org/en/latest/#welcome-to-bokeh "Permalink to this headline")
Bokeh is a Python interactive visualization library that targets modern web browsers for presentation.
4-5出现的错误：

image.png

5-5的错误

image.png

9-1的错误

image.png

10-1的错误

image.png

关联分析 Apriori a-c 0.3 0.5 面包和牛奶这个算法的使用是需要将数据转换为0-1矩阵
智能推荐基于用户的推荐基于物品的推荐协同过滤算法
聚类算法：
kmeans 基于距离选取聚类中心
系统聚类一个个往上加
dbscan 密度聚类 Minps 较大的点是核心地点较小的点是非核心对象
对数据正则化把数据的范围限制在[0,1]
分类算法：（参数模型和非参数模型）
线性回归分析最小二乘法
逻辑回归最大似然估计（确定权重）牛顿梯度下降根据标签推边界函数边界函数的确定了哪些方法
决策树
朴素贝叶斯
神经网络
切片与列表的关系数组的关系
List[1:2]

python数据分析与挖掘实战

编码问题的解决
/anaconda2/lib/python2.7/site-packages
里面添加一个文件
sitecustomize.py
内容是

import sys
sys.setdefaultencoding('utf-8')

json.dumps()用于将dict类型的数据转成str，因为如果直接将dict类型的数据写入json文件中会发生报错，因此在将数据写入时需要用到该函数。

2018-1-24 python的学习

python与数据挖掘

python数据分析与挖掘实战

你可能感兴趣的:(2018-1-24 python的学习)