数据分析师-python基础语言入门

有些杂乱，但是是数据分析方面python的基础入门。边学习边总结做笔记，欢迎指正~争取尽快出numpy和pandas的笔记供大家参考！

前言

IDE:集成开发环境 Anaconda

Idle：纯python下的基本IDE，交互式编译器>>>

脚本试编译器：.py文件可以用Idle运行

CMD：直接运行.py / 在CMD中直接写代码

jupyternotebook：运行 ctrl+回车；插入 alt+回车；新增 shift+回车；导出文件：download as

一、变量和数据类型

1. python标准数据类型：int float string字符串 list列表 tuple元组 dict字典

(1)string字符串有序不可变的列表

(2)list列表[]有序可变，列表中可以使字符、数字、列表和字典

(3)tuple元组()有序不可变

(4)dict字典{x:xx}无序可变

2. var = 10.5 int(var)=10 浮点型变整型不会四舍五入

3. 运算符：a/b除法 a%b取模，返回除法后的余数 a//b取整，返回除法后的整数 a**b幂

比较运算符：=是赋值 ==是比较判断 !=不等于

逻辑运算符:and且 or或结果是True或False bool()函数只有在0、None、[]、''为False，其余都是True

二、序列

1. 序列：序列的索引指向值，改变值就是改变索引的指向--可以通用与所有序列

(1)序列的连接：+ 序列的重复：*

(2)下标索引 :lst[0] 第一个值 lst[-1]最后一个值

(3)切片：lst[0:10]左闭右开 lst[:10]从头开始 lst[10:]到尾结束 lst[::]从头到尾步长：lst[0:10:2]

(4)序列的内置函数 max min sum len lst.index(0)查找序列中0的索引位置 lst.count(6)查找序列中6存在几个

2.列表list

(1)添加：name = ['小米','华为']

print(name+['苹果']) #生成新列表

add =[ '苹果','梨']

name.append(add)#改变原有列表本身,把添加的值整体加入到列表中 ['小米','华为',[ '苹果','梨']]

name.extend(add)#改变原有列表本身,把添加的值直接加入到列表中 ['小米','华为','苹果','梨']

(2)删除：lst.remove(5)#改变原有列表本身，删除括号中值

del lst[2:4] 删除相应索引

lst.clear()清除所有值

(3)插入：lst.insert(0,'a') #.insert(位置索引，插入值)

(4)复制：x = list(range(10))

# m = x #m指向与x指向一样，所以x变m也变

m = x.copy() #x复制，m指向和x值相同但是是新的索引，所以x变m不变

(5)排序：.sort()方法 lst.sort() #reserve倒序，默认正序False

lst3 = sorted(lst1) #sorted()函数:排序并复制函数，得到新的列表

(6)元组：是不可变的列表切片、索引、步长和list一样，但是不能del删除某个，可以直接删除整体，不能做元素的添加排序等

3.文本str：不可变序列

(1)转义字符：\'输出' 、\n提行

(2)序列的通用功能都可以，字符串常用功能

st.replace(old,new,count-更换几个)

st.split(',') #生成新的列表****

m.join(lst)#连接字符串join，对象为列表,把lst中每个值用m连接

st.startswith('a'),st.endswith('a')判断开头和结尾，st.upper()#全部大写，st.lower()#全部小写

st.swapcase()#大小写互换，st.capitalize()#首字母大写，st.isnumeric()是否全是数字，st.isalpha()#是否全是字母，#删除字符末尾的空格st.rstrip() ，#删除开投空格st.lstrip()，st.strip())#删除开头和结尾的空格，st.replace(' ',''))#删除所有空格

(3)格式化字符：

#%i整数 %s字符串 %f浮点型

print('小米成绩为：%i，小红成绩%i'%(70,90)) #多个替换变量后面要用元组方式

print('%.2f'%m)#.2f会四舍五入、print('%.0f'%m)#%i不会四舍五入、

(4)format格式化：

print('今天天气怎么样{}'.format(',非常好')) #{}里面是要替换的变量/值

print('我得工作是{work}'.format(work='ahkd'))

print('{}{}{}'.format('a','a','v'),'\n', '{0}{1}{0}'.format('as','ad','dda'))#{}是占位符

print('{:.1f}'.format(4.1723))#一位小数

print('{:%}'.format(4.2))#百分号

三、字典

1.字典key键，value值：直接用key做索引，键值对需要成对出现，如果键出现多次，最后一次会被记住；key必须是不可变对象（不能以列表作为key）；dic1['a'] =100如果dic1中无key=a则为添加，有则为更改a值；dic1.clear() #清空所有；del dic1 #删除字典
2.申明字典

(1)dic = dict(m=10,n='aa',h=[1,2,3]) #dict()函数方法一

(2)lst3 = (('a',1),('b',2)) 或 lst3 = [('a',1),('b',2)] 或 [['a',1],['b',2]]

print(dict(lst3)) #dict()函数方法二

(3)内置函数：

dict.update()方法：更新/合并字典，把第二个字典合并到第一个字典，改变第一个字典,不会改变第二个字典；

print(len(dic1))#求字典长度

#列表字典格式，每个字典是一条数据，数据之间用列表连在一起

print('a'in dic1) #可以用key判断是否包含，不能用value判断是否包含

(4)字典的元素访问及遍历

直接用key作为访问，直接用key作为访问

输出所有key:poi.keys()，输出所有value：poi.values()，输出所有的元素key:value:poi.items()-#生成的是复合序列：第一个key，第二个是value

四、条件和判断

1. if 、 if else、if elif else、or and 多条件判断、for遍历

2.循环控制语句：break continue

五、函数

eval()执行表达式eval(1+2):3

exec("python语句")执行python语句，以字符串形式

global 把局部变量变为全局变量

lambda作为匿名函数是不需要函数名的，主体是个表达式，而不是代码块：f = lambda a,b,c:a+b+c

（1）位置参数，即必选参数 def power(x):

（2）默认参数，调用时可变 def power(x,y=2):

（3）可变参数，传入参数个数可变为元组，def power(*args):，

（4）关键字参数，传入参数为dict def power(**kw):

六、模块与包

1.自己创建的.py放进现有路径中：

#方法一：查看现有包的路径：import pandas print(pandas.__file__)

#方法二：直接添加路径 import sys sys.path.append(r'/Users/xy/anaconda3/lib/python3.6/site-packages')

2.自己新建的py文件就是模块，模块里面的函数就是模块的方法

3.#python标准模块--random随机数：import random

x = random.random() #生成0-1的随机数 m = random.randint(0,10) #生成a-b区间的整数

lst = list(range(20)) s = random.choice(lst) #随机取样，按照索引选择的所以里面的值必须是序列

sli = random.sample(lst,5)#随机取指定的片段 random.shuffle(lst)#元素随机打乱其本身

4.时间模块time

time.sleep(0.1) #休息函数，按秒计算

time.ctime()#直接生成当地的时间,是个字符串

time.localtime()#当前时区的结构时间是个视图 wday0-6表示周日-周六，yday表示1-366表示一年的第几天

time.strftime('%Y-%m-%d %H:%M:%S',time.localtime())# a为字符串格式 b为时间戳一般用localtime

八、文件的读写

1.文件路径的三种表达：

path1 = '\\Users\\xy\\anaconda3\\lib\\python3.6\\site-packages\\tmodel.txt' # 单个反斜杠：/

path2 = '/Users/xy/anaconda3/lib/python3.6/site-packages/tmodel.txt' # 两个斜杠：\\（第一个\是转义符）

path3 = r'\Users\xy/anaconda3\lib\python3.6\site-packages\tmodel.txt' # r用于防止字符转义

2.读取文件r：

open(‘路径’，‘模式’，encoding=‘编码’)有中文设置成utf-8，是ASIN的用gbk，是uft-8的用utf8