Python既简单易学,又有着广泛而深刻的知识体系。
很多人声称自己擅长Python,但不会写符合Pythonic风格的代码,也不太熟悉许多常用包的使用。
为了在学海中不断前行,我们需要先了解Python中最基本的内容。
Python具有的特点不一而足。
无需编译即可运行的是解释型语言。
提供了具有交互性的命令行界面。
对象导向编程思想。
在Windows、Mac和Linux上都可以运行,这归功于跨平台和兼容性良好的特性。
这个工具不仅使用简单方便,而且功能十分强大。
很多同学在打开数据时会遇上乱码问题,其原因是字符集的编码问题。Linux和Mac默认的编码集是UTF8,而Windows则是ASCII。如果数据编码的字符集,和你使用Python进行处理时所用的字符集不同,则会出现乱码问题。
另外,我个人的习惯是在Python代码的头部加入以下内容,其中第二行声明了使用UTF8字符集。
#!/usr/bin/env python
# coding:utf8
Python变量可以被视为容器,其中储存我们需要使用的值。
与其他语言相同,Python要求变量名只能包含字母、数字和下划线,但不能以数字开头,且区分大小写。我的推荐是使用纯英文作为变量名,并且选择具有意义的名称,以便更好地理解每个变量的作用。
Python是一种无需声明变量类型的弱类型语言。Python语言中的变量可分为数值、字符串、列表、元组和字典几种类型。
数值包括整型和浮点型,分别对应整数和浮点数,后者精度更高。
# 整型a = 1# 浮点型b = 2.1print a, b
字符串也就是我们经常接触到的文本,可以往里面放任意长度的内容,用单引号或双引号括起来。应当注意,中文以及中文符号只能出现在字符串內,如果在下面第三行中使用了中文输入法的逗号 ,Python将报错。
c = Hello d = 你好 print c, d
使用 + 可以拼接两个字符串。
print c + d
使用 len() 可以得到字符串的长度。
print len( Hello World )
使用切片可以访问字符串中的某个字符或某个片段。
# 位置下标从0开始
c = Hello World
# 打印结果为H,下标为0表示第一个字符
print c[0]
# 打印结果为d,下标为负数表示从后往前数
# 所以-1表示倒数第一个字符
print c[-1]
# 使用:返回一个片段,冒号前后分别为开始下标和结束下标
# 包括开始下标,但不包括结束下标
# 因此c[1:5]表示,返回下标从1到4的片段,即第二个到第五个字符
print c[1:5]
# 冒号前后的下标同样可以使用负数
# 或者不提供,表示从最左端开始或一直到最右端
print c[1:-1], c[:5], c[3:]
列表好比一条队伍,里面依次存放着多个变量。列表和字符串类似,但字符串中的每个元素都是字符,而列表中的每个元素可以是任意类型的变量。
# 使用[]定义一个空列表,使用append()向列表尾部添加一个元素
# 如果要添加到首部,就用prepend()好了
a = []a.append(1)a.append(2.1)a.append( Hello )
print a
使用 len() 可以获得列表的长度。
print len(a)
列表元素的按下标访问和赋值等操作,和字符串都是类似的。
print a[1], a[-1]a[1] = 100
print a
使用 del 删除列表中的某个元素。
del a[0]
print a
元组和列表类似,唯一的不同是元组中的元素在初始化之后不能再更改,因此可以理解成一个只读的变量。
# 使用()定义一个元组
a = (1, 2.1, Hello )
#尝试修改元组中的元素会报错
a[0] = 100
字典是一种极为重要的变量类型,使用一个key来访问相应的value,即一种键值对的数据形式。
# 使用{}定义一个字典
a = {}
# 使用key来赋值
valuea[ k1 ] = 1a[ k2 ] = 2.1a[ k3 ] = Hello
所以能够总结出字典和列表的不同。列表中的元素是有序对等的,所以是用下标来赋值和访问,而字典中的元素是无序的,所以是用key来操作相应value。
# 也可以在定义字典和列表的同时进行赋值
li = [1, 2.1, Hello ]di = { k1 : 1, k2 : 2.1, k3 : Hello }
使用 has_key() 判断字典中是否有某个key。
print di.has_key( k4 )
如果访问不存在的key,Python将会报错。在赋值的时候,如果key已经存在,则会用新的value覆盖已有的value。
被注释的代码将不会运行,可以看作是写给自己和其他程序猿阅读的一些笔记和说明,提高代码可读性。
# 这里是单行注释 这里是很多行注释
在Sublime中,选中需要注释的内容,按Ctrl+/即可完成注释。
在Python中,有一些字符串具有某些特定功能,如 import 、 class 等。我们在选择变量名时,应注意避开这些保留字符。
# 以下变量赋值将报错
import = 1
在Python中,代码块的边界不是通过大括号等符号进行显式划分,而是通过行的缩进实现的。连续相同缩进水平的代码处于同一个代码块,在使用 for、while、if 、try等语法时需要注意每行代码的缩进。
运算符的作用是根据已有的变量生成新的变量,主要有以下几种:
算术运算符:+,-,*,/,%,即加、减、乘、除、取余
比较运算符:==,!=,>,<,>=,<=,即等于、不等于、大于、小于、大于等于、小于等于
赋值运算符:=,+=,-=,*=,/=,%=,即赋值、加赋值、减赋值、乘赋值、除赋值、取余赋值
逻辑运算符:and,or,not,即与、或、非
a = 1b = 2print a + bprint a == b
# 等价于 a = a + 3a += 3print ac = Trued = Falseprint c and d
在写代码的时候,往往需要根据某些条件进行判断,并根据判断结果执行不同的分
支代码。
a = 1
# 单个条件if a == 1: print 11111# 处理条件不成立的分支if
a == 2: print 22222else: print 33333# 多个条件,加多少个都可以if
a == 1: print 11111elif a == 2: print 22222else: print 33333
需要注意的是,但凡出现了 if 和 elif ,就需要加上相应的条件判断,并且注意代码的缩进。在Sublime中输入if会出现相应的提示,可以方便地补全代码,在换行时光标也会自动跳到合适的缩进处。
如果需要打印从1到100的100个数,肯定不会傻傻地写100行print代码,而是会用循环来处理类似的重复性工作。
while 循环的思想是,只要某一条件成立,就不断执行循环体里的代码,直到条件不再成立。
flag = 1while flag < 10: print flag
# 一定要记得在循环体里修改条件变量
# 否则可能导致死循环 flag += 1
for 循环的循环次数一般是事先预知的,将一个标志变量从某个起始值迭代到某个终止值后即结束。
# x从0开始,一直到9结束
for x in xrange(0, 10): print x
可以用 for 循环方便地遍历列表和字典。
li = [1, 2.1, Hello ]dict = { k1 : 1, k2 : 2.1, k3 : Hello }
# 遍历列表,这里的item只是一个临时变量,取别的名称也行
for item in li: print item
# 遍历字典的全部key,这里的key也只是一个临时变量,名称不重要
for key in dict.keys(): print key
# 遍历字典的全部value,这里的value也只是一个临时变量,名称不重要
for value in dict.values(): print value
# 同时遍历key和valuefor
key, value in dict.items(): print key, value
循环控制主要包括三种:pass 、 continue 、 break 。
pass 表示什么也不做,只是占一行代码的位置;continue 表示立即退出本轮循环,继续执行后续轮循环;break 表示立即推出循环,后续循环也不再执行。
for x in xrange(0, 10):
if x == 5:
pass
else:
print xfor x in xrange(0, 10):
if x == 5:
continue
print xfor x
in xrange(0, 10):
if x == 5:
break
print x
在数据处理中经常需要考虑时间因素,如数据产生时的时间。时间戳是从1970年1月1日0时0分0秒开始累计的秒数,表示某一时刻所经历的时间。它可以是整数,也可以是小数,精度更高的是后者。
为什么时间戳这一概念是必要的?由于文本形式的多样性,同一时刻被不同人描述的方式可能不同。但是,时间戳的使用可以统一时间表达方式,每个时刻只需用唯一的整数或浮点数来表示,同时也方便处理时间差计算等操作。
# 来看一下当前时刻的时间戳吧
import timet = time.time()print t, type(t)
关于时间戳,最常用的处理便是时间戳和时间文本之间的转换,例如将 2016年10月1日 10时0分0秒 转为时间戳。
import time# 时间文本转时间戳,精确到秒
a = 2016-10-01 10:00:00
a = int(time.mktime(time.strptime(a, %Y-%m-%d %H:%M:%S )))
print a
# 时间戳转时间文本
b = int(time.time())
b = time.strftime( %Y-%m-%d %H:%M:%S , time.localtime(b))
print b
其中, %Y 、 %m 等都是时间字段,前者表示四位的年份,后者表示两位的月份。
文件
文件操作包括向文件中写内容,以及从文件中读内容,使用 open() 打开一个文件。
# 写文件# 重新写模式,打开文件时会将文件内容清空
fw = open( data.txt , w ) # 追加写模式,打开文件后保留原始内容,继续写入
for x in xrange(0, 10): # 将整数转成文本再写入
fw.write(str(x)) # 也可以每次写入之后换行, 为转义字符,表示换行 #
fw.write(str(x) + )fw.close() # 读文件
fr = open( data.txt , r ) # 一行一行地读,line只是个临时变量,取别的名称也行
for line in fr: print line # 如果每行后面有换行,可以将换行符去掉,使内容更紧凑
strip() #可以去掉字符串两端的空白字符
print line.strip()fr.close()
Python代码中可能会出现一些可以预知的问题,例如字典访问的key不存在。
如果不加处理,发生问题的时候Python便会报错并退出,可能之前跑了很久又要重
头再来。因此,我们需要对可能出现的异常进行捕捉和处理。异常的结构由 try 、except 、 else 、 finally 四部分组成。
try: # 尝试执行这些代码
print 1 0except Exception,
e: # 如果出现异常就进行处理 # e为出现的异常类型
print eelse: # try里的代码没有出错 # 可以执行后续工作了
print #没有出错
finally: # 无论是否出错,都会执行的代码
print #一定会执行
函数的作用是代码模块化,将可重用的代码封装成一个函数,这样在需要使用的时候就只需调用写好的函数即可,而不用重新写一遍代码。
函数的使用包括两个部分,函数的定义和函数的调用。除此之外,函数可以有一个或多个参数,参数之间以逗号分开,为函数的功能提供更多的灵活性。
# 定义函数def hello(name1, name2):
print Hello + name1 + + name2
# 调用函数
hello( Python , JavaScript )