识python
python:面向对象(对象之间交互数据,各对象协同操作), 解释性语言。简单,功能强大
功能:
学习路线:
初级:初识—语法—运算符、表达式—控制流—函数—模块—数据结构—面向对象—文件、异常处理—标准库
进阶:正则表达式、多线程、网络编程、客户端编程、图形界面编程
高级:网络编程、wxpython
特点:严格区分大小写
简单,面向对象
开源
库非常丰富(标准库、)
跨平台使用
解释性语言(区别编译性语言c++,编译器编译为二进制,进入系统内存执行),通过解释器解释为字符码。
高级语言
目录:lib:放模块,自定义模块也在这里。
一、windows下环境配置
1.进入
https://www.python.org/ 点击downloads
3.。。的版本有新特性
2.。。的版本运行速度快。 现在多用其开发
安装都是next默认值
2.系统变量
用户变量:选择tmp(tmp和temp区别:tmp解决dos兼容性问题。两个一样,都可以选择 )
系统变量:path:E:\python
3.集成开发环境
http://www.jetbrains.com/网站最下方(java语言开发)
用professional的版本
默认安装。快捷键(keymap)用eclipse的
4.java jdk环境(pycharm也是java开发)
二、osx系统下搭建python
1.下载集成开发环境pycharm
http://www.jetbrains.com/。
三、linux系统下搭建python
1.测试linux是否安装python。打开终端:输入python查看版本
2.下载集成开发环境pycharm
http://www.jetbrains.com/。
3.
四。python的helloworld
(1)cmd中编写 python
命令行下运行源文件的使用
(2)集成开发环境pycharm中编写
编辑器:python自带:IDLE。
多行代码:ctrl+n弹出的窗口可以换行
退出编辑模式:ctrl+z
源码以.py结尾
aptana
pycharm
五、python基本语法
1.定义常量与变量、数与字符串
常量:程序运行中不可变。7,a,b,c,a=1。一旦绑定不可更改。
定义常量用对象的方法创建
变量:程序运行中可改变。赋值:“=”
i=5
print i
i+=1
print i
i+=2
print i
i+=3
print i
输出:5 6 8 11
a=10
b=2
c=a+b
print(c)
//easy.语言很简单
数的类型: int:0、1、-1、1009、-290
long(长整型):87887l、-90990、
float:2.778、3.277、8.88
bool:true、false
complex(复数型):4+2j、-9+20j
字符串: 引号引起来的字符集。"hello"、'my python'
引号的使用(单双引号可以交叉使用)
单引号:单引号里可以使用双引号,并且双引号可以输出,双引号中不能使用双引号
c1
=
'ok'
print
c1
c2=
'It is "ok"!'
print
c2
输出:ok
It is "ok"!
双引号:双引号中可以使用单引号
c1
=
"ok"
print
c1
c2=
"It is 'ok'!"
print
c2
输出:ok
It is ‘ok’!
三引号:三个单引号,或者三个双引号,执行结果一样。且单双引号不可交叉使用。三引号包裹的字符串可以换行。
c1
=
'''I
am
a beautiful
girl
do you know?'''
print
c1
输出:I
am
a beautiful
girl
do you know?
转义符:主要用在字符串中
"\":想输出:it's a dog
a.print "it's a dog"
b.print 'it\'s a dog'
"\n":换行
print "hello boy\nhello boy"
输出:hello boy
hello boy
自然字符串:保留转义符的样式,原样输出,不进行任何处理,使用自然字符串,在引号前加r
print
"hello caoge
\n
hello gezi"
print
r"hello caoge\nhello gezi"
输出:hello caoge
hello gezi
hello caoge\nhello gezi
字符串的重复:输出“hello”20次, 可使用重复运算符“*”
print
"hello"
*
10
输出:hellohellohellohellohellohellohellohellohellohello
子字符串:jikexueyuan中“ji”、“yu”都是“jikexueyuan”的子字符串。一个大字符串中,抽出连续字符串。 两种方法:索引运算法[](从0开始索引,返回一个字符)、切片运算法[a:b](从a下标开始,到b-1下标。第一位的下标为0)
c1=
"jikexueyuan"
c2=c1[
0
]
c3=c1[
7
]
c4=c1[:
3
]
#从最左边一直到b-1
c5=c1[
3
:]
#从第3歌下标一直到最右边
c6
=c1[
3
:
7
]
print
c2
print
c3
print
c4
print
c5
print
c6
输出:j
y
jik
exueyuan
exue
2. 判断语句
score
=
20
if
score
>=
80
:
print
(
"很好"
)
elif
score
>=
60
:
print
(
"及格"
)
elif
score
>=
30
:
print
(
"不及格"
)
else
:
print
(
"很差"
)
中文编码问题
开头加入
:#coding:utf-8
或者
#coding=utf-8
3.
循环
for
i
in
range
(
0
,
10
):
print
(i)
输出:0123456789
for
i
in
range
(
0
,
10
):
print
(
"Item{0}"
.format(i))
输出:Item0 Item1 Item2 Item3 Item4 Item5
Item6 Item7 Item8 Item9
for
i
in
range
(
0
,
10
):
print
(
"Item{0},{1}"
.format(i,
"hello python"
))
输出:Item0,hello python Item1,hello python Item2,hello python Item3,hello python
Item4,hello python Item5,hello python Item6,hello python Item7,hello python
Item8,hello python Item9,hello python
4.定义函数
def
sayHello():
#小括号里可写传入参数
print
(
"hello world"
)
sayHello()
#执行函数
def
max(a,b):
#带参数的函数
if
a>b:
return
a
else
:
return
b
print
(max(
2
,
3
))
#5.定义函数
5.面向对象(定义类)
class
Hello:
#定义类
def
sayHello(
self
):
#定义方法
print
(
"Hello Python"
)
h=Hello()
h.sayHello()
#创建实例
输出:Hello Python
class
Hello:
#定义类
def
__init__
(
self
,name):
#构造方法
self
._name = name
def
sayHello(
self
):
#定义方法
print
(
"Hello {0}"
.format(
self
._name))
h=Hello(
"caoge"
)
h.sayHello()
#创建实例
输出:Hello caoge
class
Hello:
#定义类
def
__init__
(
self
,name):
#构造方法
self
._name = name
def
sayHello(
self
):
#定义方法
print
(
"Hello {0}"
.format(
self
._name))
class
Hi(Hello):
#继承自hello
def
__init__
(
self
, name):
Hello.
__init__
(
self
,name)
def
sayHi(
self
):
print
(
"Hi {0}"
.format(
self
._name))
h = Hello(
"caoge"
)
h.sayHello()
#创建实例
h1 = Hi(
"gezi"
)
h1.sayHi()
输出:Hello caoge
Hi gezi
6.引入python文本
loadlib.py
#import mylib
#h = mylib.Hello()
#h.sayHello()
from
mylib
import
Hello
h = Hello()
h.sayHello()
mylib.py
class
Hello:
def
sayHello(
self
):
print
(
"Hello everybody"
)
运行:loadlib.py
输出:Hello everybody
web2py:python语言web的开发框架。一个完整的网络模板
六、python数据类型
基本数据类型:数和字符串
python没有数组的概念,只有列表和元组的概念
列表:是存储一连串元素的容器。用[]表示,可以修改内容
students
=[
"小明"
,
"jone"
,
"向冲"
,
"mary"
,
"alice"
]
#列表中的每一项是元素,元素是有顺序的,第一个元素下标为0
print
students
[
2
]
#利用索引运算符选取元素
#列表可以修改内容
students[
2
]=
"王八蛋"
print
students[
2
]
输出:向冲
王八蛋
元组:与列表类似
区别:1.使用()包含元素,2.不能修改内容,只能读取内容
students
=(
"小明"
,
"jone"
,
"向冲"
,
"mary"
,
"alice"
)
print
students
[
2
]
输出:向冲
集合:1.建立关系。2.消除重复元素
格式:set(元素)
#集合
a=
set
(
"adfasfbsb"
)
b=
set
(
"affg"
)
x=a&b
#交集
print
x
y=a|b
#并集
print
y
z=a-b
#差集 a中有,b没有
print
z
new
=
set
(a)
#去除重复元素:集合里的元素是唯一的,把字符串a变为一个集合赋值给new,输出new
print
new
输出:set(['a', 'f'])
set(['a', 'b', 'd', 'g', 'f', 's'])
set(['s', 'b', 'd'])
set(['a', 's', 'b', 'd', 'f'])
字典:关联数组,通过":"进行关联。字典里面包含一整个事情,事情里面包含各方面的具体信息
格式:zidian={'name':'caoge','home':'niaoshi','like':''book'}
#字典
k={
"名字"
:
"鸽子"
,
"籍贯"
:
"新疆"
}
print
k[
"籍贯"
]
#添加字典内容,原子典不变
k[
"星座"
]=
"鱼鱼"
print
k[
"名字"
]
print
k[
"星座"
]
print
k[
"籍贯"
]
输出:新疆
鸽子
鱼鱼
新疆
七、什么是标识符
标识符:起的名字叫做标识符。变量,常亮的名字就是标识符的一种。根据命名规则命名的可以使用的标识符叫做有效标识符。否则是无效标识符
命名规则:a、第一个字符只能是字母或是下划线
b、其他部分可以是字母或者下划线或者数字
c、标识符大小写敏感
ssd_1
=
223
print
ssd_1 输出:223
1
ssd=
223
print
1
ssd 输出:报错
_1ssd=
223
print
_1ssd 输出:223
python关键字:系统自带的有特定的含义的标识符。共28种
主要有:and、elif、global、or、else、pass、break、continue、import、class、return、for、while
八、python的对象
python的内置对象:数字、字符串、列表、元组、字典、集合等。一切皆为对象
详解pickle腌制
需要持久性存储的对象,并且不丢失对象的类型与数据。我们将这个对象进行序列化,存储在内存或第三方文件中,需要使用的时候再恢复为原来的数据。
序列化的过程:pickle腌制。恢复的过程:反的pickle腌制
import
pickle
#导入pickle模块
#dumps(object)将对象序列化
lista=[
"xiangchong"
,
"shi"
,
"wangbadan"
]
listb=pickle.dumps(lista)
print
listb
输出:(lp0
S'xiangchong'
p1
aS'shi'
p2
aS'wangbadan'
p3
a.
#loads(string)将对象的类型,数据原样恢复为原来的格式
listc=pickle.loads(listb)
print
listc
输出:['xiangchong', 'shi', 'wangbadan']
#dump(object,file)将对象序列化,存储在文件里
group1=(
"caoge"
,
"jiuxihuan"
)
f1=
file
(
'1.pk1'
,
'wb'
)
#wb:写入
pickle.dump(group1,f1,
True
)
f1.close()#关闭文件
#load(object,file)恢复数据
f2=
file
(
'1.pk1'
,
'rb'
)
t=pickle.load(f2)
print
t
f2.close()
输出:('caoge', 'jiuxihuan')
九、行与缩进
逻辑行与物理行
逻辑行:一段代码在意义上的行数
物理行:实际看到的行数
#三个物理行
print
"abc"
print
"123"
print
"777"
#1个物理行,3个逻辑行
print
"abc"
;
print
"123"
;
print
"777"
#1个逻辑行,3个物理行
print
'''这里是
曹歌的
代码'''
行中分号使用规则
一个物理行中可以有多个逻辑行,用分号隔开。如果一个逻辑行占了物理行的最后,这个逻辑行可以省略分号
#所有的逻辑行后均应使用分号
print
"123"
;
print
"111"
;
print
"asd"
;
#行末的分号可以省略
print
"123"
;
print
"111"
print
"asd"
行连接:一个逻辑行分为几个物理行写时,使用行连接,在行的最后加\
print
"我们都是\
好孩子"
输出:我们都是好孩子
缩进:逻辑行行首的空白有规定,不对时程序不能运行
缩进要求:1、一般逻辑行行首没有空白
2、if/while语句缩进方法
#if语句
a=
7
if
a>
0
:
print
"hello"
#缩进一个tab字符
#while缩进
a=
0
while
a<
7
:
print
a
a+=
1
输出:hello
0
1
2
3
4
5
十、python运算符与表达式
运算符:对一个数字或者多个数字进行操作,对一个或多个字符串进行操作。也叫运算符
+、-、*、/、**(冥运算)、<、>、!=(不等于)、//(商的整数部分)、%(余数部分)、&、|、^、~、>>(右移)、<<(左移)、<=、>=、==、not、and、or
#”+“两个对象相加
a=
7
+
8
print
a 输出:15
b=
"xiang"
+
"chong"
#"+"是两个字符串的连接符号
print
b 输出:
xiangchong
#“-”取一个数字的相反数,两个数字相减
a=-
7
#取相反数
print
a 输出:-7
b=-(-
8
)
print
b 输出:8
c=
11
-
12
print
c 输出:-1
#两个数相乘、字符串重复
a=
4
*
7
print
a 输出:28
b=
"cao"
*
3
print
b 输出:caocaocao
#"/":两个数字相除
a=
7
/
2
print
a
#除数或者被除数有一个是小数得到的结果就是小数,都是整数得到的结果就是整数输出:3
b=
7.0
/
2
print
b 输出:3.5
c=
7
/
2.0
print
c 输出:3.5
#"**":求幂运算
a=
2
**
3
#2的三次幂,2*2*2
print
a 输出:8
#”<“小于号,返回一个bool值
a=
3
<
7
print
a 输出:
True
b=
3
<
3
print
b 输出:
False
#">":大于号,返回一个bool值
a=
3
>
7
print
a 输出:False
b=
3
>
1
print
b 输出:True
#"!=":不等于,返回bool值
a=
2
!=
3
print
a 输出:True
b=
2
!=
2
print
b 输出:False
#"//":商的整数部分
a=
10
//
3
print
a 输出:3
#"%":取商的余数部分
b=
10
%
3
print
b 输出:1
a=
10
%
1
#没有余数的时候
print
a 输出:0
a=
10
//
3
b=
10
%
3
c=
3
*a+b
#c为除数乘以商的整数部分加上余数,c为被除数
print
c 输出:10
#"&":按位的与运算。按位与是指一个数字转化为二进制,然后这些二进制的数按位来进行与运算
a=
7
&
18
#与运算只有1,1为1
print
a 输出:2
'''将7转化为二进制:111;自动补齐8位:00000111;
将18转化为二进制10010,自动补齐为0010010
将00000111
..00010010按位与进行运算,得到00000010,将00000010转化为十进制,得到2'''
#"\":按位或运算,将数字转化为二进制后按位进行或运算
a=
7
|
18
#或运算只有0,0为0
print
a 输出:23
'''将7转化为二进制:111;自动补齐8位:00000111;
将18转化为二进制10010,自动补齐为0010010
将00000111
..00010010按位或进行运算,得到00010111,将00010111转化为十进制,得到23'''
#"^"按位异或,不相同为1,相同为0
a=
7
^
18
print
a 输出:21
'''将7转化为二进制:111;自动补齐8位:00000111;
将18转化为二进制10010,自动补齐为0010010
将00000111
..00010010按位或进行运算,得到00010101,将00010101转化为十进制,得到21'''
#"~":按位翻转.~x=-(x+1)
a=~
18
#~18=-(18+1)
print
a 输出:-19
#"<<":左移
'''18左移,将他的二进制形式00010010左移,成为00100100(右边缺少默认补0)
,成为36,左移一个单位相当于乘2左移两位相当于乘4,三位相当于乘8,N个单位相当于乘2的N次幂'''
a=
18
<<
1
print
a 输出:36
b
=
3
<<
3
print
b 输出:24
#“>>”:右移,右移是左移的逆运算,结果取商的整数部分
'''18左移,将他的二进制形式00010010左移,成为0001001(右边缺少默认补0)
,成为36,右移一个单位相当于除以2,右移两位相当于除以4,三位相当于除以8,N个单位相当于除以2的N次幂'''
a=
18
>>
1
print
a 输出:9
b=
18
>>
2
print
b 输出:4
#"<=":小于等于,比较运算,小于或等于,返回bool值
a=
3
<=
3
print
a 输出:True
b=
4
<=
3
print
b 输出:False
#">=":大于等于,比较运算,大于或等于,返回bool值
a=
1
>=
3
print
a 输出:False
False
b=
4
>=
3
print
b 输出:True
#"==":比较两个对象是否相等,返回bool值
a=
12
==
13
print
a 输出:False
b=
"hello"
==
"hello"
print
b 输出:True
#"not":逻辑非,true的值非运算后为false
a=
True
b=
not
a
print
b 输出:False
c=
False
print not
c 输出:True
#"and":逻辑与
'''
True and True==True
True and False==False
False and False==False'''
print
True
and
True 输出:True
#“or”:逻辑或
'''
True or True==True
True or False==True
False or False==False'''
print
True
or
False 输出:True
优先级:python的优先级有两种,程序的优先级和运算符的优先级
#优先级的作用,不同运算符优先级不同,优先执行某些运算符
a
=
2
+
7
*
8
print
a
#优先执行* 输出:
b=
9
>
7
print
b
# 输出:
#优先级使用实战
#第一名:函数调用/寻址/下标
#第二名:幂运算**
a
=
4
*
2
**
3
print
a 输出:32
#第三名:翻转运算~
#第四名:正负号
print
2
+
4
*-
2 输出:-6
#第五名:*,/,%
print
2
+
4
*
2
/
4 输出:4
#第六名:+,-
print
3
<<
2
+
1 输出:24
#第七名:<<,>>
#第八名:按位&,^,\
#第九名:比较运算符
a
=
2
*
3
+
5
<=
5
+
1
*
2
print
a 输出:False
#第十名:逻辑的与或非and,or,not
#第十一名:lambda表达式
运算符使用规律:
#1,一般是左结合的
print
4
+
5
+
5
*
6
+
6 输出:45
#2,出现赋值的时候一般是右结合
a
=
5
+
5
print
a 输出:10
优先级记忆方法:
函数寻址下标一
幂运算小二笑嘻嘻
全体单元第三位(连接一个对象的运算符~,-,+)
乘除求余四千里
乘除完了五加减
六娃玩耍左右移
七是按位或跟与
八仙生气要比敌
倒数第一逻辑或非与
实在不记得优先级时,用小括号。括号内的优先级最高
a
=(
2
+
5
)*
6
print
a 输出:42
b=((
2
+
5
)+
5
)*
2
print
b 输出:24
表达式:值,变量和运算符中的一个或多个组成
#1字符串表达式
"hello"
#2.运算表达式
25
+
7
#3.变量,值组成
a=
67
#4.值,运算符,变量
a=
"hello"
#表达式在单行命令中的使用,一输入会执行,但在多行命令行中不会执行,所以在本文件(源程序,又叫多行命令行)中不会执行,在IDLE中可执行
#值表达式:8,执行结果任是值
8
#变量表达式
a=
"OK"
a=
7
#计算表达式:输出结果是计算后的值
7
+
8
#字符串表达式
"HELLO"
#输出'HELLO'
#表达式在源程序中的使用
#表达式执行结果与print的区别,字符串执行结果有单引号,打印结果没有单引号,数字执行结果和打印结果都是数字
#表达式:输入"qq",输出'qq'
#print:输入:print "qq" 输出:qq
#表达式:输入:a=7 回车 输入:a,输出:7
#print:输入:print a 输出:7
十一、控制流
程序代码的执行是有顺序的,从上到下,跳转执行,分支执行,循环执行。控制语句能控制代码段的执行方式,不同功能的控制语句为控制流
三种控制流:
顺序结构(通常情况),分支结构,循环结构
分支结构if:判断执行哪个语句块
#IF语句,分支结构,只满足一个分支.各分支尽量不要重复,并且尽量包含全部可能性
'''
if 是这样:
执行该部分语句
elif 或者是这样:
执行elif部分语句
else 以上情况都不是:
执行这部分语句
'''
#一种情况的if
a=
8
if
a==
8
:
print
"caoge"
if
a!=
8
:
print
"hehe"
#两种情况的if
a=
8
if
a==
8
:
print
"caoge"
else
:
print
"xiangchong"
#三种情况下的if
a=
8
if
a==
7
:
print
"xiang"
elif
a>
7
:
print
"cao"
else
:
print
"fenshou"
a=
80
b=
0
print
"差"
elif
80
<=a<=
100
:
print
"好"
#程序问题:1.b没有用到,消耗内存。2.80在两个分支里都有,不准确,输出是哪个条件在上面,,就输出哪个结果
循环结构while:控制一个语句循环执行
#循环结构
'''
while 条件为真:
循环执行“该部分语句
该部分语句“
else:条件为假,执行该部分语句
'''
#死循环
'''a=True
while a:
print "wangbadan"
'''
#不会循环输出,else部分不循环输出,只有while部分循环输出
b=
False
while
b:
print
"xiangchong"
else
:
print
"caoge" 输出:caoge
#有嵌套的while语句
a=
1
while
a<
10
:
if
a<=
5
:
print
a
else
:
print
"hello"
a=a+
1
else
:
print
"test"
输出:1
2
3
4
5
hello
hello
hello
hello
test
循环结构for:变量依次取集合里的元素,执行循环部分
'''
for语句格式:
for i in 集合
执行该部分
else:
执行该部分
'''
for
i
in
[
1
,
2
,
8
,
9
,
0
]:
print
i 输出:12890
#range函数,生成一个集合的序列,个数为7-1,步长默认为1
for
i
in
range
(
1
,
7
):
print
"hello" 输出:hellohellohellohellohellohello
a=
range
(
2
,
5
)
print
a 输出:[2, 3, 4]
#range中第三个参数代表步长,生成集合为1,3,5,7,9
for
i
in
range
(
1
,
10
,
2
):
print
i 输出:13579
#带嵌套的for语句,优先执行里面的语句,外层只做控制
for
i
in
range
(
1
,
10
):
if
i%
2
==
0
:
print
i
print
"偶数"
else
:
print
i
print
"基数"
输出:1
基数
2
偶数
3
基数
4
偶数
5
基数
6
偶数
7
基数
8
偶数
9
基数
break语句:循环语句中,打破循环,强制停止
#break在while中
a=
1
while
a:
print
a
a=a+
1
if
a==
5
:
break 输出:1234
#break在for中
for
i
in
range
(
5
,
9
):
print
i
if
i>
8
:
break 输出:5678
#break在双层循环中
a=
10
while
a<=
12
:
a=a+
1
for
i
in
range
(
1
,
7
,
2
):
print
i
if
i==
5
:
break 输出:135135135
a=
10
while
a<=
12
:
a=a+
1
for
i
in
range
(
1
,
7
):
print
i
if
i==
5
:
break
if
a==
12
:
break 输出:1234512345
continue语句:强制停止循环中的一次执行
#continue
a=
1
while
a<
7
:
a=a+
1
if
a==
3
:
continue
print
a 输出:24567
#for循环中的continue,a程序和b程序
for
i
in
range
(
1
,
7
):
if
i
==
3
:
continue
print
i 输出:12456
for
i
in
range
(
1
,
7
):
print
i
if
i
==
3
:
continue
#没起作用,想控制语句要把xontinue放上面,不想控制放下面
输出:123456
#continue在双层循环语句中,for循环先循环
a=
1
while
a<
7
:
a=a+
1
if
a==
4
:
continue
for
i
in
range
(
7
,
10
):
if
i
==
9
:
continue
print
i
输出:7878787878
#continue与break的区别
'''continue终止某一次循环
break直接结束循环'''
for
i
in
range
(
10
,
19
):
if
i
==
15
:
continue
print
i
输出:1011121314161718
for
i
in
range
(
10
,
19
):
if
i
==
15
:
break
print
i
输出:1011121314
十二、函数
函数function:用来封装特定功能。包括系统自带函数(不用我们编写,自由度低,方便)和自定义函数(自由度高,需要我们编写功能,需要使用的时候调用函数)
函数的功能:
#1.实现去字符串长度的功能
a=
"xinagchongshigewangbadantaoyanta"
print
len
(a)
输出:32
#2.实现字符串的切割,赋值给b
a=
"xiangchong"
b=a.split(
"a"
)
print
b
输出:['xi', 'ngchong']
#3.自定义的函数
def
a():
print
"xiangchong"
;
print
777
a()
输出:xiangchong
777
函数的定义:1.声明指定部分是函数
2.定义这个函数所包含的功能
def
函数名():
函数内容;函数内容
def
function():
a=
8
print
a
形参与实参
参数:函数执行功能时所用到的数据
print
len
()
#取数据的1函数中无参数,报错,函数无意义
形式参数:发生在函数定义的过程中,一般代表参数的名称,不代表参数值,没有实际值
def
function(a,b):
#a,b是形式参数,代表第一个位置是a,第二个位置是b
if
a>b:
print
a
else
:
print
b
function(
1
,
3
)
#1,3是实际参数,在函数的调用部分,a的位置实际值为1,b的位置实际值为3
#1传递给function中的a,3传递给funbtion中的b。一一对应传递
实参:是在函数调用的过程中出现,一般具有实际参数
传递方式:参数传递有使用顺序
关键参数:一个函数中出现多个参数时,可以通过名字直接给参数直接赋值
def
function(a=
1
,b=
6
,c=
7
):
#赋值传递,初始化
print
a
print
b
print
c
function(
5
)
#自动赋值给最左边 输出:567
function(
b
=
7
,
a
=
8
)
#b与b对应,不考虑位置关系。关键参数 输出:877
function(
5
,
c
=
2
,
b
=
3
)
#默认5传递给第一个位置 输出:532
funvtion(
b
=
4
,
c
=
2
,
a
=
1
)
#按照关键词传递,不考虑位置 输出:142
全局变量与局部变量
作用域:变量的作用范围
def
func():
f
=
8
#print f #会报错,显示f没有定义。原因:f在func函数内,作用域也在函数内
#print j #会报错,j的作用域是定义j=9之后,以下的部分,函数部分在他的上面,所以报错
j=
9
print
j
#对了
局部变量:变量的作用域在一定范围内,不是全局起作用。没有声明是全局变量的变量,默认是局部变量,只要在函数内部的变量就是局部变量
def
func2(
a
):
i=
7
#局部变量只在局部起作用,只在函数里起作用
print
i
i=
9
func2(i)
# i=9传递给a,函数内部i=7,所以输出7
print
i
#没有调用函数,输出函数外面的结果
输出:79
全局变量:作用域为全局,需要全局声明
def
func3():
#定义函数
global
i
#声明全局变量,i的作用域在全局,函数外面也能用
i=
7
print
i
#局部变量
i=
9
func3()
print
i 输出:77
def
func3():
#定义函数
global
i
#声明全局变量,i的作用域在全局,函数外面也能用
i=
7
print
i
#局部变量
func3()
i=
9
#i的值改变
print
i 输出:79
函数的使用与返回值
函数的调用:直接输入函数名,调用参数的时候,在括号里输入参数就行
def
a():
i
=
1
a()
函数的返回值:有的函数有,有的函数没有。返回可以一个值或多个值
#函数的返回值是通过return实现的
def
test():
i=
7
return
i
#函数的整体值是I,使函数成为一个是值的函数,给函数赋予值
print
test() 输出:7
#多个返回值
def
test2(i,j):
k=i*j
return
(i,j,k)
x=test2(
4
,
5
)
#把4,5传递给i,j。x:以元组的形式存储多个元素
print
x 输出:(4, 5, 20)
def
test3(i,j):
k=i*j
return
(i,j,k)
y
,z,m=test3(
4
,
5
)
#分别存储
print
y 输出:4
文档字符串:由于函数过多,造成分析困难,浪费时间的问题。解决办法:1.写说明文档,一个函数一个。2.使用文档字符串,每个函数开头写文档字符串
1.紧挨冒号
2.使用三引号
3.第二行必须空开,第三行开始是具体功能的描述
4.句末是句号,第一个字母必须大写
使用方法:print d.___doc__,函数d的文档字符串
help(d):输出帮助信息,输出文档字符串和参数信息
十三、模块
模块:函数功能的扩展,实现一项或多项功能的程序块。模块里可以重用多个函数。实现的是一类功能。
目录:lib:放模块,自定义模块也在这里。
导入模块:导入模块后才能使用 ,关键字:import
import
math
#导入模块
print
math.pi
自带模块:标准库模块。有的与邮件,操作系统,系统功能等有关。其中标准库中与系统功能有关的模块叫sys模块
#sys
import
sys
print
sys.version
#版本信息
print
sys.executable
#查看目录地址
print
sys.getwindowsversion()
#返回win版本信息
print
sys.modules.keys()
#返回导入模块列表的关键字
字节编译:
.pyc文件:机器识别二进制语言。所以python执行模块时有两种方式。1.现将模块里面的内容编译为二进制,这一过程叫字节编译,会产生.pyc二进制文件。2.直接执行模块对应的二进制语言程序,省略编译,执行速度快一些。
字节编译与编译的区别:
python的编译过程是在解释器中发生的,而编译型语言是指软件中就有一个独立的编译模块去编译程序。而python中的字节编译由解释器完成,所以python是解释型语言。
两种.pyc文件的产生方式:执行一个模块时,如果有.pyc文件就执行文件。如果没有就进行字节编译,产生.pyc文件(运行一下import模块,就会产生文件或者在cmd中编译),执行它。
.pyc文件的使用:1.加快模块运行速度、2.反编译等
.pyc文件的查看:使用二进制文件阅读器Binary viewer等
from...important:导入一个模块的一个方法,
from
sys
import
version
import
sys
print
version
print
sys.version
#版本信息
from...important*:导入一个模块的所有方法
认识_name_属性
主模块:函数中,一个函数调用其他函数,这个函数是主函数,没有调用其他函数的函数叫非主函数
模块中,一个模块被其他模块调用,这个模块是非主模块,没有被调用模块,被直接使用的模块叫主模块。
自己执行是主模块,被别人执行是非主模块。决定因素
__name__属性的值是"__main__"就是主模块。帮助判断
认识_name_属性:
if
__name__==
"__main__"
:
print
"主模块"
else
:
print
"不是主模块"
自定义模块:自己定义的模块。
创建:将文件保存在lib目录内,命名为ceshi.py。保证模块没有 逻辑和语法上的小错误:将模块内的形式参数参数初始化(i=0)或者声明变量类型(Int i)
#coding:utf-8
i=
0
#初始化
j=
0
#初始化
#i,j形参,没有实际值,执行出错.只在模块外面赋值也会报错..解决办法:初始化,起码在逻辑上不会出错
def
add(i,j):
k=i+j
return
k
k=add(i,j)
print
k
调用模块:
import
ceshi
#生成.cpy文件
i=
1
j=
2
print
ceshi.add(i,j) 输出:3
dir()函数:查看指定模块的功能列表
import
sys
print
dir
(sys)
#输出所有的功能,其他编辑器可以不加print 直接写dir(sys)
print
sys.version
#其他编辑器可以不加print
dir()函数扩展:查看任意指定对象的功能列表
空列表
有元素的列表
返回值一样,说明dir()只是返回属性和方法的列表,没有数据
十四、python数据结构
数据结构:一个或几个数据要组织起来有不同的组织方式(存储方式)。不同组织方式就是不同的结构。数据组织在一起的结构称为数据的结构。又为数据结构。
数据结构:列表,元组,字典,队列,栈,树等等。
python中数据的组织方式叫做python的数据结构
Python的内置数据结构:python定义好的,比如元组,列表等
python的扩展数据结构:python中没有直接定义,需要我们自己定义实现的组织方式:栈,队列。。。
#python的内置数据结构:元组,列表,字典
#三个物品,apple、orange、pear。存储起来
# 1.列表。按顺序分别存储到一个柜子中,这些物品可以取出来,发生改变。
[
"apple"
,
"orange"
,
"pear"
]
#2.元组,按顺序分别存储到一个柜子中,这些物品不可以取出来,不发生改变。
(
"apple"
,
"orange"
,
"pear"
)
# 3.字典。按顺序分别存储到一个柜子中,每个柜子有名称。
{
"sam"
:
"apple"
,
"jac"
:
"orange"
,
"mating"
:
"pear"
}
数据结构和算法:
数据结构是数据存储方式,是静态的
算法:运算方法,是思维,是动态的。不同的运算方法是不同的算法
数据结构是算法的基础,相同的数据结构1运用不同的算法有不同的效率
栈:一种数据结构,不是内置数据结构,属于扩展数据结构。
相当于一端开口一端封闭的容器。数据A进栈的过程叫做进栈。栈只能对栈顶的数据进行操作,栈顶到栈底的数据不能被操作,栈顶数据出栈后才能操作栈顶到栈底之间的数据
#栈的实现
class
Stack():
#定义栈的类
def
__init__
(
st
,size):
#初始化,__init__:名称;st:主体;size:容量
st
.stack=[];
#基础属性:列表,列表里的数据可以随意修改
st
.size=size;
#容量的参数赋值给栈
st
.top=-
1
;
#初始化栈顶,第一个进来的数字是0,那么最开始是栈顶的位置是-1
def
push(
st
,content):
#入栈;st:主体;content:数据内容
if
st
.Full():
print
"Stack is Full!"
else
:
st
.stack.append(content)
#在栈里增加数据,append:增加内容
st
.top=
st
.top+
1
#栈顶指针加一
def
out(
st
):
#出栈操作
if
st
.Empty():
#判断空
print
"Stack is Empty"
else
:
st
.top==
st
.top-
1
def
Full(
st
):
#判断栈是否满了,满的时候栈顶指针跟栈的大小相等
if
st
.top==
st
.size:
return
True
else
:
return
False
def
Empty(
st
):
if
st
.top==-
1
:
#栈顶为-1,栈空了
print
True
else
:
print
False
#栈的使用
q=Stack(
7
)
#给栈传递参数,初始化
q.Empty()
#判断是否是空 输出:True
q.push(
"Hello"
)
#入栈
q.Empty() 输出:False
q.out()
#出栈
q.Empty()
队列:两端都开通的容器;一段只能进行删除操作,另一端只能进行插入操作。
进行插入操作的一段叫队尾,只能进;进行删除操作的叫队首,只能出
队尾进队首出。
# 队列的实现
class
Queue():
def
__init__
(
qu
,size):
#初始化;qu:队列的主体;size:队列的容量
qu
.queue=[];
#列表里的元素可以修改,所以用队列作为主体
qu
.size=size
qu
.head=-
1
qu
.tail=-
1
def
Empty(
qu
):
if
qu
.head==
qu
.tail:
#队尾队首指针重合
return
True
else
:
return
False
def
Full(
qu
):
if
qu
.tail-
qu
.head+
1
==
qu
.size:
#队首队尾指针的距离为容量
return
True
else
:
return
False
def
enQueue(
qu
,content):
if
qu
.Full():
print
"Full"
else
:
qu
.queue.append(content)
#数据放入队列
qu
.tail=
qu
.tail+
1
#队尾指针加一
def
outQueue(
qu
):
if
qu
.Empty():
print
"empty"
else
:
qu
.head=
qu
.head+
1
#队尾指针不变,队尾指针加一
#队列的使用
t=Queue(
7
)
t.Empty()
t.enQueue(
"sfg"
)
t.Empty()
十五、基本的正则表达式
常用符号:点号,星号,问好,小括号
.:匹配任意字符,换行符\n除外
*:匹配前一个字符0次或无限次
?:匹配前一个字符0次或1次
.*:贪心算法,吃尽可能的东西
.*?:非贪心算法
():括号内的数据作为结果返回
#
导入正则表达式的库文件
re
import
re
#
密码
secret_code=
"hadkfexxIxxfasfjifa123xxlovexx23345sdfaxxyouxx8dfs"
#.
的使用
a=
'xz123'
b=re.findall(
'x.'
,a)
#.
就是一个占位符,几个点就是几个符号
print
b 输出:['xz']
#*
的使用
a=
'xzx123'
b=re.findall(
'x*'
,a)
#.
就是一个占位符,几个点就是几个符号
print
b 输出:['x', '', 'x', '', '', '', '']
#?
的使用
a=
'xzx123'
b=re.findall(
'x?'
,a)
#.
就是一个占位符,几个点就是几个符号
print
b 输出:['x', '', '', '', '', '', '']
#.*
贪心算法
b=re.findall(
'xx.*'
,secret_code)
print
b 输出:['xxIxxfasfjifa123xxlovexx23345sdfaxxyouxx']
#.*?
非贪心算法
c=re.findall(
'xx.*?xx'
,secret_code)
print
c 输出:['xxIxx', 'xxlovexx', 'xxyouxx']
#(.*?)
d=re.findall(
'xx(.*?)xx'
,secret_code)
print
d 输出:
['I', 'love', 'you']
for
each
in
d:
print
each 输出:I
love
you
方法:findall,search,sub
findall:匹配所有符合规律的内容,返回包含结果的列表。遍历整个文件
Search:匹配并提取第一个符合规律的内容,返回一个正则表达式对象。找到所需,就不找了
Sub:替换符合规律的内容,返回替换后的值
s=
'''aefadxxhelo
xxsdfdsdfxxwordxxsfds'''
e=re.findall(
'xx(.*?)xx'
,s)
print
e 输出:['sdfdsdf']
f=re.findall(
'xx(.*?)xx'
,s,re.S)
#re.S
是为了包括换行符,
s
是让点匹配任意字符包括新的一行在政策表达式的库文件中有介绍
print
f 输出:['helo\n', 'word']
#
对不
findall
与
search
的区别
s2=
'sdfxxIxxafxxlovexxdfdfgxxxiangxxfdg'
#group
代表匹配的括号有几个
g=re.search(
'xx(.*?)xxafxx(.*?)xx'
,s2).group(
2
)
print
g 输出:love
g2=re.findall(
'xx(.*?)xxafxx(.*?)xx'
,s2)
print
g2[
0
][
1
] 输出:love
#sub
s=
'123sadfsfdg123'
output = re.sub(
'123(.*?)123'
,
'123789123'
,s)
print
output 输出:123789123
output1 = re.sub(
'123(.*?)123'
,
'123%d123'
%
789
,s)
print
output1 输出:123789123
常用技巧:
import re推荐使用
from re import*
from re import findall,search,sub,S
不需要compile
使用\d+匹配纯数字
#
匹配纯数字
a=
'asdfasf1234sdfaf777sadgf'
b
=re.findall(
'(\d+)'
,a)
print
b 输出:['1234', '777']
#
正则表达式应用
#
注意:先抓大,在抓小
import
re
old_url=
'http://www.jikexueyuan.com/course/android/?pageNum=2'
total_page=
20
#
假设有
20
页
f=
open
(
'text.txt'
,
'r'
)
#
打开文件
html=f.read()
#
读取文件,保存至
html
f.close()
#
爬取标题
,
确认标题只有一个,用
search
title=re.search(
'(.*?)'
,html,re.S).group(
1
)
print
title
#
爬取链接
links=re.findall(
'href="(.*?)"'
,html,re.S)
for
each
in
links:
print
each
#
提取部分文字信息,先抓大,后小
#
抓取
ul
部分里的
text_fied=re.findall(
''
,html,re.S)[
0
]
the_text=re.findall(
'">(.*?)'
,text_fied,re.S)
for
every_text
in
the_text:
print
every_text
#
实现翻页
for
i
in
range
(
2
,total_page+
1
):
new_link = re.sub(
'pageNum=\d+'
,
'pageNum=%d'
%i,old_url,re.S)
print
new_link
页面代码;text.txt
爬虫测试
制作文本爬虫:
目标网站:
http://jikexueyuan.com
目标内容:课程图片
实现原理:1.保存网站源代码——手动获取:半自动爬虫,人肉爬虫
2.python读文件加载源代码
3.使用正则表达式提取图片网址
4.下载图片
#
文本爬虫
import
re
import
requests
#
获取网页文件的利器
#
读取源文件
f=
open
(
'textsource.txt'
,
'r'
)
html=f.read()
f.close()
#
匹配图片网址
pic_url=re.findall(
'img src="(.*?)" class="lessonimg"'
,html,re.S)
i=
0
for
each
in
pic_url:
print
'now downloading:'
+ each
pic=requests.get(each)
fp=
open
(
'pic\\'
+
str
(i)+
'.jpg'
,
'wb'
)
fp.write(pic.content)
fp.close()
i+=
1
十六、单线程爬虫
爬取极客学院的课程库,爬取到的数据存储在文本文件中
requests的介绍,安装
requests:HTTP for Humans
完美代替python的urllib2模块
更多的自动化
更友好的用户体验
更完善的功能
安装:
win:pip install requests
linux:sudo pip install requests
第三方库安装技巧:少用easy_install,因为只能安装不能卸载
多用pip方式安装
安装时撞墙怎么办:www.lfd.uci.edu/~gohlke/pythonlibs/
拥有所有python第三方库文件。找到requests,带有.whl的文件,下载。后缀改为zip,解压缩。将requests文件夹复制到Lib文件夹中
第一个网页爬虫
request获取网页源代码
直接获取网页源代码
import
requests
#
获取
python
的首页源代码,输出的文字在页面查找,可以找到说明源代码获取成功
html=requests.get(
'http://tieba.baidu.com/f?ie=utf-8&kw=python'
)
print
html.text
修改http头获取源代码:反爬虫机制
#
有些网站会检查访问的程序,需要修改
http
头文件
import
requests
#hea
的
User-Agent
是面具,是个字典
.
让网站以为是浏览器在访问,而不是爬虫
'''
获取
User-Agent
:
1.
网站页面:审核元素。
2.
选择
network
,里面是空的,刷新页面。
3.
随便点击一个内容,在
headers
栏目中的
Request headers
中有
User-Agent
的值
'''
hea={
'User-Agent'
:
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
}
html=requests.get(
'http://jp.tingroom.com/yuedu/yd300p'
,
headers
=hea)
html.encoding=
'utf-8'
print
html.
text
使用requests与正则表达式找要的内容
import
requests
import
re
hea={
'User-Agent'
:
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36'
}
html=requests.get(
'http://jp.tingroom.com/yuedu/yd300p'
,
headers
=hea)
html.encoding=
'utf-8'
title=re.findall(
'"color: #039;">(.*?)'
,html.text,re.S)
for
each
in
title:
print
each
输出:300篇精选中日文对照阅读 289 挪威的森林(中日对照)第二章
300篇精选中日文对照阅读 288 挪威的森林(中日对照)第一章
300篇精选中日文对照阅读 287 藤野先生——名文选读
300篇精选中日文对照阅读 286 夏目漱石 我是猫 第一章
300篇精选中日文对照阅读 285 それお皿の絵柄よ
300篇精选中日文对照阅读 284 つもり
等等。。。
向网页提交数据
Get与Post(与服务器交互方式):
Get:从服务器上获取数据
Post:向服务器传送数据
Get:通过构造url中的参数来实现功能
Post:将数据放在header提交数据
分析目标网站:
https://www.crowdfunder.com/browse/deals
点击更多,网站浏览器网址不变:说明网站是异步加载(先把网页框架加载起来,其他的内容慢慢加载)。
加载进来的内容在源代码中找不到,1.运用打开审核元素反的network,点击更多,headers会有信息出现。2.查看request Method的值,发现是post,表明向网站发送了请求,请求地址是Request URL:。3.再查看From Data的page:的值,就是加载的页数。
说明,如果我们能构造一个From Data,就能向网页请求提交信息了。
Requests的表单提交:
核心方法:requests.post
核心步骤:构造表单-提交表单-获取返回信息
import
re
import
requests
# url='https://www.crowdfunder.com/browse/deals/'
# html=requests.get(url).text
# print html
url =
'https://www.crowdfunder.com/browse/deals&template=false'
data = {
'entities_only'
:
'true'
,
'page'
:
'2'
}
html_post = requests.post(url,
data
=data)
title = re.findall(
'"card-title">(.*?)
'
,html_post.text,re.S)
for
each
in
title:
print
each
极客学院的课程爬虫
目标网站:http://www.jikexueyuan.com/course/
目标内容:课程名称,课程介绍,课程时间,课程等级,学习人数
设计知识:requests获取网页
re.sub换页
正则表达式匹配内容
分析网站:1.换页时URL发生变化:http://www.jikexueyuan.com/course/?pageNum=2
http://www.jikexueyuan.com/course/?pageNum=3
。。。。。
2.查看源代码
3.爬取思路:先源码down下来,之后先正则表达式遍历整个页面,分别爬课程名称,课程介绍,课程时间,课程等级,学习人数。
用for循环将信息一一对应。问题:个别标签为空。使用for循环时对应有问题。
解决方法:先抓大,后抓小
import
re
import
requests
#
因为
pycharm
默认编码是
gbk
;网页的默认编码是
utf-8.
编码不匹配,容易乱码,所以以下三行代码将编码器强制转换
import
sys
reload
(sys)
sys.setdefaultencoding(
"utf-8"
)
class
spider(
object
):
def
__init__
(
self
):
print
u'
开始爬取内容。。。
'
#getsource
用来获取网页源代码
def
getsource(
self
,url):
html = requests.get(url)
return
html.text
#changepage
用来生产不同页数的链接
def
changepage(
self
,url,total_page):
#
当前的页数
now_page =
int
(re.search(
'pageNum=(\d+)'
,url,re.S).group(
1
))
#
定义一个列表
page_group = []
for
i
in
range
(now_page,total_page+
1
):
link = re.sub(
'pageNum=\d+'
,
'pageNum=%s'
%i,url,re.S)
page_group.append(link)
return
page_group
#
将网址保存在
page_group
的列表中,然后返回列表
#geteveryclass
用来抓取每个课程块的信息
def
geteveryclass(
self
,source):
everyclass = re.findall(
'()'
,source,re.S)
return
everyclass
#getinfo
用来从每个课程块中提取出我们需要的信息
def
getinfo(
self
,eachclass):
info = {}
#
定义字典
info[
'title'
] = re.search(
'target="_blank">(.*?)'
,eachclass,re.S).group(
1
)
info[
'content'
] = re.search(
'(.*?)
'
,eachclass,re.S).group(
1
)
#
有两个
em
标签,因此获取到的第一个是时间,第二个是等级
timeandlevel = re.findall(
'(.*?)'
,eachclass,re.S)
info[
'classtime'
] = timeandlevel[
0
]
info[
'classlevel'
] = timeandlevel[
1
]
info[
'learnnum'
] = re.search(
'"learn-number">(.*?)'
,eachclass,re.S).group(
1
)
return
info
#saveinfo
用来保存结果到
info.txt
文件中
def
saveinfo(
self
,classinfo):
f =
open
(
'info.txt'
,
'a'
)
#a
:追加的方式打开
for
each
in
classinfo:
f.writelines(
'title:'
+ each[
'title'
] +
'\n'
)
f.writelines(
'content:'
+ each[
'content'
] +
'\n'
)
f.writelines(
'classtime:'
+ each[
'classtime'
] +
'\n'
)
f.writelines(
'classlevel:'
+ each[
'classlevel'
] +
'\n'
)
f.writelines(
'learnnum:'
+ each[
'learnnum'
] +
'\n\n'
)
f.close()
if
__name__ ==
'__main__'
:
classinfo = []
#
得到一个空列表,用来保存信息
url =
'http://www.jikexueyuan.com/course/?pageNum=1'
jikespider = spider()
all_links = jikespider.changepage(url,
20
)
for
link
in
all_links:
print
u'
正在处理页面:
'
+ link
html = jikespider.getsource(link)
#
获取每一条课程
everyclass = jikespider.geteveryclass(html)
for
each
in
everyclass:
info = jikespider.getinfo(each)
#getinfo
:获取信息
classinfo.append(info)
#classinfo
这个列表里,保存了很多的字典
jikespider.saveinfo(classinfo)
输出:开始爬取内容。。。
正在处理页面:http://www.jikexueyuan.com/course/?pageNum=1
正在处理页面:http://www.jikexueyuan.com/course/?pageNum=2
正在处理页面:http://www.jikexueyuan.com/course/?pageNum=3
正在处理页面:http://www.jikexueyuan.com/course/?pageNum=4
正在处理页面:http://www.jikexueyuan.com/course/?pageNum=5
正在处理页面:http://www.jikexueyuan.com/course/?pageNum=6
。。。。
十七、XPath与多线程爬虫
神器XPath:XML Path Language。一门语言,
可以再xml文档中查找信息,提取信息,比正则表达式厉害,简单
支持HTML,
通过元素和属性进行导航
安装:安装lxml库,
from lxml import etree
Selector=etree.HTML
神器XPath的使用:
XPath与HTML结构:HTML:树状结构,逐层展开,逐层定位,寻找独立节点
获取网页元素的XPath:
手动分析法
chrome生成法
copy值为://*[@id="useful"]/li[1]
*:只有一个id=useful,所以用*
li[1]:第一条信息,去除[1]将以列表的形式返回
应用XPath提取内容
from
lxml
import
etree
html =
'''
测试
-
常规用法
这是第一条信息
这是第二条信息
这是第三条信息
不需要的信息
1
不需要的信息
2
不需要的信息
3
'''
selector = etree.HTML(html)
#
将多行字符串转化为
xpath
可以识别的对象
#
提取文本
content = selector.xpath(
'//ul[@id="useful"]/li/text()'
)
#==content = selector.xpath('//div/ul[@id="useful"]/li/text()')
#==content = selector.xpath('//div[@id="content"]/ul[@id="useful"]/li/text()')
for
each
in
content:
print
each
#
提取属性
link = selector.xpath(
'//a/@href'
)
for
each
in
link:
print
each
title = selector.xpath(
'//a/@title'
)
print
title[
0
]
text = selector.xpath(
'//a/text()'
)
print
text[
0
]
text = selector.xpath(
'//a/text()'
)
print
text[
1
]
神器XPath的特殊用法
以相同的字符开头
starts-with(@属性名臣,属性字符相同部分)
标签套标签
string(.)
from
lxml
import
etree
#
提取所有文字
html1=
'''
'''
#
提取所有文字
html2=
'''
我左青龙,
右白虎,
下玄武。
老牛在当中
龙头在胸口
'''
selector=etree.HTML(html1)
content=selector.xpath(
'//div[starts-with(@id,"test")]/text()'
)
for
each
in
content:
print
each
selector=etree.HTML(html2)
content2=selector.xpath(
'//div[@id="test3"]/text()'
)
for
each
in
content2:
print
each
#
提取的只有
“
我左青龙,龙头在胸口
”
#
所以还是用先大后小的办法
selector=etree.HTML(html2)
data_big=selector.xpath(
'//div[@id="test3"]'
)[
0
]
data_small=data_big.xpath(
'string(.)'
)
content3=data_small.replace(
'\n'
,
' '
).replace(
' '
,
' '
)
print
content3
Python并行化介绍与演示
并行化:python的多线程(不是真的多线程)。多个线程同时处理任务
搞笑,快速
使用map完成并行化:
map:一手包办了序列操作,参数传递和结果保存等一系列操作
from multiprocessing.dummy import Pool
pool=Pool(4):四核计算机,写了效率更高
results=pool.map(爬取函数,网址列表)
from
multiprocessing.dummy
import
Pool
as
ThreadPool
#as ThreadPool
:重命名为
ThreadPool
import
requests
import
time
#
用来对比并行化后的时间
#
获取
url
的源代码
def
getcource(url):
html
=requests.get(url)
urls=[]
#
生成二十条网址,添加到
urls
的列表里
for
i
in
range
(
1
,
21
):
newpage=
'http://tieba.baidu.com/p/35223957187?pn='
+
str
(i)
urls.append(newpage)
time1=time.time()
#
记录第一个时间
for
i
in
urls:
print
getcource(i)
time2=time.time()
#
终止计时
print
'
单线程耗时:
'
+
str
(time2-time1)
#
计算时间差
pool=ThreadPool(
2
)
#
并行操作,初始化一个实例
time3=time.time()
results=pool.map(getcource,urls)
pool.close()
pool.join()
time4=time.time()
print
'
并行耗时
'
+
str
(time4-time3)
pool=ThreadPool(
4
)
#
并行操作,初始化一个实例
time5=time.time()
#
开始计时
results=pool.map(getcource,urls)
#
用
map
将
getcource
与
urls
连接起来
pool.close()
pool.join()
time6=time.time()
print
'
并行耗时
'
+
str
(time5-time6)
输出:None
None
None
None
None
。。。。(二十个)
单线程耗时:2.03800010681
并行耗时1.31300020218
并行耗时-0.825000047684
实战——百度贴吧
目标网站:
http://tieba.baidu.com/p/4815845758
目标内容:跟帖用户名,跟帖内容,跟帖时间(前二十页的内容)
涉及知识:requests获取网页
xpath提取内容
map实现多线程爬虫
爬取前分析:
1.网站换页时,URL变为http://tieba.baidu.com/p/4815845758?pn=1
http://tieba.baidu.com/p/4815845758?pn=2
http://tieba.baidu.com/p/4815845758?pn=3
2.使用审核元素功能;放大镜定位到内容,
获取正文时;由于id中有用户ID号码,所以不能作为定位节点,往上找
from
lxml
import
etree
import
requests
import
json
#
因为网页中
data-field
保存数据是以
json
保存的,所以需要
json
解析格式,也可以用正则表达式
from
multiprocessing.dummy
import
Pool
as
ThreadPool
#
以下三行代码是为了转换格式
import
sys
reload
(sys)
sys.setdefaultencoding(
'utf-8'
)
'''
重新运行之前请删除
content.txt
,因为文件操作使用追加方式,会导致内容太多。
'''
#
将获取到的数据写到
content
文本文件中
def
towrite(contentdict):
f.writelines(
'
回帖时间
'
+
str
(contentdict[
'topic_reply_time'
])+
'/n'
)
f.writelines(
'
回复内容
'
+
unicode
(contentdict[
'topic_reply_content'
])+
'/n'
)
f.writelines(
'
回帖人
'
+contentdict[
'user_name'
]+
'/n'
)
#
爬虫函数
def
spider(url):
html=requests.get(url)
#
获得源代码
selector=etree.HTML(html.text)
#
将源代码转换为
xpath
可以处理的对象
#
先获取整个
div
,先抓大,再抓小
content_field=selector.xpath(
'//div[@class="l_post j_l_post l_post_bright"]'
)
item={}
#
定义一个字典,用于存放爬取内容
for
each
in
content_field:
#
对每一条回帖获取
data-field
信息,并将其中转移字符换位空
.
因为直接从
content_field
中获取信息,所以不需要
“//”
#json.load
将
json
的格式,解析成字典的格式
reply_info=json.load(each.xpath(
'@data-field'
)[
0
].replace(
'"'
,
' '
))
#
读取所需信息
author=reply_info[
'author'
][
'user_name'
]
content=each.xpath(
'div[@class="d_post_content_main"]/div/cc/div[@class="d_post_content j_d_post_content"]/text()'
)[
0
]
reply_time=reply_info[
'content'
][
'date'
]
#
打印出来
print
content
print
reply_time
print
author
item[
'user_name'
]=author
item[
'topic_reply_time'
]=reply_time
item[
'topic_reply_content'
]=content
towrite(item)
if
__name__ ==
'__main__'
:
pool = ThreadPool(
2
)
f =
open
(
'content.txt'
,
'a'
)
page = []
for
i
in
range
(
1
,
21
):
newpage =
'http://tieba.baidu.com/p/4815845758?pn='
+
str
(i)
page.append(newpage)
results = pool.map(spider, page)
pool.close()
pool.join()
f.close()
十八、python操作数据库——MySQL:
数据库种类概述
数据库分类:SQL(结构化查询);NoSQL(非关系型数据库)——json
单机(数据库运行在一台服务器上);分布式(数据库运行在服务器集群上)
文件型(硬盘上);内存型(内存型)
(算是分布式的子分类)批处理(将SQL分成MR任务);交互式(分级查询之后汇总)
数据库产品:SQL:
开源:MySQL(学习创业首选);RostgreSQL;
商业:SQLServer,ORACLE
NoSQL:mongeDB(支持集群)
neo4j(图数据库,但性能方面有问题,处理数据量较小)
elasticsearch:全文检索存储;适合大量检索,监控
LnfluxDB:有性能问题
单机:MySQL;RostgreSQL
分布式:HIVE
cloudera IMPARA
文件型:mongeDB;MySQL
内存型:redis(支持复杂的数据类型);memcached
批处理:HIVE;
交互式:cloudera IMPALA;HBASE;DynamoDB
AWS:有名的云平台。减免维护数据库
MySQL,python数据库使用
MySQL:属于ORACLE。
使用AWS工具打开MySql:打开AWS官网,登陆AWS控制管理台。蓝色数据库分组。服务器放在东京,会使服务器访问速度快一些。需要修改安全组的设置,改为我的IP。需要使用可视化的管理工具,如:phpMyAdmin;Navicat等等
MySQLpython客户端的使用:
官方客户端mysql-connector
第三方客户端MySQLdb
MySQLdb的二次封装torndb使用
十九、
二十、
二十一、web开发
web开发介绍
C/S(客户机、服务器);B/S(浏览器、服务器)
动态网站:请求、执行python、执行结果、HTML返回
采用MVC:Mmodel:存储数据的代码;view:格式化和现实web应用的用户界面的代码;controller:将web应用粘合在一起并提供业务逻辑代码
每一个用户都是user类,user存储在model中,用户界面的代码在视图里;controller将M与V粘合并提供各种业务操作
CGI:通用网关接口。可以让一个客户端,从网页浏览器向服务器请求数据。是描述客户端和服务器程序之间传输数据的一种标准。独立于语言而存在、
应用于web的编程语言:PHP;ASP;JSPL;PYTHON。
web应用结构
前端:HTML(骨架);超文本标记语言,渲染显示
CSS(样式表):层叠样式表
JS(实现简单功能)
后台:PYTHON;PHP;JSP..
数据库:Mysql(关系型);MongoDB(非关系型)
实战html/js:计算器
<
html
>
<
head
lang=
"en"
>
<
meta
charset=
"utf-8"
>
<
title
>
caculator
title
>
<
script
src=
"add.js"
>
script
>
head
>
<
body
>
<
div
align=
"center"
style=
"
margin-top
:
50
px
;
"
>
<
img
src=
"/pic/1.jpg"
>
div
>
<
div
align=
"center"
style=
"
margin-top
:
50
px
;
"
>
<
form
name=
"form1"
>
<
input
type=
"text"
placeholder=
"
加数
"
name=
"a1"
>
+
<
input
type=
"text"
placeholder=
"
加数
2"
name=
"a2"
>
=
<
input
type=
"text"
readonly=
"readonly"
placeholder=
"result"
name=
"a3"
>
<
input
type=
"button"
value=
"
计算
"
οnclick=
"
add
()
"
>
form
>
div
>
body
>
html
>
/**
* Created by tutelary on 2016/10/14.
*/
function
add
() {
var
add1
=Number(
document
.
form1
.
a1
.
value
);;
var
add2
=Number(
document
.
form1
.
a2
.
value
);
var
result
=
add1
+
add2
;
//noinspection JSAnnotator
document
.
form1
.
a3
.
value
=
result
;
}
二十二:Python进行CGI编程
CGI介绍
是运行在服务器上的程序,提供同客户端HTML页面的接口,全称:Commom Gateway Interface。可以是python脚本,Perl脚本,c或者c++程序等。CGI程序是不限定使用语言的。
1993年由NCSA开发,1997年制定了CGI1.1规范
工作原理:服务器接受请求-解析URL并查找访问文件是否在服务器上,存在就返回文件的内容,否则返回错误信息。浏览器从服务器上接受信息,并显示接收的文件或者错误信息
缺点:每次CGI请求都要生成一个程序的副本来运行
解决办法:FastCGI先编译;mod_perl将解释器作为模块集成在web服务器中;使用C语言
CGI中的环境变量:CONTENT_TYPE:指示传递来信息的类型
HTTP_COOKIE:客户机的cookie内容
REMOTE_ADDR:发送请求的客户机的IP地址
REQUEST_METHOD:脚本被调用的方法:get,post。。。
。浏览器客户端通过两种方法向服务器传递信息:get和post。
get方法发送用户信息到服务器,数据信息包含在请求URL上,以?分割。可被浏览器缓存;会保存在历史记录中,有长度限制,不应用于敏感场合,只用于取回数据
post:向服务器传递数据更可靠。包含在http头部中;不会显示在URL中;可使用SSL加密。
python中的web服务器
python自带web服务器。
BaseHTTPServer:提供基本的Web服务和处理类
SimpleHTTPServer:包含执行get请求的SimpleHTTPRequestHandler类
CGIHTTPServer:包含处理post请求和执行的CGIHTTPRequestHandler类
开启服务器:
使用Apache,
第一个CGI:创建目录
编写CGI程序
开启服务器
使用浏览器访问
CGI编写加法器:使用Python,GET,POST请求,配合HTML,JS完成加法器,并开启服务器
二十三、python web开发框架
框架:为了实现某个业界标准或者完成特别基本任务的软件组件规范,也指为了实现某个软件组件规范时,提供规范所要求之基础功能的软件产品。
框架类似于基础设施,提供并实现最为基础的软件架构和体系。就是程序的骨架。
为什么使用框架:可重用;成熟,稳健;可扩展性良好(第三方扩展);提高开发速度。
什么是web框架:支持动态网站,网络应用程序的软件框架。
工作方式:接受HTTP请求并处理,分派代码,产生HTML,创建HTTP响应。
web框架通常包括URL路由,数据库管理,模板引擎等
web框架:着重业务逻辑;高度可重用;选对框架很重要。
MVC:大部分框架都做了MVC分离
ORM:对象,关系映射。将具体类映射为数据库的表
URL Route:不同URL访问映射为不同函数中,完成不同的操作
Tenplate:模板。将后台数据通过渲染传入前段。
python常用web框架
Django
优点:完美文档;全套的解决方案;强大的URL路由配置;自助管理后台
缺点:系统紧耦合;自带ORM不够强大;Template比较弱
web.py和Tornado
Flask和Bottle(微框架)
优点:聚焦在业务逻辑上;学习成本低;灵活性,伸缩性强
缺点:很多逻辑需要开发者操刀;安装很多模块之后体积较大
Flask:核心简单,易于扩展。不包含数据库抽象层,表单验证等。可扩展框架。
安装:pip install flask
验证安装:import flask
Flask实战——加法器
目标:使用Python,Flash,配合HTML,JS完成加法器,并开启服务器
static:静态文件存放文件夹。存放JS,图片等
templates:模板文件夹,存放html文件
index.py文件
#coding:utf-8
from
flask
import
Flask
from
flask
import
render_template
from
flask
import
url_for
from
flask
import
request
#
从前台拿数据
from
flask
import
redirect
#
页面跳转
app=Flask(__name__)
#
实例化一个
Flask
类,对象为
app
@
app.route
(
'/'
,
methods
=[
'GET'
,
'POST'
])
def
index():
return
redirect(url_for(
'add'
))
@
app.route
(
'/add'
,
methods
=[
'GET'
,
'POST'
])
#
默认路径
,
用修饰器使函数接受两种方式
def
add():
#
#message="Back message"
if
request.method==
'POST'
:
a=request.form[
'a1'
]
b=request.form[
'a2'
]
a=
int
(a)
b=
int
(b)
c=a+b;
return
render_template(
'asdf.html'
,
message
=
str
(c))
#
返回渲染后的结果
return
render_template(
'asdf.html'
,
message
=a)
return
render_template(
'asdf.html'
)
if
__name__==
"__main__"
:
#
设定如果是独立运行,则
run
被调用
app.run(
port
=
8080
)
asdf.html文件
<
html
>
<
head
lang=
"en"
>
<
meta
charset=
"utf-8"
>
<
title
>
caculator
title
>
head
>
<
body
>
<
div
align=
"center"
style=
"
margin-top
:
50
px
;
"
>
<
img
src=
"{{url_for('static',filename='1.jpg')}}"
>
div
>
<
div
align=
"center"
style=
"
margin-top
:
50
px
;
"
>
<
form
name=
"form1"
method=
"POST"
>
<
input
type=
"text"
placeholder=
"
加数
"
name=
"a1"
>
+
<
input
type=
"text"
placeholder=
"
加数
2"
name=
"a2"
>
=
<
input
type=
"text"
readonly=
"readonly"
placeholder=
"result"
name=
"a3"
value=
"{{message}}"
>
<
input
type=
"submit"
value=
"
计算
"
οnclick=
"
add
()
"
>
form
>
div
>
body
>
html
>
二十四、flask表单开发
表单:
html页面中负责数据采集功能的部件,可以采集到用户输入的内容。由表单标签,表单域,表单按钮组成。通过表单,将用户输入的数据提交给服务器,并交由服务端进行处理
表单标签:声明表单的范围,位于表单标签中的元素将被提交
属性:method(提交方式,get,post),enctype(编码),action(提交页面)
表单域:文本框,密码框等
属性:type(类型),name,value(值)
文本框:text;
密码框:possword
文本区域:textarea
文件上传框:file
单选框:radio
复选框:checkbox
表单按钮:提交按钮,复位按钮,一般按钮
html
>
<
html
lang=
"en"
>
<
head
>
<
meta
charset=
"UTF-8"
>
<
title
>
表单
title
>
<
script
type=
"text/javascript"
src=
"CheckValue.js"
>
script
>
head
>
<
body
>
<
div
align=
"center"
>
<
h1
>
User Management
h1
>
<
form
name=
"form1"
>
<
input
type=
"text"
placeholder=
"username"
name=
"text1"
/>
<
input
type=
"password"
placeholder=
"password"
name=
"passwoed"
/>
<
textarea
placeholder=
"textarea"
style=
"
resize
:
none
"
>
textarea
>
<
input
type=
"file"
name=
"file"
/>
<
input
type=
"radio"
name=
"Option"
value=
"Option1"
/>
Option1
<
input
type=
"radio"
name=
"Option"
value=
"Option1"
/>
Option2
<
input
type=
"checkbox"
name=
"check"
value=
"Option1"
/>
Option1
<
input
type=
"checkbox"
name=
"check"
value=
"Option1"
/>
Option2
<
input
type=
"submit"
value=
"Submit"
/>
<
input
type=
"reset"
value=
"Reset"
/>
<
input
type=
"button"
value=
"button"
οnclick=
"
getValue
()
"
/>
form
>
div
>
body
>
html
>
CheckValue.js
/**
* Created by tutelary on 2016/10/24.
*/
function
getValue
()
{
var
text
=
document
.
form1
.text1.
value
;
alert
(
text
);
var
arr
=
document
.
form1
.check;
//多选框的打印
alert
(
arr
[
0
].
value
)
}
表单的提交方式
get:通过url,默认提交方式。数据在URL中可以看到
post:数据放置在HTML HEADER中提交
get:可以被浏览器缓存,因为是URL形式的。有长度限制,会有安全问题
post:请求的URL可以缓存,但数据不会被保存。不便于分享。没有长度限制
get适用场合:单纯请求数据,不进行其他操作;表单数据不超过1024个字符。对安全性要求一般的场合
post适用场合:数据不仅用于请求,需要插入数据库;表单数据过长时(论文);不是ASCIIS编码时
实战——用户管理
使用flask框架,配合HTML和JS程序,编写一个页面,该页面判断用户提交的用户名和密码是否分别jikexueyuan和123456,如果是则跳转到极客学院的首页,否则返回错误信息。
main.py
#coding:utf-8
from
flask
import
Flask
from
flask
import
request
from
flask
import
render_template
from
flask
import
redirect
#重定向
app=Flask(__name__)
from
wtforms
import
Form,TextField,PasswordField,validators
#分别是表单,文本框,密码框,验证器(帮助验证表单内容)
class
LoginForm(Form):
username = TextField(
"username"
,[validators.Required()])
#表明username是必须要填入的对象
password=PasswordField(
"password"
,[validators.Required()])
@
app.route
(
"/user"
,
methods
=[
'GET'
,
'POST'
])
def
login():
myform=LoginForm(request.form)
if
request.method==
'POST'
:
# username=request.form['username']
# password=request.form['password']
#if username=="jikexueyuan" and password=="123456":
if
myform.username.data ==
"jikexueyuan"
and
myform.password.data ==
"123456"
and
myform.validate():
return
redirect(
"http://www.jikexueyuan.com"
)
else
:
message=
"login failed"
return
render_template
(
'index.html'
,
message
=message,
form
=myform)
return
render_template
(
'index.html'
,
form
=myform)
if
__name__==
"__main__"
:
#设定如果是独立运行,则run被调用
app.run(
port
=
8080
)
index.html
html
>
<
html
lang=
"en"
>
<
head
>
<
meta
charset=
"UTF-8"
>
<
title
>
表单
title
>
head
>
<
body
>
<
div
align=
"center"
>
<
h1
>
User Management
h1
>
{% if message %} {{message}} {% endif %}
<
form
method=
"post"
>
{{form.username}}
<
br
>
{{form.password}}
<
br
>
<
input
type=
"submit"
value=
"Submit"
/>
<
input
type=
"reset"
value=
"Reset"
/>
form
>
div
>
body
>
html
>
二十五、数据库连接
数据库基础
何为数据库:电子化的文件柜,可增删改查。
数据库分类:关系型数据库:数据库中存放的数据是以关系存放的(MySQL。。。)
非关系型数据库(BigTable/MongoDB(like doc)/LevelDB)
DBMS:为管理数据库而设计的电脑软件系统。一般会具有存储/截取/安全保障/备份等基础功能。
减少记录编档的时间
减少记录检索的时间
灵活的查找序列
灵活的输出格式
多个用户同时访问记录
安装mysql:
1.使用社区版(免费)www.mysql.com——>DOWNLOADS——>MySQL Community Downloads选择下载
MySQL Community Server和MySQL workbench两款软件
数据库查询语言SQL
SQL( structured Query Language)是一种用于数据库中的标准数据查询语言。不同数据库系统之间的SQL不能完全相互通用
SQL可以完成数据定义,数据操作,数据控制
查询:select 。。。from 表名 where 判断 order by (排序) id desc
插入:insert into 表名(字段)values()
删除:delete from 表名 where
修改:update 表名 set 修改的值 where
在python中进行SQL操作
实战使用falsk框架编写