一.本地数据获取——文件
1.文件操作的三个步骤
打开文件——>读写文件——>关闭文件
为什么需要关闭文件呢?因为python可能会缓存写入的数据,如果程序异常崩溃了,那么数据可能就无法写到文件中,因此为了安全起见,文件读写完成后要主动关闭。
2.文件的打开
使用open函数,第一个参数为文件名(可以包含路径),第二个参数表示读写模式,第三个参数表示缓冲
第一个参数:必须有
第二个参数:默认是r(只读),可省略。读写模式包括r、w、a、r+、w+、a+等等
第三个参数:默认值为-1,表示使用系统默认的缓冲区的大小,可省略。在Python中二进制文件可以不使用缓冲,但是文本文件必须使用缓冲。
open函数的返回结果是一个可迭代的文件对象,因而我们可以遍历其中的每一个子项
3.文件的读写
约定f = open("hello.txt", 'w')
a.文件的写操作:f.write('Hello, World')
#一种更好的读写语句 with open('hello.txt', 'w') as f: f.write('Hello, World') #注:with语句在执行后会自动关闭文件句柄,因而在程序中不需要再写close语句
b.文件的读操作:f.read(),可选参数size,表示从文件中至多读出size字节数据,返回一个字符串
缺省情况下,读文件到文件结束,依然是返回一个字符串
c.扩展:
f.readlines()读入多行数据
f.readline()读入一行数据
f.writelines()写入多行数据
d.文件指针操作
f.seek(offset, whence=0)可用于在文件中移动文件指针,从whence(0表示文件头部,1表示当前位置,2表示文件尾部)偏移offset个字节,whence参数可选,缺省情况下为0
f.扩展知识
python的三个标准流:
stdin标准输入流 stdout标准输出流 stderr标准错误流
在Python中,键盘和显示终端也是文件,这些文件实际上是通过sys模块中提供的函数来实现的,比如print('hello, world')的实现为:
import sys sys.stdout.write('hello, world')
二.网络数据获取
1.流程
网络数据的获取分两个阶段:爬取——>解析
2.爬取
Requests库
基本方法:requests.get()——请求获取指定URL位置的资源,对应HTTP协议的GET方法
说明:get方法返回一个response对象,这个对象包含requests请求信息以及服务器的response响应信息,且requests会自动解码来自服务器的信息,比如网页返回的信息是json格式,可以通过对象名.json()进行解码,如果网页返回的信息是二进制格式的,可以通过对象名.content()进行解码,特别的,对象名的.text()属性可以自动推测文本类型并解码,此外,可以通过encoding这个属性来修改文本的编码,常见编码为utf-8
示例:
#示例1 #假设获取的是二进制文件,可以通过如下方法保存数据 import requests r = requests.get('https://www.baidu.com/img/bd_logo1.png') with open('baidu.png', 'wb') as fp: fp.write(r.content) #示例2 #为了反爬,有些网站会对Headers的User-Agent进行检测,需将headers信息传递给get函#数的headers参数,例如知乎,直接访问会返回400,加上headers参数后可正确返回: headers = { "User- Agent": "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.11 (KHTML, like Geck o) Chrome/17.0.963.83 Safari/535.11"} re = requests.get('https://www.zhihu.com', headers = headers) print(re.status_code)
3.解析
获取到源码后,需要对源码进行解析
标签格式规则的源码,适合用beautiful soup库解析,而对于数据结构复杂的源码,适合用正则表达式提取
#BeautifulSoup解析实例 import requests from bs4 import BeautifulSoup r = requests.get('https://movie.douban.com/subject/10533913/') soup = BeautufulSoup(r.text, 'lxml') pattern = soup.find_all('span', 'short') for item in pattern: print(item.string)
#正则表达式解析实例 import requests from bs4 import BeautifulSoup import re s = 0 r = requests.get('https://book.douban.com/subject/1165179/comments/') soup = BeautifulSoup(r.text, 'lxml') pattern = soup.find_all('span', 'short') for item in pattern: print(item.string) pattern_s = re.compile('') p = re.findall(pattern_s, r.text) for star in p: s += int(star) print(s)
最后,给出一段完整的爬虫代码:爬取豆瓣某本书的前50页短评内容并计算评分的平均值
import requests, re, time from bs4 import BeautifulSoup count = 0 i = 0 s, count_s, count_del = 0, 0, 0 lst_stars = [] while count < 50: try: r = requests.get('https://book.douban.com/subject/10517238/comments/hot?p=' + str(i+1)) except Exception as err: print(err) break soup = BeautifulSoup(r.text, 'lxml') comments = soup.find_all('span', 'short') pattern = re.compile('