(整个demo都是跟着视频敲的)
一、准备(流程)
访问指定URL
需要导包:import urllib.request,urllib.error
爬取数据
需要导包:import bs4
分析并保存数据
需要导包:import xlwt #存放到Excel,进行Excel操作。或import sqlite3 #存放到数据库,进行SQLite3数据库操作
主调函数
调用前面的函数
运行
调用主调函数
二、分流程
1、访问指定的url
(1)导包
import urllib.request,urllib.error
(2)调用urllib.request.Request类构造请求信息
使用方法为:urllib.request.Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
详细用法:
from urllib import request, parse
url = 'http://httpbin.org/post'
headers = {
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
'Host': 'httpbin.org'
}
dict = {
'name': 'Germey'
}
data = bytes(parse.urlencode(dict), encoding='utf8')
response = request.Request(url=url, data=data, headers=headers, method='POST')
response = request.urlopen(req)
print(response.read().decode('utf-8'))
但在本项目只指定url和headers
本项目的用法:
head = { #模拟浏览器头部信息,向豆瓣服务器发送信息
"User-Agent": "Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML, likeGecko) Chrome / 83.0.4103.106Safari / 537.36"
} #用户代理,表示告诉豆瓣服务器,我们是什么类型的机器、浏览器(本质上市告诉浏览器)
request = urllib.request.Request(url,headers=head)
(3)使用urllib.request.urlopen()方法发起请求,并用把浏览器相应回来的数据以字符串的形式保存,在这里做个异常处理
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode('utf-8')
#print(html)
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
(4)返回值
return html
整个方法的代码如下:
import urllib.request,urllib.error #指定URL,获取网页数据
#得到一个指定URl的网页内容
def askURL(url):
head = { #模拟浏览器头部信息,向豆瓣服务器发送信息
"User-Agent": "Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML, likeGecko) Chrome / 83.0.4103.106Safari / 537.36"
} #用户代理,表示告诉豆瓣服务器,我们是什么类型的机器、浏览器(本质上市告诉浏览器),这里要根据自己的浏览器信息
request = urllib.request.Request(url,headers=head)
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode('utf-8')
#print(html)
except urllib.error.URLError as e:
if hasattr(e,"code"):
print(e.code)
if hasattr(e,"reason"):
print(e.reason)
return html
2. 爬取数据
(1)定义一个列表存放分析好的数据
datalist = []
(2)对url做个简单的处理,因为豆瓣电影top250的URL要指定页面的参数baseURL = “https://movie.douban.com/top250?start=”,我们要指定start=后面的数值
for i in range(0,10): #调用获取页面信息的函数,10次
url = baseURL + str(i*25)
html = askURL(url) #保存获取到网页源码
(3)逐一解析数据,使用bs4.BeautifulSoup
BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.
soup = bs4.BeautifulSoup(html, "html.parser") #解析html对象,并赋值给soup
常见的使用方法:
print(soup.a) # 拿到soup中的第一个a标签
print(soup.a.name) # 获取a标签的名称
print(soup.a.string)# 获取a标签的文本内容
print(soup.a.text) # 获取a标签的文本内容
print(soup.a["href"])# 获取a标签的href属性的值
print(soup.a.get("href"))# 查找第一个a标签的href的属性
print(soup.a.attrs) # 获取a标签的所有的属性,返回一个字典
print(soup.find("a"))# 查找第一个a标签
print(soup.find_all("a"))# 查找所有的a标签
print(soup.find_all(id="a1"))# 查找所有的的id为a1的标签
print(soup.find_all(class_="sistex"))# 这里需要注意,如果需要通过class去查找,则需要一个下划线
print(soup.find_all(["a","p","br"]))# 查找所有的啊标签,p标签和br标签
soup.find("a").attrs["class"] = "2b"# 修改某个标签的属性值
del soup.find(id="a1").attrs["class"]# 删除某个标签的class属性
#查找
soup.find(re.compile("b"))#标签中有b这个字符的标签
soup.select("a.syster")#这个可以放标签选择器
soup.select(".syster .abcd")#这个可以放标签选择器
soup.find("a").decompose()#从当前字符串中删除第一个a标签,是在原位置进行删除
本项目的代码如下:
#2、逐一解析数据
soup = bs4.BeautifulSoup(html, "html.parser")
for item in soup.find_all('div',class_="item"): #查找符合要求的字符串,形成列表
#print(item) #测试:查看电影item全部信息
data = [] #保存一部电影的全部信息
item = str(item)
#影片详情的链接
link = re.findall(findLink,item)[0]#re库用来通过正则表达式查找指定的字符串
data.append(link) #添加链接
imgSrc = re.findall(findImg,item)[0]
data.append(imgSrc) #添加图片
titles = re.findall(findTitle,item)[0] #片名可能只有一个中文名,没有外国名
if (len(titles) == 2):
ctitle = titles[0]
data.append(ctitle)#添加中文名
otitle = titles[1].replace("/","")
data.append(otitle)#添加外国名
else:
data.append(titles[0])
data.append(' ')#没有外国名的时候,这里的位置留空
rating = re.findall(findRating,item)[0]
data.append(rating)#添加评分
judgeNum = re.findall(findJudge,item)[0]
data.append(judgeNum) #添加评价人数
inq = re.findall(findIng,item)
if len(inq) != 0:
inq = inq[0].replace("。","")#去掉句号
data.append(inq)
else:
data.append(" ") #没有概括时留空
bd = re.findall(findBd,item)[0]
bd = re.sub('
(\s+)?'," ",bd) #去掉
bd = re.sub('/'," ",bd)
data.append(bd.strip()) #去掉前后的空格
datalist.append(data) #吧处理好的一部电影信息放入datalist
(4)返回一个列表
return datalist
这个方法的完整代码:
import bs4 #网页解析,获取数据
import re #正则表达式,进行文本匹配
#需要查找信息的正则匹配规则,作为全全局变量
#影片详情链接的规则
findLink = re.compile(r'') #创建正则表达式对象,表示规则(字符串的模式)
#影片图片的规则
findImg = re.compile(r'(.*)')
#影片评分
findRating = re.compile(r'(\d*)人评价')
#找到概况
findIng = re.compile(r'(.*)')
#找到影片的相关的内容
findBd = re.compile(r'(.*?)
',re.S)
#爬取网页
def getData(baseURL):
datalist = []
for i in range(0,10): #调用获取页面信息的函数,10次
url = baseURL + str(i*25)
html = askURL(url) #保存获取到网页源码
#2、逐一解析数据
soup = bs4.BeautifulSoup(html, "html.parser")
for item in soup.find_all('div',class_="item"): #查找符合要求的字符串,形成列表
#print(item) #测试:查看电影item全部信息
data = [] #保存一部电影的全部信息
item = str(item)
#影片详情的链接
link = re.findall(findLink,item)[0]#re库用来通过正则表达式查找指定的字符串
data.append(link) #添加链接
imgSrc = re.findall(findImg,item)[0]
data.append(imgSrc) #添加图片
titles = re.findall(findTitle,item)[0] #片名可能只有一个中文名,没有外国名
if (len(titles) == 2):
ctitle = titles[0]
data.append(ctitle)#添加中文名
otitle = titles[1].replace("/","")
data.append(otitle)#添加外国名
else:
data.append(titles[0])
data.append(' ')#没有外国名的时候,这里的位置留空
rating = re.findall(findRating,item)[0]
data.append(rating)#添加评分
judgeNum = re.findall(findJudge,item)[0]
data.append(judgeNum) #添加评价人数
inq = re.findall(findIng,item)
if len(inq) != 0:
inq = inq[0].replace("。","")#去掉句号
data.append(inq)
else:
data.append(" ") #没有概括时留空
bd = re.findall(findBd,item)[0]
bd = re.sub('
(\s+)?'," ",bd) #去掉
bd = re.sub('/'," ",bd)
data.append(bd.strip()) #去掉前后的空格
datalist.append(data) #吧处理好的一部电影信息放入datalist
return datalist
')
#影片的评价人数
findJudge = re.compile(r'
3. 分析并保存数据
在这里将两种情况,一是保存到excel文件,二是保存到数据库
(1)保存到excel
import xlwt #进行Excel操作
#3、保存数据
def savaData(datalist,savapath):
book = xlwt.Workbook(encoding="utf-8",style_compression=0) # 创建workbook对象
sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True) # 创建工作表
col = ("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价人数","概括","相关信息")
# 先把列名写上
for i in range(0,8):
sheet.write(0,i,col[i])#列名
# 写数据
for i in range(0,250):
print("第%d条"%(i+1))
data = datalist[i]
for j in range(0,8):
sheet.write(i+1,j,data[j])#数据
book.save(savapath) # 保存数据表
(2)保存到数据库
import sqlite3 #进行SQLite3数据库操作
def saveDataDB(datalist,dbpath):
init_db(dbpath)
conn = sqlite3.connect(dbpath)
cur = conn.cursor()
for data in datalist:
for index in range(len(data)):
if index == 4 or index == 5: #这里是对影片信息的特殊处理
continue
data[index] = '"'+data[index]+'"'
sql = '''
insert into movie250(
info_link,pic_link,cname,ename,score,rated,introduction,info)
values(%s)'''%",".join(data)
print(sql)
cur.execute(sql)
conn.commit()
conn.close()
def init_db(dbpath):
sql = '''
create table movie250
(
id integer primary key autoincrement,
info_link text,
pic_link text,
cname varchar,
ename varchar,
score numeric,
rated numeric,
introduction text,
info text
)
'''
conn = sqlite3.connect(dbpath)
cursor = conn.cursor()
cursor.execute(sql)
conn.commit()
4. 主调函数
def main():
baseURL = "https://movie.douban.com/top250?start="
#1、爬取网页
datalist = getData(baseURL)
savapath = ".\\豆瓣电影Top250.xls" #自己起的文件名称。或 dbpath = "movie250.db" 自己起的数据库名称
#3、保存数据
savaData(datalist,savapath) #或saveDataDB(datalist, dbpath)
5. 运行
if __name__ == "__main__":
main()
print("函数执行完毕")