python实战计划:爬取商品信息-本地文件

Date:2016-10-1
By:Black Crow

前言:

本次作业为第一周的第二节作业,假期老师提醒交作业,补写了此节的作业。
文件为本地网页,读取分析商品的各项信息

作业效果:

python实战计划:爬取商品信息-本地文件_第1张图片
效果.png

我的代码:

20161001代码

from bs4 import BeautifulSoup
path = 'C://Users/chefuyin/PycharmProjects/homework/homework_W1P2/index.html'
with open(path,'r')as file:#只读打开
file_content = file.read()#本地文件,先读取。
soup =BeautifulSoup(file_content,'lxml')
#print(soup)
imgs = soup.select('div.thumbnail > img')
titles =soup.select('div.caption > h4 > a')
prices = soup.select('h4.pull-right')
stars =soup.select('div > div.ratings')
reviews =soup.select('p.pull-right')
#print(stars)
for img,title,price,star,review in zip(imgs,titles,prices,stars,reviews):
data={
'img':img.get('src'),
'title':title.get_text(),
'price':price.get_text(),
'star':len(star.find_all('span','glyphicon glyphicon-star')),#加了span和后面两个才出来?
'review':review.get_text(),
}
print(data)


####总结:
>1. find_all查找五角星个数时后单个信息无法查找出个数,两个齐备时才能查找出,对于find_all的用法还需要回去翻文档才行。
2. 本地网页打开时先的read获取内容,与读取网络连接时使用requests略有不同。

你可能感兴趣的:(python实战计划:爬取商品信息-本地文件)