Python实战计划学习笔记:week1_2 爬取商品信息

学习Python爬虫的第2天,解析本地网页,获取相关信息。

Python实战计划学习笔记:week1_2 爬取商品信息_第1张图片
把本地网页上的信息按照以上要求爬取,分类

我的代码:

#!usr/bin/env python
#coding: utf-8
__author__ = 'lucky'
from bs4 import BeautifulSoup
info = []
with open('index.html') as url:
    Soup = BeautifulSoup(url,'lxml')
    images = Soup.select('div.thumbnail > img') 
    prices = Soup.select('div.thumbnail > div.caption > h4.pull-right')
    titles = Soup.select('div.caption > h4 > a')
    stars = Soup.select('div.ratings > p:nth-of-type(2)')
    views = Soup.select('div.ratings > p.pull-right')

for image,price,title,view,star in zip(images,prices,titles,views,stars):
    data = {
    'image':image.get('src'),
    'price':price.get_text(),
     'title':title.get_text(),
     'star':len(star.find_all('span',class_ = 'glyphicon glyphicon-star')),
     'view':view.get_text()
    }
     info.append(data)

总结:

1.with...as...在文件I/O处理的时候,可以用来简化try finally代码,看起来可以比try finally更清晰。

2.更好的理解了网页的嵌套关系,特别是子父集关系。

3.除了星级外,剩下的信息的抓取均可以通过本章的课程进行学习,完成。

4.学会了如何从官方文档中查找BeautifulSoup 的 find_all()的用法。

你可能感兴趣的:(Python实战计划学习笔记:week1_2 爬取商品信息)