python实战计划第二周第三节练习项目

目的:假设在抓取过程中因网络问题而导致程序停止,设计这样一个程序,使得抓取的数据不会重复

在python的数据结构中,set不能包含重复的元素,故采用set来实现
以下是代码部分:

import requests
from bs4 import BeautifulSoup
url = 'http://bj.58.com/ershouche/pn2/'
L = []
web_data = requests.get(url)
soup = BeautifulSoup(web_data.text, 'lxml')
links = soup.select('td.t a.t')
for link in links:    
      real_link = link.get('href')     
      L.append(real_link)    
      single_link = set(L)    
      #print(single_link)

上面的代码要抓取的是网址http://bj.58.com/ershouche/pn2/
上的各个二手车的链接

你可能感兴趣的:(python实战计划第二周第三节练习项目)