实战抓取瓜子二手车详情页文本内容

本文实战抓取瓜子二手车购车详情页的文本数据

文章目录

  • 本文实战抓取瓜子二手车购车详情页的文本数据
  • 获取详情页面的代码

出现的问题

  • 1.IndexError: list index out of range报错问题
  • 2.with open写入效率的问题
  • 3.函数封装过程中变量名称的变化,return的应用
  • 4.etree引入的问题

解决方法

  • 1.在代码中引入time.sleep,防止详情页抓取过快导致无数据输出,空白列表切片[0]会报indexerror
  • 2.如果把withopen写入save_data中,则每个网页都会打开存储关闭一次,影响系统效率。把with open写入主函数,一次打开,跑完保存,大大提升了效率。
  • 3.函数封装的过程中,传入的参数名可以与封装之前不同,局部变量不影响全局变量,名称重复也没关系。
  • 4.3.5以上的python版本中,etree已经无法通过import etree直接引入,但etree仍然在lhtml中,引入方法如下:
--king--
import requests

你可能感兴趣的:(PYTHON爬虫)