闲来无事学爬虫系列(一)

import requests
def getHtmlText(url):
    try:
        kv={'user-agent':'Mozilla/5.0'}
        r = requests.get(url,headers=kv)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "error!!!"
    
if __name__ == "__main__":
    url = "https://www.amazon.cn/gp/product/B01M8L5Z3Y"
    print(getHtmlText(url))
  • 这里定义了一个try-except 通用代码快,有java基础的同学是不是马上想到了try -catch ?
  • 核心的代码没有什么特别之处,就是要介绍一下,返回的response对象里面的raise_for_status() 函数,这个函数配合try - except 使用。
  • 这个函数的含义是这样的: 就是网站返回的status是不是等于200,如果不等于200就直接执行except: 后面的代码。
  • 而apparent_encoding 这个东西是什么呢,这是根据网页内容分析出的编码方式。这里还设置了header = mozilla/5.0 ,为的就是伪装成是浏览器进行访问罗。

你可能感兴趣的:(爬虫)