网络爬虫通用代码框架

利用requests库进行网络爬虫的一般逻辑

import requests
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()#如果状态不是200,引发HTTPError异常
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if _name_='_main_':
    url="http://www.baidu.com"
    print(getHTMLText(url))

其中,语句

if _name_='_main_':

可以省略。因为有时加上这条语句之后程序反而有bug,程序运行产生异常。

你可能感兴趣的:(Python爬虫笔记)