requests模块简单爬虫

用requests模块进行网页爬虫,首先得下载requests包,这里以pycharm为例,如图1所示,进行安装。

requests模块简单爬虫_第1张图片

图1

安装好requests后,开始编写代码,代码逻辑主要为以下三步骤:

(1)导入requests模块
(2)指定网页URL,这里以搜狗为例
(3)利用requests进行get请求,并用response接受返回的对象,注意,response是一个对象
(4)输出response的text内容
(5)对爬取到的数据进行存储
代码为:

import requests
if __name__ == "__main__":
    url = 'http://www.sogou.com/'
    # 发出get请求并接受返回的对象
    response = requests.get(url=url)
    print(response)
    # 读取response中的对象的,即html元素
    page_text = response.text
    print(page_text)
    # 建立html文件,进行持久化存储数据
    with open('./sogou.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束!!!')

最终的结果如图2、3所示。

requests模块简单爬虫_第2张图片

图2

requests模块简单爬虫_第3张图片

图3

你可能感兴趣的:(爬虫,python,pycharm)