Python爬虫初体验

Python爬虫

python基础爬虫的步骤如下

  1. 引入requests模块
  2. 设置指定爬取的url
  3. 发起请求
  4. 获取响应的数据
  5. 进行持久化存储

首次爬虫爬取的是百度的首页,将爬取下来的html文件存储到本地,同时需要解决爬取后的乱码问题,代码如下:

import requests

if __name__=="__main__":
    # 指定url
    url="https://www.baidu.com/"
    # 发起请求
    res=requests.get(url=url)
    res.encoding="utf-8"#解决乱码
    # 获取响应数据
    page_text=res.text
    print(page_text)
    # 进行存储
    with open("./baidu.html","w",encoding="utf-8") as fp:
        fp.write(page_text)
    print("爬取数据结束")

爬取结束后可以在本地查看到文件
在这里插入图片描述
打开文件后可以看到百度的首页
Python爬虫初体验_第1张图片

你可能感兴趣的:(学习笔记,python)