学习爬虫

一、前期准备
方法一:
1. 创建虚拟环境

python3 -m venv 虚拟环境名称
  1. 激活虚拟环境
在 Windows 下:
./ 虚拟环境名称/Scripts/activate.bat

在 OS X 和 Linux 上:
source ./venv/bin/activate
  1. 安装依赖
下载 vc++ 14安装
pip install twisted[tls]

4.安装Scrapy

pip install scrapy

方法二:

可以直接下载安装Anaconda在可视化界面完成(我是懒癌患者,所以我推荐这种方式,哈哈)

二、开始爬虫
1.新建一个爬虫项目(生成项目目录)

scrapy startproject 项目名称

2.生成爬虫

scrapy genspider  爬虫名  域名

3.配置请求身份

在setting文件下→设置user-agent(具体需要到你要爬的网页上找,很简单~)

4.编写爬虫

在你之前爬虫名文件中编写--首先修改在class里的start_urls 看是否是你要爬的那页网址--再到parse方法中编写爬虫代码

5.我爬的简单的豆瓣上电影信息(如图)


image.png

6.运行爬虫

scrapy crawl 爬虫名

这样一个简单的爬虫流程就走完啦,是不是感觉没那么复杂呢!!!

你可能感兴趣的:(学习爬虫)