A 1. 笔记 - python网络爬虫实战笔记 - 崔庆才(7.9--)

第1章 开发环境配置


1.1 python3+pip环境配置

  1. Anaconda安装
  2. python.org官网安装
  3. 好用的IDLE:pycharm

1.2 请求库安装

  1. requests 库
    pip install requests
  2. Selenium 库(抓取JS页面)
    pip install selenium

    pip [pɪp]
    selenium [səˈli:niəm]

  3. ChromeDriver 安装(配合Selenium)

    selenium 安装与 chromedriver安装
    https://blog.csdn.net/qq_41188944/article/details/79039690

  4. aiohttp 的安装(异步请求库,提高效率)
    pip install aiohttp

1.3 解析库的安装

  1. Beautiful Soup 库安装
    pip install beautifulsoup4
  2. tesserocr 的安装
    先安装 tesseract,再输入pip install tesserocr pillow

1.4 数据库的安装

  1. mysql :关系型数据库
    a. win下安装:下载 mysql server;下载 mysql Front
    b. mac下安装 -brew install mysql
  2. Redis :基于内存的非关系型数据库

1.5 存储库的安装

  1. 如果想利用Python3将数据存进MySQL,需要借助PyMySQL实现
  2. PyMySQL 的安装
    pip install pymysql

1.6 Web库的安装

  1. 利用Web服务程序搭建API接口,供爬虫使用,如维护一个代理池
  2. Flask 安装
    pip install flask
  3. Tornado 安装
    pip install tornado

1.7 爬虫框架安装

  1. 如果直接用requests、Selenium等库写爬虫,会发现很多代码和组件都是可以复用的,如果把这些组件抽离出来,将各个功能模块化,就会形成一个爬虫框架。
  2. pyspider 安装
  3. Scrapy 安装
  4. Scrapy-Splash 的安装
    a. 这是一个Scrapy中支持JS渲染的工具
    b. 首先通过Docker安装Splash,docker run -p 8050:8050 scrapinghub/splash

第2章 爬虫基础


2.1 HTTP原理

  1. 请求头 headers P83

2.2 网页基础

  1. HTML、CSS、JavaScript介绍 P87

2.4 会话和Cookies

  1. 两者的定义

2.5 代理

  1. 在本机和服务器之间加了一个代理服务器,实现IP隐藏
  2. 分类:高度匿名代理、普通匿名代理、透明代理、间谍代理

第3章 基本库的使用


3.2 requests库的使用

你可能感兴趣的:(python,爬虫学习笔记_18年7月)