python 爬虫日记

首先是三大问题,跟搞哲学的差不多:

  1. 爬虫是什么
  2. 爬虫能做什么
  3. 怎么学爬虫

什么是爬虫 (what’s the sprider)

爬虫可以做什么

怎么学习爬虫

既然是学习,就要做好付出时间和精力在这上面的思想准备;如果是新手,更应该知道接触新的知识可能会产生挫败感!没有一路坎坷,哪有累累硕果!
言归正传,学习爬虫技术,就需要知道他涉及的知识点,再根据自己的实际情况,划重点,攻克难点,总结要点;自然可以旗开得胜,无往而不胜。

先来个小例子练练手:

import requests
import BeautifulSoup

爬虫的基础知识:

  1. URL (Universal resource Locator) 统一资源定位符,
    : //<主机>:<端口>/<路径>

  2. HTTP:(HyperText Transfer Protocol)超文本传输协议

  3. HTML(HyperText Markup Language)

好了,铺垫已经做完了,接下来该讲讲原理了。
学习没有这么快的,不要着急!
速成!!!
在这里没有!
一份耕耘,一份收获。除非抢劫,侵占别人的劳动成果,据为己有,这是强盗!

Scrapy 爬虫工具常用库

install scrapy

sudo python3 -m pip install scrapy

Requests Http 库

HTTP协议入门 – 阮一峰

requests.session
requests.get
requests.post

HTTP 原理

URL

HTTP报文
请求报文(请求行,+ headers + body),响应报文(状态行+headers + body)

headers
status_code
context
content

content-Type:

  1. text/html:
  2. x-www-form-urlencoded: web 页面纯文本表单的提交方式
  3. multitype/form-data 页面含有二进制文件时的提交方式
  4. application/json 单项内容(文本或非文本都可以),用于web API 的响应或者POST/PUT 的请求

BeautifulSoup xml 和html的解析库

导入包

from bs4 import BeautifulSoup

requests and BeautifulSoup; 两个类
1. URL: 统一资源定位符;
2. 网页请求与网页解析 get and request; request and response
3. HTML 超文本标记语言 标签
4. Chrome 查看源码工具
5. cookies 与 sessions 的原理,一种加密机制
6. headers 的作用

一种网络传输协议,位于TCP/IP的最顶层;
HTTP的工作方式
URL 和 HTTP报文:URL 格式: 协议类型,服务器地址(和端口号),路径
报文格式: 请求报文(请求行,+ headers + body),响应报文(状态行+headers + body)
Request Method:
GET, Post, put, delete, delete, head, etc.
状态码: status code : 2xx, 4xx, 5xx
Header 首部

Content-Type:
1. text/html:
2. x-www-form-urlencoded: web 页面纯文本表单的提交方式
3. multitype/form-data 页面含有二进制文件时的提交方式
4. application/json 单项内容(文本或非文本都可以),用于web API 的响应或者POST/PUT 的请求

你可能感兴趣的:(python,python)