Python爬虫学习日志(1)

樱桃青衣,蕉叶覆鹿。人生苦短,我用Python。

  • 我的第一篇日志
    • 1.笔记

我的第一篇日志

今天开始记录自己学习Python爬虫的过程。
学习书籍:《Python3 网络爬虫开发实战》崔庆才 著 当当购买地址 http://product.dangdang.com/25249602.html
学习视频:《Python 爬虫视频教程全集》中国大学 MOOC B站播放地址

1.笔记

视频课程

  1. 总体内容
    Python爬虫学习日志(1)_第1张图片
  2. 开发工具
    Anaconda+PyCharm (Python 3.7)
  3. 爬取网页的通用代码框架
    Python爬虫学习日志(1)_第2张图片
import requests
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status() #如果状态不是200,引发HTTPError异常
        r.encoding = r.apparent_encoding #apprent_encoding是网页的准确编码方式
        return r.text
    except:
        return "产生异常"

if __name__=="__main__":
    url = "http://www.baidu.com"
    # url = "www.baidu.com"
    print(getHTMLText(url))

当 url = “www.baidu.com”时,输出结果为:产生异常

  1. HTTP协议
    Python爬虫学习日志(1)_第3张图片
    Python爬虫学习日志(1)_第4张图片
    PATCH与PUT的区别:
    URL位置有一组数据共有20个字段,其中包括UserName。
    要求:用户修改UserName,而保持其他不变。
  • PATCH,仅向URL提交UserName的局部更新请求,节省带宽。
  • PUT,必须将所有20个字段一并提交到URL,未提交字段将被删除。
  1. Requests库的主要方法Python爬虫学习日志(1)_第5张图片
    requests.request(method, url, **kwargs)
    method: get, head, post, put, patch, delete
    **kwargs: 访问控制的参数,均为可选项。(params, data, json, headers)(cookie, auth, files, timeout)(proxies, allow_redirects, stream, verify, cert)
  • 重点掌握 get 和 head 两个。

你可能感兴趣的:(Python爬虫基础教程)