【学习笔记】北京理工大学-Python网络爬虫与信息提取

Python网络爬虫与信息提取

  • 掌握定向网络数据爬取和网页解析基本能力
    • Requests库
      • Requests库的7个主要方法
      • Response对象的属性
      • ☆爬取网页的通用代码框架
      • HTTP协议
        • 网络爬虫的尺寸
        • 如何限制网络爬虫?
      • 实例代码
    • Beautiful Soup库
    • 信息提取

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第1张图片

掌握定向网络数据爬取和网页解析基本能力

Requests库

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第2张图片

Requests库的7个主要方法

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第3张图片

Response对象的属性

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第4张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第5张图片

☆爬取网页的通用代码框架

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第6张图片

HTTP协议

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第7张图片

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第8张图片

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第9张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第10张图片

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第11张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第12张图片
cookies 英[ˈkʊkiz]
n. 曲奇饼; 精明强干的人; 坚强的人; 网络饼干(网络或互联网使用者发给中央服务器信息的计算机文件);

proxy , proxies:英[ˈprɒksiz]
n. 代理权; 代表权; 代理人; 受托人; 代表; (测算用的)代替物,指标;

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第13张图片
最常用的是get方法,对于内容大的用head方法

网络爬虫的尺寸

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第14张图片

如何限制网络爬虫?

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第15张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第16张图片

实例代码


Beautiful Soup库

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第17张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第18张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第19张图片
等价↑
BeautifulSoup对应一个 HTML/XML文档 的全部内容

在这里插入图片描述【学习笔记】北京理工大学-Python网络爬虫与信息提取_第20张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第21张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第22张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第23张图片

prettify

信息提取

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第24张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第25张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第26张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第27张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第28张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第29张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第30张图片

【学习笔记】北京理工大学-Python网络爬虫与信息提取_第31张图片
【学习笔记】北京理工大学-Python网络爬虫与信息提取_第32张图片


【学习笔记】北京理工大学-Python网络爬虫与信息提取_第33张图片

你可能感兴趣的:(Python)