5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。
学习笔记:
通过学习嵩天老师的《Python网络爬虫与信息提取》课程,了解和学习python在网络爬虫方面的应用和方法,结合到学习生活中。
结合相关资料和教学视频进行了以实操为主的学习流程,再次留下心得笔记
requests.request()方法构造一个请求,支撑以下各方法的基础方法
requests.get()方法 获取HTML网页的主要方法,对应于HTTP的GET
requests.head() 获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post() 向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put() 向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch() 向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete() 向HTML页面提交删除请求,对应于HTTP的DELETE 。
第2周:Beautiful Soup库(bs4),解析器:bs4的HTML解析器、lxml的HTML解析器、lxml的XML解析器、html5lib的解析器。
介绍了BeautifulSoup类5种基本元素:
1.Tag 标签,最基本的信息组织单元,分别用<>和>标明开头和结尾
2.Name 标签的名字,
…
的名字是’p’,格式: 3.Attributes 标签的属性,字典形式组织,格式:
4.NavigableString 标签内非属性字符串,<>…>中字符串,格式:
5.Comment 标签内字符串的注释部分,一种特殊的Comment类型,都分别对这些解析器和基本元素进行了更深层次的介绍讲解和举例子,还有介绍了信息标记的三种形式:xml、json、yaml等。
第3周:学习正则表达式语法由字符和操作符构成和re库主要功能函数,了解了经典正则表达式:
(1)^[A‐Za‐z]+由26个字母组成的字符串[A‐Za‐z0‐9]+由26个字母组成的字符串[A‐Za‐z0‐9]+ 由26个字母和数字组成的字符串
(2)^‐?\d+整数形式的字符串[0‐9]∗[1‐9][0‐9]∗整数形式的字符串[0‐9]∗[1‐9][0‐9]∗ 正整数形式的字符串
(3)[1‐9]\d{5} 中国境内邮政编码,6位等这些正则表达式,还通过淘宝商品比价定向爬虫和股票数据定向爬虫两个实例的举例讲解,对这周讲解的内容有了更深层次的理解。
第4周:网络爬虫框架→Scrapy爬虫框架。Scrapy是一个快速功能强大的网络爬虫框架,爬虫框架是实现爬虫功能的一个软件结构和功能组件集合,爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。
常用命令:
1.startproject 创建一个新工程:scrapy startproject
2.genspider 创建一个爬虫:scrapy genspider [options]
3.settings 获得爬虫配置信息:scrapy settings [options]
4.crawl 运行一个爬虫:scrapy crawl
5.list 列出工程中所有爬虫:scrapy list
6.shell 启动URL调试命令行:scrapy shell [url]。