1.注册中国大学MOOC
2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程
3.学习完成第0周至第4周的课程内容,并完成各周作业
4.提供图片或网站显示的学习进度,证明学习的过程。
5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。
学习的体会和收获:
Python 是一门优雅而又不失实用的语言,它语法简单很容易学会,又具有极高的可读性和灵活性。利用本周时间,我完成了北京理工大学嵩天老师的《Python网络爬虫与信息提取》课程的学习。老师的课程循序渐进,是有学习的体系的,让我深刻体会到学习新的一门技术的重要性。而且老师声音好听也不突兀,视频清晰度也高。总之就是一个能让你有兴趣学的下去的教程。
第一周的学习:老师主要讲了网络爬虫之规则篇。我学习到了爬虫最基础的一个库: request 。公认的爬取网页最好的第三方库,简单和简洁。在这一周里嵩天老师重点讲了Requests库的7个主要方法,主要包括request、get、head、post、put、patch、delete七个函数。
requests.request() #构造一个请求,支撑以下各方法的基础方法。
requests.get() #获取HTML网页的主要方法,对应于http的get。
requests.head() #获取HTML网页头信息的方法,对应于http的head。
requests.post() #向HTML网页提交post请求,对应于http的post。
requests.put() #向HTML网页提交put请求,对应于http的put。
还有Requests库的2个重要对象:Request、Response、Response对 象包含爬虫返回的内容的了解及使用。最后 ,我们必须要遵守爬虫的协议,这样才能更加安全使用爬虫技术。
第二周的学习,老师主要讲了Beautiful Soup库:
1、Beautiful Soup库基础知识(1)Beautiful Soup库的理解:Beautiful Soup库是解析、遍历、维护“标签树”的功能库。BeautifulSoup对应一个HTML/XML文档的全部内容。
(2)Beautiful Soup库解析器 。
(3)BeautifulSoup类的基本元素。
2. Tag 标签. 任何存在于HTML语法中的标签都可以用soup.
第三周的课程:
2.Re库的基本使用 Re库是Python的标准库,主要用于字符串匹配
Re库主要功能函数 re.search() 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match() 从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall() 搜索字符串,以列表类型返回全部能匹配的子串
re.split() 将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer() 搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub() 在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符。