第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容,并完成各周作业

4.提供图片或网站显示的学习进度,证明学习的过程。

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第1张图片

第3次作业-MOOC学习笔记:Python网络爬虫与信息提取_第2张图片

 

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

学习的体会和收获

        Python 是一门优雅而又不失实用的语言,它语法简单很容易学会,又具有极高的可读性和灵活性。利用本周时间,我完成了北京理工大学嵩天老师的《Python网络爬虫与信息提取》课程的学习。老师的课程循序渐进,是有学习的体系的,让我深刻体会到学习新的一门技术的重要性。而且老师声音好听也不突兀,视频清晰度也高。总之就是一个能让你有兴趣学的下去的教程。

     第一周的学习:老师主要讲了网络爬虫之规则篇。我学习到了爬虫最基础的一个库: request 。公认的爬取网页最好的第三方库,简单和简洁。在这一周里嵩天老师重点讲了Requests库的7个主要方法,主要包括request、get、head、post、put、patch、delete七个函数。

requests.request()    #构造一个请求,支撑以下各方法的基础方法。

requests.get() #获取HTML网页的主要方法,对应于http的get。

requests.head()      #获取HTML网页头信息的方法,对应于http的head。

requests.post()  #向HTML网页提交post请求,对应于http的post。

requests.put()         #向HTML网页提交put请求,对应于http的put。

还有Requests库的2个重要对象:Request、Response、Response对 象包含爬虫返回的内容的了解及使用。最后 ,我们必须要遵守爬虫的协议,这样才能更加安全使用爬虫技术。

      第二周的学习,老师主要讲了Beautiful Soup库:

1、Beautiful Soup库基础知识(1)Beautiful Soup库的理解:Beautiful Soup库是解析、遍历、维护“标签树”的功能库。BeautifulSoup对应一个HTML/XML文档的全部内容。

(2)Beautiful Soup库解析器 。

(3)BeautifulSoup类的基本元素。

2. Tag 标签.  任何存在于HTML语法中的标签都可以用soup.访问获得。 当HTML文档中存在多个相同对应内容时,soup.返回第一个。

     第三周的课程:

1.正则表达式的概念 正则表达式是用来简洁表达一组字符串的表达式 正则表达式是一种通用的字符串表达框架 进一步 正则表达式是一种针对字符串表达“简洁” 和“特征” 思想的工具 正则表达式可以用来判断某字符串的特征归属
2.Re库的基本使用 Re库是Python的标准库,主要用于字符串匹配
Re库主要功能函数 re.search() 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match() 从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall() 搜索字符串,以列表类型返回全部能匹配的子串
re.split() 将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer() 搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub() 在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符
 
       在第四周的时候主要讲解了Scrapy爬虫框架,Scrapy是一个快速功能强大的网络爬虫框架,爬虫框架是实现爬虫功能的一个软件结构和功能组件集合,爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。和requests库比较起来,Scripy框架网站级爬虫、并发性好、性能较高、重点在于爬虫结构、一般定制灵活,深度定制困难,入门难。
         
       通过这些天的学习,我的感觉是,编程入门真的是要下大力气去思考,去调试,去理解,去手打。普遍认为python算是很好入门的语言了,嵩天老师的课程设计和讲解都很棒了,但还是要自己去啃,遇到很多老师没有提到的问题也只有靠自己去解决。嵩天老师的课真的是很好的课,要好好珍惜,每一次的教程实例和课后的编程练习都要在自己理解基础上默打一遍,不亲自写代码单是看书和看视频的话是几乎不可能入门的。
   
 
    
 

     

 

 

你可能感兴趣的:(第3次作业-MOOC学习笔记:Python网络爬虫与信息提取)