本人学习记录不包括安装模块和pycharm,请移步其他博主教程。但是爬虫代码相关知识肯定力所能及的讲清楚。
python版本: 3.8
代码编辑器:pycharm
其实在此系统学习之前,我已经进行了一些相关爬虫的实际操作,但是还是没有系统学习过其相关基础知识,现在我通过《python网络爬虫技术》电子书来从头开始仔细研究相关知识。
因为我以前学过网页(HTML,css,js),所以会比较熟悉爬虫的一些基本概念,但是对于没有学习网页的小伙伴们可能上手没那么快。
但是从此篇文章开始,我尽量会总结一些小知识点,使大家快速上手,既减少篇幅,又能比较完整的分享知识点给大家。
正文开始:
我们首先要了解的东西有三个:(下面的相关知识建议自己手动操作一下,这都是精简过的必须要掌握的操作)就像开车上路要驾驶证一样 必不可少。
2,查看页面网页信息
我们在百度页面中按鼠标右键,选择检查,或者快捷键ctrl+shift+i,得到如图页面:
在此我们可以看到页面右边出现了页面的相关网页代码,这个就是由(html,css,js)来编写的网页代码,我们要熟练的使用这个查看源码的方法。
还有就是锁定页面的某个部分来查找对应的代码,为什么要查找代码呢,因为这些网页代码就构成了页面,在代码中可以找到自己所需要的信息,比如文字,图片,视频等等。
操作如下:在下面的页面中点击红色区域中的箭头:
然后点击自己想要查看的页面某个部分,如:
接着右边的对应此蓝色界面的代码就会显示出来。我们就可以对此页面进行下一步解析了。
HTML 通过不 同类型 标签来表示 ,如 ”img“存放图片的 标签,”input“用户输入的标签,表示形式为:<标签>文字内容便签>
各个部分的布局又常通过标签 ”div“ 嵌套组合而戚 ,各种标签通过不同的排列和嵌套。在一些标签中通常会由class,id属性,我们可以通过这些属性来获取需要得到的信息。
例如:(下面div标签中嵌套着p,img标签)
其实通过这个标签嵌套可知爬虫的含义,通过外层的标签一步步的获取内部标签的内容,一层借一层。简单来说,爬虫就是获取网页并提取和保存信息的自动程序,可以自动,大量代替人来爬取数据信息。
掌握以上信息后,其实就可以进行一些具体的爬虫操作了,至于什么请求方式get和post,响应,”user-agent“伪装浏览器爬虫,代理ip爬虫,多线程就以后实战操作了。