python爬虫系统学习精简版:了解基本爬虫知识

本人学习记录不包括安装模块和pycharm,请移步其他博主教程。但是爬虫代码相关知识肯定力所能及的讲清楚。

python版本: 3.8
代码编辑器:pycharm

其实在此系统学习之前,我已经进行了一些相关爬虫的实际操作,但是还是没有系统学习过其相关基础知识,现在我通过《python网络爬虫技术》电子书来从头开始仔细研究相关知识。

因为我以前学过网页(HTML,css,js),所以会比较熟悉爬虫的一些基本概念,但是对于没有学习网页的小伙伴们可能上手没那么快。

但是从此篇文章开始,我尽量会总结一些小知识点,使大家快速上手,既减少篇幅,又能比较完整的分享知识点给大家。

正文开始:

我们首先要了解的东西有三个:(下面的相关知识建议自己手动操作一下,这都是精简过的必须要掌握的操作)就像开车上路要驾驶证一样 必不可少。

  1. url相关知识:
    我们知道网址一般都是https://www.xxxx.com/,url即是网址,这里需要了解一般url前面都有https或者http,这个指网络的相关协议,我们不必深入。
    比如我们在浏览器中输入一个url:https://www.baidu.com/
    于是我们便请求到了百度的网页:
    python爬虫系统学习精简版:了解基本爬虫知识_第1张图片

2,查看页面网页信息
我们在百度页面中按鼠标右键,选择检查,或者快捷键ctrl+shift+i,得到如图页面:
python爬虫系统学习精简版:了解基本爬虫知识_第2张图片
在此我们可以看到页面右边出现了页面的相关网页代码,这个就是由(html,css,js)来编写的网页代码,我们要熟练的使用这个查看源码的方法。
还有就是锁定页面的某个部分来查找对应的代码,为什么要查找代码呢,因为这些网页代码就构成了页面,在代码中可以找到自己所需要的信息,比如文字,图片,视频等等。
操作如下:在下面的页面中点击红色区域中的箭头:
python爬虫系统学习精简版:了解基本爬虫知识_第3张图片
然后点击自己想要查看的页面某个部分,如:
python爬虫系统学习精简版:了解基本爬虫知识_第4张图片
接着右边的对应此蓝色界面的代码就会显示出来。我们就可以对此页面进行下一步解析了。

  1. 网页组成(了解即可)
    现在网页无非是动态网页加静态网页组合,所谓静态网页一般是由HTML和css语言编写构成。(我们可以先不用了解这么多,只需要掌握以下内容即可)

HTML 通过不 同类型 标签来表示 ,如 ”img“存放图片的 标签,”input“用户输入的标签,表示形式为:<标签>文字内容
各个部分的布局又常通过标签 ”div“ 嵌套组合而戚 ,各种标签通过不同的排列和嵌套。在一些标签中通常会由class,id属性,我们可以通过这些属性来获取需要得到的信息。
例如:(下面div标签中嵌套着p,img标签)

其实通过这个标签嵌套可知爬虫的含义,通过外层的标签一步步的获取内部标签的内容,一层借一层。简单来说,爬虫就是获取网页并提取和保存信息的自动程序,可以自动,大量代替人来爬取数据信息。

掌握以上信息后,其实就可以进行一些具体的爬虫操作了,至于什么请求方式get和post,响应,”user-agent“伪装浏览器爬虫,代理ip爬虫,多线程就以后实战操作了。

你可能感兴趣的:(python,爬虫)