从零到入职-番外篇-Python-网络爬虫3

Python对HTML解析

Python对HTML的解析主要有以下几个库

  1. 使用BeautifulSoup库
  2. 使用XPath
  3. 使用pyquery

但是我们使用的一般是第一个库即bs

说明一下,这个库实在Python基础库中找不到的,即不属于Python的基础库,是属于第三方的库,所以我们要去下载

BeautifulSoup4库的安装
安装第四版
从零到入职-番外篇-Python-网络爬虫3_第1张图片
第一步是进入Anaconda的环境目录
第二部是选择项目用的环境
第三步是安装命令.
安装过程,最后是一个验证。
最后如果想卸载就

pip uninstall beautifulsoup4

输入这一行命令。还是在你使用的环境下。

从零到入职-番外篇-Python-网络爬虫3_第2张图片
就是一个简单的应用以及相应的解释

当然我们在运行当中会发现,虽然会有红色的警告,但是我们的程序可以正常运行,在这里插入图片描述
这里的意思是,我们没有用解释器,但是呢系统自动给我们用了系统的解释器。
那么我们自己添加一下解释器
从零到入职-番外篇-Python-网络爬虫3_第3张图片
这里面就是我们传送的参数,我们需要在参数里面传入使用的解析器。
从零到入职-番外篇-Python-网络爬虫3_第4张图片
从零到入职-番外篇-Python-网络爬虫3_第5张图片
这里我们使用标签名获取内容,但是这个方法有个很大的缺陷,就是他只能获取第一个标签的内容。
从零到入职-番外篇-Python-网络爬虫3_第6张图片
下面我们写一个把他们的标签去掉,只保留内容。
从零到入职-番外篇-Python-网络爬虫3_第7张图片
加一个.string
从零到入职-番外篇-Python-网络爬虫3_第8张图片
看起来是一样的,但是也是有不一样的地方
从零到入职-番外篇-Python-网络爬虫3_第9张图片
从零到入职-番外篇-Python-网络爬虫3_第10张图片
string方法通俗一点就是标签不等于1,就输出None。

Css选择器

  1. 标签名
  2. id
  3. class
    我们可以用class名来选择想要爬取的内容
    例如从零到入职-番外篇-Python-网络爬虫3_第11张图片
    通过这个我们就可以把小说名字全部爬取出来
    从零到入职-番外篇-Python-网络爬虫3_第12张图片
    这里说一个Findall的一个筛选的用法
    从零到入职-番外篇-Python-网络爬虫3_第13张图片
    自己悟一下。
    如果我们想爬取的内容的class值有与之相同的节点的class值
    我们可以去找父节点,但是找到父节点该怎么找下面的字节点
    从零到入职-番外篇-Python-网络爬虫3_第14张图片
    自己悟一下

你可能感兴趣的:(从零到入职,python,爬虫)