python写爬虫之提取网页的内容(筛选)_Python爬虫系列:针对网页信息内容的提取...

fbcdc467729d7a8f6ca8da315c8a934f.png

点击上方蓝字关注"程序员Bob"呀~

d99c08bc57b891d69550335c9e1f724f.png

人是为活着本身而活着,而不是为了活着之外的任何事物所活着。

——余华《活着》

f8363af3371ac58d376cce3bc50cca0e.png

之前小编提到过网络爬虫的风险,即保护个人数据/信息的重要性。

当然,小编这里不是要大家去爬取个人信息,而是因为有这样可能的存在,就越要保护好自己的隐私。

那么我们在爬取网页时如何找到对我们有效的信息呢?或者说,找到后我们又要如何通过Python将一系列的信息打印出来呢?

1.为何要对信息进行提取?

首先,在Python爬虫爬取网页时,是不能将整个网页信息打印出来的,至于为什么,看过网页源代码的就知道,按F12或者右键查看源代码(或者检查也可)可以看出来一个网页包含了很多信息,比如小编的个人博客源代码&#x

你可能感兴趣的:(python写爬虫之提取网页的内容(筛选)_Python爬虫系列:针对网页信息内容的提取...)