Python学习——用BeautifulSoup爬虫

突然对爬虫有了兴趣,记录一下学习爬虫用到的BeautifulSoup工具。

之前对python只限于安装了编译环境,没有系统学过。
其实简单的爬单网页,对python语法没太大要求,用到了可以网上稍微查询一下就好。
主要是对BeautifulSoup库的使用。使用很简单,这个库真的太牛了!

首先,我们需要安装好环境,和编译器

Python3安装教程网上有很多,就不讲了。
编译器可以用PyCharm,个人感觉挺好用的,虽然我也是个小白。PyCharm官网下载

下面就是具体代码实现

# 必须引入相应工具库
import requests
from bs4 import BeautifulSoup

    page_url = '要爬的对象url'
    # 自定义headers,可以伪造一个
    response = requests.get(page_url, headers=headers)
    content = response.content
    soup = BeautifulSoup(content, 'html.parser')

    tdata = soup.find_all('tr', attrs={"class": "t_tr1"})

    for item in tdata:
        reds = item.find_all('td', attrs={'class': 't_cfont2'})
        for red in  reds:
            print(red.string)

        tds = item.find_all('td', class_=False)
        for td in tds:
            print(td)

我们用BeautifulSoup工具,获取到页面数据soup对象,用find_all方法,根据页面标签,来查找网页中想要查找的数据。

可以看到tdata就是tr标签的,class属性为t_tr1的数据集合。

在每一项tdataitem中,再进行类似的操作,就可以获取到,我们想要的数据。(具体看网页格式,这个不是固定的)

下面的tds对象,就是获取的所有没有class属性的数据集合,这里可以根据自己的需求,抓取自己想要的数据。

OK,这就是我用BeautifulSoup库,来简单的进行抓取数据,非常简单。只要按照网页格式,进行对应的标签抓取就好。

抓取好的数据,可以制作为Excel表格,或者储存在文件中。

你可能感兴趣的:(Python学习——用BeautifulSoup爬虫)