bs4的基本使用方法

内容:
        1);bs4两种写法:
        本地文件做的美味汤:soup = BeautifulSoup(open('本地文件'),'lxml') 俗称一锅美味汤
        网络爬取请求做的美味汤:soup = BeautifulSop(('名字'),'lxml')   此写法是网页爬虫的写法,上面的写法是本地文件的写法

        2);根据标签名进行查找:
        soup.a  只能查找第一个符合条件的属性标签

        3);获取的属性:
        soup.a.attrs 获取所有的属性和值,返回一个字典
        soup.a.attrs['href'] 获取href的属性
        soup.a['href']
        
        4);获取内容:
        soup.a.text
        soup.a.string
        soup.a.get_text
        这里建议使用soup.a.text

        5);find的使用方法:
        soup.find('a')找到第一个符合a的标签
        print(soup.find('a',title = 'qin'))
        class用下划线
        ID照搬

        6);find_all的使用方法:
        It = soup.find_all('a')
        print(It,len(It))
        查找全部的a


        7)select选择器的使用方法;
        根据选择器选择指定的内容
        常见的选择器:标签选择器,类选择器,ID选择器,组合选择器,层级选择器,伪类选择器,属性选择器
        传递给select()方法的选择器

        soup.select('div')                   所有名为

的元素
        soup.select('#author')               带有id属性为author的元素
        soup.select('.notice')               所有使用CSS class 属性名为notice的元素
        soup.select('div span')              所有在
元素之内的元素
        soup.select('div > span')            所有直接在
元素之内的元素,中间没有其他元素
        soup.select('input[name]')           所有名为,并有一个name属性,其值无所谓的元素
        soup.select('input[type="button"]')  所有名为,并有一个type属性,其值为bottom的元素

你可能感兴趣的:(bs4的基本使用方法)