获取标签及内容详解

from bs4 import BeautifulSoup
html ='''

 

this is a story



    The Dormouse's story
    aaaaa

 

The Dormouse's storya

  


     
    Lacie   
    Tillie    

 

good


 

         
  • x01

  •      
  • y02

  •      
  • z03
  •    
     


   

           
  • a0001

  •        
  • b0002

  •        
  • c0003
  •        
       



'''
soup = BeautifulSoup(html,'lxml')

print(soup.find_all('p',attrs={'class':'title'}))

(1)获取标签对象
print(soup.h1)

(2)获取标签内的文本字符串:
print(soup.h1.text)
print(soup.h1.get_text())
tit = soup.find('h1').get_text()
print(tit)

(3)获取soup内的所有p标签,返回一个列表
print(soup.find_all('p')) 

(4)多层查询
find_all查询返回的是列表,使用下标寻找想要的内容
print(soup.find_all('ul')[0].find_all('li'))

(5)获取标签的属性
print(soup.a.attrs['href'])

tag.get('attr')
可以得到tag标签中attr属性的value,

for link in soup.find_all('a'):
print(link.get('href'))

(6)通过指定的属性,获取对象
print(soup.find('ul',id='ulone'))
print(soup.find_all('ul',id='ulone'))结果是列表

print(soup.find_all('p',attrs={'class':'title'}))

你可能感兴趣的:(获取标签及内容详解)