python之BeautifulSoup之二 带属性值的抓取(find_all('tag', attrs={'class':'value'})

系统:Windows/python 2.7.11

利用BeautifulSoup库抓取页面的一些标签TAG值

再抓取一些特定属性的值

示例标签:

           
           进来呀
都是自己喜欢的
拿图就走你是狗








===============================以下为代码部分==================================

#coding=utf-8
import urllib2
from bs4 import BeautifulSoup
def getImg(url):
    html = urllib2.urlopen(url)
    page = html.read()
    soup = BeautifulSoup(page, "html.parser")
    for s in soup.find_all('cc'): #获取标签为cc的tag值,得到结果:[xxxxxxxxxxxxxxxxxxxxxxxxxxxxxx........,....]集合
        if 'img' not in str(s): #判断,若获取的cc值里面没有img标签,则结束本次循环
            continue
        d = s.find_all('img', attrs={'class':'BDE_Image'})  #获取标签为img,其中一个属性:class="BDE_Image" 所有数据,放进集合
        lenth = len(d)   #集合的个数
        for i in range(lenth): 
            print d[i].attrs['src']    #打印,属性为src的内容,机后面的http://xxxxxxxxxxxxxxxxx

url = 'http://tieba.baidu.com/p/4161148236?fr=frs'
getImg(url)

========================================end========================================

你可能感兴趣的:(python)