python3爬虫学习之——百度百科词条内链获取

这是跟着《python网络数据采集》这本书做的一个小练习。书里爬的是维基,我自己写的是百度百科。

爬取百科页面用了BeautifulSoup,注意的是百度百科的文本内容全都放在

中。

由于百度百科URL中链接中含有中文字符,而python3中urllib.parse中quote()函数可以处理中文字符,因此创建了一个函数用于处理爬虫起始时的中文字符。

def quote(item):
    if item is None or item.strip() is None:
        return None
    if isinstance(item,bytes):
        item = item.decode('utf-8')
    return urllib.parse.quote(item)

完整代码如下:

import urllib.request
import urllib,re
from bs4 import BeautifulSoup

#处理URL中文部分
def quote(item):
    if item is None or item.strip() is None:
        return None
    if isinstance(item,bytes):
        item = item.decode('utf-8')
    return urllib.parse.quote(item)

#用beautifulsoup获取需要的html页面,tag指的是bs4里的参数tag,key_dict是bs4里过滤tag的dict参数
def gettext(url,tag,key_dict):
    html = urllib.request.urlopen(url)
    if html is None:
        return None
    try:
        bsObj = BeautifulSoup(html.read(),'lxml')
        text = bsObj.findAll(tag,key_dict)
    except Exception as e:
        pass
    return text

#将content和url写入到txt文件中
def write_txt(url,content):
    url = 'https://baike.baidu.com'+url
    #采取追加的方式将数据写入文件
    file_write = open(r'.\baidubaike.txt','a')
    try:
        file_write.write('\n'+url+','+content)
        file_write.flush()
    except Exception as e:
        pass
    finally:
        file_write.close()

#从获得的页面中解析出新的url以及词条名称
def geturl(match_string,url,tag,key_dict):
    listofitem = []
    content = []
    text = gettext(url,tag,key_dict)
    if text is None:
        return None
    for t in text:
        t = str(t)
        result = match_string.match(t)
        if result is not None:
            listofitem.append(result.group(1))
            #替换爬取的内容中存在的html标签
            c = str(result.group(2)).replace('','')
            content.append(c)
            #一边爬取数据一边将数据存储到txt文件中
            write_txt(result.group(1),c)
    if len(listofitem) == 0:
        return None
    return (listofitem,content)

if __name__ == '__main__':
    #get_items用于存储已经爬取过的页面URL
    get_items = []
    url = 'https://baike.baidu.com'
    item = quote('美术')
    item_match = re.compile(r'.*?(.*?)')
    tag = 'div'
    key_dict = {'class':'para'}
    (items,content) = geturl(item_match,url+'/item/%s'%item,tag,key_dict)
    if(items,content) is not None:
        while(True):
            newurl = url + items[0]
            (i,c) = geturl(item_match,newurl,tag,key_dict)
            if (i,c) is not None:
                items.extend(i)
                content.extend(c)
                get_items.append(newurl)
                items.remove(items[0])
                #解析5张页面
                if len(get_items) == 5:
                    break

代码的主要功能就是从一个初始百度百科页面开始,爬取该页面下所有的百科词条以及词条的链接,并将结果存储到txt文件中。

你可能感兴趣的:(python3爬虫学习之——百度百科词条内链获取)