获取网页所有的url地址

今天在试图爬虫新闻网站时想把网页上的所有url抓下来并归类,所以写了几行小代码。
为了促进自己学习,就把简陋的代码放在上发布,也当是一份学习笔记。

# -*- coding: utf-8 -*-
"""
Created on Sun Jul  3 00:31:06 2016

@author: Cy
"""

import requests
from bs4 import BeautifulSoup


def getallurl(url=r'http://www.sina.com.cn'):
    r=requests.get(url)
    s=BeautifulSoup(r.content,'lxml')

    atag=s.find_all('a')
    listurl=[]
    for each in atag:
        try:
            listurl.append([each['href'],each.text])
        except:
            listurl.append(['',each.text])
    return listurl

            
if __name__ == '__main__':
    #inputurl=str(input("input the url: \n"))
    #listurl=getallurl(inputurl)
    listurl=getallurl()
    for i in range(len(listurl)):
        print("The %sth url is: %s, and the titileis: %s \n" % (i,listurl[i][0],listurl[i][1]))

你可能感兴趣的:(获取网页所有的url地址)