python 网站连接的梳理

import re


#----------------------------------------------------------------------
def get_domain(url):
    """"""
    
    url = url.strip('\n').strip('\r')
    if url.startswith('http://'):
        url = url.replace('http://','')
    if url.startswith('www.'):
        url = url.replace('www.','')
    if url.find('ac.cn') != -1:
        url = 'ac.cn'
    if url.find('.com.cn') != -1:
        url = re.split('\.', url)[-3] + '.' + re.split('\.', url)[-2] + '.' + re.split('\.', url)[-1]
    if url.find('.edu.cn') != -1:
        url = re.split('\.', url)[-3] + '.' + re.split('\.', url)[-2] + '.' + re.split('\.', url)[-1]    
    if url.find('.com') != -1 and url.find('.cn') == -1:
        url = re.split('\.', url)[-2] + '.' + re.split('\.', url)[-1]
    if url.find('cetc.com') != -1:
        url = 'cetc.com'
    
    return url

print get_domain('http://baidu.com')
print get_domain('http://www.ss.ss.com.cn/')
print get_domain('http://www.beng.cn')
print get_domain('http://www.test.edu.cn')
print get_domain('http://www.aedu.cn')
print get_domain('http://www.b.co')
print get_domain('http://www.c.gov.cn')
print get_domain('http://www.d.org.cn')

python 网站连接的梳理_第1张图片
image.png
s = 'http://www.jianshu.com/admin/login/ad/dededi/?id=1'
'/'.join(s.split('/', 2)[2].split('/')[:-1])
'www.jianshu.com/admin/login/ad/dededi'
'/'.join(s.split('/', 2)[2].split('/')[:-1]) + '/'
'www.jianshu.com/admin/login/ad/dededi/'
image.png

你可能感兴趣的:(python 网站连接的梳理)