发现某站点文章很多,爬取所有文章名和链接,并保存在txt文档中,方便后续查看


#!/usr/bin/python
# -*- coding: UTF-8 -*-

import urllib,urllib2,re,requests
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

domain = ['http://linux.linuxidc.com/']
name_url = [] #一级页面url name
name_url2 = [] #二级页面url name
name_url3 = [] #三级页面url name
name_url4 = [] #四级页面url name

def get():
    hd = {"User-Agent":"Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"}
    url = 'http://linux.linuxidc.com/index.php'
    html = requests.get(url,headers=hd).text
    #print html
    url_content = re.compile(r'( .*?
)',re.S) #编译     url_contents = re.findall(url_content,html) #匹配页面     #print url_contents     for i in url_contents:         url_reg = re.compile(r'')   #过滤资料链接         name_reg = re.compile(r'(.*?)