Python初学,爬虫获取网页的新闻

#! /usr/bin/env python
#coding=utf-8
#auto:An_Mei_Ying
#date:2019/4/5
#python3.7
import io
import sys
import urllib
import re
import requests
from urllib.request import urlopen

chaper_url="https://zhuanlan.kanxue.com/index-list-1.htm"

#模拟浏览器
headers={
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Upgrade-Insecure-Requests':'1',
'Accept-Language': 'zh-CN,zh;q=0.8',
'Connection': 'keep-alive',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'
}

req=urllib.request.Request(url=chaper_url, headers=headers)
html=urllib.request.urlopen(req).read().decode('utf-8')

#下面的一行实现获取标题
res_1=re.findall(r'

(.*?)

',html) #下面的一行实现获取新闻的网址 res_2=re.findall(r"(\d.*?)',html) #下面的一行实现获取时间 res_4=re.findall(r'人阅读・(.*?\s.*?\s)',html) #遍历列表 for a_1,a_2,a_3,a_4 in zip(res_1,res_2,res_3,res_4): print(a_1) print("https://zhuanlan.kanxue.com/article-8"+a_2+".htm") print("阅读人数:"+a_3+" 发布日期:"+a_4) print("\n")

 

你可能感兴趣的:(Python初学,爬虫获取网页的新闻)