Python3爬虫 抓取网页的html 保存

1. Python3爬虫  保存抓取网页的html

REF:  https://blog.csdn.net/u014453898/article/details/73459938

2017年06月19日 12:15:05 ZJE_ANDY 阅读数:1602

 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u014453898/article/details/73459938

下载网页html 通过使用 urllib库的urlretrieve()方法

直接下载某URL的HTML:

 

 
  1. #-*- coding:utf-8 -*-

  2. import urllib.request

  3. url='http://www.163.com'

  4. urllib.request.urlretrieve(url,'./htm2.txt')#保存在当前路径的htm2.txt中

urlretrieve()的第一个参数:表示要抓取的URL

第二个参数:表示抓取完HTML保存在哪个路径

 

 

2. Python3爬虫  下载网页的html

REF:https://www.jb51.net/article/140540.htm

 

import urllib.request

def getHtml(url):
    html = urllib.request.urlopen(url).read()
    return html

def saveHtml(file_name, file_content):
    # 注意windows文件命名的禁用符,比如 /
    with open(file_name.replace('/', '_') + ".html", "wb") as f:
    # 写文件用bytes而不是str,所以要转码
        f.write(file_content)

aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"
html = getHtml(aurl)
saveHtml("sduview", html)

print("下载成功")

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(Python3爬虫 抓取网页的html 保存)