Python程序设计之爬虫读取(1)

1.网页读取基础

Python3.x主要使用urlib库来读取网页内容!

2.网页内容读取方法

①使用简单的urlib.request来获取网页内容

import urllib
import urllib.request
def pa():
	#请求打开网页
    fp=urllib.request.urlopen(r'http://www.python.org')
    #打印未解码的前100个字符
    print(fp.read(100))
    #打印解码的前一百个字符
    print(fp.read(100).decode())
    #关闭网页
    fp.close()

②使用get方法来读取指定域名的网页内容

import urllib.parse
def pa1():
    params=urllib.parse.urlencode({'spam':1,'eggs':2,'bacon':0})
    url="http://www.musi-cal.com/cgi-bin/query?%s"%params
    url1="http://www.python.org?%s"%params
    with urllib.request.urlopen(url1) as f:
        print(f.read(100).decode('utf-8'))

③使用post方法提交参数并读取指定页面内容

def post():
    data=urllib.parse.urlencode({'spam':1,'eggs':2,'bacon':0})
    data=data.encode('ascii')
    with urllib.request.urlopen("http://www.python.org",data) as f:
        print(f.read(100).decode('utf-8'))
3.使用调用浏览器打开网页
import webbrowser
def web():
    webbrowser.open('http://www.python.org')
4.域名解析
from urllib.parse import urlparse
def jiexi():
    o=urlparse('http://www.CWi.nl:80/%7Eguido/Python.html')
    #端口号
    print(o.port)
    #域名
    print(o.hostname)

你可能感兴趣的:(Python,program,design,python,url,post)