python 学习爬虫教程~

思路::

(本文没有用xpath定位,xpath需要导入第三方库   from lxml import etree)

1.首先通过urllib类获取到网页的所有内容

2.通过partition获取其中的部分内容

3.在通过指定内容放到放到一个list中1!

代码如下:

#encoding: utf-8
import urllib, os

# 获取网页内容
def getContent(urlAddr):
    page = urllib.urlopen(urlAddr)
    html = page.read()
    return html
# 获取指定内容
def content(html):
    str = r'
' content = html.partition(str)[2] str1 = r'

你可能感兴趣的:(python 学习爬虫教程~)