Python利用BeautifulSoup4爬取账号共享网站的vip账户

Python利用BeautifulSoup4爬取账号共享网站的vip账户

1.首先下载BeautifulSoup4库和requests
2.定义获取HTML的函数

def getHTML(url):
    try:
        r = requests.get(url)
        r.raise_for_status()
        r.encoding = 'gbk'
        return r.text
    except:
        return ""

这里有一点要注意,我爬的这个网站的字符编码是gbk,所以编码函数必须用gbk,用utf-8会出现乱码
2.利用BeautifulSoup库解析
解析函数如下:

def main():
    url = 'http://www.123huodong.com/ykvip/2017/0606/146478.html'
    html = getHTML(url)
    soup = BeautifulSoup(html,'lxml')
    answer = soup.find('p')
    print(answer.get_text().replace(' ',''))

最终的结果就是这两个账号啦:
Python利用BeautifulSoup4爬取账号共享网站的vip账户_第1张图片
另外,给大家一个福利:
账号分享网站:
http://www.123huodong.com/zhanghaofenxiang/
爱奇艺优酷等会员

你可能感兴趣的:(Python语言程序设计基础,Python程序设计基础)