山东大学-VirtualJudge-总结1

在这个周根据小组进度安排,我主要学习了Python爬虫的编写,学习主要参考:
python实现简单爬虫功能

根据博客内容,我自己尝试写了自己的爬虫代码:

获取整个页面数据

#coding=utf-8
import urllib.request

def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

html = getHtml("http://tieba.baidu.com/p/2738151262")

print (html)

Urllib 模块提供了读取web页面数据的接口
urllib.request.urlopen()方法用于打开一个URL地址
read()方法用于读取URL上的数据,向getHtml()函数传递一个网址,并把整个页面下载下来,执行程序就会把整个网页打印输出。

筛选页面中想要的数据

首先需要了解正则表达式,这是下一步学习的基础:
Python正则表达式指南

import re
import urllib.request

def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html.decode('utf-8'))
    return imglist      
   
html = getHtml("http://tieba.baidu.com/p/2460150866")
print (getImg(html))

将页面筛选的数据保存到本地

import urllib.request   
import re

def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html.decode('utf-8'))
    x = 0
    for imgurl in imglist:
        urllib.request.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1


html = getHtml("http://tieba.baidu.com/p/2460150866")

print (getImg(html))

这只是我们这一次项目开发的一个开始过程,相信后面会越来越深入,相信自己能够在过程中学到很多Python的知识,真正开发出一个让自己满意的在线评测网站。

你可能感兴趣的:(山东大学-VirtualJudge-总结1)