今天写了小小的一个需求,从中国天气网的上海天气预报页面爬取当天的天气预报,能够每天定时运行程序并发送邮件至个人邮箱。
# coding=utf8 __author__ = 'smilezjw' import urllib2 import re import smtplib from email.mime.text import MIMEText import time import sched scheduler = sched.scheduler(time.time, time.sleep) class WeatherSpider: def __init__(self): self.siteURL = 'http://www.weather.com.cn/weather/101020100.shtml' # 爬取siteURL页面的静态内容 def crawl(self): request = urllib2.Request(self.siteURL) response = urllib2.urlopen(request) content = response.read() response.close() return content # 解析爬取的内容 # 这里只获取了城市、时间、温度和天气等信息 def getContents(self): html = self.crawl() pattern = re.compile('<title>(.*)今天天气预报') city = re.findall(pattern, html) pattern = re.compile('\d+月\d+日\d+时.*C') data = re.findall(pattern, html) return city[0] + data[0] # 发送邮件 def sendMail(self): # 然后将第二天的任务添加到盒子中 scheduler.enterabs(self.everyDayRun(8, 5, 0, True), 1, self.sendMail, ()) user = '[email protected]' pwd = 'xxxxxxxxxx' to = '[email protected]' msg = MIMEText('Good Morning!\r\n' + self.getContents()) msg['Subject'] = 'Today Weather Forecast' msg['From'] = user msg['To'] = to s = smtplib.SMTP('smtp.qq.com', port=25) # 注意需要去QQ邮箱设置中开启POP3/SMTP和IMAP/SMTP s.login(user, pwd) s.sendmail(user, to, msg.as_string()) s.close() # 每天定时运行程序 def everyDayRun(self, hour, min, sec, nextDay=True): struct = time.localtime() if nextDay: day = struct.tm_mday + 1 else: day = struct.tm_mday return time.mktime((struct.tm_year, struct.tm_mon, day, \ hour, min, sec, struct.tm_wday, struct.tm_yday, struct.tm_isdst)) if __name__ == '__main__': spider = WeatherSpider() # 启动程序后,先获取今天的数据,这里nextDay设置为False,如果设置为True则无法得到当天的数据了 # enterabs和enter的区别在于enter中time是相对时间(相对于当前再过多久时间),而enterabs中time是绝对时间 # 其他3个参数分别为优先级0最高, 需要执行的函数,该函数需要传递的参数元组(这里一定是以元组形式传递进去) scheduler.enterabs(spider.everyDayRun(8, 5, 0, False), 1, spider.sendMail, ()) scheduler.run() print 'Email has been sent!'
scheduler是一个对象,就像一个预存定时执行的任务的盒子。scheduler.enter或者enterabs就是把定时执行的任务放到这个盒子中,而scheduler.run是执行盒子中的任务,这些任务则是定时了的。
这种方法依然还是单线程的方式,多线程可以采用threading.Timer类,这里先这么写着吧。