爬取天气预报并发送邮件

今天写了小小的一个需求,从中国天气网的上海天气预报页面爬取当天的天气预报,能够每天定时运行程序并发送邮件至个人邮箱。

# coding=utf8

__author__ = 'smilezjw'

import urllib2
import re
import smtplib
from email.mime.text import MIMEText
import time
import sched

scheduler = sched.scheduler(time.time, time.sleep)

class WeatherSpider:
    def __init__(self):
        self.siteURL = 'http://www.weather.com.cn/weather/101020100.shtml'

    # 爬取siteURL页面的静态内容
    def crawl(self):
        request = urllib2.Request(self.siteURL)
        response = urllib2.urlopen(request)
        content = response.read()
        response.close()
        return content

    # 解析爬取的内容
    # 这里只获取了城市、时间、温度和天气等信息
    def getContents(self):
        html = self.crawl()
        pattern = re.compile('<title>(.*)今天天气预报')
        city = re.findall(pattern, html)
        pattern = re.compile('\d+月\d+日\d+时.*C')
        data = re.findall(pattern, html)
        return city[0] + data[0]

    # 发送邮件
    def sendMail(self):
        # 然后将第二天的任务添加到盒子中
        scheduler.enterabs(self.everyDayRun(8, 5, 0, True), 1, self.sendMail, ())
        user = '[email protected]'
        pwd = 'xxxxxxxxxx'
        to = '[email protected]'
        msg = MIMEText('Good Morning!\r\n' + self.getContents())
        msg['Subject'] = 'Today Weather Forecast'
        msg['From'] = user
        msg['To'] = to
        s = smtplib.SMTP('smtp.qq.com', port=25)  # 注意需要去QQ邮箱设置中开启POP3/SMTP和IMAP/SMTP
        s.login(user, pwd)
        s.sendmail(user, to, msg.as_string())
        s.close()
    
    # 每天定时运行程序
    def everyDayRun(self, hour, min, sec, nextDay=True):
        struct = time.localtime()
        if nextDay:
            day = struct.tm_mday + 1
        else:
            day = struct.tm_mday
        return time.mktime((struct.tm_year, struct.tm_mon, day, \
                            hour, min, sec, struct.tm_wday, struct.tm_yday, struct.tm_isdst))

if __name__ == '__main__':
    spider = WeatherSpider()
    # 启动程序后,先获取今天的数据,这里nextDay设置为False,如果设置为True则无法得到当天的数据了
    # enterabs和enter的区别在于enter中time是相对时间(相对于当前再过多久时间),而enterabs中time是绝对时间
    # 其他3个参数分别为优先级0最高, 需要执行的函数,该函数需要传递的参数元组(这里一定是以元组形式传递进去)
    scheduler.enterabs(spider.everyDayRun(8, 5, 0, False), 1, spider.sendMail, ())
    scheduler.run()
    print 'Email has been sent!'

scheduler是一个对象,就像一个预存定时执行的任务的盒子。scheduler.enter或者enterabs就是把定时执行的任务放到这个盒子中,而scheduler.run是执行盒子中的任务,这些任务则是定时了的。

这种方法依然还是单线程的方式,多线程可以采用threading.Timer类,这里先这么写着吧。


你可能感兴趣的:(python,爬虫,定时)