使用简单的python语句编写爬虫 定时拿取信息并存入txt

echo2.py

# -*- coding: utf-8 -*-    #解决编码问题
import urllib
import urllib2
import re
import os
import time
 
page = 1
url = 'http://www.qiushibaike.com/text/page/4/?s=4970196'     #爬取的目标网站
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = { 'User-Agent' : user_agent }
try:
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request)
    # print response.read()
    content = response.read().decode('utf-8')  #解决编码问题
    pattern = re.compile(r'(.*?).*?
',re.S) #第一个参数是匹配要爬取的内容,这里使用正则去匹配 items = re.findall(pattern,content) f=open(r'.\article.txt','ab') #txt文件路径 nowTimes = time.strftime('%Y-%m-%d %H:%M:%S',time.localtime(time.time())) #获取当前时间 f.write('时间:{}\n\n'.format(nowTimes),); #txt文件中写入时间 for i in items: i.encode('utf-8') agent_info = u''.join(i).encode('utf-8').strip() f.writelines('段子:%s%s\n'%(str(agent_info),os.linesep)) #分行存入 # f.write('%s'%str(agent_info)) f.close() # print items except urllib2.URLError, e: if hasattr(e,"code"): print e.code if hasattr(e,"reason"): print e.reason

布置定时任务使用crontab。 (具体crontab使用方法可见http://blog.csdn.net/daivon_up/article/details/71266814):

* */1 * * * /usr/bin/python /home/dengwen/desktop/echo2.py

####运行结果:
使用简单的python语句编写爬虫 定时拿取信息并存入txt_第1张图片

如果觉得我的文章对你有帮助,欢迎关注我的blog

相关知识点

【Javascript】深入理解async/await的实现,Generator+Promise = Async/Await
【Javascript】深入理解this作用域问题以及new运算符对this作用域的影响
【Javascript】手写运算符new创建实例并实现js继承

你可能感兴趣的:(爬虫-python,保存到本地txt,crontab,定时拿取数据,python,开发入门)