project weibo

jishigou  / thinksns

 

每天自动化批量获取weibo食堂----美食菜谱图片吻

下载固定微博页面文件index.php?mod=yugao008准备调试脚本,并展示文件名
[root@localhost ~]# wget http://weibo.cns*****.com/index.php?mod=yugao008 | ls -l index.php\?mod\=yugao008
-rw-r--r-- 1 root root 135540 04-23 11:37 index.php?mod=yugao008
搜索图片文件含o.jpg关键词的行,并展示
[root@localhost ~]# grep 'o.jpg" class="artZoomAll"' index.php\?mod\=yugao008 | more
    <li><a href="http://weibo.cns*****.com/images/topic/9/39/75512_o.jpg" class="artZoomAll" rel="http://weibo.cns*****.com/images/topic/9/39/75512_s.jpg" rev="1444907_lLhRjs"><img  src="http://wei 
    *.com/images/topic/9/39/75512_s.jpg" /></a></li> 
    <li><a href="http://weibo.cns*****.com/images/topic/3/27/75505_o.jpg" class="artZoomAll" rel="http://weibo.cns*****.com/images/topic/3/27/75505_s.jpg" rev="1444805_LiCXAH"><img  src="http://wei 
    *.com/images/topic/3/27/75505_s.jpg" /></a></li> 
    <li><a href="http://weibo.cns*****.com/images/topic/e/19/75506_o.jpg" class="artZoomAll" rel="http://weibo.cns*****.com/images/topic/e/19/75506_s.jpg" rev="1444805_LiCXAH"><img  src="http://wei 
    *.com/images/topic/e/19/75506_s.jpg" /></a></li>  
搜索图片文件含o.jpg关键词的行,以awk截取引号分割第二段url另存为$(hostname)_$(date +%Y%m%d%H%M%S).txt文件,并展示各文件
[root@locahost ~]# grep 'o.jpg" class="artZoomAll"' index.php\?mod\=yugao008 | awk -F "\"" '{print $2}' > $(hostname)_$(date +%Y%m%d%H%M%S).txt | ls -l $(hostname)*.txt
-rw-r--r-- 1 root root 1286 04-23 12:59 lindows_20130423125938.txt
-rw-r--r-- 1 root root 1286 04-23 14:49 lindows_20130423144952.txt
-rw-r--r-- 1 root root 1286 04-23 14:49 lindows_20130423144957.txt
-rw-r--r-- 1 root root 1286 04-23 14:51 lindows_20130423145111.txt
-rw-r--r-- 1 root root 1286 04-23 14:51 lindows_20130423145149.txt
-rw-r--r-- 1 root root 1286 04-23 14:53 lindows_20130423145307.txt
、、、
搜索图片文件含o.jpg关键词的行,以awk截取引号分割第二段url另存为$(hostname)_$(date +%Y%m%d%H%M%S).txt文件,并展示各文件名及其内容
[root@localhost ~]# ls -l $(hostname)*.txt
[root@localhost ~]# more lindows_20130423125938.txt
http://weibo.cns*****.com/images/topic/9/39/75512_o.jpg
http://weibo.cns*****.com/images/topic/3/27/75505_o.jpg
http://weibo.cns*****.com/images/topic/e/19/75506_o.jpg
http://weibo.cns*****.com/images/topic/d/82/75500_o.jpg
http://weibo.cns*****.com/images/topic/9/45/75501_o.jpg
、、、
搜索所有$(hostname)*.txt文件里含http关键词的行并展示各文件名和内容
[root@localhost ~]# grep 'o.jpg" class="artZoomAll"' index.php\?mod\=yugao008 | awk -F "\"" '{print $2}' > $(hostname)_$(date +%Y%m%d%H%M%S).txt | grep http $(hostname)*.txt | more
lindows_20130423144952.txt:http://weibo.cns*****.com/images/topic/9/45/75501_o.jpg
lindows_20130423144952.txt:http://weibo.cns*****.com/images/topic/0/17/75458_o.jpg
lindows_20130423144952.txt:http://weibo.cns*****.com/images/topic/c/99/75459_o.jpg
lindows_20130423144952.txt:http://weibo.cns*****.com/images/topic/b/28/75454_o.jpg
、、、
搜索所有$(hostname)*.txt文件里含http关键词的行,删除lindows*.txt:的文字后,排序且删除重复项后并展示
[root@localhost ~]# grep 'o.jpg" class="artZoomAll"' index.php\?mod\=yugao008 | awk -F "\"" '{print $2}' > $(hostname)_$(date +%Y%m%d%H%M%S).txt | grep http $(hostname)*.txt | awk -F "txt:" '{print $2}' | sort | uniq | more
http://weibo.cns*****.com/images/topic/0/17/75458_o.jpg
http://weibo.cns*****.com/images/topic/0/20/75450_o.jpg
http://weibo.cns*****.com/images/topic/3/25/75423_o.jpg
http://weibo.cns*****.com/images/topic/3/27/75505_o.jpg
http://weibo.cns*****.com/images/topic/3/82/75455_o.jpg
http://weibo.cns*****.com/images/topic/4/27/75302_o.jpg
http://weibo.cns*****.com/images/topic/5/27/75276_o.jpg
http://weibo.cns*****.com/images/topic/6/0/75351_o.jpg
http://weibo.cns*****.com/images/topic/6/3/75390_o.jpg
、、、
搜索所有$(hostname)*.txt文件里含http关键词的行,删除lindows*.txt:的文字后,排序且删除重复项后并展示,并批量下载所有jpg 到指定目录/home/lindows/
[root@locahost ~]# grep 'o.jpg" class="artZoomAll"' index.php\?mod\=yugao008 | awk -F "\"" '{print $2}' > $(hostname)_$(date +%Y%m%d%H%M%S).txt | grep http $(hostname)*.txt | awk -F "txt:" '{print $2}' | sort | uniq | more | xargs -I {} wget -P /home/lindows/ {}
加载Redhat Linux Crontab 列表 / 每天中午11点定时下载美食图片
[root@locahost ~]# crontab -e
# 每天10:30下载新文件index.php?mod=yugao008
30 10 * * * wget http://weibo.cnsu****.com/index.php?mod=yugao008
# 每天11:00根据新文件index.php?mod=yugao008匹配一定规则自动下载指定美食菜谱图片
0 11 * * * grep 'o.jpg" class="artZoomAll"' index.php\?mod\=yugao008 | awk -F "\"" '{print $2}' > $(hostname)_$(date +%Y%m%d%H%M%S).txt | grep http $(hostname)*.txt | awk -F "txt:" '{print $2}' | sort | uniq | more | xargs -I {} wget -P /home/lindows/ {}
ok
 
 
 
 
 
 
 
 
 

 

 

 

 

 

 

http://book.js165.com/iread/wml/p/help.jsp;jsessionid=36DF9F47C606A8ACA5D00AEB14255A0E

 

Apache Tomcat/5.5.27

 

 

【e悦读介绍】

e悦读是江苏新华传媒与江苏联通合作推出的手机阅读服务。e悦读注重寻求特色化的阅读资源,致力于为江苏联通用户提供具有地区特色的和更具吸引力的阅读服务。e悦读业务自2012年1月1日起试运营。

【资费说明】

好消息,新年送大礼!e悦读全站图书大开放,免费看!在e悦读试运营期间,江苏联通用户在省内访问e悦读站点将不收取流量费和信息费。试运营期结束之后,e悦读将按标准资费收费。e悦读试运营期的截止日期以站内公告为准。e悦读自此将会矢志不渝地更好的完善平台服务,以回馈您的支持和厚爱,感谢您的关注。

常规的手机阅读产品资费包括三个部分:点播信息费、包月信息费和流量费。

1.点播资费:主要包括按章、按本收费两种资费。按章标准资费每章0.10元-0.12元不等;具体资费以用户点播提醒为准。按本标准资费为2-3元/本。

2.包月产品按价格分为二类:2元优惠包和4元优惠包。2元优惠包可选择2本单本图书;4元优惠包可选择6本单本图书。退订包月后可享受所有包月特权至当月底;连载中小说不参与优惠包。

【分类介绍】

目前e悦读图书共有15个杂类,主要包括:全本频道、名家推荐、言情小说、玄幻穿越、武侠仙侠、历史军事、幽默短篇、灵异悬疑、影视文学、教育教辅等类型图书。

【排行榜介绍】

排行榜根据读者对每一本书的在当周内、当月内及历史累计点击数的多少分周榜、月榜和总榜由高到低依次排列。

【搜索介绍】

手机阅读的搜索功能具有模糊搜索的能力,无论输入书名,作者名或者关键字、词均可以进行搜索。

【书架介绍】

书架里可以查询用户自己最近阅读过的书籍、自己的消费记录、自己的包月书包以及自己的书籍收藏目录。

【听书帮助】

e悦读用户如果遇到听书功能无法正常使用的情况,请参看以下使用帮助:

a.目前e悦读手机听书功能支持苹果和安卓系统,其他系统暂不支持;b.安装最新版的flash插件。下载地址:http://dl.pconline.com.cn/download/77813.html;c.请优先使用手机自带浏览器,其他的如UC、QQ浏览器也可备选。

附:下载插件会产生流量费,请尽量使用Wi-Fi下载,以节约您的套餐流量。

【字数设置介绍】

字数设置分500字、1000字、2000字三种模式。设置方法:阅读页→页面下方字数设置。

备注:由于手机性能所限,每页显示1000或以上字数可能会因为容量太大导致页面无法打开。如果你使用的是型号和款式比较旧的手机,建议采用500字/页阅读。

 

end

你可能感兴趣的:(project)