1.完成beva的spider
2.学习mongo。(索引,唯一,分片等)
3.学习scrapy+webkit抓取js网页。(python-webkit)
4.学习android framework源码。(每天抽出1-2小时)
2012.12.17
2012.12.18
- 完成spider,基本抓取完beva资源。
- beva的动画片,有些资源缺少某一集,导致episode中的index与名称不符。比如:anime id=65的资源,从缺少234集
- 使用pywebkit可以解析带有js的html页面,但是效率很低。beva的swf抓取没有使用这种方法,因为swf url完整定义在了script的变量中,并没有用代码拼接。所以找到script标签,然后通过文本解析,找到swf变量,取得swf url
2012.12.19
- 重构了一下spider
- 修改动画片的集数,从名称中提取,解决了昨天集数与名称不符合的情况
- 修改db结构,使用mongodb的无模式,集合的思想,把一些表进行整合。
2012.12.20
2012.12.21
- 学习django文档
- 搭建django环境,参考 《env》博文