003 - 『Python爬虫小分队』作业布置 -- 持续更新

(作业都在这篇文档中,每天更新,请保存一下地址,谢谢~)

提交作业方式:

第一组的同学,第一周(4.17~22)群内直接提问,截屏发自己的进度。
第二组的同学,要求把项目思路和结果写成文章,发到专题。
推荐代码提交到 github


2017-5-8 作业 18:
一组:1)文件读写,爬取数据写入csv或Excel; 2) 爬取数据存入数据库
二组:(晚上发布:最终项目)


2017-5-7 作业 17:
今天的作业是选做题,听了昨晚的分享,你有什么笔记、感悟或思考,可以写下来,仍然投到作业专题。


2017-5-6 作业 16:
推荐几篇文章,使用大家整理复习。鼓励大家多写多总结。

  • 阮一峰老师文章的常识性错误之 Unicode 与 UTF-8
  • Python爬虫基础 | 字符串和编码
  • Python爬虫基础 | 爬虫反ban的技巧
  • 爬取知乎问题答案赞同最多数据--单线程完整版
  • python爬虫——知乎(关于python的精华回答)
  • Selenium在异步加载中的应用

2017-5-5 作业15:
今天没有新任务,整理
整理前一段时间的内容,进度和问题。


2017-5-4 作业14:
一组:MySQL基本操作, SQL语句
二组:整理了解基本的爬虫防Ban措施

嘉宾分享提问收集。


2017-5-3 作业13:
一组 重点,理解结构化数据抓取,选取好循环点,分析网页代码,会调试。
010 - 使用BeautifulSoup和XPath抓取结构化数据


2017-5-2 作业12:
一组 本周内容:

  • BeautifulSoup和XPath
    008 - 爬虫处理流程及网页解析
    009 - 使用XPath解析网页

  • 了解MySQL

二组 本周内容:
爬取两个站点:微博和知乎,把知乎上Python学习的高分回答抓取下来。


2017-4-28 作业11:
整理一周进度,把遇到的问题写下来,准备答疑交流。


2017-4-27 作业10:
一组内容:
从一小段代码开始,理解爬虫。007 - Python简单爬虫 - 正则表达式
需要的知识点:网络请求,源代码定位分析(HTML),正则表达式,Python网络访问库,逻辑基础。

需要说明的是,文章中代码方式(urllib+正则匹配方式)不是后续写爬虫的主要方式。

二组内容:
开始提交项目代码流程和结果分析。


2017-4-26 作业9:
一组内容:
1)了解HTML文档结构
2)了解常用的HTML标签 ,,

,

,
    ,
  • ,
    3)了解url,分页url的基本规律
    4)了解HTTP请求响应的过程


    2017-4-23 作业8:
    一组:HTML基础 & 正则表达式 (此内容2~3天)
    了解HTML基本内容即可,HTML教程
    正则表达式:

    • 视频学习
    • Python正则表达式指南
      本周还要强化编程逻辑练习

    二组:本周要爬取的站点两个:拉钩网(Python工程师岗位,数据分析师岗位),豆瓣读书(比较 -读书,京东读东,学习数据处理、分析方法)


    2017-4-22 作业7:
    群内集中答疑辅导


    2017-4-21 作业6:
    一组:完成 万年历逻辑功能,学习函数调用
    集中答疑交流

    二组:集中答疑交流,爬虫流程分析,url分析


    2017-4-20 作业5:
    一组:完成 万年历的界面打印,学习函数定义、调用

    二组:参考爬虫小分队二组作业题-20170420 ,把自己的代码和疑问整理一下,包括进度方面的问题,周末综合答疑。


    2017-4-20 作业4:
    一组:完成 循环语句
    练习:求出1000以内的完全数有哪些
    周六带着大家对本周所有知识点进行梳理。

    二组:作业项目截止提交,把爬取的思路、结果写成文章,最好能加上一些对数据的处理和分析。


    2017-4-19 作业3:
    一组:完成 条件语言
    练习:判断一个年份是不是闰年
    一组的进度,如果每天都完成比较快,可以往前赶,本周需要完成的任务:002 - Python 程序逻辑训练3题


    2017-4-18 作业2:
    一组:完成变量和数据类型,操作符

    二组:
    第2组 热门文章数据(3天完成 4.18-20)

    抓取七日热门数据,如果有时间加以分析
    http://www.jianshu.com/trending/weekly

    爬取数据字段:
    1.用户
    2.标题
    3.阅读量
    4.评论量
    5.获赞量
    6.打赏数
    7.文章发表时间
    (文章类别,来自哪个专题。选做)
    数据保存为CSV或Excel


    2017-4-17 作业1:
    填写提交学习情况调查表。
    安装Python和Python开发环境。


    2017-4-16 作业0:
    把自己学过的Python内容梳理一下(其他编程语言的情况也写出来),之前学习中的问题、困难点都可以提出来,每天的学习时间安排,写成文章,投到 Python爬虫作业

    刚刚开始学习的同学,看我上000-002文章,了解尝试安装Python环境。

你可能感兴趣的:(003 - 『Python爬虫小分队』作业布置 -- 持续更新)