爬虫入门02作业

作业:

  • 选择“解密大数据”专题里面上次爬虫作业的文档地址作为分析页面。
  • 分析并提交该页面结构分析与元素标签位置信息。

  1. 对页面元素进行编号,根据编号的顺序进行描述。
爬虫入门02作业_第1张图片
第二次作业图.jpg

2 . 如上图所示:
1 . 编号1——左上角标签

对应代码:
![](./爬虫入门01作业 - _files/logo-58fd04f6f0de908401aa561cda6a0688.png)

2 . 编号2—— 发现、关注、消息

     发现对应代码:
     
  • 发现
  • 关注对应代码:
  • 关注
  • 消息对应代码: 消息

    3 . 编号3——搜索对话框

    
    

    4 . 编号4——写文章按钮

    
    写文章
    

    5 . 编号5——标题:爬虫入门01作业

    爬虫入门01作业

    6 . 编号6——作者框和用户名

    作者框:作者
    用户名:mudu86
    

    7 . 编号7——信息:日期,字数、阅读量、评论数、喜欢、赞赏

     2017.07.03 12:25*
     字数 636
     < 阅读 24
    评论 2
    
     赞赏 1

    8 .编号8——文章编辑按钮

    编辑          > 文章
    

    9 . 编号9——正文

        

    课堂作业

    • 要爬取的数据类别

    • 对应的数据源网站

    • 爬取数据的URL

    • 数据筛选规则(选做)

    要爬取的数据类型

    我对金融行业中股票的信息感兴趣,想要依次作为决策的依据,因此想要爬取股票信息,主要获取的股票信息有:季报、半年包、年报、公司重大公告、国家宏观金融政策、股价、成交量、龙虎榜数据、实时热点。

    对应的数据源网站

    1. 三大证券报:
    2. 两大官方网站:
    3. 最大信息发布网站:
    4. 财经新闻网站:
    5. 股票论坛:

    爬取数据的URL

    1. 三大证券报:
    2. 两大官方网站:
    3. 最大信息发布网站:
    4. 财经新闻网站:
    5. 股票论坛:

    数据筛选规则

    股票消息分为:实时性和非实时性的消息,因此要分2种方式设定规则。

    • 实时性消息: 每20分钟刷新一次网站采集的数据,如果采集的数据中有自己设置的关键词(例如:突发重大新闻,自己关心的股票,涨幅超过5%),提取相应的信息。

    • 非实时性消息:每年发布季报、半年报、年报的日期,爬取上海证券交易所、深圳证券交易所、巨潮咨询网中每个公司发布的年报摘要,如果有自己设置的关键词(营业额年增长率超过50%、营业利润率超过20%),提取对应的公司信息。每日爬取雪球网中行情排行榜、热度排行榜、讨论排行榜中上榜的股票,并通过每周上榜股票的次数。

    10.解析正文结构:

    • 标题:三级标题——课堂作业。

    课堂作业

    • 无序序列:要爬取的数据类别、对应的数据源网站、爬取数据的URL、数据筛选规则
    • 要爬取的数据类别

    • 对应的数据源网站

    • 爬取数据的URL

    • 数据筛选规则(选做)

    • 标题:四级标题——要爬取的数据类型

    要爬取的数据类型

    `` - 段落标签:

    我对金融行业中股票的信息感兴趣,想要依次作为决策的依据,因此想要爬取股票信息,主要获取的股票信息有:季报、半年包、年报、公司重大公告、国家宏观金融政策、股价、成交量、龙虎榜数据、实时热点。

    - 有序序列和无序序列混合:
        - 有序序列——三大证券报、两大官方网站、最大信息发布网站、财经新闻网站
        - 无序序列——三大证券报中中国证券报、上海证券报、证券时报
    
    

    无序序列


    有序序列


    1. 三大证券报:
    2. 两大官方网站:
    3. 最大信息发布网站:
    4. 财经新闻网站:


    有序和无序混合


    1. 三大证券报:

    2. 两大官方网站:

    3. 最大信息发布网站:

    4. 财经新闻网站:

    5. 股票论坛:

    你可能感兴趣的:(爬虫入门02作业)