爬虫入门01作业

课堂作业

  • 要爬取的数据类别

  • 对应的数据源网站

  • 爬取数据的URL

  • 数据筛选规则(选做)

要爬取的数据类型

我对金融行业中股票的信息感兴趣,想要依次作为决策的依据,因此想要爬取股票信息,主要获取的股票信息有:季报、半年包、年报、公司重大公告、国家宏观金融政策、股价、成交量、龙虎榜数据、实时热点。

对应的数据源网站

  1. 三大证券报:
    • 中国证券报
    • 上海证券报
    • 证券时报
  2. 两大官方网站:
    • 上海证券交易所
    • [上海证券交易所]](http://www.szse.cn/)
  3. 最大信息发布网站:
    • 巨潮咨询网
  4. 财经新闻网站:
    • 东方财富网
  5. 股票论坛:
    • 雪球网

爬取数据的URL

  1. 三大证券报:
    • 中国证券报 : http://www.cs.com.cn/gppd/
    • 上海证券报 :http://ggjd.cnstock.com/gglist/search/ggkx、http://news.cnstock.com/bwsd/index.html
    • 证券时报 :http://data.stcn.com/
  2. 两大官方网站:
    • 上海证券交易所 :http://www.sse.com.cn/disclosure/overview/
    • 深圳证券交易所 :http://www.szse.cn/main/disclosure/
  3. 最大信息发布网站:
    • 巨潮咨询网 :http://www.cninfo.com.cn/cninfo-new/index
  4. 财经新闻网站:
    • 东方财富网 : http://stock.eastmoney.com/report.html、http://stock.eastmoney.com/bidu.html
  5. 股票论坛:
    • 雪球网 : https://xueqiu.com/hq

数据筛选规则

股票消息分为:实时性和非实时性的消息,因此要分2种方式设定规则。

  • 实时性消息: 每20分钟刷新一次网站采集的数据,如果采集的数据中有自己设置的关键词(例如:突发重大新闻,自己关心的股票,涨幅超过5%),提取相应的信息。

  • 非实时性消息:每年发布季报、半年报、年报的日期,爬取上海证券交易所、深圳证券交易所、巨潮咨询网中每个公司发布的年报摘要,如果有自己设置的关键词(营业额年增长率超过50%、营业利润率超过20%),提取对应的公司信息。每日爬取雪球网中行情排行榜、热度排行榜、讨论排行榜中上榜的股票,并通过每周上榜股票的次数。

你可能感兴趣的:(爬虫入门01作业)