爬虫技术助力行为挖掘

导读

      爬虫技术作为大数据分析过程中的必备工具,从数据角度发掘用户的各类行为特点,是各大企业了解用户偏好、完成产品迭代、提高用户体验的“利器”。本次分享主要包括爬虫简介项目实战金融风险分析3部分。

01丨什么是爬虫?

     网络爬虫是通过某种程序语言(如Python)写成的程序或脚本,运行该程序或脚本则可按程序或脚本设计者的数据提取目标,自动抓取想要获取的网络上的信息。

     利用爬虫技术能够帮助我们探索群体行为特征、监控舆情风向、预测金融市场风险等等。目前实现网络爬虫的实现方法包括两大类:

  • 可视化工具,比如八爪鱼、集搜客、火车采集器等;

  • 代码程序,Python、Java、PHP、Go等语言均能开发。

爬虫技术助力行为挖掘_第1张图片

02丨项目实战之ETC用户挖掘

     以八爪鱼工具为例,设定爬取规则获取ETC卡相关用户,以下4个步骤即可实现关键字段的爬取工作,将这类数据与汽车消费类APP用户关联即可确定ETC潜在购买用户。接下来就可以针对这部分用户采取合适营销策略。

  • 确定ETC相关关键词列表,生成网址列表

  • 设置翻页规则

  • 选择关心的爬取字段

  • 设置采集环境,开启采集

03丨如何利用爬虫防范金融风险?

     受新冠疫情的影响,3月18日美股发生3月份的第4次熔断,是熔断机制成立以来的第5次,金融风险陡增。

     历次股市危机往往是流动性枯竭、资金丧失变现能力,这种流动性短缺的风险是金融市场的一种系统性风险。由于股票市场中存在大量非理性的投资者,他们的非理性行为加速股市危机:“有限关注”、“追涨杀跌”、“羊群效应”、“过度自信”等等。爬虫技术能够捕捉投资者的行为变化,及时发现风险聚集,及时采取防范措施。

     1、获取投资者行为数据

     通过爬虫技术获取股市相关关键词百度指数值来代表投资者的有限关注行为,通过获取股市相关微博评论文本补充投资者情感倾向。

爬虫技术助力行为挖掘_第2张图片

      2、构建模型探讨影响路径

     构建金融时序模型,分析投资者行为对股市流动性风险的影响路径。分析发现,投资者是信息传递到股市过程中的重要中介,根据群体行为表现能够预判股市风险。

爬虫技术助力行为挖掘_第3张图片

欢迎大家关注公众号:通信大数据分析及应用

扫码:

爬虫技术助力行为挖掘_第4张图片

 

你可能感兴趣的:(数据挖掘)