数据科学应用场景

  1. 数据基本处理
    下面列一些关键词:
    数据源
    数据抽样
    数据类型
    缺失值
    异常值
    粗分类
    卡方检验
    WOE

  2. 预测
    一般而言分两类,回归与分类

回归

  • 线性回归
  • 随机森林
  • 神经网络
  • 以及各种机器学习方法
  • 时间序列预测

分类

  • 逻辑回归
  • 决策树
  • SVM
  • 随机森林
  • xgboost
    等等
  1. 识别模式

  2. 聚类分析

  3. 关联规则

  1. 生存分析

生存分析一开始是用于判断生物体什么时候会死。其衍生开来可以用于判断某一事情什么时候会发生。可以使用的场景包括,预测客户流失时间,预测客户下次购买时间,预测客户违约事件,预测客户下次访问网站的时间。

第一类生存分析是卡普兰.梅尔分析,用于估计不同时间的总体生存率。

参数法生存分析:假设事件的发生时间服从某种分布规律。

比例风险回归模型,生存分析模型的扩展:把随时间而变化的变量纳入模型。

生存分析模型的评估:首要考虑点是模型整体和单个协变量的预测力的统计显著性。

  1. 社交网络分析

社交网络的现实场景:以超链接方式连接在一起的网页,人与人之间的电子邮件网络,因引用而建立连接关系的论文,通信运营商的客户之间的电话呼叫,通过流动性依赖而连接在一起的银行,疾病在病人之间的传播等等。

社交网络的度量,社交网络的学习,关系邻近分类器,概率关系邻近分类器,关系逻辑回归,共同模式推断,自中心网络,偶图/二分图

  1. 案例
  • 信用风险建模:信贷领域A卡,或者其他预测风险的模型
  • 欺诈检测:其实有的时候去识别欺诈模式,更多的靠的是数据分析,靠业务经验,而不是靠模型。
  • 营销响应模型:本质上也是二分类模型,用于预测客户对于营销活动是否会有反应
  • 流失预测:生存分析可以用于这个方面,并且生存分析模型在这个领域应用也比较少
  • 推荐系统:基于内容,基于用户
  • a/b测试,本质上是统计上的假设检验
  • 情感分析:这个属于文本挖掘一大类,我有一门关于文本挖掘的课程,感兴趣可以去学习。https://study.163.com/course/introduction.htm?utm_u=1149547966&utm_campaign=share&utm_medium=iphoneShare&share=2&shareId=480000001874407&courseId=1209305807&utm_source=weixinMoment

你可能感兴趣的:(数据科学应用场景)