大数据应用领域与关键技术

最近开始介入数据资产建设工作。要成为数据领域的专家甚至高级专家,必须搞清楚大数据的应用方向,核心技术问题和解决方案。

数据的应用方向都有哪些?

  • BI报表
  • 商业/投资/经济分析
  • 金融风控
  • 系统安全
  • 用户画像
  • 相关推荐
  • 其它机器学习任务上游

主要用到的技术,解决的问题

ETL:数据摸底、补全、清洗、归一化、标准化
数仓建模:三层数仓、维度模型
数据挖掘:等同、相似、相关、分类、聚类、预测、打标。以及其它通过数据验证假设的过程。
机器学习:分类、预测、聚类、生成,NLP、CV、Speech
用户画像:通过用户行为,计算用户标签。
数据立方:将指标在各种维度组合下的值提前计算好,形成数据立方。供分析引擎使用。
在线分析引擎
可视化

核心技术栈对照表:

应用 ETL 数仓建模 数据挖掘 机器学习 用户画像 数据立方 在线分析引擎 可视化
BI报表 V V V V V
商业分析 V V V V V
金融风控 V V V V V
系统安全 V V V V V V
用户画像 V V V
相关推荐 V V V
机器学习上游 V V V

ETL核心技术

通常ETL逻辑是数据挖掘的一部分。
这一步的作用是完成数据预处理,定义数据规范,完成数据归一化、标准化。提升数据质量,发现并处理异常数据。

数仓建模核心技术

根据对领域业务的理解,使用维度表与事实表完成对领域的建模。搜索:数仓建模,维度模型

数据挖掘核心技术

  • 等同:hash、skip_hash、归一化(依赖)、标准化(依赖)
  • 相似:simhash(文本)、phash(图片)、 欧氏距离、余弦距离
  • 相关:相关系数、欧氏距离、余弦距离
  • 关系推断:图计算

如下部分依赖机器学习:

  • 聚类
  • 预测
  • 打标

机器学习核心技术

大数据领域常用机器学习问题:

  • 聚类
  • 回归
  • 分类

大数据领域常用机器学习领域:

  • NLP:用于分析文本数据
  • CV:用于分析图片、视频

用户画像核心技术

  • 参考google用户画像论文

数据立方

  • 搜索数据立方的计算

在线分析引擎与可视化

  • 搜索rolap, molap
  • 搜索可视化引擎

你可能感兴趣的:(大数据应用领域与关键技术)