大数据处理利器——基础概念

参考文献:

大数据:互联网大规模数据挖掘与分布式处理

  1. 数据是新的石油:大数据处理利器——基础概念_第1张图片
  2. “data mining” is the discovery of “models” for data.
  3. 数据挖掘的覆盖范围:大数据处理利器——基础概念_第2张图片
    1. 数据库:大规模数据,简单查询;
    2. 机器学习:少量数据,复杂模型;
    3. 统计学:预测模型;
    4. DB:数据挖掘是分析处理的极限形式——检索大量数据的查询,结果是查询的答案;
    5. 统计/机器学习:数据挖掘是模型的预测和推论;
    6. 海量数据处理或大数据处理:上面两个都做!但更多强调扩展性(大数据)、算法和架构、海量数据的自动处理;
  4. 挖掘不同类型的数据:高维数据、图数据、流数据(无限的、从不结束)、标签数据;
  5. 使用不同的计算模型:MapReduce、Streams and online algorithms、Single machine in-memory;
  6. 解决现实世界的问题:Recommender systems、Association rules、Link analysis、Duplicate detection;
  7. 使用的工具:Linear algebra (SVD, Rec. Sys., Communities)、Optimization (stochastic gradient descent)、Dynamic programming (frequent itemsets)、Hashing (LSH, Bloom filters)
  8. 组合:大数据处理利器——基础概念_第3张图片
  9. 烧烤数据:大数据处理利器——基础概念_第4张图片

待续:邦弗朗尼原理(Bonferroni’s principle),邦弗朗尼校正(Bonferroni correction):在数据随机性假设的基础上,可以计算所寻找事件出现次数的期望值。如果该结果显著高于你所希望找到的真正实例的数目,那么可以预期,寻找到的几乎任何事物都是臆造的,也就是说,它们是在统计上出现的假象,而不是你所寻找事件的凭证。

你可能感兴趣的:(大数据,基础知识,海量数据处理)