大数据算法—大数据算法概述

       大数据——当下人人津津乐道的话题。然而对于大数据的公认定义以及完美体系还没有完全诞生,但大街小巷已遍布云计算、大数据,这些领域的经典案例更是层出不穷。由于认知的有限,就不继续发表拙见了。只是因为很喜欢算法和DM,加上最近在MOOC上学习一门HIT的《大数据算法》课程,收获很多特记录于此,也推荐一下MOOC的学习资源和学习平台。虽然开始算法的旅程太短,但它的神奇魔力深深吸引了我。在互联网时代发挥巨大而神奇作用的算法,在即将到来的大数据时代又该如何适应,以何种方式体现?成为了我探寻的最大乐趣。

       大数据算法定义:在给定的资源约束下,以大数据为输入,在给定的时间约束内可以生成满足给定约束结果的算法。

       当然关于大数据的定义也有很多,但目前还未完全统一。不管是哪一种定义关键在于自己能够真正去理解的,才是好的定义。

       大数据的应用

      1.预测:时间序列等;

      2.推荐:协同过滤等;

      3.商业情报分析:机器学习等;

      4.科学研究:机器学习,高可扩展、非线性时间算法等。

      大数据应用直接度娘就遍地都是了,这里就不赘述了。

       大数据特点(4V):

        Ø  variety:多样性、复杂性;

        Ø  velocity:速度;

        Ø  volume:数据量;

        Ø  value:基于高度分析的新价值。

       特点应该是耳熟能详了,这里只是提一下这门课程中的在于velocity和volume上的。

       大数据算法概述:

       Ø  时间亚线性算法访问全部数据时间过长。可采取读取部分数据或者预处理等方式。

       Ø  空间亚线性算法数据难于放入内存进行计算,则可采取仅基于少量数据进行计算。

       Ø  外存算法数据难于放入内存计算,也可采取将数据存储在磁盘上,再进行调用计算。

       Ø  并行算法单个计算机难以保存全部数据,计算需要整体数据。则可以采用并行计算。

       Ø  众包算法计算机能力不足或知识不足,此时可以采取“人多势众”的策略来解决。

       这是这门课程的算法主要概述了,比较全面也比较实用。可以从里面学到很多不一样的算法思想,以及算法的应用的。目前这部分算是没有到发展瓶颈的,很有发展潜力的哦。

       大数据的算法分析:时间空间复杂性、IO复杂性、结果质量(近似比、competitive ratio等)、通讯复杂性等,更加全面和更多的因素分析了。

       大数据的算法设计技术:精确算法设计方法、并行算法、近似算法、随机算法、在线算法/数据流算法、外存算法、面向新型体系结构的算法、现代优化算法等等。你想得到的和想不到的都在这里了。

你可能感兴趣的:(大数据算法—大数据算法概述)