海量数据处理

2018/08/13
个人觉得mapreduce就那么点东西,甚至说利用spark也就是利用spark定义好的接口直接去统计就可以了。
但是看了一个网站,讲述了相关的海量数据的处理流程,看来即使是有了mapreduce这种计算框架,也不能说就这样结束了。
转载:https://blog.csdn.net/v_JULY_v/article/details/6279498
也就是说,这个计算框架可以用,但是你还是需要再深层次的去利用这个框架,优化算法。


那么如此看来,即使是利用spark的时候,还是需要讲究一定的技术和手段。
就比如这个文章的解决办法,可以利用的是分布式框架,但是总体上,还是基于一些基础的数据结构和算法。这些是比较关键的。
特别是一个地方提醒了我,就是占用的内存,如果是我的话,肯定就把整个机器的内存给占据满了。当然,如果更深入一点,那么还有时间的限制。这就又回到了当初的那个年代,算法的复杂度分析又是一项非常重要的指标。

我比较疑惑的地方就是,怎么样把他提到的这些东西给实现出来。是分布式框架吗?
因为全文只有最后提及了mapreduce的问题,也就是说,本质上这个问题的处理流程还是基于原有的单机版本。
(个人理解)


估计真实问题场景下,应该会指定一下环境,是单机版还是分布式的。
但即使是分布式情况下,也应该把单机版本下的数据结构与算法加入进去。而不是你直接进行最简单的接口调用。
不过,反过来看,saprk情况下,它提供的接口已经是成形的,还有更好的办法吗???
这一点值得考量。

原有的经典算法,永远还是不过时。


2018/08/13
感觉第一想法,还是说,应对海量数据,依然需要基础的算法来支撑。
其实比较想不通的就是spark那里怎么办。

2018/08/17
对于大数据环境下,当今的数据分析需要解决的问题有哪些,原有的一些算法是不是还适用。现如今,每次谈到大数据,就是hadoop、spark。难道除了这些就没有别的东西了吗?
我们应该从大数据的计算框架下,开辟出什么样新型的东西??


刚想到这个问题,就看到了一个老师的文章。。。
转自:http://pages.cs.wisc.edu/~jignesh/
这个是他的学校主页,还没有看具体他到底干了那些事情,但是从简介来看,应该是为了提高效率而进行研究。
我觉得,效率问题,不管是应用于这个hadoop也好,用于这个其他场景也好,只要有了这个层析的提升,这都是好东西。

你可能感兴趣的:(海量数据处理)