总结最近一阵子忙的事情

      回家过了个春节,春节期间去了趟广东,跟昔日的同学碰了个头,同时也跟TX公司的同学交流了一下,他们那边在分布式存储与计算的内容,同时了解了他们的集群规模及处理方式等等。

      前段时间,除了完成公司的项目需求外,大致过了一下redis,chukwa的源代码,基本上了解了这二种分布式产品的框架及相关原理,其实思想本身不难,难的就是真正实现及完善出能够在实际应用中发挥出作用的产品,这一点,国外的专家,做的很好,值得我们学习。

      hadoop方面,前不久,yahoo发了一篇mapreduce2.0的框架思想,我想重要一点就是使得JT的负载变小了,利用了更加分布式的原理去化解这个压力,让集群规模可以变大,同时效率也可以提升。因为按目前的现状,规模达到4K时,会有瓶颈,当然国内在单个集群要到这个规模估计很少,如何能做到像google那样,还值得深思。

      另外,最近在开发一个hive-server工具,在server端加了一个多用户认证功能,保证安全性。另一方面,添加了几个通信接口函数,得到更多的关于表的信息,发现老版本的hive用的是早期的thrift版本,用新的thrift版本生成出来的代码,跟以前的比较,差异比较大。因此,不太可取,于是自已直接在原来的生成代码之上,改了改,也没花多少时间,有时侯是在开发过程中还是需要衡量一下影响面和时间等因素的。

      nosql这一块,大家现在也都是在研究过程中,而基本hdfs之上的hbase,社区对它的改造也加快了,之前的facebook已经在他们的在线邮箱上用上了这个家伙,到底什么样的业务适合hbase,如何能够高效的用上它,给我们带来性能和时间上提高,我想现在是很多人都在想的一些问题,包括我自已。

      这篇博客就是流水帐,接下来一阵子,我可能会更加深入去学习一些知识,写博,可能不会太频繁,毕竟自已的知识有限,还是需要积累积累。

你可能感兴趣的:(redis,mapreduce,集群,NoSQL,hbase,分布式存储)