海量数据分析方案

电信短信话单问题:
 
  一天大约30G的话单文件,对话单进行格式化后大约4-5G,每一条话单有主叫、被叫信息等构成;
   
每次新格式化一个话单文件,对文件中的号码统计主叫的频次,即该号码主叫次数

         这种统计类似于实时统计,新格式化的txt格式话单文件在生成,出现一个话单文件,就需要统计下它主叫号码之前1小时、3小时、5小时、7小时,……,24小时出现的频次,频次超过规则的的形成日志

现在我们做了统计一小时的,一小时数据完全加载至内存,处理后形成日志文件,做一天的量比较大,内存等各种问题就出现了,请教各位达人有好的方案解决此问题吗

8G内存,数据库Mysql跑着其他应用,只有2太机器,目前是主被双机;

你可能感兴趣的:(应用服务器,框架,hadoop,mysql,hbase)