【03】Spark分析日志实例

1、准备数据

http://www.sogou.com/labs/dl/q.html


2、加载

scala> val rdd = sc.textFile("/home/scipio/SogouQ.mini")


3、统计

rdd.count
rdd.cache
rdd.map(_.split('\t')(0)).filter(_ < "20111230").count
rdd.map(_.split('\t')).filter(_(3).toInt == 1 ).count
rdd.map(_.split('\t')).filter(_(3).toInt == 1 ).filter(_(4).toInt == 1).count
rdd.map(_.split('\t')).filter(_(2).contains("baidu") ).count


你可能感兴趣的:(【03】Spark分析日志实例)