spark core 入门实战之一

sc.textFile("/home/hadoop/test/data/test1.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

sc是sparkcontext 即是spark的上下文

reduceByKey是rdd特有的方法,单纯的scala中没有

蒙特卡罗求PI算法

启动时候报错

Hadoop中com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expectedtag.atcom.google.protobuf.InvalidProtocolBufferException.invalidEndTag(InvalidProtocolBufferException.java:94)

利用hdfs getconf -confKey fs.default.name命令查看hadoop运行的端口得到8020 利用8020这个端口而不是50070


scala>sc.textFile("hdfs://hadoop000:8020/test/data/test1.txt").flatMap(_.split("")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect

用来读取Hadoop上的文件并进行wordcount处理


sc.textFile("hdfs://hadoop000:8020/test/data/test1.txt").flatMap(_.split("")).map((_,1)).reduceByKey(_+_,1).sortBy(_._2,false).saveAsTextFile("hdfs://hadoop000:8020/test/out")

用来读取Hadoop上的文件并且将处理结果存放在out中

sortBy和scala中略有不同


Spark中的算子的分为两类

一类是transformation

一类是action

transformation会延迟加载只有在遇到Action才会进行计算。



你可能感兴趣的:(spark)