Spark RPC接口和Scala Actor简介

Spark1.6之前中使用的分布式多线程框架,是Akka。Akka也实现了类似Scala Actor的模型。spark1.4标准化这套接口为了能够实现基于其他技术的rpc方案,并且最终也是这么做的,在spark1.6版本中rpc的默认实现由基于akka的actor转变为基于netty,解决了实际项目中可能存在的akka版本问题。

Scala的Actor类似于Java中的多线程编程。但是不同的是,Scala的Actor提供的模型与多线程有所不同。Scala的Actor尽可能地避免锁和共享状态,从而避免多线程并发时出现资源争用的情况,进而提升多线程编程的性能。此外,Scala Actor的这种模型还可以避免死锁等一系列传统多线程编程的问题。

一、Actor的创建、启动和消息收发

Scala提供了Actor trait来让我们更方便地进行actor多线程编程,就Actor trait就类似于Java中的Thread和Runnable一样,是基础的多线程基类和接口。我们只要重写Actor trait的act方法,即可实现自己的线程执行体,与Java中重写run方法类似。
// 此外,使用start()方法启动actor;使用!符号,向actor发送消息;actor内部使用receive和模式匹配接收消息

// 案例:Actor Hello World
import scala.actors.Actor

class HelloActor extends Actor {
  def act() {
    while (true) {
      receive {
        case name: String => println("Hello, " + name)
      }
    }
  }
}

val helloActor = new HelloActor
helloActor.start()

helloActor ! "leo"

二、收发case class类型的消息

// Scala的Actor模型与Java的多线程模型之间,很大的一个区别就是,Scala Actor天然支持线程之间的精准通信;即一个actor可以给其他actor直接发送消息。这个功能是非常强大和方便的。
// 要给一个actor发送消息,需要使用“actor ! 消息”的语法。在scala中,通常建议使用样例类,即case class来作为消息进行发送。然后在actor接收消息之后,可以使用scala强大的模式匹配功能来进行不同消息的处理。
// 案例:用户注册登录后台接口
case class Login(username: String, password: String)
case class Register(username: String, password: String)
class UserManageActor extends Actor {
  def act() {
    while (true) {
      receive {
        case Login(username, password) => println("login, username is " + username + ", password is " + password)
        case Register(username, password) => println("register, username is " + username + ", password is " + password)
      }
    }
  }
}
val userManageActor = new UserManageActor
userManageActor.start()
userManageActor ! Register("leo", "1234"); userManageActor ! Login("leo", "1234")

三、 Actor之间互相收发消息

// 如果两个Actor之间要互相收发消息,那么scala的建议是,一个actor向另外一个actor发送消息时,同时带上自己的引用;其他actor收到自己的消息时,直接通过发送消息的actor的引用,即可以给它回复消息。
// 案例:打电话
case class Message(content: String, sender: Actor)
class LeoTelephoneActor extends Actor {
  def act() {
    while (true) {
      receive {
        case Message(content, sender) => { println("leo telephone: " + content); sender ! "I'm leo, please call me after 10 minutes." }
      }
    }
  }
}
class JackTelephoneActor(val leoTelephoneActor: Actor) extends Actor {
  def act() {
    leoTelephoneActor ! Message("Hello, Leo, I'm Jack.", this)
    receive {
      case response: String => println("jack telephone: " + response)
    }
  }

}

四、RPC

RPC通信主要有RpcEnv、RpcEndpoint、RpcEndpointRef这三个核心类。
RpcEndpoint是一个通信端,例如Spark集群中的Master,或Worker,都是一个RpcEndpoint。但是,如果想要与一个RpcEndpoint端进行通信,一定需要获取到该RpcEndpoint一个RpcEndpointRef,通过RpcEndpointRef与RpcEndpoint进行通信,只能通过一个RpcEnv环境对象来获取RpcEndpoint对应的RPCEndpointRef。


RpcEndpoint  =>  Actor  
RpcEndpointRef  =>  ActorRef  
RpcEnv  =>  ActorSystem


RpcEndpoint 

RpcEndpoint对应actor例子中的Actor,用于处理信息,

其有两个重要方法,receivereceiveAndReply,区别是后者处理完信息后会返回信息给发送者,类似tcp和udp。再看actor例子中我们定义的HelloActor,其处理信息的方法名正是receive,一个RpcEndpoint的生命周期如下: onStart -> receive(receiveAndReply)* -> onStop

RpcEnv 

RpcEnv对应actor例子中的ActorSystem,注册并维护RpcEndpoint和RpcEndpointRef

主要方法为setupEndpoint,用法上对应例子中ActorSystem的actorOf方法,用于注册RpcEndpoint,内部使用Dispatcher维护注册的RpcEndpoint,也提供了多种获取RpcEndpointRef的方法,如asyncSetupEndpointRefByURI、setupEndpointRefByURI和setupEndpointRef,以及移除RpcEndpoint的方法stop,关闭RpcEnv的方法shutdown,其还维护了RpcEnvFileServer,用于上传下载jar和file。最后,实例化RpcEnv时,需指定是server模式还是client(默认是server),server模式下底层启动netty

RpcEndpointRef 
RpcEndpointRef对应actor例子中的ActorRef,是对远程RpcEndpoint的一个引用,向对应的RpcEndpoint发送信息,
主要方法sendask,send方法只发送信息,ask方法发送信息的同时接受返回值,

你可能感兴趣的:(Spark RPC接口和Scala Actor简介)