thriftpy初体验

目前有这么一个需求:线上有很多个爬虫程序,它们在数据清洗完成后都要做文本情感分析。以往同学的做法是在每个爬虫中把相同代码都Copy一份,但是考虑到这样会让项目维护变得极其困难,所以在重构的使用考虑以基础服务的方式提供情感分析模块。thrift是Facebook开源的一套跨语言服务调用RPC,用它便可以进行某些功能模块的服务化,thriftpy是饿了么开源的thrift协议的纯Python实现。由于它的使用更加符合Python的编码习惯,对Pythoneer更友好,所以在刚接触thrift的时候我选择了后者。

在thriftpy的example中,我们可以看到大量使用demo。首先我们来看一个最简单的例子pingpong

pingpong.thrift

service PingService {
    string ping(),
}

该文件的作用是描述服务接口,形式采用C语言的语法,所有基本类型(如上述文件的string)如下

bool:布尔类型(true or value),占一个字节
byte:有符号字节
i16:16位有符号整型
i32:32位有符号整型
i64:64位有符号整型
double:64位浮点数
string:未知编码或者二进制的字符串

比如,我定义一个需要带参数的接口,就该这样

service AargsPingService {
   string ping(1:string ping);
}

除了同步调用以外,还可以采用异步调用的方式,我们也需要在.thrift文件中进行定义,比如我想定义一个异步调用,且返回内容的方法

service Sleep {
    oneway void sleep(1: i32 seconds)
}

可以看到,我们加了关键词oneway

我们再来看看如何编写thriftpy的服务端代码,还是以最简单的ping为例进行说明
ping_server.py

# 导入thriftpy提供的接口
import thriftpy
from thriftpy.rpc import make_server
pp_thrift = thriftpy.load("pingpong.thrift", module_name="pp_thrift")

# 实现.thrift文件定义的接口
class Dispatcher(object):
    def ping(self):
        print("ping pong!")
        return 'pong'

def main():
    # 定义监听的端口和服务
    server = make_server(pp_thrift.PingService, Dispatcher(),
                         '127.0.0.1', 6000)
    print("serving...")
    server.serve()
if __name__ == '__main__':
    main()

如果我们要同时提供多个服务呢?比如PingServiceAargsPingService。这个时候需要建立多个.thrift文件,可以参考multiplexer 。

我们再来看看客户端代码怎么写。
ping_client.py

import thriftpy
from thriftpy.rpc import client_context
# 读入thrift文件,module_name最好与server端保持一致,也可以不保持一致
pp_thrift = thriftpy.load("pingpong.thrift", module_name="pp_thrift")
def main():
    with client_context(pp_thrift.PingService, '127.0.0.1', 6000) as c:
        pong = c.ping()
        print(pong)
if __name__ == '__main__':
    main()

如果一个服务比较耗时,但是我们需要同步拿到返回结果,那么怎么办?这个时候需要注意客户端调用超时thriftpy的默认超时时间是3秒,我们可以通过修改客户端的socket_timeconnect_time来进行设置

with client_context(pp_thrift.PingService, '127.0.0.1', 6000, socket_timeout=10 * 1000, connect_timeout=10*1000) as c:


此外,由于thriftpy默认的server是单进程的,为了充分利用CPU资源,eleme又开源了一个多进程的server gunicorn_thrift。需要单独通过

pip install gunicorn_thrift

此外还需要注意一点,在Python3中,只支持 多进程同步模型,也就是需要在gunicorn_config.py修改

worker_class = "thriftpy_gevent"

worker_class = "thriftpy_sync"。Python2中是支持协程的。

你可能感兴趣的:(thriftpy初体验)