spark自定义函数

1.使用java,scala或者python等都可以编写自定义函数,编写完成后通过spark.udf函数注册即可使用
2.spark也支持hive自定义函数,使用类似create temporary function 函数名 as ‘’ 来注册自定义函数
3.自定义函数的执行逻辑: spark将在驱动器节点上序列化该函数,并把他通过网络发送到执行进程,然后执行进程就可以使用该自定义函数的方法执行具体逻辑
4.使用java和scale编写的自定义函数和使用python编写的自定义函数的区别在于性能上的差别:使用java/scala编写的自定义函数可以直接运行在执行进程的jvm中,而使用python编写的自定义函数要运行在python进程中,然后把结果返回给执行进程。

你可能感兴趣的:(大数据,spark)