hive的差集运算该如何实现

集合A和B,求解A-B

采用A LEFT OUTER JOIN B

示例如下

    A                                         B

    1  a                                     1               11

    2   b                                   3               33

 A  LEFT OUTER JOIN B ->C

        C

        1    a     1        11

        2   b    null   null

另外补充:数据库优化

 

若表D100条记录,表E10条记录

两个表做连接,  记录少的 join 记录条数多的

因为表B 要放入内存。要求记录数少一些。

 

 

你可能感兴趣的:(hive的差集运算该如何实现)