如何删掉rdd中的某几行数据?

首先,若能想到这个问题,说明你就在思考。回到问题本质,rdd是弹性分布式数据集,其定义是什么,不做赘述。若真想完成删除rdd的某几行数据,那就使用filter函数,自己写函数,将不符合条件的行过滤掉即可!

下面我提供一个思路(pyspark代码)

delcomments = ["嗯嗯嗯嗯", "啦啦啦", "买买买买"]
def delcom(line):
    for i in delcomments:
        if i in line:
            return 1
    return 0

comment = comment.filter(lambda line: delcom(line) != 1)

 

你可能感兴趣的:(如何删掉rdd中的某几行数据?)