2020的咸鱼翻身之路

2020年了,终于也到了30觉得是应该努力一下了。目前在学习机器学习中,记录一下今年的成长之路吧。

2020.01.01 今天学习了pyspark,了解了一些关于RDD和DataFrame的操作,在此总结下:

1. 首先导入包和初始化:    
    from pyspark import SparkConf, SparkContext
    conf = SparkConf().setMaster('local').setAppName('CustomerAnalysis')
    sc = SparkContext(conf = conf)

里面的一些参数没有具体细查,不过从字面上理解的话就是设置本地和APPname的意思应该。

2 读取相应的文件:
rdd = sc.textFile('../data/xxxx.csv')

这样我们就创建了一个RDD类出来了。下面就是对这个类的一系列操作。

3 rdd的一系列操作:

take取出前几列
rdd.take(3)           #取出前三行

map(f)函数为每一行应用f函数
rdd.map(f)     # map是一个非常重要的函数使用下来他可以直接删选col是非常使用的,因为rdd的很多方法只接受单列或者(k,v)的结构map就能够很好的删选

reduceByKey()需要2个输入貌似,毕竟最后还是进行的reduce操作
reduceByKey(lambda x,y:x+y)     #reduceByKey是根据key进行value的reduce(df.groupby('key').sum())


filter函数,删选

sortBy函数 排序
sortBy(lamdba x:x[1], ascending=False)

count计算函数 传入的是单列
count()

传入PAIR RDD
countByKey()

你可能感兴趣的:(机器学习,数据挖掘)