2月4日学习记录

1,背诵单词:elevator:电梯   feature:特征   handsome:英俊的   empire:帝国   mate:伙伴,同事   fiction:小说   lip:嘴唇   election:当选   lifetime:一生,寿命

  govern:统治   expectation:期待   lay:放置   towel:毛巾   transparent:透明的   reality:现实  recognize:认出   temptation:诱惑   typical:典型的   submarine:潜艇

2,学习spark视频:https://www.bilibili.com/video/av62881491      第50到58集

 新添内容到博客:https://www.cnblogs.com/lq13035130506/p/12239342.html 

  2,操作RDD:

    只有到动作类型操作才会进行计算,转换类型操作只会记录

 

    2月4日学习记录_第1张图片

    2月4日学习记录_第2张图片

 

     2月4日学习记录_第3张图片

 

   3,RDD持久化

     每遇到一次动作操作就会从头到尾计算一次RDD,生成一个job;如果需要前一次的动作操作生成的值,则需要将生成的值缓存

    RDD持久化方法:调用.persist()方法对一个RDD标记为持久化,但不会真正持久化;等遇到下一次动作操作就会真正持久化

    会将值存入内存;当内存不足,则替换之前内存存的值 

    RDD.persist(MEMORY_ONLY)<=>RDD.cache()

 

     将值存入内存,当内存不足,会将存不下的值存入磁盘

   4,RDD分区:增加程序的并行度实现分布式的计算;减少通信开销;与hdfs的分块不一样

      分区原则:

      2月4日学习记录_第4张图片

 

       默认分区命令:如果设置local【n】,则分区为n;Apache  Mesos模式会默认设置分区为8;standalone和yarn模式设置时,当集群中所有CPU数为n;与另一个?(是什么)比较,值最大的设置为分区数

      2月4日学习记录_第5张图片

      2月4日学习记录_第6张图片

 

   3,键值对RDD:

      2月4日学习记录_第7张图片

 

 

3,遇到的问题:学习RDD分区操作,听得不太懂

4,明天计划继续学习Spark和学习爬取动态数据

你可能感兴趣的:(2月4日学习记录)