工作中实战技术总结

工作的实战中,经常也会遇到一些技术性的问题,苦于每次当时觉得学到了,可是没有做记录,导致后期只能再通过搜索引擎查询一遍,保持随手记是一个非常重要的习惯。

2018年05月17日 关于Spark参数配置

1、关于集群上的资源设置的问题
工作中实战技术总结_第1张图片
这几个参数的含义,需要彻底的搞清楚
工作中实战技术总结_第2张图片
占用资源从哪里查看?
  • 朱suggestion:

集群现在CPU是没利用起来的,大家后面可以把内存稍微给大,然后CPU给大点,任务数给小点,这样速度也不会慢。不要只给大内存,然后CPU给很小

2、搜索结果

美团的官方网站给出的调优的参数

阿里云官网给出的参数的含义及建议

工作中实战技术总结_第3张图片
官网参数的部分截图

反复看完美团的文章,知道了什么叫CPU核数,什么叫内存,以及drive的作用是什么。但是存在一个疑问:num-executors 参数(任务数),实战过程中,如果这个参数不加,会导致集群资源被全部占用。但是参考文档给出 的结论是如果没有设置的话,启动的任务数会非常的少,会导致集群spark的运行速度超级慢。

这一点说实话不是非常的理解:因为对于这个任务数,具体要设置多少个大家并没有一个统一的合理的标准,设置为1的话,本身将也会导致spark运行速度超级慢,那这个与不设置这个参数有什么区别?而且不设置导致的占用了全部的集群的资源是什么原因?如何解释?

3、得出结论:

收获: 关于什么叫内存,什么叫任务数 ,什么叫CPU core都有了一个蛮清晰的认识。

疑问
* 如何查看在yarn上跑的任务占集群的资源?
* 如何对于集群的参数进行合理的定制化的调优?
* num-executors 如何影响了集群整个资源?设置数量的大小?如何导致Spark 运行速度变慢?

关于这些参数更形象的认识以及调优的大小,还需要在实战的过程中根据集群真实的环境来决定。


2018年05月17日 关于MySQL中函数的使用
1、常用MySQL函数
工作中实战技术总结_第4张图片
impala 的date_sub的内部格式的截图
date_format(`date`,`Y%m%d%H%i%s%`)  几个格式为:yyyy-mm-dd  hh24:mi:ss 的格式,如果有其他的需求,可在Dash里面查询API文档。

date_add(`date`,INTERVAL `expr` `unit`) and date_sub(`date`,INTERVAL `expr` `unit`)
注意: mysql date_add('date',interval 12 DAY/HOUR)  impala date_add('date',interval 12 DAYS/HOURS)

substr(`str`,`pos`,`len`)= substring

注意: mysql 中并没有 trunc 到当日零点的函数,需要使用concat(substring('字符',1,10),' 00:00:00') ,可以使用替换的方式来实现。
2、
3、

2018年05月19日
1、
2、
3、

2018年05月19日
1、
2、
3、

2018年05月19日

2018年05月19日
1、
2、
3、

2018年05月19日
1、
2、
3、

你可能感兴趣的:(工作中实战技术总结)