关于oozie使用的一些坑

楼主主要是在hue上面配置oozie任务,在这里记录一下遇到的一些问题

  1. hue用户权限的问题
    配置一些hive或者shell脚本的impala任务时,会使用hue登录的用户执行,所以会造成一些权限的问题,hue的用户和linux的用户并不是相同的,牵扯到权限的问题在这里先不多说了。
  2. oozie任务一直无法提交到yarn,程序一直处于运行状态
    这个问题来的莫名其妙,之前还是能好好使用的,突然就出现这种情况,之后让大佬查看,大佬说是因为/tmp/filecache 文件夹不存在,导致oozie任务找不到运行的临时文件夹。但是在我后来的使用中发现在没有这个文件夹的情况下任务也能照常运行,原因也不清楚,如果有知道的大佬还请留言告知。
  3. 配置任务参数
    如果是手写配置文件的大佬,应该对这个很熟悉,在这主要是给我这种做配置的小白提示一下,使用${参数}配置,网上关于参数的文章较少,目前找到一篇能用的,oozie的参数体系。
  4. 更新脚本或程序
    如果是脚本.sql或者.sh的,要想更新可以直接在hdfs上面进行修改,hue修改文件还是很方便的。如果是jar包,一定要先将oozie工作空间里的jar包删掉,然后替换掉hdfs上面的jar包即可。因为oozie在调用jar包时会将jar包复制一份便于移动到某一节点上执行,所以在更新时发现工作空间已经有了就不会再复制,即使你更新hdfs的他还是会调用旧jar包。
  5. workflow包含多个jar包
    如果一个workflow里面有多个jar包的话,oozie在运行时会将这些jar包包含的文件集中在一起,(我感觉这个操作是真的秀555555)如果有同名的配置文件或者类名就会出现调用混乱的情况,我就是有一次任务一会成功一会失败,失败时是配置信息不对,搞的我整个人都懵了。
  6. coordinators任务的设置
    设置coordinators任务时,启动时间一定要从当前启动,如果是更新的话一定要记得修改,因为他是从启动时间开始算任务运行的时间节点,如果发现启动时间不是现在而是之前很久的时间,就认为漏执行任务了,他就会疯狂提交,疯狂的运行任务,直至到下一个时间点为止。
    最后吐槽一下oozie的配置界面,真是太难用了,特别是配置多个并行任务时,一下整个UI都乱了,稍有不对配错了再重来,但是配单个任务又显得冗余,难以管理。
    目前小白的我只是简单用了这个东西就有这么多的问题,有些问题的理解还有一些片面,如果有大佬遇到其他问题或者对这些问题有不同的看法,欢迎留言交流!

你可能感兴趣的:(oozie)