Spark之SQL高级知识分享二(DataSource+Tuling+CustomDataSource)
1.DataSource1.1传统的ETL数据操作弊端如上图,传统的方式如MR、Hive、Sparkcore方式进行数据ETL操作有如下弊端:弊端一:若涉及数据格式的转换,则代码或sql相关的逻辑就得重写。弊端二:若数据的来源非常多样化,混杂,则实现起来就更加麻烦了。基于这种情况,Spark1.2诞生了ExternalDataSources,使用它我们可以非常的方便将外部数据源转换成DF或DS以及