Spark——Spark/Hive向量化查询执行原理分析(Vectorization Query Execution)
文章目录什么是向量化查询执行列式存储Spark向量化查询执行Hive向量化查询执行参考什么是向量化查询执行在标准的查询执行系统中,每次只处理一行数据,每次处理都要走过较长的代码路径和元数据解释,从而导致CPU使用率非常低。而在向量化查询执行中,每次处理包含多行记录的一批数据,每一批数据中的每一列都会被存储为一个向量(一个原始数据类型的数组),这就极大地减少了执行过程中的方法调用、反序列化和不必要的