自从2017年12月1日发布spark-2.2.1以来,已有3个月时间。
2018年2月28日,spark官方发布了一个大版本Spark-2.3.0,解决了1399个大大小小的问题。
今天,我们很高兴地宣布Databricks上的Apache Spark 2.3.0作为其Databricks Runtime 4.0的一部分。我们要感谢Apache Spark社区为Spark 2.3发布所做的所有重要贡献。
继续实现使Spark更快,更轻松,更智能的目标,Spark 2.3通过引入低延迟连续处理和流到流连接标志着结构化数据流的一个重要里程碑; 通过改善熊猫UDF的性能来提升PySpark; 并通过为Apache Spark应用程序提供本机支持而在Kubernetes群集上运行。
除了将新功能扩展到SparkR,Python,MLlib和GraphX之外,该版本还着重于可用性,稳定性和改进,解决了1400多张票。Spark贡献者的其他显着特征包括:
在本篇博文中,我们简要总结了一些高级功能和改进,并且在未来几天中,我们将针对这些功能发布深度博客。有关Spark组件和JIRA的主要功能的完整列表,请阅读Spark 2.3发行说明。
Apache Spark 2.0中的结构化流式传输将微型批处理与其高级API分离,原因有两个。首先,它使开发人员对API的使用体验更简单:API不必考虑微批次。其次,它允许开发人员将流视为一个无限表,他们可以发出查询,就像他们将静态表一样。
但是,为了向开发人员提供不同的流处理模式,我们引入了一种新的毫秒级低延迟模式:连续模式。
在引擎盖下,结构化的流引擎逐步执行微批中的查询计算,由触发间隔决定,并具有适合大多数真实世界流应用程序的可容忍延迟。
对于连续模式,流式读取器连续轮询源数据和处理数据,而不是按指定的触发时间间隔读取一批数据,而不是执行微批处理。通过不断查询源和处理数据,新的记录在到达时立即处理,如下面的时间线图所示,将等待时间缩短到毫秒并满足低等待时间要求。
至于操作,目前支持地图状数据集操作,如投影或选择和SQL函数,用外current_timestamp()
,current_date()
和聚合函数。除了支持Apache Kafka作为源和宿,连续模式当前也支持控制台和内存。
现在,开发人员可以根据延迟要求选择模式连续或微量批处理,以大规模构建实时流式传输应用程序,同时受益于结构化流式处理引擎提供的容错和可靠性保证。
总之,Spark 2.3中的连续模式是实验性的,它提供了以下内容:
在未来的日子里,我们将发布一个关于连续模式的更深入的技术博客。同时,您可以阅读其相应的JIRA [ SPARK 20928 ]了解详情。
尽管Spark 2.0中的结构化数据流支持流数据帧/数据集和静态数据集之间的连接,但此版本引入了期待已久的流到流连接,包括用于众多实时用例的内连接和外连接。
加入两个流的典型用例是广告收益。举例来说,印象流和广告点击流共享一个公共密钥(比如说,即AdID)和相关资料上,您希望进行流分析,比如,它的AdID带来了点击。
虽然概念上这个想法很简单,但是流到流连接解决了一些技术难题。例如,他们:
在即将发布的技术博客中,我们将深入探讨流到流的连接。
毫不奇怪,两个流行的开源项目Apache Spark和Kubernetes结合了它们的功能和实用程序来提供大规模的分布式数据处理和编排。在Spark 2.3中,用户可以利用新的Kubernetes调度程序后端在Kubernetes集群上本地启动Spark工作负载。这有助于通过使Spark工作负载与其他类型的工作负载共享Kubernetes集群来实现更好的资源利用率和多租户性能。
此外,Spark可以使用所有管理功能,例如资源配额,可插入授权和日志记录。更重要的是,创建Docker镜像和设置RBAC以开始为您的Spark工作负载使用现有Kubernetes集群一样简单。
请继续关注一个技术博客,它将阐述这个主要的社区活动是如何构建的。
熊猫UDF也称为矢量化UDF,是PySpark性能的主要推动力。它构建在Apache Arrow的基础上,为您提供两全其美的解决方案 - 定义低开销,高性能的UDF并完全用Python编写的能力。
在Spark 2.3中,有两种类型的Pandas UDF:标量和分组映射。两者现在均可在Spark 2.3中使用。两西格玛的李进曾写过一篇较早的博客,通过四个例子来解释他们的用法:加一,累积概率,减去平均值,普通最小二乘线性回归。
运行一些微型基准测试,熊猫UDF的性能比行时UDF提供更好的性能。
据李进和其他贡献者称,他们计划在聚合和窗口功能中引入对熊猫UDF的支持,其相关工作可以在SPARK-22216中进行跟踪。
Spark 2.3包含许多针对算法和功能,性能和可扩展性以及可用性的MLlib改进。我们提到三个亮点。
首先,为了将MLlib模型和管道移动到生产环境,现在拟合的模型和管道可以在结构化流式处理作业中使用。一些现有的管道将需要修改才能在流式作业中进行预测,因此请查看即将发布的有关迁移技巧的博客文章。
其次,为了实现许多Deep Learning图像分析用例,Spark 2.3引入了用于在Spark DataFrame中表示图像的ImageSchema [SPARK-21866],以及用于从常用格式加载图像的实用程序。
最后,对于开发人员来说,Spark 2.3引入了改进的Python中的API来编写自定义算法,其中包括UnaryTransformer
用于编写简单的自定义功能变换器和用于自动执行ML持久性以保存和加载算法的实用程序。有关详细信息,请参阅此博文。
我们再一次感谢Spark社区的所有贡献!
尽管此博客文章仅概述了此版本中的一些显着特性,但您可以阅读正式版本说明以查看完整的更改列表。敬请期待,因为我们将发布技术博客,解释其中的一些功能。
如果您想在Databricks Runtime 4.0中尝试Apache Spark 2.3。在这里注册免费试用帐户
Sub-task
· [ SPARK-9104 ] - 公开网络层内存使用情况
· [ SPARK-10365 ] - 支持Parquet逻辑类型TIMESTAMP_MICROS
· [ SPARK-11034 ] - 启动器:添加对监控Mesos应用程序的支持
· [ SPARK-11035 ] - 启动器:允许应用程序在进程中启动
· [ SPARK-12375 ] - VectorIndexer:允许未知类别
· [ SPARK-13534 ] - 为DataFrame.toPandas中的Spark DataFrame使用Apache Arrow序列化程序
· [ SPARK-13969 ] - 扩展哈希功能可以处理的输入格式
· [ SPARK-14280 ] - 更新change-version.sh和pom.xml以添加Scala 2.12配置文件
· [ SPARK-14650 ] - 为Scala 2.12编译SparkREPL
· [ SPARK-14878 ] - 支持字符串修剪功能中的修剪字符
· [ SPARK-17074 ] - 为列生成等高直方图
· [ SPARK-17139 ] - 为MultinomialLogisticRegression添加模型摘要
· [ SPARK-17642 ] - 支持DESC FORMATTED TABLE COLUMN命令以显示列级统计信息
· [ SPARK-17729 ] - 启用创建蜂巢分段表
· [ SPARK-18016 ] - 代码生成:用于宽/嵌套数据集的常量池过去限制
· [ SPARK-18294 ] - 实现提交协议来支持`mapred`包的提交者
· [ SPARK-19165 ] - UserDefinedFunction应验证调用参数并在不匹配的情况下提供可读的异常
· [ SPARK-19357 ] - ML调整的并行模型评估:Scala
· [ SPARK-19634 ] - MLlib中描述性统计的功能奇偶性
· [ SPARK-19762 ] - 实施汇总/损失函数层次并应用于线性回归
· [ SPARK-19791 ] - 为fpgrowth添加文档和示例
· [ SPARK-20396 ] - groupBy()。apply()和pandasudf在pyspark
· [ SPARK-20417 ] - 将错误报告从分析器移动到CheckAnalysis
· [ SPARK-20585 ] - R通用提示支持
· [ SPARK-20641 ] - 用于存储应用程序数据的键值存储抽象和实现
· [ SPARK-20642 ] - 使用键值存储来保留History Server应用程序列表
· [ SPARK-20643 ] - 实现在键值存储中保存应用程序状态数据的监听器
· [ SPARK-20644 ] - 将Spark UI连接到新的键值存储后端
· [ SPARK-20645 ] - 使环境页面使用新的应用程序状态存储
· [ SPARK-20646 ] - 使执行程序页面使用新的应用程序状态存储
· [ SPARK-20647 ] - 使存储页面使用新的应用程序状态存储
· [ SPARK-20648 ] - 使作业和阶段页面使用新的应用程序状态存储
· [ SPARK-20649 ] - 简化REST API类层次结构
· [ SPARK-20650 ] - 删除JobProgressListener(和其他不需要的类)
· [ SPARK-20652 ] - 使SQL UI使用新的应用程序状态存储
· [ SPARK-20653 ] - 将旧元素的自动清理添加到新的应用程序状态存储中
· [ SPARK-20654 ] - 添加控制SHS可以使用多少磁盘
· [ SPARK-20655 ] - 内存中键值存储实现
· [ SPARK-20657 ] - 加快舞台页面
· [ SPARK-20664 ] - 从SHS列表中删除陈旧的应用程序
· [ SPARK-20727 ] - 在CRAN Windows机器上丢失Hadoop winutil时跳过SparkR测试
· [ SPARK-20748 ] - 内置SQL函数支持 -CH [A] R
· [ SPARK-20749 ] - 内置SQL函数支持 -LEN [GTH]的所有变体
· [ SPARK-20750 ] - 内置SQL函数支持 -REPLACE
· [ SPARK-20751 ] - 内置SQL函数支持 -COT
· [ SPARK-20754 ] - 为MOD / TRUNCT / POSITION添加功能别名
· [ SPARK-20770 ] - 改进ColumnStats
· [ SPARK-20783 ] - 增强ColumnVector以支持压缩表示
· [ SPARK-20791 ] - 使用Apache箭头从Pandas.DataFrame改进Spark createDataFrame
· [ SPARK-20822 ] - 生成代码以在ColumnarBatch中从CachedBatchColumnVector获取值
· [ SPARK-20881 ] - 清楚地记录在两个统计来源之间进行选择的机制
· [ SPARK-20909 ] - 内建SQL函数支持 -DAYOFWEEK
· [ SPARK-20910 ] - 内建SQL函数支持 -UUID
· [ SPARK-20931 ] - 内置SQL函数ABS支持字符串类型
· [ SPARK-20948 ] - 内置SQL函数UnaryMinus/ UnaryPositive支持字符串类型
· [ SPARK-20961 ] - 在ColumnVector中概括字典
· [ SPARK-20962 ] - 支持FROM子句中的子查询列别名
· [ SPARK-20963 ] - 在FROM子句中支持别名关系的列别名
· [ SPARK-20988 ] - 将逻辑回归转换为新的聚合器框架
· [ SPARK-21007 ] - 添加SQL函数 - 右和左
· [ SPARK-21031 ] - 添加`alterTableStats`来存储spark的统计信息并让`alterTable`保留现有的统计信息
· [ SPARK-21046 ] - 简化ColumnVector中的数组偏移和长度
· [ SPARK-21047 ] - 为ColumnarBatchSuite中的复杂案例添加测试套件
· [ SPARK-21051 ] - 将哈希映射度量值添加到聚合中
· [ SPARK-21052 ] - 添加哈希映射指标以加入
· [ SPARK-21083 ] - 分析空表后存储零大小和行数
· [ SPARK-21087 ] - CrossValidator,TrainValidationSplit在拟合时应该收集所有模型:Scala API
· [ SPARK-21127 ] - 更新数据更改命令后的统计信息
· [ SPARK-21180 ] - 由于我们已经在LogicalPlan中进行了配置,因此从stats函数中删除conf
· [ SPARK-21190 ] - SPIP:Python中的矢量化UDF
· [ SPARK-21205 ] - pmod(number,0)应该为空
· [ SPARK-21213 ] - 支持收集分区级统计信息:rowCount和sizeInBytes
· [ SPARK-21237 ] - 表格数据更改后使统计数据失效
· [ SPARK-21322 ] - 支持过滤器基数估计中的直方图
· [ SPARK-21324 ] - 改进统计测试套件
· [ SPARK-21375 ] - 为toPandas()集合的ArrowConverters添加日期和时间戳支持
· [ SPARK-21440 ] - 重构ArrowConverters并添加ArrayType和StructType支持。
· [ SPARK-21456 ] - 使驱动程序failover_timeout可配置(Mesos群集模式)
· [ SPARK-21552 ] - 为ArrowWriter添加十进制类型支持。
· [ SPARK-21625 ] - 向DOC添加不兼容的HiveUDF
· [ SPARK-21654 ] - 补充谓词表达式描述
· [ SPARK-21671 ] - 将kvstore包移到util.kvstore,添加注释
· [ SPARK-21720 ] - 用许多条件筛选谓词抛出stackoverflow错误
· [ SPARK-21778 ] - Scala / Java中更简单的Dataset.sample API
· [ SPARK-21779 ] - Python中更简单的Dataset.sample API
· [ SPARK-21780] - R中的更简单的数据集.Sample API
· [ SPARK-21893 ] - 将卡夫卡0.8放在配置文件后面
· [ SPARK-21895 ] - 支持在HiveClient中更改数据库
· [ SPARK-21934 ] - 通过指标系统公开Netty内存使用情况
· [ SPARK-21984 ] - 在连接估算中使用直方图统计
· [ SPARK-22026 ] - 数据源v2写入路径
· [ SPARK-22032 ] - 加快StructType.fromInternal
· [ SPARK-22053 ] - 以追加模式实现流式内部连接
· [ SPARK-22078 ] - 阐明所有数据源v2接口的异常行为
· [ SPARK-22086 ] - 为CASE WHEN添加表达式描述
· [ SPARK-22087 ] - 清除2.12的剩余编译错误; 解决大部分警告
· [ SPARK-22100 ] - 使percentile_approx支持日期/时间戳类型,并将输出类型更改为与输入类型相同
· [ SPARK-22128 ] - 将paranamer更新为2.8以避免BytecodeReadingParanamer ArrayIndexOutOfBoundsException与Scala 2.12 + Java 8 lambda
· [ SPARK-22136 ] - 以追加模式实现流式流外部连接
· [ SPARK-22197 ] - 在规划之前将运营商推下数据源
· [ SPARK-22221 ] - 添加用户文档以在Spark中使用Arrow
· [ SPARK- 22226] - splitExpression可能会创建太多的方法调用(生成一个常量池限制错误)
· [ SPARK-22278 ] - 在GroupState中公开当前事件时间水印和当前处理时间
· [ SPARK-22285 ] - 将ApproxCountDistinctForIntervals的实现更改为TypedImperativeAggregate
· [ SPARK-22310 ] - 重构连接估计,为不同种类的统计信息合并估计逻辑
· [ SPARK-22322 ] - 更新FutureAction以与Scala 2.12未来兼容
· [ SPARK-22324 ] - 将Arrow升级到版本0.8.0并将Netty升级到4.1.17
· [ SPARK-22361 ] - 为Window Frames添加单元测试
· [ SPARK-22363 ] - 为窗口溢出添加单元测试
· [ SPARK-22387 ] - 将会话配置传播到数据源读/写选项
· [ SPARK-22389 ] - 分区报告
· [ SPARK-22392 ] - 柱状阅读器界面
· [ SPARK-22400 ] - 重命名一些API和类,使其含义更清晰
· [ SPARK-22409 ] - 将函数类型参数添加到pandas_udf
· [ SPARK-22452 ] - DataSourceV2Options应该有getInt,getBoolean等。
· [ SPARK-22475 ] - 在DESC COLUMN命令中显示直方图
· [ SPARK-22483 ] - 将java.nio bufferedPool内存度量公开给度量系统
· [ SPARK-22494 ] - 合并和AtLeastNNonNulls可能导致64KB JVM字节码限制异常
· [ SPARK-22498 ] - concat 64KB JVM字节码限制问题
· [ SPARK-22499 ] - 最小和最大的64KB JVM字节码限制问题
· [ SPARK-22500 ] - 64KB JVM字节码限制问题
· [ SPARK-22501 ] - 64KB JVM字节码限制问题
· [ SPARK-22508 ] -GenerateUnsafeRowJoiner.create()中64KB JVM字节码限制问题
· [ SPARK-22514 ] - 将ColumnVector.Array和ColumnarBatch.Row移动到单个文件
· [ SPARK-22515 ] - 根据numRows * rowSize估计关系大小
· [ SPARK-22529 ] - 关系统计应该与基于cbo config的其他计划保持一致
· [ SPARK-22530 ] - 添加ArrayType支持使用Pandas和Arrow
· [ SPARK-22542 ] - 删除ColumnarBatch中未使用的功能
· [ SPARK-22543 ] - 为深度嵌套表达式修复java 64kb编译错误
· [ SPARK-22549 ] - concat_ws有 64KB JVM字节码限制问题
· [ SPARK-22550 ] - elt的64KB JVM字节码限制问题
· [ SPARK-22570 ] - 创建大量全局变量以在生成的代码中重用对象
· [ SPARK-22602 ] - 删除ColumnVector#loadBytes
· [ SPARK-22603 ] - FormatString的64KB JVM字节码限制问题
· [ SPARK-22604 ] - 从ColumnVector中删除获取地址方法
· [ SPARK-22626 ] - 如果启用CBO,错误的Hive表统计信息可能会触发OOM
· [ SPARK-22643 ] - ColumnarArray应该是不可变的视图
· [ SPARK-22646 ] - Kubernetes上的Spark - 基本提交客户端
· [ SPARK-22648 ] - Kubernetes调度程序后端的文档
· [ SPARK-22652 ] - 删除ColumnarRow中的设置方法
· [ SPARK-22669 ] - 在代码生成过程中避免不必要的函数调用
· [ SPARK-22693 ] - 避免在complexTypeCreator和谓词中产生无用的可变状态
· [ SPARK-22695 ] - 避免scalaUDF产生无用的可变状态
· [ SPARK-22696 ] - 避免由对象函数产生无用的可变状态
· [ SPARK-22699 ] - 避免GenerateSafeProjection产生无用的可变状态
· [ SPARK-22703 ] - ColumnarRow应该是不可变的视图
· [ SPARK-22716 ] - 避免在addReferenceObj中创建可变状态
· [ SPARK-22732 ] - 添加DataSourceV2流媒体API
· [ SPARK-22733 ] - 重构StreamExecution以实现可扩展性
· [ SPARK-22745 ] - 从Hive读取分区统计信息
· [ SPARK-22746 ] - 避免SortMergeJoin产生无用的可变状态
· [ SPARK-22750 ] - 介绍可重复使用的可变状态
· [ SPARK-22757 ] - 驱动程序/执行程序窗口中的 Init-container用于下载远程依赖项
· [ SPARK-22762 ] - IfCoercion和CaseWhenCoercion的基本测试
· [ SPARK-22772 ] - elt应该使用splitExpressionsWithCurrentInputs来拆分表达式代码
· [ SPARK-22775 ] - 将字典相关的API从ColumnVector移动到WritableColumnVector
· [ SPARK-22785 ] - 将ColumnVector.anyNullsSet重命名为hasNull
· [ SPARK-22789 ] - 为连续处理查询添加ContinuousExecution
· [ SPARK-22807 ] - 将配置选项更改为使用“容器”而不是“docker”
· [ SPARK-22816 ] - PromoteStrings和InConversion的基本测试
· [ SPARK-22821 ] - 针对WidenSetOperationTypes,BooleanEquality,StackCoercion和Division的基本测试
· [ SPARK-22822 ] - WindowFrameCoercion和DecimalPrecision的基本测试
· [ SPARK-22829 ] - 添加新的内置函数date_trunc()
· [ SPARK-22845 ] - 修改spark.kubernetes.allocation.batch.delay以取代int
· [ SPARK-22848 ] - 避免Stack函数产生无用的可变状态
· [ SPARK-22890 ] - DateTimeOperations的基本测试
· [ SPARK-22892 ] - 通过使用double而不是decimal来简化一些估计逻辑
· [ SPARK-22904 ] - 小数运算和字符串转换的基本测试
· [ SPARK-22908 ] - 添加基本的连续kafka源文件
· [ SPARK-22909 ] - 将结构化Streaming v2 API移动到流媒体包
· [ SPARK-22912 ] - 在MicroBatchExecution中支持v2流媒体源和接收器
· [ SPARK-22917 ] - 不应尝试为空/空列生成直方图
· [ SPARK-22930 ] - 改进对非确定性案例的矢量化UDF的描述
· [ SPARK-22978 ] - 为SQL语句注册矢量化UDF
· [ SPARK-22980 ] - 输入不是熊猫系列或数据帧时使用pandas_udf
· [ SPARK-23033 ] - 禁用任务级重试,以便连续执行
· [ SPARK-23045 ] - RFormula使用OneHotEncoderEstimator
· [ SPARK-23046 ] - 让RFormula在管道中包含VectorSizeHint
· [ SPARK-23047 ] - 在ArrowColumnVector中将MapVector更改为NullableMapVector
· [ SPARK-23052 ] - 将Microbatch ConsoleSink迁移到v2
· [ SPARK-23063 ] - 发布spark-kubernetes包的变化
· [ SPARK-23064 ] - 为流式流连接添加文档
· [ SPARK-23093 ] - 不要修改运行ID
· [ SPARK-23107 ] - ML,图2.3 QA:API:新的Scala APIs,文档
· [ SPARK-23108 ] - ML,图2.3 QA:API:Experimental,DeveloperApi,最终密封审核
· [ SPARK-23110 ] - ML 2.3 QA:API:Java兼容性,文档
· [ SPARK-23111 ] - ML,图2.3 QA:更新新功能和API的用户指南
· [ SPARK-23112 ] - ML,图2.3 QA:编程指南更新和迁移指南
· [ SPARK-23116 ] - SparkR 2.3 QA:更新新功能和API的用户指南
· [ SPARK-23118 ] - SparkR 2.3 QA:编程指南,迁移指南,短片更新
· [ SPARK-23137 ] -spark.kubernetes.executor.podNamePrefix被忽略
· [ SPARK-23196 ] - 统一连续和microbatch V2接收器
· [ SPARK-23218 ] - 简化ColumnVector.getArray
· [ SPARK-23219 ] - 将ReadTask重命名为DataReaderFactory
· [ SPARK-23260 ] - 从数据源读写器的类名中删除V2
· [ SPARK-23261 ] - 重命名熊猫UDF
· [ SPARK-23262 ] - 混音接口应该扩展它所要混合的接口
· [ SPARK-23268 ] - 重新整理数据源V2中的软件包
· [ SPARK-23272 ] - 为ColumnVector添加日历间隔类型支持
· [ SPARK-23280 ] - 为ColumnVector添加地图类型支持
· [ SPARK-23314 ] - Pandas将数据集上的udf与时间戳列错误分组
· [ SPARK-23352 ] - 在Pandas UDF中明确指定支持的类型
· [ SPARK-23446 ] - 明确检查toPandas中的支持类型
Bug
· [ SPARK-3151 ] - DiskStore尝试映射任何大小的BlockId而不检查MappedByteBuffer限制
· [ SPARK-3577 ] - 添加任务度量以报告溢出时间
· [ SPARK-3685 ] - Spark的本地dir应该只接受本地路径
· [ SPARK-5484 ] - Pregel应定期检查点以避免StackOverflowError
· [ SPARK-9825 ] - Spark使用本地配置覆盖远程群集“最终”属性
· [ SPARK-11334 ] - numRunningTasks不能小于0,否则会影响执行程序的分配
· [ SPARK-12552 ] - 恢复的驱动程序资源不计入主服务器中
· [ SPARK-12559 ] - 集群模式不适用于--packages
· [ SPARK- 12717] - 使用多个线程时,pyspark广播失败
· [ SPARK-13669 ] - 在外部洗牌服务不可用情况下,作业总是失败
· [ SPARK-13933 ] - hadoop-2.7个人资料的策展人版本应该是2.7.1
· [ SPARK- 13983] - 自1.6版以来,HiveThriftServer2无法获得“--hiveconf”或“--hivevar”变量(包括多会话和单会话)
· [ SPARK-14228 ] - RPC的丢失执行器已解除关联,并发生异常:找不到CoarseGrainedScheduler或已停止
· [ SPARK-14387 ] - 启用Hive-1.x ORC与spark.sql.hive.convertMetastoreOrc的兼容性
· [ SPARK-14408 ] - 更新RDD.treeAggregate不使用reduce
· [ SPARK-14657 ] - 当公式不带截取时,RFormula输出错误的特征
· [ SPARK-15243 ] - Binarizer.explainParam(u“...”)引发ValueError
· [ SPARK-15474 ] - ORC数据源无法写入和读回空数据帧
· [ SPARK-16167 ] - RowEncoder应该保留数组/映射类型的可空性。
· [ SPARK-16542 ] - 关于使用python创建数据框时导致产生null数组的类型的错误
· [ SPARK-16548 ] -java.io.CharConversionException:无效的UTF-32字符阻止我查询数据
· [ SPARK-16605 ] - Spark2.0不能从存储为由配置单元或spark1.6支持的配置单元创建的orc文件中的表中选择数据
· [ SPARK-16628 ] - 如果Metastore模式与ORC文件中存储的模式不匹配,则OrcConversions不应将MetastoreRelation表示的ORC表转换为HadoopFsRelation
· [ SPARK-16986 ] - 历史记录服务器UI中的“已启动”时间,“已完成”时间和“上次更新”时间不是用户本地时间
· [ SPARK-17029 ] - 数据集toJSON通过RDD形式,而不是转换数据集本身
· [ SPARK-17047 ] - Spark 2不能在CLUSTERED时创建表格。
· [ SPARK-17284 ] - 从SHOW CREATE TABLE中删除与统计相关的表属性
· [ SPARK-17321 ] - YARN shuffle服务应该使用yarn.nodemanager.local-dirs
· [ SPARK-17410 ] - 将Hive生成的统计信息移至HiveClientImpl
· [ SPARK-17528 ] - 在保存到InternalRow之前,应正确复制数据
· [ SPARK-17742 ] - Spark Launcher在侦听器中不会失败
· [ SPARK-17788 ] - RangePartitioner导致几个非常大的任务和许多小到空任务
· [ SPARK-17851 ] - 确保催化剂中的所有测试平方都通过checkAnalysis
· [ SPARK-17902 ] - collect()忽略stringsAsFactors
· [ SPARK-17914 ] - Spark SQL将时间戳类型转换为纳秒导致时间戳不正确
· [ SPARK-17920 ] - HiveWriterContainer将空配置传递给serde.initialize,在使用avro.schema.url时在AvroSerde中导致NullPointerException
· [ SPARK-18004 ] - 对于Oracle时间戳类型列,DataFrame过滤器谓词下推失败
· [ SPARK-18061 ] - Spark Thriftserver需要创建SPNego主体
· [ SPARK-18355 ] - Spark SQL无法从ORC配置表格中读取数据,该表格添加了一个新列
· [ SPARK-18394 ] - 在同一行中执行两次相同的查询会导致CodeGenerator缓存未命中
· [ SPARK-18608 ] - Spark ML算法,用于检查内部缓存双缓存数据的RDD缓存级别
· [ SPARK-18646 ] - 用于spark-shell的ExecutorClassLoader不尊重spark.executor.userClassPathFirst
· [ SPARK-18935 ] - 为Spark使用Mesos“DynamicReservation”资源
· [ SPARK-18950 ] - 合并两个StructType时报告冲突字段。
· [ SPARK-19109 ] - ORC元数据部分有时可能超过protobuf邮件大小限制
· [ SPARK-19122 ] - 如果连接谓词排序与分段和排序顺序不同,则添加不必要的shuffle +sort
· [ SPARK-19326 ] - 推测的任务尝试不会在少数情况下启动
· [ SPARK-19372 ] - 包含许多OR条件的Filter谓词的代码生成超过JVM方法大小限制
· [ SPARK-19451 ] - rangeBetween方法应接受Long值作为边界
· [ SPARK-19471 ] - 创建表时出现令人困惑的NullPointerException
· [ SPARK-19531 ] - 历史记录服务器不会刷新像thriftserver这样的长期应用程序的作业
· [ SPARK-19580 ] - 在写入配置单元表时支持avro.schema.url
· [ SPARK-19644 ] - Spark Streaming中的内存泄漏(编码器/ Scala反射)
· [ SPARK-19688 ] - Spark Yarn Credentials文件设置为不同的应用程序目录
· [ SPARK-19726 ] - 使用spark jdbc将空时戳值插入到mysql中
· [ SPARK-19753 ] - 在从设备丢失提取失败的情况下,删除主机上的所有随机文件
· [ SPARK-19809 ] - 零大小的ORC文件上的NullPointerException
· [ SPARK-19812 ] - YARN shuffle服务无法通过NFS目录重新定位恢复数据库
· [ SPARK-19824 ] - 独立主JSON不显示运行应用程序的内核
· [ SPARK-19900 ] - [Standalone] Master在驱动程序重新启动后再次注册应用程序
· [ SPARK-19910 ] - 由于类型不匹配,`stack`不应该拒绝NULL值
· [ SPARK-20025 ] - 如果设置了SPARK_LOCAL * env,则驱动程序故障切换将不起作用。
· [ SPARK-20065 ] - 以追加模式为汇聚查询创建空输出文件
· [ SPARK-20079 ] - AM的重新注册会挂起纱线客户端模式中的Spark集群
· [ SPARK-20098 ] - 对于StructField,DataType的typeName方法返回'StructF'
· [ SPARK-20140 ] - 删除硬编码kinesis重试等待和最大重试次数
· [ SPARK-20205 ] - DAGScheduler在更新阶段之前发布SparkListenerStageSubmitted
· [ SPARK-20213 ] - DataFrameWriter操作不显示在SQL选项卡中
· [ SPARK-20256 ] - 当用户不具有对Hive Metastore仓库目录的读/写权限时,启用Hive支持时无法启动SparkContext/ SparkSession
· [ SPARK-20288 ] - 改进BasicSchedulerIntegrationSuite“多阶段工作”
· [ SPARK-20311 ] - SQL“range(N)as alias”或“range(N)alias”不起作用
· [ SPARK-20312 ] - 查询优化器在不期望它们时用空值调用udf
· [ SPARK-20329 ] - HAVING子句使用涉及隐式类型强制的GROUP BY表达式时的解析错误
· [ SPARK-20333 ] - 修复DAGSchedulerSuite中的HashPartitioner
· [ SPARK-20338 ] - spark.eventLog.dir中的空间未正确处理
· [ SPARK-20341 ] - 支持BigIngeger值>19精度
· [ SPARK-20342 ] - DAGScheduler在更新任务的累加器之前发送SparkListenerTaskEnd
· [ SPARK-20345 ] - 修复HiveSQLException上的STS错误处理逻辑
· [ SPARK-20356 ] - 通过加入+不同的转换后,Sparksql group会返回不正确的结果
· [ SPARK-20359 ] - CatalystEliminateOuterJoin优化可以导致NPE
· [ SPARK-20365 ] - AM和Containers的类路径格式不太精确
· [ SPARK-20367 ] - Spark悄悄地转义分区列名称
· [ SPARK-20380 ] - 在更改操作后,描述表格不显示更新的表格注释
· [ SPARK-20412 ] - 期望非可选partitionSpec的地方的NullPointerException。
· [ SPARK-20427 ] - Spark解释Oracle数据类型NUMBER的问题
· [ SPARK-20439 ] - Catalog.listTables()取决于用于创建表的所有库
· [ SPARK-20451 ] - 根据randomSplit中的排序顺序筛选出嵌套的mapType数据类型
· [ SPARK-20453 ] - Bump主分支版本到2.3.0-SNAPSHOT
· [ SPARK-20466 ] - HadoopRDD#addLocalConfiguration引发NPE
· [ SPARK-20541 ] - SparkR SS应该支持await Termination而不会超时
· [ SPARK-20543 ] - 在CRAN上运行时,R应跳过长时间运行或非基本测试
· [ SPARK-20565 ] - 改进不支持的JDBC类型的错误消息
· [ SPARK-20569 ] - RuntimeReplaceable函数接受无效的第三个参数
· [ SPARK-20586 ] - 将确定性添加到ScalaUDF
· [ SPARK-20591 ] - 当存在推测性任务时,spark web ui上的作业页面和作业详细信息页面中的成功任务数量不相等
· [ SPARK-20605 ] - 弃用未使用的AM和执行程序端口配置
· [ SPARK-20609 ] - 运行SortShuffleSuite单元测试有剩余的spark_ *系统目录
· [ SPARK-20613 ] - Windows批处理脚本中的双引号
· [ SPARK-20626 ] - 使用时间戳时区修复Windows上的SparkR测试警告
· [ SPARK-20633 ] - FileFormatWriter包装FetchFailedException,它会中断作业的故障转移
· [ SPARK-20640 ] - 使rpc超时并重试可配置的shuffle注册
· [ SPARK-20689 ] - python doctest泄漏bucketed表
· [ SPARK-20690 ] - FROM中的子查询应该有别名
· [ SPARK-20704 ] - CRAN测试应该运行单线程
· [ SPARK-20706 ] - Spark-shell不重写方法/变量定义
· [ SPARK-20708 ] - 使`addExclusionRules`保持最新状态
· [ SPARK-20713 ] - 得到CommitDenied异常的投机任务显示失败
· [ SPARK-20719 ] - 支持限制全部
· [ SPARK-20756 ] - 纱洗牌罐头引用无阴影的番石榴和包含scala类
· [ SPARK-20786 ] - 改善小区和地板处理预期的价值
· [ SPARK-20815 ] - RPackageUtils#checkManifestForR中的NullPointerException
· [ SPARK-20832 ] - 独立主设备应明确告知司机工作人员死亡并使外部洗牌服务输出无效
· [ SPARK-20865 ] - 高速缓存数据集抛出“必须使用writeStream.start()执行带有流源的查询”
· [ SPARK-20873 ] - 改进不支持列类型的错误消息
· [ SPARK-20876 ] - 如果输入参数是ceil或floor的浮点型,结果不是我们所期望的
· [ SPARK-20898 ] -spark.blacklist.killBlacklistedExecutors在YARN中不起作用
· [ SPARK-20904 ] - 关机期间的任务失败会导致抢先执行程序出现问题
· [ SPARK-20906 ] - SparkR的约束Logistic回归
· [ SPARK-20914 ] - Javadoc包含无效的代码
· [ SPARK-20916 ] - 改进FROM子句中未查询的子查询的错误消息
· [ SPARK-20922 ] - Spark LauncherConnection中的不安全反序列化
· [ SPARK-20923 ] -TaskMetrics._updatedBlockStatuses使用大量内存
· [ SPARK-20926 ] - 通过直接访问SessionCatalog中的tableRelationCache暴露于Guava库导致失败
· [ SPARK-20935 ] - 终止StreamingContext后守护线程“BatchedWriteAheadLog Writer”。
· [ SPARK-20945 ] - 在TaskSchedulerImpl中找不到NoSuchElementException键
· [ SPARK-20976 ] - 统一FAILFAST模式下的错误信息。
· [ SPARK-20978 ] - 当令牌数量少于给定模式并且给出损坏列时,CSV发出NPE
· [ SPARK-20989 ] - 如果在独立模式下启用外部洗牌服务,则无法在一台主机上启动多个工作人员
· [ SPARK-20991 ] - BROADCAST_TIMEOUT conf应该是一个timeoutConf
· [ SPARK-20997 ] - spark-submit的--driver-cores标记为“仅限YARN”,但列在“仅限集群部署模式下的Spark独立”下
· [ SPARK-21033 ] - 修复UnsafeExternalSorter中的潜在OOM
· [ SPARK-21041 ] - 对于全阶段的codegen,SparkSession.range()的行为与SparkContext.range()不一致
· [ SPARK-21050 ] - ml word2vec写入在计算numPartition时有溢出问题
· [ SPARK-21055 ] - 支持grouping_id
· [ SPARK-21057 ] - 不要在countApprox中使用PascalDistribution
· [ SPARK-21064 ] - 修复NettyBlockTransferServiceSuite中的默认值错误
· [ SPARK-21066 ] - LibSVM只加载一个输入文件
· [ SPARK-21093 ] - SparkR中偶尔发生多次gapply执行失败
· [ SPARK-21101 ] - 在最新的Spark 2.2上运行Hive临时UDTF时出错
· [ SPARK-21102 ] - 刷新命令在解析中过于激进
· [ SPARK-21112 ] - ALTER TABLE SETTBLPROPERTIES不应该覆盖COMMENT
· [ SPARK-21119 ] - 取消设置表格属性应该保留表格评论
· [ SPARK-21124 ] - 使用Kerberos时在UI中显示的用户错误
· [ SPARK-21138 ] - 当“spark.yarn.stagingDir”和“spark.hadoop.fs.defaultFS”的集群不同时,不能删除登台目录
· [ SPARK-21145 ] - 重新启动的查询重用相同的StateStoreProvider,导致多个并发任务更新相同的StateStore
· [ SPARK-21147 ] - 无法设置套接字/速率源的模式。
· [ SPARK-21163 ] - DataFrame.toPandas应该尊重数据类型
· [ SPARK-21165 ] - 由于属性引用不能在分区列上进行强制转换,因此无法写入分区配置单元表
· [ SPARK-21167 ] - 读取FileSink的输出时路径不正确解码
· [ SPARK-21170 ] -Utils.tryWithSafeFinallyAndFailureCallbacks抛出IllegalArgumentException:不允许自我抑制
· [ SPARK-21181 ] - 抑制netty报告的内存泄漏错误
· [ SPARK-21188 ] - releaseAllLocksForTask应该同步整个方法
· [ SPARK-21204 ] - Spark 2.1.1中带有Set和Case类的RuntimeException
· [ SPARK-21216 ] - 流数据帧无法与Hive表连接
· [ SPARK-21219 ] - 由于列入黑名单的竞争条件,任务重试发生在同一执行器上
· [ SPARK-21223 ] - FsHistoryProvider中的线程安全问题
· [ SPARK-21225 ] - 减少函数resourceOffers中变量'任务'的Mem
· [ SPARK-21228 ] - InSet处理不正确的结构
· [ SPARK-21248 ] - 片状测试:oassql.kafka010.KafkaSourceSuite.assign从特定的偏移量(failOnDataLoss:true)
· [ SPARK-21254 ] - 历史UI:超过1分钟用于初始页面显示
· [ SPARK-21255 ] - 为枚举创建编码器时的NPE
· [ SPARK-21263 ] - 将无效字符串转换为float / double时,不会引发NumberFormatException
· [ SPARK-21264 ] - 在PySpark中加入指定的“如何”忽略NPE
· [ SPARK-21271 ] - 当sizeInBytes不是8的倍数时UnsafeRow.hashCode断言
· [ SPARK-21272 ] - SortMergeJoin LeftAnti不更新numOutputRows
· [ SPARK-21278 ] - 升级到Py4J 0.10.6
· [ SPARK-21281 ] - 无法创建空的类型数组列
· [ SPARK-21283 ] - FileOutputStream应创建为附加模式
· [ SPARK-21284 ] - 重命名SessionCatalog.registerFunction参数名称
· [ SPARK-21300 ] - 在转换为内部值之前,ExternalMapToCatalyst应该空映射密钥。
· [ SPARK-21306 ] - OneVsRest隐藏可能与基础分类器相关的列
· [ SPARK-21312 ] - UnsafeRow writeToStream对于非零偏移量具有不正确的offsetInByteArray计算
· [ SPARK-21319 ] -UnsafeExternalRowSorter.RowComparator内存泄漏
· [ SPARK-21327 ] - 在Python 2中,ArrayConstructor应该处理一个类型为'l'的数组而不是int。
· [ SPARK-21330 ] - 错误分区不允许读取分区列上具有极端值的JDBC表
· [ SPARK-21332 ] - 针对某些小数表达式推断的结果类型不正确
· [ SPARK-21333 ] - joinWith文档和分析允许无效的连接类型
· [ SPARK-21335 ] - 支持无锯齿的子查询
· [ SPARK-21338 ] - AggregatedDialect不会覆盖isCascadingTruncateTable()方法
· [ SPARK-21339 ] - spark-shell --packages选项不会将jar添加到Windows上的classpath
· [ SPARK-21342 ] - 修复DownloadCallback与RetryingBlockFetcher配合使用
· [ SPARK-21343 ] - 优化文档spark.reducer.maxReqSizeShuffleToMem
· [ SPARK-21345 ] - SparkSessionBuilderSuite应清理已停止的会话
· [ SPARK-21350 ] - 在调用UDF时参数数量错误时修复错误消息
· [ SPARK-21354 ] - 与输入文件相关的功能不支持多个来源
· [ SPARK-21357 ] - FileInputDStream不会删除过时的RDD
· [ SPARK-21369 ] - 不要在外部洗牌服务中使用Scala类
· [ SPARK-21374 ] - 如果文件系统缓存被禁用,则从S3读入全局路径到DF不起作用
· [ SPARK-21376 ] - 集群模式下的纱线客户端进程中不会更新令牌
· [ SPARK-21377 ] - 使用--jars或--packages指定的Jars不会添加到AM的系统类路径中
· [ SPARK-21383 ] - YARN可以分配太多执行者
· [ SPARK-21384 ] - 没有spark.yarn.jars /spark.yarn.archive的Spark 2.2 + YARN失败
· [ SPARK-21394 ] - 在PySpark中恢复UDF中可破坏的可调用对象
· [ SPARK-21400 ] - Spark不应该忽略用户定义的输出提交程序的追加模式
· [ SPARK-21403 ] - 集群模式不适用于--packages [Mesos]
· [ SPARK-21411 ] - 无法在AMCredentialRenewer中获取新的HDFS委托令牌
· [ SPARK-21414 ] - 虽然窗口很小,但SlidingWindowFunctionFrame中的缓冲区可能很大
· [ SPARK-21418 ] - 使用sun.io.serialization.extendedDebugInfo= true的DataSourceScanExec中的NoSuchElementException:None.get
· [ SPARK-21422 ] - 取决于Apache ORC 1.4.0
· [ SPARK-21428 ] - 由于IsolatedClientLoader,CliSessionState永远不会被识别
· [ SPARK-21432 ] - 在PySpark中恢复UDF中破碎的部分函数
· [ SPARK-21439 ] - 无法使用Spark ABCmeta(cloudpickle的例外)
· [ SPARK-21441 ] - 在某些情况下,SortMergeJoinExec中的Codegen不正确会导致失败
· [ SPARK-21444 ] - 由于节点重启导致的读取失败导致作业失败
· [ SPARK-21445 ] - 由UTF8String.IntWrapper引发的NotSerializableException
· [ SPARK-21446 ] - [SQL] JDBC Postgresfetchsize参数再次被忽略
· [ SPARK-21447 ] - 在某些情况下,Spark历史记录服务器无法呈现压缩的正在进行的历史记录文件。
· [ SPARK-21451 ] - SparkSQLCLIDriver中的HiveConf不尊重spark.hadoop.some.hive.variables
· [ SPARK-21457 ] - ExternalCatalog.listPartitions应该使用点正确处理分区值
· [ SPARK-21462 ] - 将batchId添加到StreamingQueryProgress的json
· [ SPARK-21463 ] - 读回表时,StructuredStreaming表的输出不遵守用户指定的模式
· [ SPARK-21490 ] - SparkLauncher可能无法重定向流
· [ SPARK-21494 ] - Spark 2.2.0 AES加密不适用于外部随机播放
· [ SPARK-21498 ] - 快速入门 - >一个py demo在代码中有一些bug
· [ SPARK-21501 ] - Spark shuffle索引缓存大小应该基于内存
· [ SPARK-21502 ] - - 监督在mesos集群模式下导致frameworkId冲突
· [ SPARK-21503 ] - Spark UI显示死亡执行程序进程的任务状态不正确
· [ SPARK-21508 ] - 有关'Spark Streaming Custom Receivers'的文档在示例代码中存在错误
· [ SPARK-21512 ] - DatasetCacheSuite需要在执行完成后执行非持久化
· [ SPARK-21516 ] - 覆盖DatasetCacheSuite中的afterEach()必须调用super.afterEach()
· [ SPARK-21522 ] - 片状测试:LauncherServerSuite.testStreamFiltering
· [ SPARK-21523 ] - 修复强大的wolfe linesearch`init`参数失效的问题
· [ SPARK-21534 ] - 从空行bytearray的python行创建数据框时发生PickleException
· [ SPARK-21541 ] - Spark Logs显示不创建SparkContext的作业的不正确作业状态
· [ SPARK-21546 ] - 由于绑定失败,dropDuplicates与水印会产生RuntimeException
· [ SPARK-21549 ] - 如果OutputFormat不能写入hdfs,则Spark无法正确完成作业
· [ SPARK-21551 ] - getaddrinfo太慢时,pyspark的收集失败
· [ SPARK-21555 ] - GROUP BY不适用于带有NVL和嵌套对象的表达式
· [ SPARK-21563 ] - 序列化TaskDescriptions并添加jar时的竞争条件
· [ SPARK-21565 ] - 聚合查询在eventTime上失败并带有水印,但在由current_timestamp生成的时间戳列上使用水印
· [ SPARK-21567 ] - 带有别名类型的元组的数据集抛出错误
· [ SPARK-21568 ] - 只应在shell中启用ConsoleProgressBar
· [ SPARK-21571 ] - Spark历史记录服务器永远留下不完整或无法读取的历史文件。
· [ SPARK-21580 ] - “按组排序”的错误
· [ SPARK-21585 ] - 应用程序主机将应用程序状态标记为客户端模式失败
· [ SPARK-21588 ] - SQLContext.getConf(key,null)应该返回null,但它会抛出NPE
· [ SPARK-21593 ] - 修复损坏的配置页面
· [ SPARK-21595 ] - 在spark 2.2中引入spark.sql.windowExec.buffer.spill.threshold可以打破现有的工作流程
· [ SPARK-21596 ] - 审核调用HDFSMetadataLog.get的地方
· [ SPARK-21597 ] - 正在计算的平均事件时间可能是错误的
· [ SPARK-21599 ] - 收集数据源表的列统计信息可能会失败,并返回java.util.NoSuchElementException
· [ SPARK-21605 ] - 让IntelliJ IDEA正确检测语言级别和目标字节码版本
· [ SPARK-21610 ] - 从文件创建数据帧时,损坏的记录处理不当
· [ SPARK-21615 ] - 修复协作过滤文档中的破坏重定向到数据库培训回购
· [ SPARK-21617 ] - 在Hive 2.1中为AL表添加了ALTER TABLE ...ADD COLUMNS
· [ SPARK-21621 ] - 在DiskBlockObjectWriter.commitAndGet调用后重置numRecordsWritten
· [ SPARK-21637 ] - 不支持--hiveconf中的`hive.metastore.warehouse`
· [ SPARK-21638 ] - RF警告信息不准确
· [ SPARK-21642 ] - 对DRIVER_HOST_ADDRESS使用FQDN而不是ip地址
· [ SPARK-21644 ] - LocalLimit.maxRows的定义不正确
· [ SPARK-21647 ] - 使用CROSS时SortMergeJoin失败
· [ SPARK-21648 ] - 当用户拼错选项`partitionColumn`时,混淆JDBC源中的断言失败
· [ SPARK-21652 ] - 优化器无法在某些查询中达到固定点
· [ SPARK-21656 ] - 当有足够的任务运行时,spark动态分配不应该使超时执行程序空闲
· [ SPARK-21657 ] --Spark具有爆炸式指数时间复杂度(结构数组)
· [ SPARK-21677 ] - 当字符串类型为空时,json_tuple抛出NullPointException异常。
· [ SPARK-21681 ] - 当featureStd包含零时,MLOR无法正常工作
· [ SPARK-21714 ] - Yarn客户端模式下的SparkSubmit下载远程文件,然后重新上传它们
· [ SPARK-21721 ] -org.apache.spark.sql.hive.execution.InsertIntoHiveTable中的内存泄漏
· [ SPARK-21723 ] - 无法写入LibSVM - 未找到密钥:numFeatures
· [ SPARK-21727 ] - 在SparkR DataFrame中的ArrayType上操作会引发错误
· [ SPARK-21738 ] - 当会话关闭时,Thriftserver不取消作业
· [ SPARK-21739 ] - 时间戳分区在v2.2.0中将失败
· [ SPARK-21743 ] - 最高限制不应导致内存泄漏
· [ SPARK-21753 ] - 在火花上运行pypy的 pi例子无法序列化
· [ SPARK-21759 ] - In.checkInputDataTypes不应错误地报告IN相关子查询的未解决计划
· [ SPARK-21762 ] - 如果新文件尚不可见,FileFormatWriter / BasicWriteTaskStatsTracker指标集合将失败
· [ SPARK-21766 ] - DataFrame toPandas()引发具有可空int列的ValueError
· [ SPARK-21767 ] - 在VersionSuite中为Avro添加十进制测试
· [ SPARK-21782 ] - 当numPartitions是2的幂时,重新分区会产生倾斜
· [ SPARK-21786 ] -'spark.sql.parquet.compression.codec'配置不会对具有分区字段的表生效
· [ SPARK-21788 ] - 停止流式查询时处理更多异常
· [ SPARK-21791 ] - ORC应该使用点支持列名
· [ SPARK-21793 ] - 修正GaussianMixture和AFTSurvivalRegression中的validateAndTransformSchema
· [ SPARK-21798 ] - 没有配置替换已弃用的SPARK_CLASSPATH配置来启动守护程序,如历史记录服务器
· [ SPARK-21801 ] - SparkR单元测试在树上随机失败
· [ SPARK-21804 ] - json_tuple在第一个列以外的重复列中返回空值
· [ SPARK-21805 ] - 在Windows上禁用R短片代码
· [ SPARK-21818 ] -MultivariateOnlineSummarizer.variance生成否定结果
· [ SPARK-21826 ] - 外部广播散列连接不应该抛出NPE
· [ SPARK-21830 ] - 将ANTLR的依赖性提升到4.7版
· [ SPARK-21831 ] - 删除HiveCompatibilitySuite中的`spark.sql.hive.convertMetastoreOrc`配置
· [ SPARK-21832 ] - 将SQLBuilderTest合并到ExpressionSQLBuilderSuite中
· [ SPARK-21834 ] - 在动态分配的情况下不正确的执行程序请求
· [ SPARK-21835 ] - RewritePredicateSubquery不应产生未解决的查询计划
· [ SPARK-21837 ] - UserDefinedTypeSuite本地UDF实际上没有测试它的意图
· [ SPARK-21845 ] - 使表达式的codegen fallback可配置
· [ SPARK-21877 ] - Windows命令脚本无法处理参数中的引号
· [ SPARK-21880 ] - [spark UI]在SQL表页面中,修改作业跟踪信息
· [ SPARK-21890 ] - 获取Credentials不会将声明传递给addDelegationTokens
· [ SPARK-21904 ] - 在SessionCatalog中将tempTables重命名为tempViews
· [ SPARK-21907 ] -UnsafeExternalSorter.spill()中的NullPointerException
· [ SPARK-21912 ] - ORC / Parquet表不应创建无效的列名称
· [ SPARK-21913 ] - `withDatabase`应该使用CASCADE删除数据库
· [ SPARK-21917 ] - 在YARN模式下不支持远程http(s)资源
· [ SPARK-21922 ] - 执行程序失败且任务度量标准未发送给驱动程序时,状态将始终为“正在运行”,持续时间为“CurrentTime - launchTime”
· [ SPARK-21924 ] - 结构化流媒体文档中的错误
· [ SPARK-21928 ] - netty线程中serde过程中自定义Kryo注册器类的ClassNotFoundException
· [ SPARK-21929 ] - 为ORC数据源支持`ALTERTABLE table_name ADD COLUMNS(..)`
· [ SPARK-21941 ] - 停止在SQLTaskMetrics中存储未使用的attemptId
· [ SPARK-21946 ] - Flaky测试:InMemoryCatalogedDDLSuite.alter表:重命名缓存表
· [ SPARK-21947 ] -monotonically_increasing_id在结构化流式处理中不起作用
· [ SPARK-21950 ] -pyspark.sql.tests.SQLTests2应停止SparkContext。
· [ SPARK-21953 ] - 显示存在的内存和磁盘字节
· [ SPARK-21954 ] - JacksonUtils应该验证MapType的值类型而不是密钥类型
· [ SPARK-21958 ] - 尝试保存大型Word2Vec模型将驱动程序挂起在常量GC中。
· [ SPARK-21969 ] - CommandUtils.updateTableStats应该调用refreshTable
· [ SPARK-21977 ] - SinglePartition优化打破了某些流状态聚合需求
· [ SPARK-21979 ] - 改进QueryPlanConstraints框架
· [ SPARK-21980 ] - 分组函数中的参考应该使用解析器进行索引
· [ SPARK-21985 ] - PySpark PairDeserializer针对双压缩RDD而打破
· [ SPARK-21987 ] - Spark 2.3无法读取2.2事件日志
· [ SPARK-21991 ] - [LAUNCHER]如果机器负载很高,LauncherServeracceptConnections线程有时会死掉
· [ SPARK-21996 ] - 数据流忽略文件名中包含空格的文件
· [ SPARK-21998 ] - 在物理计划期间,SortMergeJoinExec未正确计算其outputOrdering
· [ SPARK-22030 ] - GraphiteSink无法重新连接到ELB后面的Graphite实例或任何其他自动缩放的LB
· [ SPARK-22033 ] - BufferHolder,其他大小检查应考虑到特定的VM阵列大小限制
· [ SPARK-22036 ] - BigDecimal乘法有时会返回空值
· [ SPARK-22042 ] - 当孩子的分区没有确定时,ReorderJoinPredicates可能会中断
· [ SPARK-22047 ] - Jenkins的HiveExternalCatalogVersionsSuite是Flaky
· [ SPARK-22052 ] - 在MetricsReporter.scala中分配的不正确的度量标准
· [ SPARK-22060 ] - CrossValidator /TrainValidationSplit并行性参数持久/加载错误
· [ SPARK-22062 ] - BlockManager不考虑远程抓取消耗的内存
· [ SPARK-22067 ] - ArrowWriter StringWriter不使用保存数据的ByteBuffer的位置
· [ SPARK-22071 ] - 改进发布版本脚本以检查正在使用的正版 JAVA版本用于构建
· [ SPARK-22074 ] - 其他尝试任务所杀的任务不应重新提交
· [ SPARK-22076 ] - Expand.projections不应该是Stream
· [ SPARK-22083 ] - 将多个块放入磁盘时,Spark应该在发生故障时释放所有锁
· [ SPARK-22088 ] - 不正确的scalastyle评论会在stringExpressions中导致错误的样式
· [ SPARK-22092 ] - 在OffHeapColumnVector.reserveInternal中重新分配破坏阵列数据
· [ SPARK-22093 ] - UtilsSuite“resolveURIswith multiple paths”测试总是取消
· [ SPARK-22094 ] - 当查询停止时,processAllAvailable不应该永久阻塞
· [ SPARK-22097 ] - 展开块后请求精确的内存
· [ SPARK-22107 ] - “as”应该是python快速入门文档中的“别名”
· [ SPARK-22109 ] - 按看起来像时间戳的列分区的阅读表具有不一致的模式推断
· [ SPARK-22129 ] - Spark发布脚本忽略GPG_KEY并始终使用默认密钥进行签名
· [ SPARK-22135 ] - spark-dispatcher中的度量标准未正确注册
· [ SPARK-22141 ] - 在检查Cartesian产品之前传播空关系
· [ SPARK-22143 ] - OffHeapColumnVector可能会泄漏内存
· [ SPARK-22145 ] - 驱动程序在mesos上重新启动(监督)
· [ SPARK-22146 ] - 读取包含'%'的ORC文件时的FileNotFoundException
· [ SPARK-22158 ] - convertMetastore不应该忽略存储属性
· [ SPARK-22159 ] -spark.sql.execution.arrow.enable和spark.sql.codegen.aggregate.map.twolevel.enable - >启用
· [ SPARK-22162 ] - 执行程序和驱动程序在新的RDD提交协议期间使用不一致的作业ID
· [ SPARK-22165 ] - 在分区列中输入日期,时间戳和日期之间的冲突
· [ SPARK-22167 ] - Spark包装W / R发行版问题
· [ SPARK-22169 ] - 支持字节长度字面量作为标识符
· [ SPARK-22171 ] - 当表格所有者为空时,描述表格扩展失败
· [ SPARK-22172 ] - 当外部洗牌服务端口已被使用时,工作人员挂起
· [ SPARK-22176 ] - Dataset.show(Int.MaxValue)触发整数溢出
· [ SPARK-22178 ] - 刷新表不会刷新持久视图的基础表
· [ SPARK-22206 ] - R中的gapply无法在空分组列上工作
· [ SPARK-22209 ] - PySpark无法识别子模块的进口
· [ SPARK-22211 ] - FullOuterJoin的LimitPushDown优化会产生错误的结果
· [ SPARK-22218 ] - 在应用程序重新尝试时,spark shuffle服务无法更新秘密
· [ SPARK-22222 ] - 修复BufferHolder中的ARRAY_MAX并添加测试
· [ SPARK-22223 ] - ObjectHashAggregate引入了不必要的洗牌
· [ SPARK-22224 ] - 覆盖KeyValueGroupedDataset&RelationalGroupedDataset的toString
· [ SPARK-22227 ] - 如果在shuffle中调用DiskBlockManager.getAllBlocks可能会失败
· [ SPARK-22230 ] - agg(last('attr))为流式传输提供了奇怪的结果
· [ SPARK-22243 ] - 流式作业无法从检查点重新启动
· [ SPARK-22249 ] -UnsupportedOperationException:在缓存数据框时为empty.reduceLeft
· [ SPARK-22251 ] - 当codegen关闭时,公制“累计时间”不正确
· [ SPARK-22252 ] - FileFormatWriter应该尊重输入的查询模式
· [ SPARK-22254 ] - 在CompactBuffer中清除“growToSize”的实现
· [ SPARK-22257 ] - 保留ExpressionSet中的所有非确定性表达式。
· [ SPARK-22267 ] - 当列顺序不同时,Spark SQL错误地读取ORC文件
· [ SPARK-22271 ] - 描述数值变量的“mean”值的结果为“null”
· [ SPARK-22273 ] - 修复HashMapGenerators中的键/值模式字段名称。
· [ SPARK-22280 ] - 改进StatisticsSuite以正确测试`convertMetastore`
· [ SPARK-22281 ] - 处理R方法打破签名更改
· [ SPARK-22284 ] - 类“org.apache.spark.sql.catalyst.expressions.GeneratedClass$ SpecificUnsafeProjection \”的代码增长超过64 KB
· [ SPARK-22287 ] - SPARK_DAEMON_MEMORY未被MesosClusterDispatcher
· [ SPARK-22289 ] - 无法保存具有系数边界的LogisticRegressionModel
· [ SPARK-22290 ] - 在同一个JVM中启动第二个上下文无法获取新的Hive委派令牌
· [ SPARK-22291 ] - Cassandra的Postgresql UUID []:转换错误
· [ SPARK-22300 ] - 将ORC更新为1.4.1
· [ SPARK-22303 ] - 获取java.sql.SQLException:对于BINARY_DOUBLE,不支持的类型101
· [ SPARK-22305 ] -HDFSBackedStateStoreProvider在尝试恢复状态时失败并显示StackOverflowException
· [ SPARK-22306 ] - INFER_AND_SAVE覆盖Parquet Metastore表中的重要元数据
· [ SPARK-22319 ] - SparkSubmit在调用loginUserFromKeytab之前调用getFileStatus
· [ SPARK-22326 ] - 删除不必要的hashCode并等于方法
· [ SPARK-22327 ] - R CRAN检查在非最新分支上失败
· [ SPARK-22328 ] - ClosureCleaner错过引用的超类字段,为它们提供空值
· [ SPARK-22330 ] - 序列化映射的线性containsKey操作。
· [ SPARK-22332] - NaiveBayes单元测试偶尔失败
· [ SPARK-22333 ] - ColumnReference的优先级应高于timeFunctionCall(CURRENT_DATE,CURRENT_TIMESTAMP)
· [ SPARK-22344 ] - 防止使用/ tmp进行RCMD检查
· [ SPARK-22349 ] - 在堆模式下,当从池中分配内存时,我们应该使用'MEMORY_DEBUG_FILL_CLEAN_VALUE`来填充内存
· [ SPARK-22355 ] - Dataset.collect不是线程安全的
· [ SPARK-22356 ] - 数据源表应支持数据和分区模式之间的重叠列
· [ SPARK-22370 ] - 应该在Driver中捕获配置值。
· [ SPARK-22373] -org.codehaus.janino.IClass.isAssignableFrom中的间歇性NullPointerException
· [ SPARK-22375 ] - 如果在测试过程中通过setup.py安装了egg,测试脚本可能会失败
· [ SPARK-22376 ] - 如果使用Python 3运行,run-tests.py在exec-sbt时失败
· [ SPARK-22377 ] - Maven夜间快照jenkins工作由于lsof而在多名工作人员中被打破
· [ SPARK-22393 ] - spark-shell无法在类构造函数,扩展子句中找到导入的类型
· [ SPARK-22395 ] - 修正熊猫时间戳值的行为,以尊重会话时区
· [ SPARK-22396 ] - Hive支持未启用时未解析的运营商InsertIntoDir for Hive格式
· [ SPARK-22403 ] - StructuredKafkaWordCount示例在YARN集群模式下失败
· [ SPARK-22410 ] - 当一行缩小时,Pyspark UDF溢出
· [ SPARK-22417 ] - 来自pandas.DataFrame的createDataFrame将datetime64值读取为long
· [ SPARK-22429 ] - 由于NullPointerException导致失败后,流检查点代码不会重试
· [ SPARK-22431 ] - 使用非法类型创建永久视图
· [ SPARK-22437 ] - jdbc写入无法设置默认模式
· [ SPARK-22442 ] - 使用非标准字符时,产品编码器生成的模式与案例类字段名称不匹配
· [ SPARK-22443 ] - AggregatedDialect不会覆盖JdbcDialects中的quoteIdentifier和其他方法
· [ SPARK-22446 ] - 优化器导致StringIndexerModel的索引器UDF对过滤的数据不正确地抛出“Unseen label”异常。
· [ SPARK-22454 ] -ExternalShuffleClient.close()应检查为空
· [ SPARK-22462 ] - 对数据帧执行foreach操作后SQL指标丢失
· [ SPARK-22463 ] - 将SPARK_CONF_DIR中的hadoop / hive / hbase / etc配置文件丢失到分布式存档
· [ SPARK-22464 ] - <=>不受Hive Metastore分区谓词下推支持
· [ SPARK-22465 ] - 两个不成比例的RDD可能导致2G限制BUG
· [ SPARK-22466 ] - SPARK_CONF_DIR不是由Spark的默认值启动脚本设置的
· [ SPARK-22469 ] - 与字符串和数字相比的准确性问题
· [ SPARK-22472 ] - 数据集为空基元类型生成随机值
· [ SPARK-22479 ] - SaveIntoDataSourceCommand记录jdbc凭证
· [ SPARK-22484 ] - PySparkDataFrame.write.csv(quote =“”)使用nullchar作为引用
· [ SPARK-22487 ] - 在整个火花项目中没有发现HIVE_EXECUTION_VERSION的用法
· [ SPARK-22488 ] - SparkSession内部表()API中的视图分辨率
· [ SPARK-22489 ] - 如果用户明确指定,不应改变广播加入buildSide
· [ SPARK-22495 ] - 修复在Windows上设置SPARK_HOME变量
· [ SPARK-22511 ] - 更新maven中央回购地址
· [ SPARK-22516 ] - CSV读取中断:当“multiLine”=“true”时,如果“注释”选项设置为最后一行的第一个字符
· [ SPARK-22525 ] - Spark下载页面不会更新基于软件包名称的软件包类型
· [ SPARK-22533 ] - SparkConfigProvider不处理弃用的配置密钥
· [ SPARK-22535 ] -PythonRunner.MonitorThread应该在杀死Python工作者之前花一点时间完成任务
· [ SPARK-22538 ] - SQLTransformer.transform(inputDataFrame)uncaches inputDataFrame
· [ SPARK-22540 ] - HighlyCompressedMapStatus的avgSize不正确
· [ SPARK-22544 ] - FileStreamSource应该使用自己的hadoop conf来调用globPathIfNecessary
· [ SPARK-22548 ] - 错误的嵌套AND表达式被推送到JDBC数据源
· [ SPARK-22557 ] - 明确使用ThreadSignaler
· [ SPARK-22559 ] - 历史记录服务器:处理打开损坏的listing.ldb的异常
· [ SPARK-22572 ] - spark-shell不会重新初始化:重放
· [ SPARK-22574 ] - 错误的请求导致Spark Dispatcher无效
· [ SPARK-22583 ] - 第一个委托代币更新时间不是Mesos更新时间的75%
· [ SPARK-22585 ] - 预期的jar路径的URL编码?
· [ SPARK-22587 ] - 如果fs.defaultFS和应用程序jar是不同的url,则Spark作业失败
· [ SPARK-22591 ] - GenerateOrdering不应该改变ctx.INPUT_ROW
· [ SPARK-22605 ] - OutputMetrics为DataFrame写入而清空
· [ SPARK-22607 ] - 为测试避免StackOverflowError,一致地设置较大的堆栈大小
· [ SPARK-22615 ] - 在PropagateEmptyRelation中处理更多案例
· [ SPARK-22618 ] - 与动态分配一起使用时,RDD.unpersist可能导致致命异常
· [ SPARK-22635 ] - 读取包含特殊字符的ORC文件时再次发生FileNotFoundException
· [ SPARK-22637 ] - CatalogImpl.refresh()对于视图具有二次复杂性
· [ SPARK-22642 ] - 如果发生异常,createdTempDir将不会被删除
· [ SPARK-22651 ] - 调用ImageSchema.readImages启动多个Hive客户端
· [ SPARK-22653 ] - 在CoarseGrainedSchedulerBackend.executorDataMap中注册的executorAddress为null
· [ SPARK-22654 ] - 从HiveExternalCatalogVersionsSuite中的ASF镜像重试下载Spark
· [ SPARK-22655 ] - 在关闭期间在PythonRunner中静默任务而不是完成任务
· [ SPARK-22662 ] - 重写谓词子查询后无法修剪列
· [ SPARK-22668 ] -CodegenContext.splitExpressions()用全局变量参数创建不正确的结果
· [ SPARK-22681 ] - 在结果阶段,每个任务只应更新一次累加器
· [ SPARK-22686 ] - DROP TABLE IF EXISTS不应显示AnalysisException
· [ SPARK-22700 ] - Bucketizer.transform错误地删除包含NaN的行
· [ SPARK-22710 ] -ConfigBuilder.fallbackConf不会触发onCreate函数
· [ SPARK-22712 ] - 在原生OrcFileFormat中使用`buildReaderWithPartitionValues`
· [ SPARK-22721 ] - 重置后的BytesToBytesMap峰值内存使用率不准确()
· [ SPARK-22764 ] - 片状测试:SparkContextSuite“自定义原因取消阶段/作业”
· [ SPARK-22777 ] - 为Kubernetes构建的Docker容器不允许运行entrypoint.sh
· [ SPARK-22778 ] - 主服务器上的Kubernetes调度程序无法成功运行应用程序
· [ SPARK-22779 ] - ConfigEntry的默认值实际上应该是一个值
· [ SPARK-22788 ] - HdfsUtils.getOutputStream使用不存在的Hadoopconf“hdfs.append.support”
· [ SPARK-22791 ] - 说明的Redact输出
· [ SPARK-22793 ] - Spark Thrift Server中的内存泄漏
· [ SPARK-22811 ] - pyspark.ml.tests缺少py4j导入。
· [ SPARK-22813 ] - 当/ usr / sbin / lsof不存在时,run-tests.py失败
· [ SPARK-22815 ] - 在优化计划中保持PromotePrecision
· [ SPARK-22817 ] - 在AppVeyor中使用固定的TestThat版本进行SparkR测试
· [ SPARK-22818 ] - csv逃避报价逃脱
· [ SPARK-22819 ] - 下载页面 - 更新软件包类型什么也不做
· [ SPARK-22824 ] - Spark结构化流媒体源特性突破变化
· [ SPARK-22825 ] - 将数组转换为字符串的结果不正确
· [ SPARK-22827 ] - 避免在溢出异常情况下抛出OutOfMemoryError
· [ SPARK-22834 ] - 使插入命令有真正的孩子来解决用户界面问题
· [ SPARK-22836 ] - 执行者页面未显示驱动程序日志链接
· [ SPARK-22837 ] - 会话超时检查器在SessionManager中不起作用
· [ SPARK-22843 ] - R localCheckpoint API
· [ SPARK-22846 ] - 配置单元Metastore中表的所有者属性为空
· [ SPARK-22849 ] - ivy.retrieve模式也应该考虑`分类器“
· [ SPARK-22850 ] - SHS中的执行程序页面不显示驱动程序
· [ SPARK-22852] - 由于-Xlint:未经检查的标志传递给javadoc,sbt publishLocal失败
· [ SPARK-22854 ] - AppStatusListener应该由SparkListenerLogStart获取Spark版本
· [ SPARK-22855 ] - scala 2.12下的Sbt publishLocal失败,原因是标签包中的javadoc注释无效
· [ SPARK-22861 ] - SQLAppStatusListener应该跟踪多任务执行中的所有阶段
· [ SPARK-22862 ] - 懒惰消除编码器中列丢失的文档。
· [ SPARK-22864 ] - 片状测试:ExecutorAllocationManagerSuite“不再需要时取消暂挂执行器”
· [ SPARK-22866 ] - Kubernetes dockerfile路径需要更新
· [ SPARK-22875 ] - 组装版本无法获得高用户ID
· [ SPARK-22889 ] - 如果存在较旧的Spark安装,则CRAN检查可能会失败
· [ SPARK-22891 ] - 使用udf时的NullPointerException
· [ SPARK-22899 ] - 流数据上的OneVsRestModel变换失败。
· [ SPARK-22901 ] - 为Python UDF添加非确定性
· [ SPARK-22905 ] - 修复行顺序问题的ChiSqSelectorModel,GaussianMixtureModel保存实现
· [ SPARK-22916 ] - 如果用户没有指定,则不应该偏向构建权限
· [ SPARK-22920 ] - 针对current_date,current_timestamp,rtrim / ltrim / trim使用trimString的R sql函数
· [ SPARK-22924 ] - 用于sortWithinPartitions的R DataFrame API
· [ SPARK-22932 ] - 重构AnalysisContext
· [ SPARK-22933 ] - R用于水印,触发器,分区的R结构化流媒体API
· [ SPARK-22934 ] - 使可选子句对CREATE TABLE SQL语句不敏感
· [ SPARK-22940 ] - 测试套件HiveExternalCatalogVersionsSuite在没有安装wget的平台上失败
· [ SPARK-22946 ] - 递归withColumn调用导致org.apache.spark.sql.catalyst.expressions.GeneratedClass $SpecificUnsafeProjection“增长超过64 KB
· [ SPARK-22948 ] - “SparkPodInitContainer”不应处于“休息”包中
· [ SPARK-22949 ] - 减少TrainValidationSplit的内存需求
· [ SPARK-22950 ] - 用户类路径首先导致找不到类的异常
· [ SPARK-22951 ] - 在emptyDataFrame上的dropDuplicates()之后的count()会返回不正确的值
· [ SPARK-22953 ] - 使用init-containers时,Spark pod中的密钥卷重复
· [ SPARK-22956 ] - 联盟流故障转移导致`IllegalStateException`
· [ SPARK-22957 ] - 如果行数超过MaxInt,则会出现严重断裂
· [ SPARK-22961 ] - 在2.3中不再选择常量列作为约束
· [ SPARK-22962 ] - 如果使用本地文件,Kubernetes应用程序将失败
· [ SPARK-22967 ] - 由Windows格式路径引起的Windows上的VersionSuite失败
· [ SPARK-22972 ] - 找不到数据源提供程序org.apache.spark.sql.hive.orc的相应Hive SerDe。
· [ SPARK-22973 ] - 将地图转换为字符串的结果不正确
· [ SPARK-22975 ] - MetricsReporter在没有进度报告时产生NullPointerException
· [ SPARK-22976 ] - 工作人员清理可以删除正在运行的驱动程序目录
· [ SPARK-22977 ] - DataFrameWriter操作不会在SQL选项卡中显示详细信息
· [ SPARK-22981 ] - 将结构转换为字符串的结果不正确
· [ SPARK-22982 ] - 从FileDownloadChannel中删除不安全的异步close()调用
· [ SPARK-22983 ] - 不要使用空分组表达式将聚合过滤器推到下面
· [ SPARK-22984 ] - 修复GenerateUnsafeRowJoiner中不正确的位图复制和偏移位移
· [ SPARK-22985 ] - 修复from_utc_timestamp /to_utc_timestamp codegen中的参数转义错误
· [ SPARK-22986 ] - 避免实例化广播变量的多个实例
· [ SPARK-22990 ] - 在JobsTab和StagesTab中修复方法isFairScheduler
· [ SPARK-22992 ] - 删除Kubernetes模式下的集群域假定
· [ SPARK-22998 ] - 未设置执行程序窗格中SPARK_MOUNTED_CLASSPATH的值
· [ SPARK-23000 ] - Spark 2.3中的Flask测试套件DataSourceWithHiveMetastoreCatalogSuite
· [ SPARK-23001 ] - 运行desc数据库时的NullPointerException
· [ SPARK-23009 ] - PySpark不应该假定Pandas cols是基础类型
· [ SPARK-23018 ] - PySpark creatDataFrame会导致熊猫分配给参考副本的警告
· [ SPARK-23019 ] - 片状测试:org.apache.spark.JavaJdbcRDDSuite.testJavaJdbcRDD
· [ SPARK-23021 ] - AnalysisBarrier不应切断Parsed Logical Plan的解释输出
· [ SPARK-23023 ] - 在showString中打印Array / Map / Struct的结果不正确
· [ SPARK-23025 ] - DataSet与scala.Null导致异常
· [ SPARK-23035 ] - 修复TempTableAlreadyExistsException的不正确信息
· [ SPARK-23037 ] - RFormula不应该使用已弃用的OneHotEncoder,并且应该在管道中包含VectorSizeHint
· [ SPARK-23038 ] - 更新docker / spark-test(JDK / OS)
· [ SPARK-23049 ] -`spark.sql.files.ignoreCorruptFiles`应该适用于ORC文件
· [ SPARK-23051 ] - Spark UI中的工作描述被破坏
· [ SPARK-23053 ] - 在DagScheduler.submitMissingTasks中计算TaskBinarySerialization和任务分区应保持相同的RDD检查点状态
· [ SPARK-23054 ] - 将UserDefinedType转换为String的结果不正确
· [ SPARK-23055 ] -KafkaContinuousSourceSuite Kafka列类型测试失败
· [ SPARK-23065 ] - 在Spark 2.3.0 RC1中为空的R API文档
· [ SPARK-23079 ] - 修正了带有别名的查询约束传播
· [ SPARK-23080 ] - 改进内置功能的错误信息
· [ SPARK-23087 ] - 条件不变时,CheckCartesianProduct限制性过强折叠为false / null
· [ SPARK-23089 ] - 当父目录不存在时,“无法创建操作日志会话目录”
· [ SPARK-23095 ] - 标量子查询的解相关失败,返回java.util.NoSuchElementException。
· [ SPARK-23103 ] - 当索引值具有负值时,LevelDB存储不能正确迭代
· [ SPARK-23119 ] - 修复DataSource V2中的API注释以进行流式传输
· [ SPARK-23121 ] - Spark Streaming应用程序运行一段时间后,访问“/ jobs /”或“/ jobs / job /时是否错误地报告了该页面?Id = 13'和ui无法访问。
· [ SPARK-23133 ] - Spark选项不会传递到Docker上下文中的Executor
· [ SPARK-23135 ] - 累加器在阶段页面中不能正确显示
· [ SPARK-23140 ] - HiveSessionStateBuilder中缺少DataSourceV2Strategy
· [ SPARK-23147 ] - 当没有完成任务时,舞台页面会引发异常
· [ SPARK-23148 ] - 具有multiline = true的spark.read.csv在路径包含空格时给出FileNotFoundException
· [ SPARK-23157 ] - withColumn由于映射的DataSet而失败
· [ SPARK-23177 ] - PySpark无参数UDF在独立后应用时引发异常
· [ SPARK-23184 ] - 当某个阶段缺失时,所有工作页面都会被打破
· [ SPARK-23186 ] - 在加载驱动程序之前首先初始化DriverManager
· [ SPARK-23192 ] - 使用缓存数据后提示丢失
· [ SPARK-23198 ] - 修复KafkaContinuousSourceStressForDontFailOnDataLossSuite测试ContinuousExecution
· [ SPARK-23205 ] - 对于四通道图像,ImageSchema.readImages不正确地将alpha通道设置为255
· [ SPARK-23207 ] - 在DataFrame上随机播放+重新分区可能会导致错误答案
· [ SPARK-23208 ] - GenArrayData产生非法代码
· [ SPARK-23209 ] - 如果Hive jar不是类路径,则HiveDelegationTokenProvider会引发异常
· [ SPARK-23214 ] - 缓存的数据不应该带有额外的提示信息
· [ SPARK-23220 ] - 广播提示不适用于流式左反连接
· [ SPARK-23222 ] - 片状测试:DataFrameRangeSuite
· [ SPARK-23223 ] - 堆叠数据集变换表现不佳
· [ SPARK-23230] - 当hive.default.fileformat是其他类型的文件类型时,创建textfile表会导致serde错误
· [ SPARK-23233 ] - 在Python UDF中至少一次调用时,UDF不会被设置
· [ SPARK-23242 ] - 不要在KafkaSourceSuiteBase中运行两次测试
· [ SPARK-23245 ] -KafkaContinuousSourceSuite可能会永久挂起
· [ SPARK-23250 ] - 用于DataFrameWriter的JavaDoc / ScalaDoc中的拼写错误
· [ SPARK-23267 ] - 将spark.sql.codegen.hugeMethodLimit增加到65535
· [ SPARK-23274 ] - ReplaceExceptWithFilter在同一列上过滤的数据帧上失败
· [ SPARK-23275 ] - 使用OOM在笔记本电脑(Mac)上本地运行时,蜂巢/测试失败
· [ SPARK-23281 ] - 当复合排序依据子句引用原始列和别名时,查询以不正确的顺序生成结果
· [ SPARK-23289 ] -OneForOneBlockFetcher.DownloadCallback.onData可能只写入一部分数据
· [ SPARK-23290 ] - 转换为熊猫数据框时,无意中更改了DateType的处理方式
· [ SPARK-23293 ] - 数据源v2自加入失败
· [ SPARK-23301 ] - 破坏了具有任意表达式的数据源v2列修剪
· [ SPARK-23307 ] - Spark UI在清理它们之前应该使用已完成的时间戳对作业/阶段进行排序
· [ SPARK-23310 ] - 由SPARK-21113引入的Perf回归
· [ SPARK-23315 ] - 未能获得规范化数据源v2相关计划的输出
· [ SPARK-23316 ] - 针对IN查询达到最大迭代后的AnalysisException
· [ SPARK-23326 ] - 任务的“计划程序延迟”令人困惑
· [ SPARK-23330 ] - Spark UI SQL执行页面引发NPE
· [ SPARK-23334 ] - 使用返回类型StringType()修复pandas_udf以在Python 2中正确处理str类型。
· [ SPARK-23345 ] - 片状测试:FileBasedDataSourceSuite
· [ SPARK-23348 ] - 使用saveAsTable追加数据应调整数据类型
· [ SPARK-23358 ] - 当分区数量大于2 ^ 28时,将导致错误结果
· [ SPARK-23360 ] - 使用非箭头代码路径时SparkSession.createDataFrame时间戳可能不正确
· [ SPARK-23376 ] - 使用BytesToBytesMap创建UnsafeKVExternalSorter可能会失败
· [ SPARK-23377 ] - 具有多列持久性bug的Bucketizer
· [ SPARK-23384 ] - 找不到未完成(已完成)的应用程序时,上次更新的时间未格式化,客户端本地时区未显示在历史记录服务器Web UI中。
· [ SPARK-23387 ] - backportassertPandasEqual分支2.3。
· [ SPARK-23388 ] - 支持VectorizedColumnReader中的Parquet二进制DecimalType
· [ SPARK-23391 ] - 可能导致某些整数乘法溢出
· [ SPARK-23394 ] - 存储信息的缓存分区不考虑复制(但sc.getRDDStorageInfo确实)
· [ SPARK-23399 ] - 首先为OrcColumnarBatchReader注册一个任务完成监听器
· [ SPARK-23400 ] - 为ScalaUDF添加额外的构造函数
· [ SPARK-23413 ] - 根据舞台页面上的主机/执行者ID排序任务不起作用
· [ SPARK-23416 ] - flaky测试:org.apache.spark.sql.kafka010.KafkaSourceStressForDontFailOnDataLossSuite.stress测试failOnDataLoss = false
· [ SPARK-23419 ] - 数据源v2写入路径应该直接重新引发中断异常
· [ SPARK-23421 ] - 记录SPARK-22356中的行为变化
· [ SPARK-23422] - 当SPARK_PREPEND_CLASSES设置为1时,YarnShuffleIntegrationSuite失败
· [ SPARK-23468 ] - 未能使用旧洗牌服务进行验证
· [ SPARK-23470 ] -org.apache.spark.ui.jobs.ApiHelper.lastStageNameAndDescription太慢
· [ SPARK-23475 ] - “阶段”页面不显示任何完成的阶段
· [ SPARK-23481 ] - 工作页面显示某些阶段被驱逐时的错误阶段
· [ SPARK-23484 ] - 修复KafkaContinuousReader中可能的竞争条件
新功能
· [ SPARK-3181 ] - 使用Huber估计器添加鲁棒回归算法
· [ SPARK-4131 ] - 支持“通过查询将数据写入文件系统”
· [ SPARK-12139 ] - Hive查询的REGEX列规范
· [ SPARK-14516 ] - 聚类评估器
· [ SPARK-15689 ] - 数据源API v2
· [ SPARK-15767 ] - SparkR中的决策树回归封装
· [ SPARK-16026 ] - 基于成本的优化器框架
· [ SPARK-16060 ] - 矢量化的ORC阅读器
· [ SPARK-16742 ] - Kerosos支持Mesos上的Spark
· [ SPARK-18710 ] - 为GeneralizedLinearRegression模型添加偏移量
· [ SPARK-19507 ] - pyspark.sql.types._verify_type()异常过于广泛,无法调试集合或嵌套数据
· [ SPARK-19606 ] - 支持spark-dispatcher中的约束
· [ SPARK-20090 ] - 将StructType.fieldNames添加到Python API
· [ SPARK-20542 ] - 在Bucketizer中添加一个API,可以一次处理大量的列
· [ SPARK-20601 ] - 约束Logistic回归参数的Python API更改
· [ SPARK-20703 ] - 添加一个用于写入数据的操作符
· [ SPARK-20812 ] - 向火花调度器添加Mesos Secrets支持
· [ SPARK-20863 ] - 将度量/工具添加到LiveListenerBus
· [ SPARK-20892 ] - 将SQL trunc函数添加到SparkR
· [ SPARK-20899 ] - PySpark在RFormula中支持stringIndexerOrderType
· [ SPARK-20917 ] - SparkR支持与R一致的字符串编码
· [ SPARK-20953 ] - 添加哈希映射指标以进行聚合和连接
· [ SPARK-20960 ] - 使ColumnVector公开
· [ SPARK-20979 ] - 添加费率来源以生成测试和基准值
· [ SPARK-21000 ] - 将Mesos标签支持添加到SparkDispatcher
· [ SPARK-21027 ] - 并行一个与剩余分类器
· [ SPARK-21043 ] - 将unionByName API添加到数据集
· [ SPARK-21092 ] - 在逻辑计划和表达式中连线SQLConf
· [ SPARK-21208 ] - 在sparkR中可以从sc获得“setLocalProperty”
· [ SPARK-21221 ] - CrossValidator和TrainValidationSplit持续嵌套估计器,如OneVsRest
· [ SPARK-21310 ] - 向PySpark GLM添加偏移量
· [ SPARK-21421 ] - 将查询ID添加为本地属性,以允许源和汇使用它
· [ SPARK-21468 ] - FeatureHasher Python API
· [ SPARK-21499 ] - 支持为Spark UDAF(UserDefinedAggregateFunction)创建持久性功能
· [ SPARK-21519 ] - 向JDBC数据源添加一个选项以初始化远程数据库会话的环境
· [ SPARK-21542 ] - 自定义Python持久性的辅助函数
· [ SPARK-21633 ] - Python中的一元变换器
· [ SPARK-21726 ] - 在测试模式下检查QO中计划的结构完整性
· [ SPARK-21777 ] - 更简单的数据集。示例API
· [ SPARK-21840 ] - 在同一JVM中允许多个SparkSubmit调用,而不会污染系统属性
· [ SPARK-21842 ] - 在Mesos中支持Kerberos票据更新和创建
· [ SPARK-21854 ] - MLOR汇总的Python界面
· [ SPARK-21911 ] - ML调整的并行模型评估:PySpark
· [ SPARK-22131 ] - 将Mesos Secrets支持添加到Mesos驱动程序
· [ SPARK-22160 ] - 允许在范围洗牌交换中更改每个分区的采样点
· [ SPARK-22181 ] - 如果其中一个或两个数据集完全从同一家长的过滤器中派生出来,请将ReplaceExceptWithFilter替换
· [ SPARK-22456 ] - 添加新的功能dayofweek
· [ SPARK-22521 ] - VectorIndexerModel支持通过handleInvalid:Python API处理未注册的类别
· [ SPARK-22734 ] - VectorSizeHint Python API
· [ SPARK-22781 ] - 支持使用ORC文件创建流式数据集
· [ SPARK-23008 ] - OnehotEncoderEstimatorpython API
Improvement
· [ SPARK-7481 ] - 添加spark-hadoop-cloud模块以吸引对象存储支持
· [ SPARK-9221 ] - 支持范围框中的IntervalType
· [ SPARK-10216 ] - 避免在用群组查询的方式覆盖到Hive表中时创建空文件
· [ SPARK-10655 ] - 增强DB2语言来处理XML,DECIMAL和DECFLOAT
· [ SPARK-10931 ] - PySpark ML模型应该包含Param值
· [ SPARK-11574 ] - Spark应该支持StatsD沉箱
· [ SPARK-12664 ] - 在MultilayerPerceptronClassificationModel中暴露概率rawPrediction
· [ SPARK- 13030] - 将OneHotEncoder更改为估算器
· [ SPARK-13041 ] - 在每个驱动程序的调度程序的ui页面上添加驱动程序历史记录ui链接和mesos沙箱链接
· [ SPARK-13656 ] - 删除spark.sql.parquet.cacheMetadata
· [ SPARK-13846 ] - 未知特征上的VectorIndexer输出应该更具描述性
· [ SPARK-13947 ] - 使用无效表引用的错误消息不明确
· [ SPARK- 14371] - OnlineLDAOptimizer不应该为每个文档以小批量方式向驱动程序收集统计信息
· [ SPARK-14659 ] - OneHotEncoder支持在编码矢量中按字母顺序放置第一个类别
· [ SPARK- 14932] - 允许DataFrame.replace()用None替换值
· [ SPARK-15648 ] - 添加TeradataDialect
· [ SPARK-16019 ] - 消除纱线工作启动时发生的意外延迟
· [ SPARK-16496 ] - 添加全文作为阅读SQL中的文本的选项。
· [ SPARK- 16931] - PySpark访问数据帧分段API
· [ SPARK-16957 ] - 使用加权中点作为分割值。
· [ SPARK-17006 ] - 随着列表性能随着调用次数而下降
· [ SPARK-17310 ] - 在普通地板阅读器中禁用Parquet的逐记录过滤器,并在Spark端执行
· [ SPARK-17414 ] - 设置类型不支持创建数据帧
· [ SPARK-17701 ] - 重构DataSourceScanExec,使其sameResult调用不会比较字符串
· [ SPARK-17924 ] - 合并流式传输和批量写入路径
· [ SPARK-18136 ] - 使PySpark pip安装在Windows上工作
· [ SPARK-18540 ] - ORC Hive表的全部代码
· [ SPARK-18619 ] - 使QuantileDiscretizer / Bucketizer /StringIndexer从HasHandleInvalid继承
· [ SPARK-18623 ] - 将` returnNullable`添加到`StaticInvoke`并修改它以正确处理。
· [ SPARK-18838 ] - 大型作业事件处理的高延迟
· [ SPARK-18891 ] - 支持特定的集合类型
· [ SPARK-19112 ] - 为ZStandard添加编解码器
· [ SPARK-19159 ] - PySpark UDF API改进
· [ SPARK-19236 ] - 添加createOrReplaceGlobalTempView
· [ SPARK-19270 ] - 将汇总表添加到GLM摘要中
· [ SPARK-19285 ] - Java - 提供0个参数的用户自定义函数(UDF0)
· [ SPARK-19358 ] - LiveListenerBus在由于全部填充的队列而丢弃时记录事件名称
· [ SPARK-19439 ] - PySpark的registerJavaFunction应该支持UDAF
· [ SPARK-19552 ] - 将Netty版本升级到4.1.xfinal
· [ SPARK-19558 ] - 提供将QueryExecutionListener附加到SparkSession的配置选项
· [ SPARK-19732 ] - DataFrame.fillna()不适用于PySpark中的bools
· [ SPARK-19759 ] - 数据框上的ALSModel.predict:不使用blas的潜在优化
· [ SPARK-19852 ] - StringIndexer.setHandleInvalid应该有另一个选项'new':Python API和文档
· [ SPARK-19866 ] - 为spark.ml添加本地版本的Word2Vec findSynonyms:Python API
· [ SPARK-19878 ] - 在InsertIntoHiveTable.scala中初始化配置单元serde时添加配置单元配置
· [ SPARK-19937 ] - 在洗牌时收集块大小的度量。
· [ SPARK-19951 ] - 添加字符串连接运算符|| 到Spark SQL
· [ SPARK-19975 ] - 将map_keys和map_values函数添加到Python
· [ SPARK-20014 ] - 优化mergeSpillsWithFileStream方法
· [ SPARK-20073 ] - 将eqNullSafe与派生表结合使用时出现意外的笛卡儿积
· [ SPARK-20101 ] - 当“spark.sql.columnVector.offheap.enable”设置为“true”时使用OffHeapColumnVector
· [ SPARK-20109 ] - 需要将IndexedRowMatrix转换为密集块矩阵的方法
· [ SPARK-20168 ] - 启用kinesis从时间戳指定的初始位置开始流式传输
· [ SPARK-20199 ] - GradientBoostedTreesModel没有featureSubsetStrategy参数
· [ SPARK-20236 ] - 覆盖分区数据源表应该只覆盖相关的分区
· [ SPARK-20290 ] - PySpark列应提供eqNullSafe
· [ SPARK-20307 ] - SparkR:将setHandleInvalid传递给使用StringIndexer的spark.mllib函数
· [ SPARK-20331 ] - 扩大对Hive分区修剪谓词下推的支持
· [ SPARK-20350 ] - 在布尔表达式简化过程中应用互补法则
· [ SPARK-20355 ] - 在历史页面上显示Spark版本
· [ SPARK-20371 ] - R包装collect_list和collect_set
· [ SPARK-20375 ] - R包装数组和地图
· [ SPARK-20376 ] - 使StateStoreProvider可插入
· [ SPARK-20379 ] - 允许通过env变量设置与SSL相关的密码
· [ SPARK-20383 ] - SparkSQL不支持用关键字'OR REPLACE'和'IF NOT EXISTS'来创建函数
· [ SPARK-20392 ] - 调用ML流水线时,对于列数很多但行数很少的数据集调用适合性会降低
· [ SPARK-20416 ] - SQL与数据集中的UDF列名称不一致
· [ SPARK-20425 ] - 支持扩展显示模式,每行打印一列数据
· [ SPARK-20431 ] - 在DataFrameReader.schema中支持DDL格式的字符串
· [ SPARK-20433 ] - 将jackson-databind更新到2.6.7.1
· [ SPARK-20437 ] - R包装rollup和立方体
· [ SPARK-20438 ] - R包装分裂和重复
· [ SPARK-20460 ] - 使其更加一致地处理列名重复
· [ SPARK-20463 ] - 将对 IS [NOT]DISTINCT FROM的支持添加到SPARK SQL
· [ SPARK-20484 ] - 将文档添加到ALS代码
· [ SPARK-20490 ] - 添加eqNullSafe,不是和!到SparkR
· [ SPARK-20493 ] - 为R中的DDL类型字符串取消de-deuplicate解析逻辑
· [ SPARK-20495 ] - 将StorageLevel添加到cacheTable API
· [ SPARK-20519 ] - 当输入参数为空时,可能会发生运行时异常
· [ SPARK-20532 ] - SparkR应提供分组和grouping_id
· [ SPARK-20533 ] - SparkR包装模型应该是私有的,价值应该是懒惰的
· [ SPARK-20535 ] - 用于explode_outer和posexplode_outer的R包装器
· [ SPARK-20544 ] - input_file_name的R wrapper
· [ SPARK-20550 ] - Dataset.alias的 R包装器
· [ SPARK-20557 ] - JdbcUtils不支持java.sql.Types.TIMESTAMP_WITH_TIMEZONE
· [ SPARK-20566 ] - ColumnVector应该支持`appendFloats`数组
· [ SPARK-20599] - ConsoleSink应该使用写入(批处理)
· [ SPARK-20614 ] - 在AppVeyor中与Jenkins使用相同的log4j配置
· [ SPARK-20619 ] - StringIndexer支持多种标签排序方式
· [ SPARK-20639 ] - 在SQL中为to_timestamp添加单参数支持
· [ SPARK-20668 ] - 修改ScalaUDF来处理可空性。
· [ SPARK-20670 ] - 简化FPGrowth变换
· [ SPARK-20679 ] - 让ML ALS为用户/项目的一个子集推荐
· [ SPARK-20682 ] - 基于Apache ORC添加新的ORCFileFormat
· [ SPARK-20715 ] - MapStatuses不应重复存储在ShuffleMapStage和MapOutputTracker中
· [ SPARK-20720 ] - '执行者摘要'应显示确切的数字,'已移除的执行者'应显示具体的数字,在应用程序页面
· [ SPARK-20726 ] - 用于SQL广播的R封装器
· [ SPARK-20728 ] - 在sql / hive和sql/ core之间配置ORCFileFormat
· [ SPARK-20730 ] - 添加新的优化程序规则以组合嵌套的Concats
· [ SPARK-20736 ] - PySpark StringIndexer支持StringOrderType
· [ SPARK-20758 ] - 添加常量传播优化
· [ SPARK-20775 ] - from_json也应该有一个API,其中模式用字符串指定
· [ SPARK-20779 ] - 在某些文件中,ASF标题放置在不正确的位置
· [ SPARK-20785 ] - Spark应提供跳转链接并在SQL Web UI中添加(计数)。
· [ SPARK-20806 ] - 启动器:重新检查Spark lib目录
· [ SPARK-20830 ] - 用于explode_outer和posexplode_outer的PySpark包装器
· [ SPARK-20835 ] - 当提交应用程序时,--total-executor-cores参数设置为小于0时,应直接退出
· [ SPARK-20841 ] - 支持FROM子句中的表列别名
· [ SPARK-20842 ] - 升级到Hive Metastore Client 1.2的1.2.2
· [ SPARK-20849 ] - 文档R DecisionTree
· [ SPARK-20861 ] - Pyspark CrossValidator&TrainValidationSplit应将参数循环委托给估计器
· [ SPARK-20871 ] - 只在调试模式下记录Janino码
· [ SPARK-20875 ] - 当目录被删除时,Spark应该打印日志
· [ SPARK-20883 ] - 提高StateStore API的效率
· [ SPARK-20886 ] - 如果FileOutputCommitter.getWorkPath ==null,HadoopMapReduceCommitProtocol将失败并显示消息
· [ SPARK-20887 ] - 在ConfigBuilder中支持备用密钥
· [ SPARK-20894 ] - 检查HDFS时出错
· [ SPARK-20918 ] - 在FunctionRegistry中使用FunctionIdentifier作为函数标识符
· [ SPARK-20930 ] - 计算成本后摧毁广播中心
· [ SPARK-20936 ] - 关于resolveURI测试的一个重要案例缺乏
· [ SPARK-20946 ] - 不要更新SparkSession.getOrCreate中的现有SparkContext的conf
· [ SPARK- 20950] - 将一个新配置添加到之前硬编码的diskWriteBufferSize
· [ SPARK-20966 ] - 表格数据未按startTime time desc排序,时间未格式化,并且在JDBC / ODBC Server页面中存在冗余代码。
· [ SPARK-20972 ] - 将HintInfo.isBroadcastable重命名为广播
· [ SPARK-20981 ] - 为Spark添加 - 存储库等效配置
· [ SPARK- 20985] - 改进KryoSerializerResizableOutputSuite
· [ SPARK-20994 ] - 缓解StreamManager中的内存压力
· [ SPARK-20995 ] - 'Spark-env.sh.template'应该添加'YARN_CONF_DIR'配置指令。
· [ SPARK-21012 ] - 支持向Spark添加资源的glob路径
· [ SPARK-21039 ] - 在DataFrame.stat.bloomFilter中使用treeAggregate而不是聚合
· [ SPARK-21060 ] - 关于分页功能的Css风格在执行程序页面中是错误的。
· [ SPARK- 21070] - 从cloudpickle python模块中挑选云端升级
· [ SPARK-21091 ] - 将约束代码移入QueryPlanConstraints
· [ SPARK-21100 ] - 添加摘要方法作为替代方法来描述给出与熊猫类似的四分位数
· [ SPARK-21103 ] - QueryPlanConstraints应该是LogicalPlan的一部分
· [ SPARK-21110 ] - 结构应该可用于不等式过滤器
· [ SPARK-21113 ] - 支持预读输入流,以在溢出阅读器中分摊磁盘IO成本
· [ SPARK-21115 ] - 如果剩下的核心数量少于coresPerExecutor,剩下的核心将不会被分配,因此它不应该检查每个时间表
· [ SPARK- 21125] - PySpark上下文缺失功能来设置职位描述。
· [ SPARK-21135 ] - 在历史记录服务器页面上,应该隐藏未完成应用程序的持续时间,而不是显示为0
· [ SPARK-21137 ] - Spark从本地文件系统缓慢读取许多小文件
· [ SPARK-21142 ] -spark-streaming-kafka-0-10对kafka的依赖程度太高
· [ SPARK-21146 ] - 任何线程获取UncaughtException时,主/工应处理并关闭
· [ SPARK-21149 ] - 为R添加作业描述API
· [ SPARK-21153 ] - 滚动窗口的时间窗口可以使用项目而不是展开+过滤器
· [ SPARK-21155 ] - 将(运行中的任务)添加到Spark UI进度中
· [ SPARK-21164 ] - 从Sample中删除isTableSample,并从Alias和AttributeReference中生成
· [ SPARK-21174 ] - 验证逻辑运算符级别的采样分数
· [ SPARK-21175 ] - 如果已有很多请求正在进行,shuffle服务应拒绝提取请求
· [ SPARK-21189 ] - 处理Jenkins中的未知错误代码,而不是在PR中留下不完整的评论
· [ SPARK-21192 ] - 通过StreamingQuery重新启动保留State Store提供程序类的配置
· [ SPARK-21193 ] - 在setup.py中指定Pandas版本
· [ SPARK-21196 ] - 将查询计划的codegen信息分解为序列
· [ SPARK-21217 ] - 支持ColumnVector.Array.to
· [ SPARK-21222 ] - 从分析器到优化器中移除 Distinct子句
· [ SPARK-21229 ] - 删除QueryPlan.preCanonicalized
· [ SPARK-21238 ] - 允许嵌套的SQL执行
· [ SPARK-21240 ] - 修复了在UT中构造和停止SparkContext的代码风格
· [ SPARK-21243 ] - 限制一次洗牌提取中的地图数量
· [ SPARK-21247 ] - 类型比较应尊重区分大小写的SQL配置
· [ SPARK-21250 ] - 在工作页面的'运行执行程序'表中添加一个URL以访问作业页面
· [ SPARK-21256 ] - 添加WithSQLConf到Catalyst测试
· [ SPARK-21260 ] - 删除未使用的OutputFakerExec
· [ SPARK-21266 ] - 支持在dapply / gapply / from_json中架构一个DDL格式的字符串
· [ SPARK-21267 ] - 对结构化流媒体节目指南的改进
· [ SPARK-21268 ] - 将中心计算移至KMeans中的分布式地图
· [ SPARK-21273 ] - 从逻辑计划中分离统计传播
· [ SPARK-21275 ] - 更新GLM测试以使用supportedFamilyNames
· [ SPARK-21276 ] - 更新lz4-java删除自定义的LZ4BlockInputStream
· [ SPARK- 21285] - VectorAssembler应在不支持使用的数据类型时报告列名
· [ SPARK-21295 ] - 混淆错误消息以查找缺失的引用
· [ SPARK-21296 ] - 避免PySpark createDataFrame模式验证中的每个记录类型分派
· [ SPARK-21297 ] - 在“JDBC / ODBC服务器”页面添加计数。
· [ SPARK-21304 ] - 删除与收集相关的编码器表达式不必要的isNull变量
· [ SPARK-21305 ] - 使用原生BLAS改善ML/ MLLIB性能的BKM(最为人所知的方法)
· [ SPARK-21308 ] - 从优化器中删除SQLConf参数
· [ SPARK-21313 ] - ConsoleSink的字符串表示
· [ SPARK-21315 ] - 在ExternalAppendOnlyUnsafeRowArray中的generateIterator(startIndex)时跳过一些溢出文件。
· [ SPARK-21321 ] - 关机时Spark非常详细,令用户感到困惑
· [ SPARK-21323 ] - 将sql.catalyst.plans.logical.statsEstimation.Range重命名为ValueInterval
· [ SPARK-21326 ] - 在实现LibSVMFileFormat时使用TextFileFormat
· [ SPARK-21329 ] - 显式创建EventTimeWatermarkExecUnaryExecNode
· [ SPARK-21358 ] - 在pyspark重新分区和分区的论点
· [ SPARK-21365 ] - 重复数据逻辑解析DDL类型的定义
· [ SPARK-21373 ] - 将Jetty更新至9.3.20.v20170531
· [ SPARK-21381 ] - SparkR:为分类算法传递setHandleInvalid
· [ SPARK-21382 ] - 关于building-spark.md中Scala 2.10的说明是错误的。
· [ SPARK-21388 ] - GBT从HasThreshold继承HasStepSize&LInearSVC / Binarizer
· [ SPARK-21396 ] - Spark Hive Thriftserver不返回UDT字段
· [ SPARK-21401 ] - 为BoundedPriorityQueue添加轮询函数
· [ SPARK-21408 ] - 对于小执行程序,缺省的RPC调度程序线程池大小太大
· [ SPARK-21409 ] - 在SQL指标和进度更新中公开状态存储内存使用情况
· [ SPARK-21410 ] - 在RangePartitioner(分区:Int,rdd:RDD [])中,如果RDD中的元素数(rdd.count())小于分区数(构造函数中的分区),则RangePartitioner.numPartitions是错误的。 。
· [ SPARK-21415 ] - 分类替罪羊警告,第1部分
· [ SPARK-21434 ] - 添加PySpark pip文档
· [ SPARK-21435 ] - 在写入文件时应该跳过空文件
· [ SPARK-21472 ] - 将ArrowColumnVector作为箭头向量的读取器引入。
· [ SPARK-21475 ] - 更改为使用NIO的文件API进行外部随机播放服务
· [ SPARK-21477 ] - 标记LocalTableScanExec的输入数据瞬态
· [ SPARK-21491 ] - 性能增强:消除中间集合的创建
· [ SPARK-21504 ] - 在表元数据中添加spark版本信息
· [ SPARK-21506 ] - “spark.executor.cores”的描述可能不正确
· [ SPARK-21513 ] - SQL to_json应该支持所有列类型
· [ SPARK-21517 ] - 通过块管理器获取本地数据
· [ SPARK-21524 ] -ValidatorParamsSuiteHelpers生成错误的临时文件
· [ SPARK-21527 ] - 使用缓冲区限制以利用JAVA NIO Util的buffercache
· [ SPARK-21530 ] - 更新spark.shuffle.maxChunksBeingTransferred的描述
· [ SPARK-21538 ] - 数据集API中的属性解析不一致
· [ SPARK-21544 ] - 某些模块的测试罐不应安装或部署两次
· [ SPARK-21553 ] - 在spark-shell中添加主参数默认值的描述
· [ SPARK-21566 ] - Python方法摘要
· [ SPARK-21575 ] - 消除java-R序列化中的不必要的同步
· [ SPARK- 21578] - 添加JavaSparkContextSuite
· [ SPARK-21583 ] - 使用ArrowColumnVectors为基于行的迭代创建一个ColumnarBatch
· [ SPARK-21584 ] - 更新R方法进行总结以调用新的实现
· [ SPARK-21589 ] - 在Hive UDF / UDTF / UDAF中添加有关不支持的函数的文档
· [ SPARK-21592 ] - 在Maven构建中跳过maven-compiler-pluginmain和测试编译
· [ SPARK-21602 ] - 将map_keys和map_values函数添加到R中
· [ SPARK-21603 ] - 整个codegen会慢得多,然后整个codegen在函数太长时关闭
· [ SPARK-21604 ] - 如果对象扩展Logging,我建议删除无用的var LOG。
· [ SPARK-21608 ] - 窗口rangeBetween()API应允许字面边界
· [ SPARK-21611 ] - 用于登录几个类的错误类名称。
· [ SPARK-21619 ] - 明确规范化计划的执行失败
· [ SPARK-21622 ] - 支持SparkR中的偏移量
· [ SPARK-21623 ] - 关于ml / tree / impl /DTStatsAggregator.scala的parentStats评论是错误的
· [ SPARK-21634 ] - 将OneRowRelation从案例对象更改为案例类
· [ SPARK-21640 ] - DataFrameWriter中带有String参数的方法模式容易出错
· [ SPARK-21665 ] - 使用后需要关闭资源
· [ SPARK-21667 ] - ConsoleSink不应该使用checkpointLocation选项失败流式查询
· [ SPARK-21669 ] - 内部API,用于在FileFormatWriter作业期间收集指标/统计信息
· [ SPARK-21672 ] - 删除特定于SHS的应用程序/尝试数据结构
· [ SPARK-21675 ] - 在细节阶段页面的底部添加导航栏
· [ SPARK-21680 ] - ML / MLLIB矢量压缩优化
· [ SPARK-21694 ] - 支持Mesos CNI网络标签
· [ SPARK-21701 ] - 为RPC客户端添加TCP发送/ rcv缓冲区大小支持
· [ SPARK-21709 ] - 使用sbt 0.13.16并更新sbt插件
· [ SPARK-21717 ] - 在全阶段代码生成器中解耦运算符中消费行的生成代码
· [ SPARK-21718 ] - 重型日志类型:“基于统计信息跳过分区...”
· [ SPARK-21728 ] - 允许SparkSubmit使用日志记录
· [ SPARK-21732 ] - Lazily init配置单元Metastore客户端
· [ SPARK-21745 ] - 重构ColumnVector层次结构,使ColumnVector只读并引入WritableColumnVector。
· [ SPARK-21751 ] -CodeGeneraor.splitExpressions更精确地计算代码大小
· [ SPARK-21756 ] - 添加JSON选项以允许未加引号的控制字符
· [ SPARK-21769 ] - 为Hive-serde表添加表选项,以使Spark始终尊重由Spark SQL推断的模式
· [ SPARK-21770 ] - 概率分类模型:改进所有零原始预测的标准化
· [ SPARK-21771 ] - SparkSQLEnv创建一个无用的meta hive客户端
· [ SPARK-21773 ] - 如果在SQL文档构建中缺少路径,请安装mkdocs
· [ SPARK-21781 ] - 修改DataSourceScanExec以使用具体的ColumnVector类型。
· [ SPARK-21787 ] - 支持在本机OrcFileFormat中推送DateType的过滤器
· [ SPARK-21789 ] - 删除用于解析抽象模式字符串的过时代码
· [ SPARK-21803 ] - 删除HiveDDLCommandSuite
· [ SPARK-21806 ] -BinaryClassificationMetrics pr():第一个点(0.0,1.0)是误导性的
· [ SPARK-21807 ] - 当表达式数量大于100时,LogicalPlan中的getAliasedConstraints函数将花费很长时间
· [ SPARK-21813 ] - [core]修改TaskMemoryManager.MAXIMUM_PAGE_SIZE_BYTES评论
· [ SPARK-21839 ] - 支持ORC压缩的SQL配置
· [ SPARK-21862 ] - 在PCA中添加溢出检查
· [ SPARK-21865 ] - 简化Spark SQL的分布语义
· [ SPARK-21866 ] - SPIP:Spark中的图像支持
· [ SPARK-21871 ] - 编译生成的代码时检查实际的字节码大小
· [ SPARK-21873 ] - 从Kafka获取期间,CachedKafkaConsumer引发NonLocalReturnControl
· [ SPARK-21875 ] - Jenkins传递违反./dev/lint-java的Java代码
· [ SPARK-21878 ] - 创建SQLMetricsTestUtils
· [ SPARK-21886 ] - 使用SparkSession.internalCreateDataFrame创建具有LogicalRDD逻辑运算符的数据集
· [ SPARK-21891 ] - 将TBLPROPERTIES添加到DDL语句:CREATE TABLE USING
· [ SPARK-21897 ] - 在Python和R中添加unionByName API到DataFrame
· [ SPARK-21901 ] - 为StateOperatorProgress定义toString
· [ SPARK-21902 ] - BlockManager.doPut将在finally块中抛出异常时隐藏实际的异常
· [ SPARK-21903 ] - 将scalastyle升级到1.0.0
· [ SPARK-21923 ] - 避免为每条记录调用reserveUnrollMemoryForThisTask
· [ SPARK-21963 ] - 创建临时文件应该在使用后删除
· [ SPARK-21967 ] -org.apache.spark.unsafe.types.UTF8String#compareTo应该一次比较8个字节以获得更好的性能
· [ SPARK-21970 ] - 为冗余投影声明执行项目范围扫描
· [ SPARK-21973 ] - 添加一个新选项来过滤要在TPCDSQueryBenchmark中运行的查询
· [ SPARK-21975 ] - 基于成本的优化器中的直方图支持
· [ SPARK-21981 ] - 用于ClusteringEvaluator的Python API
· [ SPARK-21983 ] - 修复ANTLR 4.7弃用
· [ SPARK-21988 ] - 将默认统计信息添加到StreamingRelation和StreamingExecutionRelation
· [ SPARK-22001 ] - ImputerModel可以一次完成所有输入列的Column功能
· [ SPARK-22002 ] - 读取JDBC表使用自定义模式支持指定部分字段
· [ SPARK-22003 ] - 当列为数组时,矢量化阅读器不能与UDF一起工作
· [ SPARK-22009 ] - 使用treeAggregate改进一些algs
· [ SPARK-22043 ] - Python配置文件show_profiles()和dump_profiles()应该会带来更好的消息
· [ SPARK-22049 ] - 混淆from_utc_timestamp和to_utc_timestamp的行为
· [ SPARK-22050 ] - 允许BlockUpdated事件可选地记录到事件日志中
· [ SPARK-22058 ] - 如果发生异常,BufferedInputStream将不会关闭
· [ SPARK-22066 ] - 将checkstyle更新为8.2,启用它,修复违规
· [ SPARK-22072 ] - 允许将相同的shell参数用于发布 - 构建中的所有不同步骤
· [ SPARK-22075 ] - GBT忘记了不支持Checkpointer缓存的数据集
· [ SPARK-22099 ] - 需要在SQL页面中更改'作业ID'列表样式。
· [ SPARK-22103 ] - 将HashAggregateExec父级消耗移动到codegen中的单独函数
· [ SPARK-22106 ] - 删除对0参数pandas_udfs的支持
· [ SPARK-22112 ] - 将缺少的方法添加到pyspark api:spark.read.csv(Dataset
· [ SPARK-22120 ] -TestHiveSparkSession.reset()应该清理Hive仓库目录
· [ SPARK-22122 ] - 遵守WITH子句对TPCDSQueryBenchmark中的输入行进行计数
· [ SPARK-22123 ] - 添加任务集黑名单的最新失败原因
· [ SPARK-22124 ] - 样本和限制也应推迟codegen下的输入评估
· [ SPARK-22125 ] - 为矢量化UDF启用箭头流格式。
· [ SPARK-22130 ] - UTF8String.trim()无效地扫描所有空白字符串两次。
· [ SPARK-22133 ] - Document Mesos拒绝报价持续时间配置
· [ SPARK-22138 ] - 允许在发布 - 构建期间重试
· [ SPARK-22142 ] - 在配置文件后面移动Flume支持
· [ SPARK-22147 ] - BlockId.hashCode在每次调用时分配一个StringBuilder / String
· [ SPARK-22156 ] - Word2Vec:当numIterations> 1时,学习速率更新公式不正确
· [ SPARK-22170 ] - 广播连接在驱动程序内存中保存行的额外副本
· [ SPARK-22173 ] - 表格CSS样式需要在历史页面和执行者页面中进行调整。
· [ SPARK-22188 ] - 针对跨站点脚本,MIME嗅探和MitM攻击添加防御
· [ SPARK-22190 ] - 将Spark执行程序任务指标添加到Dropwizard指标
· [ SPARK-22193 ] - SortMergeJoinExec:错字更正
· [ SPARK-22203 ] - 为文件清单Spark作业添加作业说明
· [ SPARK-22208 ] - 通过不舍入targetError并从索引0开始提高percentile_approx
· [ SPARK-22214 ] - 重构列表配置单元分区代码
· [ SPARK-22217 ] - ParquetFileFormat支持任意OutputCommitters
· [ SPARK-22233 ] - 在HadoopRDD中过滤出空的InputSplit
· [ SPARK-22247 ] - Hive分区过滤非常慢
· [ SPARK-22263 ] - 重构确定性为惰性值
· [ SPARK-22266 ] - 多次评估相同的聚合函数
· [ SPARK-22268 ] - 修复java风格错误
· [ SPARK-22282 ] - 将OrcRelation重命名为OrcFileFormat并删除ORC_COMPRESSION
· [ SPARK-22294 ] - 在启动检查点时重置spark.driver.bindAddress
· [ SPARK-22301 ] - 将规则添加到优化器,其中包含空值列表
· [ SPARK-22302 ] - 删除subprocess.check_output和check_call的手动backports
· [ SPARK-22308 ] - 使用ScalaTest使用FunSuite以外的套件支持Spark代码的单元测试
· [ SPARK-22313 ] - 将不赞成使用的API的弃用警告标记为DeprecationWarning
· [ SPARK-22315 ] - 检查R包和JVM之间的版本匹配
· [ SPARK-22346 ] - 更新VectorAssembler以结合流式处理
· [ SPARK-22348 ] - 提供ColumnarBatch的表缓存也应该进行分区批量修剪
· [ SPARK-22366 ] - 支持ignoreMissingFiles标志并行于ignoreCorruptFiles
· [ SPARK-22372 ] - 使YARN客户端扩展SparkApplication
· [ SPARK-22378 ] - 生成冗余空检查以提取复杂类型中的值
· [ SPARK-22379 ] - 在PySpark SQL测试中减少重复setUpClass和tearDownClass
· [ SPARK-22385 ] - MapObjects不应按索引访问列表元素
· [ SPARK-22397 ] - 为QuantileDiscretizer添加多列支持
· [ SPARK-22405 ] - 丰富事件信息并添加ExternalCatalogEvent的新事件
· [ SPARK-22407 ] - 在存储页面添加rdd id列以加快导航
· [ SPARK-22408 ] - RelationalGroupedDataset的不同透视值计算启动不必要的阶段
· [ SPARK-22422 ] - 将调整的R2添加到RegressionMetrics
· [ SPARK-22445 ] - 将CodegenContext.copyResult移至CodegenSupport
· [ SPARK-22450 ] - 安全地注册mllib的类
· [ SPARK-22476 ] - 在R中添加新功能dayofweek
· [ SPARK-22496 ] - 直线显示操作日志
· [ SPARK-22519 ] - 删除ApplicationMaster.cleanupStagingDir()中不必要的stagingDirPath空检查
· [ SPARK-22520 ] - 支持为复杂CASE WHEN生成代码
· [ SPARK-22537 ] - 驾驶员地图输出统计数据汇总面临单点瓶颈
· [ SPARK-22554 ] - 添加一个配置来控制PySpark是否应该使用守护进程
· [ SPARK-22566 ] - 熊猫中的'_merge_type`到Spark DF转换的错误消息
· [ SPARK-22569 ] - 清理splitExpressions和addMutableState的调用方
· [ SPARK-22592 ] - 清理过滤器转换为配置单元
· [ SPARK-22596 ] - 在CodegenSupport.consume中设置ctx.currentVars
· [ SPARK-22597 ] - 为Windows用户添加spark-sql脚本
· [ SPARK-22608 ] - 避免CodeGeneration.splitExpressions()的代码重复
· [ SPARK-22614 ] - 公开范围分区随机播放
· [ SPARK-22617 ] - 使splitExpressions提取上下文的当前输入
· [ SPARK-22638 ] - 为StreamingQueryListenerBus使用单独的查询
· [ SPARK-22649 ] - Dataset API中的localCheckpoint支持
· [ SPARK-22660 ] - 使用position()和limit()来解决scala-2.12中的歧义问题
· [ SPARK-22665 ] - 数据集API:.repartition()不一致/问题
· [ SPARK-22673 ] - InMemoryRelation应尽可能利用磁盘上的表统计信息
· [ SPARK-22675 ] - 重构TypeCoercion中的PropagateTypes
· [ SPARK-22677 ] - 清理哈希聚合的全部代码
· [ SPARK-22682 ] - HashExpression不需要创建全局变量
· [ SPARK-22688 ] - 将Janino版本升级到3.0.8
· [ SPARK-22690 ] - Imputer继承HasOutputCols
· [ SPARK-22692 ] - 减少生成的可变状态的数量
· [ SPARK-22701 ] - 添加ctx.splitExpressionsWithCurrentInputs
· [ SPARK-22704 ] - 减少最小和最大的可变变量的数量
· [ SPARK-22705 ] - 在Case,Coalesce和In中减少可变变量的数量
· [ SPARK-22707 ] - 通过拟合模型优化CrossValidator内存占用
· [ SPARK-22719 ] - 重构ConstantPropagation
· [ SPARK-22729 ] - 将getTruncateQuery添加到JdbcDialect
· [ SPARK-22753 ] - 摆脱dataSource.writeAndRead
· [ SPARK-22754 ] - 检查ExecutorLost情况下的spark.executor.heartbeatInterval设置
· [ SPARK-22763 ] - SHS:忽略未知事件并通过文件解析
· [ SPARK-22767 ] - 在InSet和ScalaUDF中使用ctx.addReferenceObj
· [ SPARK-22771 ] - 用于二进制的SQL concat
· [ SPARK-22774 ] - 在TPCDSQuerySuite中为生成的代码添加编译检查
· [ SPARK-22786 ] - 仅在历史记录服务器中使用AppStatusPlugin
· [ SPARK-22790 ] - 添加可配置因子来描述HadoopFsRelation的大小
· [ SPARK-22799 ] - 如果设置单列和多列参数,则Bucketizer应抛出异常
· [ SPARK-22801 ] - 允许FeatureHasher指定数字列作为分类
· [ SPARK-22810 ] - PySpark支持带有huber损失的LinearRegression
· [ SPARK-22830 ] - Scala编码风格在Spark示例中得到了改进
· [ SPARK-22832 ] - 平分KMeans未执行未使用的数据集
· [ SPARK-22833 ] - [示例]使用Scala进行SparkHive示例的改进
· [ SPARK-22844 ] - R date_trunc API
· [ SPARK-22847 ] - 在为舞台分配schedulingPool时删除AppStatusListener中的重复代码
· [ SPARK-22870 ] - 动态分配应允许0空闲时间
· [ SPARK-22874 ] - 修改检查熊猫版本以使用LooseVersion。
· [ SPARK-22893 ] - 统一数据类型不匹配消息
· [ SPARK-22894 ] - DateTimeOperations应接受类似字符串类型的SQL
· [ SPARK-22895 ] - 推下第一个非确定性之后的确定性谓词
· [ SPARK-22896 ] - 字符串插值的改进
· [ SPARK-22897 ] - 在TaskContext中公开stageAttemptId
· [ SPARK-22914 ] - 默认情况下,spark.history.ui.port的子层不能解析
· [ SPARK-22919 ] - Bump Apache httpclient版本
· [ SPARK-22921 ] - 合并脚本应该提示分配jiras
· [ SPARK-22922 ] - 用于fitMultiple的Python API
· [ SPARK-22937 ] - 用于二进制输入的SQL elt
· [ SPARK-22939 ] - 在registerFunction中支持Spark UDF
· [ SPARK-22944 ] - 改进折叠传播
· [ SPARK-22945 ] - 在函数对象中添加Java UDF API
· [ SPARK-22952 ] - 弃用stageAttemptId以支持stageAttemptNumber
· [ SPARK-22960 ] - 使build-push-docker-images.sh更友好
· [ SPARK-22979 ] - 避免Python数据转换中的每种记录类型分派(EvaluatePython.fromJava)
· [ SPARK-22994 ] - Spark-on-K8S需要一个容器映像
· [ SPARK-22997 ] - 添加额外的防御措施以防使用释放的MemoryBlocks
· [ SPARK-22999 ] - 'show databases likecommand'可以删除类似的关键字
· [ SPARK-23005 ] - 改进少量分区的RDD.take
· [ SPARK-23029 ] - Docspark.shuffle.file.buffer单位是kb,当没有指定单位时
· [ SPARK-23032 ] - 将每个查询codegenStageId添加到WholeStageCodegenExec
· [ SPARK-23036 ] - 加入GlobalTempView进行测试
· [ SPARK-23062 ] - 除了文档应该明确表明它不在DISTINCT之外
· [ SPARK-23081 ] - 将colRegex API添加到PySpark
· [ SPARK-23090 ] - 抛光ColumnVector
· [ SPARK-23091 ] - 近似单色测试不正确
· [ SPARK-23122 ] - 弃用PySpark中的SQLContext和Catalog中的UDF的注册*
· [ SPARK-23129 ] - Lazy init DiskMapIterator#deserializeStream当ExternalAppendOnlyMap溢出太多次时减少内存使用
· [ SPARK-23141 ] - 支持数据类型字符串作为registerJavaFunction的returnType。
· [ SPARK-23142 ] - 为连续处理添加文档
· [ SPARK-23143 ] - 为连续触发添加Python支持
· [ SPARK-23144 ] - 为连续查询添加控制台接收器
· [ SPARK-23149 ] - 波兰语ColumnarBatch
· [ SPARK-23170 ] - 转储有效运行分析器和优化器规则的统计信息
· [ SPARK-23199 ] - 改进从聚合中的组表达式中删除重复
· [ SPARK-23238 ] - 外部化SQLConfspark.sql.execution.arrow.enabled
· [ SPARK-23248 ] - 将模块docstrings重新定位到PySpark示例中的顶部
· [ SPARK-23249 ] - 改进分区bin-filling算法以减少偏移和分区
· [ SPARK-23276 ] - 在(Hive)OrcHadoopFsRelationSuite中启用UDT测试
· [ SPARK-23279 ] - 避免触发控制台接收器的分布式作业
· [ SPARK-23284 ] - 在访问空插槽时记录几个获取ColumnVector行为的API
· [ SPARK-23296 ] - 用户代码例外的诊断消息应包含堆栈跟踪
· [ SPARK-23305 ] - 为所有基于文件的数据源测试`spark.sql.files.ignoreMissingFiles`
· [ SPARK-23312 ] - 添加一个配置关闭向量化缓存阅读器
· [ SPARK-23317 ] - 将ContinuousReader.setOffset重命名为setStartOffset
· [ SPARK-23454 ] - 将触发信息添加到结构化流式节目指南
Test
· [ SPARK-19662 ] - 为不同的构建案例添加公平调度器单元测试覆盖率
· [ SPARK-20518 ] - 补充新的blockidsuite单元测试
· [ SPARK- 20571] - Flaky SparkRStructuredStreaming测试
· [ SPARK-20607 ] - 向ShuffleSuite添加新的单元测试
· [ SPARK-20957 ] - 片状测试:oassql.streaming.StreamingQueryManagerSuite列表
· [ SPARK-21006 ] - 创建rpcEnv并稍后运行需要关闭和等待终止
· [ SPARK-21128 ] - 由于预先退出“spark-warehouse”/“metastore_db”,多次运行R测试失败
· [ SPARK-21286 ] - [火花芯UT]修改单元测试错误
· [ SPARK-21370 ] - 当没有更新提交时,避免在HDFSBackedStateStore.abort()上执行任何操作
· [ SPARK-21573 ] - 在Jenkins中偶尔会遇到run-tests.py SyntaxError失败的测试
· [ SPARK-21663 ] - MapOutputTrackerSuite案例测试(“远程获取低于最大RPC消息大小”)应该调用stop
· [ SPARK-21693 ] - AppVeyor测试达到了1.5小时的时间限制,有时在SparkR测试中
· [ SPARK-21729 ] - ProbabilisticClassifier的通用测试,以确保输出列的一致性
· [ SPARK-21764 ] - 在Windows上测试失败:资源未关闭且路径不正确
· [ SPARK-21843 ] - 在ExchangeCoordinatorSuite中,testNameNote应该是“(minNumPostShufflePartitions:”+ numPartitions +“)”
· [ SPARK-21936 ] - HiveExternalCatalog的向后兼容性测试框架
· [ SPARK-21949 ] - 在单元测试中创建的表格应该在使用后放下
· [ SPARK-21982 ] - 当您的jvm语言环境不是美国时,为了通过UtilsSuite将语言环境设置为美国
· [ SPARK-22140 ] - 为TPCDS查询添加测试套件
· [ SPARK-22161 ] - 添加Impala修改的TPC-DS查询
· [ SPARK-22418 ] - 为NULL处理添加测试用例
· [ SPARK-22423 ] - 像TestHiveSingleton.scala这样的Scala测试源文件应该位于scala源代码根目录
· [ SPARK-22595 ] - 片状测试:CastSuite.SPARK-22500:cast for struct不应生成超过64KB的代码
· [ SPARK-22644 ] - 让ML测试团队支持StructuredStreaming测试
· [ SPARK-22787 ] - 添加一个TPCH查询套件
· [ SPARK-22800 ] - 添加一个SSB查询套件
· [ SPARK-22881 ] - 针对StructuredStreaming的ML测试:spark.ml.regression
· [ SPARK-22938 ] - 声明仅在驱动程序上访问SQLConf.get。
· [ SPARK-23072 ] - 为基于文件的数据源添加Unicode模式测试
· [ SPARK-23132 ] - 在测试中运行ml.image doctests
· [ SPARK-23197 ] - 片状测试:spark.streaming.ReceiverSuite。“receiver_life_cycle”
· [ SPARK-23300 ] - 打印出Pandas和PyArrow是否安装在测试中
· [ SPARK-23311 ] - 为测试CombineTypedFilters添加FilterFunction测试用例
· [ SPARK-23319 ] - 跳过PySpark测试旧熊猫和旧PyArrow
Task
· [ SPARK-12297 ] - 为Parquet / Hive int96时间戳错误添加解决方法。
· [ SPARK-19810 ] - 取消对Scala 2.10的支持
· [ SPARK-20434 ] - 将Hadoop委托令牌代码从纱线移动到核心
· [ SPARK-21366 ] - 为窗口函数添加sql测试
· [ SPARK-21699 ] - 删除ExternalCatalog中未使用的getTableOption
· [ SPARK-21731 ] - 将scalastyle升级到0.9
· [ SPARK-21848 ] - 创建特征来识别用户定义的功能
· [ SPARK-21939 ] - 使用TimeLimits而不是Timeouts
· [ SPARK-22153 ] - 重命名ShuffleExchange - >ShuffleExchangeExec
· [ SPARK-22416 ] - 将OrcOptions从`sql/ hive`移动到`sql / core`
· [ SPARK-22473 ] - 替换弃用的AsyncAssertions.Waiter和java.sql.Date的方法
· [ SPARK-22485 ] - 在MiMa中使用`exclude[Problem]`而不是`excludePackage`
· [ SPARK-22634 ] - 更新Bouncy城堡依赖
· [ SPARK-22672 ] - 重构ORC测试
· [ SPARK-23104 ] - 记录kubernetes仍然是“实验性”
· [ SPARK-23426 ] - 使用`hive` ORC impl并禁用Spark 2.3.0的PPD
· [ SPARK-15526 ] - Shade JPMML
· [ SPARK-7146 ] - ML sharedParams应该成为公共API吗?
· [ SPARK-18085 ] - SPIP:更好的历史服务器可扩展性,用于许多/大型应用程序
· [ SPARK-20746 ] - 内建SQL功能改进
· [ SPARK-22820 ] - Spark 2.3 SQL API审计
· [ SPARK-23105 ] - Spark MLlib,GraphX 2.3 QA伞
· [ SPARK-20015 ] - R 小结中的文档R结构化流式(实验)和R&SS编程指南,R例子
· [ SPARK-20132 ] - 为列字符串函数添加文档
· [ SPARK-20192 ] - SparkR 2.2.0迁移指南,发行说明
· [ SPARK-20442 ] - 在PySpark的ColumnAPI中为函数填充文档
· [ SPARK-20448 ] - 记录FileInputDStream如何与对象存储协同工作
· [ SPARK-20456 ] - 为pyspark的函数集合添加示例
· [ SPARK-20477 ] - R编程指南中的R等分K均值
· [ SPARK-20478 ] - 在R编程指南中记录LinearSVC
· [ SPARK-20855 ] - 更新Spark kinesis文档以使用KinesisInputDStream构建器而不是弃用的KinesisUtils
· [ SPARK-20858 ] - 记录ListenerBus事件队列大小属性
· [ SPARK- 20889] - SparkR为列方法分组的文档
· [ SPARK-20992 ] - 链接到文档中的Nomad调度程序后端
· [ SPARK-21042 ] - Document Dataset.union是按位置决定的,而不是名称
· [ SPARK-21069 ] - 将节目源添加到节目指南
· [ SPARK-21123 ] - 文件流源的选项位于错误的表格中
· [ SPARK-21292 ] - R文档目录功能元数据刷新
· [ SPARK-21293 ] - R文档更新结构化流媒体
· [ SPARK-21469 ] - 为FeatureHasher添加文档和示例
· [ SPARK-21485 ] - Spark SQL函数的API文档
· [ SPARK-21616 ] - SparkR 2.3.0迁移指南,发行说明
· [ SPARK-21712 ] - 澄清PySpark Column.substr()类型检查错误消息
· [ SPARK-21724 ] - 由于日期函数文档中的信息而丢失
· [ SPARK-21976 ] - 修正关于平均绝对误差的错误文档
· [ SPARK-22110 ] - 增强功能描述修饰字符串功能
· [ SPARK-22335 ] - Union for DataSet使用列顺序而不是类型进行联合
· [ SPARK-22347 ] - 当'F.when'条件为假时评估UDF
· [ SPARK-22369 ] - PySpark:spark.catalog接口的文档方法
· [ SPARK-22399 ] - mllib-clustering.html中的引用已过时
· [ SPARK-22412 ] - 修复DataSourceScanExec中的不正确评论
· [ SPARK-22428 ] - 记录配置ContextCleaner的spark属性
· [ SPARK-22490 ] - PySpark文档对SparkSession.builder具有误导性的字符串
· [ SPARK-22541 ] - Dataframes:使用udfs和累加器一个接一个地应用多个滤波器导致错误的累加器
· [ SPARK-22735 ] - 将VectorSizeHint添加到ML功能文档
· [ SPARK-22993 ] - checkpointInterval参数文档应该更清晰
· [ SPARK-23048 ] - 更新mllib文档以将OneHotEncoder替换为OneHotEncoderEstimator
· [ SPARK-23069 ] - R doc用于描述缺失的文本
· [ SPARK-23127 ] - 为CatCols参数更新FeatureHasher用户指南
· [ SPARK-23138 ] - 为多类逻辑回归摘要添加用户指南示例
· [ SPARK-23154 ] - 文件向后兼容保证ML持久性
· [ SPARK-23163 ] - 将Python ML API文档与Scala同步
· [ SPARK-23313 ] - 为ORC添加迁移指南
· [ SPARK-23327 ] - 更新三个外部API或函数的描述
参考:
1、发行说明:https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12339551
2、Spark github:https://github.com/apache/spark
3、Spark官方网站:http://spark.apache.org/
4、Databricks官方:https:databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html