[Spark版本更新]--Spark-2.4.0 发布说明

2018-11-02 Apache Spark 官方发布了 2.4.0版本,以下是 Release Notes,供参考: 

Sub-task

  • [ SPARK-6236 ] - 支持大于2G的缓存块
  • [ SPARK-6237 ] - 支持上传块> 2GB作为流
  • [ SPARK-10884 ] - 支持针对回归和分类相关模型的单实例预测
  • [ SPARK-11239 ] - 用于ML线性回归的PMML导出
  • [ SPARK-12850 ] - 支持桶修剪(对于分块表的谓词下推)
  • [ SPARK-14376 ] - 树木的spark.ml奇偶校验
  • [ SPARK-14540 ] - 在ClosureCleaner中支持Scala 2.12闭包和Java 8 lambda
  • [ SPARK-17091 ] - 将IN谓词转换为等效的Parquet过滤器
  • [ SPARK-19826 ] - 用于PIC的spark.ml Python API
  • [ SPARK-20114 ] - 用于顺序模式挖掘的spark.ml奇偶校验 - PrefixSpan
  • [ SPARK- 21088] - CrossValidator,TrainValidationSplit应该在拟合时收集所有模型:Python API
  • [ SPARK-21898 ] - MLlib中KolmogorovSmirnovTest的特征奇偶校验
  • [ SPARK-22187 ] - 更新已保存状态的unsaferow格式,以便在state为null时设置超时
  • [ SPARK-22239 ] - 用户定义的窗口函数,带有pandas udf(无界窗口)
  • [ SPARK-22274 ] - 用户定义的聚合函数与pandas udf
  • [ SPARK-22362 ] - 为窗口聚合函数添加单元测试
  • [ SPARK-22624 ] - 由SPARK- 22614引入的曝光范围分区随机播放
  • [ SPARK-23011 ] - 支持具有组聚合熊猫UDF的替代功能表单
  • [ SPARK-23030 ] - 使用箭头使用toPandas()集合减少内存消耗
  • [ SPARK-23046 ] - RFormula包含VectorSizeHint管道
  • [ SPARK-23096 ] - 将速率源迁移到v2
  • [ SPARK-23097 ] - 将文本套接字源迁移到v2
  • [ SPARK-23099 ] - 迁移foreach接收器
  • [ SPARK-23120 ] - 向PySpark添加PMML管道导出支持
  • [ SPARK-23203 ] - DataSourceV2应该使用不可变树。
  • [ SPARK-23323 ] - DataSourceV2应使用输出提交协调器。
  • [ SPARK-23325 ] - DataSourceV2读者应始终生成InternalRow。
  • [ SPARK-23341 ] - DataSourceOptions应处理路径和表名以避免混淆。
  • [ SPARK-23344 ] - 将KMeans distanceMeasure param添加到PySpark
  • [ SPARK-23352 ] - 在Pandas UDF中明确指定支持的类​​型
  • [ SPARK-23362 ] - 将Kafka 微量滴定源迁移至v2
  • [ SPARK-23380 ] - 使用Pandas DataFrame为toPandas / createDataFrame中的箭头回退添加一个conf
  • [ SPARK-23401 ] - 改进所有支持类型和不支持类型的测试用例
  • [ SPARK-23418 ] - 如果没有ReadSupportWithSchema,DataSourceV2不应允许userSpecifiedSchema
  • [ SPARK-23491 ] - 连续症状
  • [ SPARK-23503 ] - 连续执行应该对提交的时期进行排序
  • [ SPARK-23555 ] - 在PySpark中为Arrow添加BinaryType支持
  • [ SPARK-23559 ] - 将epoch ID添加到数据编写器工厂
  • [ SPARK-23577 ] - 支持文本数据源的行分隔符
  • [ SPARK-23581 ] - 添加GenerateUnsafeProjection的解释版本
  • [ SPARK-23582 ] - 将解释执行添加到StaticInvoke表达式
  • [ SPARK-23583 ] - 将解释执行添加到Invoke表达式
  • [ SPARK-23584 ] - 将解释执行添加到NewInstance表达式
  • [ SPARK-23585 ] - 为UnwrapOption表达式添加解释执行
  • [ SPARK-23586 ] - 为WrapOption表达式添加解释执行
  • [ SPARK-23587 ] - 为MapObjects表达式添加解释执行
  • [ SPARK-23588 ] - 为CatalystToExternalMap表达式添加解释执行
  • [ SPARK-23589 ] - 为ExternalMapToCatalyst表达式添加解释执行
  • [ SPARK-23590 ] - 为CreateExternalRow表达式添加解释执行
  • [ SPARK-23591 ] - 为EncodeUsingSerializer表达式添加解释执行
  • [ SPARK- 23592] - 为DecodeUsingSerializer表达式添加解释执行
  • [ SPARK-23593 ] - 为InitializeJavaBean表达式添加解释执行
  • [ SPARK-23594 ] - 为GetExternalRowField表达式添加解释执行
  • [ SPARK-23595 ] - 为ValidateExternalType表达式添加解释执行
  • [ SPARK-23596 ] - 修改数据集测试工具以包括解释执行
  • [ SPARK-23597 ] - 针对非解释表达式的Audit Spark SQL代码库
  • [ SPARK-23611 ] - 扩展ExpressionEvalHelper线束以测试故障
  • [ SPARK-23615 ] - 将maxDF参数添加到Python CountVectorizer
  • [ SPARK-23633 ] - 在sql-programming-guide中更新Pandas UDFs部分
  • [ SPARK-23687 ] - 添加MemoryStream
  • [ SPARK-23688 ] - 重构测试远离费率来源
  • [ SPARK-23690 ] - VectorAssembler应该有handleInvalid来处理具有空值的列
  • [ SPARK-23706 ] - spark.conf.get(value,default = None)应该在PySpark中产生None
  • [ SPARK-23711 ] - 向已解释的执行逻辑添加回退
  • [ SPARK- 23713] - 清理UnsafeWriter类
  • [ SPARK-23723 ] - json数据源的新编码选项
  • [ SPARK-23724 ] - 不同于UTF-8的字符集中jsons的自定义记录分隔符
  • [ SPARK-23727 ] - 支持DATE预测压下镶木地板
  • [ SPARK-23736 ] - 高阶函数:concat(array1,array2,...,arrayN)→数组
  • [ SPARK-23747 ] - 添加EpochCoordinator单元测试
  • [ SPARK-23748 ] - 支持从临时表中选择
  • [ SPARK-23762 ] - UTF8StringBuilder使用MemoryBlock
  • [ SPARK-23765 ] - 支持json数据源的行分隔符
  • [ SPARK-23783 ] - 为ML管道添加新的通用导出特性
  • [ SPARK-23807 ] - 添加Hadoop 3配置文件以及相关的POM修复程序
  • [ SPARK-23821 ] - 高阶函数:展平(x)→数组
  • [ SPARK-23826 ] - TestHiveSparkSession应设置默认会话
  • [ SPARK-23847 ] - 将asc_nulls_first,asc_nulls_last添加到PySpark
  • [ SPARK-23859 ] - 仪表改进的初始PR:UUID和日志记录级别
  • [ SPARK-23864 ] - 将不安全*复制方法添加到UnsafeWriter
  • [ SPARK-23870 ] - 将RFormula handleInvalid Param转发给VectorAssembler
  • [ SPARK-23871 ] - 为VectorAssembler handleInvalid添加python api
  • [ SPARK- 23900] - format_number udf应将用户指定的格式作为参数
  • [ SPARK-23902 ] - 在UDF之间的months_中提供一个选项以禁用舍入
  • [ SPARK-23903 ] - 添加对日期提取的支持
  • [ SPARK-23905 ] - 工作日添加UDF
  • [ SPARK-23908 ] - 高阶函数:transform(array ,function )→array
  • [ SPARK-23909 ] - 高阶函数:filter(array ,function )→array
  • [ SPARK-23911 ] - 高阶函数:aggregate(array ,initialState S,inputFunction ,outputFunction )→R
  • [ SPARK-23912 ] - 高阶函数:array_distinct(x)→数组
  • [ SPARK-23913 ] - 高阶函数:array_intersect(x,y)→数组
  • [ SPARK-23914 ] - 高阶函数:array_union(x,y)→数组
  • [ SPARK-23915 ] - 高阶函数:array_except(x,y)→数组
  • [ SPARK-23916 ] - 高阶函数:array_join(x,delimiter,null_replacement)→varchar
  • [ SPARK-23917 ] - 高阶函数:array_max(x)→x
  • [ SPARK-23918 ] - 高阶函数:array_min(x)→x
  • [ SPARK-23919 ] - 高阶函数:array_position(x,element)→bigint
  • [ SPARK-23920 ] - 高阶函数:array_remove(x,element)→数组
  • [ SPARK-23921 ] - 高阶函数:array_sort(x)→数组
  • [ SPARK-23922 ] - 高阶函数:arrays_overlap(x,y)→布尔值
  • [ SPARK-23923 ] - 高阶函数:基数(x)→bigint
  • [ SPARK-23924 ] - 高阶函数:element_at
  • [ SPARK-23925 ] - 高阶函数:重复(元素,计数)→数组
  • [ SPARK-23926 ] - 高阶函数:反向(x)→数组
  • [ SPARK-23927 ] - 高阶函数:序列
  • [ SPARK-23928 ] - 高阶函数:shuffle(x)→数组
  • [ SPARK-23930 ] - 高阶函数:切片(x,开始,长度)→数组
  • [ SPARK-23931 ] - 高阶函数:array_zip(array1,array2 [,...])→数组
  • [ SPARK-23932 ] - 高阶函数:zip_with(数组,数组,函数)→数组
  • [ SPARK-23933 ] - 高阶函数:map(数组,数组)→map
  • [ SPARK-23934 ] - 高阶函数:map_from_entries(array >)→map
  • [ SPARK-23936 ] - 高阶函数:map_concat(map1 ,map2 ,...,mapN )→map
  • [ SPARK-23942 ] - PySpark的collect不会触发QueryExecutionListener
  • [ SPARK-23990 ] - 仪器记录改进 - ML回归包
  • [ SPARK-24026 ] - 用于PIC的spark.ml Scala / Java API
  • [ SPARK-24038 ] - 重构连续写exec到自己的类
  • [ SPARK-24039 ] - 删除重启迭代器hack
  • [ SPARK-24040 ] - 支持单分区聚合
  • [ SPARK-24054 ] - 添加array_position函数/ element_at函数
  • [ SPARK-24069 ] - 添加array_max / array_min函数
  • [ SPARK-24070 ] - 用于Parquet 1.10.0升级的TPC-DS性能测试
  • [ SPARK-24071 ] - 木地板过滤器下推的微观基准
  • [ SPARK-24073 ] - DataSourceV2:将DataReaderFactory重命名为InputPartition。
  • [ SPARK-24115 ] - 改进spark.ml.tuning的仪器
  • [ SPARK-24119 ] - 将解释执行添加到SortPrefix表达式
  • [ SPARK-24132 ] - 用于分类的仪表改进
  • [ SPARK-24146 ] - 用于顺序模式挖掘的spark.ml奇偶校验 - PrefixSpan:Python API
  • [ SPARK-24155 ] - 用于聚类的仪表改进
  • [ SPARK-24157 ] - 为流聚合和重复数据删除启用无数据微批
  • [ SPARK-24158 ] - 为流连接启用无数据微批量
  • [ SPARK-24159 ] - 为流式传输mapGroupswithState启用无数据微批量
  • [ SPARK-24185 ] - 增加拼合功能
  • [ SPARK-24186 ] - 添加array_reverse和concat
  • [ SPARK-24187 ] - 添加array_join
  • [ SPARK-24197 ] - 添加array_sort函数
  • [ SPARK-24198 ] - 添加切片功能
  • [ SPARK-24234 ] - 使用行缓冲区创建任务底部RDD
  • [ SPARK-24235 ] - 创建任务顶级RDD,将行发送到远程缓冲区
  • [ SPARK-24251 ] - DataSourceV2:添加AppendData逻辑运算
  • [ SPARK-24290 ] - 检测改进:使用数组类型添加logNamedValue
  • [ SPARK-24296 ] - 支持复制大于2 GB的块
  • [ SPARK-24297 ] - 将spark.maxRemoteBlockSizeFetchToMem的默认值更改为<2GB
  • [ SPARK-24307 ] - 支持从内存发送超过2GB的消息
  • [ SPARK-24310 ] - 频繁模式挖掘的仪器
  • [ SPARK-24324 ] - Pandas Grouped Map UserDefinedFunction混合列标签
  • [ SPARK-24325 ] - 测试Hadoop的LinesReader
  • [ SPARK-24331 ] - 添加arrays_overlap / array_repeat / map_entries
  • [ SPARK-24334 ] - ArrowPythonRunner中的竞争条件导致Arrow内存分配器的不正常关闭
  • [ SPARK-24386 ] - 实施连续加工合并(1)
  • [ SPARK-24418 ] - 升级到Scala 2.11.12
  • [ SPARK-24419 ] - 使用Scala 2.10.7将SBT升级到0.13.17
  • [ SPARK-24420 ] - 将ASM升级到6.x以支持JDK9 +
  • [ SPARK-24439 ] - 将距离测量添加到PySpark中的BisectingKMeans
  • [ SPARK-24478 ] - DataSourceV2应在物理计划转换时推送过滤器和投影
  • [ SPARK-24537 ] - 添加array_remove / array_zip / map_from_arrays / array_distinct
  • [ SPARK-24549 ] - 支持DecimalType下推到镶木地板数据源
  • [ SPARK-24624 ] - 无法混合矢量化和非矢量化UDF
  • [ SPARK-24638 ] - StringStartsWith支持下推
  • [ SPARK-24706 ] - 支持ByteType和ShortType下推到镶木地板
  • [ SPARK-24716 ] - 重构ParquetFilters
  • [ SPARK-24718 ] - 时间戳支持下推到镶木地板数据源
  • [ SPARK-24771 ] - 将AVRO版本从1.7.7升级到1.8.2
  • [ SPARK-24772 ] - 支持读取AVRO逻辑类型 - 日期
  • [ SPARK-24773 ] - 支持读取AVRO逻辑类型 - 具有不同精度的时间戳
  • [ SPARK-24774 ] - 支持读取AVRO逻辑类型 - 十进制
  • [ SPARK-24776 ] - AVRO单元测试:使用SQLTestUtils和Replace弃用方法
  • [ SPARK-24777 ] - 为AVRO添加写入基准
  • [ SPARK-24800 ] - 重构Avro串行器和解串器
  • [ SPARK-24805 ] - 默认情况下,不要忽略没有.avro扩展名的文件
  • [ SPARK-24810 ] - 修复AvroSuite中资源文件的路径
  • [ SPARK- 24811] - 添加函数`from_avro`和`to_avro`
  • [ SPARK-24836 ] - 新选项 - ignoreExtension
  • [ SPARK-24854 ] - 将所有选项收集到AvroOptions中
  • [ SPARK-24876 ] - 简化架构序列化
  • [ SPARK-24881 ] - 新选项 - 压缩和压缩级别
  • [ SPARK-24883 ] - 删除隐式类AvroDataFrameWriter / AvroDataFrameReader
  • [ SPARK-24887 ] - 在Spark util中使用SerializableConfiguration
  • [ SPARK-24924 ] - 为内置Avro数据源添加映射
  • [ SPARK-24967 ] - 使用internal.Logging代替记录
  • [ SPARK-24971 ] - 删除SupportsDeprecatedScanRow
  • [ SPARK-24976 ] - 允许十进制类型转换无(特定于PyArrow 0.9.0)
  • [ SPARK-24990 ] - 合并ReadSupport和ReadSupportWithSchema
  • [ SPARK-24991 ] - 在DataSourceWriter中使用InternalRow
  • [ SPARK-25002 ] - Avro:修改输出记录名称空间
  • [ SPARK-25007 ] - 将array_intersect / array_except / array_union / array_shuffle添加到SparkR
  • [ SPARK-25029 ] - Scala 2.12问题:TaskNotSerializable和Janino“两个非抽象方法......”错误
  • [ SPARK-25044 ] - 在Scala 2.12中将LMF闭包原语args的地址转换为Object
  • [ SPARK-25047 ] - 在BucketedRandomProjectionLSHModel的反序列化中无法将SerializedLambda分配给scala.Function1
  • [ SPARK-25068 ] - 高阶函数:存在(数组,函数)→布尔值
  • [ SPARK-25099 ] - 在测试套件中生成Avro二进制文件
  • [ SPARK-25104 ] - 验证用户指定的输出模式
  • [ SPARK-25127 ] - DataSourceV2:删除SupportsPushDownCatalystFilters
  • [ SPARK-25133 ] - Documentaion:AVRO数据源指南
  • [ SPARK-25160 ] - 删除sql配置spark.sql.avro.outputTimestampType
  • [ SPARK-25179 ] - 记录需要Pyarrow 0.10的功能
  • [ SPARK-25207 ] - 读取Parquet时滤波器下推的不区分大小写字段分辨率
  • [ SPARK-25256 ] - 计划2.12中Hive测试中的不匹配错误
  • [ SPARK-25298 ] - Scala 2.12的spark-tools构建失败
  • [ SPARK-25304 ] - 为Scala 2.12启用HiveSparkSubmitSuite SPARK-8489测试
  • [ SPARK-25320 ] - ML,图2.4 QA:API:二进制不兼容的更改
  • [ SPARK-25321 ] - ML,图2.4 QA:API:新的Scala API,docs
  • [ SPARK-25324 ] - ML 2.4 QA:API:Java兼容性,文档
  • [ SPARK-25328 ] - 添加一个示例,将两列作为组聚合pandas UDF中的分组键
  • [ SPARK-25337 ] - HiveExternalCatalogVersionsSuite + Scala 2.12 = NoSuchMethodError:org.apache.spark.sql.execution.datasources.FileFormat。$ init $(Lorg / apache / spark / sql / execution / datasources / FileFormat;)
  • [ SPARK-25460 ] - DataSourceV2:结构化流媒体不尊重SessionConfigSupport
  • [ SPARK-25601 ] - 为SQL语句注册Grouped聚合UDF向量化UDF
  • [ SPARK-25690 ] - 分析器规则“HandleNullInputsForUDF”不稳定,可以无限应用
  • [ SPARK-25718 ] - 检测Avro架构中的递归引用并抛出异常
  • [ SPARK-25842 ] - 弃用SPARK-21608中引入的API

Bug

  • [ SPARK-6951 ] - 如果事件日志目录很大,则历史服务器启动缓慢
  • [ SPARK-10878 ] - 通过Ivy解决Maven坐标时的竞争条件
  • [ SPARK-15125 ] - CSV数据源将输入中的空引用字符串识别为空。
  • [ SPARK-15750 ] - 在pyspark中未指定numPartitions时,构造FPGrowth失败
  • [ SPARK-16451 ] - 当“SaslException:GSS启动失败”被击中时,Spark-shell / pyspark应该正常完成
  • [ SPARK-17088 ] - 当sharesHadoopClasses为false时,IsolatedClientLoader无法加载Hive客户端
  • [ SPARK-17147 ] - Spark Streaming Kafka 0.10 Consumer无法处理非连续偏移(即Log Compaction)
  • [ SPARK-17166 ] - 转换为数据源表后,CTAS丢失了表属性。
  • [ SPARK-17756 ] - 使用带有DStream.transform的笛卡儿时的java.lang.ClassCastException
  • [ SPARK-17916 ] - 无论nullValue选项是什么,CSV数据源都将空字符串视为空
  • [ SPARK-18371 ] - Spark Streaming backpressure bug - 生成一个包含大量记录的批处理
  • [ SPARK-18630 ] - PySpark ML内存泄漏
  • [ SPARK-19181 ] - 当average executorDeserializeTime太短时,SparkListenerSuite.local指标失败。
  • [ SPARK-19185 ] - 窗口化时与CachedKafkaConsumers的ConcurrentModificationExceptions
  • [ SPARK-19613 ] - 片状测试:StateStoreRDDSuite
  • [ SPARK-20947 ] - PySpark管道实现中的编码/解码问题
  • [ SPARK-21168 ] - KafkaRDD应该始终设置kafka clientId。
  • [ SPARK-21402 ] - 修复结构反序列化的java数组
  • [ SPARK-21479 ] - 当条件位于其中一个连接列上时,外部连接过滤器下推空值提供表
  • [ SPARK-21525 ] - ReceiverSupervisorImpl在写入WAL时似乎忽略了错误代码
  • [ SPARK-21673 ] - 未正确设置Spark本地目录
  • [ SPARK-21685 ] - 在pyspark中由_setDefault触发的scala变换器中的Params设置
  • [ SPARK-21743 ] - 最高限制不应导致内存泄漏
  • [ SPARK-21811 ] - 查找DateType,StringType和NumericType组合的最广泛常见类型时的不一致
  • [ SPARK-21896 ] - 当窗口函数嵌套在聚合函数内时,Stack Overflow
  • [ SPARK-21945 ] - pyspark --py-files在纱线客户端模式下不起作用
  • [ SPARK-22151 ] - 未正确从spark.yarn.appMasterEnv中拾取PYTHONPATH
  • [ SPARK-22279 ] - 默认打开spark.sql.hive.convertMetastoreOrc
  • [ SPARK-22297 ] - Flaky测试:BlockManagerSuite“Shuffle registration timeout和maxAttempts conf”
  • [ SPARK-22357 ] - SparkContext.binaryFiles忽略minPartitions参数
  • [ SPARK-22371 ] - dag-scheduler-event-loop线程因错误而停止尝试访问垃圾回收累加器5605982
  • [ SPARK-22384 ] - 在Cast中包含属性时优化分区修剪
  • [ SPARK-22430 ] - 使用Roxygen 6.0.1构建R docs时出现未知标记警告
  • [ SPARK-22577 ] - 执行程序页面黑名单状态应使用TaskSet级别黑名单进行更新
  • [ SPARK-22676 ] - 当spark.sql.hive.verifyPartitionPath = true时,避免迭代所有分区路径
  • [ SPARK-22713 ] - 由TaskMemoryManager中的内存争用和内存泄漏引起的OOM
  • [ SPARK-22809 ] - pyspark对带点的进口很敏感
  • [ SPARK-22949 ] - 降低TrainValidationSplit的内存要求
  • [ SPARK-22968 ] - java.lang.IllegalStateException:没有分区kssh-2的当前分配
  • [ SPARK-22974 ] - CountVectorModel不会将属性附加到输出列
  • [ SPARK-23004 ] - 结构化流引发“llegalStateException:在已经提交或中止后无法删除”
  • [ SPARK-23007 ] - 为基于文件的数据源添加模式演化测试套件
  • [ SPARK-23020 ] - 重新启用Flaky Test:org.apache.spark.launcher.SparkLauncherSuite.testInProcessLauncher
  • [ SPARK-23028 ] - 将主分支版本转换为2.4.0-SNAPSHOT
  • [ SPARK-23038 ] - 更新docker / spark-test(JDK / OS)
  • [ SPARK-23042 ] - 使用OneHotEncoderModel对MultilayerPerceptronClassifier中的标签进行编码
  • [ SPARK-23044 ] - 合并脚本在将jiras分配给非贡献者时有错误
  • [ SPARK-23059 ] - 使用与视图相关的方法用法纠正一些不当行为
  • [ SPARK-23088 ] - 历史记录服务器未显示不完整/正在运行的应用程序
  • [ SPARK-23094 ] - 当存在错误记录并且失败时,Json读者选择错误的编码
  • [ SPARK-23152 ] - org.apache.spark.ml.classification.Classifier中的保护条件无效
  • [ SPARK- 23173] - from_json可以为标记为不可为空的字段生成空值
  • [ SPARK-23189 ] - 反映执行者选项卡上的阶段级别黑名单
  • [ SPARK-23200 ] - 从检查点重新启动时重置配置
  • [ SPARK- 23240] - 当pyspark.daemon产生伪造的stdout时,PythonWorkerFactory发出无用的消息
  • [ SPARK-23243 ] - 在RDD上随机播放+重新分区可能导致错误答案
  • [ SPARK-23271 ] - 空白DataFrame保存后,Parquet输出仅包含“_SUCCESS”文件
  • [ SPARK-23288 ] - 结构化流式传输中写入记录的数量不正确
  • [ SPARK-23291 ] - SparkR:substr:在SparkR数据帧中,当位置大于1时,“substr”中的起始和结束位置参数给出错误的结果
  • [ SPARK-23306 ] - TaskMemoryManager中的竞争条件
  • [ SPARK-23340 ] - 将Apache ORC升级到1.4.3
  • [ SPARK-23355 ] - convertMetastore不应忽略表属性
  • [ SPARK-23361 ] - 如果在应用提交后7天内发生驱动程序重启失败
  • [ SPARK-23365 ] - 在落后任务中失败的DynamicAllocation可能导致挂起的火花作业
  • [ SPARK-23377 ] - Bucketizer具有多列持久性错误
  • [ SPARK-23394 ] - 存储信息的缓存分区不考虑复制(但sc.getRDDStorageInfo确实如此)
  • [ SPARK-23405 ] - 当一张小桌子半连接一张大桌子时,任务将挂断
  • [ SPARK-23406 ] - 流媒体自连接不起作用
  • [ SPARK-23408 ] - 片状测试:StreamingOuterJoinSuite.left外部早期状态排除在右侧
  • [ SPARK-23415 ] - BufferHolderSparkSubmitSuite是片状的
  • [ SPARK-23416 ] - Flaky测试:KafkaSourceStressForDontFailOnDataLossSuite.stress测试failOnDataLoss = false
  • [ SPARK-23417 ] - pyspark测试给出错误的sbt指令
  • [ SPARK-23425 ] - 使用通配符使用的hdfs文件路径的加载数据无法正常工作
  • [ SPARK-23433 ] - java.lang.IllegalStateException:阶段的多个活动taskSet
  • [ SPARK-23434 ] - Spark不应警告“元数据目录”以获取HDFS文件路径
  • [ SPARK-23436 ] - 不正确的日期列分区发现中的推断
  • [ SPARK-23438 ] - 当驱动程序崩溃时,DStreams可能会在启用WAL时丢失块
  • [ SPARK-23449 ] - 在Docker上下文中,额外的java选项会丢失顺序
  • [ SPARK-23457 ] - 首先为ParquetFileFormat注册任务完成侦听器
  • [ SPARK-23459 ] - 在分区列中指定未知列时改进错误消息
  • [ SPARK-23461 ] - 小插曲应包括某些ML模型的模型预测
  • [ SPARK-23462 ] - 改进`StructType`中的错误消息
  • [ SPARK-23476 ] - Spark无法在本地模式下启动并启用身份验证
  • [ SPARK-23486 ] - LookupFunctions不应多次检查相同的函数名称
  • [ SPARK-23489 ] - 片状测试:HiveExternalCatalogVersionsSuite
  • [ SPARK-23490 ] - 使用CreateTable中的现有表检查storage.locationUri
  • [ SPARK-23496 ] - 合并分区的位置可能会因输入分区的顺序而严重偏斜
  • [ SPARK- 23508] - BlockManagerId中的blockManagerIdCache可能会导致oom
  • [ SPARK-23514 ] - 用spark.sessionState.newHadoopConf()替换spark.sparkContext.hadoopConfiguration
  • [ SPARK-23522 ] - pyspark应该始终使用sys.exit而不是退出
  • [ SPARK-23523 ] - 规则OptimizeMetadataOnlyQuery导致的结果不正确
  • [ SPARK-23524 ] - 不应检查大型本地随机块是否存在损坏。
  • [ SPARK-23525 ] - ALTER TABLE CHANGE COLUMN不适用于外部蜂巢表
  • [ SPARK-23547 ] - 在Hive会话关闭时清除.pipeout文件
  • [ SPARK-23549 ] - 将timestamp与日期进行比较时,Spark SQL意外行为
  • [ SPARK-23551 ] - 从`orc-mapreduce中排除`hadoop-mapreduce-client-core`依赖项
  • [ SPARK-23569 ] - pandas_udf不适用于带类型注释的python函数
  • [ SPARK-23570 ] - 在HiveExternalCatalogVersionsSuite中添加Spark-2.3
  • [ SPARK-23574 ] - 数据源V2扫描中的SinglePartition
  • [ SPARK- 23598] - WholeStageCodegen可能导致IllegalAccessError调用追加HashAggregateExec
  • [ SPARK-23599 ] - UUID()表达式过于不确定
  • [ SPARK- 23602] - PrintToStderr在解释模式下的行为应相同
  • [ SPARK-23608 ] - SHS需要attachSparkUI和detachSparkUI函数之间的同步
  • [ SPARK-23614 ] - 使用缓存时,Union会产生不正确的结果
  • [ SPARK-23618 ] - 建立图像时,docker-image-tool.sh失败
  • [ SPARK-23620 ] - 使用br标签拆分线程转储线
  • [ SPARK-23623 ] - 避免在CachedKafkaConsumer中同时使用缓存的KafkaConsumer(kafka-0-10-sql)
  • [ SPARK-23630 ] - Spark-on-YARN缺少hadoop配置的用户自定义
  • [ SPARK-23635 ] - Spark执行器env变量被同名AM env变量覆盖
  • [ SPARK-23637 ] - 如果同一个执行者被多次杀死,纱线可能会分配更多资源。
  • [ SPARK-23639 ] - 使用代理用户时,SparkSQL CLI无法与Kerberized Metastore通信
  • [ SPARK-23640 ] - Hadoop配置可能会覆盖spark配置
  • [ SPARK-23649 ] - 某些UTF-8字符上的CSV架构推断失败
  • [ SPARK-23658 ] - InProcessAppHandle在getLogger中使用了错误的类
  • [ SPARK-23660 ] - 当应用程序很小时,Yarn在群集模式下抛出异常
  • [ SPARK-23666 ] - 带有UDF的不确定列名
  • [ SPARK-23670 ] - sparkUI中SparkPlanGraphWrapper的内存泄漏
  • [ SPARK-23671 ] - SHS忽略了重播线程的数量
  • [ SPARK-23679 ] - 在YARN上运行时,uiWebUrl显示不正确的URL
  • [ SPARK-23680 ] - entrypoint.sh不接受任意UID,作为错误返回
  • [ SPARK-23697 ] - Spark 1.x的累加器不再适用于Spark 2.x.
  • [ SPARK-23698 ] - Spark代码在Python 3中包含许多未定义的名称
  • [ SPARK-23729 ] - 全局解析会破坏文件/档案的远程命名
  • [ SPARK-23731 ] - FileSourceScanExec在子表达式消除中抛出NullPointerException
  • [ SPARK-23732 ] - Spark Scala api Scaladoc中scala源代码的断开链接
  • [ SPARK-23743 ] - IsolatedClientLoader.isSharedClass对`slf4j`关键字返回一个未缩进的结果
  • [ SPARK-23754 ] - Python UDF中的StopIterator异常导致部分结果
  • [ SPARK-23759 ] - 无法将Spark UI绑定到特定主机名/ IP
  • [ SPARK-23760 ] - CodegenContext.withSubExprEliminationExprs应正确保存/恢复CSE状态
  • [ SPARK-23775 ] - Flaky测试:DataFrameRangeSuite
  • [ SPARK-23778 ] - SparkContext.emptyRDD混淆了SparkContext.union
  • [ SPARK-23780 ] - 无法将googleVis库与新SparkR一起使用
  • [ SPARK-23785 ] - LauncherBackend在设置状态之前不检查连接状态
  • [ SPARK-23786 ] - CSV架构验证 - 不检查列名称
  • [ SPARK-23787 ] - SparkSubmitSuite ::“如果纱线不支持则下载远程资源”在Hadoop 2.9上失败
  • [ SPARK-23788 ] - StreamingQuerySuite中的竞争条件
  • [ SPARK-23794 ] - UUID()应该是有状态的
  • [ SPARK-23799 ] - [CBO] FilterEstimation.evaluateInSet在空表的情况下产生零除数,并带有分析的统计数据
  • [ SPARK-23802 ] - PropagateEmptyRelation可以使查询计划处于未解决状态
  • [ SPARK-23806 ] - 广播。与动态分配一起使用时,unpersist可能会导致致命异常
  • [ SPARK-23808 ] - 测试火花会话应设置默认会话
  • [ SPARK-23809 ] - 应该通过getOrCreate设置Active SparkSession
  • [ SPARK-23815 ] - Spark编写器动态分区覆盖模式无法在多级分区上写入输出
  • [ SPARK-23816 ] - 杀死推测任务时的FetchFailedException
  • [ SPARK-23823 ] - ResolveReferences失去了正确的来源
  • [ SPARK-23825 ] - [K8s] Spark pod应该请求内存+ memoryOverhead作为资源
  • [ SPARK-23827 ] - StreamingJoinExec应确保输入数据被分区为特定数量的分区
  • [ SPARK-23834 ] - Flaky测试:LauncherServerSuite.testAppHandleDisconnect
  • [ SPARK-23835 ] - 当Dataset.as将列从可空类型转换为非可空类型时,null双打将以静默方式转换为-1
  • [ SPARK-23850 ] - 默认情况下,我们不应该从UI编辑用户名|用户| url
  • [ SPARK-23852 ] - Parquet MR错误可导致错误的SQL结果
  • [ SPARK-23853 ] - 跳过需要在PySpark中构建的hive支持的doctests
  • [ SPARK-23857 ] - 在mesos集群模式下,spark submit要求keytab在本地文件系统上可用。
  • [ SPARK-23868 ] - 修复literals.sql.out中的scala.MatchError
  • [ SPARK-23882 ] - 是否支持UTF8StringSuite.writeToOutputStreamUnderflow()?
  • [ SPARK-23888 ] - 推测任务不应该在已经运行另一次尝试的给定主机上运行
  • [ SPARK-23893 ] - long = int * int可能溢出
  • [ SPARK-23941 ] - 特定火花应用名称上的Mesos任务失败
  • [ SPARK-23951 ] - 使用ExprValue中的java分类并简化一堆内容
  • [ SPARK-23971 ] - 不应在测试套件中泄漏Spark会话
  • [ SPARK-23975 ] - 允许群集将双数组作为输入要素
  • [ SPARK-23976 ] - UTF8String.concat()或ByteArray.concat()可能会分配更短的结构。
  • [ SPARK-23986 ] - 加入后使用过多avg聚合时出现CompileException
  • [ SPARK-23989 ] - 使用`SortShuffleWriter`时,数据将被覆盖
  • [ SPARK-23991 ] - allocateBlocksToBatch时数据丢失
  • [ SPARK-23997 ] - 可配置的最大桶数
  • [ SPARK-24002 ] - 由org.apache.parquet.io.api.Binary $ ByteBufferBackedBinary.getBytes引起的任务不可序列化
  • [ SPARK-24007 ] - FloatType和DoubleType的EqualNullSafe可能会由codegen生成错误的结果。
  • [ SPARK-24012 ] - 联盟地图和其他兼容专栏
  • [ SPARK-24013 ] - ApproximatePercentile在排序输入上停止研磨。
  • [ SPARK-24021 ] - 修复BlacklistTracker的updateBlacklistForFetchFailure中的错误
  • [ SPARK-24022 ] - Flaky测试:SparkContextSuite
  • [ SPARK-24033 ] - 在Spark 2.3中破坏了LAG窗口功能
  • [ SPARK-24043 ] - 如果表达式树包含非确定性表达式,则InterpretedPredicate.eval失败
  • [ SPARK-24050 ] - StreamingQuery在某些情况下不计算输入/处理速率
  • [ SPARK-24056 ] - 在结构化流媒体的Kafka源中使消费者创建变得懒惰
  • [ SPARK-24061 ] - 连续处理不支持[SS] TypedFilter
  • [ SPARK-24062 ] - 无法在ThriftServer中使用SASL加密
  • [ SPARK-24068 ] - CSV架构推断不适用于压缩文件
  • [ SPARK-24076 ] - 当shuffle.partition = 8192时性能非常糟糕
  • [ SPARK-24085 ] - 标量子查询错误
  • [ SPARK-24104 ] - SQLAppStatusListener会覆盖onDriverAccumUpdates上的指标而不是更新它们
  • [ SPARK-24107 ] - ChunkedByteBuffer.writeFully方法未重置限制值
  • [ SPARK-24108 ] - ChunkedByteBuffer.writeFully方法未重置限制值
  • [ SPARK-24110 ] - 避免在ThriftServer中调用UGI loginUserFromKeytab
  • [ SPARK-24123 ] - 修复一个片状测试`DateTimeUtilsSuite.monthsBetween`
  • [ SPARK-24133 ] - 读取包含大字符串的Parquet文件可能会因java.lang.ArrayIndexOutOfBoundsException而失败
  • [ SPARK-24137 ] - [K8s]在emptydir卷中挂载临时目录
  • [ SPARK-24141 ] - 修复CoarseGrainedSchedulerBackend.killExecutors中的错误
  • [ SPARK-24143 ] - 将mapstatus转换为(blockId,size)对时过滤空块
  • [ SPARK-24151 ] - CURRENT_DATE,CURRENT_TIMESTAMP在启用caseSensitive时错误地解析为列名
  • [ SPARK-24165 ] - when()中的UDF。否则()引发NullPointerException
  • [ SPARK-24166 ] - InMemoryTableScanExec不应在执行者端访问SQLConf
  • [ SPARK-24167 ] - ParquetFilters不应在执行方访问SQLConf
  • [ SPARK-24168 ] - WindowExec不应在执行方访问SQLConf
  • [ SPARK-24169 ] - JsonToStructs不应在执行者端访问SQLConf
  • [ SPARK-24190 ] - JSON写入中不需要lineSep
  • [ SPARK-24195 ] - sc.addFile for local:/ path已损坏
  • [ SPARK-24214 ] - StreamingRelationV2 / StreamingExecutionRelation / ContinuousExecutionRelation.toJSON不应该失败
  • [ SPARK-24216 ] - Spark TypedAggregateExpression使用scala中不安全的getSimpleName
  • [ SPARK-24228 ] - 修复棉绒错误
  • [ SPARK-24230 ] - Parquet 1.10升级在矢量化阅读器中出错
  • [ SPARK-24241 ] - 使用0执行程序启用动态资源分配时,请勿快速失败
  • [ SPARK-24255 ] - 在SparkR描述中需要Java 8
  • [ SPARK-24257 ] - LongToUnsafeRowMap计算新的大小可能是错误的
  • [ SPARK-24259 ] - Arrow的ArrayWriter产生错误的输出
  • [ SPARK-24263 ] - 关于openjdk的SparkR java check break
  • [ SPARK-24276 ] - semanticHash()在语义上返回相同的IS IN的不同值
  • [ SPARK- 24294] - 在BroadcastExchangeExec中的OOM时抛出SparkException
  • [ SPARK-24300 ] - ml.cluster.LDASuite中的generateLDAData没有正确设置种子
  • [ SPARK-24309 ] - AsyncEventQueue应该处理来自监听器的中断
  • [ SPARK-24313 ] - 集合函数解释执行不适用于复杂类型
  • [ SPARK-24319 ] - 运行示例无法打印使用情况
  • [ SPARK-24322 ] - 将Apache ORC升级到1.4.4
  • [ SPARK-24341 ] - 来自谓词子查询的Codegen编译错误
  • [ SPARK-24348 ] - “element_at”表达式中的scala.MatchError
  • [ SPARK-24350 ] - “array_position”函数中的ClassCastException
  • [ SPARK-24351 ] - offsetLog / commitLog purge thresholdBatchId应使用当前提交的纪元计算,但不能用CP模式中的currentBatchId计算
  • [ SPARK-24364 ] - globbing后删除文件可能会使StructuredStreaming作业失败
  • [ SPARK-24368 ] - 片状测试:org.apache.spark.sql.execution.datasources.csv.UnivocityParserSuite
  • [ SPARK-24369 ] - 具有多个不同聚合时的错误
  • [ SPARK-24373 ] - “重新分析计划后,当分析的计划不同时,”df.cache()df.count()“不再急切地缓存数据
  • [ SPARK-24377 ] - 使--py-files在非pyspark应用程序中工作
  • [ SPARK-24380 ] - 在mesos群集调度程序中引用/转义参数
  • [ SPARK-24384 ] - 带有.py文件的spark-submit --py文件在上下文初始化之前无法在客户端模式下工作
  • [ SPARK-24385 ] - Tridially -true EqualNullSafe应该像Dataset.join中的EqualTo一样处理
  • [ SPARK-24391 ] - from_json应该支持基元数组,更常见的是所有JSON
  • [ SPARK-24414 ] - 阶段页面未显示失败时的所有任务尝试
  • [ SPARK-24415 ] - 故障时阶段页面聚合执行程序指标错误
  • [ SPARK-24416 ] - 更新spark.blacklist.killBlacklistedExecutors的配置定义
  • [ SPARK-24446 ] - 带有特殊字符的库路径会在YARN上打破Spark
  • [ SPARK-24452 ] - long = int * int或long = int + int可能导致溢出。
  • [ SPARK-24453 ] - 修复从无数据批处理中的故障中恢复的错误
  • [ SPARK-24466 ] - TextSocketMicroBatchReader不再适用于nc实用程序
  • [ SPARK-24468 ] - 当比例为负时,DecimalType“adjustPrecisionScale”可能会失败
  • [ SPARK-24488 ] - 当发电机多次混叠时,分析器抛出
  • [ SPARK-24495 ] - SortMergeJoin,重复键错误结果
  • [ SPARK-24500 ] - 尝试使用Stream of Children执行Union计划时出现UnsupportedOperationException
  • [ SPARK-24506 ] - Spark.ui.filters未应用于/ sqlserver / url
  • [ SPARK-24520 ] - 链接中的双括号
  • [ SPARK-24526 ] - 构建目录中的空格导致构建/ mvn脚本失败
  • [ SPARK-24530 ] - Sphinx无法正确呈现autodoc_docstring_signature(使用Python 2?)而pyspark.ml文档已被破坏
  • [ SPARK-24531 ] - 由于缺少2.2.0版本,HiveExternalCatalogVersionsSuite失败
  • [ SPARK-24535 ] - 修复Windows上SparkR中的java版本解析
  • [ SPARK-24536 ] - 使用无意义的LIMIT查询命中AssertionError
  • [ SPARK-24548 ] - SPARK中的JavaPairRDD到数据集会产生不明确的结果
  • [ SPARK-24552 ] - 重试阶段时重复使用任务尝试次数
  • [ SPARK-24553 ] - 作业UI重定向导致http 302错误
  • [ SPARK-24556 ] - 当子分区为RangePartitioning时,ReusedExchange也应该重写输出分区
  • [ SPARK-24563 ] - 允许在没有Hive的情况下运行PySpark shell
  • [ SPARK-24569 ] - 具有输出类型Option [Boolean]的Spark Aggregator创建Row类型的列
  • [ SPARK-24573 ] - 影响构建的SBT Java checkstyle
  • [ SPARK-24578 ] - 读取远程缓存块行为更改并导致超时问题
  • [ SPARK-24583 ] - InsertIntoDataSourceCommand中的架构类型错误
  • [ SPARK-24588 ] - StreamingSymmetricHashJoinExec应该要求儿童使用HashClusteredPartitioning
  • [ SPARK-24589 ] - OutputCommitCoordinator可能允许重复提交
  • [ SPARK-24594 ] - 介绍YARN执行程序分配问题的指标
  • [ SPARK-24598 ] - SPARK SQL:数据类型溢出条件给出了错误的结果
  • [ SPARK-24603 ] - Typo评论
  • [ SPARK-24610 ] - 针对小文件打破的wholeTextFiles
  • [ SPARK-24613 ] - 使用UDF的缓存无法与后续的依赖缓存匹配
  • [ SPARK-24633 ] - arrays_zip函数的代码生成器错误地分割输入处理
  • [ SPARK-24645 ] - 启用csvColumnPruning并仅扫描分区时跳过解析
  • [ SPARK-24648 ] - SQLMetrics计数器不是线程安全的
  • [ SPARK-24653 ] - 片状测试“JoinSuite.test SortMergeJoin(带溢出)”
  • [ SPARK-24659 ] - GenericArrayData.equals应该尊重元素类型的差异
  • [ SPARK-24660 ] - 下载日志时SHS未显示错误
  • [ SPARK-24676 ] - 禁用csvColumnPruning时,解析数据中的项目所需数据
  • [ SPARK-24677 ] - TaskSetManager不会为旧阶段尝试更新successfulTask​​Durations
  • [ SPARK-24681 ] - 当嵌套列名包含':'时,无法从表创建视图
  • [ SPARK-24694 ] - 集成测试只传递一个app参数
  • [ SPARK-24698 ] - 在Pyspark的ML中,Identifiable的UID有20个随机字符,而不是文档中提到的12个。
  • [ SPARK-24699 ] - 水印/追加模式应与Trigger.Once配合使用
  • [ SPARK-24704 ] - DAG图表中的阶段顺序不正确
  • [ SPARK-24705 ] - 启用Spark.sql.adaptive.enabled = true并启用自联接查询
  • [ SPARK-24711 ] - 集成测试不适用于exclude / include标记
  • [ SPARK-24713 ] - 如果消耗了数百个主题,那么火花流kafka OOM的AppMatser
  • [ SPARK-24715 ] - sbt build带来了错误的jline版本
  • [ SPARK-24717 ] - 在HDFSBackedStateStoreProvider中拆分min保留内存状态的内存
  • [ SPARK-24721 ] - 无法在带有数据源的过滤器中使用带有文字输入的PythonUDF
  • [ SPARK-24734 ] - 修复了包含阵列类型的ConcatNull。
  • [ SPARK-24739 ] - PySpark不适用于Python 3.7.0
  • [ SPARK-24742 ] - 字段元数据在hashCode方法中引发NullPointerException
  • [ SPARK-24743 ] - 更新JavaDirectKafkaWordCount示例以支持Kafka的新API
  • [ SPARK-24749 ] - 无法使用named_struct过滤数组
  • [ SPARK-24754 ] - Minhash整数溢出
  • [ SPARK-24755 ] - 执行程序丢失可能导致任务无法重新提交
  • [ SPARK-24781 ] - 在过滤/排序中使用数据集中的引用可能不起作用。
  • [ SPARK-24787 ] - 由于事件记录的hsync缓慢,事件以惊人的速度被丢弃
  • [ SPARK-24788 ] - 在UnresolvedAttribute分组时,RelationalGroupedDataset.toString会抛出错误
  • [ SPARK-24804 ] - DatasetSuite的标题中有重复的单词
  • [ SPARK- 24809] - 在执行程序中序列化LongHashedRelation可能会导致数据错误
  • [ SPARK-24812 ] - 表格描述中的上次访问时间无效
  • [ SPARK-24813 ] - HiveExternalCatalogVersionsSuite仍然片状; 回归Apache档案
  • [ SPARK-24829 ] - 在Spark Thrift Server中,CAST AS FLOAT与spark-shell或spark-sql不一致
  • [ SPARK-24846 ] - 稳定表达能量化
  • [ SPARK-24850 ] - 查询计划字符串表示在具有递归缓存数据集的查询上呈指数增长
  • [ SPARK-24870 ] - 如果SQL中有大小写字母,则缓存无法正常工作
  • [ SPARK-24873 ] - 增加切换以屏蔽与纱线的频繁交互报告
  • [ SPARK-24878 ] - 修复包含null的基本类型的数组类型的反向函数。
  • [ SPARK-24879 ] - 用于`partCol IN(NULL,....)的Hive分区过滤器下推中的NPE
  • [ SPARK-24880 ] - 修复spark-kubernetes-integration-tests的组ID
  • [ SPARK-24889 ] - dataset.unpersist()不更新存储内存统计信息
  • [ SPARK-24891 ] - 修复HandleNullInputsForUDF规则
  • [ SPARK-24895 ] - Spark 2.4.0由于文件名不匹配,快照工件已破坏元数据
  • [ SPARK-24896 ] - Uuid表达式应该在流式查询下的每次执行中产生不同的值
  • [ SPARK-24908 ] - [R]删除空格以使得快乐
  • [ SPARK-24909 ] - 当获取失败,执行程序丢失,丢失执行程序上的任务运行以及多个阶段尝试时,Spark调度程序可能会挂起
  • [ SPARK-24911 ] - SHOW CREATE TABLE删除嵌套列名称的转义
  • [ SPARK-24919 ] - sparkContext.hadoopConfiguration的Scala linter规则
  • [ SPARK-24927 ] - hadoop提供的配置文件与Snappy压缩的Parquet文件不兼容
  • [ SPARK-24934 ] - 由于缺少上/下限情况,内存中分区修剪中的复杂类型和二进制类型不起作用
  • [ SPARK-24937 ] - 数据源分区表应加载空的静态分区
  • [ SPARK-24948 ] - 由于权限检查,SHS错误地过滤了某些应用程序
  • [ SPARK-24950 ] - scala DateTimeUtilsSuite daysToMillis和millisToDays失败w / java 8 181-b13
  • [ SPARK-24957 ] - 使用codegen,十进制算术可能导致错误的值
  • [ SPARK-24963 ] - 如果集成测试在名称空间中运行而不是默认值,则集成测试将失败
  • [ SPARK-24966 ] - 修复设置操作的优先规则。
  • [ SPARK-24972 ] - PivotFirst无法处理复杂类型的枢轴列
  • [ SPARK-24981 ] - 当用户程序未调用SparkContext stop()时,ShutdownHook超时导致作业失败
  • [ SPARK-24987 ] - Kafka缓存的消费者泄漏文件描述符
  • [ SPARK-24997 ] - 支持MINUS ALL
  • [ SPARK-25004 ] - 添加spark.executor.pyspark.memory配置以设置resource.RLIMIT_AS
  • [ SPARK-25005 ] - 结构化流媒体不支持kafka事务(使用中止和标记创建空偏移)
  • [ SPARK-25009 ] - 独立群集模式应用程序提交无效
  • [ SPARK-25010 ] - Rand / Randn应为流式查询中的每次执行生成不同的值
  • [ SPARK-25011 ] - 在fpm.py中将PrefixSpan添加到__all__
  • [ SPARK-25019 ] - 发布的spark sql pom不排除正常版本的orc-core
  • [ SPARK-25021 ] - 为Kubernetes添加spark.executor.pyspark.memory支持
  • [ SPARK-25028 ] - 如果值为null,则AnalyzePartitionCommand因NPE失败
  • [ SPARK-25031 ] - 无法正确打印MapType架构
  • [ SPARK-25033 ] - Bump Apache commons。{httpclient,httpcore}
  • [ SPARK-25036 ] - Scala 2.12问题:与sbt的编译错误
  • [ SPARK-25041 ] - 在scala-2.12中找不到sbt的genjavadoc-plugin_0.10
  • [ SPARK-25046 ] - Alter View可以执行“ALTER VIEW ... AS INSERT INTO”之类的sql
  • [ SPARK-25058 ] - 使用Block.isEmpty / nonEmpty检查代码是否为空。
  • [ SPARK-25072 ] - PySpark自定义Row类可以给出额外的参数
  • [ SPARK-25076 ] - 不应从已停止的SparkSession中检索SQLConf
  • [ SPARK-25081 ] - ShuffleExternalSorter中的嵌套溢出可能会访问已释放的内存页面
  • [ SPARK-25084 ] - 在多列上“分发”可能会导致代码问题
  • [ SPARK-25090 ] - 使用CrossValidator时的java.lang.ClassCastException
  • [ SPARK-25092 ] - 在nonExcludableRules列表中添加RewriteExceptAll,RewriteIntersectAll和RewriteCorrelatedScalarSubquery
  • [ SPARK-25096 ] - 如果施法可强制作用,则放松可空性。
  • [ SPARK-25114 ] - 当两个单词之间的减法可被Integer.MAX_VALUE整除时,RecordBinaryComparator可能会返回错误的结果
  • [ SPARK-25116 ] - 终止Kafka测试时修复“退出代码1”错误
  • [ SPARK-25124 ] - VectorSizeHint.size是错误的,打破了流媒体管道
  • [ SPARK-25126 ] - 避免为所有orc文件创建OrcFile.Reader
  • [ SPARK-25132 ] - 从Parquet读取时不区分大小写的字段分辨率
  • [ SPARK-25134 ] - 检查标题的Csv列修剪会引发错误的错误
  • [ SPARK-25137 ] - 从Mac终端启动spark-shell时的NumberFormatException`
  • [ SPARK-25149 ] - 如果vertexID> MaxInt,则个性化PageRank会引发错误
  • [ SPARK-25159 ] - json模式推断应该只触发一个作业
  • [ SPARK-25161 ] - 修复了屏障执行模式故障处理中的几个错误
  • [ SPARK-25163 ] - 片状测试:oasutil.collection.ExternalAppendOnlyMapSuite.spilling with compression
  • [ SPARK-25164 ] - Parquet阅读器为每列构建一次完整的列列表
  • [ SPARK-25167 ] - R sql测试的小修复(在开发环境中失败的测试)
  • [ SPARK-25174 ] - 当从RM取消注册时,ApplicationMaster会暂停,并具有极大的诊断消息
  • [ SPARK-25175 ] - 如果ORC原生阅读器存在歧义,则场分辨率应该失败
  • [ SPARK-25176 ] - Kryo无法序列化参数化类型层次结构
  • [ SPARK-25181 ] - 块管理器主从线程池无限制
  • [ SPARK-25183 ] - Spark HiveServer2使用JVM注册shutdown hook,而不是ShutdownHookManager; 竞争条件可能会出现
  • [ SPARK-25204 ] - 率源测试是不稳定的
  • [ SPARK-25205 ] - spark.network.crypto.keyFactoryIteration中的拼写错误
  • [ SPARK-25206 ] - 当Hive Metastore模式和镶木地板模式处于不同的字母情况时,会返回错误的记录
  • [ SPARK-25214 ] - 当“failOnDataLoss”为“false”时,Kafka v2源可能会返回重复记录
  • [ SPARK-25218 ] - TransportServer和SocketAuthHelper中潜在的资源泄漏
  • [ SPARK-25221 ] - [DEPLOY]一致的尾随空格处理conf值
  • [ SPARK-25231 ] - 运行大型作业并进行猜测导致执行器心跳超时在驱动程序上
  • [ SPARK-25237 ] - 选择具有限制的数据源表时,FileScanRdd的inputMetrics错误
  • [ SPARK-25240 ] - ALTER TABLE RECOVER PARTITIONS中的死锁
  • [ SPARK-25264 ] - 修复传递给PythonRunner和RRunner的逗号描述的参数
  • [ SPARK-25266 ] - 修复屏障执行模式下的内存泄漏
  • [ SPARK-25268 ] - runParallelPersonalizedPageRank抛出序列化异常
  • [ SPARK-25278 ] - 视图并集的输出行度量值乘以它们的出现次数
  • [ SPARK-25283 ] - 在UnionRDD陷入僵局
  • [ SPARK-25288 ] - 卡夫卡交易测试很不稳定
  • [ SPARK-25289 ] - 空集合中的ChiSqSelector max
  • [ SPARK-25291 ] - 执行程序内存测试的片段性(SecretsTestSuite)
  • [ SPARK-25295 ] - 如果之前的提交不是干净关闭,则Pod在客户端模式下命名冲突。
  • [ SPARK-25306 ] - 避免使用倾斜的滤镜树来加速ORC中的“createFilter”
  • [ SPARK-25307 ] - ArraySort函数可能在代码生成阶段返回错误。
  • [ SPARK-25308 ] - ArrayContains函数可能会在代码生成阶段返回错误。
  • [ SPARK-25310 ] - ArraysOverlap可能抛出CompileException
  • [ SPARK-25313 ] - 修复FileFormatWriter输出模式中的回归
  • [ SPARK-25314 ] - 无效的PythonUDF - 需要来自多个子节点的属性 - 处于“on”连接条件
  • [ SPARK- 25317] - MemoryBlock性能回归
  • [ SPARK-25330 ] - 将hadoop版本升级到2.7.7后的权限问题
  • [ SPARK-25352 ] - 当限制数量大于topKSortFallbackThreshold时,执行有序全局限制
  • [ SPARK-25357 ] - 向SparkPlanInfo添加元数据以将更多信息(如文件路径)转储到事件日志
  • [ SPARK-25363 ] - 如果在where子句中使用嵌套列,则模式修剪不起作用
  • [ SPARK-25368 ] - 不正确的约束推断返回错误的结果
  • [ SPARK-25371 ] - 没有输入列的矢量汇编程序导致不透明错误
  • [ SPARK-25387 ] - 格式错误的CSV会导致NPE
  • [ SPARK-25389 ] - INSERT OVERWRITE DIRECTORY STORED AS应防止重复字段
  • [ SPARK-25398 ] - 比较不相关类型的小错误
  • [ SPARK-25399 ] - 从微连续流的连续处理中重用执行线程可能导致正确性问题
  • [ SPARK-25402 ] - BooleanSimplification中的空值处理
  • [ SPARK-25406 ] - Parquet架构修剪测试套件中的withSQLConf方法的错误使用掩盖了测试失败
  • [ SPARK-25416 ] - 当右表达式被隐式下调时,ArrayPosition函数可能返回不正确的结果。
  • [ SPARK-25417 ] - 当右表达式被隐式向下转换时,ArrayContains函数可能返回不正确的结果
  • [ SPARK-25425 ] - 额外选项必须覆盖会话选项
  • [ SPARK-25427 ] - 添加BloomFilter创建测试用例
  • [ SPARK-25431 ] - 修复功能示例并统一示例结果的格式。
  • [ SPARK-25438 ] - 修复FilterPushdownBenchmark以使用相同的内存假设
  • [ SPARK-25439 ] - TPCHQuerySuite customer.c_nationkey应该是bigint而不是string
  • [ SPARK-25443 ] - 修复在docker中使用发布脚本构建文档时出现的问题
  • [ SPARK-25450 ] - PushProjectThroughUnion规则对每个Union子项中的项目表达式使用相同的exprId,导致常量传播中的错误
  • [ SPARK-25471 ] - 使用Pandas 0.23+修复Python 3.6的测试
  • [ SPARK-25495 ] - FetchedData.reset不会重置_nextOffsetInFetchedData和_offsetAfterPoll
  • [ SPARK-25502 ] - 当页码超过reatinedTask大小时,[Spark作业历史]空页面
  • [ SPARK-25503 ] - [Spark作业历史]阶段页面中的总任务消息不明确
  • [ SPARK-25505 ] - Pivot中分组列的输出顺序与输入顺序不同
  • [ SPARK-25509 ] - 在Windows中无法启用SHS V2,因为不支持POSIX权限。
  • [ SPARK-25519 ] - 当隐式降低右表达式时,ArrayRemove函数可能返回错误的结果。
  • [ SPARK-25521 ] - 插入命令Job时,作业ID显示为空。
  • [ SPARK-25522 ] - 改进elementAt函数输入参数的类型提升
  • [ SPARK-25533 ] - 当作业失败时,JobUI中已完成作业的消息不一致,与spark2.2相比
  • [ SPARK-25536 ] - executorSource.METRIC读取Executor.scala Line444中的错误记录
  • [ SPARK-25538 ] - distinct()后的行数不正确
  • [ SPARK-25542 ] - 片状测试:OpenHashMapSuite
  • [ SPARK-25543 ] - 在K8s模式下以DEBUG级别混淆日志消息。
  • [ SPARK-25546 ] - RDDInfo在初始化之前使用SparkEnv
  • [ SPARK-25568 ] - 无法更新一个累加器时,继续更新剩余的累加器
  • [ SPARK-25570 ] - 在HiveExternalCatalogVersionsSuite中将2.3.1替换为2.3.2
  • [ SPARK-25572 ] - Java 10上的CRAN上的SparkR测试失败
  • [ SPARK-25578 ] - 更新到Scala 2.12.7
  • [ SPARK-25579 ] - 如果需要,则在推送的ORC谓词中使用带引号的属性名称
  • [ SPARK-25591 ] - 具有多个PythonUDF的PySpark累加器
  • [ SPARK-25602 ] - SparkPlan.getByteArrayRdd在不需要时不应使用输入
  • [ SPARK-25636 ] - 当连接到主​​站时出错时,spark-submit会吞下失败原因
  • [ SPARK-25644 ] - 修复java foreachBatch API
  • [ SPARK-25646 ] - docker-image-tool.sh不适用于开发人员构建
  • [ SPARK-25660 ] - 无法使用反斜杠作为CSV字段分隔符
  • [ SPARK-25669 ] - 仅在存在时检查CSV标头
  • [ SPARK-25671 ] - 在Jenkins Test中构建外部/ spark-ganglia-lgpl
  • [ SPARK-25674 ] - 如果记录一次增加1个以上,则字节数可能很少更新
  • [ SPARK-25677 ] - 在JDBC中配置zstd压缩抛出IllegalArgumentException异常
  • [ SPARK-25697 ] - 当正在进行zstd压缩时,应用程序在UI中抛出错误
  • [ SPARK-25704 ] - 由于配置默认配置错误,> 2GB块的复制失败
  • [ SPARK-25708 ] - 没有GROUP BY的情况意味着全球汇总
  • [ SPARK-25714 ] - 优化器规则BooleanSimplification中的空处理
  • [ SPARK-25726 ] - Flaky测试:SaveIntoDataSourceCommandSuite .simpleString被编辑
  • [ SPARK-25727 ] - 在InMemoryRelation中makeCopy失败
  • [ SPARK-25738 ] - 如果hdfs conf包含端口,则LOAD DATA INPATH不起作用
  • [ SPARK-25741 ] - 在Web UI中无法正确呈现长URL
  • [ SPARK-25768 ] - 期望Hive UDAF的常量参数不起作用
  • [ SPARK-25793 ] - 在BisectingKMeans中加载模型错误
  • [ SPARK-25795 ] - 修复CSV SparkR SQL示例
  • [ SPARK-25797 ] - 通过2.1创建的视图无法通过2.2+读取
  • [ SPARK-25801 ] - pandas_udf grouped_map失败,输入数据帧超过255列
  • [ SPARK-25803 ] - docker-image-tool.sh的-n选项会导致忽略其他选项
  • [ SPARK-25816 ] - 功能无法正确解析列
  • [ SPARK-25822 ] - 在释放Python工作者时修复竞争条件
  • [ SPARK-25832 ] - 删除新添加的地图相关功能
  • [ SPARK-25835 ] - 在k8s集成测试中传播scala 2.12配置文件
  • [ SPARK-25840 ] - 由于缺少LICENSE-binary,`make-distribution.sh`不会失败
  • [ SPARK-25854 ] - mvn帮助程序脚本总是退出w / 1,导致mvn构建失败

New Feature(新特性)

  • [ SPARK-10697 ] - 关联规则挖掘中的提升计算
  • [ SPARK-14682 ] - 为spark.ml GBT提供evaluateEachIteration方法或等效方法
  • [ SPARK-15064 ] - StopWordsRemover中的语言环境支持
  • [ SPARK-15784 ] - 为spark.ml添加Power Iteration Clustering
  • [ SPARK-19480 ] - SQL中的高阶函数
  • [ SPARK-21274 ] - 实施除外全部和全部交叉
  • [ SPARK-22119 ] - 向KMeans添加余弦距离
  • [ SPARK-22880 ] - 如果数据库支持,则添加级联jdbc截断选项(PostgreSQL和Oracle)
  • [ SPARK-23010 ] - 将Kubernetes后端的集成测试添加到apache / spark存储库中
  • [ SPARK-23146 ] - 支持Kubernetes集群后端的客户端模式
  • [ SPARK-23235 ] - 将执行程序Threaddump添加到api
  • [ SPARK-23541 ] - 允许Kafka源读取比主题分区数更大的并行度的数据
  • [ SPARK-23751 ] - 在pyspark.ml中的Kolmogorov-Smirnoff测试Python API
  • [ SPARK-23846 ] - 用于CSV数据源的模式推断的samplingRatio
  • [ SPARK-23856 ] - Spark jdbc setQueryTimeout选项
  • [ SPARK-23948 ] - 在submitMissingTasks中触发mapstage的作业监听器
  • [ SPARK-23984 ] - K8S的PySpark绑定
  • [ SPARK-24027 ] - 通过from_json支持MapType(StringType,DataType)作为根类型
  • [ SPARK-24193 ] - 在TakeOrderedAndProjectExec中,当限制数量很大时按磁盘排序
  • [ SPARK-24231 ] - Python API:为spark.ml GBT提供evaluateEachIteration方法或等效方法
  • [ SPARK-24232 ] - 允许将kubernetes的秘密称为env变量
  • [ SPARK-24288 ] - 启用防止谓词下推
  • [ SPARK-24371 ] - 在Scala和Java的DataFrame API中添加了isInCollection。
  • [ SPARK-24372 ] - 创建用于准备RC的脚本
  • [ SPARK-24396 ] - 为python添加结构化流ForeachWriter
  • [ SPARK-24397 ] - 在Python中添加TaskContext.getLocalProperties
  • [ SPARK-24411 ] - 为`isInCollection`添加本机Java测试
  • [ SPARK-24412 ] - 在`isin`和`isInCollection` API中添加有关自动类型转换的文档
  • [ SPARK-24433 ] - K8S的R结合
  • [ SPARK-24435 ] - 支持用户提供的YAML,可以与k8s pod描述合并
  • [ SPARK- 24465] - LSHModel应该支持结构化流转换
  • [ SPARK-24479 ] - 在Spark Conf中注册StreamingQueryListener
  • [ SPARK-24499 ] - 将sql-programming-guide.html的页面拆分为多个单独的页面
  • [ SPARK-24542 ] - Hive UDF系列UDFXPathXXXX允许用户通过精心设计的XML来访问任意文件
  • [ SPARK-24662 ] - 结构化流媒体应支持LIMIT
  • [ SPARK-24730 ] - 添加策略以在流式查询具有多个水印时选择max作为全局水印
  • [ SPARK-24768 ] - 具有内置的AVRO数据源实现
  • [ SPARK-24795 ] - 实施屏障执行模式
  • [ SPARK-24802 ] - 优化规则排除
  • [ SPARK-24817 ] - 实施BarrierTaskContext.barrier()
  • [ SPARK-24819 ] - 在提交作业时没有足够的插槽启动障碍阶段时失败
  • [ SPARK-24820 ] - 提交的作业在屏障阶段包含PartitionPruningRDD时失败
  • [ SPARK-24821 ] - 在屏障阶段的所有分区的子集上提交作业计算时快速失败
  • [ SPARK-24822 ] - Python支持屏障执行模式
  • [ SPARK-24918 ] - Executor Plugin API
  • [ SPARK-25468 ] - 突出显示历史记录服务器中的当前页面索引

Story

  • [ SPARK-24124 ] - Spark历史服务器应该创建spark.history.store.path并正确设置权限
  • [ SPARK-24852 ] - 让spark.ml培训使用更新的`Instrumentation` API。
  • [ SPARK-25234 ] - SparkR ::: parallelize不能正确处理整数溢出
  • [ SPARK-25248 ] - Spark 2.4的审计障碍API
  • [ SPARK-25345 ] - 从ImageSchema弃用readImages API
  • [ SPARK-25347 ] - doc站点中的文档图像数据源

Improvement(改进)

  • [ SPARK-3159 ] - 检查可还原的DecisionTree
  • [ SPARK-4502 ] - Spark SQL从Parquet中读取不必要的嵌套字段
  • [ SPARK-7132 ] - 将验证设置添加到spark.ml GBT
  • [ SPARK-9312 ] - OneVsRest模型不提供rawPrediction
  • [ SPARK-11630 ] - ClosureCleaner错误地警告基于类的闭包
  • [ SPARK-13​​343 ] - 未提交的投机任务不应标记为成功
  • [ SPARK-14712 ] - spark.ml LogisticRegressionModel.toString应该总结模型
  • [ SPARK-15009 ] - PySpark CountVectorizerModel应该能够从词汇表中构建
  • [ SPARK-16406 ] - 大量列的参考分辨率应该更快
  • [ SPARK- 16501] - 在UI和命令行上公开spark.mesos.secret
  • [ SPARK-16617 ] - 升级到Avro 1.8.x.
  • [ SPARK-16630 ] - 如果执行程序无法在其上启动,则将节点列入黑名单。
  • [ SPARK-18057 ] - 将结构化流媒体kafka从0.10.0.1更新为2.0.0
  • [ SPARK-18230 ] - 当用户不存在时,MatrixFactorizationModel.recommendProducts会抛出NoSuchElement异常
  • [ SPARK-19018 ] - spark csv writer charset支持
  • [ SPARK-19602 ] - 无法使用表单的完全限定列名进行查询(
  • [ SPARK-19724 ] - 使用现有的默认位置创建托管表应该抛出异常
  • [ SPARK- 19947] - RFormulaModel总是在使用NULL或看不见的标签转换数据时抛出异常
  • [ SPARK- 20087] - 将TaskKilled发送到onTaskEnd侦听器时包含accumulators / taskMetrics
  • [ SPARK-20168 ] - 启用kinesis以从时间戳指定的初始位置开始流
  • [ SPARK-20538 ] - Dataset.reduce运算符应该使用withNewExecutionId(作为foreach或foreachPartition)
  • [ SPARK-20659 ] - 删除StorageStatus,或将其设为私有。
  • [ SPARK-20937 ] - 在Spark SQL,DataFrames和Datasets Guide中描述spark.sql.parquet.writeLegacyFormat属性
  • [ SPARK-21318 ] - `lookupFunction`抛出的异常消息不明确。
  • [ SPARK-21351 ] - 根据优化逻辑计划中儿童的输出更新可空性
  • [ SPARK-21590 ] - 结构化流媒体窗口开始时间应支持负值以调整时区
  • [ SPARK-21687 ] - Spark SQL应为Hive分区设置createTime
  • [ SPARK-21741 ] - 基于DataFrame的多变量摘要生成器的Python API
  • [ SPARK-21783 ] - 默认打开ORC过滤器下推
  • [ SPARK-21860 ] - 在'HeapMemoryAllocator`中改进堆内存的内存重用
  • [ SPARK-21960 ] - Spark Streaming动态分配应尊重spark.executor.instances
  • [ SPARK-22068 ] - 减少putIteratorAsValues和putIteratorAsBytes之间的重复代码
  • [ SPARK-22144 ] - ExchangeCoordinator不会组合0大小的预洗牌的分区
  • [ SPARK-22210 ] - 在线LDA variationalTopicInference应使用随机种子来保持稳定行为
  • [ SPARK-22219 ] - Refector“spark.sql.codegen.comments”
  • [ SPARK-22269 ] - 应该在Jenkins中运行Java样式检查
  • [ SPARK-22666 ] - 图像格式的Spark数据源
  • [ SPARK-22683 ] - DynamicAllocation通过分配几乎不会使用的容器来浪费资源
  • [ SPARK-22751 ] - 改进ML RandomForest shuffle性能
  • [ SPARK-22814 ] - JDBC支持日期/时间戳类型为partitionColumn
  • [ SPARK-22839 ] - 重构Kubernetes代码,用于配置驱动程序/执行程序窗格以使用一致且更清晰的抽象
  • [ SPARK-22856 ] - 为codegen输出和可空性添加包装器
  • [ SPARK-22941 ] - 允许SparkSubmit抛出异常而不是退出/打印错误。
  • [ SPARK-22959 ] - 在PySpark中为守护程序和工作程序选择模块的配置
  • [ SPARK-23024 ] - 关于表单内容的Spark ui需要有隐藏和显示功能,当表记录非常多时。
  • [ SPARK-23031 ] - 合并脚本应允许任意受让人
  • [ SPARK-23034 ] - 在UI中显示“HiveTableScan”节点的表名
  • [ SPARK-23040 ] - 如果指定了聚合器或订购,则BlockStoreShuffleReader的返回Iterator不可中断
  • [ SPARK-23043 ] - 将json4s-jackson升级到3.5.3
  • [ SPARK-23085 ] - mllib.linalg.Vectors.sparse的 API奇偶校验
  • [ SPARK-23159 ] - 更新Cloudpickle以匹配版本0.4.3
  • [ SPARK-23161 ] - 向Python GBTClassifier添加缺少的API
  • [ SPARK-23162 ] - PySpark ML LinearRegressionSummary缺少r2adj
  • [ SPARK-23166 ] - 将maxDF参数添加到CountVectorizer
  • [ SPARK-23167 ] - 从v1.4更新TPCDS查询到v2.7(最新)
  • [ SPARK-23174 ] - 修复pep8到最新的官方版本
  • [ SPARK-23188 ] - 使矢量化columar阅读器批量大小可配置
  • [ SPARK-23202 ] - 在DataSourceWriter中添加新API:onDataWriterCommit
  • [ SPARK-23217 ] - 将余弦距离度量添加到ClusteringEvaluator
  • [ SPARK-23228 ] - 能够跟踪Python在JVM中创建SparkSession
  • [ SPARK-23247 ] - 在扫描数据源中结合不安全操作和统计操作
  • [ SPARK-23253 ] - 只有在没有现有索引文件时才写入随机索引文件
  • [ SPARK-23259 ] - 清除hive外部目录周围的遗留代码
  • [ SPARK-23285 ] - 允许spark.executor.cores为小数
  • [ SPARK-23295 ] - 在make-distribution.sh中生成版本时排除Waring消息
  • [ SPARK-23303 ] - 改进数据源v2关系的解释结果
  • [ SPARK-23318 ] - FP-growth:WARN FPGrowth:不缓存输入数据
  • [ SPARK-23336 ] - 将snappy-java升级到1.1.7.1
  • [ SPARK-23359 ] - 在Scala的StructType中添加'fieldNames'的别名'names'
  • [ SPARK-23366 ] - 改进ReadAheadInputStream中的热读取路径
  • [ SPARK-23372 ] - 在镶木地板中写入空结构在执行期间失败。它应该在分析过程中提前失败。
  • [ SPARK-23375 ] - 优化程序应删除不需要的排序
  • [ SPARK-23378 ] - 将setCurrentDatabase从HiveExternalCatalog移至HiveClientImpl
  • [ SPARK-23379 ] - 如果当前数据库名称相同,则删除冗余的Metastore访问
  • [ SPARK-23382 ] - 关于表单内容的Spark Streaming ui需要有隐藏和显示功能,当表记录非常多时。
  • [ SPARK-23383 ] - 在检测到错误选项时,应在退出时使用
  • [ SPARK-23389 ] - 当shuffle依赖项指定聚合,并且`dependency.mapSideCombine = false`时,我们应该能够使用序列化排序。
  • [ SPARK-23412 ] - 向BisectingKMeans添加余弦距离测量
  • [ SPARK-23424 ] - 在评论中添加codegenStageId
  • [ SPARK-23445 ] - ColumnStat重构
  • [ SPARK-23447 ] - Literal的清理codegen模板
  • [ SPARK-23455 ] - ML中的默认参数应单独保存
  • [ SPARK-23456 ] - 默认启用`native` ORC实现
  • [ SPARK-23466 ] - 通过GenerateUnsafeProjection删除生成的Java代码中的冗余空值检查
  • [ SPARK-23500 ] - named_structs上的过滤器可以推送到扫描中
  • [ SPARK-23510 ] - 支持从Hive 2.2和Hive 2.3 Metastore读取数据
  • [ SPARK-23518 ] - 当用户只想读取和存储数据帧时,避免使用Metastore
  • [ SPARK-23528 ] - 将数字添加到ClusteringSummary
  • [ SPARK-23529 ] - 指定主机路径卷并在Kubernetes中的Spark驱动程序和执行程序窗格中装入卷
  • [ SPARK-23538 ] - 简化https客户端的SSL配置
  • [ SPARK-23550 ] - 清除Utils对象中未使用/冗余的方法
  • [ SPARK-23553 ] - 测试不应采用`spark.sql.sources.default`的默认值
  • [ SPARK-23562 ] - RFormula handleInvalid应处理非字符串列中的无效值。
  • [ SPARK-23564 ] - 关于左反连接的优化逻辑计划应进一步优化
  • [ SPARK-23565 ] - 改进了查询源数量变化时的错误消息
  • [ SPARK-23568 ] - 如果可用,Silhouette应从元数据中获取要素数量
  • [ SPARK-23572 ] - 更新security.md以涵盖新功能
  • [ SPARK-23573 ] - 创建linter规则以防止在SQL模块中滥用SparkContext.hadoopConfiguration
  • [ SPARK-23604 ] - ParquetInteroperabilityTest时间戳测试应该使用Statistics.hasNonNullValue
  • [ SPARK-23624 ] - 修改方法pushFilters的文档
  • [ SPARK-23627 ] - 在DataSet中提供isEmpty()函数
  • [ SPARK-23628 ] - WholeStageCodegen可以生成包含太多参数的方法
  • [ SPARK-23644 ] - 带代理的SHS不显示应用程序
  • [ SPARK-23645 ] - 无法使用关键字参数调用pandas_udf
  • [ SPARK-23654 ] - 将jets3t剪切为spark-core的依赖项
  • [ SPARK-23656 ] - 在大端平台上不执行XXH64Suite.testKnownByteArrayInputs()中的断言
  • [ SPARK-23672 ] - 文档支持返回Arrow UDF中的列表
  • [ SPARK-23675 ] - 标题添加火花徽标,使用火花徽标图像
  • [ SPARK-23683 ] - FileCommitProtocol.instantiate需要3-arg构造函数进行动态分区覆盖
  • [ SPARK-23691 ] - 尽可能在PySpark测试中使用sql_conf util
  • [ SPARK-23695 ] - PySpark的Kinesis测试在其jar丢失但启用时出现混乱错误消息
  • [ SPARK-23699 ] - 当禁用箭头回退时,PySpark应该引发相同的错误
  • [ SPARK-23700 ] - 清理未使用的进口产品
  • [ SPARK-23708 ] - ShutdownHookManager.addShutdownHook的评论错误
  • [ SPARK-23769 ] - 删除不必要的scalastyle检查禁用
  • [ SPARK-23770 ] - 在SparkR中显示repartitionByRange
  • [ SPARK-23772 ] - 在JSON模式推断期间提供忽略所有空值列或空映射/数组的选项
  • [ SPARK-23776 ] - 当缺少组件时,pyspark-sql测试应显示构建说明
  • [ SPARK-23803 ] - 支持铲斗修剪以优化对柱状柱的过滤
  • [ SPARK-23820 ] - 允许在日志中记录长形式的呼叫站点
  • [ SPARK-23822 ] - 改进Parquet模式不匹配的错误消息
  • [ SPARK-23828 ] - PySpark StringIndexerModel应该有标签的构造函数
  • [ SPARK-23830 ] - 当Spark应用程序是Scala类而不是对象时,集群部署模式下的YARN上的Spark失败并显示NullPointerException
  • [ SPARK- 23838] - SparkUI:在SQL选项卡中显示为“已完成”的SQL查询
  • [ SPARK-23841 ] - NodeIdCache应该取消最后一个缓存的nodeIdsForInstances
  • [ SPARK-23861 ] - 使用和不使用orderBy子句澄清默认窗口框架边界的行为
  • [ SPARK-23867 ] - 日志消息中的com.codahale.metrics.Counter输出没有toString方法
  • [ SPARK-23873 ] - 在解释的LambdaVariable中使用访问器
  • [ SPARK-23874 ] - 将apache / arrow升级到0.10.0
  • [ SPARK- 23875] - 为ArrayData创建IndexedSeq包装器
  • [ SPARK-23877 ] - 仅元数据查询不会降低过滤条件
  • [ SPARK-23880 ] - 表缓存应该是懒惰的,不要触发任何作业
  • [ SPARK-23892 ] - 改进覆盖率并修复与UTF8String相关的套件中的lint错误
  • [ SPARK-23896 ] - 改进PartitioningAwareFileIndex
  • [ SPARK-23944 ] - 将Param集函数添加到LSHModel类型
  • [ SPARK-23947 ] - 为哈希类添加hashUTF8String便捷方法
  • [ SPARK-23956 ] - 在AM注册中使用有效的RPC端口
  • [ SPARK-23957 ] - 子查询中的排序是多余的,可以删除
  • [ SPARK-23960 ] - Mark HashAggregateExec.bufVars为瞬态
  • [ SPARK-23962 ] - 来自SQLMetricsTestUtils.currentExecutionIds的Flaky测试
  • [ SPARK-23963 ] - 随着列数的增加,基于文本的Hive表的查询速度不成比例地增长
  • [ SPARK-23966 ] - 在公共接口中重构所有检查点文件写入逻辑
  • [ SPARK-23972 ] - 升级至Parquet 1.10
  • [ SPARK-23973 ] - 删除连续排序
  • [ SPARK-23979 ] - MultiAlias不应该是CodegenFallback
  • [ SPARK-24003 ] - 添加支持以App Id和/或Executor Id提供spark.executor.extraJavaOptions
  • [ SPARK-24005 ] - 删除Scala并行集合的使用
  • [ SPARK-24014 ] - 将onStreamingStarted方法添加到StreamingListener
  • [ SPARK-24017 ] - 将ExternalCatalog重构为接口
  • [ SPARK-24024 ] - 修复GLM中的偏差计算以处理拐角情况
  • [ SPARK-24029 ] - 在侦听套接字上设置“重用地址”标志
  • [ SPARK-24035 ] - Pivot的SQL语法
  • [ SPARK-24057 ] - 将实际数据类型放入AssertionError消息中
  • [ SPARK-24058 ] - ML中的默认参数应单独保存:Python API
  • [ SPARK-24072 ] - 清楚地定义推送过滤器
  • [ SPARK-24083 ] - 未捕获异常的诊断消息应包括堆栈跟踪
  • [ SPARK-24094 ] - 更改v2流媒体源的描述字符串以反映更改
  • [ SPARK-24111 ] - 在TPCDSQueryBenchmark中添加TPCDS v2.7(最新)查询
  • [ SPARK-24117 ] - 统一getSizePerRow
  • [ SPARK-24121 ] - 用于处理表达式codegen中的表达式代码生成的API
  • [ SPARK-24126 ] - PySpark测试在/ tmp中留下了大量垃圾
  • [ SPARK-24127 ] - 支持连续模式的文本套接字源
  • [ SPARK- 24128] - 在隐式笛卡尔积错误信息中提及spark.sql.crossJoin.enabled
  • [ SPARK-24129 ] - 添加选项以将--build-arg传递给docker-image-tool.sh
  • [ SPARK-24131 ] - 将majorMinorVersion API添加到PySpark以确定Spark版本
  • [ SPARK-24136 ] - 如果记录可用,MemoryStreamDataReader.next应该跳过睡眠状态
  • [ SPARK-24149 ] - HDFS联合中的自动命名空间发现
  • [ SPARK-24156 ] - 启用无数据微批次以获得更加热切的流式清理
  • [ SPARK-24160 ] - 如果收到零大小的块,ShuffleBlockFetcherIterator将失败
  • [ SPARK-24161 ] - 在结构化流媒体上启用调试包功能
  • [ SPARK-24172 ] - 我们不应多次将操作员下推应用于数据源v2
  • [ SPARK-24181 ] - 用于编写已排序数据的更好的错误消息
  • [ SPARK-24182 ] - 在AM失败时改善客户端模式的错误消息
  • [ SPARK-24188 ] - / api / v1 /版本无效
  • [ SPARK-24204 ] - 验证Json / Orc / ParquetFileFormat中的写入模式
  • [ SPARK-24206 ] - 改进用于读取和下推的DataSource基准代码
  • [ SPARK-24209 ] - 0配置SHS中的Knox网关支持
  • [ SPARK-24215 ] - 对DataFrame API实施热切评估
  • [ SPARK-24242 ] - RangeExec应具有正确的outputOrdering
  • [ SPARK-24244 ] - 仅解析所需的CSV文件列
  • [ SPARK-24246 ] - 通过在可用时设置原因来改进AnalysisException
  • [ SPARK-24248 ] - [K8S]使用Kubernetes群集作为pod状态的后备存储
  • [ SPARK-24250 ] - 支持访问SQLConf内部任务
  • [ SPARK-24262 ] - 修复UDF错误消息中的拼写错误
  • [ SPARK-24268 ] - 错误消息中的DataType不一致
  • [ SPARK-24275 ] - 修改InputPartition中的文档注释
  • [ SPARK-24277 ] - SQL模块中的代码清理:HadoopMapReduceCommitProtocol / FileFormatWriter
  • [ SPARK-24303 ] - 将cloudpickle更新为v0.4.4
  • [ SPARK-24305 ] - 避免在新集合表达式中序列化私有字段
  • [ SPARK-24308 ] - 处理DataReaderFactory到InputPartition在左侧类中重命名
  • [ SPARK-24312 ] - Hive Metastore Client 2.3升级到2.3.3
  • [ SPARK-24321 ] - 从Divide / Remainder中提取公共代码到基本特征
  • [ SPARK-24326 ] - 在mesos集群模式下为app jar添加local:// scheme支持
  • [ SPARK-24327 ] - 根据JDBC解析的模式验证并规范化分区列名称
  • [ SPARK-24329 ] - 在解析CSV文件之前删除注释过滤
  • [ SPARK-24330 ] - 使用DataWriter(V2)在FileFormatWriter中重构ExecuteWriteTask
  • [ SPARK-24332 ] - 将读取'spark.network.timeout'的位置修复为毫秒
  • [ SPARK-24337 ] - 改进无效SQL conf值的错误消息
  • [ SPARK-24339 ] - spark sql无法在transform / map / reduce查询中修剪列
  • [ SPARK-24356 ] - 由FileSegmentManagedBuffer管理的File.path中的重复字符串
  • [ SPARK-24361 ] - 波兰语代码块操作API
  • [ SPARK-24365 ] - 添加数据源写入基准
  • [ SPARK-24366 ] - 改进Catalyst类型转换器的错误消息
  • [ SPARK-24367 ] - Parquet:使用JOB_SUMMARY_LEVEL而不是弃用标志ENABLE_JOB_SUMMARY
  • [ SPARK-24381 ] - 改进NOT IN子查询的单元测试覆盖率
  • [ SPARK-24408 ] - 将abs函数移动到math_funcs组
  • [ SPARK-24423 ] - 为JDBC源添加新选项`query`
  • [ SPARK-24424 ] - 支持GROUPING SET的ANSI-SQL兼容语法
  • [ SPARK-24428 ] - 删除未使用的代码并修复K8s模块中的任何相关文档
  • [ SPARK-24441 ] - 在HDFSBackedStateStoreProvider中显示状态的总估计大小
  • [ SPARK-24454 ] - ml.image没有明确定义__all__
  • [ SPARK-24455 ] - 修复TaskSchedulerImpl评论中的拼写错误
  • [ SPARK-24470 ] - RestSubmissionClient可以抵抗404和非json响应
  • [ SPARK-24477 ] - 默认情况下,在pyspark.ml下导入子模块
  • [ SPARK-24485 ] - 在HDFSBackedStateStoreProvider中测量和记录文件系统操作所用的时间
  • [ SPARK-24490 ] - 在Web UI中使用WebUI.addStaticHandler
  • [ SPARK-24505 ] - 将codegen中的字符串转换为块:Cast和BoundAttribute
  • [ SPARK-24518 ] - 使用Hadoop凭据提供程序API存储密码
  • [ SPARK-24519 ] - MapStatus有2000个硬编码
  • [ SPARK-24525 ] - 提供限制MemorySink内存使用的选项
  • [ SPARK-24534 ] - 如果没有传递spark cmd,请添加绕过entrypoint.sh脚本的方法
  • [ SPARK-24543 ] - 支持任何DataType作为from_json模式的DDL字符串
  • [ SPARK-24547 ] - Spark on K8s docker-image-tool.sh改进
  • [ SPARK-24551 ] - 为Secrets添加集成测试
  • [ SPARK-24555 ] - KNans / BiKM / GMM / AFT / NB中的logNumExamples
  • [ SPARK-24557 ] - ClusteringEvaluator支持数组输入
  • [ SPARK-24558 ] - 当保存cacheBlock的执行程序为IDLE时,驱动程序在日志中输出错误的信息。显示的超时值不是按配置值。
  • [ SPARK-24565 ] - 在结构化流中添加API,以将每个微量分片的输出行公开为DataFrame
  • [ SPARK-24566 ] - 修复spark.storage.blockManagerSlaveTimeoutMs默认配置
  • [ SPARK-24571 ] - 支持具有Char类型值的文字
  • [ SPARK- 24574] - 改进sql组件的array_contains函数来处理Column类型
  • [ SPARK-24575 ] - 禁止在WHERE和HAVING子句中使用窗口表达式
  • [ SPARK-24576 ] - 将Apache ORC升级到1.5.2
  • [ SPARK-24596 ] - 非级联缓存失效
  • [ SPARK-24605 ] - size(null)应返回null
  • [ SPARK-24609 ] - PySpark / SparkR doc没有很好地解释RandomForestClassifier.featureSubsetStrategy
  • [ SPARK-24614 ] - PySpark - 修复tests.py上的SyntaxWarning
  • [ SPARK-24626 ] - 在Analyze Table命令中并行化大小计算
  • [ SPARK-24635 ] - 删除Blocks类
  • [ SPARK-24636 ] - 为array_join函数输入数组强制
  • [ SPARK-24637 ] - 向dropwizard指标添加有关状态和水印的指标
  • [ SPARK-24646 ] - 支持通配符'*'表示spark.yarn.dist.forceDownloadSchemes
  • [ SPARK-24658 ] - 删除ANTLR错误的解决方法
  • [ SPARK-24665 ] - 在PySpark中添加SQLConf来管理所有sql配置
  • [ SPARK-24673 ] - scala sql函数from_utc_timestamp第二个参数可能是Column而不是String
  • [ SPARK-24675 ] - 重命名表:验证新位置的存在
  • [ SPARK-24678 ] - 我们应首先使用'PROCESS_LOCAL'进行Spark-Streaming
  • [ SPARK-24683 ] - SparkLauncher.NO_RESOURCE不适用于Java应用程序
  • [ SPARK-24685 ] - 调整发行脚本以构建旧版本的所有版本
  • [ SPARK-24688 ] - 澄清关于LabeledPoint的评论(标签,功能)对而不是(功能,标签)
  • [ SPARK-24691 ] - 在FileFormat中添加新的API`supportDataType`
  • [ SPARK-24692 ] - 改进FilterPushdownBenchmark
  • [ SPARK-24696 ] - ColumnPruning规则无法删除额外的Project
  • [ SPARK-24697 ] - 修复流式查询进度中报告的起始偏移量
  • [ SPARK-24709 ] - 从JSON字符串文字中推断模式
  • [ SPARK-24722 ] - 用于旋转的基于列的API
  • [ SPARK-24727 ] - CodeGenerator中的缓存100太小,无法进行流式传输
  • [ SPARK-24732 ] - 在MapTypes之间键入强制。
  • [ SPARK-24737 ] - 在StructTypes之间键入强制。
  • [ SPARK-24747 ] - 使spark.ml.util.Instrumentation类更加灵活
  • [ SPARK-24757 ] - 改进广播超时的错误消息
  • [ SPARK-24759 ] - 无广播散列连接的重新排序键
  • [ SPARK-24761 ] - 检查配置参数的可修改性
  • [ SPARK-24763 ] - 从流聚合中的值中删除冗余密钥数据
  • [ SPARK-24782 ] - 简化表达式中的conf访问
  • [ SPARK-24785 ] - 确保REPL打印Spark UI信息,然后打印欢迎消息
  • [ SPARK-24790 ] - 允许在数据透视表中使用复杂的聚合表达式
  • [ SPARK-24801 ] - spark.network.sasl.SaslEncryption中的空byte []数组$ EncryptedMessage会浪费大量内存
  • [ SPARK-24807 ] - 两次添加文件/罐子:输出警告并添加注释
  • [ SPARK-24849 ] - 将StructType转换为DDL字符串
  • [ SPARK-24858 ] - 避免不必要的镶木地板页脚读取
  • [ SPARK-24860 ] - 每次写入操作公开动态分区覆盖
  • [ SPARK-24865 ] - 删除AnalysisBarrier
  • [ SPARK-24868 ] - 在Python中添加序列函数
  • [ SPARK-24871 ] - 重构Concat和MapConcat以避免为每一行创建连锁对象。
  • [ SPARK-24890 ] - 当`trueValue`和`falseValue`相同时,短路`if`条件
  • [ SPARK-24893 ] - 如果所有输出都是语义等价的,则删除整个Case
  • [ SPARK-24926 ] - 确保在所有网络配置(驱动程序和执行程序)中始终使用numCores
  • [ SPARK-24929 ] - 合并脚本吞下KeyboardInterrupt
  • [ SPARK-24940 ] - SQL查询的合并和重新分区提示
  • [ SPARK-24943 ] - 将SQL结构转换为StructType
  • [ SPARK-24945 ] - 切换到uniVocity> = 2.7.2
  • [ SPARK-24951 ] - 表值函数应抛出AnalysisException而不是IllegalArgumentException
  • [ SPARK-24952 ] - 支持Avro数据源的LZMA2压缩
  • [ SPARK-24954 ] - 如果在启用动态资源分配的情况下运行障碍阶段,则在作业提交时快速失败
  • [ SPARK-24956 ] - 将maven从3.3.9升级到3.5.4
  • [ SPARK-24959 ] - 不要为空架构调用CSV / JSON解析器
  • [ SPARK- 24960] - k8s:显式公开驱动程序容器上的端口
  • [ SPARK-24962 ] - 重构CodeGenerator.createUnsafeArray
  • [ SPARK-24978 ] - 添加spark.sql.fast.hash.aggregate.row.max.capacity以配置快速聚合的容量。
  • [ SPARK-24979 ] - 添加AnalysisHelper#resolveOperatorsUp
  • [ SPARK-24982 ] - UDAF解析不应抛出java.lang.AssertionError
  • [ SPARK-24992 ] - 火花应随机选择纱线局部方向
  • [ SPARK-24993 ] - 让Avro再次快速
  • [ SPARK-24996 ] - 使用DSL简化DeclarativeAggregate
  • [ SPARK-24999 ] - 减少不必要的“新”内存操作
  • [ SPARK-25001 ] - 修复构建杂项警告
  • [ SPARK-25018 ] - 在`merge_spark_pr.py`中使用`Co-Authored-By` git预告片
  • [ SPARK-25025 ] - 删除INTERSECT / EXCEPT中isAll的默认值
  • [ SPARK-25043 ] - spark-sql应该在启动时打印appId和master
  • [ SPARK-25045 ] - 使`RDDBarrier.mapParititions`类似于`RDD.mapPartitions`
  • [ SPARK-25069 ] - 使用UnsafeAlignedOffset使8字节项的整个记录​​对齐,如在UnsafeExternalSorter中使用的那样
  • [ SPARK-25073 ] - 关于纱线任务的Spark-submit:当yarn.nodemanager.resource.memory-mb和/或yarn.scheduler.maximum-allocation-mb不足时,Spark总是报告错误请求以调整yarn.scheduler 。最大分配-MB
  • [ SPARK-25077 ] - 在WindowExec中删除未使用的变量
  • [ SPARK-25088 ] - Rest Server默认和doc更新
  • [ SPARK-25093 ] - CodeFormatter可以避免一次又一次地创建正则表达式对象
  • [ SPARK-25105 ] - 导入所有pyspark.sql.functions也应该带上PandasUDFType
  • [ SPARK-25108 ] - Dataset.show()为Unicode字符生成不正确的填充
  • [ SPARK-25111 ] - 增加kinesis客户端/生产者lib版本和aws-sdk以匹配
  • [ SPARK-25113 ] - 当任何生成的方法的字节码大小超过HugeMethodLimit时,向CodeGenerator添加日志记录
  • [ SPARK-25115 ] - 当使用由> 1 ByteBuffer支持的ByteBuf时,消除额外的内存复制。
  • [ SPARK-25117 ] - 在R中添加EXEPT ALL和INTERSECT ALL支持。
  • [ SPARK-25122 ] - 支持的重复数据删除等于代码
  • [ SPARK-25140 ] - 当UnsafeProjection.create回退到解释模式时,添加可选的日志记录
  • [ SPARK-25142 ] - 当Python worker无法在`_load_from_socket`中打开套接字时添加错误消息。
  • [ SPARK-25170 ] - 在文档中添加任务度量标准描述
  • [ SPARK-25178 ] - 直接发送keyXchema / valueSchema的StructType对象,用于xxxHashMapGenerator
  • [ SPARK-25208 ] - 为DecimalType松开Cast.forceNullable。
  • [ SPARK- 25209] - 针对DataFrames的Dataset.apply进行优化
  • [ SPARK-25212 ] - 在ConvertToLocalRelation中支持过滤器
  • [ SPARK-25228 ] - 添加执行程序CPU时间度量标准
  • [ SPARK-25233 ] - 当使用带背压的kafka direct API时,为用户提供为每批次指定固定最小消息的选项
  • [ SPARK-25235 ] - 合并Scala 2.11和2.12分支中的REPL代码
  • [ SPARK-25241 ] - 读取/写入CSV文件时可配置的空值
  • [ SPARK-25252 ] - 支持to_json中任何类型的数组
  • [ SPARK-25253 ] - 重构pyspark连接和身份验证
  • [ SPARK-25260 ] - 修复SchemaConverters.toAvroType中的命名空间处理
  • [ SPARK-25275 ] - 要求轮子中的成员运行'su'(在dockerfiles中)
  • [ SPARK-25286 ] - 删除危险的parmap
  • [ SPARK-25287 ] - 在merge_spark_pr.py中预先检查JIRA_USERNAME和JIRA_PASSWORD
  • [ SPARK-25300 ] - 统一配置参数`spark.shuffle.service.enabled`
  • [ SPARK-25318 ] - 在获取或阶段重试期间包装输入流时添加异常处理以响应损坏的块
  • [ SPARK-25335 ] - 如果已安装在系统中,则跳过Zip下载
  • [ SPARK-25375 ] - 重新启用合格烫发。UDFSuite中的函数检查
  • [ SPARK- 25384] - Clarify fromJsonForceNullableSchema将在Spark 3.0中删除
  • [ SPARK-25400 ] - 在schedulerIntegrationSuite中增加超时
  • [ SPARK-25445 ] - 使用Spark 2.4发布scala 2.12版本
  • [ SPARK-25469 ] - Concat,Reverse和ElementAt的Eval方法应该只使用一次模式匹配
  • [ SPARK-25639 ] - 添加有关foreachBatch的文档和多个水印策略
  • [ SPARK-25754 ] - 更改MathJax的CDN
  • [ SPARK-25859 ] - 为PrefixSpan添加scala / java / python示例和doc

Test

  • [ SPARK-16139 ] - 审计泄漏线程的测试
  • [ SPARK-22882 ] - StructuredStreaming的ML测试:spark.ml.classification
  • [ SPARK-22883 ] - StructuredStreaming的ML测试:spark.ml.feature,AM
  • [ SPARK-22884 ] - StructuredStreaming的ML测试:spark.ml.clustering
  • [ SPARK-22885 ] - StructuredStreaming的ML测试:spark.ml.tuning
  • [ SPARK-22886 ] - StructuredStreaming的ML测试:spark.ml.recommendation
  • [ SPARK-22915 ] - 结构化流的ML测试:spark.ml.feature,NZ
  • [ SPARK-23169 ] - 对lint -r脚本和.lintr配置的更改运行lintr
  • [ SPARK-23392 ] - 为图像功能添加一些测试用例
  • [ SPARK-23849 ] - 测试json模式推断的samplingRatio选项
  • [ SPARK-23881 ] - 片状测试:JobCancellationSuite。“shuffle reader的可中断迭代器”
  • [ SPARK-24044 ] - 从unittest模块中明确打印出跳过的测试
  • [ SPARK-24502 ] - 片状测试:UnsafeRowSerializerSuite
  • [ SPARK-24521 ] - 修复CachedTableSuite中的无效测试
  • [ SPARK-24562 ] - 允许在SQLQueryTestSuite中使用多个配置运行相同的测试
  • [ SPARK-24564 ] - 为RecordBinaryComparator添加测试套件
  • [ SPARK-24740 ] - PySpark测试未通过NumPy 0.14.x +
  • [ SPARK-24840 ] - 不要使用虚拟过滤器来打开/关闭codegen
  • [ SPARK-24861 ] - 在RateSourceSuite中创建更正的临时目录
  • [ SPARK-24886 ] - 增加Jenkins的构建时间
  • [ SPARK-25141 ] - 修改高阶函数的测试以检查绑定方法。
  • [ SPARK-25184 ] - Flaky测试:FlatMapGroupsWithState“流处理时间超时”
  • [ SPARK-25238 ] - Lint-Python:升级到当前版本的pycodestyle失败
  • [ SPARK-25249 ] - 为OpenHashMap添加单元测试
  • [ SPARK-25267 ] - 在sql / core和sql / hive的测试用例中禁用ConvertToLocalRelation
  • [ SPARK-25290 ] - BytesToBytesMapOnHeapSuite randomizedStressTest可能导致OutOfMemoryError
  • [ SPARK-25296 ] - 创建ExplainSuite
  • [ SPARK-25422 ] - 片状测试:org.apache.spark.DistributedSuite.caching在磁盘上,已复制(encryption = on)(以复制为流)
  • [ SPARK-25453 ] - OracleIntegrationSuite IllegalArgumentException:时间戳格式必须为yyyy-mm-dd hh:mm:ss [.fffffffff]
  • [ SPARK-25456 ] - PythonForeachWriterSuite失败
  • [ SPARK-25673 ] - 删除Travis CI,启用Java lint检查
  • [ SPARK-25736 ] - 添加测试以验证多列计数的行为
  • [ SPARK-25805 ] - 片状测试:DataFrameSuite.SPARK-25159单元测试失败

Wish

  • [ SPARK-23131 ] - 在序列化GLR模型期间,Kryo引发了StackOverflow
  • [ SPARK-25258 ] - 将kryo软件包升级到4.0.2版

Task

  • [ SPARK-20220 ] - 在调度文档中添加thrift调度池配置
  • [ SPARK-23092 ] - 将MemoryStream迁移到DataSource V2
  • [ SPARK-23451 ] - 弃用KMeans computeCost
  • [ SPARK-23501 ] - 重构AllStagesPage以避免冗余代码
  • [ SPARK-23533 ] - 添加对更改ContinuousDataReader的startOffset的支持
  • [ SPARK-23601 ] - 从发行版中删除.md5文件
  • [ SPARK-24392 ] - 将pandas_udf标记为实验
  • [ SPARK-24533 ] - typesafe已经重新命名为lightbend。将build / mvn端点从downloads.typesafe.com更改为downloads.lightbend.com
  • [ SPARK-24654 ] - 更新,修复LICENSE和NOTICE,并专门针对源与二进制
  • [ SPARK-25063 ] - 将类KnowNotNull重命名为KnownNotNull
  • [ SPARK-25095 ] - 对BarrierTaskContext的Python支持
  • [ SPARK-25213 ] - DataSourceV2似乎不会产生不安全的行
  • [ SPARK-25336 ] - 恢复SPARK-24863和SPARK-24748
  • [ SPARK-25836 ] - (暂时)禁用kubernetes-integration-tests的自动构建/测试

Dependency upgrade

  • [ SPARK-20395 ] - 将Scala更新为2.11.11,将锌更新为0.3.15
  • [ SPARK-23509 ] - 将公共网络从2.2升级到3.1

Request

  • [ SPARK-21607 ] - dropTempView函数可以像dropTempView一样添加一个参数(viewName:String,dropSelfOnly:Boolean)

Umberlla

  • [ SPARK-14220 ] - 针对Scala 2.12构建和测试Spark
  • [ SPARK-23899 ] - 内置SQL函数改进
  • [ SPARK-24090 ] - Spark 2.4的Kubernetes后端热门列表
  • [ SPARK-25319 ] - Spark MLlib,GraphX 2.4 QA伞
  • [ SPARK-25419 ] - 镶木地板谓词下推式改进

Documention

  • [ SPARK-21261 ] - SparkSQL regexpExpressions示例
  • [ SPARK-23231 ] - 为用户指南添加字符串索引器排序文档(也适用于RFormula指南)
  • [ SPARK-23254 ] - 为DataFrame多变量摘要添加用户指南条目
  • [ SPARK-23256 ] - 将columnSchema方法添加到PySpark图像阅读器
  • [ SPARK-23329 ] - 使用三角函数的参数和返回值更新函数描述
  • [ SPARK-23566 ] - 争论名称修复
  • [ SPARK-23642 ] - 用于LongAccumulator的isZero scaladoc描述了错误的方法
  • [ SPARK-23792 ] - 日期时间功能的文档改进
  • [ SPARK-24134 ] - 文档“Tuning Spark”中缺少一个完整的句号
  • [ SPARK-24191 ] - Spark ML示例中用于Power Iteration Clustering的Scala示例代码
  • [ SPARK-24224 ] - spark.ml中Power Iteration Clustering的Java示例代码
  • [ SPARK-24378 ] - spark 2.3.0中date_trunc函数的错误示例
  • [ SPARK-24444 ] - 改进pandas_udf GROUPED_MAP文档以解释列分配
  • [ SPARK-24507 ] - “Spark Streaming Programming Guide”中“数据接收中的并行度级别”部分中的描述与最近的Kafka直接应用程序无关
  • [ SPARK-24628 ] - docs / mllib-data-types.md中示例代码的错别字
  • [ SPARK-25082 ] - Spark函数expm1的文档不完整
  • [ SPARK-25273 ] - 如何安装testthat v1.0.2
  • [ SPARK-25583 ] - 在文档中添加新添加的与历史服务器相关的配置
  • [ SPARK-25656 ] - 添加有关如何使用Parquet / ORC库选项的示例部分

相关报道

  • https://databricks.com/blog/2018/11/08/introducing-apache-spark-2-4.html
  • http://spark.apache.org/releases/spark-release-2-4-0.html

参考链接:https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12342385

你可能感兴趣的:(Spark)