spark-2.2.0发行说明

一、Jira说明:

https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12338275

子任务

  • [ SPARK-1267 ] - 添加PySpark的pip安装程序
  • [ SPARK-3249 ] - 修复ScalaDoc中的链接,导致“sbt / sbt unidoc”中的警告消息
  • [ SPARK-10364 ] - 支持Parquet逻辑类型TIMESTAMP_MILLIS
  • [ SPARK-14503 ] - 用于FPGrowth的spark.ml Scala API
  • [ SPARK-15354 ] - 拓扑识别块复制策略
  • [ SPARK-15355 ] - 在节点/执行器发生故障的情况下,主动块补充
  • [ SPARK-16101 ] - 重构CSV数据源与JSON数据源一致
  • [ SPARK-16759 ] - Spark暴露了一个API,将Caller Context传递给它
  • [ SPARK-17075 ] - 谓词表达式的基数估计
  • [ SPARK-17076 ] - 连接运算符的基数估计
  • [ SPARK-17077 ] - 项目经营者的基数估算
  • [ SPARK-17078 ] - 在做解释时显示估计统计数据
  • [ SPARK-17080 ] - 加入重新排序
  • [ SPARK-17137 ] - 添加多项式逻辑回归系数的压缩支持
  • [ SPARK-17791 ] - 使用星型模式检测加入重新排序
  • [ SPARK-18129 ] - 签名文物
  • [ SPARK-18191 ] - 端口RDD API使用提交协议
  • [ SPARK-18194 ] - 在OneVsRest,CrossValidator,TrainValidationSplit中记录仪器
  • [ SPARK-18206 ] - 记录MPC,NB,LDA,AFT,GLR,等渗,LinReg
  • [ SPARK-18219 ] - 将commit协议API从sql移动到核心模块
  • [ SPARK-18239 ] - SparkR中的渐变增强树包装
  • [ SPARK-18243 ] - 使用数据源表汇合Hive表的插入路径
  • [ SPARK-18389 ] - 不允许循环查看引用
  • [ SPARK-18429 ] - CountMinSketch的 SQL聚合函数
  • [ SPARK-18658 ] - 写入文本DataSource缓冲内存中的一行或多行
  • [ SPARK-18663 ] - 简化CountMinSketch聚合实现
  • [ SPARK-18672 ] - 在提交之前关闭SparkHadoopMapReduceWriter的录音作者
  • [ SPARK-18718 ] - 由于路径长度限制而跳过一些测试失败,并修复了在Windows上传递的测试
  • [ SPARK-18803 ] - 修复路径相关和JarEntry相关的测试失败,并跳过一些测试在Windows上由于路径长度限制失败
  • [ SPARK-18817 ] - 默认情况下,确保没有写入R的tempdir()之外
  • [ SPARK-18830 ] - 在PipedRDDSuite中修复测试以传递Winodws
  • [ SPARK-18842 ] - 本地群集模式进程中类路径中的重复路径,以解决Windows上的长度限制问题
  • [ SPARK-18871 ] - IN / NOT IN子查询的新测试用例
  • [ SPARK-18872 ] - EXISTS子查询的新测试用例
  • [ SPARK-18873 ] - 标量子查询的新测试用例
  • [ SPARK-18874 ] - 第一阶段:将相关谓词拉至优化阶段
  • [ SPARK-18892 ] - 别名百分比_approx 约 _百分位数
  • [ SPARK-18895 ] - 在Windows上识别的资源关闭相关和路径相关的测试失败
  • [ SPARK-18911 ] - 去除统计和目录表
  • [ SPARK-18922 ] - 修复Windows上识别的资源关闭和路径相关的测试失败
  • [ SPARK-18936 ] - 本地时区支持的基础设施
  • [ SPARK-18937 ] - CSV / JSON解析中的时区支持
  • [ SPARK-18939 ] - 时区支持分区值。
  • [ SPARK-18966 ] - NOT IN具有关联表达式的子查询可能返回不正确的结果
  • [ SPARK-18998 ] - 添加cbo conf以在默认统计信息和cbo估计统计信息之间切换
  • [ SPARK-19020 ] - 聚合算子的基数估计
  • [ SPARK-19024 ] - 实施新的写法方法
  • [ SPARK-19025 ] - 删除操作员的SQL构建器
  • [ SPARK-19118 ] - 频率分布表的百分位数支持
  • [ SPARK-19132 ] - 添加行大小估计的测试用例
  • [ SPARK-19149 ] - 统一LogicalPlan中的两组统计信息
  • [ SPARK-19151 ] - DataFrameWriter.saveAsTable应该使用具有覆盖模式的蜂巢格式
  • [ SPARK-19152 ] - DataFrameWriter.saveAsTable应该使用附加模式的hive格式
  • [ SPARK-19153 ] - DataFrameWriter.saveAsTable应该使用hive格式创建分区表
  • [ SPARK-19160 ] - 用于UDF创建的装饰器。
  • [ SPARK-19161 ] - 改进UDF Docstrings
  • [ SPARK-19162 ] - UserDefinedFunction构造函数应该验证func是可调用的
  • [ SPARK-19163 ] - 妄想创造_judf
  • [ SPARK-19164 ] - 删除未使用的UserDefinedFunction._broadcast
  • [ SPARK-19211 ] - 显式阻止插入视图或将视图创建为插入
  • [ SPARK-19212 ] - 在HiveSessionCatalog中解析视图查询
  • [ SPARK-19271 ] - 更改聚合的非cbo估计
  • [ SPARK-19272 ] - 从`CatalogTable'中移除参数`viewOriginalText`
  • [ SPARK- 19281] - 用于FPGrowth的spark.ml Python API
  • [ SPARK-19331 ] - 提高SQLViewSuite的测试覆盖率
  • [ SPARK-19350 ] - 极限和样本的基数估计
  • [ SPARK-19387 ] - CRAN测试不适用于SparkR源码包
  • [ SPARK-19408 ] - 涉及同一表两列的基数估计
  • [ SPARK-19413 ] - 基本mapGroupsWithState API
  • [ SPARK-19427 ] - UserDefinedFunction应该支持数据类型字符串
  • [ SPARK-19533 ] - 转换Java示例使用lambdas,Java 8功能
  • [ SPARK-19534 ] - 转换Java测试使用lambdas,Java 8功能
  • [ SPARK-19550 ] - 删除与Java 7相关的反射,文档,构建元素
  • [ SPARK-19610 ] - 多线支持CSV
  • [ SPARK-19635 ] - MLlib中卡方检验的特征奇偶校验
  • [ SPARK-19636 ] - MLlib中相关统计特征奇偶校验
  • [ SPARK-19791 ] - 添加文档和fpgrowth的示例
  • [ SPARK-19817 ] - 明确指出`timeZone`选项是DataFrameReader / Writer中的一般选项,DataStreamReader / Writer
  • [ SPARK-19825 ] - 用于FPGrowth的spark.ml R API
  • [ SPARK-19838 ] - 添加基于处理时间的超时
  • [ SPARK-19858 ] - 将输出模式添加到flatMapGroupsWithState并禁止无效的情况
  • [ SPARK-19865 ] - 删除SubqueryAlias中的视图标识符
  • [ SPARK-19877 ] - 限制视图的嵌套级别
  • [ SPARK-19915 ] - 改进加入重新排序:排除笛卡尔乘客候选人以减少搜索空间
  • [ SPARK-19955 ] - 更新运行测试以支持conda
  • [ SPARK-19960 ] - 将`SparkHadoopWriter`移动到`internal / io /`
  • [ SPARK-19993 ] - 缓存包含子查询表达式的逻辑计划不起作用。
  • [ SPARK-20030 ] - 添加基于事件时间的超时
  • [ SPARK-20057 ] - 将KeyedState重命名为GroupState
  • [ SPARK-20076 ] - 用于ml.stats.Correlation的Python接口
  • [ SPARK-20104 ] - 不估计非叶节点的IsNull或IsNotNull谓词
  • [ SPARK-20124 ] - 加入重新排序应该保持最终项目属性的相同顺序
  • [ SPARK-20165 ] - 在FlatMapGroupsWithStateExec的驱动程序中解析状态编码器的解串器
  • [ SPARK-20183 ] - 添加outlierRatio选项以testOutliersWithSmallWeights
  • [ SPARK-20186 ] - BroadcastHint应该使用小孩的统计资料
  • [ SPARK-20224 ] - 更新apache文档
  • [ SPARK-20231 ] - CBO中后续星形联合检测的重构星形模式代码
  • [ SPARK-20233 ] - 将星形连接过滤器启发式应用于动态编程连接枚举
  • [ SPARK-20318 ] - 在ColumnStat中使用最小/最小的催化剂类型,以方便估计
  • [ SPARK-20334 ] - 当相关谓词包含具有外部和本地引用混合的聚合表达式时返回更好的错误消息
  • [ SPARK-20366 ] - 修复递归连接重新排序:内部连接不重新排序
  • [ SPARK-20500 ] - ML,图2.2 QA:API:二进制不兼容的更改
  • [ SPARK-20501 ] - ML,图2.2 QA:API:新的Scala API,文档
  • [ SPARK-20502 ] - ML,图2.2 QA:API:实验,DeveloperApi,final,密封审核
  • [ SPARK-20503 ] - ML 2.2 QA:API:Python API覆盖
  • [ SPARK-20504 ] - ML 2.2 QA:API:Java兼容性,docs
  • [ SPARK-20505 ] - ML,图2.2 QA:更新用户指南的新功能和API
  • [ SPARK-20506 ] - ML,图2.2 QA:编程指南更新和迁移指南
  • [ SPARK-20507 ] - 更新MLlib,GraphX网站2.2
  • [ SPARK-20509 ] - SparkR 2.2 QA:新的R API和API文档
  • [ SPARK- 20510] - SparkR 2.2 QA:更新新功能和API的用户指南
  • [ SPARK-20511 ] - SparkR 2.2 QA:检查需要示例代码的新R API
  • [ SPARK-20512 ] - SparkR 2.2 QA:编程指南,迁移指南,小插曲更新
  • [ SPARK-20583 ] - Scala / Java通用提示支持
  • [ SPARK-20584 ] - Python通用提示支持
  • [ SPARK-20585 ] - R通用提示支持
  • [ SPARK-20678 ] - 不在过滤条件下的列的Ndv也应更新
  • [ SPARK-20714 ] - 当水印设置为timeout =无超时/处理超时时修复匹配错误
  • [ SPARK-20717 ] - 调整MapGroupsWithState更新功能的行为
  • [ SPARK-20727 ] - 在CRAN Windows机器上缺少Hadoop winutils时,跳过SparkR测试
  • [ SPARK-20792 ] - 支持在批量查询中的mapGroupsWithState函数中与流式查询相同的超时操作
  • [ SPARK-20801 ] - 当它在阈值以上时,在MapStatus中存储正确的块大小。
  • [ SPARK-20877 ] - 缩短在CRAN上运行的测试集
  • [ SPARK-20986 ] - 在PruneFileSourcePartition规则之后重置表的统计信息。
  • [ SPARK-21079 ] - ANALYZE TABLE无法计算分区表的总大小

Bug

  • [ SPARK-4105 ] - FAILED_TO_UNCOMPRESS(5)当使用基于排序的随机播放获取随机播放数据时出错
  • [ SPARK-5484 ] - Pregel应定期检查点以避免StackOverflowError
  • [ SPARK-9002 ] - KryoSerializer初始化不包括'Array [Int]'
  • [ SPARK-9435 ] - Java UDF不能与GROUP BY表达式一起使用
  • [ SPARK-10651 ] - 片状测试:BroadcastSuite
  • [ SPARK-12552 ] - 恢复驾驶员的资源不计入主人
  • [ SPARK-12868 ] - 通过sparkSQL的ADD JAR使用HDFS URL时JDBC将失败
  • [ SPARK-12970 ] - 在使用由结构体定义的模式创建行的文档中出错
  • [ SPARK-13​​330 ] - PYTHONHASHSEED没有被传播给蟒蛇工人
  • [ SPARK-13​​450 ] - 当连接行有很多相同的键时,SortMergeJoin将OOM
  • [ SPARK-13​​747 ] - SQL中并发执行不适用于Scala ForkJoinPool
  • [ SPARK-13​​931 ] - 在特定情况下解决舞台挂起问题
  • [ SPARK-14489 ] - RegressionEvaluator在Spark ml中返回ALS的NaN
  • [ SPARK-14536 ] - 当数组列包含空值(Postgresql)时,JDBCRDD中的NPE
  • [ SPARK-14658 ] - 当执行者丢失DagScheduer可能会提交一个阶段两次,即使这个阶段的第一个运行的任务集没有完成
  • [ SPARK-14772 ] - Python ML Params.copy处理uid,paramMaps与Scala不同
  • [ SPARK-14804 ] - 图形vertexRDD / EdgeRDD检查点结果ClassCastException:
  • [ SPARK-14958 ] - 如果在获取任务结果时遇到错误,失败的任务会挂起
  • [ SPARK-15226 ] - 第一行加载错误时带有换行符的CSV文件数据行
  • [ SPARK-15555 ] - 带有--supervise选项的驱动程序不能在Mesos模式下被杀死
  • [ SPARK-15615 ] - 支持从数据集中的JSON创建数据框 [String]
  • [ SPARK-15844 ] - 如果spark.authenticate = true,则HistoryServer不会出现
  • [ SPARK-16251 ] - LocalCheckpointSuite的 - 缺少检查点块失败,信息消息是片状的。
  • [ SPARK-16297 ] - 将布尔值和字符串映射到SQL Server jdbc方言的BIT和NVARCHAR(MAX)
  • [ SPARK-16473 ] - 使用java.util.NoSuchElementException失败的BisectingKMeans算法:未找到密钥
  • [ SPARK-16548 ] - java.io.CharConversionException:无效的UTF-32字符阻止我查询我的数据
  • [ SPARK-16792 ] - 包含具有列表类型的案例类的数据集会导致编译异常(转换序列列表)
  • [ SPARK-16815 ] - 数据集[List [T]]导致ArrayStoreException
  • [ SPARK-16845 ] - org.apache.spark.sql.catalyst.expressions.GeneratedClass $ SpecificOrdering“增长超过64 KB
  • [ SPARK-16998 ] - select($“column1”,explode($“column2”))非常慢
  • [ SPARK-17204 ] - Spark 2.0 off heap具有复制因子2的RDD持久性导致内存中的数据损坏
  • [ SPARK-17237 ] - DataFrame填充后,导致org.apache.spark.sql.AnalysisException
  • [ SPARK-17424 ] - ScalaReflect中的数据集作业失败
  • [ SPARK-17455 ] - 等渗回归对于某些输入采用非多项式时间
  • [ SPARK-17647 ] - SQL LIKE不正确处理反斜杠
  • [ SPARK-17663 ] - SchedulableBuilder应通过scheduler.allocation.file处理无效数据访问
  • [ SPARK-17685 ] - WholeStageCodegenExec抛出IndexOutOfBoundsException
  • [ SPARK-17714 ] - 使用org.apache.spark.util.Utils.classForName时抛出ClassCircularityError 
  • [ SPARK-17755 ] - 主人可以要求工人在工作人员真正得到注册的答复之前发起执行人
  • [ SPARK-17807 ] - Scalatest列为spark-tags中的编译依赖关系
  • [ SPARK-17910 ] - 允许用户更新列的注释
  • [ SPARK-17913 ] - 将字符串与长整型进行比较时,过滤器/连接表达式可能会返回不正确的结果
  • [ SPARK-17914 ] - Spark SQL转换为TimestampType(纳秒)导致错误的时间戳
  • [ SPARK-17932 ] - 无法在Spark2.0.0中运行SQL“show table extended like table_name”
  • [ SPARK-17975 ] - EMLDAOptimizer在YARN上与ClassCastException失败
  • [ SPARK-18020 ] - 碎片完成时,Kinesis接收器不会快照
  • [ SPARK-18031 ] - Flaky测试:org.apache.spark.streaming.scheduler.ExecutorAllocationManagerSuite基本功能
  • [ SPARK-18036 ] - 决策树不处理边缘案例
  • [ SPARK-18055 ] - Dataset.flatMap无法使用定制jar的类型
  • [ SPARK-18099 ] - 如果指定了-file --archives中的相同文件,Spark分布式缓存将抛出异常
  • [ SPARK-18108 ] - 分区发现失败并显式写入长分区
  • [ SPARK-18112 ] - Spark2.x不支持从Hive 2.x转移读取数据
  • [ SPARK-18113 ] - 发送AskPermissionToCommitOutput失败,驱动程序进入任务deadloop
  • [ SPARK- 18120] - QueryExecutionListener方法不会为DataFrameWriter方法执行
  • [ SPARK-18123 ] - org.apache.spark.sql.execution.datasources.jdbc.JdbcUtils.saveTable case senstivity issue
  • [ SPARK-18251 ] - DataSet API | RuntimeException:当保持Option Case Class时,空值出现在非可空字段中
  • [ SPARK-18274 ] - PySpark StringIndexer中的内存泄漏
  • [ SPARK-18284 ] - 从RDD生成的DataFrame方案在master和2.0之间是不同的
  • [ SPARK-18338 ] - ObjectHashAggregateSuite在Maven构建下失败
  • [ SPARK-18357 ] - YARN - 文件/ - 档案破裂
  • [ SPARK-18374 ] - StopWords / english.txt中的字词不正确
  • [ SPARK-18403 ] - ObjectHashAggregateSuite是片状的(偶尔的OOM错误)
  • [ SPARK-18406 ] - 任务结束和完成迭代器读取锁定版本之间的比赛
  • [ SPARK-18418 ] - 发布脚本hadoop配置文件未正确指定。
  • [ SPARK-18485 ] - 在MemoryStore中创建ChunkedByteBufferOutputStream时的基础整数溢出
  • [ SPARK-18528 ] - limit + groupBy导致java.lang.NullPointerException
  • [ SPARK-18535 ] - 从Spark日志和UI中修正敏感信息
  • [ SPARK-18549 ] - 无法解除引用丢弃表的视图。
  • [ SPARK-18553 ] - 执行程序丢失可能导致TaskSetManager泄漏
  • [ SPARK-18555 ] - na.fill错过长整数的原始值
  • [ SPARK-18559 ] - 修复HLL ++相对较小的错误
  • [ SPARK-18579 ] - spark-csv strip空白(pyspark)
  • [ SPARK-18586 ] - netty -3.8.0.Final.jar有漏洞CVE-2014-3488和CVE-2014-0193
  • [ SPARK-18588 ] - KafkaSourceStressForDontFailOnDataLossSuite是片状的
  • [ SPARK-18589 ] - persist()解析“java.lang.RuntimeException:无效的PythonUDF”(...),需要来自多个孩子的属性“
  • [ SPARK-18609 ] - [SQL]列混合与CROSS JOIN
  • [ SPARK-18620 ] - Spark Streaming + Kinesis:Receiver MaxRate被违反
  • [ SPARK-18629 ] - 修复JDBCSuite测试用例的numPartition
  • [ SPARK-18631 ] - 避免在ExchangeCoordinator 中使数据变得更糟
  • [ SPARK-18651 ] - KeyValueGroupedDataset [K,V] .reduceGroups不能处理V的原语
  • [ SPARK-18675 ] - 用于蜂巢serde表的CTAS应适用于所有蜂巢版本
  • [ SPARK-18687 ] - 向后兼容性 - 在新的SQLContext对象上创建数据帧失败,出现Derby错误
  • [ SPARK-18699 ] - Spark之外的Spark CSV解析类型在格式化时会抛出异常
  • [ SPARK-18700 ] - getCached在HiveMetastoreCatalog中不是线程安全的驱动程序OOM
  • [ SPARK-18703 ] - 针对蜂巢表的插入/ CTAS:分期目录和数据文件在JVM正常终止之前不会丢弃
  • [ SPARK-18715 ] - 修正二项式GLM中的错误AIC计算
  • [ SPARK-18717 ] - 数据集 - 映射到不可变的scala映射时的崩溃(编译异常)
  • [ SPARK-18726 ] - 在创建非目录表时,文件系统不必要地扫描两次
  • [ SPARK-18730 ] - 发布到GitHub时,要求构建脚本链接到Jenkins测试报告页面,而不是完整的控制台输出页面
  • [ SPARK-18746 ] - 为BigDecimal,时间戳和日期添加隐式编码器
  • [ SPARK-18750 ] - 火花应该能够控制执行者的数量,不应该浪费堆栈
  • [ SPARK- 18752] - Hive loadTable / loadPartition的“isSrcLocal”参数应来自用户
  • [ SPARK-18753 ] - 写入镶木文件后行为不一致
  • [ SPARK-18761 ] - 不可靠/不可靠的任务可能会淹没工作
  • [ SPARK-18772 ] - 不必要的转换尝试使用JSON中的特殊浮点数
  • [ SPARK- 18828] - 重构SparkR构建和测试脚本
  • [ SPARK-18841 ] - 当有相同的列时,PushProjectionThroughUnion异常
  • [ SPARK-18845 ] - PageRank具有导致缓慢收敛的初始化值不正确
  • [ SPARK-18847 ] - PageRank对于具有汇的图形给出不正确的结果
  • [ SPARK-18857 ] - SparkSQL ThriftServer在以增量收集模式提取巨大数据量时挂起
  • [ SPARK-18863 ] - 在子查询中输出没有GROUP BY的非聚合表达式不会产生错误
  • [ SPARK-18866 ] - 如果regexp_replace()输出列不是别名,则Codegen会发生隐含错误
  • [ SPARK-18877 ] - 无法读取给定的csv数据。Excepion:java.lang.IllegalArgumentException:require failed:十进制精度28超过最大精度20
  • [ SPARK-18893 ] - 不支持“alter table .. add columns ..”
  • [ SPARK-18894 ] - 在几个月或几年内指定的事件时间水印延迟阈值给出不正确的结果
  • [ SPARK-18897 ] - 修复SparkR SQL测试删除测试表
  • [ SPARK-18899 ] - 将数据附加到具有不匹配的竞争的桶表中将失败
  • [ SPARK-18905 ] - 批量语义的潜在问题
  • [ SPARK-18908 ] - 如果StreamExecution无法创建逻辑计划,用户很难看到故障
  • [ SPARK-18912 ] - 附加到非基于文件的数据源表应检测列号不匹配
  • [ SPARK-18913 ] - 附加到具有特殊列名称的表应该工作
  • [ SPARK-18927 ] - 如果在conf中提供了位置,则用于StructuredStreaming的MemorySink无法从检查点恢复
  • [ SPARK-18928 ] - FileScanRDD,JDBCRDD和UnsafeSorter应该支持取消任务
  • [ SPARK-18951 ] - 将com.thoughtworks.paranamer / paranamer升级到2.6
  • [ SPARK-18952 ] - 正则表达式字符串在代码集中未正确转义,用于聚合
  • [ SPARK-18954 ] - 修复片断测试:oasstreaming.BasicOperationsSuite rdd清理 - 地图和窗口
  • [ SPARK-18958 ] - SparkR应该支持在DataFrame上的JSON
  • [ SPARK- 18963] - 大端测试失败 oasunsafe.types.UTF8StringSuite.writeToOutputStreamIntArray
  • [ SPARK-18967 ] - 即使延迟调度关闭,调度时也应使用位置偏好
  • [ SPARK-18969 ] - PullOut不确定性应适用于Aggregate运算符
  • [ SPARK-18971 ] - 网络问题可能会导致洗牌客户端挂起
  • [ SPARK-18986 ] - ExternalAppendOnlyMap在调用其迭代器之前强制泄漏时不应该失败
  • [ SPARK-18989 ] - DESC TABLE不应该失败,没有找到格式类
  • [ SPARK-18993 ] - 无法在IntelliJ中构建/编译Spark,因为缺少Scala deps in spark-tags
  • [ SPARK-19004 ] - 通过删除`getCatalystType'修复`JDBCWriteSuite.testH2Dialect`
  • [ SPARK-19012 ] - CreateOrReplaceTempView throws org.apache.spark.sql.catalyst.parser.ParseException当viewName的第一个字符是数字
  • [ SPARK-19016 ] - 编程指南中的文档可扩展分区处理功能
  • [ SPARK-19017 ] - NOT IN子查询中有多个列可能会返回不正确的结果
  • [ SPARK- 19019] - PySpark不适用于Python 3.6.0
  • [ SPARK-19028 ] - 修正了SessionCatalog中使用的非线程安全功能
  • [ SPARK-19033 ] - 即使AC​​L被更新,HistoryServer仍然使用旧的ACL
  • [ SPARK-19038 ] - 使用Hive目录时找不到keytab文件
  • [ SPARK-19042 ] - 从jar url为执行器删除查询字符串
  • [ SPARK-19048 ] - InMemoryCatalog中的受管分区表:表删除后用户指定的分区位置不会被删除
  • [ SPARK-19050 ] - 修复EventTimeWatermarkSuite在几个月和几年的延误处理正确'
  • [ SPARK-19055 ] - 当创建新的SparkContext替换已停止的SparkContext时,SparkSession初始化将与无效的SparkContext相关联
  • [ SPARK-19058 ] - 使用DataFrameWriter.saveAsTable修复与分区相关的行为
  • [ SPARK-19059 ] - 无法从名称以下划线开头的镶木地板表中检索数据
  • [ SPARK-19062 ] - Utils.writeByteBuffer不应该修改缓冲区的位置
  • [ SPARK-19064 ] - 用ml子组件修复pip安装问题
  • [ SPARK-19065 ] - dropDuplicates对Alias和Attribute使用相同的表达式id,并且断开属性替换
  • [ SPARK-19066 ] - SparkR LDA没有正确设置优化器
  • [ SPARK-19068 ] - 大量执行程序造成一吨的ERROR scheduler.LiveListenerBus:SparkListenerBus已经停止了!删除事件SparkListenerExecutorMetricsUpdate(41,WrappedArray())
  • [ SPARK-19069 ] - 在火花历史服务器REST API中显示任务“状态”和“持续时间”。
  • [ SPARK-19072 ] - Catalyst的IN总是为无穷大返回false
  • [ SPARK-19073 ] - LauncherState应在提交申请后才应设置为提交
  • [ SPARK-19082 ] - 配置ignoreCorruptFiles不适用于Parquet
  • [ SPARK-19083 ] - sbin / start-history-server.sh脚本使用$ @没有“”
  • [ SPARK-19092 ] - Save()DataFrameWriter的API不应扫描所有保存的文件
  • [ SPARK-19093 ] - 缓存表不用于SubqueryExpression
  • [ SPARK-19104 ] - Spark 2.1.0中的Map和Case类的CompileException
  • [ SPARK-19106 ] - 配置文档的样式已损坏
  • [ SPARK-19110 ] - 分布式LDAModel为原始和加载型号返回不同的logPrior
  • [ SPARK-19115 ] - SparkSQL不支持命令“create external table if not exist new_tbl like old_tbl location'/ warehouse / new_tbl'”
  • [ SPARK-19117 ] - 由于固定的bash可执行文件位置,脚本转换在Windows上不起作用
  • [ SPARK-19120 ] - 加载表单后返回一个空的结果
  • [ SPARK-19129 ] - alter table table_name具有空字符串的drop partition将丢弃整个表
  • [ SPARK-19130 ] - SparkR应该支持隐式设置和添加具有奇异值的新列
  • [ SPARK-19133 ] - SparkR glm Gamma系列导致错误
  • [ SPARK-19134 ] - 修复几个sql,mllib和状态api示例不工作
  • [ SPARK-19137 ] - 运行SQL测试后留在源代码树中的垃圾
  • [ SPARK- 19142] - spark.kmeans应该采用seed,initSteps和tol作为参数
  • [ SPARK-19155 ] - MLlib广义线性回归系列和链接应该不区分大小写
  • [ SPARK-19157 ] - 应该能够在运行时更改spark.sql.runSQLOnFiles
  • [ SPARK-19158 ] - ml.R示例由于缺少e1071封装而在纱线簇模式下失败
  • [ SPARK-19178 ] - 将大量的字符串转换成int应该返回null
  • [ SPARK-19179 ] - spark.yarn.access.namenodes描述是错误的
  • [ SPARK-19180 ] - OffHeapColumnVector的putShorts中的short的偏移量为4
  • [ SPARK-19206 ] - 更新外部卡夫卡模块中的过时参数说明
  • [ SPARK-19218 ] - 修复SET命令,以排序的顺序正确显示结果
  • [ SPARK-19220 ] - SSL重定向处理程序仅重定向服务器的根目录
  • [ SPARK-19221 ] - 在AppVeyor中的路径中添加winutils二进制文件,以便Hadoop库正确调用本机库
  • [ SPARK-19223 ] - InputFileBlockHolder不适用于除FileFormat之外的数据源的Python UDF
  • [ SPARK-19229 ] - 启用Hive支持时禁止创建Hive源表
  • [ SPARK-19231 ] - 当有下载或解除失败时,SparkR挂起
  • [ SPARK-19232 ] - SparkR分发缓存位置在Windows上是错误的
  • [ SPARK-19237 ] - Windows上的SparkR软件包等待很长时间,没有发现java发现spark-submit
  • [ SPARK-19246 ] - CataLogTable的partitionSchema应该检查顺序并存在
  • [ SPARK-19260 ] - 路径参数中的空格或“%20”未被HistoryServer正确处理
  • [ SPARK-19263 ] - DAGScheduler应避免发送冲突的任务集。
  • [ SPARK-19267 ] - 在停止StateStore时修正竞争条件
  • [ SPARK-19268 ] - 文件不存在:/tmp/temporary-157b89c1-27bb-49f3-a70c-ca1b75022b4d/state/0/2/1.delta
  • [ SPARK-19276 ] - FetchFailures可以被用户(或sql)异常处理隐藏
  • [ SPARK-19279 ] - 禁止用户使用空模式创建配置单
  • [ SPARK-19284 ] - 附加到现有的分区数据源表应该没有CustomPartitionLocations
  • [ SPARK-19292 ] - 具有分区列的过滤器在Hive表中不区分大小写
  • [ SPARK-19305 ] - 分区表应始终将分区列放在表格结尾
  • [ SPARK-19306 ] - 在发生异常时修复DiskBlockObjectWriter中的不一致状态
  • [ SPARK-19309 ] - 禁用条件表达式的公共子表达式消除
  • [ SPARK-19311 ] - UDF忽略UDT类型层次结构
  • [ SPARK-19313 ] - GaussianMixture在功能数量过多时会产生隐秘的错误
  • [ SPARK-19314 ] - 在结构化流式传输计划中不允许进行聚合前排序
  • [ SPARK-19318 ] - Docker测试用例失败:`SPARK-16625:要映射到Oracle的一般数据类型
  • [ SPARK-19319 ] - 当群集大小不等于k时,SparkR Kmeans摘要返回错误
  • [ SPARK- 19324] - SparkR中删除了JVM stdout输出
  • [ SPARK-19329 ] - 将数据源表的位置更改为不存在的位置,然后插入数据抛出异常
  • [ SPARK-19334 ] - 修复与Generator功能相关的代码注入漏洞。
  • [ SPARK-19338 ] - EXPLAIN输出中的UDF始终相同的名称
  • [ SPARK-19342 ] - 数据类型tImestamp在collect方法中转换为numeric
  • [ SPARK-19347 ] - ReceiverSupervisorImpl可以多次添加块到ReceiverTracker,因为askWithRetry
  • [ SPARK-19348 ] - pyspark.ml.Pipeline在多线程使用下损坏
  • [ SPARK-19372 ] - 包含许多OR条件的Filter谓词的代码生成超过JVM方法大小限制
  • [ SPARK-19373 ] - sparksscheduler.minRegisteredResourcesRatio的 Mesos实现查看获取的内核而不是注册核心
  • [ SPARK-19386 ] - 在SparkR文档中对k-means进行二次分解
  • [ SPARK-19395 ] - 将系数总结转换为矩阵
  • [ SPARK-19396 ] - [DOC]自Spark 2.1以来,选项不区分大小写
  • [ SPARK-19397 ] - LIBSVM和TEXT的选项名称不区分大小写。
  • [ SPARK-19399 ] - R在DataFrame上合并,并在列上合并
  • [ SPARK-19400 ] - GLM无法拦截模型
  • [ SPARK-19403 ] - pyspark.sql.column导出不存在的名称
  • [ SPARK-19406 ] - 函数to_json忽略用户提供的选项
  • [ SPARK-19407 ] - defaultFS使用FileSystem.get而不是从uri方案获取
  • [ SPARK-19409 ] - 将木地板升级到1.8.2
  • [ SPARK-19425 ] - 使ExtractEquiJoinKeys支持UDT列
  • [ SPARK-19429 ] - 列.__ getitem__应该支持切片参数
  • [ SPARK-19432 ] - 修复连接超时时的意外故障
  • [ SPARK-19437 ] - HearbeatReceiverSuite中的ExecutorId不正确。
  • [ SPARK-19447 ] - 修改范围运算符的输入指标
  • [ SPARK-19452 ] - 修正SparkR中名称分配方法中的错误
  • [ SPARK-19459 ] - 当它们包含char / varchar列时,不能读取ORC表
  • [ SPARK-19460 ] - 更新R文档中使用的数据集,以减少警告噪音和混淆
  • [ SPARK-19463 ] - 在InsertIntoHadoopFsRelation之后刷新表缓存
  • [ SPARK-19472 ] - [SQL] SQLParser无法解决带括号的嵌套CASE WHEN语句
  • [ SPARK-19488 ] - CSV推断模式不考虑Inf,-Inf,NaN
  • [ SPARK-19496 ] - to_date与格式有奇怪的行为
  • [ SPARK-19500 ] - 当使用基数排序时,不能溢出聚合散列图
  • [ SPARK-19505 ] - Python3中Exception.message上的AttributeError; 在cloudpickle.py和broadcast.py中隐藏真正的例外
  • [ SPARK-19506 ] - 在pyspark.ml.util中输入缺少警告
  • [ SPARK-19512 ] - 用于比较结构的代码失败
  • [ SPARK-19514 ] - 范围不可中断
  • [ SPARK-19517 ] - KafkaSource无法初始化分区偏移
  • [ SPARK-19520 ] - WAL不应加密
  • [ SPARK-19529 ] - TransportClientFactory.createClient()不应该调用awaitUninterruptibly()
  • [ SPARK-19539 ] - CREATE TEMPORARY TABLE需要避免现有的临时视图
  • [ SPARK-19543 ] - 当输入行为空时,from_json失败
  • [ SPARK-19545 ] - 针对Hadoop 2.6.0构建时未找到方法的编译错误。
  • [ SPARK-19548 ] - Hive UDF应支持List和Map类型
  • [ SPARK-19556 ] - 当I / O加密打开时,广播数据不加密
  • [ SPARK-19559 ] - 通过主题删除的模式修复片状的KafkaSourceSuite.subscribing主题
  • [ SPARK-19561 ] - Pyspark数据帧不允许在时代附近的时间戳
  • [ SPARK-19564 ] - KafkaOffsetReader的消费者不应该在同一组
  • [ SPARK-19573 ] - 使NaN /零处理在约数量一致
  • [ SPARK-19574 ] - 液体异常:开始指数不等于最终指标量
  • [ SPARK-19583 ] - 具有创建位置的数据源表的CTAS不起作用
  • [ SPARK-19585 ] - 在SQL编程指南中修复cacheTable和uncacheTable API调用
  • [ SPARK-19587 ] - 排序列是分区列的一部分时禁止
  • [ SPARK-19594 ] - 如果存在多个侦听器,则StreamingQueryListener无法处理QueryTerminatedEvent
  • [ SPARK-19595 ] - 当输入是一个json数组时,from_json只生成一行
  • [ SPARK-19601 ] - 修复CollapseRepartition规则以保留启用shuffle的Repartition
  • [ SPARK-19603 ] - 修复StreamingQuery说明命令
  • [ SPARK-19611 ] - Spark 2.1.0打破了一些由区分大小写数据文件支持的Hive表
  • [ SPARK-19617 ] - 快速启动和停止查询时修正竞争条件
  • [ SPARK-19618 ] - 不一致wrt max。Dataframe API和SQL允许的桶
  • [ SPARK-19620 ] - 身体计划中的交换协调员身份证号码不正确
  • [ SPARK-19622 ] - 当使用“Go”按钮进行搜索时,修复分页表中的http错误。
  • [ SPARK-19626 ] - 配置`spark.yarn.credentials.updateTime`不起作用
  • [ SPARK-19631 ] - OutputCommitCoordinator不应允许提交已经失败的任务
  • [ SPARK-19641 ] - DROPMALFORMED模式中的JSON模式推断会产生不正确的模式
  • [ SPARK-19646 ] - binaryRecords在scala API中复制记录
  • [ SPARK-19650 ] - 仅Metastore操作不应触发火花作业
  • [ SPARK-19652 ] - REST API不会对个别应用执行用户验证
  • [ SPARK-19654 ] - R的结构化流式API
  • [ SPARK-19666 ] - 使用类型化RDD调用createDataFrame时的异常
  • [ SPARK-19673 ] - ThriftServer默认应用程序名称更改错误
  • [ SPARK-19674 ] - 忽略驱动程序累加器更新在合并所有累加器更新时不属于执行
  • [ SPARK-19677 ] - HDFSBackedStateStoreProvider无法覆盖现有文件
  • [ SPARK-19688 ] - 将纱线凭证文件设置为不同的应用程序目录
  • [ SPARK-19691 ] - 使用ClassCastException计算十进制列的百分位数失败
  • [ SPARK-19701 ] - pyspark中的“in”操作符已损坏
  • [ SPARK-19707 ] - 改进sc.addJar的无效路径检查
  • [ SPARK-19709 ] - CSV数据源无法读取空文件
  • [ SPARK-19710 ] - 在大端平台上的SQLQueryTests测试失败
  • [ SPARK-19718 ] - 修复flaky测试:org.apache.spark.sql.kafka010.KafkaSourceStressForDontFailOnDataLossSuite:压力测试failOnDataLoss = false
  • [ SPARK-19720 ] - 从SparkSubmit控制台输出中修改敏感信息
  • [ SPARK-19721 ] - 日志文件中版本不匹配的错误消息
  • [ SPARK-19727 ] - Spark SQL round函数修改原始列
  • [ SPARK-19728 ] - 当用作谓词时,不应该将多个父项的PythonUDF压下
  • [ SPARK-19736 ] - refreshByPath应该使用指定的路径清除所有缓存的计划
  • [ SPARK-19737 ] - 不依赖关系解决方案报告未注册职能的新分析规则
  • [ SPARK-19748 ] - 使用FileStatusCache刷新InMemoryFileIndex无法正常工作
  • [ SPARK-19751 ] - 使用自引用bean创建数据框架API失败
  • [ SPARK-19758 ] - 在串行表定义中将字符串转换为时间戳将失败,并显示AnalysisException
  • [ SPARK-19763 ] - 存储在目录中的合格的外部数据源表位置
  • [ SPARK-19765 ] - UNCACHE TABLE也应该取消缓存引用此表的所有缓存计划
  • [ SPARK-19766 ] - 在常量别名列上 INNER JOIN返回不正确的结果
  • [ SPARK-19774 ] - StreamExecution应该在流发生故障时调用source()
  • [ SPARK-19775 ] - 删除过时的`partitionBy()。insertInto()`测试用例
  • [ SPARK-19779 ] - 结构化流存在不必要的tmp文件
  • [ SPARK-19792 ] - 在主页中,名为“每个节点的内存”的列,我认为这是不正确的
  • [ SPARK-19793 ] - 在TaskSetManager中将任务标记为完成时,使用clock.getTimeMillis。
  • [ SPARK-19795 ] - R应该支持列函数to_json,from_json
  • [ SPARK- 19796] - taskScheduler将序列化由节俭服务器接收的长时间语句
  • [ SPARK-19797 ] - ML管道文件错误
  • [ SPARK-19801 ] - 从Travis CI中删除JDK7
  • [ SPARK- 19803] - Flaky BlockManagerProactiveReplicationSuite测试
  • [ SPARK-19804 ] - HiveClientImpl不适用于Hive 2.2.0转移
  • [ SPARK-19812 ] - YARN shuffle服务无法在NFS目录中重新定位恢复数据库
  • [ SPARK-19813 ] - maxFilesPerTrigger combo latestFirst可能会错过与FileStreamSource中的maxFileAge相结合的旧文件
  • [ SPARK-19818 ] - rbind应检查输入数据帧的名称一致性
  • [ SPARK-19822 ] - CheckpointSuite.testCheckpointedOperation:不应该通过PATH字符串检查checkpointFilesOfLatestTime。
  • [ SPARK-19828 ] -R支持列from_json中的JSON数组
  • [ SPARK-19832 ] - DynamicPartitionWriteTask应该转义分区名称
  • [ SPARK-19841 ] - StreamingDeduplicateExec.watermarkPredicate应该基于键过滤行
  • [ SPARK-19853 ] - 大写Kafka主题在StartingOffsets为SpecificOffset时失败
  • [ SPARK-19857 ] - CredentialUpdater计算下次更新的错误时间
  • [ SPARK-19859 ] - 新的水印应该覆盖旧的水印
  • [ SPARK-19861 ] - 水印不应该是一个负面的时间。
  • [ SPARK-19864 ] - 在SQLTestUtils中添加makeQualifiedPath来优化一些代码
  • [ SPARK-19868 ] - 冲突TasksetManager导致火花停止
  • [ SPARK-19872 ] - 用于重新分区的sc.textFile中的Pyspark中的UnicodeDecodeError
  • [ SPARK-19873 ] - 如果用户在批次之间更改随机分区的数量,则流式聚合将失败。
  • [ SPARK-19874 ] - 隐藏“org.apache.spark.sql.internal”的API文档
  • [ SPARK-19882 ] - 以空值为轴的数据透视NPE
  • [ SPARK-19885 ] - 配置ignoreCorruptFiles不适用于CSV
  • [ SPARK-19886 ] - reportDataLoss原因!=结构化流KafkaSource的null检查错误
  • [ SPARK-19887 ] - __HIVE_DEFAULT_PARTITION__不会被解释为分区持久化表中的空分区值
  • [ SPARK-19891 ] - 等待批次锁在流执行退出时未发出信号
  • [ SPARK-19893 ] - 不应该使用地图类型运行DataFrame设置oprations
  • [ SPARK-19896 ] - 如果case类有循环引用,toDS会抛出StackOverflowError
  • [ SPARK- 19905] - 用于Hive SerDe表的Dataset.inputFiles已损坏
  • [ SPARK-19912 ] - 在执行Hive转移级别分区修剪时,字符串文字不会转义
  • [ SPARK-19924 ] - Handle InvocationTargetException for all Hive Shim
  • [ SPARK-19925 ] - SparkR spark.getSparkFiles在执行器上失败
  • [ SPARK-19931 ] - 当混叠输出属性时,InMemoryTableScanExec应重写输出分区和排序
  • [ SPARK-19933 ] - TPCDS Q70在解释时出错
  • [ SPARK-19940 ] - FPGrowthModel.transform应该跳过重复的项目
  • [ SPARK-19945 ] - 使用HiveExternalCatalog为SessionCatalog添加测试套件
  • [ SPARK-19953 ] - RandomForest模型在合适时应使用估计器的UID
  • [ SPARK-19959 ] - df [java.lang.Long] .collect throws NullPointerException如果df包含null
  • [ SPARK-19963 ] - 使用nullif()时,从选择失败中创建视图
  • [ SPARK-19965 ] - 当读取FileStreamSink的输出时,DataFrame批处理读取器可能无法推断分区
  • [ SPARK-19968 ] - 使用KafkaProducer的缓存实例通过KafkaSink写入kafka。
  • [ SPARK-19970 ] - 表格所有者应为USER而不是PRINCIPAL,而且在重新组合的集群中
  • [ SPARK-19980 ] - POJO上的基本数据集转换不保留空值。
  • [ SPARK-19985 ] - 复制或不设置父代时,某些ML型号错误
  • [ SPARK-19990 ] - Flaky测试:org.apache.spark.sql.hive.execution.HiveCatalogedDDLSuite:使用
  • [ SPARK-19994 ] - 输出错误输出右/全外smj
  • [ SPARK-19995 ] - 使用真实用户连接HiveClientImpl中的HiveMetastore
  • [ SPARK-20003 ] - FPGrowthModel setMinConfidence应该会影响规则生成和转换
  • [ SPARK-20010 ] - 排序合并后,信息丢失
  • [ SPARK-20017 ] - 功能“str_to_map”和“爆炸”抛出NPE异常
  • [ SPARK-20018 ] - 具有时间戳和计数的数据透视图不应打印内部表示
  • [ SPARK-20020 ] - SparkR应支持检查点DataFrame
  • [ SPARK-20021 ] - 在python代码中注明反斜杠
  • [ SPARK-20023 ] - 描述格式化表时看不到表注释
  • [ SPARK-20024 ] - SessionCatalog复位需要设置ExternalCatalog的当前数据库
  • [ SPARK-20026 ] - 文档R GLM Tweedie系列支持编程指南和代码示例
  • [ SPARK-20027 ] - 在java文档中修复的编译。
  • [ SPARK-20042 ] - 执行器日志页面上的按钮不适用于spark.ui.reverseProxy = true
  • [ SPARK-20043 ] - 决策树装载器不处理大写杂质参数值
  • [ SPARK-20048 ] - 克隆SessionState不会克隆查询执行侦听器
  • [ SPARK-20051 ] - 修复来自v2.1检查点的StreamSuite.recover与IOException失败
  • [ SPARK-20059 ] - HbaseCredentialProvider使用错误的类加载器
  • [ SPARK-20070 ] - 数据源解释输出
  • [ SPARK-20086 ] - pyspark 2.1.0窗口功能的问题
  • [ SPARK-20088 ] - 不要在SparkR createSparkContext中创建新的SparkContext
  • [ SPARK-20094 ] - 应该阻止IN子查询向下加入运算符
  • [ SPARK-20096 ] - 使用--verbose时,将真正的队列名称显示为null
  • [ SPARK-20100 ] - 巩固SessionState建设
  • [ SPARK-20102 ] - 修复两个次要的构建脚本问题阻止2.1.1 RC +主快照构建
  • [ SPARK-20103 ] - 从卡夫卡的火花结构蒸汽 - 从检查站恢复后,再次处理的最后一个消息
  • [ SPARK-20111 ] - 由GraphFrames问题165出现的codegen错误
  • [ SPARK-20119 ] - Flaky Test:org.apache.spark.sql.execution。DataSourceScanExecRedactionSuite
  • [ SPARK-20123 ] - $ SPARK_HOME变量可能有空格(例如$ SPARK_HOME = / home / spark build / spark),然后构建spark失败。
  • [ SPARK-20125 ] - 地图类型选项的数据集不起作用
  • [ SPARK-20131 ] - 片状测试:oasstreaming.StreamingContextSuite.SPARK-18560接收器数据应该正确反序列化
  • [ SPARK-20140 ] - 删除硬编码的kinesis重试等待和最大重试
  • [ SPARK-20145 ] - “SELECT * FROM range(1)”的作品,但“SELECT * FROM RANGE(1)”不
  • [ SPARK-20147 ] - 克隆SessionState不克隆流式查询监听器
  • [ SPARK-20156 ] - Java String toLowerCase“土耳其语区域设置错误”导致Spark问题
  • [ SPARK-20159 ] - 在R中支持完整的Catalog API
  • [ SPARK-20164 ] - AnalysisException不容忍空查询计划
  • [ SPARK-20172 ] - 实际读取之前,应过滤掉没有读取权限的事件日志
  • [ SPARK-20173 ] - HiveThriftServer2关闭时抛出NullPointerException异常
  • [ SPARK-20190 ] - '/ applications / [app-id] / jobs'在rest api中,状态应该是[running | succeeded | failed | unknown]
  • [ SPARK-20191 ] - RackResolver在YARN测试中未正确覆盖
  • [ SPARK- 20195] - SparkR添加createTable目录API并弃用createExternalTable
  • [ SPARK-20196 ] - 为refreshByPath添加目录API的Python
  • [ SPARK-20197 ] - 在安装软件包时CRAN检查失败
  • [ SPARK-20198 ] - 删除SparkSession.Catalog API中表/函数名称约定的不一致
  • [ SPARK-20200 ] - 片状测试:org.apache.spark.rdd.LocalCheckpointSuite
  • [ SPARK-20209 ] - 如果先前的批次花费的时间超过触发间隔,则立即执行下一个触发
  • [ SPARK-20211 ] - `1> 0.0001` throws小数标度(0)不能大于精度(-2)异常
  • [ SPARK-20214 ] - pyspark linalg _convert_to_vector应检查排序索引
  • [ SPARK-20217 ] - 如果被杀死的任务抛出非中断的异常,执行者不应该失败
  • [ SPARK-20223 ] - 打印在tpcds q77.sql中
  • [ SPARK-20239 ] - 改进HistoryServer ACL机制
  • [ SPARK-20243 ] - DebugFilesystem.assertNoOpenStreams线程赛
  • [ SPARK-20244 ] - 使用pyspark的用户界面中的输入大小不正确
  • [ SPARK-20246 ] - 当通过聚合推送谓词时,应该检查确定性
  • [ SPARK-20250 ] - 任务在泄漏数据时被杀死时出错OOM错误
  • [ SPARK-20254 ] - SPARK-19716为具有原始数组的数据集生成不必要的数据转换
  • [ SPARK-20258 ] - SparkR逻辑回归实例并没有融入编程指南
  • [ SPARK-20260 ] - MLUtils parseLibSVMRecord对错误消息有错误的字符串插值
  • [ SPARK-20262 ] - AssertNotNull应该抛出NullPointerException
  • [ SPARK-20264 ] - asm应该是sql / core中的非测试依赖关系
  • [ SPARK- 20270] - 当默认值为double时,na.fill将以long或integer形式更改值
  • [ SPARK-20273 ] - 禁止非确定性过滤器下推到连接条件
  • [ SPARK-20274 ] - 支持编码器中兼容的数组元素类型
  • [ SPARK-20275 ] - HistoryServer页面显示不正确的进度应用程序的完整日期
  • [ SPARK-20278 ] - 禁用与项目代码风格相反的 'multiple_dots_linter'lint规则
  • [ SPARK-20280 ] - SharedInMemoryCache称重整数溢出
  • [ SPARK-20285 ] - 片状测试:pyspark.streaming.tests.BasicOperationTests.test_cogroup
  • [ SPARK-20291 ] - NaNvl(FloatType,NullType)不应该被转换为NaNvl(DoubleType,DoubleType)
  • [ SPARK-20298 ] - 拼写错误:特征
  • [ SPARK-20312 ] - 查询优化器在不期望的情况下调用带有空值的udf
  • [ SPARK-20329 ] - HAVING子句使用涉及隐式类型强制的GROUP BY表达式时的解决错误
  • [ SPARK-20335 ] - Hive UDF的儿童表达会影响Hive UDF的决定性
  • [ SPARK-20341 ] - 支持BigIngeger值> 19精度
  • [ SPARK-20343 ] - 由于Avro版本分辨率,Jenkins中的Hadoop 2.6的SBT主版本失败
  • [ SPARK-20345 ] - 修复HiveSQLException上的STS错误处理逻辑
  • [ SPARK-20349 ] - ListFunctions在使用持久化函数后返回重复的函数
  • [ SPARK-20354 ] - 当我请求访问“http:// ip:port / api / v1 / applications”链接时,在REST API中返回“sparkUser”为空。
  • [ SPARK-20356 ] - Spark sql组通过返回不正确的结果加入+不同的转换
  • [ SPARK-20358 ] - 执行者在被取消的任务抛出的中断异常时失败
  • [ SPARK-20359 ] - 催化剂消除优化可能导致NPE
  • [ SPARK-20364 ] - 镶木地板谓词下拉列的点返回空的结果
  • [ SPARK-20365 ] - AM和容器不太准确的类路径格式
  • [ SPARK-20367 ] - Spark默认地转义分区列名
  • [ SPARK-20373 ] - 使用'Dataset / DataFrame.withWatermark()'的批处理查询不执行
  • [ SPARK-20377 ] - 修复JavaStructuredSessionization示例
  • [ SPARK-20381 ] - ObjectHashAggregateExec缺少numOutputRows
  • [ SPARK-20386 ] - 函数“org.apache.spark.storage.BlockManagerInfo.updateBlockInfo”中的日志信息“在%s的内存中添加%s(大小:%s,free:%s)”不正确如果块上已存在块
  • [ SPARK-20393 ] - 加强Spark以防止XSS漏洞
  • [ SPARK-20398 ] - range()运算符应包括被杀死时的取消原因
  • [ SPARK-20399 ] - 由于解析器中未转义的sql字符串,所以不能在1.6和2.x之间使用相同的正则表达式模式
  • [ SPARK-20403 ] - 某些函数的指令是错误的,如布尔值,tinyint,smallint,int,bigint,float,double,decimal,date,timestamp,binary,string
  • [ SPARK-20405 ] - Dataset.withNewExecutionId应该是私有的
  • [ SPARK-20407 ] - ParquetQuerySuite'启用/禁用ignoreCorruptFiles'片断测试
  • [ SPARK-20412 ] - NullPointerException在预期不可选的partitionSpec的地方。
  • [ SPARK-20430 ] - 当fullStage关闭时,在范围内抛出NullPointerException
  • [ SPARK-20435 ] - 从日志/ UI更全面地编辑敏感信息,进行单元测试
  • [ SPARK-20439 ] - Catalog.listTables()取决于用于创建表的所有库
  • [ SPARK-20441 ] - 在相同的流式查询中,一个StreamingRelation只能转换为一个StreamingExecutionReelation
  • [ SPARK-20451 ] - 从randomSplit中的排序顺序过滤掉嵌套的mapType数据类型
  • [ SPARK-20452 ] - 取消批次Kafka查询并重新运行相同的DataFrame可能会导致ConcurrentModificationException
  • [ SPARK-20459 ] - JdbcUtils抛出IllegalStateException:原因在获取SQLException之后已初始化
  • [ SPARK-20461 ] - CachedKafkaConsumer在中断时可能会永久挂起
  • [ SPARK-20464 ] - 为流式查询添加一个作业组和信息描述
  • [ SPARK-20471 ] - 删除AggregateBenchmark testsuite警告:禁用两个级别的hashmap,但是已启用向量化的hashmap。
  • [ SPARK-20473 ] - ColumnVector.Array缺少某些类型的访问器
  • [ SPARK-20474 ] - OnHeapColumnVector实现不能复制现有数据
  • [ SPARK-20476 ] - “create table as”和“get_json_object”之间的异常
  • [ SPARK-20482 ] - 解决施法时间设置太严格
  • [ SPARK-20483 ] - Mesos 粗体模式可能会使其他Mesos框架挨饿,如果最大内核不是执行器核心的倍数
  • [ SPARK-20496 ] - KafkaWriter使用未分析的逻辑计划
  • [ SPARK-20514 ] - 将码头升级到9.3.11.v20160721
  • [ SPARK-20517 ] - 历史服务器UI中的下载链接不正确
  • [ SPARK-20520 ] - R流测试在Windows上失败
  • [ SPARK-20529 ] - 工作人员不应使用收到的主地址
  • [ SPARK-20534 ] - 如果单独使用,外部发电机会跳过丢失的记录
  • [ SPARK-20537 ] - OffHeapColumnVector重新分配可能不会复制现有数据
  • [ SPARK-20540 ] - 动态分配不断请求并杀死执行者
  • [ SPARK-20541 ] - SparkR SS应该支持等待终止而不会超时
  • [ SPARK-20543 ] - 在CRAN上运行时,R应该跳过长时间运行或非基本测试
  • [ SPARK-20546 ] - spark-class在posix模式下获取语法错误
  • [ SPARK-20548 ] - 片状测试:ReplSuite.newProductSeqEncoder与REPL定义的类
  • [ SPARK-20549 ] - java.io.CharConversionException:JsonToStructs中无效的UTF-32
  • [ SPARK-20555 ] - 通过JDBC处理Oracle的十进制类型不正确
  • [ SPARK-20556 ] - 由于未转义的字符串,codehaus无法生成代码
  • [ SPARK-20558 ] - 在停止它时,在SparkContext中清除InheritableThreadLocal变量
  • [ SPARK-20567 ] - 在流式传输中使用explode和collect_set时未绑定
  • [ SPARK-20569 ] - RuntimeReplaceable函数接受无效的第三个参数
  • [ SPARK-20574 ] - 允许Bucketizer处理非双列
  • [ SPARK-20590 ] - 将默认输入数据源格式映射到内联类
  • [ SPARK-20594 ] - 如果我们将hive.exec.stagingdir设置在表目录下,而不以“。”开头,则临时目录应附加“.hive-staging”,以避免被删除。
  • [ SPARK-20613 ] - Windows批处理脚本中的双引号
  • [ SPARK-20615 ] - 当稀疏向量的大小大于零但没有定义元素时,SparseVector.argmax会抛出IndexOutOfBoundsException异常。
  • [ SPARK-20616 ] - RuleExecutor logDebug的批处理结果应该显示差异开始批处理
  • [ SPARK-20626 ] - 在Windows上修复带有时间戳时区的SparkR测试警告
  • [ SPARK-20630 ] - 线程转储链接可用于Executors选项卡,而不考虑spark.ui.threadDumpsEnabled
  • [ SPARK-20631 ] - LogisticRegression._checkThresholdConsistency应该使用不是Params的值
  • [ SPARK-20661 ] - SparkR tableNames()测试失败
  • [ SPARK-20665 ] - Spark-sql,“Bround”和“Round”函数返回NULL
  • [ SPARK-20666 ] - Flaky测试 - SparkListenerBus随机失败java.lang.IllegalAccessError
  • [ SPARK-20685 ] - BatchPythonEvaluation UDF评估程序对于具有重复参数的单个UDF的情况失败
  • [ SPARK-20686 ] - PropagateEmptyRelation错误地处理聚合而不分组表达式
  • [ SPARK-20687 ] - 从Breeze稀疏矩阵转换时,微风可能会崩溃
  • [ SPARK-20688 ] - 正确检查标量子查询的分析
  • [ SPARK-20700 ] - InferFiltersFromConstraints stackoverflows for query(v2)
  • [ SPARK-20702 ] - TaskContextImpl.markTaskCompleted不应该隐藏原始错误
  • [ SPARK-20704 ] - CRAN测试应该运行单线程
  • [ SPARK-20705 ] - 当您使用Firefox或Google Chrome时,排序功能无法在母版页中使用。
  • [ SPARK-20716 ] - StateStore.abort()不应该再抛出异常
  • [ SPARK-20718 ] - 具有不同过滤器顺序的FileSourceScanExec在规范化后应该相同
  • [ SPARK-20725 ] - 对于sameResult,部分聚合应该行为正确
  • [ SPARK-20735 ] - 在TPCDSQueryBenchmark中启用交叉连接
  • [ SPARK-20756 ] - 纱线洗牌瓶具有无遮盖的番石榴,含有scala类
  • [ SPARK-20763 ] - “month”和“day”的函数返回一个不是我们预期的值
  • [ SPARK-20769 ] - 使用Jupyter笔记本的文档不正确
  • [ SPARK-20773 ] - ParquetWriteSupport.writeFields在字段数是二次方
  • [ SPARK-20781 ] - Dockerfile在docker.properties.template中的位置是错误的
  • [ SPARK-20788 ] - 修复执行程序任务收件人的错误警报日志
  • [ SPARK-20790 ] - 具有隐含反馈的ALS忽略负值
  • [ SPARK-20798 ] - GenerateUnsafeProjection应该在调用getter之前检查值是否为null
  • [ SPARK-20808 ] - 外部表不必要地以Hive兼容的方式创建
  • [ SPARK-20813 ] - Web UI执行器页面选项卡按状态搜索不起作用
  • [ SPARK-20814 ] - Mesos调度程序不遵守spark.executor.extraClassPath配置
  • [ SPARK-20815 ] - RPackageUtils中的NullPointerException#checkManifestForR
  • [ SPARK-20831 ] - 当INSERT OVERWRITE数据源表与IF NOT EXISTS时未解析的运算符
  • [ SPARK-20843 ] - 不能优雅地杀死超过10秒钟的死亡司机
  • [ SPARK-20848 ] - 在本地模式下阅读镶木地板文件时悬挂线程
  • [ SPARK-20862 ] - LogisticRegressionModel抛出TypeError
  • [ SPARK-20865 ] - 缓存数据集抛出“与流源的查询必须用writeStream.start()”执行
  • [ SPARK-20866 ] - 数据集图不尊重可空字段
  • [ SPARK-20872 ] - ShuffleExchange.nodeName应该处理空协调器
  • [ SPARK-20874 ] - “示例”项目不依赖于结构化流式卡夫卡源
  • [ SPARK-20897 ] - 缓存的自联不应该失败
  • [ SPARK-20908 ] - 缓存管理器:计划匹配中应该忽略提示
  • [ SPARK-20914 ] - Javadoc包含无效的代码
  • [ SPARK-20920 ] - 在编写具有多个分区的hive表时,ForkJoinPool池泄漏
  • [ SPARK-20922 ] - Spark LauncherConnection中的不安全反序列化
  • [ SPARK-20924 ] - 无法调用在当前数据库中注册的功能
  • [ SPARK-20926 ] - 通过直接访问SessionCatalog中的tableRelationCache导致故障,暴露于Guava库
  • [ SPARK-20929 ] - LinearSVC不应该使用共享Param HasThresholds
  • [ SPARK-20940 ] - AccumulatorV2不应该抛出IllegalAccessError
  • [ SPARK-20941 ] - 子查询重用不起作用
  • [ SPARK-20954 ] - DESCRIBE显示一行“|#col_name | data_type | comment |”
  • [ SPARK-20974 ] - 如果SQL内核有代码更改,我们应该运行REPL测试
  • [ SPARK-21041 ] - 使用全阶段代码,SparkSession.range()的行为与SparkContext.range()不一致,
  • [ SPARK-21050 ] - ml word2vec write在计算numPartition时有溢出问题
  • [ SPARK-21059 ] - LikeSimplification可以在空格式上显示NPE
  • [ SPARK-21064 ] - 修复NettyBlockTransferServiceSuite中的默认值错误
  • [ SPARK-21085 ] - 无法读取Spark 2.1创建的分区表
  • [ SPARK-21089 ] - 表属性未显示在DESC EXTENDED / FORMATTED中
  • [ SPARK-21126 ] - 名为“spark.core.connection.auth.wait.timeout”的配置尚未在火花中使用
  • [ SPARK-21129 ] - SQL函数调用的参数不应该是命名表达式
  • [ SPARK-21132 ] - 函数参数的DISTINCT修饰符不应该被忽略
  • [ SPARK-21133 ] - HighlyCompressedMapStatus#writeExternal抛出NPE
  • [ SPARK-21138 ] - 当“spark.yarn.stagingDir”和“spark.hadoop.fs.defaultFS”的集群不同时,无法删除分段目录
  • [ SPARK-21144 ] - 数据模式和分区模式具有重复列时出现意外的结果
  • [ SPARK-21150 ] - 存储在Hive转移中的持久视图应该是保留的。
  • [ SPARK-21159 ] - SparkLauncher提交的群集模式,驱动程序抛出连接拒绝异常
  • [ SPARK-21165 ] - 由于属性引用不能在分区列上使用,因此无法写入分区的hive表
  • [ SPARK-21167 ] - 读取FileSink的输出时路径不正确解码
  • [ SPARK-21176 ] - Master UI挂起spark.ui.reverseProxy = true如果主节点有很多CPU
  • [ SPARK-21181 ] - 抑制netty报告的内存泄漏错误
  • [ SPARK-21203 ] - Array的Array插入结果错误
  • [ SPARK-21253 ] - 无法获取大块到磁盘
  • [ SPARK-21258 ] - 使用复杂对象溢出时窗口结果不正确

说明文档

  • [ SPARK-16046 ] - 向Spark SQL编程指南添加聚合部分
  • [ SPARK-18723 ] - 扩展了整个文本文件的编程指南信息
  • [ SPARK-18864 ] - 2.2的MLlib和SparkR行为的变化
  • [ SPARK-18941 ] - 用户指定位置时,“删除表”命令不会删除托管Hive表的目录
  • [ SPARK-19003 ] - 在“Spark Streaming Guide”中添加Java示例,“使用foreachRDD的设计模式”一节
  • [ SPARK-19006 ] - 应该提到在文档中spark.kryoserializer.buffer.max允许的最大值
  • [ SPARK-19156 ] - 文档中的示例不工作
  • [ SPARK-19337 ] - LinearSVC的文档和示例
  • [ SPARK-19345 ] - 在ALS中添加“coldStartStrategy”用法的文档
  • [ SPARK-19389 ] - 轻微的文档修复,包括自从Python Params中的标签
  • [ SPARK-19402 ] - 通过unidoc / genjavadoc修复Scala / Java API生成中的警告
  • [ SPARK-19410 ] - 与API文档的链接已损坏
  • [ SPARK-19444 ] - 在没有额外导入的情况下,令牌程序的示例不会编译
  • [ SPARK-19584 ] - 更新结构化流文档以包括批次查询描述
  • [ SPARK-19590 ] - 更新pyspark中的QuantileDiscretizer的文档
  • [ SPARK-19639 ] - 添加spark.svmLinear示例并更新晕影
  • [ SPARK-19734 ] - OneHotEncoder __init__使用dropLast但doc字符串都表示includeFirst
  • [ SPARK-19769 ] - 快速入门独立应用指令不适用于当前的sbt
  • [ SPARK-19906 ] - 为Kafka写入路径添加文档
  • [ SPARK-19948 ] - saveAsTable使用目录作为表存在的真实来源的文档。
  • [ SPARK-19969 ] - Imputer的文档和示例
  • [ SPARK-20015 ] - R R vignettes和R&SS编程指南中的R结构化流(实验),R示例
  • [ SPARK-20132 ] - 添加列字符串函数的文档
  • [ SPARK-20192 ] - SparkR 2.2.0迁移指南,发行说明
  • [ SPARK-20208 ] - 文档支持小插曲,编程指南和代码示例
  • [ SPARK-20296 ] - 不同集合的UnsupportedOperationChecker文本与文档不同
  • [ SPARK-20455 ] - “运行基于Docker的集成测试套件”的文档中缺少测试目标
  • [ SPARK-20477 ] - R编程指南中的文档R二等分k-均值
  • [ SPARK-20478 ] - 文档LinearSVC在R编程指南
  • [ SPARK-20553 ] - 更新AL的示例,以说明推荐所有
  • [ SPARK-20637 ] - 代码注释中仍然引用了MappedRDD,FilteredRDD等
  • [ SPARK-20694 ] - 文档DataFrameWriter partitionBy,bucketBy和sortBy在SQL指南
  • [ SPARK-21042 ] - Document Dataset.union是按位置而不是名称的分辨率
  • [ SPARK-21123 ] - 文件流源的选项位于错误的表中

待增加

  • [ SPARK-6227 ] - 用于PySpark的PCA和SVD
  • [ SPARK-8425 ] - 添加黑名单机制进行任务调度
  • [ SPARK-8617 ] - 更好地处理历史文件
  • [ SPARK-10101 ] - Spark JDBC编写器将字符串映射到TEXT或VARCHAR
  • [ SPARK-10748 ] - 当作业配置错误时,记录错误而不是崩溃Spark Mesos调度程序
  • [ SPARK-10849 ] - 在将数据写入jdbc数据源时,允许用户为数据帧字段指定数据库列类型。
  • [ SPARK-11569 ] - 当列包含空值时,StringIndexer转换失败
  • [ SPARK-11968 ] - ALS建议所有方法花费大部分时间在GC中
  • [ SPARK-12334 ] - 支持从DataFrameReader.orc中的orc文件的多个输入路径读取
  • [ SPARK-13​​331 ] - AES支持线上加密
  • [ SPARK-13​​369 ] - 作业中止之前阶段的连续提取失败次数应该是可配置的
  • [ SPARK-13​​446 ] - Spark需要支持从Hive 2.0.0转移中读取数据
  • [ SPARK-13​​721 ] - 添加支持LATERAL VIEW OUTER explode()
  • [ SPARK-13​​748 ] - createDataFrame的文档行为和省略字段的行
  • [ SPARK-14049 ] - 在火花历史服务器API中添加功能,以结束时间查询应用程序
  • [ SPARK-14272 ] - 用LogL似然估计GaussianMixtureModel
  • [ SPARK-14584 ] - 改进数据集转换中非空性的识别
  • [ SPARK-15214 ] - 为Generate实现代码生成
  • [ SPARK-15288 ] - 当任何线程获得UncaughtException时,Mesos调度程序应该优雅地处理
  • [ SPARK-15463 ] - 支持从数据集中的CSV创建数据框[String]
  • [ SPARK-16043 ] - 准备专门用于原语数组的GenericArrayData实现
  • [ SPARK-16213 ] - 减少在DataFrame中创建原始数组的程序的运行时开销
  • [ SPARK-16475 ] - SQL查询的广播提示
  • [ SPARK-16609 ] - 解析时间戳/日期的单一功能
  • [ SPARK-16654 ] - UI应显示黑名单的执行者和节点
  • [ SPARK-16848 ] - 检查jdbc和表API中用户指定模式的模式验证
  • [ SPARK-16920 ] - 调查和解决SPARK-15858中引入的问题
  • [ SPARK-16929 ] - 检查中的投机相关同步瓶颈.SpeculatableTasks
  • [ SPARK-17019 ] - 在各个地方露出堆栈内存使用情况
  • [ SPARK-17058 ] - 添加maven快照和临时配置文件以构建/测试针对分段工件
  • [ SPARK-17062 ] - 添加--conf到mesos调度程序
  • [ SPARK-17161 ] - 添加PySpark-ML JavaWrapper便利函数来创建py4j​​ JavaArrays
  • [ SPARK-17203 ] - 数据源选项应始终不区分大小写
  • [ SPARK-17498 ] - StringIndexer.setHandleInvalid应该有另一个选项'新'
  • [ SPARK-17564 ] - Flaky RequestTimeoutIntegrationSuite,furtherRequestsDelay
  • [ SPARK-17568 ] - 为用户添加spark-submit选项以覆盖用于解析包/工件的ivy设置
  • [ SPARK-17724 ] - DAG中的工具提示中无法评估的新行工作的可视化
  • [ SPARK-17747 ] - WeightCol支持非双数据类型
  • [ SPARK-17769 ] - DAGScheduler中的一些FetchFailure重构
  • [ SPARK-17838 ] - 严格类型检查参数,通过API发送更好的消息。
  • [ SPARK-17843 ] - 历史记录服务器不提供关于不完整的应用程序列表的反馈
  • [ SPARK-17847 ] - 减少GaussianMixture的混洗数据大小,并将实现从mllib复制到ml
  • [ SPARK-17868 ] - 在解析和分析CUBE / ROLLUP / GROUPING SETS期间不要使用位掩码
  • [ SPARK-17874 ] - HistoryServer上的其他SSL端口应该是可配置的
  • [ SPARK-17912 ] - 为ColumnVector / ColumnarBatch获取数据的重构代码生成
  • [ SPARK- 17931] - taskScheduler有一些不必要的序列化
  • [ SPARK-17949 ] - 引入基于JVM对象的聚合运算符
  • [ SPARK-17979 ] - 删除对SPARK_YARN_USER_ENV的不支持的支持
  • [ SPARK-18171 ] - 当使用通告地址时,在mesos主站网站中显示正确的框架地址
  • [ SPARK-18186 ] - 将HiveUDAFFunction迁移到TypedImperativeAggregate进行部分聚合支持
  • [ SPARK-18204 ] - 删除SparkUI.appUIAddress
  • [ SPARK-18218 ] - 优化BlockMatrix乘法,在几种情况下可能会导致OOM和低并行使用问题
  • [ SPARK-18232 ] - 支持Mesos CNI
  • [ SPARK-18236 ] - 通过减少重复对象减少Spark UI和HistoryServer的内存使用
  • [ SPARK-18256 ] - 根据分析器结果提高HistoryServer中事件日志重放的性能
  • [ SPARK-18268 ] - 如果运行在空评级RDD上,则ALS.run失败,并显示UnsupportedOperationException
  • [ SPARK-18285 ] - 大约在R支持多列
  • [ SPARK- 18335] - 向SparkR的createDataFrame添加一个numSlices参数
  • [ SPARK-18356 ] - KMeans应在训练前缓存RDD
  • [ SPARK-18362 ] - 在实现CSVFileFormat时使用TextFileFormat
  • [ SPARK-18379 ] - 实现parallelPartitionDiscovery的并行配置。
  • [ SPARK-18413 ] - 在保存jdbc rdd时添加一个属性来控制分区数
  • [ SPARK- 18417] - 在纱线配置对象中定义“spark.yarn.am.port”
  • [ SPARK-18471 ] - 在treeAggregate中,生成(大)零,而不是发送它们。
  • [ SPARK-18495 ] - Web UI应该在DAG可视化文件中记录绿点的含义
  • [ SPARK-18541 ] - 添加pyspark.sql.Column.aliasWithMetadata以允许在pyspark SQL API中进行动态元数据管理
  • [ SPARK-18566 ] - 删除OverwriteOptions
  • [ SPARK-18567 ] - 简化CreateDataSourceTableAsSelectCommand
  • [ SPARK-18576 ] - 在PySpark中公开基本TaskContext信息
  • [ SPARK-18601 ] - 简化在优化器中创建/获取复杂的表达式对
  • [ SPARK-18606 ] - [HISTORYSERVER]在检索HistoryServer时会检查html elems
  • [ SPARK-18613 ] - spark.ml LDA类不应该在API中暴露spark.mllib
  • [ SPARK-18624 ] - 在ArrayTypes之间插入
  • [ SPARK-18632 ] - AggregateFunction不应该是ImplicitCastInputTypes
  • [ SPARK-18638 ] - 升级sbt,锌和maven插件
  • [ SPARK-18654 ] - JacksonParser.makeRootConverter有效无法访问的代码
  • [ SPARK-18662 ] - 将集群管理器移动到自己的子目录中
  • [ SPARK-18669 ] - 更新Apache文档关于结构化流中的水印
  • [ SPARK-18697 ] - 升级sbt插件
  • [ SPARK-18698 ] - 用于IndexToString类的uid的公共构造函数
  • [ SPARK-18708 ] - 改进SparkContext.scala文件中的文档
  • [ SPARK-18719 ] - 文件spark.ui.showConsoleProgress
  • [ SPARK-18720 ] - 使用列的代码重构
  • [ SPARK-18740 ] - 在驱动程序日志中记录spark.app.name
  • [ SPARK-18742 ] - 说明不支持用户定义的BroadcastFactory
  • [ SPARK-18744 ] - 删除Netty内存泄漏的解决方法
  • [ SPARK-18766 ] - 通过BatchEvalPython下推过滤器
  • [ SPARK-18773 ] - 将Spark配置转换为commons-crypto配置一致
  • [ SPARK-18800 ] - 在UnsafeKVExternalSorter中更正确认数组大小的断言
  • [ SPARK-18808 ] - ml.KMeansModel.transform是非常低效的
  • [ SPARK-18809 ] - 大师的运动解体问题
  • [ SPARK-18836 ] - 每个阶段序列化任务指标一次
  • [ SPARK-18837 ] - 很长的阶段描述不会包含在UI中
  • [ SPARK-18862 ] - 将SparkR mllib.R拆分成多个文件
  • [ SPARK-18885 ] - 统一数据源和hive serde表的CREATE TABLE语法
  • [ SPARK-18901 ] - LR LogisticAggregator中的要求是冗余的
  • [ SPARK-18903 ] - SparkR不能访问uiWebUrl
  • [ SPARK-18909 ] - “ExpressionEncoder.toRow”和“fromRow”中的错误信息太冗长
  • [ SPARK- 18917] - 数据帧 - 超时问题/在对象存储上的追加模式下长时间使用
  • [ SPARK-18923 ] - 在文档生成中支持SKIP_PYTHONDOC / RDOC
  • [ SPARK-18932 ] - collect_set / collect_list的部分聚合
  • [ SPARK-18943 ] - 阅读时避免以CSV 格式记录类型的分发
  • [ SPARK-18947 ] - SQLContext.tableNames不应该调用Catalog.listTables
  • [ SPARK-18949 ] - 将recoverPartitions API添加到目录
  • [ SPARK-18953 ] - 在主页上不显示与死者的链接
  • [ SPARK-18960 ] - 避免正在复制的双重文件。
  • [ SPARK-18961 ] - 支持`SHOW TABLE EXTENDED ... PARTITION`语句
  • [ SPARK-18972 ] - 修复RPC 的netty线程名称
  • [ SPARK-18975 ] - 添加一个API,以从SparkContext中删除SparkListener
  • [ SPARK-18980 ] - 使用TypedImperativeAggregate实现聚合器
  • [ SPARK-18985 ] - 添加缺少@ InterfaceStability.Evolving的结构化流API
  • [ SPARK-18990 ] - 使DatasetBenchmark对于数据集更加公平
  • [ SPARK-18991 ] - 将ContextCleaner.referenceBuffer更改为ConcurrentHashMap以使其更快
  • [ SPARK-18992 ] - 将spark.sql.hive.thriftServer.singleSession移动到SQLConf
  • [ SPARK-18997 ] - 推荐升级libthrift到0.9.3
  • [ SPARK-18999 ] - 简化文字代码
  • [ SPARK-19002 ] - 检查pep8对所有的python脚本
  • [ SPARK-19008 ] - 避免从Dataset程序调用原始类型的lambda 的打包 /取消打包开销
  • [ SPARK-19009 ] - 为Streaming Rest API添加文档
  • [ SPARK-19010 ] - 在溢出的情况下包含Kryo异常
  • [ SPARK-19021 ] - 通用HDFSCredentialProvider支持非HDFS安全FS
  • [ SPARK-19026 ] - 当“执行者 - ***”的创建目录抛出IOException时,本地目录无法被清除,因为没有更多可用的磁盘空间来创建它。
  • [ SPARK-19029 ] - 从SimpleCatalogRelation中删除databaseName
  • [ SPARK-19041 ] - 修复结构化流编程指南中的代码段编译问题
  • [ SPARK-19054 ] - 消除NB中的额外传球
  • [ SPARK-19060 ] - 删除AggregateFunction中的supportsPartial标志
  • [ SPARK-19070 ] - 清理数据集操作
  • [ SPARK-19074 ] - 更新模式的结构化流编程指南
  • [ SPARK-19080 ] - 简化数据源分析
  • [ SPARK- 19085] - 清理OutputWriterFactory和OutputWriter
  • [ SPARK-19088 ] - 优化序列类型反序列化代码
  • [ SPARK-19089 ] - 在Datasets中支持嵌套数组/ seq
  • [ SPARK-19107 ] - 支持使用DataFrameWriter和Catalog创建蜂巢表
  • [ SPARK-19126 ] - 加入文档改进
  • [ SPARK-19127 ] - dense_rank和rank文档中的不一致
  • [ SPARK-19140 ] - 允许非聚合流查询的更新模式
  • [ SPARK-19146 ] - 当stageData.taskData.size> retainTask减少更多的元素以减少调用次数
  • [ SPARK-19148 ] - 不要将外部表概念暴露在目录中
  • [ SPARK-19150 ] - 完全支持使用蜂巢作为数据源来创建表
  • [ SPARK-19168 ] - StateStore应该错误地中止
  • [ SPARK-19182 ] - 优化StreamingJobProgressListener中的锁,以在生成流作业时不阻止UI
  • [ SPARK-19183 ] - 将deleteWithJob钩子添加到内部提交协议API
  • [ SPARK-19207 ] - LocalSparkSession应该使用Slf4JLoggerFactory.INSTANCE,而不是通过构造函数创建新对象
  • [ SPARK-19219 ] - 默认情况下,木地板日志输出过于冗长
  • [ SPARK-19227 ] - “org.apache.spark.internal.config.ConfigEntry”中的打字字
  • [ SPARK-19236 ] - 添加createOrReplaceGlobalTempView
  • [ SPARK-19239 ] - 检查lowerBound和upperBound是否在jdbc API中相等
  • [ SPARK-19240 ] - 为管理表设置位置添加测试
  • [ SPARK-19244 ] - 根据内存使用情况排序MemoryConsumers
  • [ SPARK-19247 ] - 改进ml word2vec保存/加载可扩展性
  • [ SPARK-19249 ] - 更新下载页面,描述如何下载存档的版本
  • [ SPARK-19251 ] - 删除未使用的导入和过时的注释
  • [ SPARK-19254 ] - 在功能中支持Seq,Map和Struct
  • [ SPARK-19257 ] - CatalogStorageFormat.locationUri的类型应为java.net.URI而不是String
  • [ SPARK-19261 ] - 支持`ALTER TABLE table_name ADD COLUMNS(..)`语句
  • [ SPARK-19265 ] - 使表关系缓存一般,并不依赖于hive
  • [ SPARK-19282 ] - RandomForestRegressionModel应该在R中公开getMaxDepth
  • [ SPARK-19290 ] - 在分析仪中添加一个新的扩展接口,用于事后解析
  • [ SPARK-19291 ] - spark.gaussian混合支持输出对数似然
  • [ SPARK-19295 ] - IsolatedClientLoader的downloadVersion应该记录下载的metastore客户端jar的位置
  • [ SPARK-19296 ] - Spark 2.1.0中JdbcUtils.saveTable的尴尬变化
  • [ SPARK-19302 ] - 修正了security.md中错误的项目格式
  • [ SPARK-19304 ] - Kinesis检查点恢复缓慢10倍
  • [ SPARK-19330 ] - 还显示成功批量的工具提示
  • [ SPARK-19333 ] - 文件不符合ASF政策
  • [ SPARK-19359 ] - 由Hive创建的分区路径应在重命名大写分区后删除
  • [ SPARK-19365 ] - 优化RequestMessage序列化
  • [ SPARK-19377 ] - 已杀死的任务应具有杀死状态
  • [ SPARK-19384 ] - 在等渗回归中忘记非空间输入数据集
  • [ SPARK-19385 ] - 在规范化期间,`NOT(l,r)`不应该指望这样的情况l.hashcode> r.hashcode
  • [ SPARK-19391 ] - SparkR中的 Tweedie GLM API
  • [ SPARK-19398 ] - 登录TaskSetManager是不正确的
  • [ SPARK-19405 ] - 通过STS增加对KinesisUtils的支持,用于跨帐户Kinesis读取
  • [ SPARK-19411 ] - 删除用于标记可合并的Parquet模式中可选列的元数据,用于过滤谓词下推
  • [ SPARK-19415 ] - 改进数字类型和字符串之间的隐式类型转换,以避免前期丢失
  • [ SPARK-19421 ] - 在LinearSVC中删除numClasses和numFeatures方法
  • [ SPARK-19435 ] - ArrayTypes之间的类型强制
  • [ SPARK-19436 ] - 添加缺少的几何测试
  • [ SPARK-19441 ] - 从PromoteStrings中删除IN型强制
  • [ SPARK-19446 ] - 在TypeCoercion中删除未使用的findTightestCommonType
  • [ SPARK-19448 ] - 在MetaStoreRelation中统一一些重复功能
  • [ SPARK-19450 ] - 将askWithRetry替换为askSync。
  • [ SPARK-19453 ] - 正确的DataFrame.replace文档
  • [ SPARK-19454 ] - 改进DataFrame.replace API
  • [ SPARK-19464 ] - 删除对Hadoop 2.5及更早版本的支持
  • [ SPARK-19466 ] - 改进公平调度器日志记录
  • [ SPARK-19467 ] - PySpark ML不应使用循环进口
  • [ SPARK-19499 ] - 在Sink.addBatch()的评论中添加更多的注释
  • [ SPARK-19501 ] - 缓慢检查是否有很多spark.yarn.jars,这些已经在HDFS上
  • [ SPARK-19508 ] - 修改绑定服务失败时的错误消息
  • [ SPARK-19516 ] - 更新公共文档以使用SparkSession而不是SparkContext
  • [ SPARK-19518 ] - IGNORE NULLS in first_value / last_value应在SQL语句中支持
  • [ SPARK-19525 ] - 启用压缩RDD检查点
  • [ SPARK-19537 ] - 将pendingPartition变量从Stage移动到ShuffleMapStage
  • [ SPARK-19540 ] - 使用相同的SessionState副本添加克隆SparkSession的功能
  • [ SPARK-19542 ] - 如果查询停止而没有错误,则删除临时检查点
  • [ SPARK-19544 ] - 当某些列类型兼容且其他列不在设置/联合操作时,改进错误消息
  • [ SPARK-19554 ] - 当禁用UI时,YARN后端应使用历史服务器URL进行跟踪
  • [ SPARK-19555 ] - 提高StringUtils.escapeLikeRegex()方法的效率
  • [ SPARK-19557 ] - 输出参数不存在于SQL查询计划中
  • [ SPARK- 19562] - Gitignore Misses文件夹dev / pr-deps
  • [ SPARK-19563 ] - 在FileFormatWriter中提示不必要的排序
  • [ SPARK-19567 ] - 支持一些可调整变量的不可变性和访问
  • [ SPARK-19570 ] - 允许在pyspark shell中禁用蜂巢
  • [ SPARK-19572 ] - 允许在sparkR shell中禁用蜂巢
  • [ SPARK-19589 ] - 删除SQLGEN文件
  • [ SPARK-19598 ] - 删除UnresolvedRelation中的别名参数
  • [ SPARK-19599 ] - 清理HDFSMetadataLog
  • [ SPARK- 19616] - 一些SparkR API应该改进weightCol和aggregationDepth
  • [ SPARK-19658 ] - 在分析器中设置RepartitionByExpression的NumPartition
  • [ SPARK-19659 ] - 随机播放时获取大块磁盘
  • [ SPARK-19660 ] - 替换在Hadoop 2.6版本中不推荐使用的配置属性名称
  • [ SPARK-19664 ] - 将'hive.metastore.warehouse.dir'放在hadoopConf位置
  • [ SPARK-19678 ] - 删除MetastoreRelation
  • [ SPARK-19679 ] - 无阻挡地销毁广播对象
  • [ SPARK-19682 ] - 子集方法时发出警告(或错误)“[[”取向量索引
  • [ SPARK-19684 ] - 将有关运行特定测试的信息移动到开发者网站
  • [ SPARK-19693 ] - SET mapreduce.job.reduces自动转换为spark.sql.shuffle.partitions
  • [ SPARK-19694 ] - 为LDAModel添加缺少的“setTopicDistributionCol”
  • [ SPARK-19695 ] - 如果“columnNameOfCorruptRecord”字段违反了Json格式的要求,则抛出异常
  • [ SPARK-19704 ] - AFTSurvivalRegression应该支持数字censorCol
  • [ SPARK- 19706] - 在pyspark中添加Column.contains
  • [ SPARK-19723 ] - 数据源表创建表应与不存在的位置配合使用
  • [ SPARK-19733 ] - ALS对物品和用户ID执行不必要的投射
  • [ SPARK-19735 ] - 从Catalog API中删除HOLD_DDLTIME
  • [ SPARK-19739 ] - SparkHadoopUtil.appendS3AndSparkHadoopConfigurations传播全套AWS env vars
  • [ SPARK-19740 ] - 在mesos上运行时,Spark执行程序始终以root身份运行
  • [ SPARK-19745 ] - SVCAggregator序列化系数
  • [ SPARK-19746 ] - LogisticAggregator在索引中效率低下
  • [ SPARK-19749 ] - 具有有意义名称的名称套接字源
  • [ SPARK-19757 ] - 安排任务的执行人员可能因空闲而死亡
  • [ SPARK-19777 ] - 在TaskSetManager中检查可推测任务时扫描runningTasksSet。
  • [ SPARK-19786 ] - 促进JIT编译器中的range()的循环优化
  • [ SPARK-19787 ] - ALS中不同的缺省regParam值
  • [ SPARK-19805 ] - 当查询结果不匹配时记录行类型
  • [ SPARK-19806 ] - PySpark GLR支持tweedie发行
  • [ SPARK-19807 ] - 当使用网络用户界面杀死舞台时,添加取消原因
  • [ SPARK-19820 ] - 允许用户杀死任务,传播杀人理由
  • [ SPARK-19830 ] - 将parseTableSchema API添加到ParserInterface
  • [ SPARK-19831 ] - 从工作人员发送心跳主机可能被其他rpc消息阻止
  • [ SPARK- 19843] - 无效输入的UTF8String =>(int / long)转换昂贵
  • [ SPARK-19846 ] - 添加一个标志以禁用约束传播
  • [ SPARK-19849 ] - 支持to_json函数/表达式中的ArrayType
  • [ SPARK-19850 ] - 在功能参数中支持别名表达式
  • [ SPARK- 19876] - 添加OneTime触发器执行器
  • [ SPARK-19889 ] - 使TaskContext回调同步
  • [ SPARK-19899 ] - FPGrowth输入列命名
  • [ SPARK-19904 ] - SPIP将Spark项目改进方案文件添加到网站
  • [ SPARK-19916 ] - 简化不良文件处理
  • [ SPARK-19918 ] - 使用TextFileFormat来实现JsonFileFormat
  • [ SPARK-19919 ] - 将输入路径验证延迟到CSV数据源中的DataSource
  • [ SPARK-19921 ] - 启用使用不同Hive转移版本的端到端测试。
  • [ SPARK-19922 ] - 更快的Word2Vec查找同义词
  • [ SPARK-19923 ] - 在Hive中删除不必要的每次呼叫转换
  • [ SPARK-19944 ] - 将SQLConf从sql / core移动到sql / catalyst
  • [ SPARK- 19946] - DebugFilesystem.assertNoOpenStreams应该报告打开的流来帮助调试
  • [ SPARK-19949 ] - 统一CSV和JSON中的不良记录处理
  • [ SPARK-19956 ] - 使用拓扑信息优化块的位置顺序
  • [ SPARK-19961 ] - 统一dropdatabase的异常erro msg
  • [ SPARK-19986 ] - 使pyspark.streaming.tests.CheckpointTests更稳定
  • [ SPARK-19987 ] - 将所有过滤器传递到FileIndex
  • [ SPARK- 19991] - FileSegmentManagedBuffer性能提升。
  • [ SPARK-19998 ] - 未找到BlockRDD块异常添加RDD id信息
  • [ SPARK-19999 ] - 由于java.nio.Bits.unaligned()引起的Spark Core中的测试失败
  • [ SPARK-20009 ] - 使用用户友好的DDL格式在functions.from_json中定义模式
  • [ SPARK-20011 ] - als api文档和教程中不一致的术语
  • [ SPARK-20036 ] - 不可能使用kafka 0.10和spark 2.0.0阅读整个kafka主题
  • [ SPARK-20038 ] - FileFormatWriter.ExecuteWriteTask.releaseResources()实现重入
  • [ SPARK-20039 ] - 将ml.stat.ChiSquare重命名为ml.stat.ChiSquareTest
  • [ SPARK-20041 ] - 更新大约数量的NaN处理文档
  • [ SPARK-20046 ] - 促进关于sqlContext.read.parquet()的JIT编译器中的循环优化
  • [ SPARK-20064 ] - 将PySpark版本号码颠覆至2.2
  • [ SPARK-20067 ] - 使用目录界面统一并清理描述命令
  • [ SPARK-20078 ] - 任务名称和标签的Mesos执行器可配置性
  • [ SPARK-20084 ] - 从历史文件中删除internal.metrics.updatedBlockStatuses累加器
  • [ SPARK-20085 ] - 用于执行器的可配置的mesos标签
  • [ SPARK- 20092] - 触发AppVeyor R测试与R API相关的Scala代码的更改
  • [ SPARK-20097 ] - 修正LR和GLR中numInstances和degreesOfFreedom的可见性差异
  • [ SPARK- 20107] - 将spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version选项添加到configuration.md
  • [ SPARK-20120 ] - spark-sql CLI支持静音模式
  • [ SPARK-20121 ] - 简化NullIntolerant的NullPropagation
  • [ SPARK-20126 ] - 删除HiveSessionState
  • [ SPARK-20127 ] - 次要代码清理
  • [ SPARK-20136 ] - 添加num文件和元数据操作时序以扫描指标
  • [ SPARK-20143 ] - DataType.fromJson应该使用更好的消息抛出异常
  • [ SPARK-20146 ] - Thrift Server的TableSchema缺少列注释信息
  • [ SPARK-20148 ] - 扩展文件提交界面以允许订阅任务提交消息
  • [ SPARK-20151 ] - 扫描元数据时间指标中的分区修剪帐号
  • [ SPARK-20160 ] - 将ParquetConversions和OrcConversions移出HiveSessionCatalog
  • [ SPARK-20166 ] - 使用XXX作为ISO时区而不是ZZ,这是FastDateFormat特定于CSV / JSON时间相关选项
  • [ SPARK-20175 ] - 存在不应在Join运算符中进行求值,如果没有相关引用,则可以转换为ScalarSubquery
  • [ SPARK-20177 ] - 关于压缩方式的文件有一些细节变化。
  • [ SPARK-20194 ] - 支持InMemoryCatalog的分区修剪
  • [ SPARK-20204 ] - 删除SimpleCatalystConf和CatalystConf类型别名
  • [ SPARK-20218 ] - REST API中的'/ applications / [app-id] / stages',添加说明。
  • [ SPARK-20229 ] - 添加semanticHash到QueryPlan
  • [ SPARK-20232 ] - 更好的combineByKey文档:澄清内存分配,更好的例子
  • [ SPARK-20245 ] - 直接输出到LogicalRelation
  • [ SPARK-20253 ] - 从生成的Java代码中的Spark运行时程序中删除不必要的null检查返回值
  • [ SPARK-20255 ] - FileIndex层次结构不一致
  • [ SPARK-20265 ] - 改进Prefix'span的预处理效率
  • [ SPARK-20284 ] - 使SerializationStream和DeserializationStream扩展关闭
  • [ SPARK-20289 ] - 使用StaticInvoke而不是NewInstance来打包原始类型
  • [ SPARK-20302 ] - 从型式到类型的短路铸造结构相同
  • [ SPARK-20303 ] - 将createTempFunction重命名为registerFunction
  • [ SPARK-20304 ] - AssertNotNull不应包含字符串表示中的路径
  • [ SPARK-20316 ] - 在SparkSQLCLIDriver中,val和var应严格遵循Scala语法
  • [ SPARK- 20344] - 在FairSchedulableBuilder.addTaskSetManager中重复调用
  • [ SPARK-20350 ] - 在布尔表达式简化期间应用互补定律
  • [ SPARK-20360 ] - 创建repr功能,供口译员使用
  • [ SPARK-20385 ] - “提交的时间”字段,日期格式需要格式化,在主服务器ui中运行驱动程序表或完成的驱动程序表
  • [ SPARK-20391 ] - 在ExecutorSummary REST API中正确重命名内存相关的字段
  • [ SPARK-20400 ] - 从Spark ASF文档中删除对第三方供应商的引用
  • [ SPARK-20401 ] - 在火花官方配置文档中,“spark.driver.supervise”配置参数规范和默认值是必需的。
  • [ SPARK-20404 ] - 从1.6迁移到2.x时使用累加器名称进行回归
  • [ SPARK-20409 ] - 如果GROUP BY中的聚合函数出现故障,则早期失败
  • [ SPARK-20410 ] - 使SparkConf成为一个def而不是在SharedSQLContext中的val
  • [ SPARK-20420 ] - 将事件添加到外部目录
  • [ SPARK-20423 ] - 在reg == 0时修复MLOR coeffs居中
  • [ SPARK-20426 ] - OneForOneStreamManager占用太多的内存。
  • [ SPARK-20449 ] - 将微风版升级到0.13.1
  • [ SPARK-20465 ] - 当临时目录无法获取/创建时,抛出正确的异常而不是ArrayIndexOutOfBoundsException
  • [ SPARK-20487 ] - “HiveTableScan”节点在解释计划中是相当冗长的
  • [ SPARK-20492 ] - 请勿在解析器中为无效的基本类型打印空的括号
  • [ SPARK- 20521] - spark-standalone.md中的“spark.worker.cleanup.appDataTtl”的默认值应为604800。
  • [ SPARK-20523 ] - 清理2.2.0版本的构建警告
  • [ SPARK-20554 ] - 删除scala.language.reflectiveCalls的用法
  • [ SPARK-20587 ] - 提高ML ALS推荐性能
  • [ SPARK-20588 ] - from_utc_timestamp导致瓶颈
  • [ SPARK-20600 ] - KafkaRelation应该漂亮地打印在Web UI中(查询的详细信息)
  • [ SPARK-20606 ] - ML 2.2 QA:删除ML的不推荐使用的方法
  • [ SPARK-20621 ] - 删除'spark-env.sh'中已弃用的配置参数
  • [ SPARK-20627 ] - 删除pip本地版本字符串(PEP440)
  • [ SPARK-20669 ] - LogisticRegression系列应该不区分大小写
  • [ SPARK-20674 ] - 支持将UserDefinedFunction注册为UDF
  • [ SPARK-20677 ] - 清理ALS推荐所有改进代码。
  • [ SPARK-20707 ] - ML不推荐使用的API应在主要版本中删除。
  • [ SPARK-20710 ] - 支持CUBE / ROLLUP / GROUPING SETS中的别名
  • [ SPARK-20741 ] - 在将spark_libs上传到分布式缓存后,SparkSubmit不会清理
  • [ SPARK-20759 ] - _config.yml中的SCALA_VERSION,LICENSE和Dockerfile应与pom.xml一致
  • [ SPARK-20764 ] - 修正LR和GLR中numInstances和degreesOfFreedom的可见性差异 - Python版本
  • [ SPARK-20768 ] - PySpark FPGrowth不公开numPartition(专家)参数
  • [ SPARK-20776 ] - 修复JobProgressListener perf。空的TaskMetrics初始化引起的问题
  • [ SPARK-20796 ] - spark-standalone.md中的start-master.sh的位置是错误的
  • [ SPARK-20854 ] - 扩展提示语法以支持任何表达式,而不仅仅是标识符或字符串
  • [ SPARK-20857 ] - 通用解析提示节点
  • [ SPARK-20861 ] - Pyspark CrossValidator和TrainValidationSplit应该将参数循环委托给估计器
  • [ SPARK-20868 ] - UnsafeShuffleWriter应验证FileChannel.transferTo之后的位置
  • [ SPARK-20907 ] - 使用testQuietly生成长日志输出的测试套件
  • [ SPARK-20942 ] - 关于字段的标题样式是历史服务器web ui中的错误。
  • [ SPARK-20955 ] - “TaskUIData”中有很多重复的“executorId”字符串
  • [ SPARK-20967 ] - SharedState.externalCatalog并不是真的很懒惰
  • [ SPARK-21060 ] - 关于分页功能的Css风格是执行器页面中的错误。
  • [ SPARK-21072 ] - `TreeNode.mapChildren`只应用于子节点。
  • [ SPARK-21090 ] - 优化统一的内存管理器代码
  • [ SPARK-21210 ] - 用于ML共享参数特征的Javadoc 8修复

新功能

  • [ SPARK-10643 ] - 支持客户端模式下的远程应用下载spark提交
  • [ SPARK-13​​568 ] - 创建特征变换器来估算缺失值
  • [ SPARK-14471 ] - 在SELECT中创建的别名可以在GROUP BY和后续表达式中使用
  • [ SPARK-14709 ] - 用于线性SVM的spark.ml API
  • [ SPARK-14975 ] - 针对渐变增强树的每个训练实例的预测概率
  • [ SPARK-15040 ] - PySpark暗示ml.feature.Imputer
  • [ SPARK-15352 ] - 拓扑识别块复制
  • [ SPARK-16122 ] - Spark History Server REST API每个应用程序缺少环境端点
  • [ SPARK-16554 ] - Spark应该在黑名单时杀死执行者
  • [ SPARK-17471 ] - 为Matrix类添加压缩方法
  • [ SPARK-17629 ] - 为spark.ml添加本地版本的Word2Vec findSynonyms
  • [ SPARK-17645 ] - 添加基于以下特征选择器方法:False Discovery Rate(FDR)和Family Wise错误率(FWE)
  • [ SPARK-17711 ] - 压缩执行器日志
  • [ SPARK-18080 ] - 区域敏感哈希(LSH)Python API
  • [ SPARK-18127 ] - 向Spark添加钩子和扩展点
  • [ SPARK-18234 ] - 结构化流中的更新模式
  • [ SPARK-18350 ] - 支持会话本地时区
  • [ SPARK-18352 ] - 解析正常的多行JSON文件(不仅仅是JSON行)
  • [ SPARK-18537 ] - 添加REST api以启动流
  • [ SPARK-18682 ] - Kafka的批量来源
  • [ SPARK-18702 ] - input_file_block_start和input_file_block_length函数
  • [ SPARK-18775 ] - 限制每个文件写入的最大记录数
  • [ SPARK-18788 ] - 将getNumPartitions()添加到SparkR
  • [ SPARK-18821 ] - 在SparkR中对k-means包装进行二次分割
  • [ SPARK-18929 ] - 在GLM中添加Tweedie分发
  • [ SPARK-19067 ] - mapGroupsWithState - 结构化流式的任意状态操作(类似于DStream.mapWithState)
  • [ SPARK-19139 ] - 基于AES的Spark认证机制
  • [ SPARK-19336 ] - LinearSVC Python API
  • [ SPARK-19456 ] - 添加LinearSVC R API
  • [ SPARK-19495 ] - 使SQLConf稍微更可扩展
  • [ SPARK-19497 ] - 具有水印的dropDuplicates
  • [ SPARK-19535 ] - ALSModel推荐所有类似物
  • [ SPARK-19549 ] - 允许提供舞台/职位取消的理由
  • [ SPARK-19607 ] - 查找与提供的executionId匹配的QueryExecution
  • [ SPARK-19633 ] - FileSource从FileSink读取
  • [ SPARK-19637 ] - 将to_json API添加到SQL
  • [ SPARK-19669 ] - 打开sharedState,sessionState和其他一些功能的可见性
  • [ SPARK-19702 ] - 在Mesos Spark Dispatcher中增加缓存超时时间
  • [ SPARK-19715 ] - 在FileSource中剥离路径的选项
  • [ SPARK-19716 ] - 数据集应允许数组中的结构类型元素的名称解析
  • [ SPARK-19719 ] - 结构化流写入卡夫卡
  • [ SPARK-19911 ] - 为Kinesis DStreams添加构建器界面
  • [ SPARK-19967 ] - 将from_json API添加到SQL
  • [ SPARK-20040 ] - 用于ml.stat.ChiSquareTest的Python API
  • [ SPARK-20047 ] - 约束逻辑回归
  • [ SPARK-20134 ] - SQLMetrics.postDriverMetricUpdates以简化驱动程序的度量更新
  • [ SPARK-20283 ] - 添加preOptimizationBatches
  • [ SPARK-20300 ] - 用于ALSModel.recommendForAllUsers的项目的Python API
  • [ SPARK-20576 ] - 在Dataset / DataFrame中支持通用提示功能
  • [ SPARK-20979 ] - 添加一个费率来生成测试和基准值

  • [ SPARK-12837 ] - 即使没有向驱动程序收集数据,Spark驱动程序也需要大量的内存空间用于序列化的结果
  • [ SPARK-18823 ] - 通过列名称变量分配不可用或错误?

任务

  • [ SPARK-14453 ] - 删除SPARK_JAVA_OPTS环境变量
  • [ SPARK-18695 ] - Bump主分支版本为2.2.0-SNAPSHOT
  • [ SPARK-18973 ] - 删除SortPartitions和RedistributeData
  • [ SPARK-20421 ] - MarkProjectProgressListener(和相关类)已被弃用
  • [ SPARK-20844 ] - 从API和文档中删除实验
  • [ SPARK-20888 ] - 文档HiveCaseSensitiveInferenceMode.INFER_AND_SAVE在Spark SQL 2.1到2.2迁移注释
  • [ SPARK-20980 ] - 将JSON文件和CSV文件的“fullFile”选项重命名为“multiLine”

测试

  • [ SPARK-17772 ] - 添加帮助测试方法进行加权
  • [ SPARK-18066 ] - 为FIFO和FAIR调度程序添加池使用策略测试覆盖
  • [ SPARK-18117 ] - 添加TaskSchedulerImpl与TaskSetBlacklist的交互测试
  • [ SPARK-18692 ] - 测试Java 8 unidoc建立在Jenkins主生成器上
  • [ SPARK-18846 ] - 修改SchedulerIntegrationSuite中的flakiness
  • [ SPARK-18868 ] - 片状测试:StreamingQueryListenerSuite
  • [ SPARK-18900 ] - 片状测试:StateStoreSuite.maintenance
  • [ SPARK-18904 ] - 合并两个FileStreamSourceSuite文件
  • [ SPARK-19022 ] - 根据不同的换行字符修复与操作系统相关的测试
  • [ SPARK-19113 ] - 修复片断测试:oassql.streaming.StreamSuite源的致命错误应发送给用户
  • [ SPARK-19235 ] - 启用带有Hive Metastore的DDLSuite中的测试用例
  • [ SPARK-19382 ] - 在LinearSVCSuite中测试稀疏向量
  • [ SPARK-19481 ] - 修复片断测试:oasrepl.ReplSuite应该克隆并清除ClosureCleaner中的行对象
  • [ SPARK-19597 ] - ExecutorSuite应该测试非脱盐性的任务
  • [ SPARK-19670 ] - 启用无桌面阅读和写入测试,不支持Hive
  • [ SPARK-19816 ] - DataFrameCallbackSuite不恢复日志级别
  • [ SPARK-19988 ] - 片状测试:OrcSourceSuite SPARK-19459 / SPARK-18220:读取由hive写的char / varchar列
  • [ SPARK-20105 ] - 在R中的structField中添加checkType和类型字符串的测试
  • [ SPARK-20189 ] - 修复火花运动检查案例,以删除不建议使用的createStream并使用Builders
  • [ SPARK-20282 ] - Flaky测试:org.apache.spark.sql.streaming / StreamingQuerySuite / OneTime_trigger__commit_log__and_exception
  • [ SPARK-20301 ] - StreamingAggregationSuite中的Flakiness
  • [ SPARK- 20397] - 片状测试:test_streaming.R.由错误引发
  • [ SPARK- 20571] - Flaky SparkR StructuredStreaming测试
  • [ SPARK-20596 ] - 改进ALS推荐所有测试用例
  • [ SPARK-20603 ] - Flaky测试:oassql.kafka010.KafkaSourceSeite使用Spark 2.1.0对初始偏移进行反序列化
  • [ SPARK-20667 ] - 完成sql / core和sql / hive软件包后,清理目录元数据
  • [ SPARK-20957 ] - Flaky测试:oassql.streaming.StreamingQueryManagerSuite列表
  • [ SPARK-21111 ] - 修复2.2中的测试失败

雨伞

  • [ SPARK-14567 ] - 将仪器日志添加到MLlib训练算法
  • [ SPARK-18813 ] - MLlib 2.2路线图
  • [ SPARK-20499 ] - Spark MLlib,GraphX 2.2 QA伞
  • [ SPARK-20508 ] - Spark R 2.2 QA伞

二、官方博客

https://databricks.com/blog/2017/07/11/introducing-apache-spark-2-2.html

今天我们很高兴地宣布在Databricks中提供Apache Spark 2.2.0作为Databricks Runtime 3.0的一部分。

 

该版本标志着结构化流式传输的一个重要里程碑,将其标记为生产就绪并删除了实验标签。在此版本中,我们还支持流中的任意状态操作,Apache Kafka 0.10支持使用流和批处理API进行读写。除了向SparkR,Python,MLlib和GraphX提供新功能外,该版本还专注于可用性,稳定性和细化,解决了1100张票。

本博客讨论了一些高级别更改,改进和错误修复:

  • 生产就绪结构化流
  • 扩展SQL功能
  • R中新的分布式机器学习算法
  • MLlib和GraphX中的其他算法

结构化流

在Spark 2.0中引入了Structured Streaming,它是用于构建连续应用程序的高级API 。我们的目标是使得更容易构建端到端流应用程序,它们以一致和容错的方式与存储,服务系统和批处理作业集成。

Spark 2.2中的第三个版本,Spark 2.2声明了Structured Streaming作为生产准备就绪,意味着删除实验标签,并附加了高级别的更改:

  • 卡夫卡源和汇:支持从Apache Kafka流式传输或批量读取和写入数据
  • 卡夫卡改进:缓存的生产者为低延迟卡夫卡到卡夫卡流
  • 附加状态API:使用[flat] MapGroupsWithState支持复杂的状态处理和超时
  • 运行一次触发器:允许仅触发一次执行,从而降低集群成本

在Databricks,我们宗教信仰dogfooding。使用Spark 2.2版本的候选版本,我们已经移植了部分内部数据管道,并与一些客户合作,使用结构化流式传输生产流水线。

SQL和Core API

自从Spark 2.0发布以来,Spark现在是Big Data领域功能最丰富且符合标准的SQL查询引擎之一。它可以连接到各种数据源,并执行SQL-2003功能集,如分析功能和子查询。Spark 2.2增加了许多SQL功能:

  • API更新:统一数据源和hive serde表的CREATE TABLE语法,并为SQL查询添加广播提示,如BROADCAST,BROADCASTJOIN和MAPJOIN
  • 总体性能和稳定性:
    • 基于成本优化器的过滤器,连接,聚合,项目和限制/样本运算符的基数估计和基于成本的连接重新排序
    • 使用星型模式启发式的TPC-DS性能提升
    • CSV和JSON文件列表/ IO改进
    • HiveUDAFF功能的部分聚合支持
    • 引入基于JVM对象的聚合运算符
  • 其他显着变化:
    • 支持解析多行JSON和CSV文件
    • 分析分区表上的表命令
    • 完成插入/ CTAS对Hive-serde表之后的分期目录和数据文件

MLlib,SparkR和Python

Spark 2.2的最后一大变化主要集中在高级分析和Python。现在您可以使用pip install 从PyPI软件包安装PySpark。为了推动高级分析,MLlib和GraphX中添加了几种新算法:

  • 地点敏感哈希
  • 多类逻辑回归
  • 个性化PageRank

Spark 2.2还增加了对SparkR中以下分布式算法的支持:

  • ALS
  • 等式回归
  • 多层感知器分类器
  • 随机森林
  • 高斯混合模型
  • LDA
  • 多类逻辑回归
  • 梯度增强的树木
  • R的结构化流式API
  • 列函数to_json,from_json为R
  • 多列大约在R中

随着这些算法的添加,SparkR已经成为最全面的分布式机器学习库。

虽然此博客文章仅涵盖了此版本中的一些主要功能,您可以阅读官方发行说明,以查看完整的更改列表。

你可能感兴趣的:(spark)