新功能
· [ SPARK-3181 ] - 使用Huber估计器添加鲁棒回归算法
· [ SPARK-4131 ] - 支持“通过查询将数据写入文件系统”
· [ SPARK-12139 ] - Hive查询的REGEX列规范
· [ SPARK-14516 ] - 聚类评估器
· [ SPARK-15689 ] - 数据源API v2
· [ SPARK-15767 ] - SparkR中的决策树回归封装
· [ SPARK-16026 ] - 基于成本的优化器框架
· [ SPARK-16060 ] - 矢量化的ORC阅读器
· [ SPARK-16742 ] - Kerosos支持Mesos上的Spark
· [ SPARK-18710 ] - 为GeneralizedLinearRegression模型添加偏移量
· [ SPARK-19507 ] - pyspark.sql.types._verify_type()异常过于广泛,无法调试集合或嵌套数据
· [ SPARK-19606 ] - 支持spark-dispatcher中的约束
· [ SPARK-20090 ] - 将StructType.fieldNames添加到Python API
· [ SPARK-20542 ] - 在Bucketizer中添加一个API,可以一次处理大量的列
· [ SPARK-20601 ] - 约束Logistic回归参数的Python API更改
· [ SPARK-20703 ] - 添加一个用于写入数据的操作符
· [ SPARK-20812 ] - 向火花调度器添加Mesos Secrets支持
· [ SPARK-20863 ] - 将度量/工具添加到LiveListenerBus
· [ SPARK-20892 ] - 将SQL trunc函数添加到SparkR
· [ SPARK-20899 ] - PySpark在RFormula中支持stringIndexerOrderType
· [ SPARK-20917 ] - SparkR支持与R一致的字符串编码
· [ SPARK-20953 ] - 添加哈希映射指标以进行聚合和连接
· [ SPARK-20960 ] - 使ColumnVector公开
· [ SPARK-20979 ] - 添加费率来源以生成测试和基准值
· [ SPARK-21000 ] - 将Mesos标签支持添加到SparkDispatcher
· [ SPARK-21027 ] - 并行一个与剩余分类器
· [ SPARK-21043 ] - 将unionByName API添加到数据集
· [ SPARK-21092 ] - 在逻辑计划和表达式中连线SQLConf
· [ SPARK-21208 ] - 在sparkR中可以从sc获得“setLocalProperty”
· [ SPARK-21221 ] - CrossValidator和TrainValidationSplit持续嵌套估计器,如OneVsRest
· [ SPARK-21310 ] - 向PySpark GLM添加偏移量
· [ SPARK-21421 ] - 将查询ID添加为本地属性,以允许源和汇使用它
· [ SPARK-21468 ] - FeatureHasher Python API
· [ SPARK-21499 ] - 支持为Spark UDAF(UserDefinedAggregateFunction)创建持久性功能
· [ SPARK-21519 ] - 向JDBC数据源添加一个选项以初始化远程数据库会话的环境
· [ SPARK-21542 ] - 自定义Python持久性的辅助函数
· [ SPARK-21633 ] - Python中的一元变换器
· [ SPARK-21726 ] - 在测试模式下检查QO中计划的结构完整性
· [ SPARK-21777 ] - 更简单的数据集。示例API
· [ SPARK-21840 ] - 在同一JVM中允许多个SparkSubmit调用,而不会污染系统属性
· [ SPARK-21842 ] - 在Mesos中支持Kerberos票据更新和创建
· [ SPARK-21854 ] - MLOR汇总的Python界面
· [ SPARK-21911 ] - ML调整的并行模型评估:PySpark
· [ SPARK-22131 ] - 将Mesos Secrets支持添加到Mesos驱动程序
· [ SPARK-22160 ] - 允许在范围洗牌交换中更改每个分区的采样点
· [ SPARK-22181 ] - 如果其中一个或两个数据集完全从同一家长的过滤器中派生出来,请将ReplaceExceptWithFilter替换
· [ SPARK-22456 ] - 添加新的功能dayofweek
· [ SPARK-22521 ] - VectorIndexerModel支持通过handleInvalid:Python API处理未注册的类别
· [ SPARK-22734 ] - VectorSizeHint Python API
· [ SPARK-22781 ] - 支持使用ORC文件创建流式数据集
· [ SPARK-23008 ] - OnehotEncoderEstimatorpython API
Improvement
· [ SPARK-7481 ] - 添加spark-hadoop-cloud模块以吸引对象存储支持
· [ SPARK-9221 ] - 支持范围框中的IntervalType
· [ SPARK-10216 ] - 避免在用群组查询的方式覆盖到Hive表中时创建空文件
· [ SPARK-10655 ] - 增强DB2语言来处理XML,DECIMAL和DECFLOAT
· [ SPARK-10931 ] - PySpark ML模型应该包含Param值
· [ SPARK-11574 ] - Spark应该支持StatsD沉箱
· [ SPARK-12664 ] - 在MultilayerPerceptronClassificationModel中暴露概率rawPrediction
· [ SPARK- 13030] - 将OneHotEncoder更改为估算器
· [ SPARK-13041 ] - 在每个驱动程序的调度程序的ui页面上添加驱动程序历史记录ui链接和mesos沙箱链接
· [ SPARK-13656 ] - 删除spark.sql.parquet.cacheMetadata
· [ SPARK-13846 ] - 未知特征上的VectorIndexer输出应该更具描述性
· [ SPARK-13947 ] - 使用无效表引用的错误消息不明确
· [ SPARK- 14371] - OnlineLDAOptimizer不应该为每个文档以小批量方式向驱动程序收集统计信息
· [ SPARK-14659 ] - OneHotEncoder支持在编码矢量中按字母顺序放置第一个类别
· [ SPARK- 14932] - 允许DataFrame.replace()用None替换值
· [ SPARK-15648 ] - 添加TeradataDialect
· [ SPARK-16019 ] - 消除纱线工作启动时发生的意外延迟
· [ SPARK-16496 ] - 添加全文作为阅读SQL中的文本的选项。
· [ SPARK- 16931] - PySpark访问数据帧分段API
· [ SPARK-16957 ] - 使用加权中点作为分割值。
· [ SPARK-17006 ] - 随着列表性能随着调用次数而下降
· [ SPARK-17310 ] - 在普通地板阅读器中禁用Parquet的逐记录过滤器,并在Spark端执行
· [ SPARK-17414 ] - 设置类型不支持创建数据帧
· [ SPARK-17701 ] - 重构DataSourceScanExec,使其sameResult调用不会比较字符串
· [ SPARK-17924 ] - 合并流式传输和批量写入路径
· [ SPARK-18136 ] - 使PySpark pip安装在Windows上工作
· [ SPARK-18540 ] - ORC Hive表的全部代码
· [ SPARK-18619 ] - 使QuantileDiscretizer / Bucketizer /StringIndexer从HasHandleInvalid继承
· [ SPARK-18623 ] - 将` returnNullable`添加到`StaticInvoke`并修改它以正确处理。
· [ SPARK-18838 ] - 大型作业事件处理的高延迟
· [ SPARK-18891 ] - 支持特定的集合类型
· [ SPARK-19112 ] - 为ZStandard添加编解码器
· [ SPARK-19159 ] - PySpark UDF API改进
· [ SPARK-19236 ] - 添加createOrReplaceGlobalTempView
· [ SPARK-19270 ] - 将汇总表添加到GLM摘要中
· [ SPARK-19285 ] - Java - 提供0个参数的用户自定义函数(UDF0)
· [ SPARK-19358 ] - LiveListenerBus在由于全部填充的队列而丢弃时记录事件名称
· [ SPARK-19439 ] - PySpark的registerJavaFunction应该支持UDAF
· [ SPARK-19552 ] - 将Netty版本升级到4.1.xfinal
· [ SPARK-19558 ] - 提供将QueryExecutionListener附加到SparkSession的配置选项
· [ SPARK-19732 ] - DataFrame.fillna()不适用于PySpark中的bools
· [ SPARK-19759 ] - 数据框上的ALSModel.predict:不使用blas的潜在优化
· [ SPARK-19852 ] - StringIndexer.setHandleInvalid应该有另一个选项'new':Python API和文档
· [ SPARK-19866 ] - 为spark.ml添加本地版本的Word2Vec findSynonyms:Python API
· [ SPARK-19878 ] - 在InsertIntoHiveTable.scala中初始化配置单元serde时添加配置单元配置
· [ SPARK-19937 ] - 在洗牌时收集块大小的度量。
· [ SPARK-19951 ] - 添加字符串连接运算符|| 到Spark SQL
· [ SPARK-19975 ] - 将map_keys和map_values函数添加到Python
· [ SPARK-20014 ] - 优化mergeSpillsWithFileStream方法
· [ SPARK-20073 ] - 将eqNullSafe与派生表结合使用时出现意外的笛卡儿积
· [ SPARK-20101 ] - 当“spark.sql.columnVector.offheap.enable”设置为“true”时使用OffHeapColumnVector
· [ SPARK-20109 ] - 需要将IndexedRowMatrix转换为密集块矩阵的方法
· [ SPARK-20168 ] - 启用kinesis从时间戳指定的初始位置开始流式传输
· [ SPARK-20199 ] - GradientBoostedTreesModel没有featureSubsetStrategy参数
· [ SPARK-20236 ] - 覆盖分区数据源表应该只覆盖相关的分区
· [ SPARK-20290 ] - PySpark列应提供eqNullSafe
· [ SPARK-20307 ] - SparkR:将setHandleInvalid传递给使用StringIndexer的spark.mllib函数
· [ SPARK-20331 ] - 扩大对Hive分区修剪谓词下推的支持
· [ SPARK-20350 ] - 在布尔表达式简化过程中应用互补法则
· [ SPARK-20355 ] - 在历史页面上显示Spark版本
· [ SPARK-20371 ] - R包装collect_list和collect_set
· [ SPARK-20375 ] - R包装数组和地图
· [ SPARK-20376 ] - 使StateStoreProvider可插入
· [ SPARK-20379 ] - 允许通过env变量设置与SSL相关的密码
· [ SPARK-20383 ] - SparkSQL不支持用关键字'OR REPLACE'和'IF NOT EXISTS'来创建函数
· [ SPARK-20392 ] - 调用ML流水线时,对于列数很多但行数很少的数据集调用适合性会降低
· [ SPARK-20416 ] - SQL与数据集中的UDF列名称不一致
· [ SPARK-20425 ] - 支持扩展显示模式,每行打印一列数据
· [ SPARK-20431 ] - 在DataFrameReader.schema中支持DDL格式的字符串
· [ SPARK-20433 ] - 将jackson-databind更新到2.6.7.1
· [ SPARK-20437 ] - R包装rollup和立方体
· [ SPARK-20438 ] - R包装分裂和重复
· [ SPARK-20460 ] - 使其更加一致地处理列名重复
· [ SPARK-20463 ] - 将对 IS [NOT]DISTINCT FROM的支持添加到SPARK SQL
· [ SPARK-20484 ] - 将文档添加到ALS代码
· [ SPARK-20490 ] - 添加eqNullSafe,不是和!到SparkR
· [ SPARK-20493 ] - 为R中的DDL类型字符串取消de-deuplicate解析逻辑
· [ SPARK-20495 ] - 将StorageLevel添加到cacheTable API
· [ SPARK-20519 ] - 当输入参数为空时,可能会发生运行时异常
· [ SPARK-20532 ] - SparkR应提供分组和grouping_id
· [ SPARK-20533 ] - SparkR包装模型应该是私有的,价值应该是懒惰的
· [ SPARK-20535 ] - 用于explode_outer和posexplode_outer的R包装器
· [ SPARK-20544 ] - input_file_name的R wrapper
· [ SPARK-20550 ] - Dataset.alias的 R包装器
· [ SPARK-20557 ] - JdbcUtils不支持java.sql.Types.TIMESTAMP_WITH_TIMEZONE
· [ SPARK-20566 ] - ColumnVector应该支持`appendFloats`数组
· [ SPARK-20599] - ConsoleSink应该使用写入(批处理)
· [ SPARK-20614 ] - 在AppVeyor中与Jenkins使用相同的log4j配置
· [ SPARK-20619 ] - StringIndexer支持多种标签排序方式
· [ SPARK-20639 ] - 在SQL中为to_timestamp添加单参数支持
· [ SPARK-20668 ] - 修改ScalaUDF来处理可空性。
· [ SPARK-20670 ] - 简化FPGrowth变换
· [ SPARK-20679 ] - 让ML ALS为用户/项目的一个子集推荐
· [ SPARK-20682 ] - 基于Apache ORC添加新的ORCFileFormat
· [ SPARK-20715 ] - MapStatuses不应重复存储在ShuffleMapStage和MapOutputTracker中
· [ SPARK-20720 ] - '执行者摘要'应显示确切的数字,'已移除的执行者'应显示具体的数字,在应用程序页面
· [ SPARK-20726 ] - 用于SQL广播的R封装器
· [ SPARK-20728 ] - 在sql / hive和sql/ core之间配置ORCFileFormat
· [ SPARK-20730 ] - 添加新的优化程序规则以组合嵌套的Concats
· [ SPARK-20736 ] - PySpark StringIndexer支持StringOrderType
· [ SPARK-20758 ] - 添加常量传播优化
· [ SPARK-20775 ] - from_json也应该有一个API,其中模式用字符串指定
· [ SPARK-20779 ] - 在某些文件中,ASF标题放置在不正确的位置
· [ SPARK-20785 ] - Spark应提供跳转链接并在SQL Web UI中添加(计数)。
· [ SPARK-20806 ] - 启动器:重新检查Spark lib目录
· [ SPARK-20830 ] - 用于explode_outer和posexplode_outer的PySpark包装器
· [ SPARK-20835 ] - 当提交应用程序时,--total-executor-cores参数设置为小于0时,应直接退出
· [ SPARK-20841 ] - 支持FROM子句中的表列别名
· [ SPARK-20842 ] - 升级到Hive Metastore Client 1.2的1.2.2
· [ SPARK-20849 ] - 文档R DecisionTree
· [ SPARK-20861 ] - Pyspark CrossValidator&TrainValidationSplit应将参数循环委托给估计器
· [ SPARK-20871 ] - 只在调试模式下记录Janino码
· [ SPARK-20875 ] - 当目录被删除时,Spark应该打印日志
· [ SPARK-20883 ] - 提高StateStore API的效率
· [ SPARK-20886 ] - 如果FileOutputCommitter.getWorkPath ==null,HadoopMapReduceCommitProtocol将失败并显示消息
· [ SPARK-20887 ] - 在ConfigBuilder中支持备用密钥
· [ SPARK-20894 ] - 检查HDFS时出错
· [ SPARK-20918 ] - 在FunctionRegistry中使用FunctionIdentifier作为函数标识符
· [ SPARK-20930 ] - 计算成本后摧毁广播中心
· [ SPARK-20936 ] - 关于resolveURI测试的一个重要案例缺乏
· [ SPARK-20946 ] - 不要更新SparkSession.getOrCreate中的现有SparkContext的conf
· [ SPARK- 20950] - 将一个新配置添加到之前硬编码的diskWriteBufferSize
· [ SPARK-20966 ] - 表格数据未按startTime time desc排序,时间未格式化,并且在JDBC / ODBC Server页面中存在冗余代码。
· [ SPARK-20972 ] - 将HintInfo.isBroadcastable重命名为广播
· [ SPARK-20981 ] - 为Spark添加 - 存储库等效配置
· [ SPARK- 20985] - 改进KryoSerializerResizableOutputSuite
· [ SPARK-20994 ] - 缓解StreamManager中的内存压力
· [ SPARK-20995 ] - 'Spark-env.sh.template'应该添加'YARN_CONF_DIR'配置指令。
· [ SPARK-21012 ] - 支持向Spark添加资源的glob路径
· [ SPARK-21039 ] - 在DataFrame.stat.bloomFilter中使用treeAggregate而不是聚合
· [ SPARK-21060 ] - 关于分页功能的Css风格在执行程序页面中是错误的。
· [ SPARK- 21070] - 从cloudpickle python模块中挑选云端升级
· [ SPARK-21091 ] - 将约束代码移入QueryPlanConstraints
· [ SPARK-21100 ] - 添加摘要方法作为替代方法来描述给出与熊猫类似的四分位数
· [ SPARK-21103 ] - QueryPlanConstraints应该是LogicalPlan的一部分
· [ SPARK-21110 ] - 结构应该可用于不等式过滤器
· [ SPARK-21113 ] - 支持预读输入流,以在溢出阅读器中分摊磁盘IO成本
· [ SPARK-21115 ] - 如果剩下的核心数量少于coresPerExecutor,剩下的核心将不会被分配,因此它不应该检查每个时间表
· [ SPARK- 21125] - PySpark上下文缺失功能来设置职位描述。
· [ SPARK-21135 ] - 在历史记录服务器页面上,应该隐藏未完成应用程序的持续时间,而不是显示为0
· [ SPARK-21137 ] - Spark从本地文件系统缓慢读取许多小文件
· [ SPARK-21142 ] -spark-streaming-kafka-0-10对kafka的依赖程度太高
· [ SPARK-21146 ] - 任何线程获取UncaughtException时,主/工应处理并关闭
· [ SPARK-21149 ] - 为R添加作业描述API
· [ SPARK-21153 ] - 滚动窗口的时间窗口可以使用项目而不是展开+过滤器
· [ SPARK-21155 ] - 将(运行中的任务)添加到Spark UI进度中
· [ SPARK-21164 ] - 从Sample中删除isTableSample,并从Alias和AttributeReference中生成
· [ SPARK-21174 ] - 验证逻辑运算符级别的采样分数
· [ SPARK-21175 ] - 如果已有很多请求正在进行,shuffle服务应拒绝提取请求
· [ SPARK-21189 ] - 处理Jenkins中的未知错误代码,而不是在PR中留下不完整的评论
· [ SPARK-21192 ] - 通过StreamingQuery重新启动保留State Store提供程序类的配置
· [ SPARK-21193 ] - 在setup.py中指定Pandas版本
· [ SPARK-21196 ] - 将查询计划的codegen信息分解为序列
· [ SPARK-21217 ] - 支持ColumnVector.Array.to
· [ SPARK-21222 ] - 从分析器到优化器中移除 Distinct子句
· [ SPARK-21229 ] - 删除QueryPlan.preCanonicalized
· [ SPARK-21238 ] - 允许嵌套的SQL执行
· [ SPARK-21240 ] - 修复了在UT中构造和停止SparkContext的代码风格
· [ SPARK-21243 ] - 限制一次洗牌提取中的地图数量
· [ SPARK-21247 ] - 类型比较应尊重区分大小写的SQL配置
· [ SPARK-21250 ] - 在工作页面的'运行执行程序'表中添加一个URL以访问作业页面
· [ SPARK-21256 ] - 添加WithSQLConf到Catalyst测试
· [ SPARK-21260 ] - 删除未使用的OutputFakerExec
· [ SPARK-21266 ] - 支持在dapply / gapply / from_json中架构一个DDL格式的字符串
· [ SPARK-21267 ] - 对结构化流媒体节目指南的改进
· [ SPARK-21268 ] - 将中心计算移至KMeans中的分布式地图
· [ SPARK-21273 ] - 从逻辑计划中分离统计传播
· [ SPARK-21275 ] - 更新GLM测试以使用supportedFamilyNames
· [ SPARK-21276 ] - 更新lz4-java删除自定义的LZ4BlockInputStream
· [ SPARK- 21285] - VectorAssembler应在不支持使用的数据类型时报告列名
· [ SPARK-21295 ] - 混淆错误消息以查找缺失的引用
· [ SPARK-21296 ] - 避免PySpark createDataFrame模式验证中的每个记录类型分派
· [ SPARK-21297 ] - 在“JDBC / ODBC服务器”页面添加计数。
· [ SPARK-21304 ] - 删除与收集相关的编码器表达式不必要的isNull变量
· [ SPARK-21305 ] - 使用原生BLAS改善ML/ MLLIB性能的BKM(最为人所知的方法)
· [ SPARK-21308 ] - 从优化器中删除SQLConf参数
· [ SPARK-21313 ] - ConsoleSink的字符串表示
· [ SPARK-21315 ] - 在ExternalAppendOnlyUnsafeRowArray中的generateIterator(startIndex)时跳过一些溢出文件。
· [ SPARK-21321 ] - 关机时Spark非常详细,令用户感到困惑
· [ SPARK-21323 ] - 将sql.catalyst.plans.logical.statsEstimation.Range重命名为ValueInterval
· [ SPARK-21326 ] - 在实现LibSVMFileFormat时使用TextFileFormat
· [ SPARK-21329 ] - 显式创建EventTimeWatermarkExecUnaryExecNode
· [ SPARK-21358 ] - 在pyspark重新分区和分区的论点
· [ SPARK-21365 ] - 重复数据逻辑解析DDL类型的定义
· [ SPARK-21373 ] - 将Jetty更新至9.3.20.v20170531
· [ SPARK-21381 ] - SparkR:为分类算法传递setHandleInvalid
· [ SPARK-21382 ] - 关于building-spark.md中Scala 2.10的说明是错误的。
· [ SPARK-21388 ] - GBT从HasThreshold继承HasStepSize&LInearSVC / Binarizer
· [ SPARK-21396 ] - Spark Hive Thriftserver不返回UDT字段
· [ SPARK-21401 ] - 为BoundedPriorityQueue添加轮询函数
· [ SPARK-21408 ] - 对于小执行程序,缺省的RPC调度程序线程池大小太大
· [ SPARK-21409 ] - 在SQL指标和进度更新中公开状态存储内存使用情况
· [ SPARK-21410 ] - 在RangePartitioner(分区:Int,rdd:RDD [])中,如果RDD中的元素数(rdd.count())小于分区数(构造函数中的分区),则RangePartitioner.numPartitions是错误的。 。
· [ SPARK-21415 ] - 分类替罪羊警告,第1部分
· [ SPARK-21434 ] - 添加PySpark pip文档
· [ SPARK-21435 ] - 在写入文件时应该跳过空文件
· [ SPARK-21472 ] - 将ArrowColumnVector作为箭头向量的读取器引入。
· [ SPARK-21475 ] - 更改为使用NIO的文件API进行外部随机播放服务
· [ SPARK-21477 ] - 标记LocalTableScanExec的输入数据瞬态
· [ SPARK-21491 ] - 性能增强:消除中间集合的创建
· [ SPARK-21504 ] - 在表元数据中添加spark版本信息
· [ SPARK-21506 ] - “spark.executor.cores”的描述可能不正确
· [ SPARK-21513 ] - SQL to_json应该支持所有列类型
· [ SPARK-21517 ] - 通过块管理器获取本地数据
· [ SPARK-21524 ] -ValidatorParamsSuiteHelpers生成错误的临时文件
· [ SPARK-21527 ] - 使用缓冲区限制以利用JAVA NIO Util的buffercache
· [ SPARK-21530 ] - 更新spark.shuffle.maxChunksBeingTransferred的描述
· [ SPARK-21538 ] - 数据集API中的属性解析不一致
· [ SPARK-21544 ] - 某些模块的测试罐不应安装或部署两次
· [ SPARK-21553 ] - 在spark-shell中添加主参数默认值的描述
· [ SPARK-21566 ] - Python方法摘要
· [ SPARK-21575 ] - 消除java-R序列化中的不必要的同步
· [ SPARK- 21578] - 添加JavaSparkContextSuite
· [ SPARK-21583 ] - 使用ArrowColumnVectors为基于行的迭代创建一个ColumnarBatch
· [ SPARK-21584 ] - 更新R方法进行总结以调用新的实现
· [ SPARK-21589 ] - 在Hive UDF / UDTF / UDAF中添加有关不支持的函数的文档
· [ SPARK-21592 ] - 在Maven构建中跳过maven-compiler-pluginmain和测试编译
· [ SPARK-21602 ] - 将map_keys和map_values函数添加到R中
· [ SPARK-21603 ] - 整个codegen会慢得多,然后整个codegen在函数太长时关闭
· [ SPARK-21604 ] - 如果对象扩展Logging,我建议删除无用的var LOG。
· [ SPARK-21608 ] - 窗口rangeBetween()API应允许字面边界
· [ SPARK-21611 ] - 用于登录几个类的错误类名称。
· [ SPARK-21619 ] - 明确规范化计划的执行失败
· [ SPARK-21622 ] - 支持SparkR中的偏移量
· [ SPARK-21623 ] - 关于ml / tree / impl /DTStatsAggregator.scala的parentStats评论是错误的
· [ SPARK-21634 ] - 将OneRowRelation从案例对象更改为案例类
· [ SPARK-21640 ] - DataFrameWriter中带有String参数的方法模式容易出错
· [ SPARK-21665 ] - 使用后需要关闭资源
· [ SPARK-21667 ] - ConsoleSink不应该使用checkpointLocation选项失败流式查询
· [ SPARK-21669 ] - 内部API,用于在FileFormatWriter作业期间收集指标/统计信息
· [ SPARK-21672 ] - 删除特定于SHS的应用程序/尝试数据结构
· [ SPARK-21675 ] - 在细节阶段页面的底部添加导航栏
· [ SPARK-21680 ] - ML / MLLIB矢量压缩优化
· [ SPARK-21694 ] - 支持Mesos CNI网络标签
· [ SPARK-21701 ] - 为RPC客户端添加TCP发送/ rcv缓冲区大小支持
· [ SPARK-21709 ] - 使用sbt 0.13.16并更新sbt插件
· [ SPARK-21717 ] - 在全阶段代码生成器中解耦运算符中消费行的生成代码
· [ SPARK-21718 ] - 重型日志类型:“基于统计信息跳过分区...”
· [ SPARK-21728 ] - 允许SparkSubmit使用日志记录
· [ SPARK-21732 ] - Lazily init配置单元Metastore客户端
· [ SPARK-21745 ] - 重构ColumnVector层次结构,使ColumnVector只读并引入WritableColumnVector。
· [ SPARK-21751 ] -CodeGeneraor.splitExpressions更精确地计算代码大小
· [ SPARK-21756 ] - 添加JSON选项以允许未加引号的控制字符
· [ SPARK-21769 ] - 为Hive-serde表添加表选项,以使Spark始终尊重由Spark SQL推断的模式
· [ SPARK-21770 ] - 概率分类模型:改进所有零原始预测的标准化
· [ SPARK-21771 ] - SparkSQLEnv创建一个无用的meta hive客户端
· [ SPARK-21773 ] - 如果在SQL文档构建中缺少路径,请安装mkdocs
· [ SPARK-21781 ] - 修改DataSourceScanExec以使用具体的ColumnVector类型。
· [ SPARK-21787 ] - 支持在本机OrcFileFormat中推送DateType的过滤器
· [ SPARK-21789 ] - 删除用于解析抽象模式字符串的过时代码
· [ SPARK-21803 ] - 删除HiveDDLCommandSuite
· [ SPARK-21806 ] -BinaryClassificationMetrics pr():第一个点(0.0,1.0)是误导性的
· [ SPARK-21807 ] - 当表达式数量大于100时,LogicalPlan中的getAliasedConstraints函数将花费很长时间
· [ SPARK-21813 ] - [core]修改TaskMemoryManager.MAXIMUM_PAGE_SIZE_BYTES评论
· [ SPARK-21839 ] - 支持ORC压缩的SQL配置
· [ SPARK-21862 ] - 在PCA中添加溢出检查
· [ SPARK-21865 ] - 简化Spark SQL的分布语义
· [ SPARK-21866 ] - SPIP:Spark中的图像支持
· [ SPARK-21871 ] - 编译生成的代码时检查实际的字节码大小
· [ SPARK-21873 ] - 从Kafka获取期间,CachedKafkaConsumer引发NonLocalReturnControl
· [ SPARK-21875 ] - Jenkins传递违反./dev/lint-java的Java代码
· [ SPARK-21878 ] - 创建SQLMetricsTestUtils
· [ SPARK-21886 ] - 使用SparkSession.internalCreateDataFrame创建具有LogicalRDD逻辑运算符的数据集
· [ SPARK-21891 ] - 将TBLPROPERTIES添加到DDL语句:CREATE TABLE USING
· [ SPARK-21897 ] - 在Python和R中添加unionByName API到DataFrame
· [ SPARK-21901 ] - 为StateOperatorProgress定义toString
· [ SPARK-21902 ] - BlockManager.doPut将在finally块中抛出异常时隐藏实际的异常
· [ SPARK-21903 ] - 将scalastyle升级到1.0.0
· [ SPARK-21923 ] - 避免为每条记录调用reserveUnrollMemoryForThisTask
· [ SPARK-21963 ] - 创建临时文件应该在使用后删除
· [ SPARK-21967 ] -org.apache.spark.unsafe.types.UTF8String#compareTo应该一次比较8个字节以获得更好的性能
· [ SPARK-21970 ] - 为冗余投影声明执行项目范围扫描
· [ SPARK-21973 ] - 添加一个新选项来过滤要在TPCDSQueryBenchmark中运行的查询
· [ SPARK-21975 ] - 基于成本的优化器中的直方图支持
· [ SPARK-21981 ] - 用于ClusteringEvaluator的Python API
· [ SPARK-21983 ] - 修复ANTLR 4.7弃用
· [ SPARK-21988 ] - 将默认统计信息添加到StreamingRelation和StreamingExecutionRelation
· [ SPARK-22001 ] - ImputerModel可以一次完成所有输入列的Column功能
· [ SPARK-22002 ] - 读取JDBC表使用自定义模式支持指定部分字段
· [ SPARK-22003 ] - 当列为数组时,矢量化阅读器不能与UDF一起工作
· [ SPARK-22009 ] - 使用treeAggregate改进一些algs
· [ SPARK-22043 ] - Python配置文件show_profiles()和dump_profiles()应该会带来更好的消息
· [ SPARK-22049 ] - 混淆from_utc_timestamp和to_utc_timestamp的行为
· [ SPARK-22050 ] - 允许BlockUpdated事件可选地记录到事件日志中
· [ SPARK-22058 ] - 如果发生异常,BufferedInputStream将不会关闭
· [ SPARK-22066 ] - 将checkstyle更新为8.2,启用它,修复违规
· [ SPARK-22072 ] - 允许将相同的shell参数用于发布 - 构建中的所有不同步骤
· [ SPARK-22075 ] - GBT忘记了不支持Checkpointer缓存的数据集
· [ SPARK-22099 ] - 需要在SQL页面中更改'作业ID'列表样式。
· [ SPARK-22103 ] - 将HashAggregateExec父级消耗移动到codegen中的单独函数
· [ SPARK-22106 ] - 删除对0参数pandas_udfs的支持
· [ SPARK-22112 ] - 将缺少的方法添加到pyspark api:spark.read.csv(Dataset
· [ SPARK-22120 ] -TestHiveSparkSession.reset()应该清理Hive仓库目录
· [ SPARK-22122 ] - 遵守WITH子句对TPCDSQueryBenchmark中的输入行进行计数
· [ SPARK-22123 ] - 添加任务集黑名单的最新失败原因
· [ SPARK-22124 ] - 样本和限制也应推迟codegen下的输入评估
· [ SPARK-22125 ] - 为矢量化UDF启用箭头流格式。
· [ SPARK-22130 ] - UTF8String.trim()无效地扫描所有空白字符串两次。
· [ SPARK-22133 ] - Document Mesos拒绝报价持续时间配置
· [ SPARK-22138 ] - 允许在发布 - 构建期间重试
· [ SPARK-22142 ] - 在配置文件后面移动Flume支持
· [ SPARK-22147 ] - BlockId.hashCode在每次调用时分配一个StringBuilder / String
· [ SPARK-22156 ] - Word2Vec:当numIterations> 1时,学习速率更新公式不正确
· [ SPARK-22170 ] - 广播连接在驱动程序内存中保存行的额外副本
· [ SPARK-22173 ] - 表格CSS样式需要在历史页面和执行者页面中进行调整。
· [ SPARK-22188 ] - 针对跨站点脚本,MIME嗅探和MitM攻击添加防御
· [ SPARK-22190 ] - 将Spark执行程序任务指标添加到Dropwizard指标
· [ SPARK-22193 ] - SortMergeJoinExec:错字更正
· [ SPARK-22203 ] - 为文件清单Spark作业添加作业说明
· [ SPARK-22208 ] - 通过不舍入targetError并从索引0开始提高percentile_approx
· [ SPARK-22214 ] - 重构列表配置单元分区代码
· [ SPARK-22217 ] - ParquetFileFormat支持任意OutputCommitters
· [ SPARK-22233 ] - 在HadoopRDD中过滤出空的InputSplit
· [ SPARK-22247 ] - Hive分区过滤非常慢
· [ SPARK-22263 ] - 重构确定性为惰性值
· [ SPARK-22266 ] - 多次评估相同的聚合函数
· [ SPARK-22268 ] - 修复java风格错误
· [ SPARK-22282 ] - 将OrcRelation重命名为OrcFileFormat并删除ORC_COMPRESSION
· [ SPARK-22294 ] - 在启动检查点时重置spark.driver.bindAddress
· [ SPARK-22301 ] - 将规则添加到优化器,其中包含空值列表
· [ SPARK-22302 ] - 删除subprocess.check_output和check_call的手动backports
· [ SPARK-22308 ] - 使用ScalaTest使用FunSuite以外的套件支持Spark代码的单元测试
· [ SPARK-22313 ] - 将不赞成使用的API的弃用警告标记为DeprecationWarning
· [ SPARK-22315 ] - 检查R包和JVM之间的版本匹配
· [ SPARK-22346 ] - 更新VectorAssembler以结合流式处理
· [ SPARK-22348 ] - 提供ColumnarBatch的表缓存也应该进行分区批量修剪
· [ SPARK-22366 ] - 支持ignoreMissingFiles标志并行于ignoreCorruptFiles
· [ SPARK-22372 ] - 使YARN客户端扩展SparkApplication
· [ SPARK-22378 ] - 生成冗余空检查以提取复杂类型中的值
· [ SPARK-22379 ] - 在PySpark SQL测试中减少重复setUpClass和tearDownClass
· [ SPARK-22385 ] - MapObjects不应按索引访问列表元素
· [ SPARK-22397 ] - 为QuantileDiscretizer添加多列支持
· [ SPARK-22405 ] - 丰富事件信息并添加ExternalCatalogEvent的新事件
· [ SPARK-22407 ] - 在存储页面添加rdd id列以加快导航
· [ SPARK-22408 ] - RelationalGroupedDataset的不同透视值计算启动不必要的阶段
· [ SPARK-22422 ] - 将调整的R2添加到RegressionMetrics
· [ SPARK-22445 ] - 将CodegenContext.copyResult移至CodegenSupport
· [ SPARK-22450 ] - 安全地注册mllib的类
· [ SPARK-22476 ] - 在R中添加新功能dayofweek
· [ SPARK-22496 ] - 直线显示操作日志
· [ SPARK-22519 ] - 删除ApplicationMaster.cleanupStagingDir()中不必要的stagingDirPath空检查
· [ SPARK-22520 ] - 支持为复杂CASE WHEN生成代码
· [ SPARK-22537 ] - 驾驶员地图输出统计数据汇总面临单点瓶颈
· [ SPARK-22554 ] - 添加一个配置来控制PySpark是否应该使用守护进程
· [ SPARK-22566 ] - 熊猫中的'_merge_type`到Spark DF转换的错误消息
· [ SPARK-22569 ] - 清理splitExpressions和addMutableState的调用方
· [ SPARK-22592 ] - 清理过滤器转换为配置单元
· [ SPARK-22596 ] - 在CodegenSupport.consume中设置ctx.currentVars
· [ SPARK-22597 ] - 为Windows用户添加spark-sql脚本
· [ SPARK-22608 ] - 避免CodeGeneration.splitExpressions()的代码重复
· [ SPARK-22614 ] - 公开范围分区随机播放
· [ SPARK-22617 ] - 使splitExpressions提取上下文的当前输入
· [ SPARK-22638 ] - 为StreamingQueryListenerBus使用单独的查询
· [ SPARK-22649 ] - Dataset API中的localCheckpoint支持
· [ SPARK-22660 ] - 使用position()和limit()来解决scala-2.12中的歧义问题
· [ SPARK-22665 ] - 数据集API:.repartition()不一致/问题
· [ SPARK-22673 ] - InMemoryRelation应尽可能利用磁盘上的表统计信息
· [ SPARK-22675 ] - 重构TypeCoercion中的PropagateTypes
· [ SPARK-22677 ] - 清理哈希聚合的全部代码
· [ SPARK-22682 ] - HashExpression不需要创建全局变量
· [ SPARK-22688 ] - 将Janino版本升级到3.0.8
· [ SPARK-22690 ] - Imputer继承HasOutputCols
· [ SPARK-22692 ] - 减少生成的可变状态的数量
· [ SPARK-22701 ] - 添加ctx.splitExpressionsWithCurrentInputs
· [ SPARK-22704 ] - 减少最小和最大的可变变量的数量
· [ SPARK-22705 ] - 在Case,Coalesce和In中减少可变变量的数量
· [ SPARK-22707 ] - 通过拟合模型优化CrossValidator内存占用
· [ SPARK-22719 ] - 重构ConstantPropagation
· [ SPARK-22729 ] - 将getTruncateQuery添加到JdbcDialect
· [ SPARK-22753 ] - 摆脱dataSource.writeAndRead
· [ SPARK-22754 ] - 检查ExecutorLost情况下的spark.executor.heartbeatInterval设置
· [ SPARK-22763 ] - SHS:忽略未知事件并通过文件解析
· [ SPARK-22767 ] - 在InSet和ScalaUDF中使用ctx.addReferenceObj
· [ SPARK-22771 ] - 用于二进制的SQL concat
· [ SPARK-22774 ] - 在TPCDSQuerySuite中为生成的代码添加编译检查
· [ SPARK-22786 ] - 仅在历史记录服务器中使用AppStatusPlugin
· [ SPARK-22790 ] - 添加可配置因子来描述HadoopFsRelation的大小
· [ SPARK-22799 ] - 如果设置单列和多列参数,则Bucketizer应抛出异常
· [ SPARK-22801 ] - 允许FeatureHasher指定数字列作为分类
· [ SPARK-22810 ] - PySpark支持带有huber损失的LinearRegression
· [ SPARK-22830 ] - Scala编码风格在Spark示例中得到了改进
· [ SPARK-22832 ] - 平分KMeans未执行未使用的数据集
· [ SPARK-22833 ] - [示例]使用Scala进行SparkHive示例的改进
· [ SPARK-22844 ] - R date_trunc API
· [ SPARK-22847 ] - 在为舞台分配schedulingPool时删除AppStatusListener中的重复代码
· [ SPARK-22870 ] - 动态分配应允许0空闲时间
· [ SPARK-22874 ] - 修改检查熊猫版本以使用LooseVersion。
· [ SPARK-22893 ] - 统一数据类型不匹配消息
· [ SPARK-22894 ] - DateTimeOperations应接受类似字符串类型的SQL
· [ SPARK-22895 ] - 推下第一个非确定性之后的确定性谓词
· [ SPARK-22896 ] - 字符串插值的改进
· [ SPARK-22897 ] - 在TaskContext中公开stageAttemptId
· [ SPARK-22914 ] - 默认情况下,spark.history.ui.port的子层不能解析
· [ SPARK-22919 ] - Bump Apache httpclient版本
· [ SPARK-22921 ] - 合并脚本应该提示分配jiras
· [ SPARK-22922 ] - 用于fitMultiple的Python API
· [ SPARK-22937 ] - 用于二进制输入的SQL elt
· [ SPARK-22939 ] - 在registerFunction中支持Spark UDF
· [ SPARK-22944 ] - 改进折叠传播
· [ SPARK-22945 ] - 在函数对象中添加Java UDF API
· [ SPARK-22952 ] - 弃用stageAttemptId以支持stageAttemptNumber
· [ SPARK-22960 ] - 使build-push-docker-images.sh更友好
· [ SPARK-22979 ] - 避免Python数据转换中的每种记录类型分派(EvaluatePython.fromJava)
· [ SPARK-22994 ] - Spark-on-K8S需要一个容器映像
· [ SPARK-22997 ] - 添加额外的防御措施以防使用释放的MemoryBlocks
· [ SPARK-22999 ] - 'show databases likecommand'可以删除类似的关键字
· [ SPARK-23005 ] - 改进少量分区的RDD.take
· [ SPARK-23029 ] - Docspark.shuffle.file.buffer单位是kb,当没有指定单位时
· [ SPARK-23032 ] - 将每个查询codegenStageId添加到WholeStageCodegenExec
· [ SPARK-23036 ] - 加入GlobalTempView进行测试
· [ SPARK-23062 ] - 除了文档应该明确表明它不在DISTINCT之外
· [ SPARK-23081 ] - 将colRegex API添加到PySpark
· [ SPARK-23090 ] - 抛光ColumnVector
· [ SPARK-23091 ] - 近似单色测试不正确
· [ SPARK-23122 ] - 弃用PySpark中的SQLContext和Catalog中的UDF的注册*
· [ SPARK-23129 ] - Lazy init DiskMapIterator#deserializeStream当ExternalAppendOnlyMap溢出太多次时减少内存使用
· [ SPARK-23141 ] - 支持数据类型字符串作为registerJavaFunction的returnType。
· [ SPARK-23142 ] - 为连续处理添加文档
· [ SPARK-23143 ] - 为连续触发添加Python支持
· [ SPARK-23144 ] - 为连续查询添加控制台接收器
· [ SPARK-23149 ] - 波兰语ColumnarBatch
· [ SPARK-23170 ] - 转储有效运行分析器和优化器规则的统计信息
· [ SPARK-23199 ] - 改进从聚合中的组表达式中删除重复
· [ SPARK-23238 ] - 外部化SQLConfspark.sql.execution.arrow.enabled
· [ SPARK-23248 ] - 将模块docstrings重新定位到PySpark示例中的顶部
· [ SPARK-23249 ] - 改进分区bin-filling算法以减少偏移和分区
· [ SPARK-23276 ] - 在(Hive)OrcHadoopFsRelationSuite中启用UDT测试
· [ SPARK-23279 ] - 避免触发控制台接收器的分布式作业
· [ SPARK-23284 ] - 在访问空插槽时记录几个获取ColumnVector行为的API
· [ SPARK-23296 ] - 用户代码例外的诊断消息应包含堆栈跟踪
· [ SPARK-23305 ] - 为所有基于文件的数据源测试`spark.sql.files.ignoreMissingFiles`
· [ SPARK-23312 ] - 添加一个配置关闭向量化缓存阅读器
· [ SPARK-23317 ] - 将ContinuousReader.setOffset重命名为setStartOffset
· [ SPARK-23454 ] - 将触发信息添加到结构化流式节目指南
Test
· [ SPARK-19662 ] - 为不同的构建案例添加公平调度器单元测试覆盖率
· [ SPARK-20518 ] - 补充新的blockidsuite单元测试
· [ SPARK- 20571] - Flaky SparkRStructuredStreaming测试
· [ SPARK-20607 ] - 向ShuffleSuite添加新的单元测试
· [ SPARK-20957 ] - 片状测试:oassql.streaming.StreamingQueryManagerSuite列表
· [ SPARK-21006 ] - 创建rpcEnv并稍后运行需要关闭和等待终止
· [ SPARK-21128 ] - 由于预先退出“spark-warehouse”/“metastore_db”,多次运行R测试失败
· [ SPARK-21286 ] - [火花芯UT]修改单元测试错误
· [ SPARK-21370 ] - 当没有更新提交时,避免在HDFSBackedStateStore.abort()上执行任何操作
· [ SPARK-21573 ] - 在Jenkins中偶尔会遇到run-tests.py SyntaxError失败的测试
· [ SPARK-21663 ] - MapOutputTrackerSuite案例测试(“远程获取低于最大RPC消息大小”)应该调用stop
· [ SPARK-21693 ] - AppVeyor测试达到了1.5小时的时间限制,有时在SparkR测试中
· [ SPARK-21729 ] - ProbabilisticClassifier的通用测试,以确保输出列的一致性
· [ SPARK-21764 ] - 在Windows上测试失败:资源未关闭且路径不正确
· [ SPARK-21843 ] - 在ExchangeCoordinatorSuite中,testNameNote应该是“(minNumPostShufflePartitions:”+ numPartitions +“)”
· [ SPARK-21936 ] - HiveExternalCatalog的向后兼容性测试框架
· [ SPARK-21949 ] - 在单元测试中创建的表格应该在使用后放下
· [ SPARK-21982 ] - 当您的jvm语言环境不是美国时,为了通过UtilsSuite将语言环境设置为美国
· [ SPARK-22140 ] - 为TPCDS查询添加测试套件
· [ SPARK-22161 ] - 添加Impala修改的TPC-DS查询
· [ SPARK-22418 ] - 为NULL处理添加测试用例
· [ SPARK-22423 ] - 像TestHiveSingleton.scala这样的Scala测试源文件应该位于scala源代码根目录
· [ SPARK-22595 ] - 片状测试:CastSuite.SPARK-22500:cast for struct不应生成超过64KB的代码
· [ SPARK-22644 ] - 让ML测试团队支持StructuredStreaming测试
· [ SPARK-22787 ] - 添加一个TPCH查询套件
· [ SPARK-22800 ] - 添加一个SSB查询套件
· [ SPARK-22881 ] - 针对StructuredStreaming的ML测试:spark.ml.regression
· [ SPARK-22938 ] - 声明仅在驱动程序上访问SQLConf.get。
· [ SPARK-23072 ] - 为基于文件的数据源添加Unicode模式测试
· [ SPARK-23132 ] - 在测试中运行ml.image doctests
· [ SPARK-23197 ] - 片状测试:spark.streaming.ReceiverSuite。“receiver_life_cycle”
· [ SPARK-23300 ] - 打印出Pandas和PyArrow是否安装在测试中
· [ SPARK-23311 ] - 为测试CombineTypedFilters添加FilterFunction测试用例
· [ SPARK-23319 ] - 跳过PySpark测试旧熊猫和旧PyArrow
Task
· [ SPARK-12297 ] - 为Parquet / Hive int96时间戳错误添加解决方法。
· [ SPARK-19810 ] - 取消对Scala 2.10的支持
· [ SPARK-20434 ] - 将Hadoop委托令牌代码从纱线移动到核心
· [ SPARK-21366 ] - 为窗口函数添加sql测试
· [ SPARK-21699 ] - 删除ExternalCatalog中未使用的getTableOption
· [ SPARK-21731 ] - 将scalastyle升级到0.9
· [ SPARK-21848 ] - 创建特征来识别用户定义的功能
· [ SPARK-21939 ] - 使用TimeLimits而不是Timeouts
· [ SPARK-22153 ] - 重命名ShuffleExchange - >ShuffleExchangeExec
· [ SPARK-22416 ] - 将OrcOptions从`sql/ hive`移动到`sql / core`
· [ SPARK-22473 ] - 替换弃用的AsyncAssertions.Waiter和java.sql.Date的方法
· [ SPARK-22485 ] - 在MiMa中使用`exclude[Problem]`而不是`excludePackage`
· [ SPARK-22634 ] - 更新Bouncy城堡依赖
· [ SPARK-22672 ] - 重构ORC测试
· [ SPARK-23104 ] - 记录kubernetes仍然是“实验性”
· [ SPARK-23426 ] - 使用`hive` ORC impl并禁用Spark 2.3.0的PPD
· [ SPARK-15526 ] - Shade JPMML
· [ SPARK-7146 ] - ML sharedParams应该成为公共API吗?
· [ SPARK-18085 ] - SPIP:更好的历史服务器可扩展性,用于许多/大型应用程序
· [ SPARK-20746 ] - 内建SQL功能改进
· [ SPARK-22820 ] - Spark 2.3 SQL API审计
· [ SPARK-23105 ] - Spark MLlib,GraphX 2.3 QA伞
· [ SPARK-20015 ] - R 小结中的文档R结构化流式(实验)和R&SS编程指南,R例子
· [ SPARK-20132 ] - 为列字符串函数添加文档
· [ SPARK-20192 ] - SparkR 2.2.0迁移指南,发行说明
· [ SPARK-20442 ] - 在PySpark的ColumnAPI中为函数填充文档
· [ SPARK-20448 ] - 记录FileInputDStream如何与对象存储协同工作
· [ SPARK-20456 ] - 为pyspark的函数集合添加示例
· [ SPARK-20477 ] - R编程指南中的R等分K均值
· [ SPARK-20478 ] - 在R编程指南中记录LinearSVC
· [ SPARK-20855 ] - 更新Spark kinesis文档以使用KinesisInputDStream构建器而不是弃用的KinesisUtils
· [ SPARK-20858 ] - 记录ListenerBus事件队列大小属性
· [ SPARK- 20889] - SparkR为列方法分组的文档
· [ SPARK-20992 ] - 链接到文档中的Nomad调度程序后端
· [ SPARK-21042 ] - Document Dataset.union是按位置决定的,而不是名称
· [ SPARK-21069 ] - 将节目源添加到节目指南
· [ SPARK-21123 ] - 文件流源的选项位于错误的表格中
· [ SPARK-21292 ] - R文档目录功能元数据刷新
· [ SPARK-21293 ] - R文档更新结构化流媒体
· [ SPARK-21469 ] - 为FeatureHasher添加文档和示例
· [ SPARK-21485 ] - Spark SQL函数的API文档
· [ SPARK-21616 ] - SparkR 2.3.0迁移指南,发行说明
· [ SPARK-21712 ] - 澄清PySpark Column.substr()类型检查错误消息
· [ SPARK-21724 ] - 由于日期函数文档中的信息而丢失
· [ SPARK-21976 ] - 修正关于平均绝对误差的错误文档
· [ SPARK-22110 ] - 增强功能描述修饰字符串功能
· [ SPARK-22335 ] - Union for DataSet使用列顺序而不是类型进行联合
· [ SPARK-22347 ] - 当'F.when'条件为假时评估UDF
· [ SPARK-22369 ] - PySpark:spark.catalog接口的文档方法
· [ SPARK-22399 ] - mllib-clustering.html中的引用已过时
· [ SPARK-22412 ] - 修复DataSourceScanExec中的不正确评论
· [ SPARK-22428 ] - 记录配置ContextCleaner的spark属性
· [ SPARK-22490 ] - PySpark文档对SparkSession.builder具有误导性的字符串
· [ SPARK-22541 ] - Dataframes:使用udfs和累加器一个接一个地应用多个滤波器导致错误的累加器
· [ SPARK-22735 ] - 将VectorSizeHint添加到ML功能文档
· [ SPARK-22993 ] - checkpointInterval参数文档应该更清晰
· [ SPARK-23048 ] - 更新mllib文档以将OneHotEncoder替换为OneHotEncoderEstimator
· [ SPARK-23069 ] - R doc用于描述缺失的文本
· [ SPARK-23127 ] - 为CatCols参数更新FeatureHasher用户指南
· [ SPARK-23138 ] - 为多类逻辑回归摘要添加用户指南示例
· [ SPARK-23154 ] - 文件向后兼容保证ML持久性
· [ SPARK-23163 ] - 将Python ML API文档与Scala同步
· [ SPARK-23313 ] - 为ORC添加迁移指南
· [ SPARK-23327 ] - 更新三个外部API或函数的描述
参考:
1、发行说明:https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12339551
2、Spark github:https://github.com/apache/spark
3、Spark官方网站:http://spark.apache.org/
4、Databricks官方:https:databricks.com/blog/2018/02/28/introducing-apache-spark-2-3.html