BIT_666

Spark 3.0 - 4.Pipeline 管道的工作流程

一.引言

二.基本组件

三.Pipeline 基本流程

1.训练 Pipeline - Estimator

2.预测 Pipeline - Transformer

四.Pipeline 分解与构造

1.DataFrame

2.Transformer1 - Tokenizer

3.Transformer2 - HashingTF

4.Estimator - LR

5.Pipeline With ParamMap - Estimator

5.1.配置 Pipeline

5.2.配置 ParamMap

5.3 Pipeline.fit

6.Pipeline With ParamMap - Transformer

6.1 模型存储与加载

6.2 Model transformer

7.完整代码

五.总结

一.引言

Spark ML 使用管道 Pipeline 就像 Python Sklearn 一样，可以把多个步骤例如特征处理 -> 特征提取 -> 模型训练等联结起来，让数据在 Pipeline 中流动。有了 Pipeline 之后，ML 更适合创建包含从数据清洗到特征工程再到模型训练等一系列流程中，无论什么模型都提供了统一的算法操作接口即 fit()，下面让我们看下管道的基本组件与流程示例。

二.基本组件

- DataFrame

数据源，也是 Spark Sql 中的概念，可以容纳多种数据类型用来保存数据。例如，一个 DataFrame 可以存储文本、标签、特征向量等不同列。可以说 ML 的所有基本 API 最终都需要以源头的 DataFrame 数据为主。

- Transformer

转换器，和 Spark、Flink 里的 Transformer 类似，例如 RDD -> RDD、DataStream -> DataStream，这里 Transformer 负责将 DataFrame 转换为 DataFrame。每个 Tansformer 都有一个 transform 方法，负责在原有 DataFrame 的基础上添加一个或者多个列得到新的 DataFrame。例如将原始数据转换，并增加一列新的特征向量。

- Estimator

Estimator 负责根据样本 fit 训练得到一个模型，模型的本质也是 Transformer，因为给定一个 DataFrame 数据集，模型可以转化得到一个新的预测标签列，所以 Estimator 就是调用 fit 方法并最终得到一个 Transformer。LR、SVM、PCA 等都可以看做是 Estimator。

- Pipeline

管道，Pipeline 将多个 Transformer 与 Estimator 连接起来并按顺序确定一个机器学习的工作流程。届时管道里的每一步都可以看做是一个 Stage，Stage 可以是 Transformer 也可以是 Estimator，就像 Spark 的 Stage 一样，一个任务流程图 Graph 梳理好后，每一步的组件都是固定的。

- Parameter

通用 API，由于 Pipeline 中可能存在多个 Transformer 与 Estimator，使用 Builder 的形式不易统一维护，所以可以使用 Parameter 一次性定义好所以参数，就像 SparkConf 一样。

三.Pipeline 基本流程

Pipeline 是一个管道，包含一个或多个 Transformer 与 Estimator，但是一个完整的 Pipeline 本质上也是 Transformer 或者 Estimator，区分 Pipeline 属于哪个类型，看其对应方法即可，如果调用 fit() 方法，那它就是 Estimator，如果调用 transform 方法，那它就是 Transformer。一般来说训练模型的 Pipeline 是 Estimator，通过模型预测结果的是 Transfomer。

1.训练 Pipeline - Estimator

下面通过基础的文本处理 LR 算法介绍了 Pipeline - Estimator 流程：

其中 Tokenizer 与 HashingTF 为 Transformer，负责数据的预处理与特征转化，最后的 Logistic Regression 是 Estimator，其负责 fit 上一个 Stage 送来的特征数据并得到模型。由于 Pipeline 的最后一个 Stage 是 Estimator，所以该 Pipeline 调用 fit() 方法，其类型也对应 Pipeline - Estimator。

Tips：

每个 Transformer 与 Estimator 都有一个唯一的 uid，可以视为当前 stage 的标识，用于保存对应的参数，即使是相同的类型也能有相同的 ID。

2.预测 Pipeline - Transformer

对于同一套流程的 Estimator 和 Transfomer 的 Pipeline 流程整体区别很小：

可以看到主要差别在 Pipeline 的最后一个 Stage，虽然依然是 Logistic Regression，但是 model 不再调用 fit() 方法训练模型，而是调用 transform() 预测最终结果，所以 Pipeline 的类型也随着最后一个 Stage 而转换为 Pepeline - Transformer，其余处理流程相同。下面通过实例实现展示如何实现一个 Pipeline 训练与预测。

四.Pipeline 分解与构造

上面介绍了 Pipeline 五大组件与一个 LR 的文本处理流程，下面示例将基于图中的组件一一介绍，并最终合并为完整的 Pipeline。

1.DataFrame

    // 准备数据(id, text, label).
    val training = spark.createDataFrame(Seq(
      (0L, "a b c d e spark", 1.0),
      (1L, "b d", 0.0),
      (2L, "spark f g h", 1.0),
      (3L, "hadoop mapreduce", 0.0)
    )).toDF("id", "text", "label")

本地模拟样本数据，其中 text 未未分词的文档内容，id 代表序号，Label 代表正负样本，由于是模拟样本，实际场景下，text 可以是评论或者留言，而 Label 可以标识该 text 是积极评论还是消极评论，或者留言是正向还是负向。

2.Transformer1 - Tokenizer

Tokenizer 为文档单词提取器，其利用分词将每个文档的文本拆分为单词。

    val tokenizer = new Tokenizer()
      .setInputCol("text")
      .setOutputCol("words")

    val info = hashingTF.transform(training)

- setInputCol

设置输入文本列，本例下即为 text，例如 hadoop mapreduce。

- setOutputCol

设置分词后的输出列，为原始 DataFrame 新增一列分词列，其包含 text 后分词的结果，类型为 WrappedArray，单独调用 transform 后得到新的一列，其中文本已分词完毕。

      [0,a b c d e spark,1.0,WrappedArray(a, b, c, d, e, spark)]
      [1,b d,0.0,WrappedArray(b, d)]
      [2,spark f g h,1.0,WrappedArray(spark, f, g, h)]
      [3,hadoop mapreduce,0.0,WrappedArray(hadoop, mapreduce)]

3.Transformer2 - HashingTF

HashingTF 负责特征的向量化，负责将每个文档对应的单词转换为数值型的特征向量 Vector。

    val hashingTF = new HashingTF()
      .setNumFeatures(1000)
      .setInputCol(tokenizer.getOutputCol)
      .setOutputCol("features")
       
    val info = hashingTF.transform(tokenizer.transform(training))

- setNumFeatures

标识词库维度，例如你的评论词库规定为 10000 维，这使用 HashingTF hash 得到的特征列维度为 10000 维。

- setInpuCol

设置输入列，这里输入列即为上面 Tokenizer 生成的 WrappedArray()。

- setOutputCol

设置输出列，本例中输出列名为 features，后续与 label 组合可供 Estimator fit 使用。

HashingTF 共返回三维数据 (featurNum, IndexArray, IndexCount)，分别为特征数，特征映射后的 HashId 数组以及对应 HashId 的出现次数。

Tips1：

将 hadoop mapreduce 修改为 hadoop mapreduce hadoop spark spark 后，可以看到对应单词 HashId 的次数由 1 变为 2。

Tips2：

numFeatures 特征数，NLP 场景也可以理解为词库大小，默认值为 262144，如果 numFeatures 严重小于真实词库大小，会出现 hash 到同一分桶的情况，影响模型区分度。修改 numFeatures = 2 可以看到虽然有多个 word，但是 hashId 只有2维：

4.Estimator - LR

Logistic Regression 这里不再赘述，上文我们做了详细的参数介绍，大家可以参考。

    val lr = new LogisticRegression()
      .setMaxIter(10)
      .setRegParam(0.001)

    lr.fit(hashingTF.transform(tokenizer.transform(training)))

启动后即可显示 LR 运行日志：

5.Pipeline With ParamMap - Estimator

    lr.fit(hashingTF.transform(tokenizer.transform(training)))

5.1.配置 Pipeline

回看上面的代码，transform + transform + fit 其实就是一个完整的 pipeline 管道流程，下面我们使用 Spark ML API 配置该管道，后续只需调用 pipeline.fit 即可实现与上面代码相同的效果，条理清晰了很多且易于管理。

val pipeline = new Pipeline()
  .setStages(Array(tokenizer, hashingTF, lr))

5.2.配置 ParamMap

随着 Transformer 和 Estimator 数量的增加，每次使用 Builder 分别设置每个 Satage 维护起来非常麻烦，我们希望每个 Pipeline 的多个 Stage 只需一个 properties 维护，这就是 ParamMap 的由来，将 Tokenizer 、HashingTF 与 LR 的参数统一至 ParamMap 中。

    val paramMap = ParamMap(lr.maxIter -> 20, lr.regParam -> 0.01)
      .put(tokenizer.inputCol -> "text", tokenizer.outputCol -> "words")
      .put(hashingTF.numFeatures -> 1000, hashingTF.inputCol -> "words", hashingTF.outputCol -> "features")

5.3 Pipeline.fit

    // 调用fit（）函数，训练数据
    val model = pipeline.fit(training, paramMap)

通过上面一通操作，我们的 pipeline 终于构建好了，现在调用 fit 方法即可训练模型。

6.Pipeline With ParamMap - Transformer

6.1 模型存储与加载

fit 得到的模型可以存储并根据响应地址加载

可以将训练好的pipeline输出到磁盘
model.write.overwrite().save("/tmp/spark-logistic-regression-model")

也可以直接将为进行训练的pipeline写到文件
pipeline.write.overwrite().save("/tmp/unfit-lr-model")

然后加载到出来
val pipelineModel = PipelineModel.load("/tmp/spark-logistic-regression-model")

6.2 Model transformer

    // 准备(id, text) 这个格式未打标签的数据进行测试
    val test = spark.createDataFrame(Seq(
      (4L, "spark i j k"),
      (5L, "l m n"),
      (6L, "spark hadoop spark"),
      (7L, "apache hadoop")
    )).toDF("id", "text")

    // 在测试集上进行预测
    pipelineModel.transform(test)
      .select("id", "text", "probability", "prediction")
      .collect()
      .foreach { case Row(id: Long, text: String, prob: Vector, prediction: Double) =>
        println(s"($id, $text) --> prob=$prob, prediction=$prediction")
      }

再次调用 pipelineModel transform 方法即可完成预测流程。

7.完整代码

import org.apache.spark.ml.{Pipeline, PipelineModel}
import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.feature.{HashingTF, Tokenizer}
import org.apache.spark.ml.linalg.Vector
import org.apache.spark.sql.Row
// $example off$
import org.apache.spark.sql.SparkSession

object PipelineExample {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder      //创建spark会话
      .master("local")  //设置本地模式
      .appName("PipelineExample")  //设置名称
      .getOrCreate()   //创建会话变量

    // $example on$
    // 准备数据(id, text, label).
    val training = spark.createDataFrame(Seq(
      (0L, "a b c d e spark", 1.0),
      (1L, "b d", 0.0),
      (2L, "spark f g h", 1.0),
      (3L, "hadoop mapreduce", 0.0)
    )).toDF("id", "text", "label")

    // 配置一个包含三个stage的ML pipeline: tokenizer, hashingTF, and lr.
    val tokenizer = new Tokenizer()
      .setInputCol("text")
      .setOutputCol("words")
    val hashingTF = new HashingTF()
      .setNumFeatures(1000)
      .setInputCol(tokenizer.getOutputCol)
      .setOutputCol("features")
    val lr = new LogisticRegression()
      .setMaxIter(10)
      .setRegParam(0.001)
    val pipeline = new Pipeline()
      .setStages(Array(tokenizer, hashingTF, lr))

    // 调用fit（）函数，训练数据
    val model = pipeline.fit(training)

    // 可以将训练好的pipeline输出到磁盘
    model.write.overwrite().save("/tmp/spark-logistic-regression-model")

    // 也可以直接将为进行训练的pipeline写到文件
    pipeline.write.overwrite().save("/tmp/unfit-lr-model")

    // 然后加载到出来
    val sameModel = PipelineModel.load("/tmp/spark-logistic-regression-model")

    // 准备(id, text) 这个格式未打标签的数据进行测试
    val test = spark.createDataFrame(Seq(
      (4L, "spark i j k"),
      (5L, "l m n"),
      (6L, "spark hadoop spark"),
      (7L, "apache hadoop")
    )).toDF("id", "text")

    // 在测试集上进行预测
    model.transform(test)
      .select("id", "text", "probability", "prediction")
      .collect()
      .foreach { case Row(id: Long, text: String, prob: Vector, prediction: Double) =>
        println(s"($id, $text) --> prob=$prob, prediction=$prediction")
      }
    // $example off$

    spark.stop()
  }
}

五.总结

Pipeline Transformer 与 Pipeline Estimator 的构建大致就这些，本文采用简易数据测试不具代表性，后续将基于豆瓣电影评论实战，介绍如何自定义 Transformer 与豆瓣影评情感分析实战。可以看到 Pipeline 的好处是将内部流程全部封装，用户对中间流程不感知，只需将数据处理为合适的格式即可直接调用并获得相应结果，而单独的 Transformer 与 Estimator 则更适合一步一步调试或获取中间结果，二者各有利弊，大家可以根据情况选择。

初识内嵌iframe 家里有只小肥猫 iframe vue 前端
iframe的基本介绍与使用介绍iframe（内嵌框架）是HTML中一种用于将一个网页嵌入到另一个网页中的标签，它可以在一个页面中显示来自其他页面的内容。在网页中，使用标签可以将一个网页嵌套在另一个网页中，实现网页间的互联互通。基础使用标签的基本用法如下：例如：属性除了src属性，还可以使用其他属性来设置iframe的行为和样式，如allow、allowfullscreen、class、frame
Pex 项目使用教程任翊昆Mary
Pex项目使用教程pexPexisajavascript3dlibrary/engineallowingforseamlessdevelopmentbetweenPlaskandWebGLinthebrowser.项目地址:https://gitcode.com/gh_mirrors/pex/pex1.项目的目录结构及介绍Pex项目的目录结构如下：pex-gl/├──assets/├──lib/├
PEX 开源项目教程束静研Kody
PEX开源项目教程pexPexisajavascript3dlibrary/engineallowingforseamlessdevelopmentbetweenPlaskandWebGLinthebrowser.项目地址:https://gitcode.com/gh_mirrors/pex/pex项目介绍PEX（PolyethyleneExchange）是一个基于高密度聚乙烯（HDPE）的管道和
openbmc csu_fky c++
openbmc这个开源项目编译出来的是固件，也可以说是镜像，它是一个可以运行在BMC芯片上的小型操作系统。我们可以在不同架构的CPU，不同的linux操作系统上面进行编译，最后得到的镜像适用于各个架构的CPU。在对固件进行测试时，可以通过网线与BMC开发板连接，进行相应的测试。在开发板资源不足时，可以通过qemu这个工具来代替。qemu可以虚拟出相应的硬件，例如它本身有x86或者arm架构的版本，
ASP.NET Core MVC AAA猪饲料批发李师傅 .NET mvc .netcore c#
项目结构控制器由Controller类实现，视图一般是扩展名为cshtml的文件，而模型则是只有属性的普通C#类。控制器类的名字一般以Controller结尾，并且被放到Controllers文件夹下。控制器的名字为控制器的类名去掉Controller。视图一般被放到Views文件夹下的控制器名字的文件夹下。视图→浏览器端提交的请求→模型→控制器→处理→模型→视图。渲染：Render。案例演示一个
CSS快速入门 Annaday 前端 css 前端
CSS引入方式CSS样式文件有两种引入方式，既可以写在HTML文件内，也可以作为独立的以.css结尾的文件存在方式一：使用独立的CSS文件引入当CSS样式作为单独的文件时，需要在HTML文件的标签中使用link标签来引入该CSS文件。例如，假设有一个名为styles.css的CSS文件，要将其引入到HTML文件中，需按以下方式在标签内添加link标签：在上述代码中：rel="stylesheet"
单片机基础模块学习——数码管（二） promising-w 单片机单片机嵌入式硬件蓝桥杯
一、数码管模块代码这部分包括将数码管想要显示的字符转换成对应段码的函数，另外还包括数码管显示函数值得注意的是对于小数点和不显示部分的处理方式由于小数点没有单独占一位，所以这里用到了两个变量i,j用于跳过小数点导致的占据其他字符显示在数码管上的位置不想让某一位数码管显示的时候，用空格来代替，根据共阳数码管原理图，应将P0引脚全部设为高电平才可熄灭#include"seg.h"//段码转换函数//0x
Python | 基于支持向量机（SVM）的图像分类案例 python收藏家 python 机器学习 python 机器学习
支持向量机（SVM）是一种监督机器学习算法，可用于分类和回归任务。在本文中，我们将重点关注使用SVM进行图像分类。当计算机处理图像时，它将其视为二维像素阵列。数组的大小对应于图像的分辨率，例如，如果图像是200像素宽和200像素高，则数组的尺寸为200x200x3。前两个维度分别表示图像的宽度和高度，而第三个维度表示RGB颜色通道。数组中的值范围为0到255，表示每个点处像素的强度。为了使用SVM
eclipse运行java报错,eclipse用maven运行项目报错java.lang.ArrayIndexOutOfBoundsException: 28054... 陈姜梅子 Maven 构建错误 XML解析 pom.xml
[ERROR]28054java.lang.ArrayIndexOutOfBoundsException:28054atorg.codehaus.plexus.util.xml.pull.MXParser.parsePI(MXParser.java:2502)atorg.codehaus.plexus.util.xml.pull.MXParser.parseEpilog(MXParser.java
桌面应用程序开发：跨平台方案方案有什么？柚米汇开发语言
目前市面上最流行的桌面开发程序框架和工具包括以下几种：1.Electron简介：使用Web技术（HTML、CSS、JavaScript）开发跨平台桌面应用，结合Node.js和Chromium。优点：广泛使用的Web技术，开发门槛低。丰富的插件和生态系统支持。许多成功的应用案例（如VisualStudioCode、Slack、Discord）。工具：VisualStudioCode、Atom。2.
【skia】win32中使用skia图形库 weixin_33721427
正文废话少说，下面，这个win32的消息回调函数，学过的都明白。LRESULTCALLBACKWndProc(HWNDhWnd,UINTmessage,WPARAMwParam,LPARAMlParam)；这里使用skia，其实是先分配内存，在内存里绘图之后通过StretchDIBits函数绘制到窗口DC。下面，主要看caseWM_PAINT，窗口重绘，就会接收这消息。#include"SkStr
性能优化案例：通过合理设置spark.default.parallelism参数的值来优化PySpark程序的性能 weixin_30777913 大数据 spark python
在PySpark中，spark.default.parallelism是一个关键参数，直接影响作业的并行度和资源利用率。通过合理设置spark.default.parallelism并结合数据特征调整，可显著提升PySpark作业的并行效率和资源利用率。建议在开发和生产环境中进行多轮基准测试以确定最优值。以下是如何通过调整此参数优化性能的详细说明，结合案例和最佳实践：1.参数作用与问题场景参数意义
k8s-实战——ES集群部署北城半夏 k8s-实战 kubernetes elasticsearch java
文章目录yaml文件es-pvc.yamles-svc.yamles-cluster-sts.yaml创建elasticsearch集群yaml文件es-pvc.yaml通过nfs服务进行新增pv并通过labels关联pvc前置准备需要提前准备pv的服务器以及挂在路径---apiVersion:v1kind:PersistentVolumemetadata:name:nfs-es-pv-data-
maven根据不同的环境打包不同的配置文件诺浅其他 maven多环境配置
缘起我们在做项目的时候经常会遇到有多个环境每个环境的配置不一样的问题，比如我们的生产环境的数据库和测试环境的数据库肯定不会一样，我们每次在本机测试的时候可能配置的URL是测试环境的，要打生产war包的时候又需要把配置改成生产的，来回很容易出错，那么有没有什么简单的办法呢？有的，首先需要你的项目中有使用maven.使用maven插件打包不同的配置文件首先我们需要在pom.xml进行如下配置定义不同的
PHP htmlspecialchars()函数详解小彭爱学习 php php
PHPhtmlspecialchars()函数详解htmlspecialchars函数多常用于防止xss攻击，htmlspecialchars函数要转义单引号需要设置第二个参数为ENT_QUOTES，转义双引号需要设置第二个参数为ENT_NOQUOTES一、定义和用法htmlspecialchars()函数把一些预定义的字符转换为HTML实体。预定义的字符是：&(&符号)=============
简介：编译、链接、静态库那点事儿 liulun 数据库 c++
编译一个C程序文件非常简单，如果你用MSVC编译器，那命令行是：>clhello.c//同目录下生成hello.execl.exe是你安装VisualStudio自带的，一般你在"x64NativeToolsCommandPromptforVS2022"环境下就能直接用它。编译多个C程序文件也可以用同样的方式，如下指令所示：>clhello.callen.c//同目录下生成hello.exe当然，
USB-PD 3.0 协议规范文件松京焕Max
USB-PD3.0协议规范文件USB-PD3.0协议规范文件USB-PD（USBPowerDelivery）是由USB-IF组织制定的一种快速充电规范，是目前主流的快充协议之一。USB-PD快充协议通过Type-C接口输出，但需要注意的是，并非所有Type-C接口都支持USB-PD协议快充。本资源文件包含了USB-PD3.0协议的详细规范文档，版本为V1.1。该文档详细介绍了USB-PD3.0协议
微信小程序中实现背景图片完全覆盖显示，可以通过设置CSS样式来实现徊忆羽菲微信-小程序微信小程序 css 小程序
wxml页面代码wxss样式代码/*pages/beiJing/beiJing.wxss*/.beijing{background-image:url("https://www.qipa250.com/qipa.jpg");/*定位：绝对定位*/position:absolute;/*上下左右都定位到0*/top:0;left:0;right:0;bottom:0;/*给它足够低的层次*/z-in
编译器概述 Tiantangbujimo7 编译原理学习编程语言
什么是编译器：编译器是一个程序，核心功能是把源代码翻译成目标代码。源代码：c/c++,Java,c#,html,sql,…目标代码:x86,IA64,ARM,MIPS,…编译器的核心功能：源代码经过编译器的翻译，生成了目标代码，这里的静态计算意思是编译器在对目标程序进行编译的过程中并不去执行这个代码，而是尝试以静态的方式对目标程序进行理解，理解的原因是编译器所生成的目标程序和源程序必须语义相同。生
如何快速在linux服务器部署java运行环境（JDK+TomCat+Redis+Mysql+Nginx） Noobwali java tomcat linux
一.jdk和Tomcat1.jdk安装tar-zxv-fjdk-8u231-linux-x64.tar.gz2.配置环境变量vim/etc/profileJAVA_HOME=/java_source/jdk1.8.0_231(这里填写你的路径，后面不变)PATH=JAVAHOME/bin:JAVA_HOME/bin:JAVAHOME/bin:PATHCLASSPATH=JAVAHOME/jre/l
【学习笔记】昇思25天学习打卡(D14)CV05-SSD目标检测.ipynb UnseenMe 昇思学习笔记目标检测
SSD目标检测模型简介SSD，全称SingleShotMultiBoxDetector，是WeiLiu在ECCV2016上提出的一种目标检测算法。使用NvidiaTitanX在VOC2007测试集上，SSD对于输入尺寸300x300的网络，达到74.3%mAP(meanAveragePrecision)以及59FPS；对于512x512的网络，达到了76.9%mAP，超越当时最强的FasterRC
性能优化案例：通过合理设置spark.storage.memoryFraction参数的值来优化PySpark程序的性能 weixin_30777913 python 大数据 spark
优化PySpark程序的性能时，合理设置spark.storage.memoryFraction（或相关内存参数）是关键。合理设置spark.storage.memoryFraction需结合任务类型和内存使用监控。对于缓存密集型任务，适当提高存储内存比例；对于Shuffle密集型任务，优先保障执行内存。新版本Spark的动态内存机制简化了调优，但手动干预在极端场景下仍有效。最终需通过反复测试验证
转：Spark RDD算子练习题爱萨萨技术-大数据 spark RDD 练习
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。本文链接：https://blog.csdn.net/qq_40825218/article/details/83720732给定数据如下：12张三25男chinese5012张三25男math6012张三25男english7012李四20男chinese5012李四20男math5012李四20男e
数学基础 -- 洛必达法则 sz66cm 机器学习人工智能高等数学微积分
洛必达法则洛必达法则（L’Hôpital’sRule）是微积分中的一个重要定理，用于求解某些未定形式极限的问题。其基本思想是通过求导来简化极限计算。洛必达法则主要用于处理以下两种未定形式的极限：00\frac{0}{0}00和∞∞\frac{\infty}{\infty}∞∞。洛必达法则的公式假设函数f(x)f(x)f(x)和g(x)g(x)g(x)在某一开区间内可导，且在该区间内g′(x)≠0g
数学基础 -- 泰勒展开式 sz66cm 高等数学导数微积分
泰勒展开泰勒展开是将一个函数在某点附近展开成幂级数的工具。具体来说，对于一个在某点aaa处具有nnn阶导数的函数f(x)f(x)f(x)，其泰勒展开式为：f(x)=f(a)+f′(a)(x−a)+f′′(a)2!(x−a)2+f′′′(a)3!(x−a)3+⋯+f(n)(a)n!(x−a)n+Rn(x)f(x)=f(a)+f'(a)(x-a)+\frac{f''(a)}{2!}(x-a)^2+\f
spark sql的练习题 a大数据yyds spark spark
1、使用StructuredStreaming读取Socket数据，把单词和单词的反转组成json格式写入到当前目录中的file文件夹中2、请使用StructuredStreaming读取student_info文件夹写的csv文件，2.1、统计出文件中的男女生各有多少人2.2、统计出姓“王”男生和女生的各有多少人3、请使用StructuredStreaming读取department_info文
深度学习中高斯噪声：为什么以及如何使用小白学视觉深度学习人工智能
点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达来源：DeepHubIMBA本文约1800字，建议阅读8分钟高斯噪声是深度学习中用于为输入数据或权重添加随机性的一种技术。在数学上，高斯噪声是一种通过向输入数据添加均值为零和标准差(σ)的正态分布随机值而产生的噪声。正态分布，也称为高斯分布，是一种连续概率分布，由其概率密度函数(PDF)定义：pdf(x)=(1/(σ*sqrt(
Spark>sql练习题 BigMoM1573 Spark spark
练习题-------------------------------以下使用StructuredStreaming：-------------------------------1、请使用StructuredStreaming读取Socket数据，统计出每个单词的个数2、请使用StructuredStreaming读取student_info文件夹写的csv文件，2.1、统计出文件中的男女生各有多
《Spark大数据分析与内存计算》——第三章阿万古课程作业 spark 数据分析大数据
第三章作业及答案快捷查找：Ctrl+F在搜索框中输入题目一.单选题（共17题）1.(单选题)并不是所有企业都能自己产生数据，从而用于决策辅助，而更多的互联网企业如电商等大部分是要靠什么来抓取互联网数据进行分析A.HadoopB.pythonC.SparkD.网路爬虫正确答案:D:网路爬虫;2.(单选题)什么负责即席查询的应用A.MLlibB.SparkStreamingC.GraphXD.Spar
Ajax：万字总结黑马笔记，学懂Ajax看这一篇就够了做一只猫前端 ajax javascript 前端
一、了解AjaxAjax的全称是AsynchronousJavascriptAndXML（异步JavaScript和XML）通俗的理解：在网页中利用XMLHttpRequest对象和服务器进行数据交互的方式，就是Ajax如：用户名检测：注册用户时，通过ajax的形式，动态检测用户名是否被占用搜索提示：当输入搜索关键字时，通过ajax的形式，动态加载搜索提示列表数据分页显示：当点击页码值的时候，通过
强大的销售团队背后竟然是大数据分析的身影蓝儿唯美数据分析
Mark Roberge是HubSpot的首席财务官，在招聘销售职位时使用了大量数据分析。但是科技并没有挤走直觉。大家都知道数理学家实际上已经渗透到了各行各业。这些热衷数据的人们通过处理数据理解商业流程的各个方面，以重组弱点，增强优势。 Mark Roberge是美国HubSpot公司的首席财务官，HubSpot公司在构架集客营销现象方面出过一份力——因此他也是一位数理学家。他使用数据分析
Haproxy+Keepalived高可用双机单活 bylijinnan 负载均衡 keepalived haproxy 高可用
我们的应用MyApp不支持集群，但要求双机单活（两台机器：master和slave）： 1.正常情况下，只有master启动MyApp并提供服务 2.当master发生故障时，slave自动启动本机的MyApp，同时虚拟IP漂移至slave，保持对外提供服务的IP和端口不变 F5据说也能满足上面的需求，但F5的通常用法都是双机双活，单活的话还没研究过服务器资源 10.7
eclipse编辑器中文乱码问题解决 0624chenhong eclipse乱码
使用Eclipse编辑文件经常出现中文乱码或者文件中有中文不能保存的问题，Eclipse提供了灵活的设置文件编码格式的选项，我们可以通过设置编码格式解决乱码问题。在Eclipse可以从几个层面设置编码格式：Workspace、Project、Content Type、File 本文以Eclipse 3.3（英文）为例加以说明： 1. 设置Workspace的编码格式： Windows-&g
基础篇--resources资源不懂事的小屁孩 android
最近一直在做java开发，偶尔敲点android代码，突然发现有些基础给忘记了，今天用半天时间温顾一下resources的资源。 String.xml 字符串资源涉及国际化问题 http://www.2cto.com/kf/201302/190394.html string-array
接上篇补上window平台自动上传证书文件的批处理问卷酷的飞上天空 window
@echo off : host=服务器证书域名或ip，需要和部署时服务器的域名或ip一致 ou=公司名称, o=公司名称 set host=localhost set ou=localhost set o=localhost set password=123456 set validity=3650 set salias=s
企业物联网大潮涌动：如何做好准备？蓝儿唯美企业
物联网的可能性也许是无限的。要找出架构师可以做好准备的领域然后利用日益连接的世界。尽管物联网（IoT）还很新，企业架构师现在也应该为一个连接更加紧密的未来做好计划，而不是跟上闸门被打开后的集成挑战。“问题不在于物联网正在进入哪些领域，而是哪些地方物联网没有在企业推进，” Gartner研究总监Mike Walker说。 Gartner预测到2020年物联网设备安装量将达260亿，这些设备在全
spring学习——数据库（mybatis持久化框架配置） a-john mybatis
Spring提供了一组数据访问框架，集成了多种数据访问技术。无论是JDBC，iBATIS(mybatis)还是Hibernate，Spring都能够帮助消除持久化代码中单调枯燥的数据访问逻辑。可以依赖Spring来处理底层的数据访问。 mybatis是一种Spring持久化框架，要使用mybatis，就要做好相应的配置： 1，配置数据源。有很多数据源可以选择，如：DBCP，JDBC，aliba
Java静态代理、动态代理实例 aijuans Java静态代理
采用Java代理模式，代理类通过调用委托类对象的方法，来提供特定的服务。委托类需要实现一个业务接口，代理类返回委托类的实例接口对象。按照代理类的创建时期，可以分为：静态代理和动态代理。所谓静态代理：　指程序员创建好代理类，编译时直接生成代理类的字节码文件。所谓动态代理：　在程序运行时，通过反射机制动态生成代理类。一、静态代理类实例： 1、Serivce.ja
Struts1与Struts2的12点区别 asia007 Struts1与Struts2
1) 在Action实现类方面的对比：Struts 1要求Action类继承一个抽象基类；Struts 1的一个具体问题是使用抽象类编程而不是接口。Struts 2 Action类可以实现一个Action接口，也可以实现其他接口，使可选和定制的服务成为可能。Struts 2提供一个ActionSupport基类去实现常用的接口。即使Action接口不是必须实现的，只有一个包含execute方法的P
初学者要多看看帮助文档不要用js来写Jquery的代码百合不是茶 jquery js
解析json数据的时候需要将解析的数据写到文本框中, 出现了用js来写Jquery代码的问题; 1, JQuery的赋值有问题代码如下: data.username 表示的是: 网易 $("#use
经理怎么和员工搞好关系和信任 bijian1013 团队项目管理管理
产品经理应该有坚实的专业基础，这里的基础包括产品方向和产品策略的把握，包括设计，也包括对技术的理解和见识，对运营和市场的敏感，以及良好的沟通和协作能力。换言之，既然是产品经理，整个产品的方方面面都应该能摸得出门道。这也不懂那也不懂，如何让人信服？如何让自己懂？就是不断学习，不仅仅从书本中，更从平时和各种角色的沟通
如何为rich:tree不同类型节点设置右键菜单 sunjing contextMenu tree Richfaces
组合使用target和targetSelector就可以啦，如下： <rich:tree id="ruleTree" value="#{treeAction.ruleTree}" var="node" nodeType="#{node.type}" selectionChangeListener=&qu
【Redis二】Redis2.8.17搭建主从复制环境 bit1129 redis
开始使用Redis2.8.17 Redis第一篇在Redis2.4.5上搭建主从复制环境，对它的主从复制的工作机制，真正的惊呆了。不知道Redis2.8.17的主从复制机制是怎样的，Redis到了2.4.5这个版本，主从复制还做成那样，Impossible is nothing! 本篇把主从复制环境再搭一遍看看效果，这次在Unbuntu上用官方支持的版本。 Ubuntu上安装Red
JSONObject转换JSON--将Date转换为指定格式白糖_ JSONObject
项目中，经常会用JSONObject插件将JavaBean或List<JavaBean>转换为JSON格式的字符串，而JavaBean的属性有时候会有java.util.Date这个类型的时间对象，这时JSONObject默认会将Date属性转换成这样的格式： {"nanos":0,"time":-27076233600000,
JavaScript语言精粹读书笔记 braveCS JavaScript
【经典用法】： //①定义新方法 Function .prototype.method=function(name, func){ this.prototype[name]=func; return this; } //②给Object增加一个create方法，这个方法创建一个使用原对
编程之美-找符合条件的整数用字符串来表示大整数避免溢出 bylijinnan 编程之美
import java.util.LinkedList; public class FindInteger { /** * 编程之美找符合条件的整数用字符串来表示大整数避免溢出 * 题目：任意给定一个正整数N，求一个最小的正整数M(M>1)，使得N*M的十进制表示形式里只含有1和0 * * 假设当前正在搜索由0，1组成的K位十进制数
读书笔记 chengxuyuancsdn 读书笔记
1、Struts访问资源 2、把静态参数传递给一个动作 3、<result>type属性 4、s:iterator、s:if c:forEach 5、StringBuilder和StringBuffer 6、spring配置拦截器 1、访问资源 (1)通过ServletActionContext对象和实现ServletContextAware,ServletReque
[通讯与电力]光网城市建设的一些问题 comsci 问题
信号防护的问题,前面已经说过了,这里要说光网交换机与市电保障的关系我们过去用的ADSL线路,因为是电话线,在小区和街道电力中断的情况下,只要在家里用笔记本电脑+蓄电池,连接ADSL,同样可以上网........
oracle 空间RESUMABLE daizj oracle 空间不足 RESUMABLE 错误挂起
空间RESUMABLE操作转 Oracle从9i开始引入这个功能，当出现空间不足等相关的错误时，Oracle可以不是马上返回错误信息，并回滚当前的操作，而是将操作挂起，直到挂起时间超过RESUMABLE TIMEOUT，或者空间不足的错误被解决。这一篇简单介绍空间RESUMABLE的例子。第一次碰到这个特性是在一次安装9i数据库的过程中，在利用D
重构第一次写的线程池 dieslrae 线程池 python
最近没有什么学习欲望,修改之前的线程池的计划一直搁置,这几天比较闲,还是做了一次重构,由之前的2个类拆分为现在的4个类. 1、首先是工作线程类:TaskThread,此类为一个工作线程,用于完成一个工作任务,提供等待(wait),继续(proceed),绑定任务(bindTask)等方法 #!/usr/bin/env python # -*- coding:utf8 -*-
C语言学习六指针 dcj3sjt126com c
初识指针，简单示例程序： /* 指针就是地址，地址就是指针地址就是内存单元的编号指针变量是存放地址的变量指针和指针变量是两个不同的概念但是要注意：通常我们叙述时会把指针变量简称为指针，实际它们含义并不一样 */ # include <stdio.h> int main(void) { int * p; // p是变量的名字， int *
yii2 beforeSave afterSave beforeDelete dcj3sjt126com delete
public function afterSave($insert, $changedAttributes) { parent::afterSave($insert, $changedAttributes); if($insert) { //这里是新增数据 } else { //这里是更新数据 } }
timertask shuizhaosi888 timertask
java.util.Timer timer = new java.util.Timer(true); // true 说明这个timer以daemon方式运行（优先级低， // 程序结束timer也自动结束），注意，javax.swing // 包中也有一个Timer类，如果import中用到swing包， // 要注意名字的冲突。 TimerTask task = new
Spring Security（13）——session管理 234390216 session Spring Security 攻击保护超时
session管理目录 1.1 检测session超时 1.2 concurrency-control 1.3 session 固定攻击保护
公司项目NODEJS实践0.3[ mongo / session ...] 逐行分析JS源代码 mongodb session nodejs
http://www.upopen.cn 一、前言书接上回，我们搭建了WEB服务端路由、模板等功能，完成了register 通过ajax与后端的通信，今天主要完成数据与mongodb的存取，实现注册 / 登录 /
pojo.vo.po.domain区别 LiaoJuncai java VO POJO javabean domain
　　POJO = "Plain Old Java Object"，是MartinFowler等发明的一个术语，用来表示普通的Java对象，不是JavaBean, EntityBean 或者 SessionBean。POJO不但当任何特殊的角色，也不实现任何特殊的Java框架的接口如，EJB， JDBC等等。　　　　即POJO是一个简单的普通的Java对象，它包含业务逻辑
Windows Error Code OhMyCC windows
0 操作成功完成. 1 功能错误. 2 系统找不到指定的文件. 3 系统找不到指定的路径. 4 系统无法打开文件. 5 拒绝访问. 6 句柄无效. 7 存储控制块被损坏. 8 存储空间不足, 无法处理此命令. 9 存储控制块地址无效. 10 环境错误. 11 试图加载格式错误的程序. 12 访问码无效. 13 数据无效. 14 存储器不足, 无法完成此操作. 15 系
在storm集群环境下发布Topology roadrunners 集群 storm topology spout bolt
storm的topology设计和开发就略过了。本章主要来说说如何在storm的集群环境中，通过storm的管理命令来发布和管理集群中的topology。 1、打包打包插件是使用maven提供的maven-shade-plugin，详细见maven-shade-plugin。 <plugin> <groupId>org.apache.maven.
为什么不允许代码里出现“魔数” tomcat_oracle java
　　在一个新项目中，我最先做的事情之一，就是建立使用诸如Checkstyle和Findbugs之类工具的准则。目的是制定一些代码规范，以及避免通过静态代码分析就能够检测到的bug。　　迟早会有人给出案例说这样太离谱了。其中的一个案例是Checkstyle的魔数检查。它会对任何没有定义常量就使用的数字字面量给出警告，除了-1、0、1和2。　　很多开发者在这个检查方面都有问题，这可以从结果
zoj 3511 Cake Robbery(线段树) 阿尔萨斯线段树
题目链接：zoj 3511 Cake Robbery 题目大意：就是有一个N边形的蛋糕，切M刀，从中挑选一块边数最多的，保证没有两条边重叠。解题思路：有多少个顶点即为有多少条边，所以直接按照切刀切掉点的个数排序，然后用线段树维护剩下的还有哪些点。 #include <cstdio> #include <cstring> #include <vector&

Spark 3.0 - 4.Pipeline 管道的工作流程

一.引言

二.基本组件

三.Pipeline 基本流程

1.训练 Pipeline - Estimator

2.预测 Pipeline - Transformer

四.Pipeline 分解与构造

1.DataFrame

2.Transformer1 - Tokenizer

3.Transformer2 - HashingTF

4.Estimator - LR

5.Pipeline With ParamMap - Estimator

5.1.配置 Pipeline

5.2.配置 ParamMap

5.3 Pipeline.fit

6.Pipeline With ParamMap - Transformer

6.1 模型存储与加载

6.2 Model transformer

7.完整代码

五.总结

你可能感兴趣的:(Spark,3.0,x,机器学习,Scala,spark3.0,ML,pipeline)