BIT_666

Spark 3.0 - 5.ML Pipeline 实战之电影影评情感分析

一.引言

二.Stage1 - 数据准备

1.数据样式

2.读取数据

3.平均得分与 Top 5

4.训练集、测试集划分

三.Stage-2 - Comment 分词

1.Tokenizer ‍♀️

2.JieBa 分词 ‍♀️

2.1 Jieba 分词示例

2.2 自定义 Jieba 分词 Transformer

四.Stage-3 HashingTF 向量化

五.Stage-4 通过 LR 构建 Pipeline

六.Stage-5 模型存储与复用

1.模型存储与加载

2.预测评论情感

七.总结

一.引言

上一文中讲到了如何构建 Pipeline - Estimator 训练模型以及通过 Pipeline - Transfomer 预测数据，本文基于用户豆瓣影评与评分构建二分类模型判断评论属于正向或者负向，属于基础的 NLP 二分类问题，构建该模型需要如下 Stage：

Stage1 - 数据清洗并构建 DataFrame

Stage2 - 分词工具对用户影评进行分词

Stage3 - HashingTF 将分词向量化供后续训练

Stage4 - LogisticRegression 实现二分类模型

Stage5 - 存储 Pipeline Model 并读取模型预测

后续将基于这 5 个 Stage 介绍。

- 星际穿越剧照

二.Stage1 - 数据准备

1.数据样式

首先看下原始数据的样式：

数据共分为3列，分别为 Movie [影名]、Score [评分] 与 Comment [评论]，由于本文的目标是用 LR 实现评论情感的二分类，所以我们需要人工指定一个 Label，0 代表负向评价，1 代表正向评价，基于一般认知，我们将 Score > 3 的影评认定为正向，即 Label 为 1，<= 3 则认为负向，Label = 0。

2.读取数据

使用 sc 将数据读取为 RDD 随后调用隐式转换切换为 DF，这里 positive 就是上面提到的，> 3 的 comment Label = 1.0，<= 3 的 Label 为 0.0。

    val commentAndLabel =  spark.sparkContext.textFile(inputPath).mapPartitions(partition => {

      partition.map(line => {
        try {
          val info = line.split("##")
          val movieName = info(0)
          val score = info(1)
          val positive = if (score != "null" && score.toInt > 3) 1.0 else 0.0
          val oriComment = info(2)
          (movieName, score, positive, oriComment)
        } catch {
          case _: Throwable =>
            null
        }
      })

    }).filter(_ != null)

    val data = spark.createDataFrame(commentAndLabel)
      .toDF("movie", "score", "label", "comment")

3.平均得分与 Top 5

基于上述数据 DataFrame，我们先用前面的 Spark Sql 语句统计下每个 Movie 的平均分并查看当前的 Top 5 电影。

    // 平均分 Map
    data.createOrReplaceTempView("MovieComment")
    val avgScore = spark.sql("select movie, avg(score) from MovieComment group by movie")
      .collect()
      .map(row => (row.getString(0), row.getDouble(1)))
      .toMap

    println(s"Total Movie Num: ${avgScore.size}")

    avgScore.toArray.sortBy(-_._2).slice(0, 5).zipWithIndex.foreach{ case (movieInfo, index) => {
      println(s"Top${index + 1} - <<${movieInfo._1}>> Avg: ${avgScore.apply(movieInfo._1)}")
    }}

共有 255 部电影，其中排名最高的是陈导的霸王别姬，平均分达到了 4.74

4.训练集、测试集划分

对数据有整体了解后，我们首先划分训练集与数据集，前面提到过 randomSplit 函数可以配合比例轻松实现划分，这里采用雪碧的比例。

    // 划分训练集、测试集
    val trainAndTestRatio = Array(0.8, 0.2)
    val pipelineData = data.randomSplit(trainAndTestRatio, 99)
    val trainData = pipelineData(0)
    val testData = pipelineData(1)

    // 相关统计
    println(s"AllSamples: ${commentAndLabel.count()} TrainSample: ${trainData.count} TestSamples: ${testData.count()}")

可以看到 255 部电影共包含 50590 条 comment 数据，其中训练样本 4w+，测试样本 1w+。基本的 Dataframe 已经搞定，下面我们整理 Transformer 与 Estimator 并构建 Pipeline。

AllSamples: 50590 TrainSample: 40373 TestSamples: 10217

三.Stage-2 - Comment 分词

1.Tokenizer ‍♀️

先拿上篇文章使用的 Tokenizer 试试水：

    val tokenizer = new Tokenizer()
      .setInputCol("comment")
      .setOutputCol("output")
    tokenizer.transform(trainData).select("movie", "comment", "output").show(10)

完了，BBQ 了呀，Tokenizer 只能分割空格隔开的语句，当前场景下无明显空格分隔符，所以都是一整句当做一个词，因此放弃该方案。

2.JieBa 分词 ‍♀️

Java 有很多分词工具，这里选择之前 python 也用到过的 JieBa，还有 ikanalyzer、Ansj 等等，大家也可以多多尝试。



    com.huaban
    jieba-analysis
    1.0.2



	org.ansj
	ansj_seg
	5.1.6



     com.janeluo
     ikanalyzer
     2012_u6

2.1 Jieba 分词示例

    val jiebaTokenizer = new JiebaTokenizer()
      .setInputCol("comment")
      .setOutputCol("output")
    jiebaTokenizer.transform(trainData).select("movie", "comment", "output").show(10)

这里 JiebaTokenizer 为我们自定义的分词器，内部调用 Jieba 实现分词处理并过滤 StopWords，这下看下来比上面好多了，但是有一些人名或者物品识别也不是太好，这与分词器的内部中文词库大小相关联，这里我们先凑乎用一下。

2.2 自定义 Jieba 分词 Transformer

  val jieba = new JiebaSegmenter()
  jieba.sentenceProcess(text)

初始化分词器并调用 setenceProcess 方法即可实现分词效果，但是官方未提供原生 jiebaTokenizer，所以只能将分词步骤提前到数据准备阶段的 RDD MapPartition 中才能达到分词的效果：

这样虽然简单，但是违背了 Pipeline 的初衷，我们不得不把第一步 Tokenizer 分词的 Stage 从 Pipeline 中提出，为了 Pipeline 的统一性，我们继承 org.apache.spark.ml.UnaryTransformer 自定义实现 JiebaTokenizer Transformer：

import com.huaban.analysis.jieba.JiebaSegmenter
import org.apache.spark.annotation.Since
import org.apache.spark.ml.UnaryTransformer
import org.apache.spark.ml.feature.{HashingTF, Tokenizer}
import org.apache.spark.ml.param.Param
import org.apache.spark.ml.util.{DefaultParamsReadable, DefaultParamsWritable, Identifiable, MLReader, MLWriter}
import org.apache.spark.sql.types._

class JiebaTokenizer(override val uid: String)
  extends UnaryTransformer[String, Array[String], JiebaTokenizer] with DefaultParamsWritable with java.io.Serializable {

  lazy val jieba = new JiebaSegmenter()

  def this() = this(Identifiable.randomUID("JiebaTokenizer"))

  val inputPath = "./stopwords.txt"

  val stopWords = scala.io.Source.fromFile(inputPath)
    .getLines().toSet

  override protected def outputDataType: DataType = new ArrayType(StringType, true)

  override protected def validateInputType(inputType: DataType): Unit = {
    require(inputType == DataTypes.StringType,
      s"Input type must be string type but got $inputType."
    )
  }

  override protected def createTransformFunc: String => Array[String] = {
    parseContent
  }

  /**
    * Jieba 分词
    */
  private def parseContent(text: String): Array[String] = {
    if (text == null || text.isEmpty) {
      return Array.empty[String]
    }
    jieba.sentenceProcess(text).toArray().map(_.toString).filter(str => !stopWords.contains(str))
  }

}

object JiebaTokenizer extends DefaultParamsReadable[JiebaTokenizer] {

  override def load(path: String): JiebaTokenizer = {
    super.load(path)
  }

}

关于如何在 Spark ML 中继承 UnaryTransformer 实现自定义 Transformer 博主会在下一篇文章详细讲解一下每个函数的使用方法与解释，有需要的同学可以关注下~

四.Stage-3 HashingTF 向量化

HashingTF 负责将原始分词文本进行词频统计并 Hash 得到数组索引，这里读取前面 Jieba 分词生成的 output Col 并将新的结果输出至 vector Col，需要注意 numFeatures 的设置，实际场景下应该基于自己分词后去重的分词词库大小来决定该参数，这里由于我们评论五花八门，所以不考虑去重词库大小，直接设置为 20w。

    val hashingTF = new HashingTF()
      .setInputCol("output")
      .setOutputCol("vector")
      .setNumFeatures(200000)

    hashingTF.transform(jiebaTokenizer.transform(trainData)).select("movie", "comment", "vector").show(10)

通过两步 Transformer，向量化数据终于搞定，下面搭配 Estimator - LR 即可构成完整 Pipeline。

五.Stage-4 通过 LR 构建 Pipeline

LR 前两篇文章都有过讲解，这里不再赘述，直接生成 Pipeline：

    val lr = new LogisticRegression()

    val pipeline = new Pipeline()
      .setStages(Array(jiebaTokenizer, hashingTF, lr))

    val paramMap = ParamMap(lr.maxIter -> 20, lr.regParam -> 0.01)
      .put(jiebaTokenizer.inputCol -> "comment", jiebaTokenizer.outputCol -> "words")
      .put(hashingTF.numFeatures -> 200000, hashingTF.inputCol -> "words", hashingTF.outputCol -> "features")

    // 调用fit（）函数，训练数据
    val model = pipeline.fit(trainData, paramMap)

paramMap 中分别为 JiebaTokenizer、HashingTF 与 LR 配置相关参数，原始 comment 将先转化为 words 列，随后转化为 features 列，配合最先生成的情感 Label 供 LR 训练模型。

六.Stage-5 模型存储与复用

经过一系列操作，我们的 Pipeline Model 终于构建完毕，下面将训练好的模型存储，并在需要使用的时候 load 加载完成预测。

1.模型存储与加载

    println(s"Start Save Model: ${System.currentTimeMillis()}")
    val output = "./output"
    model.write.overwrite().save(output)
    val newModel = PipelineModel.load(output)
    println(s"End Save Model: ${System.currentTimeMillis()}")

采用 model.write 实现模型存储，如果需要覆盖之前的模型可以增加 overwrite 选项，读取模型则是通过 org.apache.spark.ml.PipelineModel 类实现。

2.预测评论情感

上面留了 20% 的数据作为测试集，下面测试下我们的情感模型效果如何：

    // 在测试集上进行预测
    newModel.transform(testData.sample(0.1, 99))
      .select("movie", "comment", "score", "probability", "prediction")
      .collect()
      .foreach { case Row(movie: String, comment: String, score: String, prob: Vector, prediction: Double) =>
        println(s"($movie, $comment) --> real=$score avg=${avgScore(movie)} prob=$prob, prediction=$prediction")
      }

分别打印电影名与原始评论作为文本信息，打印真实分数与平均分数作为当前电影的真实评价，最终打印预测概率，0 为负向评论代表用户不喜欢该电影，1 为正向评论代表用户喜欢该电影，理想情况下，预测概率应该与用户的原始评价分有关，因为给的星越高，代表评价越高，评论里的描述也越正向，反之同理。

这里简单挑几个样本看看模型效果如何：

✅ A.为什么又是“一个崽的神奇冒险”，那么点儿耍帅镜头想糊弄谁呢?

real=3，avg=2.17，加上略带消极的评论，预测为 0 基本正确

❎ B.还不错,真实事件

real=3，avg=1.56，单看分数应该是烂片无疑了，但是由于评论正向，所以预测为 1，虽然与label不符合，但是感觉也可以算正确

✅ C.无聊透顶，近乎儿戏，仍旧是个人目前为止最讨厌的一部漫威

负向评论无疑，real=2，预测为 0，预测正确

❎ D.难得看到漫威拍严肃题材，一个时刻生活在谎言中的封闭国家，一个遭受外来文化冲击的封建体制，在超英片中已经是很有追求了

中肯中带有一些正向，real 也达到了 4 分，但是正向的概率却只有 0.04，这里失真比较严重

七.总结

上面通过 Spark ML Pipeline 构建了简单的 NLP 情感分类模型，可以看到评论场景下，一些评论与实际打分存在差异，可能用户不喜欢却依旧打了高分，或者存在粉丝刷榜随意打高分的情况，这些在真实场景下都会对模型带来噪声，影响模型的学习。除此之外，这里除了通过简单的二分类实现情感分析，还可以使用多分类模型预测电影评星 [1-5] 或者使用线性、多项式回归预测电影得分，这涉及到多分类和回归的知识，后面有机会我们也会介绍。

It takes a strong man to save himself, and a great man to save another.

最后留下自己最喜欢的 <<肖申克的救赎>> ，大家有最喜欢的电影也可以留在评论区，一起分享 (*^▽^*)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
C语言宏函数南林yan C语言 c语言
一、什么是宏函数？通过宏定义的函数是宏函数。如下，编译器在预处理阶段会将Add(x,y)替换为((x)*(y))#defineAdd(x,y)((x)*(y))#defineAdd(x,y)((x)*(y))intmain(){inta=10;intb=20;intd=10;intc=Add(a+d,b)*2;cout<
C语言如何定义宏函数？小九格物 c语言
在C语言中，宏函数是通过预处理器定义的，它在编译之前替换代码中的宏调用。宏函数可以模拟函数的行为，但它们不是真正的函数，因为它们在编译时不会进行类型检查，也不会分配存储空间。宏函数的定义通常使用#define指令，后面跟着宏的名称和参数列表，以及宏展开后的代码。宏函数的定义方式：1.基本宏函数：这是最简单的宏函数形式，它直接定义一个表达式。#defineSQUARE(x)((x)*(x))2.带参
swagger访问路径 igotyback swagger
Swagger2.x版本访问地址：http://{ip}:{port}/{context-path}/swagger-ui.html{ip}是你的服务器IP地址。{port}是你的应用服务端口，通常为8080。{context-path}是你的应用上下文路径，如果应用部署在根路径下，则为空。Swagger3.x版本对于Swagger3.x版本（也称为OpenAPI3）访问地址：http://{ip
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
SpringBlade dict-biz/list 接口 SQL 注入漏洞文章永久免费只为良心 oracle 数据库
SpringBladedict-biz/list接口SQL注入漏洞POC:构造请求包查看返回包你的网址/api/blade-system/dict-biz/list?updatexml(1,concat(0x7e,md5(1),0x7e),1)=1漏洞概述在SpringBlade框架中，如果dict-biz/list接口的后台处理逻辑没有正确地对用户输入进行过滤或参数化查询（PreparedSta
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
Linux sh命令 fengyehongWorld Linux linux
目录一.基本语法二.选项2.1-c字符串中读取内容，并执行2.1.1基本用法2.1.2获取当前目录下失效的超链接2.2-x每个命令执行之前，将其打印出来2.3结合Here文档使用一.基本语法⏹Linux和Unix系统中用于执行shell脚本或运行命令的命令。sh[选项][脚本文件][参数...]⏹选项-c：从字符串中读取内容，并执行。-x：在每个命令执行之前，将其打印出来。-s：从标准流中读取内容
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
CentOS 7官方源停服，配置本机光盘yum源码哝小鱼 linux运维 centos linux 运维
1、挂载系统光盘mkdir/mnt/isomount-oloop/tools/CentOS-7-x86_64-DVD-1810.iso/mnt/isocd/mnt/iso/Packages/rpm-ivh/mnt/iso/Packages/yum-utils-1.1.31-50.el7.noarch.rpm(图形界面安装，默契已安装）如安装yum-utils依赖错误，按提示安装依赖包rpm-ivh
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
利用等价无穷小替换求极限（二）肇事小姐
2limx➡️0（（1-cosx）/x^2）分析：当x➡️0时，cosx➡️1，故此极限其实满足0/0的形式故第一感觉可以用洛必达法则求解，分子求一次导=sinx，分母求一次导=2x分子、分母求2次导数分别=cosx，=2，故最后答案=1/2另一种方法，考虑将1-cosx视作整体，用等价无穷小替换。利用1-cosx～2（sin（x/2）^2）推导cosx=cos（ｘ/2+x/2）利用三角和差公式=
粒子群优化 (PSO) 在三维正弦波函数中的应用 subject625Ruben 机器学习人工智能 matlab 算法
在这篇博客中，我们将展示如何使用粒子群优化（PSO）算法求解三维正弦波函数，并通过增加正弦波扰动，使优化过程更加复杂和有趣。本文将介绍目标函数的定义、PSO参数设置以及算法执行的详细过程，并展示搜索空间中的动态过程和收敛曲线。1.目标函数定义我们使用的目标函数是一个三维正弦波函数，定义如下：objectiveFunc=@(x)sin(sqrt(x(1).^2+x(2).^2))+0.5*sin(5
✔2848. 与车相交的点程序员小小聪力扣 leetcode
代码实现：方法一：哈希表#definefmax(a,b)((a)>(b)?(a):(b))intnumberOfPoints(int**nums,intnumsSize,int*numsColSize){inthash[101]={0};intmax=0;for(inti=0;i=x){j--;}if(i=nums[i][0]){r=r>nums[i][1]?r:nums[i][1];}else{
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
推荐3家毕业AI论文可五分钟一键生成！文末附免费教程！小猪包333 写论文人工智能 AI写作深度学习计算机视觉
在当前的学术研究和写作领域，AI论文生成器已经成为许多研究人员和学生的重要工具。这些工具不仅能够帮助用户快速生成高质量的论文内容，还能进行内容优化、查重和排版等操作。以下是三款值得推荐的AI论文生成器：千笔-AIPassPaper、懒人论文以及AIPaperPass。千笔-AIPassPaper千笔-AIPassPaper是一款基于深度学习和自然语言处理技术的AI写作助手，旨在帮助用户快速生成高质
AI论文题目生成器怎么用？9款论文写作网站简单3步搞定小猪包333 写论文人工智能深度学习计算机视觉
在当今信息爆炸的时代，AI写作工具的出现极大地提高了写作效率和质量。本文将详细介绍9款优秀的论文写作网站，并重点推荐千笔-AIPassPaper。一、千笔-AIPassPaper千笔-AIPassPaper是一款功能强大的AI论文生成器，基于最新的自然语言处理技术，能够一键生成高质量的毕业论文、开题报告等文本内容。它不仅提供智能选题、文献推荐和论文润色等功能，还具有较高的用户评价。其文献综述生成功
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
【2023年】云计算金砖牛刀小试6 geekgold 云计算服务器网络 kubernetes 容器
第一套【任务1】私有云服务搭建[10分]【题目1】基础环境配置[0.5分]使用提供的用户名密码，登录提供的OpenStack私有云平台，在当前租户下，使用CentOS7.9镜像，创建两台云主机，云主机类型使用4vCPU/12G/100G_50G类型。当前租户下默认存在一张网卡，自行创建第二张网卡并连接至controller和compute节点（第二张网卡的网段为10.10.X.0/24，X为工位号
Python 推导式(Comprehensions) 戒灵
1,列表推导式num=[1,2,-5,10,-7,5,7,-1]filtered_and_squared=[x**2forxinnumifx>0]print(filtered_and_squared)迭代器(iterator)遍历输入序列num的每个成员x断言式判断每个成员是否大于零如果成员大于零，则被交给输出表达式，平方之后成为输出列表的成员。列表推导式被封装在一个列表中，所以很明显它能够立即生
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

Spark 3.0 - 5.ML Pipeline 实战之电影影评情感分析

一.引言

二.Stage1 - 数据准备

1.数据样式

2.读取数据

3.平均得分与 Top 5

4.训练集、测试集划分

三.Stage-2 - Comment 分词

1.Tokenizer ‍♀️

2.JieBa 分词 ‍♀️

2.1 Jieba 分词示例

2.2 自定义 Jieba 分词 Transformer

四.Stage-3 HashingTF 向量化

五.Stage-4 通过 LR 构建 Pipeline

六.Stage-5 模型存储与复用

1.模型存储与加载

2.预测评论情感

七.总结

你可能感兴趣的:(Spark,3.0,x,机器学习,Scala,spark,人工智能,自然语言处理)