青年老年程序员

Java应用|使用Apache Spark MLlib构建机器学习模型

如果您觉得本博客的内容对您有所帮助或启发，请关注我的博客，以便第一时间获取最新技术文章和教程。同时，也欢迎您在评论区留言，分享想法和建议。谢谢支持！

一、引言

1.1 Spark MLlib简介

Apache Spark MLlib（Machine Learning library）是一个开源机器学习框架，建立在Apache Spark之上，支持分布式计算和大规模数据处理。它提供了许多经典机器学习算法和工具，如分类、回归、聚类、协同过滤、特征提取和数据预处理等。

Spark MLlib使用基于DataFrame的API，提供了一个易于使用的高级API，使得用户能够快速构建、训练和调整机器学习模型，而无需担心底层分布式计算的复杂性。它还支持分布式模型选择和调整，以及与其他Apache Spark组件的集成，如Spark SQL、Spark Streaming和GraphX。

Spark MLlib还提供了Python、Java和Scala等多种编程语言的API，使得不同的开发人员可以使用他们最喜欢的编程语言来开发机器学习应用程序。

总之，Spark MLlib是一个非常强大和灵活的机器学习框架，适用于处理大规模数据和需要分布式计算的场景。

1.2 为什么选择使用Spark MLlib

处理大规模数据：Spark MLlib支持分布式计算和大规模数据处理，使得处理大规模数据集变得容易。
丰富的算法库：Spark MLlib包含了许多经典的机器学习算法和工具，如分类、回归、聚类、协同过滤、特征提取和数据预处理等，覆盖了大部分机器学习应用场景。
高性能：Spark MLlib基于Apache Spark，使用内存计算和RDD（弹性分布式数据集）等优化技术，可以在处理大规模数据时提供高性能和可扩展性。
易于使用：Spark MLlib提供了一个易于使用的高级API，使得用户可以快速构建、训练和调整机器学习模型，而无需担心底层分布式计算的复杂性。
多语言支持：Spark MLlib支持多种编程语言的API，包括Python、Java和Scala等，使得不同的开发人员可以使用他们最喜欢的编程语言来开发机器学习应用程序。

二、Spark MLlib基础

2.1 RDD和DataFrame的比较

数据类型：基础RDD可以包含任意类型的数据，包括对象、原始类型、数组和集合等；DataFrame则是一种表格化的数据结构，其数据类型必须是统一的，且可以使用SQL-like的语法进行查询。
内存计算：DataFrame利用内存计算技术，相比基础RDD更加高效。
可读性：DataFrame比基础RDD更加易于阅读和理解，可以使用SQL-like的语法进行查询，更加直观。
类型安全：DataFrame是类型安全的，可以在编译期间捕获类型错误，避免运行时错误；而基础RDD则是类型不安全的，需要在运行时进行类型检查。
执行计划：基础RDD提供了更加灵活的执行计划，用户可以控制计算的方式和顺序，但这也增加了开发复杂度；而DataFrame则有一个自动优化的执行计划，可以自动优化查询性能。

总之，基础RDD更加灵活和可控，但需要开发人员自己掌握计算的方式和顺序；而DataFrame则更加易于使用和高效，适合快速开发和迭代。选择使用哪种数据结构，取决于具体的场景和需求。

2.2 数据准备和预处理

在使用Spark MLlib进行机器学习之前，需要对原始数据进行预处理和准备。以下是一些常见的数据准备和预处理步骤：

数据清洗：删除缺失值、处理异常值和重复值等。
特征选择：选择对模型有用的特征，去除冗余和无关的特征。
特征缩放：对特征进行缩放，以便它们具有相似的范围和重要性。
特征变换：将原始特征转换为更有意义的特征，如使用对数、指数、平方根等函数进行变换。
特征归一化：将特征值归一化为标准正态分布，使得模型更容易学习。
数据转换：将数据转换为适合模型训练的格式，如将分类变量转换为二进制变量、将文本转换为向量等。

在Spark MLlib中，可以使用各种预处理和数据准备工具，如：

Imputer：用于填充缺失值。
StandardScaler：用于特征缩放和归一化。
VectorAssembler：用于将多个特征列组合成一个向量列。
OneHotEncoder：用于将分类变量转换为二进制变量。
StringIndexer和IndexToString：用于将字符串类型的变量转换为数字类型的变量。
Tokenizer和StopWordsRemover：用于将文本转换为向量。

总之，在使用Spark MLlib进行机器学习之前，需要对原始数据进行预处理和准备。Spark MLlib提供了许多工具和功能，可以帮助我们轻松地完成这些任务。

2.3 特征提取和转换

在Spark MLlib中，有许多常用的特征提取和转换工具，包括：

Tokenizer：用于将文本转换为单词或词条。
StopWordsRemover：用于去除文本中的停用词，如“the”、“and”等。
CountVectorizer：用于将文本转换为词频向量。
HashingTF：用于将文本转换为哈希向量，可以减少维度并提高计算效率。
IDF：用于计算逆文档频率，可以减少常见词语的权重，提高稀有词语的权重。
Word2Vec：用于将文本转换为向量，可以捕捉词语之间的语义关系。
PCA：用于将高维特征空间降维，可以提高计算效率并避免过拟合。
StringIndexer：用于将分类变量转换为数字类型的变量。
OneHotEncoder：用于将数字类型的变量转换为二进制变量。

以上这些工具都可以用于特征提取和转换，帮助我们将原始数据转换为模型可以处理的格式。我们可以根据具体的任务和数据类型选择适当的工具，以获得更好的结果。值得注意的是，这些工具的使用通常需要进行适当的参数设置和调整，以达到最佳的效果。

三、监督学习

3.1 分类问题

3.1.1 逻辑回归

逻辑回归是一种二元分类模型，它的目标是根据已知数据对一个事物进行分类。逻辑回归的输出是一个概率值，代表该事物属于某个类别的概率。如果概率值大于阈值，则将其分类为正类，否则分类为负类。

在 Spark MLlib 中，可以使用 LogisticRegression 类来实现逻辑回归。下面是一个 Java 版本的示例代码：

pom引用：


    
    
      org.apache.spark
      spark-core_2.12
      3.2.0
    
    
      org.apache.spark
      spark-sql_2.12
      3.2.0
    
    
      org.apache.spark
      spark-mllib_2.12
      3.2.0
    

    
    
      org.apache.spark
      spark-streaming_2.12
      3.2.0
      test
    
    
      org.apache.spark
      spark-streaming-kafka-0-10_2.12
      3.2.0
      test
    
    
      org.apache.spark
      spark-sql-kafka-0-10_2.12
      3.2.0
      test

import org.apache.spark.ml.classification.LogisticRegression;
import org.apache.spark.ml.classification.LogisticRegressionModel;
import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator;
import org.apache.spark.ml.feature.VectorAssembler;
import org.apache.spark.ml.linalg.Vector;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class LogisticRegressionDemo {

    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .appName("LogisticRegressionDemo")
                .master("local[*]")
                .getOrCreate();

        // 加载数据
        Dataset data = spark.read().format("libsvm").load("data/sample_libsvm_data.txt");

        // 将特征向量转换成一列
        VectorAssembler assembler = new VectorAssembler()
                .setInputCols(new String[]{"features"})
                .setOutputCol("feature");

        Dataset newData = assembler.transform(data).select("label", "feature");

        // 将数据集分为训练集和测试集
        Dataset[] splits = newData.randomSplit(new double[]{0.7, 0.3});
        Dataset trainData = splits[0];
        Dataset testData = splits[1];

        // 创建逻辑回归模型
        LogisticRegression lr = new LogisticRegression();

        // 训练模型
        LogisticRegressionModel lrModel = lr.fit(trainData);

        // 在测试集上进行预测
        Dataset predictions = lrModel.transform(testData);

        // 计算模型评估指标
        BinaryClassificationEvaluator evaluator = new BinaryClassificationEvaluator();
        double auc = evaluator.evaluate(predictions);

        System.out.println("Area under ROC curve = " + auc);

        spark.stop();
    }
}

这个示例代码首先加载了一个 libsvm 格式的数据集，然后将特征向量转换成一列，将数据集分为训练集和测试集，创建逻辑回归模型并训练模型，最后在测试集上进行预测并计算模型评估指标。在这个例子中，我们使用了 BinaryClassificationEvaluator 来计算模型的 AUC 指标，它是评估二元分类器性能的一种常用指标。

需要注意的是，以上代码仅供参考，实际情况可能需要根据数据集的特点和任务的要求进行相应的修改。

3.1.2 决策树

Spark MLlib 分类决策树是一种基于树结构的分类算法，通过一系列特征对数据进行划分和分类。该算法在 Spark MLlib 中的实现采用 CART（Classification And Regression Tree）算法，使用信息熵或 Gini 系数等指标进行特征选择和划分。Spark MLlib 分类决策树可用于二分类、多分类和概率预测问题。

import org.apache.spark.ml.Pipeline;
import org.apache.spark.ml.PipelineModel;
import org.apache.spark.ml.PipelineStage;
import org.apache.spark.ml.classification.DecisionTreeClassificationModel;
import org.apache.spark.ml.classification.DecisionTreeClassifier;
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator;
import org.apache.spark.ml.feature.IndexToString;
import org.apache.spark.ml.feature.StringIndexer;
import org.apache.spark.ml.feature.StringIndexerModel;
import org.apache.spark.ml.feature.VectorAssembler;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class DecisionTreeClassificationExample {
  public static void main(String[] args) {
    SparkSession spark = SparkSession.builder()
      .appName("DecisionTreeClassificationExample")
      .master("local[*]")
      .getOrCreate();

    // 读取数据集
    Dataset data = spark.read().format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("path/to/data.csv");

    // 将标签列转换为数值类型
    StringIndexerModel labelIndexer = new StringIndexer()
      .setInputCol("label")
      .setOutputCol("indexedLabel")
      .fit(data);
    data = labelIndexer.transform(data);

    // 将特征列转换为特征向量
    VectorAssembler featureAssembler = new VectorAssembler()
      .setInputCols(new String[]{"feature1", "feature2", "feature3"})
      .setOutputCol("features");
    data = featureAssembler.transform(data);

    // 将数据集分为训练集和测试集
    Dataset[] splits = data.randomSplit(new double[]{0.7, 0.3}, 12345);
    Dataset trainData = splits[0];
    Dataset testData = splits[1];

    // 创建决策树分类器
    DecisionTreeClassifier dt = new DecisionTreeClassifier()
      .setLabelCol("indexedLabel")
      .setFeaturesCol("features");

    // 将标签数值转换回原始标签
    IndexToString labelConverter = new IndexToString()
      .setInputCol("prediction")
      .setOutputCol("predictedLabel")
      .setLabels(labelIndexer.labels());

    // 创建管道并拟合模型
    Pipeline pipeline = new Pipeline()
      .setStages(new PipelineStage[]{labelIndexer, featureAssembler, dt, labelConverter});
    PipelineModel model = pipeline.fit(trainData);

    // 在测试集上进行预测和评估
    Dataset predictions = model.transform(testData);
    MulticlassClassificationEvaluator evaluator = new MulticlassClassificationEvaluator()
      .setLabelCol("indexedLabel")
      .setPredictionCol("prediction")
      .setMetricName("accuracy");
    double accuracy = evaluator.evaluate(predictions);
    System.out.println("Test Error = " + (1.0 - accuracy));
    // 输出决策树结构
    DecisionTreeClassificationModel treeModel =
    (DecisionTreeClassificationModel) (model.stages()[2]);
    System.out.println("Learned classification tree model:\n" + treeModel.toDebugString());

    spark.stop();
    }
}

以上示例中，我们首先使用 SparkSession 读取 CSV 格式的数据集。然后，使用 StringIndexer 将标签列转换为数值类型，并使用 VectorAssembler 将特征列转换为特征向量。接着，将数据集分为训练集和测试集，并创建 DecisionTreeClassifier 决策树分类器。最后，将管道中的各个阶段组合在一起，拟合模型并在测试集上进行预测和评估。

3.1.3 随机森林

随机森林是一种集成学习算法，它将多棵决策树组合起来，通过投票或平均来决定分类结果。该算法在 Spark MLlib 中的实现使用基于 CART（Classification And Regression Tree）算法的决策树作为基分类器，可以用于二分类、多分类和概率预测问题。

以下是一个基于 Java 的 Spark MLlib 分类随机森林示例：

import org.apache.spark.ml.Pipeline;
import org.apache.spark.ml.PipelineModel;
import org.apache.spark.ml.PipelineStage;
import org.apache.spark.ml.classification.RandomForestClassificationModel;
import org.apache.spark.ml.classification.RandomForestClassifier;
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator;
import org.apache.spark.ml.feature.IndexToString;
import org.apache.spark.ml.feature.StringIndexer;
import org.apache.spark.ml.feature.StringIndexerModel;
import org.apache.spark.ml.feature.VectorAssembler;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class RandomForestClassificationExample {
  public static void main(String[] args) {
    SparkSession spark = SparkSession.builder()
      .appName("RandomForestClassificationExample")
      .master("local[*]")
      .getOrCreate();

    // 读取数据集
    Dataset data = spark.read().format("csv")
      .option("header", "true")
      .option("inferSchema", "true")
      .load("path/to/data.csv");

    // 将标签列转换为数值类型
    StringIndexerModel labelIndexer = new StringIndexer()
      .setInputCol("label")
      .setOutputCol("indexedLabel")
      .fit(data);
    data = labelIndexer.transform(data);

    // 将特征列转换为特征向量
    VectorAssembler featureAssembler = new VectorAssembler()
      .setInputCols(new String[]{"feature1", "feature2", "feature3"})
      .setOutputCol("features");
    data = featureAssembler.transform(data);

    // 将数据集分为训练集和测试集
    Dataset[] splits = data.randomSplit(new double[]{0.7, 0.3}, 12345);
    Dataset trainData = splits[0];
    Dataset testData = splits[1];

    // 创建随机森林分类器
    RandomForestClassifier rf = new RandomForestClassifier()
      .setLabelCol("indexedLabel")
      .setFeaturesCol("features")
      .setNumTrees(10);

    // 将标签数值转换回原始标签
    IndexToString labelConverter = new IndexToString()
      .setInputCol("prediction")
      .setOutputCol("predictedLabel")
      .setLabels(labelIndexer.labels());

    // 创建管道并拟合模型
    Pipeline pipeline = new Pipeline()
      .setStages(new PipelineStage[]{labelIndexer, featureAssembler, rf, labelConverter});
    PipelineModel model = pipeline.fit(trainData);

    // 在测试集上进行预测和评估
    Dataset predictions = model.transform(testData);
    MulticlassClassificationEvaluator evaluator = new MulticlassClassificationEvaluator()
      .setLabelCol("indexedLabel")
      .setPredictionCol("prediction")
      .setMetricName("accuracy");
    double accuracy = evaluator.evaluate(predictions);
    System.out.println("Test Error = " + (1.0 - accuracy));
    // 获取训练好的随机森林模型并打印树的重要性
    RandomForestClassificationModel rfModel = (RandomForestClassificationModel) model.stages()[2];
    System.out.println("Learned classification forest model:\n" + rfModel.toDebugString());

    spark.stop();
  }
}

该示例代码首先使用 SparkSession 读取 CSV 格式的数据集。接下来，使用 StringIndexer 将标签列转换为数值类型，并使用 VectorAssembler 将特征列转换为特征向量。然后，将数据集分为训练集和测试集。创建 RandomForestClassifier，并将其作为管道的一部分进行拟合。拟合后，使用 MulticlassClassificationEvaluator 对测试集进行预测和评估。最后，获取训练好的随机森林模型并打印树的重要性。

请注意，上面的示例中，数据集的路径应该被替换为实际数据集的路径，特征列的名称也应该被替换为实际特征列的名称。

3.1.4 梯度提升树

Spark MLlib 提供了一个强大的算法——分类梯度提升树（Gradient-Boosted Trees, GBT），它可以用于二元分类和多类分类。GBT 是一种集成学习算法，它通过在先前树的残差上逐步拟合一系列决策树来提高模型的准确性。

在 Spark MLlib 中，可以使用 GBTClassifier 类来构建分类 GBT 模型。GBT 分类器使用一系列决策树来逐步提高模型的准确性，每个决策树都是在之前决策树的残差上训练得到的。通过这种方式，GBT 可以在更少的迭代次数下得到比随机森林更准确的模型。

与其他 Spark MLlib 分类器类似，GBT 分类器也使用管道（Pipeline）来处理数据。管道通常包括以下几个步骤：

数据预处理：包括数据清洗、特征提取、特征转换等操作。
特征工程：根据特定的特征工程需求，对特征进行过滤、选择、转换等操作。
模型训练：使用训练集对模型进行拟合。
模型评估：使用测试集对模型进行评估。
模型应用：将模型应用到新的数据集上进行预测。

在使用 GBT 分类器时，你需要指定以下参数：

featuresCol：特征列的名称。
labelCol：标签列的名称。
maxIter：训练迭代次数。
maxDepth：决策树的最大深度。
minInstancesPerNode：每个节点上的最小实例数。
stepSize：每个迭代步骤的步长。
subsamplingRate：用于训练每棵树的数据子样本的比例。

import org.apache.spark.ml.Pipeline;
import org.apache.spark.ml.PipelineModel;
import org.apache.spark.ml.PipelineStage;
import org.apache.spark.ml.classification.GBTClassificationModel;
import org.apache.spark.ml.classification.GBTClassifier;
import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator;
import org.apache.spark.ml.feature.IndexToString;
import org.apache.spark.ml.feature.StringIndexer;
import org.apache.spark.ml.feature.StringIndexerModel;
import org.apache.spark.ml.feature.VectorIndexer;
import org.apache.spark.ml.feature.VectorIndexerModel;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;


public class GBTExample {
    public static void main(String[] args) {
        // 创建一个 SparkSession
        SparkSession spark = SparkSession
                .builder()
                .appName("GBTExample")
                .getOrCreate();

        // 读取数据集
        Dataset data = spark.read()
                .format("libsvm")
                .load("data/mllib/sample_libsvm_data.txt");

        // 对标签列进行索引
        StringIndexerModel labelIndexer = new StringIndexer()
                .setInputCol("label")
                .setOutputCol("indexedLabel")
                .fit(data);

        // 对特征列进行索引
        VectorIndexerModel featureIndexer = new VectorIndexer()
                .setInputCol("features")
                .setOutputCol("indexedFeatures")
                .setMaxCategories(4) // 特征具有少于 4 个不同的值
                .fit(data);

        // 将数据集拆分为训练集和测试集
        Dataset[] splits = data.randomSplit(new double[]{0.7, 0.3});
        Dataset trainingData = splits[0];
        Dataset testData = splits[1];

        // 定义 GBT 分类器
        GBTClassifier gbt = new GBTClassifier()
                .setLabelCol("indexedLabel")
                .setFeaturesCol("indexedFeatures")
                .setMaxIter(10)
                .setFeatureSubsetStrategy("auto");

        // 将索引的标签转换回原始标签
        IndexToString labelConverter = new IndexToString()
                .setInputCol("prediction")
                .setOutputCol("predictedLabel")
                .setLabels(labelIndexer.labels());

        // 创建管道
        Pipeline pipeline = new Pipeline()
                .setStages(new PipelineStage[]{
                        labelIndexer,
                        featureIndexer,
                        gbt,
                        labelConverter
                });

        // 训练模型
        PipelineModel model = pipeline.fit(trainingData);

        // 进行预测
        Dataset predictions = model.transform(testData);

        // 选择样例行显示
        predictions.select("predictedLabel", "label", "features").show(5);

        // 评估模型
        MulticlassClassificationEvaluator evaluator = new MulticlassClassificationEvaluator()
                .setLabelCol("indexedLabel")
                .setPredictionCol("prediction")
                .setMetricName("accuracy");
        double accuracy = evaluator.evaluate(predictions);
        System.out.println("Test Error = " + (1.0 - accuracy));

        // 获取训练得到的 GBT 模型
        GBTClassificationModel gbtModel = (GBTClassificationModel) (model.stages()[2]);
        System.out.println("Learned classification GBT model:\n" + gbtModel.toDebugString());

        spark.stop();
    }
}

该示例使用了 Spark MLlib 内置的 sample_libsvm_data.txt 数据集。首先，将数据集加载到 DataFrame 中。接下来，对标签列和特征列进行索引。然后，将数据集拆分为训练集和测试集。接下来，创建 GBT 分类器，并使用管道将标签转换回原始标签。最后，使用训练数据拟合管道并进行预测。最终评估模型并输出模型学习到的 GBT 分类模型的调试字符串。该字符串显示了树的结构和分裂标准，以及在每个节点处对特征的使用情况和分裂点。

3.2 回归问题

3.2.1 线性回归

Spark MLlib 的线性回归算法是一种广泛使用的预测模型。它将输入特征映射到连续的输出值。这是通过训练模型来确定最佳拟合线性函数的系数完成的。

以下是一个使用 Spark MLlib 实现线性回归的 Java 示例程序。

import org.apache.spark.ml.feature.VectorAssembler;
import org.apache.spark.ml.regression.LinearRegression;
import org.apache.spark.ml.regression.LinearRegressionModel;
import org.apache.spark.ml.regression.LinearRegressionTrainingSummary;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

public class LinearRegressionExample {

    public static void main(String[] args) {
        // 创建一个 SparkSession
        SparkSession spark = SparkSession
                .builder()
                .appName("LinearRegressionExample")
                .getOrCreate();

        // 读取数据集
        Dataset data = spark.read()
                .format("libsvm")
                .load("data/mllib/sample_linear_regression_data.txt");

        // 将数据集拆分为训练集和测试集
        Dataset[] splits = data.randomSplit(new double[]{0.7, 0.3});
        Dataset trainingData = splits[0];

        // 将特征列合并到一个向量列中
        VectorAssembler assembler = new VectorAssembler()
                .setInputCols(new String[]{"features"})
                .setOutputCol("featuresVector");

        // 定义线性回归模型
        LinearRegression lr = new LinearRegression()
                .setMaxIter(10)
                .setRegParam(0.3)
                .setElasticNetParam(0.8);

//        // 将数据集拟合到线性回归模型中
        Dataset trainingDataWithFeatures = assembler.transform(trainingData);

        //训练模型
        LinearRegressionModel lrModel = lr.fit(trainingDataWithFeatures);
        //打印线性回归的系数和截距
        System.out.println("系数Coefficients: "+lrModel.coefficients() + "");
        System.out.println(" 截距Intercept: " + lrModel.intercept()+ "");
        //总结训练集上的模型并打印出一些指标。
        LinearRegressionTrainingSummary trainingSummary = lrModel.summary();
        Dataset dataset = trainingSummary.predictions().select("prediction", "label", "featuresVector");
        dataset.show(5);
        spark.stop();
    }
}

3.2.2 决策树回归

Spark MLlib 提供了决策树回归（Decision Tree Regression）算法来解决回归问题。决策树回归是一种基于树结构的非参数统计方法，能够处理多维输入和输出，并且具有良好的可解释性和鲁棒性。

下面是一个简单的 Java 代码示例，演示如何使用 Spark MLlib 的决策树回归算法对数据进行训练和预测：

import org.apache.spark.ml.Pipeline;
import org.apache.spark.ml.PipelineModel;
import org.apache.spark.ml.PipelineStage;
import org.apache.spark.ml.feature.VectorAssembler;
import org.apache.spark.ml.regression.DecisionTreeRegressionModel;
import org.apache.spark.ml.regression.DecisionTreeRegressor;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
public class DecisionTreeRegressionExample {
    public static void main(String[] args) {
        // 创建 SparkSession
        SparkSession spark = SparkSession.builder()
                .appName("DecisionTreeRegressionExample")
                .master("local[*]")
                .getOrCreate();

        // 读取数据集
        Dataset data = spark.read().format("csv")
                .option("header", "true")
                .option("inferSchema", "true")
                .load("path/to/your/data.csv");

        // 定义特征列和标签列
        String[] featureCols = data.columns();
        String labelCol = "label";

        // 将特征列转换为向量
        VectorAssembler assembler = new VectorAssembler()
                .setInputCols(featureCols)
                .setOutputCol("features");

        Dataset dataWithFeatures = assembler.transform(data).select("features", labelCol);

        // 将数据集拆分为训练集和测试集
        double[] weights = {0.7, 0.3};
        Dataset[] datasets = dataWithFeatures.randomSplit(weights);
        Dataset trainData = datasets[0];
        Dataset testData = datasets[1];

        // 创建决策树回归器
        DecisionTreeRegressor dt = new DecisionTreeRegressor()
                .setLabelCol(labelCol)
                .setFeaturesCol("features");

        // 创建 Pipeline
        Pipeline pipeline = new Pipeline().setStages(new PipelineStage[] { dt });

        // 训练模型
        PipelineModel model = pipeline.fit(trainData);

        // 预测测试集
        Dataset predictions = model.transform(testData);

        // 显示预测结果
        predictions.show();

        // 获取训练好的决策树模型
        DecisionTreeRegressionModel dtModel = (DecisionTreeRegressionModel) model.stages()[0];
        System.out.println("Learned regression tree model:\n" + dtModel.toDebugString());

        // 停止 SparkSession
        spark.stop();
    }
}

这只是一个简单的示例，实际应用中可能需要更复杂的特征工程和模型调整。另外，如果数据集过大，可能需要在集群上运行以获得更好的性能。

3.2.3 随机森林回归

Spark MLlib提供了随机森林回归算法，可以用于预测连续的数值型数据。随机森林是一种集成学习算法，它基于决策树，通过随机选择样本和特征来减少过拟合的风险。随机森林回归使用多个决策树对数据进行拟合和预测，并取这些决策树的平均值作为最终预测结果。本文将介绍如何使用Spark MLlib中的随机森林回归算法，并提供一个完整可运行的Java示例。

示例说明：在这个示例中，我们将使用Spark MLlib中的随机森林回归算法，对一组汽车数据进行建模，然后使用模型来预测汽车的燃油效率（MPG）。我们将使用UCI Machine Learning Repository中的Auto MPG数据集。该数据集包含8个输入特征，如汽车的气缸数、排量、马力、重量等，以及一个输出特征MPG，表示汽车的燃油效率。我们将使用70%的数据来训练模型，30%的数据用于测试模型性能。

1.准备数据我们需要下载Auto MPG数据集，将其保存为CSV文件，并将其加载到Spark DataFrame中。

数据集下载地址：https://archive.ics.uci.edu/ml/datasets/auto+mpg

CSV文件格式如下：

mpg,cylinders,displacement,horsepower,weight,acceleration,modelyear,origin
18.0,8,307.0,130.0,3504.0,12.0,70,1
15.0,8,350.0,165.0,3693.0,11.5,70,1

其中，第一列为输出特征MPG，后面的列为输入特征。

2.构建随机森林回归模型

// 创建随机森林回归模型
RandomForestRegressor rf = new RandomForestRegressor()
        .setLabelCol("label")
        .setFeaturesCol("features")
        .setNumTrees(10);

// 训练模型
RandomForestRegressionModel model = rf.fit(trainingData);

3.使用模型进行预测

// 使用模型进行预测
Dataset predictions = model.transform(testData);

4.评估模型性能

// 评估模型性能
RegressionEvaluator evaluator = new RegressionEvaluator()
        .setLabelCol("label")
        .setPredictionCol("prediction")
        .setMetricName("rmse");
double rmse = evaluator.evaluate(predictions);

下面是完整 Java 代码示例：

import org.apache.spark.SparkConf;
import org.apache.spark.ml.Pipeline;
import org.apache.spark.ml.evaluation.RegressionEvaluator;
import org.apache.spark.ml.feature.VectorAssembler;
import org.apache.spark.ml.regression.RandomForestRegressor;
import org.apache.spark.ml.tuning.CrossValidator;
import org.apache.spark.ml.tuning.CrossValidatorModel;
import org.apache.spark.ml.tuning.ParamGridBuilder;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;
public class RandomForestRegressionExample {
    public static void main(String[] args) {

        // Create a Spark session
        SparkConf conf = new SparkConf().setAppName("RandomForestRegressionExample").setMaster("local[*]");
        SparkSession spark = SparkSession.builder().config(conf).getOrCreate();

        // Load data
        Dataset data = spark.read().format("libsvm").load("data/sample_libsvm_data.txt");

        // Split the data into training and test sets
        Dataset[] splits = data.randomSplit(new double[]{0.7, 0.3});
        Dataset trainingData = splits[0];
        Dataset testData = splits[1];

        // Define the feature column names
        String[] featureCols = new String[data.schema().fieldNames().length - 1];
        for (int i = 0; i < featureCols.length; i++) {
            featureCols[i] = "feature" + (i + 1);
        }

        // Assemble features into a vector
        VectorAssembler assembler = new VectorAssembler()
                .setInputCols(featureCols)
                .setOutputCol("features");

        Dataset trainingDataWithFeatures = assembler.transform(trainingData);
        Dataset testDataWithFeatures = assembler.transform(testData);

        // Create a RandomForestRegressor model
        RandomForestRegressor rf = new RandomForestRegressor()
                .setLabelCol("label")
                .setFeaturesCol("features")
                .setMaxDepth(5)
                .setNumTrees(20);

        // Set up a pipeline
        Pipeline pipeline = new Pipeline().setStages(new RandomForestRegressor[]{rf});

        // Set up a grid of hyperparameters to search over using 3-fold cross validation
        ParamGridBuilder paramGridBuilder = new ParamGridBuilder()
                .addGrid(rf.maxDepth(), new int[]{5, 10})
                .addGrid(rf.numTrees(), new int[]{20, 50});
        CrossValidator crossValidator = new CrossValidator()
                .setEstimator(pipeline)
                .setEvaluator(new RegressionEvaluator())
                .setEstimatorParamMaps(paramGridBuilder.build())
                .setNumFolds(3);

        // Train the model using cross-validation
        crossValidator.setSeed(12345);
        CrossValidatorModel crossValidatorModel = crossValidator.fit(trainingDataWithFeatures);

        // Evaluate the model on the test set
        Dataset predictions = crossValidatorModel.transform(testDataWithFeatures);
        RegressionEvaluator evaluator = new RegressionEvaluator()
                .setLabelCol("label")
                .setPredictionCol("prediction")
                .setMetricName("rmse");
        double rmse = evaluator.evaluate(predictions);
        System.out.println("Root Mean Squared Error (RMSE) on test data = " + rmse);

        // Stop the Spark session
        spark.stop();
    }
}

3.2.4 梯度提升回归树

Spark MLlib提供了梯度提升回归树（Gradient-Boosted Trees，GBT）的算法，它是一种强大的回归模型，可以用于连续的数值预测。GBT在每一次迭代中，使用决策树模型去拟合残差值，然后将所有的模型的预测结果相加，得到最终的预测结果。

以下是一个使用Spark MLlib进行梯度提升回归树的示例Java程序。这个程序将使用一个数据集，该数据集包含了关于自行车租赁量的信息。它将使用梯度提升回归树来预测一天中自行车的租赁量。

import org.apache.spark.ml.evaluation.RegressionEvaluator;
import org.apache.spark.ml.feature.VectorAssembler;
import org.apache.spark.ml.regression.GBTRegressionModel;
import org.apache.spark.ml.regression.GBTRegressor;
import org.apache.spark.sql.*;

public class GBTRegressionDemo {
    public static void main(String[] args) {

        // 创建 SparkSession
        SparkSession spark = SparkSession.builder()
                .appName("GradientBoostedTreeRegressionDemo")
                .master("local[*]")
                .getOrCreate();

        // 读取数据集
        Dataset data = spark.read().format("libsvm")
                .load("data/sample_libsvm_data.txt");

        // 将数据集划分为训练集和测试集
        Dataset[] splits = data.randomSplit(new double[]{0.7, 0.3});
        Dataset trainingData = splits[0];
        Dataset testData = splits[1];

        // 将特征向量合并为一个向量
        VectorAssembler assembler = new VectorAssembler()
                .setInputCols(trainingData.columns())
                .setOutputCol("features");
        Dataset trainingDataWithFeatures = assembler.transform(trainingData);
        Dataset testDataWithFeatures = assembler.transform(testData);

        // 创建梯度提升回归树模型
        GBTRegressor gbt = new GBTRegressor()
                .setLabelCol("label")
                .setFeaturesCol("features")
                .setMaxIter(10);

        // 训练模型
        GBTRegressionModel model = gbt.fit(trainingDataWithFeatures);

        // 在测试集上进行预测
        Dataset predictions = model.transform(testDataWithFeatures);

        // 评估模型
        RegressionEvaluator evaluator = new RegressionEvaluator()
                .setLabelCol("label")
                .setPredictionCol("prediction")
                .setMetricName("rmse");
        double rmse = evaluator.evaluate(predictions);
        System.out.println("Root Mean Squared Error (RMSE) on test data = " + rmse);

        // 输出模型的节点信息
        System.out.println("Learned regression GBT model:\n" + model.toDebugString());

        // 关闭 SparkSession
        spark.close();
    }
}

该程序与之前的程序类似，只是将 DecisionTreeRegressor 类替换为 GBTRegressor 类。需要注意的是，GBTRegressor 类在设置参数时需要设置 maxIter 参数，表示最大迭代次数。同样需要用 setFeaturesCol 方法设置特征列，用 setLabelCol 方法设置标签列。最后需要调用 fit 方法训练模型，然后用 transform 方法在测试集上进行预测。最后用 RegressionEvaluator 类评估模型，并输出模型的节点信息。

关于无监督学习，模型评估和调优，模型部署的内容请看下篇《Java应用|使用Apache Spark MLlib构建机器学习模型【下】》。

如果您觉得本博客的内容对您有所帮助或启发，请关注我的博客，以便第一时间获取最新技术文章和教程。同时，也欢迎您在评论区留言，分享想法和建议。谢谢支持！

你可能感兴趣的:(java,apache,spark-ml)

飞算JavaAI
一、产品简介飞算JavaAI是专为Java开发者打造的智能开发助手，深度适配Java技术栈。通过大语言模型（LLM）实现自然语言到代码的转换，覆盖需求分析、接口设计、表结构设计、业务逻辑生成、代码生成与合并等全流程开发环节。其核心优势在于：全流程自动化：从需求输入到完整工程代码生成，单日可完成传统数周的开发任务。代码质量保障：生成的代码符合阿里巴巴Java开发规范，支持静态代码分析工具自动检测安全
飞算JavaAI：Java开发者的智能革命，从代码生成到架构重塑
目录一、Java开发困局：效率与质量的双重挑战二、技术架构解析：三层智能引擎驱动开发革命1.智能语义理解层2.代码智能生成层3.运行时智能优化层三、核心功能矩阵：从需求到部署的全流程覆盖1.智能需求分析2.自动化软件设计3.工程化代码输出4.智能重构引擎四、实战场景解析：从初创项目到老系统改造场景1：初创项目快速验证场景2：老系统迭代升级场景3：高并发系统优化五、开发者价值重构：从代码工人到系统设
飞算 JavaAI 深度体验：开启 Java 开发智能化新纪元 ♡喜欢做梦飞算JavaAI炫技赛 Java开发
个人主页：♡喜欢做梦欢迎点赞➕关注❤️收藏评论目录一、引言二、飞算JavaAI初印象与功能概览（一）初识（二）核心功能模块概览三、智能代码生成功能深度体验（一）基础场景测试（二）复杂业务逻辑场景（三）代码生成功能总结四、代码优化建议功能测评（一）测试用例准备（二）优化建议（三）进一步复杂代码测试（四）代码优化功能总结五、故障诊断与修复功能实践（一）模拟常见Java故障场景一、引言在当今软件开发领域
反编译工具apktool的下载安装及使用Mac版教程
反编译工具apktool的下载安装及使用注意：运行Apktool至少需要Java8！下载下载地址：https://apktool.org/docs/install进入下载地址找到Mac栏下找到wrapperscript.对着这个链接右键选择存储为，然后命名为apktool文件，不需要加后缀名根据提示点击latestversion下载最新版本Apktool，将下载的jar重命名为apktool.ja
Java开发：从入门到精通
目录第一部分：基石篇——筑基与心法(Java核心基础)第一章：缘起与开示——Java世界观1.1万物皆对象：面向对象思想的起源与哲学1.2Java的“前世今生”：发展史、技术体系与生态圈1.3工欲善其事：搭建你的第一个“道场”(JDK环境配置与IDE详解)1.4“Hello,World!”：从第一行代码看Java程序的结构与生命周期1.5编译与运行：JVM如何成为Java跨平台的“金刚不坏之身”第
JAVA并发编程（四）-park-unpark imperfectsam java 开发语言
文章目录一、简介二、编写代码三、park和unpark原理一、简介在Java中，park和unpark是java.util.concurrent.locks包中的LockSupport类提供的两个静态方法，用于线程的阻塞和解除阻塞。1、park方法用于阻塞当前线程，使其进入等待状态。当一个线程调用park方法时，它会被阻塞，直到发生以下几种情况之一： -另一个线程调用了相应线程的unpa
mac装springboot_安装 Spring Boot CLI 2401DEM mac装springboot
SpringBootCLI(CommandLineInterface)是一个命令行工具，可用于快速搭建基于Spring的原型。它支持运行Groovy脚本，这也就意味着你可以使用类似Java的语法，但不用写很多的模板代码。SpringBoot不一定非要配合CLI使用，但它绝对是让Spring应用进入状态的最快方式。手动安装你可以从Spring的软件仓库中下载SpringCLI分发包：一旦你下载完成后
JS获取 CSS 中定义var变量值前端贾公子 tensorflow 人工智能 python
目录示例代码CSS3:root选择器CSSStyleDeclarationgetPropertyValue()方法styleSheetscssRules关键特性使用示例注意事项典型应用场景WindowgetComputedStyle()方法WindowgetComputedStyle()方法和style的异同在JavaScript中，可以通过getComputedStyle()方法结合getPro
ThreadLocal 在 Spring 与数据库交互中的应用笔记笑衬人心。 JAVA学习笔记数据库 spring 笔记
一、基本概念1.1什么是ThreadLocal？ThreadLocal是Java提供的一个线程本地存储工具类。每个线程访问ThreadLocal时，都只能看到自己线程范围内的变量副本，线程之间互不影响。常用于保存线程上下文信息，如用户登录信息、事务状态、数据库连接等。ThreadLocalthreadLocal=newThreadLocal>resources=newNamedThreadLoca
FATAL ERROR: Reached heap limit Allocation failed - JavaScript heap out of memory node编译时的内存溢出周不凢 node node.js
报错：FATALERROR:ReachedheaplimitAllocationfailed-JavaScriptheapoutofmemory原因：node编译时的内存溢出，因为打包文件过大，刚好超过内存的限制大小造成编译中断。解决方法1：通过package.json中的"build"加大内存增加--max_old_space_size参"scripts":{"dev":"nodebuild/d
深度对比：innerHTML vs 虚拟DOM——原理、性能与应用全解析止观止前端前端框架前端 html5 javascript reactjs xss
引言在现代Web开发中，高效操作DOM（文档对象模型）是构建高性能应用的关键。传统方法如innerHTML和新兴的虚拟DOM（VirtualDOM）技术代表了两种截然不同的DOM更新策略。innerHTML作为浏览器原生API，直接操纵HTML字符串；虚拟DOM则是通过JavaScript对象树进行优化更新，广泛应用于React、Vue等框架。本文深入对比两者的核心原理、技术细节、应用场景及优劣，
空指针异常是Java中很常见的异常，如何避免？破碎的天堂鸟 Java学习 java 数据库 jvm
在Java编程中，空指针异常（NullPointerException）是一种常见的运行时异常，通常发生在尝试访问一个空对象的属性或调用其方法时。为了避免这种异常，可以采取以下几种方法：在使用对象之前，先判断该对象是否为null。例如：if(obj!=null){//对obj进行操作}这种方法是最直接且最常用的方法。Java8引入了Optional类，它提供了一种更优雅的方式来处理可能为空的对象。
Java:实现朴素模式匹配算法（附带源码） Katie。 Java算法完整教程算法 java python
1.项目背景详细介绍在文本处理、信息检索和生物序列分析等领域，“字符串模式匹配”是最基础也是最核心的操作之一。朴素模式匹配（NaiveStringMatching）算法，作为最直观的实现方式，通过逐个字符对比，查找模式串在目标文本中出现的位置。虽然现代应用中普遍采用更高效的KMP、Boyer–Moore、Sunday算法等，但理解并掌握朴素算法有助于：打牢基础：从最简单的实现入手，帮助初学者理解匹
在Java中String类为什么不可以修改？
目录一、语言设计与实现层面的原因二、设计目标与优势三、如何绕过限制？（异常情况）四、替代方案：可变字符串总结在Java中，String类的不可变性（Immutable）是其核心设计之一，这种设计源于多方面的技术考量和实际需求。以下从多个角度解析String为什么不可以修改：一、语言设计与实现层面的原因final修饰类：String类被声明为final，意味着它不能被继承。这避免了子类通过重写方法或
java并发编程LockSupport之park/unpark jmysql java java
【尚学堂】Java300集零基础适合初学者视频教程_Java300集零基础教程_Java初学入门视频基础巩固教程_Java语言入门到精通_哔哩哔哩_bilibili一、简介1.1主要方法Park/UnPark方法是LockSupport当中的方法。其常用方法有如下：park()：暂停当前线程。park(Objectblocker)：暂停当前线程，并指定负责此线程停放的同步对像。parkNanos(
Java反射获取Class的三种方式喵星人ZC
packagecom.sou.reflection.classpkg;importorg.junit.Test;importjava.lang.reflect.Method;/***反射获取Class的三种方式*1）Class.forName()*2)obj.getClass*3)class.class*/publicclassReflectionApp{//Class.forName()@Tes
linux安装Node.js 环境，Docker 环境，Ruby 环境，MongoDB 环境，PostgreSQL 数据库，Go 开发环境，Python 虚拟环境 2401_87017622 数据库 linux node.js
在Linux上安装其他常见的开发环境可以根据具体需求而定，以下是一些常见的安装步骤：1.Node.js环境Node.js是一个基于ChromeV8引擎的JavaScript运行环境，适用于服务器端开发。安装Node.js：通过包管理器安装：sudoyuminstall-ygcc-c++makecurl-sLhttps://rpm.nodesource.com/setup_14.x|sudo-Eba
详解NIO Channel类沧澜sincerely Java 高并发 nio
目录什么是NIOChannel？为什么要学习NIOChannel？FileChannelSocketChannelDatagramChannel本篇文章内容的前置知识为NIOBuffer类，如果不了解，可点击链接学习详解NIOBuffer类及其属性和方法-CSDN博客什么是NIOChannel？在JavaNIO中，Channel（通道）是一种广义的I/O抽象，用于表示与数据源或数据目的地之间的连接
常用的折叠展开过渡动画效果css
如何实现优雅的折叠展开动画效果在现代Web设计中，折叠展开动画是一种常见且实用的交互方式，它可以帮助用户在保持界面简洁的同时，灵活控制内容的显示与隐藏。本文将分享如何使用HTML、CSS和JavaScript实现一个平滑流畅的折叠展开动画效果。基本原理折叠展开动画的核心原理是通过CSS过渡(transition)来控制元素的高度、内边距和其他样式属性的变化。当用户点击触发按钮时，JavaScrip
Redux架构解析：状态管理的核心原理止观止架构前端 react.js redux
Redux作为JavaScript应用的状态管理库，其技术架构与核心原理围绕可预测的状态管理设计，通过严格的单向数据流和函数式编程理念实现复杂应用的状态控制。以下从设计理念、核心架构、工作流程、源码实现等角度进行系统性剖析：一、设计理念与原则单一数据源（SingleSourceofTruth）整个应用的状态存储在一个全局Store对象中，形成唯一的状态树（StateTree）。优势：简化状态共享和
一天学会超级玛丽小游戏_手把手教学_Java小游戏 62f5ecb72f71
超级玛丽是任天堂制作的一款小游戏,在的童年里一起玩这个游戏,大胡子,背带裤的马里奥,每关以马里奥在走到重点的前提下尽可能地收集金币。他在闯关过程中，会遇到怪物，可以通过踩死或者跳过。也会遇到深坑。给游戏增加了一定的难度。今天带大家用java制作制作这款小游戏,下面是课程介绍.课程介绍：在你的童年记忆里，是否有一个会蹦跳，会吃蘑菇的小人？超级玛丽是一款经典并且流行的小游戏，通过键盘来控制马里奥的移动
java LockSupport park() unpark() 的用法&和wait() notify()的区别
javaLockSupportpark()unpark()的用法ockSupport类是Java并发包中的一个工具类，提供了一些基本的线程阻塞和唤醒操作。其中，unpark(Threadthread)方法是用来唤醒指定线程的关键方法。下面详细解释一下unpark方法：unpark方法的作用：唤醒线程：unpark方法可以解除指定线程的阻塞状态，使其有机会继续执行。如果线程在调用park()之前被u
3步搞定Java漏洞修复？别再让黑客当“家”！
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣Java城堡的“裂缝”与程序员的救赎想象一下：你的Java应用是一座巍峨的城堡，而安全漏洞就是那些悄悄蔓延的裂缝。SQL注入：像是小偷从窗户溜进来，偷偷改写数据库的账本。XSS攻击：像在城堡里偷偷放了一张带毒的地毯，路过的人会被“刺”伤。SSRF漏洞：像让城堡
5大核心技术+3大交互革命！Java如何让虚拟世界‘活过来’？——附代码实战+防坑指南！墨瑾轩 Java乐园交互 java 开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣从“木头人”到“交互大师”的Java魔法之旅一、Java的“五大核心技术”——虚拟世界的“五感开关”1.1核心技术1：JOGL渲染引擎——“视觉中枢”作用：用OpenGL实现3D场景渲染代码示例：//JOGL渲染循环：画一个旋转的立方体importjavax.
Java多线程、锁、线程池详解
Java多线程、锁、线程池详解在现代软件开发中，多线程编程是提高程序性能和响应能力的重要手段。Java提供了丰富的多线程支持，包括线程的创建、同步、通信以及线程池管理等。本文将深入探讨Java中的多线程、锁机制、线程池的原理和应用，并涵盖成员方法、并行、调度、同步、死锁、睡眠、唤醒以及线程状态等知识。一、多线程基础1.多线程的概念多线程允许程序同时执行多个任务，从而提高程序的执行效率。2.多线程的
A*算法详解
A*算法详解一、A*算法基础概念1.1算法定位1.2核心评估函数1.3关键数据结构二、A*算法的核心步骤三、启发函数设计3.1网格地图中的启发函数3.2启发函数的选择原则三、Java代码实现四、启发函数的设计与优化4.1启发函数的可采纳性4.2启发函数的效率影响4.3常见启发函数对比五、A*算法的应用场景与拓展5.1典型应用5.2算法拓展六、A*算法的优缺点优点缺点从游戏中的角色寻路到机器人导航，
分层图最短路径算法详解 GG不是gg 数据结构与算法分析 #算法分析与设计图搜索算法
分层图最短路径算法详解一、分层图算法的核心思想1.1问题引入：带约束的最短路径1.2分层图的核心思路二、分层图的构建方法2.1分层图的结构定义2.2构建步骤（以“最多k次边权改为0”为例）三、分层图最短路径的求解3.1算法步骤3.2Java代码实现（以Dijkstra为例）四、分层图算法的关键细节4.1状态表示与空间优化4.2边的处理4.3复杂度分析五、典型应用场景5.1带次数约束的路径优化5.2
Tomcat生命周期原理深度剖析
Tomcat生命周期原理深度剖析本文围绕Tomcat生命周期机制，结合架构图、源码精讲、设计思想、实际案例、调优技巧等全方位解读，帮助读者系统掌握Tomcat生命周期的本质与应用。一、Tomcat生命周期概述Tomcat作为JavaWeb服务器的代表，其架构中每个核心组件（如Server、Service、Engine、Host、Context、Wrapper等）都拥有独立的生命周期。Tomcat通
Java使用Langchai4j接入AI大模型的简单使用(四)--整合Springboot moxiaoran5753 java spring boot spring
一、在Maven中引入依赖核心配置如下，这里使用的是Springboog3,jdk17，注意版本，如果启动不起来很有可能是版本冲突：17UTF-8UTF-83.4.31.0.0-beta1dev.langchain4jlangchain4j-community-dashscope-spring-boot-starterorg.springframework.bootspring-boot-star
互联网大厂Java求职面试：基于Spring AI与云原生架构的RAG系统设计与实现在未来等你 Java场景面试宝典 Java SpringAi RAG系统云原生
互联网大厂Java求职面试：基于SpringAI与云原生架构的RAG系统设计与实现场景背景郑薪苦，一位自称“代码界的段子手”的程序员，正在参加某互联网大厂的技术总监面试。面试官是技术总监李总，拥有丰富的架构设计经验，尤其擅长AI与大模型技术、云原生架构等领域。今天的面试主题围绕企业知识库与AI大模型的深度融合架构展开，重点探讨如何设计一个高性能、可扩展的RAG（Retrieval-Augmente
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end