罗西的思考

Alink漫谈(四) : 模型的来龙去脉

文章目录

Alink漫谈(四) : 模型的来龙去脉

0x00 摘要
0x01 模型

1.1 模型包含内容
1.2 Alink的模型文件

0x02 流程图
0x03 生成模型

3.1 生成模型
3.2 转换DataSet
3.3 存储为Table

0x04 存储模型

4.1 存储代码

0x05 读取模型
0x06 预测

6.1 生成runtime rapper
6.2 加载模型
6.3 预测

0x07 流式预测
0x08 总结

0x00 摘要

Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台，是业界首个同时支持批式算法、流式算法的机器学习平台。本文将从模型角度入手带领大家来再次深入Alink。

因为Alink的公开资料太少，所以以下均为自行揣测，肯定会有疏漏错误，希望大家指出，我会随时更新。

0x01 模型

之前的文章中，我们一直没有仔细说明Alink的模型，本篇我们就深入探究一下。套用下范伟的话：我既想知道模型是怎么来的,我又想知道模型是怎么没的。

1.1 模型包含内容

我们先想想，一个机器学习训练出来的模型，应该包含哪些内容。

流水线：因为一个模型可能包括多个阶段，比如转化，预测等，这样构成了一个流水线。
算法：这个是具体机器学习平台绑定的。比如在Flink就是某一个java算法类。
参数：这个是肯定要有的，机器学习很大一部分工作不就是做这个的嘛。
数据：这个其实也应该算参数的一种，也是训练出来的。比如说KMeans算法训练出来的各个中心点。

1.2 Alink的模型文件

让我们打开Alink的模型文件来验证下：

-1,"{""schema"":["""",""model_id BIGINT,model_info VARCHAR""],""param"":[""{\""outputCol\"":\""\\\""features\\\""\"",\""selectedCols\"":\""[\\\""sepal_length\\\"",\\\""sepal_width\\\"",\\\""petal_length\\\"",\\\""petal_width\\\""]\""}"",""{\""vectorCol\"":\""\\\""features\\\""\"",\""maxIter\"":\""100\"",\""reservedCols\"":\""[\\\""category\\\""]\"",\""k\"":\""3\"",\""predictionCol\"":\""\\\""prediction_result\\\""\"",\""predictionDetailCol\"":\""\\\""prediction_detail\\\""\""}""],""clazz"":[""com.alibaba.alink.pipeline.dataproc.vector.VectorAssembler"",""com.alibaba.alink.pipeline.clustering.KMeansModel""]}"
  
1,"0^{""vectorCol"":""\""features\"""",""latitudeCol"":null,""longitudeCol"":null,""distanceType"":""\""EUCLIDEAN\"""",""k"":""3"",""vectorSize"":""4""}"
1,"1048576^{""clusterId"":0,""weight"":39.0,""vec"":{""data"":[6.8538461538461535,3.0769230769230766,5.7153846153846155,2.0538461538461545]}}"
1,"2097152^{""clusterId"":1,""weight"":61.0,""vec"":{""data"":[5.883606557377049,2.740983606557377,4.388524590163936,1.4344262295081969]}}"
1,"3145728^{""clusterId"":2,""weight"":50.0,""vec"":{""data"":[5.006,3.418,1.4640000000000002,0.24400000000000005]}}"

我们看到了两个类名字：

com.alibaba.alink.pipeline.dataproc.vector.VectorAssembler

com.alibaba.alink.pipeline.clustering.KMeansModel

这就是我们提到的算法，Alink在执行过程中，可以根据这两个类名字来生成java类。而两个算法类看起来是可以构建成一个流水线。我们也能看到参数和数据。

但是有几个地方很奇怪：

1048576，2097152这些奇怪的数字是什么意思？
为什么文件的第一个数值是-1？然后第二行第一个数字是 1？怎么没有中间的 0 ？
具体Alink是如何生成和加载模型的？

下面我们就一一排查。

0x02 流程图

我们首先给出一个流程图便于大家理解。这个图只是逻辑上的大致概念，和真实运行有区别。因为实际场景上是先生成执行计划，再具体操作。

* 下面只是逻辑上的大致概念，和真实运行有区别，因为实际场景上是先生成执行计划，再具体操作.
* 所以只是给大家一个概念。
* 
* 
*     Pipeline.fit 训练 
*        |  
*        |  
*        +-----> KMeansTrainModelData [ centroids, params -- 中心点数据，参数]  
*        |      // KMeansOutputModel.calc()中执行，生成中心点数据和参数
*        |  
*        |      
*        +-----> Tuple2<Params, Iterable<String>> [ "Params"是模型元数据，Iterable<String>是模型具体数据 ]
*        |      // KMeansModelDataConverter.serializeModel()，进行序列化操作，包括 把数据转换成json，调用KMeansTrainModelData.toParams设置各种参数
*        |    
*        |    
*        +-----> Collector<Row> [ Row可以有任意的field，基于position(zero-based)访问field ]
*        |      // ModelConverterUtils.appendMetaRow，ModelConverterUtils.appendDataRows
*        |    
*        |    
*        +-----> List<Row> model [ collector.getRows() ]
*        |      // List model = completeResult.calc(context);
*        |     
*        |   
*        +-----> DataSet<Row> [ 序列化算子计算结果 ]
*        |      // BaseComQueue.exec --- serializeModel(clearObjs(loopEnd))
*        |  
*        |   
*        +-----> Table output [ AlgoOperator.output，就是算子组件的输出表 ]
*        |       // KMeansTrainBatchOp.linkFrom --- setOutput
*        | 
*        | 
*        +-----> KMeansModel [ 模型，Find the closest cluster center for every point ]
*        |       // createModel(train(input).getOutputTable()) 这里设定模型参数
*        |       // KMeansModel.setModelData(Table modelData) 这里设定模型数据
*        | 
*        | 
*        +-----> TransformerBase[] [ PipelineModel.transformers ]
*        |       // 这就是最终训练出来的流水线模型，KMeansModel是其中一个，KMeansModelMapper是KMeansModel的业务组件
*        | 
*        | 
*    PipelineModel.save 存储
*        | 
*        | 
*        +-----> BatchOperator [ 把transformers数组压缩成BatchOperator ]
*        |       // ModelExporterUtils.packTransformersArray
*        | 
*        |     
*        +-----> 存储的模型文件 [ csv文件 ]
*        |       // PipelineModel.save --- CsvSinkBatchOp(path)
*        | 
*    PipelineModel.load 加载
*        |  
*        |   
*        +-----> 存储的模型文件 [ csv文件 ]
*        |       // PipelineModel.load --- CsvSourceBatchOp(path)
*        | 
*        |   
*        +-----> KMeansModel [ 模型，Find the closest cluster center for every point ]
*        |       // 依据文件生成模型，(TransformerBase) clazz.getConstructor(Params.class)
*        |       // 设置数据((ModelBase) transformers[i]).setModelData(data.getOutputTable())
*        |  
*        +-----> TransformerBase[] [ 从csv文件读取并恢复的transformers ]
*        |       // ModelExporterUtils.unpackTransformersArray(batchOp)
*        | 
*        |   
*        +-----> PipelineModel [ 流水线模型 ]
*        |       // new PipelineModel(ModelExporterUtils.unpackTransformersArray(batchOp));
*        | 
*        |   
*    PipelineModel.transform(data) 预测
*        | 
*        |   
*        |   
*        +-----> ModelSource [ Load model data from ModelSource when open() ]
*        |       // ModelMapperAdapter.open --- List modelRows = this.modelSource.getModelRows(getRuntimeContext());
*        | 
*        +-----> Tuple2<Params, Iterable<String>> [ metaAndData ] 
*        |       // SimpleModelDataConverter.load  
*        | 
*        |      
*        +-----> KMeansTrainModelData [ 反序列化 ] 
*        |       // KMeansModelDataConverter.deserializeModel(Params params, Iterable data) 
*        | 
*        |    
*        +-----> KMeansTrainModelData [ Load KMeansTrainModelData from saved model ] 
*        |       // KMeansModelMapper.loadModel
*        |       // KMeansTrainModelData.loadModelForTrain(Params params, Iterable data)   
*        | 
*        |      
*        +-----> KMeansPredictModelData [ Model data for KMeans trainData ] 
*        |       // 将训练模型数据转换为预测模型数据，里面包含centroids
*        |       // KMeansUtil.transformTrainDataToPredictData(trainModelData); 
*        | 
*        |      
*        +-----> Row row [ "5.0,3.2,1.2,0.2,Iris-setosa,5.0 3.2 1.2 0.2" ] 
*        |       // row是预测目标数据，ModelMapperAdapter.map 
*        | 
*        |  
*        +-----> Row row [ "0|0.4472728134421832 0.35775115900088217 0.19497602755693455" ]
*        |       // 预测结果，KMeansModelMapper.map
*        | 
*        |

0x03 生成模型

我们还是用KMeans算法来做示例，看看模型数据是什么样子，如何转换成Alink需要的样子。

VectorAssembler va = new VectorAssembler()
    .setSelectedCols(new String[]{"sepal_length", "sepal_width", "petal_length", "petal_width"})
    .setOutputCol("features");

KMeans kMeans = new KMeans().setVectorCol("features").setK(3)
    .setPredictionCol("prediction_result")
    .setPredictionDetailCol("prediction_detail")
    .setReservedCols("category")
    .setMaxIter(100);

Pipeline pipeline = new Pipeline().add(va).add(kMeans);
pipeline.fit(data);

从之前文章中大家可以知道，KMeans训练最重要的类是KMeansTrainBatchOp。KMeansTrainBatchOp在算法迭代结束时候，使用.closeWith(new KMeansOutputModel(distanceType, vectorColName, latitudeColName, longitudeColName))来输出模型。

3.1 生成模型

所以我们重点就要看 KMeansOutputModel 类。其calc函数的作用就是把中心点和参数转化为模型。

首先是调用serializeModel将中心点序列化成json。这里记做 (1)，下面代码注释会对应指出。
其次save函数会进行序列化，生成了一个Tuple2 。Params是参数，Iterable是模型的具体数据，就是中心点的集合。这里记做 (2)，下面代码注释会对应指出。
然后save函数把参数和数据分开存储。这里记做 (3)，下面注释会对应指出。
最后collector就是模型数据。这里记做 (4)，下面注释会对应指出。

/**
 * Tranform the centroids to KmeansModel.
 */
public class KMeansOutputModel extends CompleteResultFunction {
   private DistanceType distanceType;
   private String vectorColName;
   private String latitudeColName;
   private String longtitudeColName;
   @Override
	 public List <Row> calc(ComContext context) {
	 		KMeansTrainModelData modelData = new KMeansTrainModelData();
      ... 各种赋值操作
			modelData.params = new KMeansTrainModelData.ParamSummary();
			modelData.params.k = k;
			modelData.params.vectorColName = vectorColName;
      ...
        
// 我们可以看出来，在此处，计算出来的中心点和各种参数已经被添加到KMeansTrainModelData之中。
modelData = {KMeansTrainModelData@11319} 
 centroids = {ArrayList@11327}  size = 3
  0 = {KMeansTrainModelData$ClusterSummary@11330} 
   clusterId = 0
   weight = 38.0
   vec = {DenseVector@11333} "6.849999999999999 3.0736842105263156 5.742105263157895 2.071052631578947"
  1 = {KMeansTrainModelData$ClusterSummary@11331} 
  2 = {KMeansTrainModelData$ClusterSummary@11332} 
 params = {KMeansTrainModelData$ParamSummary@11328} 
  k = 3
  vectorSize = 4
  distanceType = {DistanceType@11287} "EUCLIDEAN"
  vectorColName = "features"
  latitudeColName = null
  longtitudeColName = null        
        
			RowCollector collector = new RowCollector();
      // save函数中将进行(1)(2)(3)，后续代码中会具体给出(1)(2)(3)的位置
			new KMeansModelDataConverter().save(modelData, collector);
     
     // KMeansModelDataConverter实现了SimpleModelDataConverter，所以save就调用到了KMeansModelDataConverter.save，其调用serializeModel将中心点转换jason。最后生成了一个Tuple2 >

    // (4) 这时候collector就是模型数据。 
			return collector.getRows();
     
// 我们能看出来，模型数据已经和模型文件的内容有几分相似了。里面有之前提到的奇怪数字。     
collector = {RowCollector@11321} 
 rows = {ArrayList@11866}  size = 4
  0 = {Row@11737} "0,{"vectorCol":"\"features\"","latitudeCol":null,"longitudeCol":null,"distanceType":"\"EUCLIDEAN\"","k":"3","vectorSize":"4"}"
  1 = {Row@11801} "1048576,{"clusterId":0,"weight":38.0,"vec":{"data":[6.849999999999999,3.0736842105263156,5.742105263157895,2.071052631578947]}}"
  2 = {Row@11868} "2097152,{"clusterId":1,"weight":50.0,"vec":{"data":[5.006,3.4179999999999997,1.4640000000000002,0.24400000000000002]}}"
  3 = {Row@11869} "3145728,{"clusterId":2,"weight":62.0,"vec":{"data":[5.901612903225806,2.7483870967741937,4.393548387096773,1.4338709677419355]}}"        
   }
}

具体转化是在KMeansModelDataConverter和其基类SimpleModelDataConverter中完成。首先是调用serializeModel将中心点序列化成json，形成了一个json列表。

/**
 * KMeans Model.
 * Save the id, center point and point number of clusters.
 */
public class KMeansModelDataConverter extends SimpleModelDataConverter<KMeansTrainModelData, KMeansPredictModelData> {
   public KMeansModelDataConverter() {}

   @Override
   public Tuple2<Params, Iterable<String>> serializeModel(KMeansTrainModelData modelData) {
      List <String> data = new ArrayList <>();
      for (ClusterSummary centroid : modelData.centroids) {
         data.add(JsonConverter.toJson(centroid));  // (1)，把中心点转换生成json
      }
      return Tuple2.of(modelData.params.toParams(), data);
   }

   @Override
   public KMeansPredictModelData deserializeModel(Params params, Iterable<String> data) {
      KMeansTrainModelData trainModelData = KMeansUtil.loadModelForTrain(params, data);
      return KMeansUtil.transformTrainDataToPredictData(trainModelData);
   }
}

其次进行序列化操作，生成Tuple2。

/**
 * The abstract class for a kind of {@link ModelDataConverter} where the model data can serialize to
 * "Tuple2&jt;Params, Iterable&jt;String>>". Here "Params" is the meta data of the model, and "Iterable&jt;String>" is
 * concrete data of the model.
 */
public abstract class SimpleModelDataConverter<M1, M2> implements ModelDataConverter<M1, M2> {
    @Override
    public M2 load(List<Row> rows) {
        Tuple2<Params, Iterable<String>> metaAndData = ModelConverterUtils.extractModelMetaAndData(rows);
        return deserializeModel(metaAndData.f0, metaAndData.f1);
    }
  
    @Override
    public void save(M1 modelData, Collector<Row> collector) {
// (2)，序列化生成Tuple2
        Tuple2<Params, Iterable<String>> model = serializeModel(modelData);
      
// 此时模型数据是一个元祖Tuple2>
model = {Tuple2@11504} "(Params {vectorCol="features", latitudeCol=null, longitudeCol=null, distanceType="EUCLIDEAN", k=3, vectorSize=4},[{"clusterId":0,"weight":38.0,"vec":{"data":[6.849999999999999,3.0736842105263156,5.742105263157895,2.071052631578947]}}, {"clusterId":1,"weight":50.0,"vec":{"data":[5.006,3.4179999999999997,1.4640000000000002,0.24400000000000002]}}, {"clusterId":2,"weight":62.0,"vec":{"data":[5.901612903225806,2.7483870967741937,4.393548387096773,1.4338709677419355]}}])"    
      
// (3) 分开发送参数和数据  
        ModelConverterUtils.appendMetaRow(model.f0, collector, 2);
        ModelConverterUtils.appendDataRows(model.f1, collector, 2);
    }  
}

然后分开存储参数和数据。

/**
 * Collector of Row type data.
 */
public class RowCollector implements Collector<Row> {
  private List<Row> rows;
	@Override
	public void collect(Row row) {
		rows.add(row); // 把数据存储起来
	}  
}
// 调用栈是
collect:37, RowCollector (com.alibaba.alink.common.utils)
collect:12, RowCollector (com.alibaba.alink.common.utils)
appendStringData:270, ModelConverterUtils (com.alibaba.alink.common.model)
appendMetaRow:35, ModelConverterUtils (com.alibaba.alink.common.model)
save:57, SimpleModelDataConverter (com.alibaba.alink.common.model)
calc:76, KMeansOutputModel (com.alibaba.alink.operator.common.clustering.kmeans)
mapPartition:287, BaseComQueue$4 (com.alibaba.alink.common.comqueue)

3.2 转换DataSet

模型数据是要转换成 DataSet，即 a collection of rows。其转换目的是为了让模型数据在Alink中更好的传输和被利用。

把模型数据中的string转换为 row数据的时候，可能会遇到string过长的问题，所以Alink就将String分割转存为多行row。这时候就用ModelConverterUtils的getModelId，getStringIndex函数来分割。

这时候得到的model Id就是计算出来的1048576，就是模型文件中的那个奇怪数字。

后续load模型时候也会用同样思路从row转换回模型string。

// A utility class for converting model data to a collection of rows.
class ModelConverterUtils {
    /**
     * Maximum number of slices a string can split to.
     */
    static final long MAX_NUM_SLICES = 1024L * 1024L;
  
    private static long getModelId(int stringIndex, int sliceIndex) {
        return MAX_NUM_SLICES * stringIndex + sliceIndex;
    }

    private static int getStringIndex(long modelId) {
        return (int) ((modelId) / MAX_NUM_SLICES);
    }
}

row = {Row@11714} "1048576,{"clusterId":0,"weight":62.0,"vec":{"data":[5.901612903225806,2.7483870967741932,4.393548387096773,1.4338709677419355]}}"
 fields = {Object[2]@11724} 
  0 = {Long@11725} 1048576
  1 = "{"clusterId":0,"weight":62.0,"vec":{"data":[5.901612903225806,2.7483870967741932,4.393548387096773,1.4338709677419355]}}"
    
// 相关调用栈如下    
appendStringData:270, ModelConverterUtils (com.alibaba.alink.common.model)
appendDataRows:52, ModelConverterUtils (com.alibaba.alink.common.model)
save:58, SimpleModelDataConverter (com.alibaba.alink.common.model)
calc:76, KMeansOutputModel (com.alibaba.alink.operator.common.clustering.kmeans)
mapPartition:287, BaseComQueue$4 (com.alibaba.alink.common.comqueue)
run:103, MapPartitionDriver (org.apache.flink.runtime.operators)
...
run:748, Thread (java.lang)

3.3 存储为Table

前面KMeansOutputModel最终返回的是一个DataSet，这里将把这个DataSet转化为Table存储在流水线中。

public final class KMeansTrainBatchOp extends BatchOperator <KMeansTrainBatchOp>
 
	public KMeansTrainBatchOp linkFrom(BatchOperator <?>... inputs) {
		DataSet <Row> finalCentroid = iterateICQ(initCentroid, data,
			vectorSize, maxIter, tol, distance, distanceType, vectorColName, null, null);
  
    // 这里存储为Table
		this.setOutput(finalCentroid, new KMeansModelDataConverter().getModelSchema());
		return this;
}

this = {KMeansTrainBatchOp@5130} "UnnamedTable$1"
 params = {Params@5143} "Params {vectorCol="features", maxIter=100, reservedCols=["category"], k=3, predictionCol="prediction_result", predictionDetailCol="prediction_detail"}"
 output = {TableImpl@5188} "UnnamedTable$1"
  tableEnvironment = {BatchTableEnvironmentImpl@5190} 
  operationTree = {DataSetQueryOperation@5191} 
  operationTreeBuilder = {OperationTreeBuilder@5192} 
  lookupResolver = {LookupCallResolver@5193} 
  tableName = "UnnamedTable$1"
 sideOutputs = null

我们可以看到，在Alink运行时候，模型数据都统一转化为Table类型。这部分原因可能是因为Alink想要统一处理DataSet和DataStream，即批和流都要用一个思路或者代码来处理。而Flink目前已经用Table来统一整合二者，所以Alink就针对此统一用Table。参见如下：

public abstract class ModelBase<M extends ModelBase<M>> extends TransformerBase<M>
    implements Model<M> {
    protected Table modelData;
}

public abstract class AlgoOperator<T extends AlgoOperator<T>>
    implements WithParams<T>, HasMLEnvironmentId<T>, Serializable {
    // Params for algorithms.
    private Params params;

    // The table held by operator.
    private Table output = null;

    // The side outputs of operator that be similar to the stream's side outputs.
    private Table[] sideOutputs = null;
}

0x04 存储模型

4.1 存储代码

我们修改一下代码，调用save函数把流水线模型存储起来。Alink目前是把模型文件存储成特殊格式的csv文件。

Pipeline pipeline = new Pipeline().add(va).add(kMeans);
pipeline.fit(data).save("./kmeans.csv");

流水线存储代码如下：

public class PipelineModel extends ModelBase<PipelineModel> implements LocalPredictable {
  // Pack the pipeline model to a BatchOperator.
  public BatchOperator save() {
      return ModelExporterUtils.packTransformersArray(transformers);
  }
}

我们可以看到，流水线最终调用到 ModelExporterUtils.packTransformersArray，所以我们就重点看看这个函数。这里可以解答模型文件中的问题：为什么第一个数值是-1？然后是 1？怎么没有中间的 0 ？

模型文件中每行第一个数字对应的是transformer的index。config是特殊的所以index设置为-1，下面代码中有指出。

模型文件中的1 就是说明第二个transformer KMeansModel具有数据，具体数据内容就在index 1对应这行。

为什么模型文件没有 0 就是因为第一个transformer VectorAssembler没有自己的数据，所以就不包括了。

class ModelExporterUtils {
    //Pack an array of transformers to a BatchOperator.
    static BatchOperator packTransformersArray(TransformerBase[] transformers) {
        int numTransformers = transformers.length;
        String[] clazzNames = new String[numTransformers];
        String[] params = new String[numTransformers];
        String[] schemas = new String[numTransformers];
        for (int i = 0; i < numTransformers; i++) {
            clazzNames[i] = transformers[i].getClass().getCanonicalName();
            params[i] = transformers[i].getParams().toJson();
            schemas[i] = "";
            if (transformers[i] instanceof PipelineModel) {
                schemas[i] = CsvUtil.schema2SchemaStr(PIPELINE_MODEL_SCHEMA);
            } else if (transformers[i] instanceof ModelBase) {
                long envId = transformers[i].getMLEnvironmentId();
                BatchOperator data = BatchOperator.fromTable(((ModelBase) transformers[i]).getModelData());
                data.setMLEnvironmentId(envId);
                data = data.link(new VectorSerializeBatchOp().setMLEnvironmentId(envId));
                schemas[i] = CsvUtil.schema2SchemaStr(data.getSchema());
            }
        }
        Map<String, Object> config = new HashMap<>();
        config.put("clazz", clazzNames);
        config.put("param", params);
        config.put("schema", schemas);
        // 这里就对应着模型文件的第一个数值 -1，就是config对应的index就是-1。
        Row row = Row.of(-1L, JsonConverter.toJson(config));  

 // 这个时候我们可以看到，schema, param, clazz 就是对应着模型文件中的输出，我们距离目标更近了一步     
 config = {HashMap@5432}  size = 3
 "schema" -> {String[2]@5431} 
  key = "schema"
  value = {String[2]@5431} 
   0 = ""
   1 = "model_id BIGINT,model_info VARCHAR"
 "param" -> {String[2]@5430} 
  key = "param"
  value = {String[2]@5430} 
   0 = "{"outputCol":"\"features\"","selectedCols":"[\"sepal_length\",\"sepal_width\",\"petal_length\",\"petal_width\"]"}"
   1 = "{"vectorCol":"\"features\"","maxIter":"100","reservedCols":"[\"category\"]","k":"3","predictionCol":"\"prediction_result\"","predictionDetailCol":"\"prediction_detail\""}"
 "clazz" -> {String[2]@5429} 
  key = "clazz"
  value = {String[2]@5429} 
   0 = "com.alibaba.alink.pipeline.dataproc.vector.VectorAssembler"
   1 = "com.alibaba.alink.pipeline.clustering.KMeansModel"      
      
        BatchOperator packed = new MemSourceBatchOp(Collections.singletonList(row), PIPELINE_MODEL_SCHEMA)
            .setMLEnvironmentId(transformers.length > 0 ? transformers[0].getMLEnvironmentId() :
                MLEnvironmentFactory.DEFAULT_ML_ENVIRONMENT_ID);
        for (int i = 0; i < numTransformers; i++) {
            BatchOperator data = null;
            final long envId = transformers[i].getMLEnvironmentId();
            if (transformers[i] instanceof PipelineModel) {
                data = packTransformersArray(((PipelineModel) transformers[i]).transformers);
            } else if (transformers[i] instanceof ModelBase) {
                data = BatchOperator.fromTable(((ModelBase) transformers[i]).getModelData())
                    .setMLEnvironmentId(envId);
                data = data.link(new VectorSerializeBatchOp().setMLEnvironmentId(envId));
            }
            if (data != null) {
                // 这对应模型文件中的1, 为什么模型文件没有 0就是因为VectorAssembler没有自己的数据，所以就不包括了。
                packed = new UnionAllBatchOp().setMLEnvironmentId(envId).linkFrom(packed, packBatchOp(data, i));
            }
        }
        return packed;
    }
}

0x05 读取模型

下面代码作用是：读取模型，然后进行转换。

BatchOperator data = new CsvSourceBatchOp().setFilePath(URL).setSchemaStr(SCHEMA_STR);
PipelineModel pipeline = PipelineModel.load("./kmeans.csv");
pipeline.transform(data).print();

读取模型文件，然后转换成PipelineModel。

public class PipelineModel extends ModelBase<PipelineModel> implements LocalPredictable {
    //Load the pipeline model from a path.
    public static PipelineModel load(String path) {
        return load(new CsvSourceBatchOp(path, PIPELINE_MODEL_SCHEMA));
    }

    //Load the pipeline model from a BatchOperator.
    public static PipelineModel load(BatchOperator batchOp) {
        return new PipelineModel(ModelExporterUtils.unpackTransformersArray(batchOp));
    }
  
    public PipelineModel(TransformerBase[] transformers) {
        super(null);
        if (null == transformers) {
            this.transformers = new TransformerBase[]{};
        } else {
            List<TransformerBase> flattened = new ArrayList<>();
            flattenTransformers(transformers, flattened);
            this.transformers = flattened.toArray(new TransformerBase[0]);
        }
    }  
}
// 相关调用栈如下  
unpackTransformersArray:91, ModelExporterUtils (com.alibaba.alink.pipeline)
load:149, PipelineModel (com.alibaba.alink.pipeline)
load:142, PipelineModel (com.alibaba.alink.pipeline)
main:22, KMeansExample2 (com.alibaba.alink)

以下是为导入导出用到的功能类，比如导入导出transformer。我们能够看到大致功能如下：

从index为-1处获取配置信息。
从配置信息中获取了算法类，参数，shema等信息。
根据算法类，生成所有transformer。
每次生成一个新transformer时候，会读取文件中对应行内容，unpack该行内容，生成模型对应的数据，然后赋值给transformer。注意的是，解析出来的数据被包装成一个BatchOperator。

class ModelExporterUtils {
    // Unpack transformers array from a BatchOperator.
    static TransformerBase[] unpackTransformersArray(BatchOperator batchOp) {
        String configStr;
        try {
            // 从index为-1处获取配置信息。
            List<Row> rows = batchOp.as(new String[]{"f1", "f2"}).where("f1=-1").collect();
            Preconditions.checkArgument(rows.size() == 1, "Invalid model.");
            configStr = (String) rows.get(0).getField(1);
        } catch (Exception e) {
            throw new RuntimeException("Fail to collect model config.");
        }
        // 这里从配置信息中获取了算法类，参数，shema等信息
        String[] clazzNames = JsonConverter.fromJson(JsonPath.read(configStr, "$.clazz").toString(), String[].class);
        String[] params = JsonConverter.fromJson(JsonPath.read(configStr, "$.param").toString(), String[].class);
        String[] schemas = JsonConverter.fromJson(JsonPath.read(configStr, "$.schema").toString(), String[].class);

        // 遍历，生成所有transformer。
        int numTransformers = clazzNames.length;
        TransformerBase[] transformers = new TransformerBase[numTransformers];
        for (int i = 0; i < numTransformers; i++) {
            try {
                Class clazz = Class.forName(clazzNames[i]);
                transformers[i] = (TransformerBase) clazz.getConstructor(Params.class).newInstance(
                    Params.fromJson(params[i])
                        .set(HasMLEnvironmentId.ML_ENVIRONMENT_ID, batchOp.getMLEnvironmentId()));
            } catch (Exception e) {
                throw new RuntimeException("Fail to re construct transformer.", e);
            }

            BatchOperator packed = batchOp.as(new String[]{"f1", "f2"}).where("f1=" + i);
            if (transformers[i] instanceof PipelineModel) {
                BatchOperator data = unpackBatchOp(packed, CsvUtil.schemaStr2Schema(schemas[i]));
                transformers[i] = new PipelineModel(unpackTransformersArray(data))
                    .setMLEnvironmentId(batchOp.getMLEnvironmentId());
            } else if (transformers[i] instanceof ModelBase) {
                BatchOperator data = unpackBatchOp(packed, CsvUtil.schemaStr2Schema(schemas[i]));
                // 这里会设置模型数据。
                ((ModelBase) transformers[i]).setModelData(data.getOutputTable());
            }
        }
        return transformers;
    }
  
}

最后生成的transformers如下：

transformers = {TransformerBase[2]@9340} 
 0 = {VectorAssembler@9383} 
  mapperBuilder = {VectorAssembler$lambda@9385} 
  params = {Params@9386} "Params {outputCol="features", selectedCols=["sepal_length","sepal_width","petal_length","petal_width"], MLEnvironmentId=0}"
 1 = {KMeansModel@9384} 
  mapperBuilder = {KMeansModel$lambda@9388} 
  modelData = {TableImpl@9389} "UnnamedTable$1"
  params = {Params@9390} "Params {vectorCol="features", maxIter=100, reservedCols=["category"], k=3, MLEnvironmentId=0, predictionCol="prediction_result", predictionDetailCol="prediction_detail"}"

0x06 预测

pipeline.transform(data).print();是预测的代码。

6.1 生成runtime rapper

预测算法需要被包装成RichMapFunction，才能够被Flink引用。

VectorAssembler是起到转换csv文件作用。KMeansModel是用来预测。预测时候会调用到KMeansModel.transform，其又会调用到linkFrom，这里生成了runtime rapper。

public abstract class MapModel<T extends MapModel<T>>
		extends ModelBase<T> implements LocalPredictable {
		@Override
    public BatchOperator transform(BatchOperator input) {
       return new ModelMapBatchOp(this.mapperBuilder, this.params)
             .linkFrom(BatchOperator.fromTable(this.getModelData())
                .setMLEnvironmentId(input.getMLEnvironmentId()), input);
    }
}

// this.getModelData()是模型数据，对应linkFrom的输入参数inputs[0]
// input 这个是待处理的数据。，对应linkFrom的输入参数inputs[1]
  
// 模型数据就是之前从csv中取出来设置的。
public abstract class ModelBase<M extends ModelBase<M>> extends TransformerBase<M>
    implements Model<M> {
    public Table getModelData() {
    	return this.modelData;
    }
}

ModelMapBatchOp.linkFrom 代码中，会生成ModelMapperAdapter。此时会把模型信息作为广播变量存起来。这样在后续预测时候就可以先load模型数据。

public class ModelMapBatchOp<T extends ModelMapBatchOp<T>> extends BatchOperator<T> {

   private static final String BROADCAST_MODEL_TABLE_NAME = "broadcastModelTable";

   // (modelScheme, dataSchema, params) -> ModelMapper
   private final TriFunction<TableSchema, TableSchema, Params, ModelMapper> mapperBuilder;

   public ModelMapBatchOp(TriFunction<TableSchema, TableSchema, Params, ModelMapper> mapperBuilder, Params params) {
      super(params);
      this.mapperBuilder = mapperBuilder;
   }

   @Override
   public T linkFrom(BatchOperator<?>... inputs) {
         BroadcastVariableModelSource modelSource = new BroadcastVariableModelSource(BROADCAST_MODEL_TABLE_NAME);
         ModelMapper mapper = this.mapperBuilder.apply(
               inputs[0].getSchema(),
               inputs[1].getSchema(),
               this.getParams());
         DataSet<Row> modelRows = inputs[0].getDataSet().rebalance();
         // 这里会广播变量
         DataSet<Row> resultRows = inputs[1].getDataSet()
               .map(new ModelMapperAdapter(mapper, modelSource))
               .withBroadcastSet(modelRows, BROADCAST_MODEL_TABLE_NAME);

         TableSchema outputSchema = mapper.getOutputSchema();
         this.setOutput(resultRows, outputSchema);
         return (T) this;
   }
}

6.2 加载模型

当预测时候，ModelMapperAdapter会在open函数先加载模型。

public class ModelMapperAdapter extends RichMapFunction<Row, Row> implements Serializable {
    @Override
    public void open(Configuration parameters) throws Exception {
        List<Row> modelRows = this.modelSource.getModelRows(getRuntimeContext());
        this.mapper.loadModel(modelRows);
    }
}

// 加载出来的模型数据举例如下
modelRows = {ArrayList@10100}  size = 4
 0 = {Row@10103} "2097152,{"clusterId":1,"weight":62.0,"vec":{"data":[5.901612903225806,2.7483870967741932,4.393548387096773,1.4338709677419355]}}"
 1 = {Row@10104} "0,{"vectorCol":"\"features\"","latitudeCol":null,"longitudeCol":null,"distanceType":"\"EUCLIDEAN\"","k":"3","vectorSize":"4"}"
 2 = {Row@10105} "3145728,{"clusterId":2,"weight":50.0,"vec":{"data":[5.005999999999999,3.418,1.4639999999999997,0.24400000000000002]}}"
 3 = {Row@10106} "1048576,{"clusterId":0,"weight":38.0,"vec":{"data":[6.85,3.0736842105263156,5.742105263157894,2.0710526315789477]}}"

this.mapper.loadModel(modelRows) 会调用KMeansModelMapper.loadModel，其最后调用到

ModelConverterUtils.extractModelMetaAndData 来进行反序列化，把DataSet转换回Tuple。
最终调用到KMeansUtil.KMeansTrainModelData生成用来预测的模型KMeansTrainModelData

/**
 * The abstract class for a kind of {@link ModelDataConverter} where the model data can serialize to "Tuple2&jt;Params, Iterable&jt;String>>". Here "Params" is the meta data of the model, and "Iterable&jt;String>" is concrete data of the model.
 */
public abstract class SimpleModelDataConverter<M1, M2> implements ModelDataConverter<M1, M2> {
    @Override
    public M2 load(List<Row> rows) {
        Tuple2<Params, Iterable<String>> metaAndData = ModelConverterUtils.extractModelMetaAndData(rows);
        return deserializeModel(metaAndData.f0, metaAndData.f1);
    }
}

metaAndData = {Tuple2@10267} "(Params {vectorCol="features", latitudeCol=null, longitudeCol=null, distanceType="EUCLIDEAN", k=3, vectorSize=4},com.alibaba.alink.common.model.ModelConverterUtils$StringDataIterable@7e9c1b42)"
 f0 = {Params@10252} "Params {vectorCol="features", latitudeCol=null, longitudeCol=null, distanceType="EUCLIDEAN", k=3, vectorSize=4}"
  params = {HashMap@10273}  size = 6
   "vectorCol" -> ""features""
   "latitudeCol" -> null
   "longitudeCol" -> null
   "distanceType" -> ""EUCLIDEAN""
   "k" -> "3"
   "vectorSize" -> "4"
 f1 = {ModelConverterUtils$StringDataIterable@10262} 
  iterator = {ModelConverterUtils$StringDataIterator@10272} 
   modelRows = {ArrayList@10043}  size = 4
   order = {Integer[4]@10388} 
   curr = "{"clusterId":0,"weight":38.0,"vec":{"data":[6.85,3.0736842105263156,5.742105263157894,2.0710526315789477]}}"
   listPos = 2

可以看到getModelRows就是从广播变量中读取数据。

public class BroadcastVariableModelSource implements ModelSource {
    public List<Row> getModelRows(RuntimeContext runtimeContext) {
        return runtimeContext.getBroadcastVariable(modelVariableName);
    }
}

6.3 预测

最后预测是在ModelMapperAdapter的map函数。这实际上是 flink根据用户代码生成的执行计划进行相应处理后自己执行的。

/**
 * Adapt a {@link ModelMapper} to run within flink.
 * 
 * This adapter class hold the target {@link ModelMapper} and it's {@link ModelSource}. Upon open(),
 * it will load model rows from {@link ModelSource} into {@link ModelMapper}.
 */
public class ModelMapperAdapter extends RichMapFunction<Row, Row> implements Serializable {
    @Override
    public Row map(Row row) throws Exception {
        return this.mapper.map(row);
    }
}

mapper实际调用到KMeansModelMapper，这里就用到了模型数据。

// Find  the closest cluster center for every point.
public class KMeansModelMapper extends ModelMapper {
    @Override
    public Row map(Row row){
        Vector record = KMeansUtil.getKMeansPredictVector(colIdx, row);
            ......
            if(isPredDetail){
                double[] probs = KMeansUtil.getProbArrayFromDistanceArray(clusterDistances);
                DenseVector vec = new DenseVector(probs.length);
                for(int i = 0; i < this.modelData.params.k; i++){
                    // 这里就用到了模型数据进行预测
                    vec.set((int)this.modelData.getClusterId(i), probs[i]);
                }
                res.add(vec.toString());
            }
      return outputColsHelper.getResultRow(row, Row.of(res.toArray(new Object[0])));
		}
}

// 模型数据如下
this = {KMeansModelMapper@10822} 
 modelData = {KMeansPredictModelData@10828} 
  centroids = {FastDistanceMatrixData@10842} 
   vectors = {DenseMatrix@10843} "mat[4,3]:\n  5.006,6.85,5.901612903225807\n  3.418,3.0736842105263156,2.7483870967741937\n  1.4639999999999997,5.742105263157894,4.393548387096774\n  0.24400000000000002,2.0710526315789473,1.4338709677419355\n"
   label = {DenseMatrix@10844} "mat[1,3]:\n  38.945592000000005,93.63106648199445,63.74191987513008\n"
   rows = {Row[3]@10845} 
  params = {KMeansTrainModelData$ParamSummary@10829} 
   k = 3
   vectorSize = 4
   distanceType = {DistanceType@10849} "EUCLIDEAN"
   vectorColName = "features"
   latitudeColName = null
   longtitudeColName = null

0x07 流式预测

我们知道Alink是可以支持批式预测和流式预测。我们看看流式预测是怎么处理的。下面就是KMeans的流式预测。

public class KMeansExampleStream {
    AlgoOperator getData(boolean isBatch) {
        Row[] array = new Row[] {
                Row.of(0, "0 0 0"),
                Row.of(1, "0.1,0.1,0.1"),
                Row.of(2, "0.2,0.2,0.2"),
                Row.of(3, "9 9 9"),
                Row.of(4, "9.1 9.1 9.1"),
                Row.of(5, "9.2 9.2 9.2")
        };

        if (isBatch) {
            return new MemSourceBatchOp(
                    Arrays.asList(array), new String[] {"id", "vec"});
        } else {
            return new MemSourceStreamOp(
                    Arrays.asList(array), new String[] {"id", "vec"});
        }
    }

    public static void main(String[] args) throws Exception {
        KMeansExampleStream ks = new KMeansExampleStream();
        BatchOperator inOp1 = (BatchOperator)ks.getData(true);
        StreamOperator inOp2 = (StreamOperator)ks.getData(false);

        KMeansTrainBatchOp trainBatch = new KMeansTrainBatchOp().setVectorCol("vec").setK(2);
        KMeansPredictBatchOp predictBatch = new KMeansPredictBatchOp().setPredictionCol("pred");

        trainBatch.linkFrom(inOp1);
        KMeansPredictStreamOp predictStream = new KMeansPredictStreamOp(trainBatch).setPredictionCol("pred");
        predictStream.linkFrom(inOp2);
        predictStream.print(-1,5);
        StreamOperator.execute();
    }
}

predictStream.linkFrom是我们这里的要点，其调用到ModelMapStreamOp。ModelMapStreamOp这个类的代码虽然少，但是条理非常清晰，非常适合学习。

首先相关继承关系如下KMeansPredictStreamOp extends ModelMapStreamOp
其次能看出来，流预测所依赖的数据模型依然是一个批处理产生的模型BatchOperator model。
mapperBuilder是业务算子，其构造是通过(modelScheme, dataSchema, params) 得出来的，这恰恰就是机器学习的几个要素。
KMeansModelMapper就是具体业务算子：KMeansModelMapper extends ModelMapper。

// Find  the closest cluster center for every point.
public final class KMeansPredictStreamOp extends ModelMapStreamOp <KMeansPredictStreamOp>
   implements KMeansPredictParams <KMeansPredictStreamOp> {
  
   // @param model trained from kMeansBatchOp
   public KMeansPredictStreamOp(BatchOperator model) {
      this(model, new Params());
   }

   public KMeansPredictStreamOp(BatchOperator model, Params params) {
      super(model, KMeansModelMapper::new, params);
   }
}

具体深入代码，我们可以看到：

首先，把DataSet的数据一次性都取出来，因为都取出来容易造成内存问题，所以 DataSet.collect 注释中有警告：Convenience method to get the elements of a DataSet as a List. As DataSet can contain a lot of data, this method should be used with caution.
其次，通过如下代码this.mapperBuilder.apply(modelSchema, in.getSchema(), this.getParams());构建业务模型算子 KMeansModelMapper。
然后，new ModelMapperAdapter(mapper, modelSource)会建立一个 RichFunction 作为运行适配层。
最后，输入的流数据源 in 会通过in.getDataStream().map((new ModelMapperAdapter(mapper, modelSource));来完成预测。
实际上，这时候只是生成stream graph，具体计算是后续flink会根据graph再进行处理。

public class ModelMapStreamOp<T extends ModelMapStreamOp <T>> extends StreamOperator<T> {

	private final BatchOperator model;
	// (modelScheme, dataSchema, params) -> ModelMapper
	private final TriFunction<TableSchema, TableSchema, Params, ModelMapper> mapperBuilder;

	public ModelMapStreamOp(BatchOperator model,
							TriFunction<TableSchema, TableSchema, Params, ModelMapper> mapperBuilder,
							Params params) {
		super(params);
		this.model = model;
		this.mapperBuilder = mapperBuilder;
	}

	@Override
	public T linkFrom(StreamOperator<?>... inputs) {
		StreamOperator<?> in = checkAndGetFirst(inputs);
		TableSchema modelSchema = this.model.getSchema();

		try {
      // 把模型数据全都取出来
			DataBridge modelDataBridge = DirectReader.collect(model);
			DataBridgeModelSource modelSource = new DataBridgeModelSource(modelDataBridge);
			ModelMapper mapper = this.mapperBuilder.apply(modelSchema, in.getSchema(), this.getParams());
      // 生成runtime适配层和预测算子。把预测结果返回。
      // 实际上，这时候只是生成stream graph，具体计算是后续flink会根据graph再进行处理。
			DataStream <Row> resultRows = in.getDataStream().map(new ModelMapperAdapter(mapper, modelSource));
			TableSchema resultSchema = mapper.getOutputSchema();
			this.setOutput(resultRows, resultSchema);

			return (T) this;
		} catch (Exception ex) {
			throw new RuntimeException(ex);
		}
	}
}

0x08 总结

现在我们已经梳理了Alink模型的来龙去脉，让我们再次拿出模型文件内容来验证。

第一行是元数据信息，其中包含schema, 算法类名称，元参数。Alink可以通过这些信息生成流水线的transformer。
后续行是算法类所需要的模型数据。每一行对应一个算法类。Alink会取出这些数据来设置到transformer中。
后续行的模型数据是具体算法相关。
第一行特殊之处在于其index是 -1。后续数据行的index从0开始，如果某一个transformer没有数据，则没有对应行，跳过index。

这样Alink就可以根据模型文件生成流水线模型。

-1,"{""schema"":["""",""model_id BIGINT,model_info VARCHAR""],""param"":[""{\""outputCol\"":\""\\\""features\\\""\"",\""selectedCols\"":\""[\\\""sepal_length\\\"",\\\""sepal_width\\\"",\\\""petal_length\\\"",\\\""petal_width\\\""]\""}"",""{\""vectorCol\"":\""\\\""features\\\""\"",\""maxIter\"":\""100\"",\""reservedCols\"":\""[\\\""category\\\""]\"",\""k\"":\""3\"",\""predictionCol\"":\""\\\""prediction_result\\\""\"",\""predictionDetailCol\"":\""\\\""prediction_detail\\\""\""}""],""clazz"":[""com.alibaba.alink.pipeline.dataproc.vector.VectorAssembler"",""com.alibaba.alink.pipeline.clustering.KMeansModel""]}"
  
1,"0^{""vectorCol"":""\""features\"""",""latitudeCol"":null,""longitudeCol"":null,""distanceType"":""\""EUCLIDEAN\"""",""k"":""3"",""vectorSize"":""4""}"
1,"1048576^{""clusterId"":0,""weight"":39.0,""vec"":{""data"":[6.8538461538461535,3.0769230769230766,5.7153846153846155,2.0538461538461545]}}"
1,"2097152^{""clusterId"":1,""weight"":61.0,""vec"":{""data"":[5.883606557377049,2.740983606557377,4.388524590163936,1.4344262295081969]}}"
1,"3145728^{""clusterId"":2,""weight"":50.0,""vec"":{""data"":[5.006,3.418,1.4640000000000002,0.24400000000000005]}}"

★★★★★★关于生活和技术的思考★★★★★★
微信公众账号：罗西的思考
如果您想及时得到个人撰写文章的消息推送，或者想看看个人推荐的技术资料，可以扫描下面二维码（或者长按识别二维码）关注个人公众号）。

你可能感兴趣的:(001_机器学习,200_Alink漫谈,002_大数据)

数学：机器学习的理论基石每天五分钟玩转人工智能机器学习人工智能
一、数学：机器学习的理论基石机器学习是一种通过数据学习模式和规律的科学。其核心目标是从数据中提取有用的信息，以便对未知数据进行预测和分类。为了实现这一目标，机器学习需要一种数学框架来描述和解决问题。数学在机器学习中起着至关重要的作用，它提供了一种数学模型来描述数据和模式，以及一种数学方法来优化模型。数学在机器学习中的应用非常广泛，涵盖了线性代数、概率论、统计学、微积分、优化等多个领域。这些数学方法
【机器学习：二十六、决策树】 KeyPan 机器学习机器学习决策树人工智能算法深度学习数据挖掘
1.决策树概述决策树是一种基于树状结构的监督学习算法，既可以用于分类任务，也可以用于回归任务。其主要通过递归地将数据划分为子集，从而生成一个具有条件结构的树模型。核心概念节点（Node）：每个节点表示一个特定的决策条件。根节点（RootNode）：树的起点，包含所有样本。分支（Branch）：每个分支代表一个条件划分的结果。叶节点（LeafNode）：终止节点，表示最终的决策结果。优点直观可解释：
大数据湖仓一体架构未来思考王知无(import_bigdata) 架构
湖仓一体架构是最近1-2年时间开始频繁出现在数据开发领域的新名词。也是各大公司竞相投入的对象。网络上关于湖仓一体架构的实践文章很多，看得也很眼花缭乱。我们今天站在一个「接地气」的角度，来说一说湖仓一体架构中未来需要关注的核心框架有哪些。文章内容也没有经过仔细的斟酌，完全是一点不成熟的想法，而且站的角度不是高屋建瓴的而是从下往上的。一个基本判断是湖仓一体架构在形式上不止一种大家可以从网上看到很多关于
大数据是什么？用浅显的语言揭开神秘面纱 Echo_Wish 大数据大数据单例模式
大数据是什么？用浅显的语言揭开神秘面纱在我们生活的时代，“大数据”已经从一个技术术语，成为了街头巷尾时常听到的词汇。然而，究竟什么是大数据？它离我们有多远？我们该如何理解这个复杂又常用的概念？作为一名深耕大数据领域的创作者，我希望用通俗易懂的语言，结合生活实例和代码，为大家揭开大数据的神秘面纱。一、大数据的定义：比“大”更重要的是“复杂性”从广义上讲，大数据指的是无法通过传统手段高效处理的数据集合
机器学习数学基础-极值和最值华东算法王（原聪明的小孩子小孩哥解析宋浩微积分机器学习算法人工智能
极值和最值极值和最值是数学中关于函数变化的重要概念，它们描述了函数在某些点附近或在整个定义域内的“最大”或“最小”行为。理解极值和最值对优化问题、函数分析、物理建模等领域有重要的应用。1.极值（LocalExtrema）极值是指函数在某个区间内的某一点取得的局部最大值或最小值。(1)局部最大值（LocalMaximum）一个函数在某点(x=c)取得局部最大值，意味着存在一个包含(c)的小区间，使得
在 Python 中使用 Ollama API 一路追寻大模型 Python Ollama LLM linux python
在Python中使用OllamaAPI在本文中，我们将简单介绍如何在Python中使用OllamaAPI。无论你是想进行简单的聊天对话、使用流式响应处理大数据、还是希望在本地进行模型的创建、复制、删除等操作，本文都可以为你提供指导。此外，我们还展示了如何使用自定义客户端和异步编程来优化你的应用程序性能，环境准备在开始使用Python与OllamaAPI交互之前，请确保您的开发环境满足以下条件：Py
17-7 向量数据库之野望7 - PostgreSQL 和pgvector 拉达曼迪斯II AIGC学习数据库管理工具 AI创业数据库 postgresql 人工智能机器学习 AIGC 搜索引擎
PostgreSQL是一款功能强大的开源对象关系数据库系统，它已将其功能扩展到传统数据管理之外，通过pgvector扩展支持矢量数据。这一新增功能满足了对高效处理高维矢量数据日益增长的需求，这些数据通常用于机器学习、自然语言处理(NLP)和推荐系统等应用。https://github.com/mazzasaverio/find-your-opensource-project什么是pgvector？
AI与API的融合：构建智能互联技术世界的基石 IT数据V+I7809804594 人工智能数据分析 python 爬虫大数据
在当今科技飞速发展的时代，人工智能（AI）与应用程序接口（API）的融合正在开启智能应用的新纪元。AI以其强大的数据处理和分析能力，正在改变各行各业的工作方式，而API则作为连接技术与应用的桥梁，为AI技术的普及和应用提供了无限可能。本文将深入探讨AI与API的融合如何推动智能应用的创新和发展，以及其在各个领域的应用和前景。一、AI与API融合的背景随着大数据、云计算、物联网等技术的快速发展，人工
【MySQL】Mysql数据库导入导出sql文件、备份数据库、迁移数据库程序员洲洲数据库数据库 mysql 导入导出sql sql文件备份迁移
本文摘要：本文提出了xxx的实用开发小技巧。作者介绍：我是程序员洲洲，一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。同时欢迎大家关注其他专栏，我将分享Web前后端开发、人工智能、机器学习、深度学习从0到1系列文章。同时洲洲已经建立了程序员技术交流群，如果您感兴趣，可以私信我加入我的社群，也可以直接vx联系（文末有名片）v：bdizztt随时
Hadoop 和 Spark 的内存管理机制分析王子良. 经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
2025最新大数据毕业设计选题汇总：创新课题推荐 HaiLang_IT 毕业设计选题大数据毕业设计 python
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇总
PL/SQL语言的文件操作云端架构师包罗万象 golang 开发语言后端
PL/SQL语言的文件操作引言PL/SQL（ProceduralLanguage/SQL）是Oracle数据库提供的一种过程化编程语言，它结合了SQL的强大数据处理能力和过程性编程的灵活性。PL/SQL不仅可以用于数据库的操作和处理用户输入的数据，还可以进行丰富的文件操作。随着数据量的增加和信息处理需求的提高，掌握PL/SQL中的文件操作技术，对于数据库管理员和开发人员而言，显得尤为重要。本文将对
【Python机器学习】无监督学习——K-均值聚类算法 zhangbin_237 Python机器学习机器学习算法 python kmeans k-means 均值算法
聚类是一种无监督的学习，它将相似的对象归到同一簇中，它有点像全自动分类。聚类方法几乎可以应用于所有的对象，簇内的对象越相似，聚类的效果越好。K-均值聚类算法就是一种典型的聚类算法，之所以称之为K-均值是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。簇识别给出聚类结果的含义，假定有一些数据，现在将相似数据归到一起，簇识别会告诉我们这些簇到底都是些什么。聚类与分类的最大不同在
【Python】已解决：WARNING: pip is configured with locations that require TLS/SSL, however the ssl module i 屿小夏 python pip ssl
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
机器学习特征重要性之feature_importances_属性与permutation_importance方法一叶_障目机器学习 python 数据挖掘
一、feature_importances_属性在机器学习中，分类和回归算法的feature_importances_属性用于衡量每个特征对模型预测的重要性。这个属性通常在基于树的算法中使用，通过feature_importances_属性，您可以了解哪些特征对模型的预测最为重要，从而可以进行特征选择或特征工程，以提高模型的性能和解释性。1、决策树1.1.sklearn.tree.Decision
机器学习-期末测试难以触及的高度机器学习 python 人工智能
机器学习-期末测试线性回归1.代码展示#coding=UTF-8#拆分训练集和测试集importmatplotlib.pyplotaspltfromsklearn.model_selectionimporttrain_test_split#是线性回归类是sklearn写好的根据梯度下降法fromsklearn.linear_modelimportLinearRegressionimportpand
机器学习的介绍 2201_75874206 机器学习人工智能
目录1.机器学习的定义2.机器学习的原理3.机器学习的方法4.机器学习的分类5.机器学习的评估6.机器学习的应用场景7.机器学习与人工智能的关系结论机器学习在自然语言处理中的最新应用和技术是什么？如何评估机器学习模型的性能，除了交叉验证、MSE和RMSE外，还有哪些其他重要的指标？在金融风险管理中，机器学习如何帮助预测市场趋势和信用风险？市场趋势预测信用风险评估机器学习与人工智能之间的关系在未来发
Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题 Loving_enjoy 论文深度学习计算机视觉人工智能
###Kaggle欺诈检测：使用生成对抗网络（GAN）解决正负样本极度不平衡问题####引言在金融领域中，欺诈检测是一项至关重要的任务。然而，欺诈交易数据往往呈现出正负样本极度不平衡的特点，这给机器学习模型的训练带来了挑战。传统的分类算法在面对这种不平衡数据时，往往会导致模型对多数类（正常交易）过拟合，而对少数类（欺诈交易）的识别能力较差。为了解决这个问题，生成对抗网络（GAN）提供了一种有效的手
大数据学习（五）：如何使用 Livy提交spark批量任务--转载 zuoseve01 livy
Livy是一个开源的REST接口，用于与Spark进行交互，它同时支持提交执行代码段和完整的程序。Livy封装了spark-submit并支持远端执行。启动服务器执行以下命令，启动livy服务器。./bin/livy-server这里假设spark使用yarn模式，所以所有文件路径都默认位于HDFS中。如果是本地开发模式的话，直接使用本地文件即可（注意必须配置livy.conf文件，设置livy.
一文读懂：无监督学习与有监督学习的区别与应用码上飞扬学习
在机器学习的世界里，无监督学习和有监督学习是两个最为常见且重要的概念。理解这两者的区别和应用场景，不仅有助于我们选择合适的算法和模型，还能帮助我们更好地解决实际问题。那么，什么是无监督学习和有监督学习呢？本文将带你详细了解这两种学习方式的定义、区别以及典型应用。目录无监督学习是什么？有监督学习是什么？无监督学习与有监督学习的主要区别无监督学习的典型应用有监督学习的典型应用如何选择合适的学习方法？1
Spark Livy 指南及livy部署访问实践 house.zhang 大数据-Spark 大数据
背景：ApacheSpark是一个比较流行的大数据框架、广泛运用于数据处理、数据分析、机器学习中，它提供了两种方式进行数据处理，一是交互式处理：比如用户使用spark-shell，编写交互式代码编译成spark作业提交到集群上去执行；二是批处理，通过spark-submit提交打包好的spark应用jar到集群中进行执行。这两种运行方式都需要安装spark客户端配置好yarn集群信息，并打通集群网
大数据学习（四）：Livy的安装配置及pyspark的会话执行猪笨是念来过倒大数据 pyspark
一个基于Spark的开源REST服务，它能够通过REST的方式将代码片段或是序列化的二进制代码提交到Spark集群中去执行。它提供了以下这些基本功能：提交Scala、Python或是R代码片段到远端的Spark集群上执行；提交Java、Scala、Python所编写的Spark作业到远端的Spark集群上执行；提交批处理应用在集群中运行。从Livy所提供的基本功能可以看到Livy涵盖了原生Spar
C#遇见TensorFlow.NET：开启机器学习的全新时代墨夶 C#学习资料1 机器学习 c#tensorflow
在当今快速发展的科技世界里，机器学习（MachineLearning,ML）已经成为推动创新的重要力量。从个性化推荐系统到自动驾驶汽车，ML的应用无处不在。对于那些习惯于使用C#进行开发的程序员来说，将机器学习集成到他们的项目中似乎是一项具有挑战性的任务。但随着TensorFlow.NET的出现，这一切变得不再困难。今天，我们将一起探索如何利用这一强大的工具，在熟悉的.NET环境中轻松构建、训练和
网络爬虫——分布式爬虫架构好看资源分享网络爬虫 Python 爬虫分布式架构
分布式爬虫在现代大数据采集中是不可或缺的一部分。随着互联网信息量的爆炸性增长，单机爬虫在性能、效率和稳定性上都面临巨大的挑战。分布式爬虫通过任务分发、多节点协作以及结果整合，成为解决大规模数据抓取任务的核心手段。本节将从Scrapy框架的基本使用、Scrapy-Redis的分布式实现、分布式爬虫的优化策略等多个方面展开，结合实际案例，帮助开发者掌握分布式爬虫的设计与实现。1.Scrapy框架的核心
Python-玩转数据-数据分析之分析思维人猿宇宙数据分析 python big data
一、说明当下时代的社会生产发展，人们都开始习惯于用数据来说明某个观点和反映事物的内在规律或享用自动化和人工智能带来的便利。但这些轻松快捷的方便背后，都是相关工作者的专业流程作为源源不断的支撑。二、大数据思维自从几年前大数据开始兴起，大数据思维已经逐渐被更动的人接受，随着其进一步发展，产生了巨大的生产效果。三、数据驱动的生产力作为一个数据工程师，仅仅知道跑数据是不够的，还需要通过数据发现生产环节出现
深入探索Python编程技术：从入门到精通的全方位学习指南小码快撩 python 开发语言
引言在当今信息技术飞速发展的时代，Python以其简洁优雅、功能强大、易于上手的特点，成为了众多开发者和初学者首选的编程语言。无论是数据科学、机器学习、Web开发、自动化脚本编写，还是桌面应用开发，Python都能发挥其独特优势，帮助开发者高效完成任务。本文旨在为Python学习者提供一个全面的学习路径与关键知识点概述，助您快速掌握这门强大的编程语言。一、基础语法1.变量定义与数据类型示例代码：#
从零开始的 AI Infra 学习之路 SSS不知-道 MLSys 人工智能深度学习 pytorch
从零开始的AIInfra学习之路文章目录从零开始的AIInfra学习之路一、概述二、AI算法应用2.1机器学习2.2深度学习2.3LLM三、AI开发体系3.1编程语言四、AI训练框架&推理引擎4.1PyTorch4.2llama.cpp4.3vLLM五、AI编译&计算架构5.1CUDA5.2CANN六、AI硬件&体系结构6.1INVIDIAGPU6.2AscendNPU一、概述AIInfra（AI
python 特征选择方法_【来点干货】机器学习中常用的特征选择方法及非常详细的Python实例... Blair Long python 特征选择方法
花费了很长时间整理编辑，转载请联系作者授权，违者必究。特征选择(Featureselection)是在构建预测模型的过程中减少输入变量的一个过程。它是机器学习中非常重要的一步并在很大程度上可以提高模型预测精度。这里我总结了一些机器学习中常见的比较有用的特征选择方法并附上相关python实现code。希望可以给大家一些启发。首先，我们为什么要进行特征选择呢？它有以下几个优点：减少过拟合：冗余数据常常
chatgpt赋能python：Python群发微信消息：解决方案 suimodina ChatGpt python chatgpt 微信计算机
Python群发微信消息：解决方案肆无忌惮的群发微信消息，是否是你目前所需的解决方案？如果是，那么你来对地方了。Python是一门十分强大的编程语言，广泛用于各种人工智能、计算机视觉、机器学习等领域。Python可以用于开发各种应用程序，它也可以用于批量处理和发送微信消息。本文将概述如何用Python发送微信消息。我们将介绍用Python实现微信消息的流程和步骤，并提供一些有关如何使用Python
ChatGPT4.0最新功能和使用技巧，助力日常生活、学习与工作！ WangYan2022 教程人工智能 chatgpt 数据分析 ai绘画 AI写作
熟练掌握ChatGPT4.0在数据分析、自动生成代码等方面的强大功能，系统学习人工智能（包括传统机器学习、深度学习等）的基础理论知识，以及具体的代码实现方法，同时掌握ChatGPT4.0在科研工作中的各种使用方法与技巧，以及人工智能领域经典机器学习算法（BP神经网络、支持向量机、决策树、随机森林、变量降维与特征选择、群优化算法等）和热门深度学习方法（卷积神经网络、迁移学习、RNN与LSTM神经网络
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name