CoderBoom

推荐系统-基于模型协同过滤理论基础与业务实践

1.SparkMllib库框架详解

Spark机器学习库
- 五个组件
  - ML Algratham算法 : 分类 , 聚类 , 降维 , 协同过滤
  - Pipelines管道 ----
  - Featurization 特征化---- 特征抽取 , 特征转换 , 特征降维 , 特征选择
  - Persistence 持久化---- 模型的保存 , 读取 , 管道操作
  - Utilities ---- 提供了线性代数 , 统计学以及数据处理工具
- Sparkml和Sparkmllib
  - ml基于DatafrmaeAPI
    - MLlib仍将支持基于RDD的API spark.mllib以及错误修复。
    - MLlib不会为基于RDD的API添加新功能。
    - 在Spark 2.x版本中，MLlib将为基于DataFrames的API添加功能，以实现与基于RDD的API的功能奇偶校验。
    - 在达到功能奇偶校验（粗略估计Spark 2.3）之后，将弃用基于RDD的API。
    - 预计将在Spark 3.0中删除基于RDD的API。
  - 为什么会从MLlib切换到DataFrame的API
    - DataFrames提供比RDD更加用户友好的API。DataFrame的许多好处包括Spark数据源，SQL / DataFrame查询，Tungsten和Catalyst优化以及跨语言的统一API。
    - 基于DataFrame的MLlib API跨ML算法和多种语言提供统一的API。
    - DataFrames有助于实用的ML管道，特别是功能转换
  - mllib基于rdd的API

2.SparkMllib基本数据类型

向量

Local vector本地向量，主要向Spark提供一组可进行操作的数据集合
- 创建方式上
  - dense稠密性向量----会存储0值和非0值
  - sparse稀疏性向量—仅可以存储非0值元素
    - sparse(n,seq((x,y),(p,q)))结构数据
    - 元素个数，(下标，元素的值)，(下标，元素的值)…
  - 在MLlib的数据支持格式中 , 目前仅支持整数和浮点型数

Labled Point标签向量，让用户能够分类不同的数据集合

通过指定Vectors给定dense或sparse等向量
从mllib.regression.LabeledPoint中获取lablepoint通过该方法给特征进行标签赋值

Spark读取libsvm格式数据

https://www.csie.ntu.edu.tw/~cjlin/libsvm/
鸢尾花-----花瓣的长度和宽度、花萼的长度和宽度
鸢尾花几种类别—三种类别—setosa、versicolor、vernica

1 1:-0.555556 4:-0.916667 
1 1:-0.666667 2:-0.166667 3:-0.864407 4:-0.916667 
1 1:-0.777778 3:-0.898305 4:-0.916667 
1 1:-0.833333 2:-0.0833334 3:-0.830508 4:-0.916667 
1 1:-0.611111 2:0.333333 3:-0.864407 4:-0.916667 
1 1:-0.388889 2:0.583333 3:-0.762712 4:-0.75 
1 1:-0.833333 2:0.166667 3:-0.864407 4:-0.833333 
1 1:-0.611111 2:0.166667 3:-0.830508 4:-0.916667 
1 1:-0.944444 2:-0.25 3:-0.864407 4:-0.916667 
1 1:-0.666667 2:-0.0833334 3:-0.830508 4:-1 
1 1:-0.388889 2:0.416667 3:-0.830508 4:-0.916667 
1 1:-0.722222 2:0.166667 3:-0.79661 4:-0.916667 
1 1:-0.722222 2:-0.166667 3:-0.864407 4:-1 
1 1:-1 2:-0.166667 3:-0.966102 4:-1 
1 1:-0.166667 2:0.666667 3:-0.932203 4:-0.916667 
1 1:-0.222222 2:1 3:-0.830508 4:-0.75 
1 1:-0.388889 2:0.583333 3:-0.898305 4:-0.75

libsvm格式非常适合于稀疏性数据(0值元素较多非0元素较少的情况)
SparkMLlib读取LibSvm数据，libsvm数据格式为：Label index1：value1 index2：value2 …

2 1:5 2:8 3:9(索引从1开始，从0开始会报错)
1 1:7 2:6 3:7
1 1:3 2:2 3:1

(2.0列别标签,(9元素个数,[0,1,2]下标,[5.0,8.0,9.0]值))
(1.0,(9,[0,1,2],[7.0,6.0,7.0]))
(1.0,(9,[0,1,2],[3.0,2.0,1.0]))
(2.0,(9,[0,1,2],[5.0,8.0,9.0]))

矩阵

LocalMatrix–本地矩阵

MLlib中的局部矩阵以列主要顺序存储

val dm: Matrix = Matrices.dense(3, 2, Array(1.0, 3.0, 5.0, 2.0, 4.0, 6.0))
//dense(行数 , 列数 , 数组())
println(dm(2,0))
// Create a sparse matrix ((9.0, 0.0), (0.0, 8.0), (0.0, 6.0))
val sm: Matrix = Matrices.sparse(3, 2, Array(0, 1, 3), Array(0, 2, 1), Array(9, 6, 8))
println(sm(2,1))//6
println(sm(2,0))//0
//sparse(行数,列数,数组1--列索引(),数组2--行索引(),数组3--数值())
//没有的为0

分布式矩阵(了解)
在MLlib实现了三类分布式矩阵存储格式，分别是**行矩阵（RowMatrix）、行索引矩阵（IndexedRowMatrix）、三元组矩阵（CoordinateMatrix）和分块矩阵（BlockMatrix）**等四种。

3.统计量的MLLIB实现

基于均值、方差、极差、分层抽样、假设检验等方面

4.Mllib抽取-转换-选择之特征提取器

提取(抽取) : 从"原始"数据中提取要素
转换 : 缩放 , 转换或修改功能
选择 : 从更大的功能集中选择子集
TF-IDF–适用于文本分析----自然语言的文本处理之中 ---- 常用与基于内容的推荐
TF-IDF可以筛选掉不是非常常用的关键词
Word2Vec词向量工具----一个词能够使用不同词向量表示
[[0.03173386193811894,0.009443491697311401,0.024377789348363876]]
建议自学word2vec原理
word2vec缺陷
- 1是词语数量较大时，向量维度高且稀疏，向量矩阵巨大而难以存储
- 2是向量并不包含单词的语义内容，只是基于数量统计。
- 3是当有新的词加入语料库后，整个向量矩阵需要更新
- 利用skip-gram算法克服上述三个缺陷
- 隐藏层 : 根据最终需要获取的词向量维数决定隐藏神经元就是多少个
- skip-gram算法构造的神经网络神经元太多了，导致权重矩阵非常大 , 导致数据难以训练
- 负抽样 : 主要解决模型难以训练
- 使用SGD(最速下降法)训练神经网络的过程就是抽取一条样本数据 , 然后据此去调整神经网络的所有权重==>所有权重导致数据难以训练
- 负抽样解决方法就是使得对每一条样本的每一次训练 , 只更新很小的一部分的权重, 而不是全部更新
- ```
让我们用一个例子来具体感受一下。假设我们负抽样的维度数为5，我们的词表中有10000个单词，词向量的维度为300，也即是隐藏层有300个神经元。
那么，在输出层，权重矩阵的大小将是300*10000。现在我们抽取了5个负的维度（输出应当为0的维度），加上输出为1的维度，只更新这6个维度所对应的神经元。那么需要更新的权重系数是300*6=1800个。这只占输出层中所有权重系数的0.06%！！
为什么是300*6?????
```
- 如何抽样?
  - 根据单词在语料库中出现的次数多少来的 , 出现的次数越多 , 抽到的可能性越大

* P(w_i)就是w_i这个单词被负抽样抽中的概率。f(w_i)即是w_i在语料库中出现的次数。
* 至于为什么要取一次3/4次方，据说是基于经验，这样效果会更好。

CountVector–处理文本中的词频，按照词频进行原文本的排序(按照原文本顺序?次数排序?)
- CountVectorizer并CountVectorizerModel旨在帮助将一组文本文档转换为令牌计数的向量。当apriori字典不可用时，CountVectorizer可以用作Estimator提取词汇表，并生成一个CountVectorizerModel。该模型为词汇表上的文档生成稀疏表示，然后可以将其传递给其他算法，如LDA。
- 在拟合过程中，CountVectorizer将选择vocabSize按语料库中的术语频率排序的顶部单词。可选参数minDF还通过指定术语必须出现在文档中的最小数量（或<1.0）来影响拟合过程。另一个可选的二进制切换参数控制输出向量。如果设置为true，则所有非零计数都设置为1.这对于模拟二进制而非整数计数的离散概率模型特别有用。

5.Mllib抽取-转换-选择之特征转换

n-gram中的n就是选取出现频率较多的n个词来进行匹配

二值化

import org.apache.spark.ml.feature.Binarizer
import org.apache.spark.sql.SparkSession

object Binaziner_3 {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder()
      .appName("SparkMlilb")
      .master("local[2]")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")
    val data = Array((0, 0.1), (1, 0.8), (2, 0.2))
    val dataFrame = spark.createDataFrame(data).toDF("label", "feature")

    val binarizer: Binarizer = new Binarizer()
      .setInputCol("feature")
      .setOutputCol("binarized_feature")
      .setThreshold(0.5)
    //小于0.5为0 , 大于0.5为1

    val binarizedDataFrame = binarizer.transform(dataFrame)
    val binarizedFeatures = binarizedDataFrame.select("binarized_feature")
    binarizedFeatures.collect().foreach(println)
  }
}

//输出
//[0.0]
//[1.0]
//[0.0]

stringtoindexer : 将标签的字符串列编码为标签索引项 . 索引[0, numLabels)按标签频率排序，因此最常用的标签获得索引0。

import org.apache.spark.ml.feature.StringIndexer
import org.apache.spark.sql.SparkSession

object StringIndex {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder()
      .appName("SparkMlilb")
      .master("local[2]")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")
    val df = spark.createDataFrame(
      Seq((0, "a"), (1, "b"), (2, "c"), (3, "a"), (4, "a"), (5, "c"))
    ).toDF("id", "category")

    val indexer = new StringIndexer()
      .setInputCol("category")
      .setOutputCol("categoryIndex")

    val indexed = indexer.fit(df).transform(df)
    indexed.show()
    //输出
    //      +---+--------+-------------+
    //      | id|category|categoryIndex|
    //      +---+--------+-------------+
    //      |  0|       a|          0.0|
    //      |  1|       b|          2.0|
    //      |  2|       c|          1.0|
    //      |  3|       a|          0.0|
    //      |  4|       a|          0.0|
    //      |  5|       c|          1.0|
    //      +---+--------+-------------+
  }
}

indextoString : 一列标签索引映射回包含原始标签作为字符串的列。一个常见的用例是从标签生成索引StringIndexer，使用这些索引训练模型，并从预测索引列中检索原始标签IndexToString。但是，可以自由提供自己的标签。

StandardScaler : StandardScaler转换Vector行的数据集，将每个要素标准化以具有单位标准差和/或零均值。

需要的参数 :
- withStd：默认为True。将数据缩放到单位标准偏差。
- withMean：默认为False。在缩放之前使用均值将数据居中。它将构建一个密集的输出，因此这不适用于稀疏输入并将引发异常。

import org.apache.spark.sql.SparkSession

object StandScater {
  def main(args: Array[String]): Unit = {
    import org.apache.spark.ml.feature.StandardScaler
    val spark: SparkSession = SparkSession.builder()
      .appName("SparkMlilb")
      .master("local[2]")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")
    val dataFrame = spark.read.format("libsvm").load("I:\\ideaworkspace\\Saprk_Test_ML\\src\\main\\scala\\cn\\apple\\BigDataMachineLearningPro\\sample_libsvm_data.txt")

    val scaler = new StandardScaler()
      .setInputCol("features")
      .setOutputCol("scaledFeatures")
      .setWithStd(true)
      .setWithMean(false)

    // Compute summary statistics by fitting the StandardScaler.
    val scalerModel = scaler.fit(dataFrame)

    // Normalize each feature to have unit standard deviation.
    val scaledData = scalerModel.transform(dataFrame)
    scaledData.show()
    //    +-----+--------------------+--------------------+
    //    |label|            features|      scaledFeatures|
    //    +-----+--------------------+--------------------+
    //    |  0.0|(692,[127,128,129...|(692,[127,128,129...|
    //    |  1.0|(692,[158,159,160...|(692,[158,159,160...|
    //    |  1.0|(692,[124,125,126...|(692,[124,125,126...|
    //    |  1.0|(692,[152,153,154...|(692,[152,153,154...|
    //    |  1.0|(692,[151,152,153...|(692,[151,152,153...|
    //    |  0.0|(692,[129,130,131...|(692,[129,130,131...|
    //    |  1.0|(692,[158,159,160...|(692,[158,159,160...|
    //    |  1.0|(692,[99,100,101,...|(692,[99,100,101,...|
    //    |  0.0|(692,[154,155,156...|(692,[154,155,156...|
    //    |  0.0|(692,[127,128,129...|(692,[127,128,129...|
    //    |  1.0|(692,[154,155,156...|(692,[154,155,156...|
    //    |  0.0|(692,[153,154,155...|(692,[153,154,155...|
    //    |  0.0|(692,[151,152,153...|(692,[151,152,153...|
    //    |  1.0|(692,[129,130,131...|(692,[129,130,131...|
    //    |  0.0|(692,[154,155,156...|(692,[154,155,156...|
    //    |  1.0|(692,[150,151,152...|(692,[150,151,152...|
    //    |  0.0|(692,[124,125,126...|(692,[124,125,126...|
    //    |  0.0|(692,[152,153,154...|(692,[152,153,154...|
    //    |  1.0|(692,[97,98,99,12...|(692,[97,98,99,12...|
    //    |  1.0|(692,[124,125,126...|(692,[124,125,126...|
    //    +-----+--------------------+--------------------+
    //    only showing top 20 rows
  }
}

Bucketizer 分箱 , 分桶 : Bucketizer将一列连续特征转换为一列要素存储区，其中存储区由用户指定。它需要一个参数：

splits：用于将连续要素映射到存储桶的参数。对于n +1个分裂，有n个桶。由splits x，y定义的存储区包含除最后一个存储区之外的[x，y]范围内的值，该存储区还包括y。

import org.apache.spark.sql.SparkSession

object Bucketizer {
  def main(args: Array[String]): Unit = {
    import org.apache.spark.ml.feature.Bucketizer
    val spark: SparkSession = SparkSession.builder()
      .appName("SparkMlilb")
      .master("local[2]")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")
    val splits = Array(Double.NegativeInfinity, -0.5, 0.0, 0.5, Double.PositiveInfinity)

    val data = Array(-0.5, -0.3, 0.0, 0.2)
    val dataFrame = spark.createDataFrame(data.map(Tuple1.apply)).toDF("features")

    val bucketizer = new Bucketizer()
      .setInputCol("features")
      .setOutputCol("bucketedFeatures")
      .setSplits(splits)

    // Transform original data into its bucket index.
    val bucketedData = bucketizer.transform(dataFrame)
    bucketedData.show()
    //      +--------+----------------+
    //      |features|bucketedFeatures|
    //      +--------+----------------+
    //      |    -0.5|             1.0|
    //      |    -0.3|             1.0|
    //      |     0.0|             2.0|
    //      |     0.2|             2.0|
    //      +--------+----------------+
  }
}
//结果解释 : -0.5和-0.3都在1号桶 , 0和0.2在2号桶
//桶的编号从0开始???

SQLTransformer

import org.apache.spark.ml.feature.SQLTransformer
import org.apache.spark.sql.SparkSession

object SqlTransformer {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder()
      .appName("SparkMlilb")
      .master("local[2]")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")
    val df = spark.createDataFrame(
      Seq((0, 1.0, 3.0), (2, 2.0, 5.0))).toDF("id", "v1", "v2")
df.show()
    //    +---+---+---+
    //    | id| v1| v2|
    //    +---+---+---+
    //    |  0|1.0|3.0|
    //    |  2|2.0|5.0|
    //    +---+---+---+
    val sqlTrans = new SQLTransformer().setStatement(
      "SELECT *, (v1 + v2) AS v3, (v1 * v2) AS v4 FROM __THIS__")

    sqlTrans.transform(df).show()
    //      +---+---+---+---+----+
    //      | id| v1| v2| v3|  v4|
    //      +---+---+---+---+----+
    //      |  0|1.0|3.0|4.0| 3.0|
    //      |  2|2.0|5.0|7.0|10.0|
    //      +---+---+---+---+----+
  }
}
//结果解读 : 将低维的数据进行增加维度 , 是对原来维度的整合 , 特征融合

QuantileDiscretizer : 连续属性离散化 —分位数

QuantileDiscretizer采用具有连续特征的列，并输出具有分箱分类特征的列。箱数由numBuckets参数设定。

import org.apache.spark.sql.SparkSession
object QuantileDiscreator {
  def main(args: Array[String]): Unit = {
    import org.apache.spark.ml.feature.QuantileDiscretizer
    val spark: SparkSession = SparkSession.builder()
      .appName("SparkMlilb")
      .master("local[2]")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")
    val data = Array((0, 18.0), (1, 19.0), (2, 8.0), (3, 5.0), (4, 2.2))
    var df = spark.createDataFrame(data).toDF("id", "hour")

    val discretizer = new QuantileDiscretizer()
      .setInputCol("hour")
      .setOutputCol("result")
      .setNumBuckets(3)

    val result = discretizer.fit(df).transform(df)
    result.show()
    //    +---+----+------+
    //    | id|hour|result|
    //    +---+----+------+
    //    |  0|18.0|   2.0|
    //    |  1|19.0|   2.0|
    //    |  2| 8.0|   1.0|
    //    |  3| 5.0|   1.0|
    //    |  4| 2.2|   0.0|
    //    +---+----+------+
  }
}

6.Mllib抽取-转换-选择之特征选择器

特征选择VectorSlicer是一个变换器 , 它采用一个特征向量，并输出一个带有原始特征子阵列的新特征向量。

import org.apache.spark.ml.attribute.{Attribute, AttributeGroup, NumericAttribute}
import org.apache.spark.ml.feature.VectorSlicer
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.sql.types.StructType

object VectorSlicer_4 {
  def main(args: Array[String]): Unit = {
    import java.util.Arrays

    val spark: SparkSession = SparkSession.builder()
      .appName("SparkMlilb")
      .master("local[2]")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")

    val data = Arrays.asList(Row(Vectors.dense(-2.0, 2.3, 0.0)))

    val defaultAttr = NumericAttribute.defaultAttr
    val attrs = Array("f1", "f2", "f3").map(defaultAttr.withName)
    val attrGroup = new AttributeGroup("userFeatures", attrs.asInstanceOf[Array[Attribute]])

    val dataset = spark.createDataFrame(data, StructType(Array(attrGroup.toStructField())))

    val slicer = new VectorSlicer().setInputCol("userFeatures").setOutputCol("features")

    slicer.setIndices(Array(1)).setNames(Array("f3"))
    //or slicer.setIndices(Array(1, 2)), or slicer.setNames(Array("f2", "f3"))

    val output = slicer.transform(dataset)
    println(output.select("userFeatures", "features").first())
    //[[-2.0,2.3,0.0],[2.3,0.0]]
  }
}

RFormula根据R公式

RFormula选择由R模型公式指定的列。目前，我们支持R运算符的有限子集，包括'〜'，'。'，'：'，'+'和' - '。基本的运营商是：
•	~ 单独的目标和条款
•	+ concat术语，“+ 0”表示删除拦截
•	- 删除一个术语，“ - 1”表示删除拦截
•	: 交互（数值乘法或二进制分类值）
•	. 除目标之外的所有列

import org.apache.spark.ml.feature.RFormula
import org.apache.spark.sql.SparkSession

object RSelectElement {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder()
      .appName("SparkMlilb")
      .master("local[2]")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")
    val dataset = spark.createDataFrame(Seq(
      (7, "US", 18, 1.0),
      (8, "CA", 12, 0.0),
      (9, "NZ", 15, 0.0)
    )).toDF("id", "country", "hour", "clicked")
    val formula = new RFormula()
      .setFormula("clicked ~ country + hour")
      .setFeaturesCol("features")
      .setLabelCol("label")
    val output = formula.fit(dataset).transform(dataset)
    output.select("features", "label").show()
    //    +--------------+-----+
    //    |      features|label|
    //    +--------------+-----+
    //    |[0.0,0.0,18.0]|  1.0|
    //    |[1.0,0.0,12.0]|  0.0|
    //    |[0.0,1.0,15.0]|  0.0|
    //    +--------------+-----+
  }
}

卡方验证Chisquare

ChiSqSelector代表Chi-Squared特征选择。它使用具有分类特征的标记数据进行操作。ChiSqSelector根据类的独立性Chi-Squared测试来命令特征，然后过滤（选择）类标签最依赖的顶级特征。这类似于产生具有最强预测能力的特征。

import org.apache.spark.ml.feature.ChiSqSelector
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
object chiSquare {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder()
      .appName("SparkMlilb")
      .master("local[2]")
      .getOrCreate()
    spark.sparkContext.setLogLevel("WARN")
    val data = Seq(
      (7, Vectors.dense(0.0, 0.0, 18.0, 1.0), 1.0),
      (8, Vectors.dense(0.0, 1.0, 12.0, 0.0), 0.0),
      (9, Vectors.dense(1.0, 0.0, 15.0, 0.1), 0.0)
    )

    val df = spark.createDataset(data).toDF("id", "features", "clicked")

    val selector = new ChiSqSelector()
      .setNumTopFeatures(1)
      .setFeaturesCol("features")
      .setLabelCol("clicked")
      .setOutputCol("selectedFeatures")

    val result = selector.fit(df).transform(df)
    result.show()
  }
}

6-1.最小二乘法

最小二乘法–数学上重要方法 — 不一定能得到最优解
f(x)预测值 ---- y真实值
构建平方损失Loss=sum{(y-f(x))**2}
求解Loss的导数，关于参数求导
令导数为0，得到参数求解的公式，利用公式迭代求解参数
最终得到参数最优解
和梯度下降法结合理解

7.ALS 实战从行为数据到评分再到预测-API简介

ALS—交替最小二乘法算法学习潜在因素
几个参数：
- numblocks分块个数----默认为10
- rank隐因子个数----默认为10
- maxiterator迭代次数----默认10
- regparrm正则化参数----默认1.0
- implictPref显式反馈----默认false
- alpha隐式反馈的参数—置信参数----默认1.0
- nonnegative非负最小二乘法----默认false
显式反馈和隐式反馈
- 用户有明确的喜好，如打分，显式反馈
- 用户没有明确打分，但是有点击、浏览、收藏等行为，构成隐式反馈，通过alpha参数控制隐式反馈的参数
正则化参数
- 主要通过正则化参数达到控制参数的复杂度，防止模型的过拟合
冷启动策略
- 设置nan方式，但是会因为设置了nan评价参数业务nan —默认方式
- 设置drop方式，进一步在构建模型的时候不处理新加入的用户或商品
SparkMl上调用Spark的ALS包
- 基于dataframe
- new ALS()添加参数
SparkMLLIB上调用Spark的ALS包
- 基于rdd的
- ALS.train()

8.ALS 实战从行为数据到评分再到预测-需求分析与说明

ALS实战电商数据
- 数据来源：从大数据工程师处理好的结构化的数据给到算法工程师
- 数据格式：[user,itemid,type,timestamp,times]
- 对userid列来讲拿到的数据是需要处理的，采用stringIndexer将string类型的user转换为数值类型供计算

9.ALS 实战从行为数据到评分再到预测-实战

@Since("0.8.0")
case class Rating @Since("0.8.0") (
    @Since("0.8.0") user: Int,
    @Since("0.8.0") product: Int,
    @Since("0.8.0") rating: Double)

通过Spark处理数据成为Rating接受的类型—userid(int)+itemid(int)+rating(double)
[user,itemid,type,timestamp,times]
处理user---->usercode---->userid----使用的方法是StringIndex(转化为datafrmame进行fit和transform)
处理type设置不同分数
- pv浏览=1分
- fav收藏=3分
- buy购买=10分
设置rating打分规则
- type数值化*times=得到得分
处理数据完毕
引入算法+数据=>模型
SparkMllib中的ALS算法
Als.train（numblocks,rank,regparam,iteration）
predictions=als.predict
rmse进行预测
输出推荐结果—uid+itemid+rating排序

10-ALS算法入门与LFM区别和联系

LFM-Latent Factor machine隐因子分析模型
- Y=A*B
- Y矩阵分解为两个矩阵的乘积的形式，通过随机初始化A矩阵和B矩阵，构建损失函数，利用梯度下降法，近似求解A和B矩阵的最优解
ALS是在LFM基础上使用的交替的最小二乘法的方式进行参数的求解
- 固定U矩阵求解V矩阵
- 固定V矩阵求解U矩阵

11-ALS算法实战基础推荐

使用Scala完成协同过滤算法或余弦相似度的推荐(参考)
ALS算法实战userid-itemid-rating得到模型的结果(理解)
参考文档中代码https://github.com/ljcan/Spark-Scala/blob/MLlib/CollaborativeFilter.scala
余弦相似度

package com.itck.als

import org.apache.spark.metrics.source
import org.apache.spark.{SparkConf, SparkContext}

/**
  * 余弦相似度
  */
object ConsineSimilar {
  val conf = new SparkConf()
    .setAppName("ConsineSimilar")
    .setMaster("local")
  val sc = new SparkContext(conf)
  //实例化环境
  val users = sc.parallelize(Array("aaa", "bbb", "ccc", "ddd", "eee"))
  //设置电影名
  val films = sc.parallelize(Array("smzdm", "yixb", "znh", "nhsc", "fcwr"))
  //使用一个 source 嵌套 map 作为姓名电影名和分值的存储
  var source = Map[String, Map[String, Int]]()
  //设置一个用以存放电影分的 map
  val filmSource = Map[String, Int]()

  /**
    * 设置电影评分
    *
    * @return
    */
  def getSource(): Map[String, Map[String, Int]] = {
    val user1FilmSource = Map("smzdm" -> 2, "yixb" -> 3, "znh" -> 1, "nhsc" -> 0, "fcwr" -> 1)
    val user2FilmSource = Map("smzdm" -> 1, "yixb" -> 2, "znh" -> 2, "nhsc" -> 1, "fcwr" -> 4)
    val user3FilmSource = Map("smzdm" -> 2, "yixb" -> 1, "znh" -> 0, "nhsc" -> 1, "fcwr" -> 4)
    val user4FilmSource = Map("smzdm" -> 3, "yixb" -> 2, "znh" -> 0, "nhsc" -> 5, "fcwr" -> 3)
    val user5FilmSource = Map("smzdm" -> 5, "yixb" -> 3, "znh" -> 1, "nhsc" -> 1, "fcwr" -> 2)
    source += ("aaa" -> user1FilmSource) //对人名进行存储
    source += ("bbb" -> user2FilmSource) //对人名进行存储
    source += ("ccc" -> user3FilmSource) //对人名进行存储
    source += ("ddd" -> user4FilmSource) //对人名进行存储
    source += ("eee" -> user5FilmSource) //对人名进行存储
    source //返回 map
  }

  /**
    * 计算余弦相似性
    *
    * @param user1
    * @param user2
    * @return
    */
  def getCollaborateSource(user1: String, user2: String): Double = {
    //获得第一个用户的评分
    val user1FilmSource = source.get(user1).get.values.toVector
    //获得第二个用户的评分
    val user2FileSource = source.get(user2).get.values.toVector
    //对欧几里得公式分子部分进行计算
    val member =
      user1FilmSource.zip(user2FileSource).map(num => num._1 * num._2).reduce(_ + _).toDouble
    //求出分母第一个变量的值
    val temp1 = math.sqrt(user1FilmSource.map(num => {
      math.pow(num, 2)
    }).reduce(_ + _)).toDouble
    //求出分母第二个变量的值
    val temp2 = math.sqrt(user2FileSource.map(num => {
      math.pow(num, 2)
    }).reduce(_ + _)).toDouble
    //求出分母
    val denominator = temp1 * temp2
    //返回结果
    member / denominator
  }

  def main(args: Array[String]): Unit = {
    //初始化分数
    getSource()
    //设定目标对象
    val name = "bbb"
    //迭代进行计算
    users.foreach(user => {
      println(name + " 相对于 " + user + "的相似性分数为: " + getCollaborateSource(name, user))
    })
    val frist = users.sortBy((user => getCollaborateSource(name, user)), false, 1).first()
    println("-----------------------------------------------------------")
    println("相似度最高的用户为：" + frist)
    /**
      * 计算结果如下：
      * bbb 相对于 aaa 的相似性分数为: 0.7089175569585667
      * bbb 相对于 bbb 的相似性分数为: 1.0000000000000002
      * bbb 相对于 ccc 的相似性分数为: 0.8780541105074453
      * bbb 相对于 ddd 的相似性分数为: 0.6865554812287477
      * bbb 相对于 eee 的相似性分数为: 0.6821910402406466
      */
  }
}

建模

import org.apache.spark.mllib.recommendation.{ALS, Rating}
import org.apache.spark.{SparkConf, SparkContext}

object CollaborativeFilter {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setAppName("CollaborativeFilter")
      .setMaster("local")
    val sc = new SparkContext(conf)
    //设置数据集
    val data = sc.textFile("..\\d.txt")
    //处理数据
    val ratings = data.map(_.split(" ") match {
      case Array(user, item, rate) => //转化数据集
        Rating(user.toInt, item.toInt, rate.toDouble) //将数据集转化为专用的 Rating
    })
    val rank = 2 //设置隐藏因子
    val numIterations = 2 //设置迭代次数
    val model = ALS.train(ratings, rank, numIterations, 0.01) //进行模型训练
    val rs = model.recommendProducts(2, 1) //为用户 2 推荐一个商品
    rs.foreach(println) //打印推荐结果
    val result: Double = rs(0).rating //预测的评分结果
    val realilty = data.map(_.split(" ") match {
      case Array(user, item, rate) =>
        Rating(user.toInt, item.toInt, rate.toDouble)
    }).map(num => {
      if (num.user == 2 && num.product == 15)
        num.rating //返回实际评分结果
      else
        0
    }).foreach(num => {
      if (num != 0)
        println("对 15 号商品预测的准确率为：" + (1 - (math.abs(result - num) / 1)))
    })
  }
}

12-ALS算法原理详解

ALS算法利用交替最小二乘法最优解算法结合LFM的矩阵分解方式进行学习其中参数
SVD将一个大的评分矩阵分解为了三个矩阵SVD(X)=U*Sigma*VT
注 : 在使用SVD方法前 , 大的评分矩阵需要被补全
- 算法的时间复杂度较高的
- SVD算法要求矩阵的数值是填充的
- Sigma存放奇异值
A*Y（Y.T*Y）.inv=X

13-ALS算法步骤详解

交替最小二乘法是对最小二乘法处理多个变量时的扩展
算法推导图解

推导过程

ALS算法思路：固定一个矩阵求解另外一个矩阵的导数，固定一个矩阵求解另外一个矩阵的导数
ALS算法步骤：
- 构建损失函数，Loss=(r-r_pred)**2+lambda1*u+lambda2*v
- 固定U矩阵求解V矩阵
  - v=M1.inv*M2 其中M1和M2是关于U的矩阵的运算
- 固定V矩阵求解U矩阵
  - u=M1.inv*M2 其中M1和M2是关于V的矩阵的运算
- 满足迭代次数停止

14-ALS算法显示反馈与隐式反馈

显式反馈直接通过显式打分进行矩阵分解
隐式反馈从数学层面讲，引入alpha置信参数，R是交互次数
- 隐式反馈特点
  - 没有负反馈
  - 隐式反馈是内在的噪音
  - 显示反馈的数值表示偏好 , 隐式反馈数值表示信任 ; 一个较大的值并不能表明更多的偏爱。但是这个值是有用的，它描述了在一个特定观察中的信任度。
  - 评价隐式反馈推荐系统需要合适的手段。
定义隐式反馈的损失函数的参数：C=1+R*alpha ====R表示信任度 , alpha表示置信参数
Loss=C*(r-r_pred)**2+lambda1*u+lambda2*v

15-ALS算法源码简介

了解ALS算法源码部分
ALS算法并行化
- partitionRatings—将原始评分数据分片成块
- numblocks—控制通信的复杂度和计算复杂度
- makeblocks—inblock存储评分数据和outblock存储因子关联数据
- inblock存储的格式[u1,u2,u3,u4]----[v1,v2,v3,v4]----[r1,r2,r3,r4]
- outblock-----srtblock和Dstblockid映射关联数据
https://issues.apache.org/jira/browse/SPARK-3066
http://www.csdn.net/article/2015-05-07/2824641
https://blog.csdn.net/buptfanrq/article/details/73299116

16.ALS推荐算法在Spark上的优化

参考https://blog.csdn.net/butterluo/article/details/48271361
Spark+Kafka流优化https://blog.csdn.net/butterluo/article/details/47083773
ALS优化场景
- ALS加载数据
  - 使用Hadoop的 CombineFileInputFormat类进行小文件合并成split在加载到spark中，加快了加载数据速度
- ALS预测计算
  - 优化JVM中参数，效果不明显
  - 通过源码查看—看到了源码部分中ALS使用了笛卡尔积操作=====>复杂度是指数级别(复杂度极高)
  - 在笛卡尔积的之前进行预处理分block块----420000块
  - 在预分块之前做一个预分区----加快数据分不到不同分区和block块下面进行处理的速度

17.SVD推荐算法简介

参考课件图示理解

18.PySpark基础环境搭建(了解)

PySpark环境搭建
准备好大数据环境
- jdk
- hadoop2.7.4
- spark2.3.3
- 缺少组件
准备好Python环境
- Anaconda
- Python原生环境
结合形成Pyspark
- 复制spark源码包中的python目录下面的pyspark目录到Lib下面的site-packages

19.构建PySpark简单推荐系统(了解)

通过pyspark构建推荐系统
使用python数据科学包有一个pandas的包进行数据科学开发
使用pyspark完成简单推荐系统
- 使用pandas处理数据格式为-userid+itemid+rating打分
- 使用pyspark中als算法进行训练模型
- 使用模型预测5个喜欢的歌手
- 将喜欢的歌手id和歌手名字进行关联进行输出

20.总结

SparkMLlib&ALS

你可能感兴趣的:(机器学习)

Python机器学习：从零基础到项目实战 Yuner2000 Python 机器学习人工智能
目录第一部分：思想与基石——万法归宗，筑基问道第1章：初探智慧之境——机器学习世界观1.1何为学习？从人类学习到机器智能1.2机器学习的“前世今生”：一部思想与技术的演进史1.3为何是Python？——数据科学的“通用语”1.4破除迷思：AI是“神”还是“器”？第2章：工欲善其事——Python环境与核心工具链2.1“乾坤在握”：Anaconda与JupyterNotebook的安装与配置2.2“
数据集标准化:软件2.0的基石工程 AI大模型应用之禅 java python javascript kotlin golang 架构人工智能
数据集标准化,软件工程,数据质量,机器学习,人工智能,数据治理,数据可信度1.背景介绍在当今数据爆炸的时代，数据已成为企业和组织的核心资产。然而，海量的原始数据往往杂乱无章，格式不统一，质量参差不齐，这严重阻碍了数据价值的挖掘和应用。数据标准化作为解决这一问题的关键技术，已成为软件2.0时代不可或缺的基石工程。软件2.0时代，人工智能、机器学习等技术蓬勃发展，对数据质量提出了更高的要求。传统的软件
Day9: OpenCV学习（一）—— 图像基础
系列文章目录上一篇：Day8：Python工程化——模块、包文章目录系列文章目录前言一、安装和导入1.安装二、图像认识1.图像2.图像分类三、基础图像操作1.图像读取2.图像显示3.图像裁剪4.图形尺寸修改5.图像保存6.图像绘制7.视频捕获即显示总结前言OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成
Python 现代时间序列预测第二版（五）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/22eab741fce9c15dfad894ecf37bdd51译者：飞龙协议：CCBY-NC-SA4.0第十七章：概率预测及更多在整本书中，我们学习了生成预测的不同技术，包括一些经典方法，使用机器学习以及一些深度学习架构。但我们一直在关注一种典型的预测问题——为连续时间序列生成点预测，并且没有层级关系且历史数据足够丰富。我们之所以这样做，是因为这
云服务器性能优化全攻略：CPU、内存、磁盘IO调优实战 Gloria歌洛莉亚 c语言数据库服务器 python 性能优化
在云计算时代，服务器性能直接影响应用响应速度、用户体验和运营成本。无论是高并发网站、实时数据分析还是机器学习训练，优化云服务器性能都是开发者必须掌握的核心技能。本攻略将从CPU调度、内存管理、磁盘IO三个维度，结合Linux系统特性和实际场景，提供可落地的优化方案。一、CPU性能调优：从调度策略到并行计算1.1CPU资源监控与瓶颈定位实时监控工具：top-c#动态查看进程CPU占用（按P键按CPU
AI 驱动自动化运维平台架构与实现大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 算法机器学习人工智能决策树大数据
摘要：随着云计算、容器化和大规模分布式系统的普及，传统人工运维方法已难以满足现代IT环境中海量指标、日志和拓扑关系的实时分析与故障响应需求。AI驱动的自动化运维（AIOps）平台通过融合机器学习、深度学习、图分析以及强化学习等多学科技术，实现对海量运维数据的智能感知、预测、诊断和自动化修复。本文深入探讨AI驱动自动化运维平台的整体架构设计与核心技术实现，涵盖数据采集与预处理、AI引擎设计、自动化执
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-玩转ollama（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型
一、前言在AI大模型百花齐放的时代，很多人都对新兴技术充满了热情，都想尝试一下。然而，实际上要入门AI技术的门槛非常高。除了需要高端设备，还需要面临复杂的部署和安装过程，这让很多人望而却步。在这样的背景下，Ollama的出现为广大开发者和爱好者提供了一条便捷的道路，极大地降低了应用机器学习的门槛。Ollama的优势在于其极致的简化。通过这个平台，用户可以轻松下载、运行和管理各种机器学习模型，而无需
机器学习之——认识机器学习 -睡到自然醒~ golang 重构开发语言
首先，什么是机器学习？参照百度百科的讲解，“机器学习是一门多领域交叉学科，设计概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习能力，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。”什么意思呢？也就是说，机器学习是一门跨领域的学科，是一种能够让机器模仿人类学习能力的一种学科。在Andrew的课程中，提到了几个机器学习的定义：1，A
Epoch 老兵发新帖人工智能
在深度学习和机器学习中，Epoch（轮次或周期）是一个核心训练概念，指模型在整个训练数据集上完成一次完整遍历的过程。以下是关于Epoch的详细解析：一、核心定义基本含义Epoch表示模型将所有训练数据完整学习一次的过程。例如：若训练集有10,000个样本，则1个Epoch即模型用这10,000个样本训练一轮。与相关概念的关系Batch（批次）：数据集被分割成的小组（如每批32个样本）。Iterat
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
机器学习数据预处理阶段为什么需要——归一化处理
参考：https://www.cnblogs.com/bjwu/p/8977141.html通常，在DataScience中，预处理数据有一个很关键的步骤就是数据的标准化。这里主要引用sklearn文档中的一些东西来说明，主要把各个标准化方法的应用场景以及优缺点总结概括，以来充当笔记。提升模型精度在机器学习算法的目标函数(例如SVM的RBF内核或线性模型的l1和l2正则化)，许多学习算法中目标函数
车辆云端威胁情报共享系统的多维解析与发展路径百态老人大数据人工智能
第一部分：内容本质提取原始内容描述了一个闭环网络安全体系：“车辆实时上传异常行为日志至安全运营中心（VSOC），云端通过机器学习分析攻击模式并下发全局防御策略”。其核心架构包含：数据采集层：车辆端持续收集异常行为日志数据，包含CAN总线通信模式、网络流量特征及驾驶行为数据传输层：通过V2X通信协议和OTA更新通道实现车云双向通信分析层：安全运营中心(VSOC)采用CNN-BiSRU等深度学习模型进
过拟合、欠拟合及其解决方案；梯度消失、梯度爆炸；循环神经网络进阶 Ryan_sz1
1、过拟合、欠拟合及其解决方案过拟合、欠拟合机器学习或者训练深度神经网络的时候经常会出现欠拟合和过拟合这两个问题，但是，一开始我们的模型往往是欠拟合的，也正是因为如此才有了优化的空间，我们需要不断的调整算法来使得模型的表达能拿更强。但是优化到了一定程度就需要解决过拟合的问题了。也就是说欠拟合是模型表达能力不够，达不到很好的表达效果。而过拟合是在训练集的范围内表达能力过强，导致完全拟合了训练集。解决
数字人系统：AI界的超级巨星，你准备好了吗？优秘智能UMI 数字人人工智能深度学习计算机视觉机器学习自然语言处理语言模型图像处理
在这个日新月异的科技时代，每一个创新的火花都可能点燃一场变革的燎原之火。今天，我们要聊的，正是那颗在AI领域熠熠生辉的璀璨新星——优秘数字人系统。它不仅仅是技术的飞跃，更是对未来生活方式的深刻重塑，一场关于人机交互、智能共生的美好预演。技术原理：深度解析与智能构建的奥秘1.深度学习：智能的基石数字人系统的核心技术之一在于深度学习。深度学习是一种模仿人脑神经网络结构和功能的机器学习技术，通过构建多层
聚焦基础研究突破，北电数智联合复旦大学等团队提出“AI安全”DDPA方法入选ICML CSDN资讯人工智能安全数据要素大数据
近日，由北电数智首席科学家窦德景教授牵头，联合复旦大学和美国奥本大学等科研团队共同研发，提出一种DDPA（DynamicDelayedPoisoningAttack）新型对抗性攻击方法，为机器学习领域的安全研究提供新视角与工具，相关论文已被国际机器学习大会（ICML2025）收录。ICML由国际机器学习学会（IMLS）主办，聚焦深度学习、强化学习、自然语言处理等机器学习前沿方向，是机器学习与人工智
阿里云态势感知和安骑士有什么区别？阿腾云
阿里云态势感知和安骑士均是阿里云云盾安全产品，态势感知属于安全管理类的产品，安骑士数据服务器安全类产品，阿里云百科网来详细说下阿里云态势感知和安骑士之间的区别：态势感知和安骑士的区别简单来说，安骑士是检测云服务器漏洞的，态势感知提供安全类的大数据分析服务。态势感知：安全大数据分析平台，通过机器学习和结合全网威胁情报，发现传统防御软件无法覆盖的网络威胁，溯源攻击手段、并且提供可行动的解决方案。安骑士
「日拱一码」035 机器学习——调参过程可视化胖达不服输「日拱一码」机器学习人工智能调参过程可视化神经网络 python 模型可解释性
目录超参数搜索的3D曲面可视化交互式3D可视化神经网络学习率的3D可视化SVM超参数的3D决策边界可视化超参数优化的3D动画超参数搜索的3D曲面可视化##超参数搜索的3D曲面可视化importnumpyasnpimportmatplotlib.pyplotaspltfrommpl_toolkits.mplot3dimportAxes3Dfromsklearn.datasetsimportmake_
数据质量是机器学习项目的核心痛点，AI技术能提供智能化解决方案。 zzywxc787 python pandas numpy 人工智能自动化运维 AI编程
一、数据质量诊断系统（Python实现）importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.clusterimportKMeansfromsklearn.ensembleimportIsolationForestfromtensorflow.keras.modelsimportSequentialfromte
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解以山河作礼。 #机器学习算法机器学习算法回归
7.机器学习-十大算法之一拉索回归（Lasso）算法原理讲解一·摘要二·个人简介三·前言四·原理讲解五·算法流程六·代码实现6.1坐标下降法6.2最小角回归法七·第三方库实现7.1scikit-learn实现（坐标下降法）：7.2scikit-learn实现（最小角回归法）：一·摘要拉索回归（LassoRegression）是一种线性回归的正则化形式，它通过引入L1范数惩罚项来实现模型的稀疏性，从
机器学习算法之回归算法福葫芦机器学习回归算法
一、回归算法思维导图二、算法概念、原理、应用场景和实例代码1、线性回归1.1、概念‌‌线性回归算法是一种统计分析方法，用于确定两种或两种以上变量之间的定量关系。‌线性回归算法通过建立线性方程来预测因变量（y）和一个或多个自变量（x）之间的关系。其基本形式为y=wx+e，其中w是权重，x是自变量，e是误差项。1.2、算法原理线性回归算法的核心在于找到最佳的拟合直线，使得预测值与实际值之间的误差最小。
7篇1章7节：机器学习算法解读，与数值预测回归模型构建 MD分析用R探索医药数据科学机器学习算法回归 r语言数据挖掘
机器学习是当今数据分析和人工智能的核心工具之一，其算法广泛应用于分类、回归、排序和推荐等领域。本篇将详细讲解机器学习的四大经典算法类型，并以回归问题为例深入探讨数值预测的关键步骤，包括数据准备、线性回归模型构建、模型预测及误差评估，帮助读者更系统地理解和掌握机器学习的基础知识及实际应用。一、机器学习的算法在数据科学和人工智能的浪潮中，机器学习算法成为了解决各种数据问题的关键工具。机器学习主要处理四
支持向量机SVM 李昊哲小课 sklearn 人工智能机器学习支持向量机算法机器学习 sklearn 人工智能数据挖掘
支持向量机SVM一、支持向量机算法支持向量机（SupportVectorMachine，SVM）是一种用于分类和回归分析的机器学习算法。分类场景举例（更容易理解）假设现在有一个二维平面上散落着一些点，这些点分为两类，一类是红色的圆形点，另一类是蓝色的方形点。我们的任务就是找到一条直线，能够把这两类点尽可能准确地分开。支持向量机算法做的事情就和这个类似。算法核心思想它不是随便找一条能分开两类数据的直
高斯混合模型（GMM）中的协方差矩阵类型与聚类形状关系详解码字的字节机器学习机器学习人工智能高斯混合模型 GMM
高斯混合模型（GMM）简介高斯混合模型（GaussianMixtureModel,GMM）是概率统计与机器学习交叉领域的重要模型，其核心思想是通过多个高斯分布的线性组合来描述复杂数据分布。与单一高斯分布不同，GMM能够捕捉数据中的多模态特性，这使得它在处理真实世界非均匀分布数据时展现出独特优势。从数学形式上看，一个包含K个分量的GMM可表示为：其中(\pi_k)是第k个高斯分量的混合系数（满足(\
机器学习初学者理论初解 Mikhail_G 机器学习人工智能
大家好!为什么手机相册能自动识别人脸？为什么购物网站总能推荐你喜欢的商品？这些“智能”背后，都藏着一位隐形高手——机器学习（MachineLearning）。一、什么是机器学习？简单说，机器学习是教计算机从数据中自己找规律的技术。就像教孩子认猫：不是直接告诉他“猫有尖耳朵和胡须”，而是给他看100张猫狗照片，让他自己总结出猫的特征。传统程序vs机器学习传统程序：输入规则+数据→输出结果（例：按“温
Embedding与向量数据库玖月初玖大模型应用开发基础人工智能 embedding 数据库
1.Embedding是什么EmbeddingModel是一种机器学习模型，它的核心任务是将离散的、高维的符号（如单词、句子、图片、用户、商品等）转换成连续的、低维的向量（称为“嵌入”或“向量表示”），并且这个向量能有效地捕捉原始符号的语义、关系或特征。1.1通俗理解EmbeddingModel是让计算机“理解”世界的核心工具，把“文字、图片、音频”等信息变成一串有意义的数字我们称之为“向量”。类
2023年第10期(NeuroImage)：DomainATM：多中心医学图像数据标准化工具箱影浮科技ImageFlow
基本信息1.标题：DomainATM:Domainadaptationtoolboxformedicaldataanalysis.2.期刊：NeuroImage3.IF/JCR/分区：7.4/Q1/中科院一区4.DOI：10.1016/j.neuroimage.2023.119863目录1、导读2、背景动机3、研究目的4、工具箱介绍5、测试试验6、局限不足1导读域适应（DA）是基于机器学习的现代医
在NLP深层语义分析中，深度学习和机器学习的区别与联系
在自然语言处理（NLP）的深层语义分析任务中，深度学习与机器学习的区别和联系主要体现在以下方面：一、核心区别特征提取方式机器学习：依赖人工设计特征（如词频、句法规则、TF-IDF等），需要领域专家对文本进行结构化处理。例如，传统情感分析需人工定义“情感词库”或通过词性标注提取关键成分。深度学习：通过神经网络自动学习多层次特征。例如，BERT等模型可从原始文本中捕获词向量、句法关系甚至篇章级语义，无
迁移学习：知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式大千AI助手人工智能 Python #OTHER 迁移学习人工智能机器学习算法神经网络大模型迁移
让AI像人类一样“举一反三”的通用学习框架本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与基本概念迁移学习（TransferLearning）是一种机器学习范式，其核心思想是：将源领域（SourceDomain）学到的知识迁移到目标领域（TargetDomain），以提升目标任务的性能
AI原生应用中的用户画像构建：从理论到实践全解析
AI原生应用中的用户画像构建：从理论到实践全解析关键词：用户画像、AI原生应用、特征工程、机器学习、个性化推荐、数据隐私、模型优化摘要：本文全面解析AI原生应用中用户画像构建的全过程，从基础概念到核心技术，再到实际应用和未来趋势。我们将用通俗易懂的方式讲解用户画像如何像"数字身份证"一样工作，深入探讨特征提取、模型构建等关键技术，并通过实际案例展示用户画像在推荐系统、精准营销等场景中的应用。文章还
Python爬虫【四十五章】爬虫攻防战：异步并发+AI反爬识别的技术解密程序员_CLUB Python入门到进阶 python 爬虫人工智能
目录引言：当爬虫工程师遇上AI反爬官一、异步并发基础设施层1.1混合调度框架设计1.2智能连接池管理二、机器学习反爬识别层2.1特征工程体系2.2轻量级在线推理三、智能决策系统3.1动态策略引擎3.2实时对抗案例四、性能优化实战4.1全链路压测数据4.2典型故障处理案例五、总结：构建智能化的爬虫生态系统Python爬虫相关文章（推荐）引言：当爬虫工程师遇上AI反爬官在大数据采集领域，我们正经历着技
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement