mach_learn

Spark 基于item和user 的协同过滤实现

1、简介

mahout已经提供了 item-based cf 算法，但是要想在 mahout 算法上修改item-based cf 相对来说比较繁琐，比如改进相似度或者改进推荐结果计算公式，更加令人头疼的是mahout 修改比较难调试，相比来说 spark 实现起来更加简单方便，同时 spark shell 在调试阶段特别方便，另一方面 mahout 执行速度比较慢。本文使用 spark 编写了 item-based cf 和 user-based cf 两种协同过滤算法。同时，本文使用的是cosine相似度，并对cosine相似度进行了改进。

2、相似度计算

要想理解协同过滤算法，必须弄清楚各种相似度计算公式，下面介绍相似度计算公式：

2.1 欧几里得相似度

欧几里得相似度根据欧几里得距离计算而来，距离越近相似度越高，反之相反。

欧几里得距离公式

d X, Y = \sum i = 1 n (x i - y i) 2 - - - - - - - - - - - \sqrt

欧几里得相似度公式

s i m (x, y) = 1 1 + d ( x , y )

2.2 皮尔逊相似度

皮尔逊相关系数，即概率论中的相关系数，取值范围【-1，+1】。当大于零时，两个变量正相关，当小于零时表示两个向量负相关。

计算公式为

ρ X, Y = c o v ( X , Y ) σ x σ y = E ( ( X - μ x ) ( Y - μ y ) ) σ x σ y = E ( X Y ) - E ( X ) E ( Y ) E ( X 2 ) - E 2 ( X ) - - - - - - - - - - - - - \sqrt E ( Y 2 ) - E 2 ( Y ) - - - - - - - - - - - - - \sqrt

\end{equation}

2.3 cosine相似度

根据两个向量的夹角计算相似度，夹角越小相似度越高。

计算公式为

s i m X, Y = X Y | | X | | * | | Y | | = \sum n i = 1 ( x i * y i ) \sum n i = 1 ( x i ) 2 - - - - - - - - \sqrt * \sum n i = 1 ( y i ) 2 - - - - - - - - \sqrt

本文使用改进cosine相似度公式为

s i m X, Y = X Y * n u m X \cap Y | | X | | * | | Y | | * n u m X * l o g 10 ( 10 + n u m Y )

改进公式考虑到了两个向量相同个体个数、X向量大小、Y向量大小，注意，

s i m X, Y \neq s i m Y, X

2.4 Tanimoto 相似度

Tanimoto相似度也称为Jaccard系数，是Cosine相似度扩展，多用于文档相似度就算。此相似度不考虑评价值，只考虑两个集合共同个体数量。

公式为

s i m (x, y) = X \cap Y | | X | | + | | Y | | - | | X \cap Y | |

3、预测用户评分公式

下面公式为根据用户相似度和用户对物品的评分矩阵预测用户对未知物品评分值。

item-based 计算公式为：

p r e d u, p = \sum i \in r a t e d I t e m s ( u ) s i m ( i , p ) r u , i \sum i \in r a t e d I t e m s ( u ) s i m ( i , p )

公式中u指用户，p值物品，ratedItems(u)指用户u评价过的物品，sim指相似度（item之间的），r指用户对物品评分。

user-based 计算公式为：

p r e d u, p = \sum i \in N s i m ( u , i ) r i , p \sum i \in N s i m ( i , p )

公式中u指用户，p指物品，i指和u具有相似度且对p有评分的用户，sim指用户之间相似度，r值用户对物品评分。

4、spark item-based 协同过滤代码

package cf

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.hive.HiveContext

object CollaborativeFilterItemBased_modify
{
  def main(args: Array[String]) {
    /**
     * Parameters to regularize correlation.
     */
//    val PRIOR_COUNT = 10
//    val PRIOR_CORRELATION = 0

    val sparkConf = new SparkConf().setAppName("cf item-based")
    val sc = new SparkContext(sparkConf)

    val hiveql = new HiveContext(sc)
    import hiveql.implicits._

    // extract (userid, itemid, rating) from ratings data
    val oriRatings = sc.textFile("/path/to/file").map(line => {
        val fields = line.split("\t")
        (fields(0).toLong, fields(1).toLong, fields(2).toInt)
    })

    //filter redundant (user,item,rating),this set user favorite (best-loved) 100 item
    val ratings = oriRatings.groupBy(k=>k._1).flatMap(x=>(x._2.toList.sortWith((x,y)=>x._3>y._3).take(100)))


    // get num raters per movie, keyed on item id,,item2manyUser formating as (item,(user,item,rating))
    val item2manyUser = ratings.groupBy(tup => tup._2)
    val numRatersPerItem = item2manyUser.map(grouped => (grouped._1, grouped._2.size))

    // join ratings with num raters on item id,,ratingsWithSize formating as (user,item,rating,numRaters)
    val ratingsWithSize = item2manyUser.join(numRatersPerItem).
      flatMap(joined => {
        joined._2._1.map(f => (f._1, f._2, f._3, joined._2._2))
    })
   // ratingsWithSize now contains the following fields: (user, item, rating, numRaters).

    // dummy copy of ratings for self join ,formating as ()
    val ratings2 = ratingsWithSize.keyBy(tup => tup._1)

    // join on userid and filter item pairs such that we don't double-count and exclude self-pairs

    //***计算半矩阵，减少计算量
    val ratingPairs =ratings2.join(ratings2).filter(f => f._2._1._2 < f._2._2._2)

    // compute raw inputs to similarity metrics for each item pair

    val tempVectorCalcs =
      ratingPairs.map(data => {
        val key = (data._2._1._2, data._2._2._2)
        val stats =
          (data._2._1._3 * data._2._2._3, // rating 1 * rating 2
            data._2._1._3,                // rating item 1
            data._2._2._3,                // rating item 2
            math.pow(data._2._1._3, 2),   // square of rating item 1
            math.pow(data._2._2._3, 2),   // square of rating item 2
            data._2._1._4,                // number of raters item 1
            data._2._2._4)                // number of raters item 2
        (key, stats)
      })
    val vectorCalcs = tempVectorCalcs.groupByKey().map(data => {
        val key = data._1
        val vals = data._2
        val size = vals.size
        val dotProduct = vals.map(f => f._1).sum
        val ratingSum = vals.map(f => f._2).sum
        val rating2Sum = vals.map(f => f._3).sum
        val ratingSq = vals.map(f => f._4).sum
        val rating2Sq = vals.map(f => f._5).sum
        val numRaters = vals.map(f => f._6).max
        val numRaters2 = vals.map(f => f._7).max
        (key, (size, dotProduct, ratingSum, rating2Sum, ratingSq, rating2Sq, numRaters, numRaters2))
      })
      //.filter(x=>x._2._1>1)

    val inverseVectorCalcs = vectorCalcs.map(x=>((x._1._2,x._1._1),(x._2._1,x._2._2,x._2._4,x._2._3,x._2._6,x._2._5,x._2._8,x._2._7)))
    val vectorCalcsTotal = vectorCalcs ++ inverseVectorCalcs

    // compute similarity metrics for each item pair
    // modify formula as : cosSim *size/(numRaters*math.log10(numRaters2+10))
    val tempSimilarities =
      vectorCalcsTotal.map(fields => {
        val key = fields._1
        val (size, dotProduct, ratingSum, rating2Sum, ratingNormSq, rating2NormSq, numRaters, numRaters2) = fields._2
        val cosSim = cosineSimilarity(dotProduct, scala.math.sqrt(ratingNormSq), scala.math.sqrt(rating2NormSq))*size/(numRaters*math.log10(numRaters2+10))
        (key._1,(key._2, cosSim))
      })

     val similarities = tempSimilarities.groupByKey().flatMap(x=>{
       x._2.map(temp=>(x._1,(temp._1,temp._2))).toList.sortWith((a,b)=>a._2._2>b._2._2).take(50)
     })

    val similarTable = similarities.map(x=>(x._1,x._2._1,x._2._2)).toDF()
    hiveql.sql("use DatabaseName")
    similarTable.insertInto("similar_item_test",true)

      // ratingsInverse format (item,(user,raing))
      val ratingsInverse = ratings.map(rating=>(rating._2,(rating._1,rating._3)))

    //  statistics format ((user,item),(sim,sim*rating)),,,, ratingsInverse.join(similarities) fromating as (Item,((user,rating),(item,similar)))
      val statistics = ratingsInverse.join(similarities).map(x=>((x._2._1._1,x._2._2._1),(x._2._2._2,x._2._1._2*x._2._2._2)))

    // predictResult fromat ((user,item),predict)
      val predictResult = statistics.reduceByKey((x,y)=>((x._1+y._1),(x._2+y._2))).map(x=>(x._1,x._2._2/x._2._1))
//      val predictResult = statistics.reduceByKey((x,y)=>((x._1+y._1),(x._2+y._2))).map(x=>(x._1,x._2._2))

      val filterItem = oriRatings.map(x=>((x._1,x._2),Double.NaN))
      val totalScore = predictResult ++ filterItem

//      val temp = totalScore.reduceByKey(_+_)

      val finalResult = totalScore.reduceByKey(_+_).filter(x=> !(x._2 equals(Double.NaN))).
        map(x=>(x._1._1,x._1._2,x._2)).groupBy(x=>x._1).flatMap(x=>(x._2.toList.sortWith((a,b)=>a._3>b._3).take(50)))

//     val aa = finalResult.map(x=>x._1).distinct().count

      val recommendTable = finalResult.toDF()
      hiveql.sql("use DatabaseName")
      recommendTable.insertInto("recommend_item_test",true)
  }

  // *************************
  // * SIMILARITY MEASURES
  // *************************

  /**
   * The correlation between two vectors A, B is
   *   cov(A, B) / (stdDev(A) * stdDev(B))
   *
   * This is equivalent to
   *   [n * dotProduct(A, B) - sum(A) * sum(B)] /
   *     sqrt{ [n * norm(A)^2 - sum(A)^2] [n * norm(B)^2 - sum(B)^2] }
   */
  def correlation(size : Double, dotProduct : Double, ratingSum : Double,
                  rating2Sum : Double, ratingNormSq : Double, rating2NormSq : Double) = {

    val numerator = size * dotProduct - ratingSum * rating2Sum
    val denominator = scala.math.sqrt(size * ratingNormSq - ratingSum * ratingSum) *
      scala.math.sqrt(size * rating2NormSq - rating2Sum * rating2Sum)

    numerator / denominator
  }

  /**
   * Regularize correlation by adding virtual pseudocounts over a prior:
   *   RegularizedCorrelation = w * ActualCorrelation + (1 - w) * PriorCorrelation
   * where w = # actualPairs / (# actualPairs + # virtualPairs).
   */
  def regularizedCorrelation(size : Double, dotProduct : Double, ratingSum : Double,
                             rating2Sum : Double, ratingNormSq : Double, rating2NormSq : Double,
                             virtualCount : Double, priorCorrelation : Double) = {

    val unregularizedCorrelation = correlation(size, dotProduct, ratingSum, rating2Sum, ratingNormSq, rating2NormSq)
    val w = size / (size + virtualCount)

    w * unregularizedCorrelation + (1 - w) * priorCorrelation
  }

  /**
   * The cosine similarity between two vectors A, B is
   *   dotProduct(A, B) / (norm(A) * norm(B))
   */
  def cosineSimilarity(dotProduct : Double, ratingNorm : Double, rating2Norm : Double) = {
    dotProduct / (ratingNorm * rating2Norm)
  }

  /**
   * The Jaccard Similarity between two sets A, B is
   *   |Intersection(A, B)| / |Union(A, B)|
   */
  def jaccardSimilarity(usersInCommon : Double, totalUsers1 : Double, totalUsers2 : Double) = {
    val union = totalUsers1 + totalUsers2 - usersInCommon
    usersInCommon / union
  }
}

5、spark user-based 协同过滤代码

package cf

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.hive.HiveContext

object CollaborativeFilterUserBased_modify
{
  def main(args: Array[String]) {

    val sparkConf = new SparkConf().setAppName("cf user-based")
    val sc = new SparkContext(sparkConf)

    val hiveql = new HiveContext(sc)
    import hiveql.implicits._

    // extract (userid, itemid, rating) from ratings data
    val oriRatings = sc.textFile("/path/to/file").map(line => {
      val fields = line.split("\t")
      (fields(0).toLong, fields(1).toLong, fields(2).toInt)
    })

    //filter redundant (user,item,rating),this set user favorite (best-loved) 100 item
    val ratings = oriRatings.groupBy(k=>k._1).flatMap(x=>(x._2.toList.sortWith((x,y)=>x._3>y._3).take(100)))


    // one user corresponding many item
    val user2manyItem = ratings.groupBy(tup=>tup._1)
    //one user corresponding number of item
    val numPrefPerUser = user2manyItem.map(grouped=>(grouped._1,grouped._2.size))
    //join ratings with user's pref num
    //ratingsWithSize now contains the following fields: (user, item, rating, numPrefs).
    val ratingsWithSize = user2manyItem.join(numPrefPerUser).
      flatMap(joined=>{
        joined._2._1.map(f=>(f._1,f._2,f._3,joined._2._2))
      })
    //(user, item, rating, numPrefs) ==>(item,(user, item, rating, numPrefs))
    val ratings2 = ratingsWithSize.keyBy(tup=>tup._2) 
    //ratingPairs format (t,iterator((u1,t,pref1,numpref1),(u2,t,pref2,numpref2))) and u1f._2._1._1{
      val key = (data._2._1._1,data._2._2._1)
      val stats = 
        (data._2._1._3*data._2._2._3,//rating 1 * rating 2
         data._2._1._3, //rating user 1
         data._2._2._3, //rating user 2
         math.pow(data._2._1._3, 2), //square of rating user 1
         math.pow(data._2._2._3,2), //square of rating user 2
         data._2._1._4,  //num prefs of user 1
         data._2._2._4) //num prefs of user 2
        (key,stats)
    })
      val vectorCalcs = tempVectorCalcs.groupByKey().map(data=>{
      val key = data._1
      val vals = data._2
      val size = vals.size
      val dotProduct = vals.map(f=>f._1).sum
      val ratingSum = vals.map(f=>f._2).sum
      val rating2Sum = vals.map(f=>f._3).sum
      val ratingSeq = vals.map(f=>f._4).sum
      val rating2Seq = vals.map(f=>f._5).sum
      val numPref = vals.map(f=>f._6).max
      val numPref2 = vals.map(f=>f._7).max
      (key,(size,dotProduct,ratingSum,rating2Sum,ratingSeq,rating2Seq,numPref,numPref2))
    })

    //due to matrix is not symmetry(对称) , use half matrix build full matrix
    val inverseVectorCalcs = vectorCalcs.map(x=>((x._1._2,x._1._1),(x._2._1,x._2._2,x._2._4,x._2._3,x._2._6,x._2._5,x._2._8,x._2._7)))
    val vectorCalcsTotal = vectorCalcs ++ inverseVectorCalcs

    // compute similarity metrics for each movie pair,  similarities meaning user2 to user1 similarity
    val tempSimilarities =
      vectorCalcsTotal.map(fields => {
        val key = fields._1
        val (size, dotProduct, ratingSum, rating2Sum, ratingNormSq, rating2NormSq, numRaters, numRaters2) = fields._2
        val cosSim = cosineSimilarity(dotProduct, scala.math.sqrt(ratingNormSq), scala.math.sqrt(rating2NormSq))*
          size/(numRaters*math.log10(numRaters2+10))
//        val corr = correlation(size, dotProduct, ratingSum, rating2Sum, ratingNormSq, rating2NormSq)
        (key._1,(key._2, cosSim))
      })



    val similarities = tempSimilarities.groupByKey().flatMap(x=>{
      x._2.map(temp=>(x._1,(temp._1,temp._2))).toList.sortWith((a,b)=>a._2._2>b._2._2).take(50)
    })
    val temp = similarities.filter(x=>x._2._2.equals(Double.PositiveInfinity))

    val similarTable = similarities.map(x=>(x._1,x._2._1,x._2._2)).toDF()
    hiveql.sql("use DatabaseName")
    similarTable.insertInto("similar_user_test",true)


    // ratings format (user,(item,raing))
    val ratingsInverse = ratings.map(rating=>(rating._1,(rating._2,rating._3)))

    //statistics format ((user,item),(sim,sim*rating)),,,, ratingsInverse.join(similarities) fromating as (user,((item,rating),(user2,similar)))
    val statistics = ratingsInverse.join(similarities).map(x=>((x._2._2._1,x._2._1._1),(x._2._2._2,x._2._1._2*x._2._2._2)))

    // predictResult fromat ((user,item),predict)
    val predictResult = statistics.reduceByKey((x,y)=>((x._1+y._1),(x._2+y._2))).map(x=>(x._1,x._2._2/x._2._1))


    val filterItem = ratings.map(x=>((x._1,x._2),Double.NaN))
    val totalScore = predictResult ++ filterItem

    val finalResult = totalScore.reduceByKey(_+_).filter(x=> !(x._2 equals(Double.NaN))).
      map(x=>(x._1._1,x._1._2,x._2)).groupBy(x=>x._1).flatMap(x=>(x._2.toList.sortWith((x,y)=>x._3>y._3).take(50)))

    val recommendTable = finalResult.toDF()
    hiveql.sql("use DatabaseName")
    recommendTable.insertInto("recommend_user_test",true)
  }

  // *************************
  // * SIMILARITY MEASURES
  // *************************

  /**
   * The correlation between two vectors A, B is
   *   cov(A, B) / (stdDev(A) * stdDev(B))
   *
   * This is equivalent to
   *   [n * dotProduct(A, B) - sum(A) * sum(B)] /
   *     sqrt{ [n * norm(A)^2 - sum(A)^2] [n * norm(B)^2 - sum(B)^2] }
   */
  def correlation(size : Double, dotProduct : Double, ratingSum : Double,
                  rating2Sum : Double, ratingNormSq : Double, rating2NormSq : Double) = {

    val numerator = size * dotProduct - ratingSum * rating2Sum
    val denominator = scala.math.sqrt(size * ratingNormSq - ratingSum * ratingSum) *
      scala.math.sqrt(size * rating2NormSq - rating2Sum * rating2Sum)+1

    numerator / denominator
  }

  /**
   * Regularize correlation by adding virtual pseudocounts over a prior:
   *   RegularizedCorrelation = w * ActualCorrelation + (1 - w) * PriorCorrelation
   * where w = # actualPairs / (# actualPairs + # virtualPairs).
   */
  def regularizedCorrelation(size : Double, dotProduct : Double, ratingSum : Double,
                             rating2Sum : Double, ratingNormSq : Double, rating2NormSq : Double,
                             virtualCount : Double, priorCorrelation : Double) = {

    val unregularizedCorrelation = correlation(size, dotProduct, ratingSum, rating2Sum, ratingNormSq, rating2NormSq)
    val w = size / (size + virtualCount)

    w * unregularizedCorrelation + (1 - w) * priorCorrelation
  }

  /**
   * The cosine similarity between two vectors A, B is
   *   dotProduct(A, B) / (norm(A) * norm(B))
   */
  def cosineSimilarity(dotProduct : Double, ratingNorm : Double, rating2Norm : Double) = {
    dotProduct / (ratingNorm * rating2Norm)
  }

  /**
   * The Jaccard Similarity between two sets A, B is
   *   |Intersection(A, B)| / |Union(A, B)|
   */
  def jaccardSimilarity(usersInCommon : Double, totalUsers1 : Double, totalUsers2 : Double) = {
    val union = totalUsers1 + totalUsers2 - usersInCommon
    usersInCommon / union
  }
}

参考文献：http://mlnick.github.io/blog/2013/04/01/movie-recommendations-and-more-with-spark/

强化学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1什么是强化学习？强化学习（ReinforcementLearning,RL）是机器学习的一个重要分支，它关注的是智能体（Agent）如何在环境中通过与环境交互来学习最优的行为策略。与其他机器学习方法不同，强化学习并不依赖于预先标注的数据，而是通过试错的方式来学习。想象一下，你正在训练一只小狗学习坐下。你不会给它看成千上万张“坐下”的照片，而是会给它一些指令，比如“坐下”，如果它照
OpenCV机器学习（1）人工神经网络 - 多层感知器类cv::ml::ANN_MLP 村北头的码农 OpenCV opencv 机器学习人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::ml::ANN_MLP是OpenCV库中的一部分，用于实现人工神经网络-多层感知器（ArtificialNeuralNetwork-Multi-LayerPerceptron,ANN-MLP）。它提供了一种方式来创建和训练多层感知器模型，以解决分类、回归等
运用python制作一个完整的股票分析系统大懒猫软件 python 开发语言 django beautifulsoup
使用python制作一个股票分析系统，可以通过股票价格走势动态界面，实时动态监测不同类型股票的变化情况。以下是一个完整的股票分析系统开发指南，包括股票价格走势动态界面和实时监测功能。这个系统将结合网络爬虫、数据分析、机器学习和可视化技术，帮助你实时监测不同类型股票的变化情况。1.系统功能概述数据采集：使用网络爬虫技术从财经网站采集股票数据。数据处理：计算技术指标（如KDJ、BOLL）并进行数据预处
Google Cloud技术学习总结谭俊杰Jerry 人工智能
GoogleCloudPlatform（GCP）是由Google提供的一套云计算服务，帮助企业和开发者利用Google的基础设施来构建、部署和扩展应用程序。GCP提供了广泛的服务，涵盖计算、存储、数据分析、机器学习和网络等领域。以下是GoogleCloud的技术总结：核心服务计算服务GoogleComputeEngine：提供虚拟机（VM）实例，支持自定义配置，适合各种工作负载。GoogleKub
Hbase深入浅出天才之上数据存储 Hbase 大数据存储
目录HBase在大数据生态圈中的位置HBase与传统关系数据库的区别HBase相关的模块以及HBase表格的特性HBase的使用建议Phoenix的使用总结HBase在大数据生态圈中的位置提到大数据的存储，大多数人首先联想到的是Hadoop和Hadoop中的HDFS模块。大家熟知的Spark、以及Hadoop的MapReduce，可以理解为一种计算框架。而HDFS，我们可以认为是为计算框架服务的存
深入浅出了解HBase及RDD编程山海王子大数据 hbase
深入浅出了解HBaseHBase简介架构HBase是什么样的数据库？关键是数据模型关键要素：什么是单元格时间戳的功能是什么？HBase为什么能存储海量数据创建一个HBase表配置Spark编写程序读取HBase数据编写程序向HBase写入数据关于搭建HBase高可用集群的图文教程，可参考我的另一篇博文——安装并配置HBase集群（5个节点）。HBase简介HBase是GoogleBigTable的
DeepSeek R1蒸馏版模型部署的实战教程 herosunly DeepSeek从入门到精通 deepseek 大模型人工智能实战教程
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
强化学习在连续动作空间的应用：DDPG与TD3 AI天才研究院计算 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA 计算 AI大模型应用
1.背景介绍1.1强化学习简介强化学习（ReinforcementLearning，简称RL）是一种机器学习方法，它通过让智能体（Agent）在环境（Environment）中与环境进行交互，学习如何根据观察到的状态（State）选择动作（Action），以最大化某种长期累积奖励（Reward）的方法。强化学习的核心问题是学习一个策略（Policy），即在给定状态下选择动作的映射关系。1.2连续动
书籍-《机器学习的秘密：它是如何工作的以及它对你的意义》机器学习深度学习人工智能
书籍：SecretsOfMachineLearning:HowItWorksAndWhatItMeansForYou作者：TomKohn出版：WorldScientificPublishingCoPteLtd编辑：陈萍萍的公主@一点人工一点智能下载：书籍下载-《机器学习的秘密：它是如何工作的以及它对你的意义》01书籍介绍在众多关于机器学习和人工智能的技术文献及充满恐慌的书籍中，《机器学习的秘密》犹
python 学习曲线函数_如何使用学习曲线来诊断你的LSTM模型的行为？（附代码）... weixin_39576066 python 学习曲线函数
LSTM是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。在自然语言处理、语言识别等一系列的应用上都取得了很好的效果。《LongShortTermMemoryNetworkswithPython》是澳大利亚机器学习专家JasonBrownlee的著作，里面详细介绍了LSTM模型的原理和使用。该书总共分为十四个章节，具体如下：第一章：什么是LSTMs？第二章：怎么样训练
【漫话机器学习系列】041.信息丢失（dropout） IT古董漫话机器学习系列专辑机器学习人工智能深度学习
信息丢失（Dropout）Dropout是一种广泛应用于神经网络训练中的正则化技术，旨在减少过拟合（overfitting），提高模型的泛化能力。虽然"信息丢失"（dropout）这个术语在某些情况下可能引起误解，指的并非是数据的丢失，而是训练过程中故意“丢弃”神经网络中的部分神经元。这种做法可以避免模型过于依赖于某些特定的神经元，从而提高模型在新数据上的表现。Dropout的工作原理在神经网络的
第二章：12.3 建立表现基准望云山190 基准性能水平人工智能机器学习
背景介绍语音识别是一种常见的机器学习应用，用户通过语音输入代替键盘输入，系统需要将语音转换为文本。在这个过程中，算法的性能可以通过训练误差和交叉验证误差来评估。误差定义训练误差（Jtrain）：指算法在训练数据集上无法正确转录的音频片段的百分比。在这个例子中，训练误差是10.8%，意味着算法在训练数据上犯了10.8%的错误。交叉验证误差（Jcv）：指算法在未见过的数据（交叉验证集）上无法正确转录的
第二章：12.4 学习曲线望云山190 深度学习机器学习人工智能
学习曲线的基本概念学习曲线是展示机器学习模型性能如何随着训练数据量增加而变化的图表。它们可以帮助我们理解模型在不同数据量下的表现，以及模型是否过拟合或欠拟合。二阶模型的学习曲线交叉验证错误（Jcv）：这条绿色曲线表示模型在未见过的数据上的表现。它反映了模型的泛化能力，即模型对新数据的预测能力。训练错误（Jtrain）：这条红色曲线表示模型在训练数据上的表现。它反映了模型对训练数据的拟合程度。学习曲
机器学习相关基础星辰瑞云机器学习
1.预备知识人工智能:用人工的方法在机器(计算机)上实现的智能;或者说是人们使机器具有类似于人的智能。人工智能学科:人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。2.日常生活中的机器学习:①称为RGB(由红色，绿色，蓝色组成)，这种是欠拟合欠拟合和过拟合区别:•欠拟合（Underfitting）：模型在训练数据上表现不佳，无法很好地捕捉数据中的规律。通
FastAPI：解锁高性能API开发的密钥，轻松构建现代Web服务醉心编码人工智能基础 fastapi 前端
FastAPI：解锁高性能API开发的密钥，轻松构建现代Web服务一、核心特点二、应用场景三、技术优势四、安装与基本用法五、社区与文档FastAPI是一个基于Python的现代、快速（高性能）的Web框架，专门用于构建APIs，特别是基于Python的RESTfulAPIs。它以其高性能、易用性和可扩展性而闻名，适合开发者、数据科学家和机器学习工程师等多种岗位使用。以下是对FastAPI的详细介绍
AIGC开启人工智能新时代靖节先生人工智能
AIGC：开启智能生成内容的全新时代在数字化技术飞速发展的当下，AIGC（ArtificialIntelligence-GeneratedContent）横空出世，宛如一颗璀璨的新星照亮了内容创作领域的天空。它正以不可阻挡之势重塑着我们的生活、工作与娱乐方式，成为众多行业创新发展的重要驱动力。一、AIGC的概念AIGC，即人工智能生成内容，是指利用人工智能技术自动生成各类内容的过程。它依托机器学习
推荐学习图像处理的入门书：《Python图像处理实战》天飓学习感悟学习图像处理 python
《Python图像处理实战》是一本全面介绍Python图像处理技术的实用指南，是由人民邮电出版社于2020年12月出版。这本书的作者桑迪潘·戴伊是一位兴趣广泛的数据科学家，主要研究机器学习、深度学习、图像处理和计算机视觉。在《Python图像处理实战》一书中，作者主要介绍了如何用Python图像处理库（如PIL、python-opencv、Scipy等），机器学习库（scikit-learn）和深
使用 OpenCV 和 Python 对图像进行卡通化无水先生 AI原理和python实现人工智能综合 opencv python 人工智能
关键词：OpenCVlibrarytoconvertimagestocartoons目录一、说明二、OpenCV2.1要求支持库2.2方法2.3实施和执行三、定义卡通化函数3.1添加按钮3.2保存图像四、结论一、说明在本文中，我们将构建一个有趣的应用程序，将提供给它的图像卡通化。为了构建这个卡通化应用程序，我们将使用python和OpenCV。这是机器学习令人兴奋和激动的应用程序之一。在构建此应用
机器学习:朴素贝叶斯小源学AI 人工智能机器学习人工智能朴素贝叶斯
概率1.1定义概率表示随机事件发生可能性大小的一个数值,随机事件指在相同条件下,可能出现也可能不出现的事件。例如:抛硬币:当我们抛硬币时,可以正面朝上也可以反面朝上,正面或反面朝上的可能性被称为概率。理想状态下正反概率都是0.5。掷骰子:掷一个六面的骰子,每个点出现的概率是1/6,因为每个面出现的机会是均等的。抽取商品:一批商品包含良品和次品,随机抽取一件,抽取良品或次品是一个随机事件,经过大量实
人工智能的发展领域之GPU加速计算的应用概述、架构介绍与教学过程 m0_74824592 面试学习路线阿里巴巴人工智能架构
文章目录一、架构介绍GPU算力平台概述优势与特点二、注册与登录账号注册流程GPU服务器类型配置选择指南内存和存储容量网络带宽CPU配置三、创建实例实例创建步骤镜像选择与设置四、连接实例SSH连接方法远程桌面配置一、架构介绍GPU算力平台概述一个专注于GPU加速计算的专业云服务平台，隶属于软件和信息技术服务业。主要面向高校、科研机构和企业用户。该平台提供多种NVIDIAGPU选择，适用于机器学习、人
机器学习 - 学习线性模型的重要性谦亨有终跟着AI向前走机器学习学习人工智能
在接下来的博文中，我们将重点学习线性模型的回归模型和分类模型，在学习之前，让我们来了解一下学习线性模型的重要性，以及如何入门学习。一、作为初学者如何学习线性模型？作为初学者，要高效学习机器学习以及其中的线性模型，可以遵循以下几个步骤和建议：（一）、机器学习的整体学习策略打好数学基础线性代数：理解向量、矩阵、线性变换等，这些是理解模型表示（如y=w^Tx+b）和算法优化的基础。微积分：掌握导数、梯度
【机器学习】多元线性回归 T0uken Python全栈开发 1024程序员节机器学习算法线性回归
在实际应用中，许多问题都包含多个特征（输入变量），而不仅仅是单个输入变量。多元线性回归是线性回归的扩展，它能够处理多个输入特征并建立它们与目标变量的线性关系。本教程将系统性推演多元线性回归，包括向量化处理、特征放缩、梯度下降的收敛性和学习率选择等，并使用numpy实现。最后，我们会通过sklearn快速实现多元线性回归模型。多元线性回归模型简介多元线性回归的模型公式为：y=X⋅w+by=X\cdo
【第15章：量子深度学习与未来趋势—15.1 量子计算基础与量子机器学习的发展背景】再见孙悟空_ #【深度学习・探索智能核心奥秘】机器翻译自然语言处理计算机视觉量子计算人工智能深度学习机器学习
想象一下，你正在用ChatGPT生成一篇小说，突然它卡在"主角穿越虫洞"的情节上——这不是因为想象力枯竭，而是传统计算机的晶体管已经烧到冒烟。当前AI大模型的参数规模每4个月翻一番，但摩尔定律的终结让经典计算机的算力增长首次跟不上AI的进化速度。这时候，量子计算带着它的"超能力"登场了：1台50量子位的量子计算机，处理某些问题的速度可达超级计算机的1亿倍。这场算力革命，正在改写深度学习的游戏规则。
【深度解析】ICLR：人工智能领域的顶级学术会议 | 顶会与SCI期刊的区别全攻略 X_taiyang18 人工智能
【深度解析】ICLR：人工智能领域的顶级学术会议|顶会与SCI期刊的区别全攻略简介在人工智能和机器学习领域，ICLR（InternationalConferenceonLearningRepresentations）被誉为“深度学习的顶级会议”。自2013年由深度学习三巨头中的YoshuaBengio和YannLeCun创办以来，ICLR迅速崛起，成为全球科研人员争相投稿的学术盛会。那么，ICLR
使用多模态大语言模型进行深度学习的图像、文本和语音数据增强数行天下人工智能语言模型深度学习人工智能自然语言处理
在过去的五年里，研究方向已从传统的机器学习（ML）和深度学习（DL）方法转向利用大语言模型（LLMs），包括多模态方法，用于数据增强，以提高泛化能力，并在训练深度卷积神经网络时防止过拟合。然而，现有的综述文章主要集中于机器学习和深度学习技术或有限的模态（如文本或图像），在涵盖LLM方法的最新进展和多模态应用方面仍存在空白。本文通过探索利用多模态LLMs进行图像、文本和语音数据增强的最新文献，填补了
《深入浅出LLM基础篇》（三）：大模型结构分类 GoAI 深入浅出LLM 深入浅出AI 自然语言处理NLP 大模型 LLM 人工智能 transformer chatgpt
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接✨专栏介
Rasa：开源的机器学习框架 Indra_ran 开源机器学习人工智能 linux centos 运维
一、Rasa简介Rasa是一套用来构建基于上下文的AI小助手和聊天机器人框架。分为两个主要的模块：NLU：自然语言理解模块，实现意图识别以及槽值的提取，将用户的输入转化为结构性数据，在训练过程中，为了提高从用户信息的实体识别能力，采用了预先训练的实体提取器Pre-trainedEntityExtractors，正则表达式Regexes，同义词Synonyms等RasaCore：对话管理模块，也是一
机器学习：k均值 golemon. ML 机器学习均值算法人工智能
所有代码和文档均在golitter/Decoding-ML-Top10:使用Python优雅地实现机器学习十大经典算法。(github.com)，欢迎查看。在“无监督学习”中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础，较为经典的是聚类。**聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”。**聚
电子电气架构 --- 机器学习推动车载雷达的发展车载诊断技术汽车行业车辆信息安全机器学习人工智能电子电器框架网络架构汽车
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：简单，单纯，喜欢独处，独来独往，不易合同频过着接地气的生活，除了生存温饱问题之外，没有什么过多的欲望，表面看起来很高冷，内心热情，如果你身边有这样灵性的人，一定要好好珍惜他们眼中有神有光，干净，给人感觉很舒服，有超强的感知能力有形的无形的感知力很强，能感知人的内心变化喜欢独处，好静，
DeepSeek+WPS/Office手把手教你玩转智能办公 herosunly DeepSeek从入门到精通 deepseek 大模型人工智能 office wps 智能办公
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法Q大赛评委，编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第名。授权多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1