geyueguiDai

基于spark ALS协同过滤推荐系统代码实现

本文是基于spark的Mlib包的ALS搭建的协同过滤推荐系统，调用ALS，封装了特征向量提取过程。本系统纯后台，不涉及前端页面数据展示

特征工程简介

特征选择： 特征选择可以分为基于统计量选择和基于模型选择
特征表达： 特征表达的任务就是要将一个个的样本抽象成数值向量，供机器学习模型使用例如：我是码农和我是高级码农，通过分词可以分为：我，是，码农，高级。将上面数字抽象成0和1，存在为1，不存在未0，那么这两句话可以分别抽象为(1,1,1,0),(1,1,1,1)
**特征评估：**对已经生成的特征的整体评估，发生在特征选择和特征编码之后

协同过滤

协同过滤原理网上可以找到很多文章，这里不再赘述，本文下面主要展示代码实现，可参考文章《协同过滤推荐算法》

基于协同过滤算法推荐系统搭建

架构图

系统环境

虚拟机环境：CentOS-7-x86_64-DVD-1511.iso
后台安装包
相关工具包的安装和使用本文不做赘述
开发工具idea

代码

前端部分代码和调度不做展示，数据源来源于随机生产，不对数据的实用性做校验，只是通过代码搭建简单的推荐系统，仅供参考学习
离线统计

代码片.

package com.geyuegui

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
/**
* Created by root on 2019/9/19.
*
* 离线统计入口程序
*
* 数据流程：
* spark 读取MongoDB中数据，离线统计后，将统计结果写入MongoDB
*
* （1）评分最多电影
*
* 获取所有评分历史数据，计算评分次数，统计每个电影评分次数 --->  RateMoreMovies
*
* (2)近期热门电影
*
* 按照月统计，这个月中评分最多的电影，我们认为是热门电影，统计每个月中每个电影的评分数量   --> RateMoreRecentlyMovie
*
* (3)电影平均分
*
* 把每个电影，所有用户评分进行平均，计算出每个电影的平均评分   -->  AverageMovies
*
* (4)统计出每种类别电影Top10
*
* 将每种类别的电影中，评分最高的10个电影计算出来  --> GenresTopMovies
*
*/
object statisticApp extends App {
     
  val RATING="Rating"
  val MOVIE="Movie"
  var params =Map[String,Any]()
  params += "sparkCores"->"local[2]"
  params +="mongo.uri"->"mongodb://ip:27017/recom"
  params +="mongo.db"->"recom"

  //sparkSession创建
  val sparkConfig=new SparkConf().setAppName("statisticApp").setMaster(params("sparkCores").asInstanceOf[String])
  val sparkSession =SparkSession.builder().config(sparkConfig).getOrCreate()
  //创建mongodb对象，这个对象使用隐士的方法转化
  implicit val mongoConfig =MongoConfig(params("mongo.uri").asInstanceOf[String],params("mongo.db").asInstanceOf[String])

  //加载需要用到的数据
  import sparkSession.implicits._
  val ratingsDF=sparkSession.read
    .option("uri",mongoConfig.uri)
    .option("collection",RATING)
    .format("com.mongodb.spark.sql")
    .load()
    .as[Rating].cache()
  ratingsDF.createOrReplaceTempView("ratings")

  val movieDF=sparkSession.read
    .option("uri",mongoConfig.uri)
    .option("collection",MOVIE)
    .format("com.mongodb.spark.sql")
    .load()
    .as[Movie].cache()
  //ratingsDF.createOrReplaceTempView("ratings")
  //1
  statisticAlgorithm.genreTopTen(sparkSession)(movieDF)


}
//另外一个包
package com.geyuegui

import java.text.SimpleDateFormat
import java.util.Date

import org.apache.spark.sql.{
     Dataset, SparkSession}

object statisticAlgorithm {
     

  val RATINGSCORE="ratingScore"
  val AVGSCORE="avgScore"
  val GENRETOPTEN="GenretopTen"
  val POPULARMOVIE="popularMovie"

  //计算评分最多的电影
  def scoreMost(sparkSession: SparkSession)(implicit mongoConfig: MongoConfig):Unit={
     
    val ratingScoreDF =sparkSession.sql("select mid,count(1) as count from ratings group by mid order by count desc")
    ratingScoreDF.write
      .option("uri",mongoConfig.uri)
      .option("collection",RATINGSCORE)
      .mode("overwrite")
      .format("com.mongodb.spark.sql")
      .save()
  }
  //近期热门电影
  def popularMovie(sparkSession: SparkSession)(implicit mongoConfig: MongoConfig):Unit={
     
    //定义日期函数
    val simpleDateFormat = new SimpleDateFormat("yyyyMM")
    val changTempToDate=sparkSession.udf.register("changTempToDate",(x:Long)=>simpleDateFormat.format(new Date(x*1000L)))
    val popularMovieyDFtemp=sparkSession.sql("select uid,mid,score,changTempToDate(timestamp) as ym from ratings")
    popularMovieyDFtemp.createOrReplaceTempView("ratingtemp")
    val popularDF =sparkSession.sql("select mid,avg(score) as avgscore,ym from ratingtemp group by mid,ym order by avgscore desc")
    popularDF.write
      .option("uri",mongoConfig.uri)
      .option("collection",POPULARMOVIE)
      .mode("overwrite")
      .format("com.mongodb.spark.sql")
      .save()
  }
  //统计每种类别中的前10的电影
  def genreTopTen(sparkSession: SparkSession)(movie: Dataset[Movie])(implicit mongoConfig: MongoConfig):Unit={
     
    //将类别转化为RDD
    val geners=List("Action","Adventure","Animation","Comedy","Ccrime","Documentary","Drama","Family","Fantasy","Foreign","History","Horror","Music","Mystery"
      ,"Romance","Science","Tv","Thriller","War","Western")
    val genersRDD =sparkSession.sparkContext.makeRDD(geners)

    //电影的平均分
    val averageScore =sparkSession.sql("select mid,avg(score) as averageScore from ratings group by mid").cache()
    //averageScore.createOrReplaceTempView("averageScore")
    //生成电影评分临时表
    val movieScoreTempDF=movie.join(averageScore,Seq("mid","mid")).select("mid","averageScore","genres").cache()
    import sparkSession.implicits._
    //每种电影类别前十
    val genresTopTENDF =genersRDD.cartesian(movieScoreTempDF.rdd).filter{
     
      case (genres,row)=>{
     
        row.getAs[String]("genres").toLowerCase().contains(genres.toLowerCase)
      }
    }.map{
     
      case(genres,row)=>{
     
        (genres,(row.getAs[Int]("mid"),row.getAs[Double]("averageScore")))
      }
    }.groupByKey()
      .map {
     
        case(genres,items)=>{
     
          genreReommender(genres,items.toList.sortWith(_._2>_._2).take(10).map(x=>RecommenderItem(x._1,x._2)))
        }
      }.toDF()
    averageScore.write
      .option("uri",mongoConfig.uri)
      .option("collection",AVGSCORE)
      .mode("overwrite")
      .format("com.mongodb.spark.sql")
      .save()

    genresTopTENDF.write
      .option("uri",mongoConfig.uri)
      .option("collection",GENRETOPTEN)
      .mode("overwrite")
      .format("com.mongodb.spark.sql")
      .save()
  }

}

离线推荐
:使用ALS构建模型，并构建用户的推荐数据模型和电影的相似数据模型（通过余弦相似计算相似性），将其保存到mongodb中

代码片.

package com.geyuegui

import breeze.numerics.sqrt
import org.apache.spark.SparkConf
import org.apache.spark.mllib.recommendation.{
     ALS, Rating}
import org.apache.spark.sql.SparkSession
import org.jblas.DoubleMatrix

object OfflineRecommender {
     
  val RATINGS="Rating"
  val MOVIES="Movie"
  val USER_RECMS="UserRecms"
  val MOVIE_REMS="MovieRecms"
  val MOVIE_RECMS_NUM=10


  def main(args: Array[String]): Unit = {
     
    //两个对象，一个是spark对象，用来执行代码，另外一个mongodb对象，用来保存数据
    val conf=Map(
      "spark.core"->"local[2]",
      "mongo.uri"->"mongodb://ip:27017/recom",
      "mongo.db"->"recom"
    )

    val sparkConf=new SparkConf().setAppName("OfflineRecommender").setMaster(conf("spark.core"))
      .set("spark.executor.memory","6G")
      .set("spark.driver.memory","2G")
    val sparkSession=SparkSession.builder().config(sparkConf).getOrCreate()

    implicit val mongoConfig=MongoConfig(conf("mongo.uri"),conf("mongo.db"))
    import sparkSession.implicits._

    /**
      * 要生成用户的推荐矩阵，需要评分数据，从评分数据中获取用户信息和评分信息，从电影collection中获取电影信息
      */
    //获取评分
    val ratingRDD=sparkSession.read
      .option("uri",mongoConfig.uri)
      .option("collection",RATINGS)
      .format("com.mongodb.spark.sql")
      .load()
      .as[MovieRating]
      .rdd
      .map(rating=>(rating.uid,rating.mid,rating.score)).cache()
    //电影
    val movieRDD=sparkSession.read
      .option("uri",mongoConfig.uri)
      .option("collection",MOVIES)
      .format("com.mongodb.spark.sql")
      .load()
      .as[Movie]
      .rdd
      .map(_.mid).cache()

    //生成用户，电影对象集合
    val users=ratingRDD.map(_._1).distinct().cache()
    val userMovies=users.cartesian(movieRDD)
    /**
      * 构建模型，需要的数据transdata,特征值个数，迭代次数，迭代步长
      */

      val (range,itrators,lambda)=(50,5,0.01)

    val transdatas= ratingRDD.map(x=>Rating(x._1,x._2,x._3))
    val models =ALS.train(transdatas,range,itrators,lambda)
    //推荐矩阵
    val preRatings=models.predict(userMovies)
    //获取用户推荐电影，并将其转化为mogodb存储模式
    val userRecmsDF=preRatings.filter(_.rating>0)
      .map(x=>(x.user,(x.product,x.rating)))
      .groupByKey()
      .map{
     
        case (uid,recs)
        =>UserRecs(uid,recs.toList.sortWith(_._2>_._2).take(MOVIE_RECMS_NUM).map(x=>RecommenderItem(x._1,x._2)))}
      .toDF()
    //存储到mongodb上
    userRecmsDF.write
      .option("uri",mongoConfig.uri)
      .option("collection",USER_RECMS)
      .mode("overwrite")
      .format("com.mongodb.spark.sql")
      .save()

    /**
      * 通过模型计算电影的相似矩阵
      */
    //得到电影的特征矩阵，然后通过余弦相似性计算电影之间的相似性
    val movieFeatures=models.productFeatures.map{
     
      case(mid,feature)
      =>(mid,new DoubleMatrix(feature))
    }


    val movieRecmsDF=movieFeatures.cartesian(movieFeatures)
      .filter{
     
        case(a,b)=>a._1!=b._1
      }.map{
     
        case(a,b)=>(a._1,(b._1,this.consimScore(a._2,b._2)))//(Int,(Int,Double))
      }.filter(_._2._2>0.6)
      .groupByKey()
      .map{
     
        case(mid,consmids)=>
          MovieRecs(mid,consmids.toList.map(x=>RecommenderItem(x._1,x._2)))
      }.toDF()
    movieRecmsDF.write
      .option("uri",mongoConfig.uri)
      .option("collection",MOVIE_REMS)
      .mode("overwrite")
      .format("com.mongodb.spark.sql")
      .save()

    sparkSession.close()

  }
  def consimScore(feature1: DoubleMatrix, feature2: DoubleMatrix): Double = {
     
      (feature1.dot(feature2))/(feature1.norm2()*feature2.norm2())
  }

}

实时推荐

根据以下公式排序（优先级）

代码片.

package com.geyuegui

import com.mongodb.casbah.commons.MongoDBObject
import kafka.Kafka
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.{
     Seconds, StreamingContext}
import org.apache.spark.streaming.kafka010.{
     ConsumerStrategies, KafkaUtils, LocationStrategies}
import redis.clients.jedis.Jedis

import scala.collection.JavaConversions._
import scala.collection.mutable
import scala.collection.mutable.ArrayBuffer


/**
  * 实时推荐系统
  * 1.从kafka消息队列中获取用户当前的电影评分，
  * 读取电影的相似性矩阵表，并将其设置为广播变量，然后根据相似矩阵中获取与当前电影相似的电影
  * 相似矩阵中的相似电影是历史的数据，作为所有电影的相似参考，但是每个用户的喜好可能不一样，需要根据用户最近的评分数据在这个基础上进一步的分配推荐优先级
  * 用户最近的评分数据我们这边从redis缓存中拉去。
  * 根据相似电影矩阵中获取的相似电影，用户最近的评分数据，按照公式计算每个电影的推荐优先级，将推荐的电影保存到对应用户的下
  */
object StreamingRecommender {
     

  val MOVIE_RECMS="MovieRecms"
  val RATINGMOVIE="Rating"
  val STREAMRESMS="StreamRecms"
  val REDISNUM=10
  val RECOMNUM=10

    //环境变量
  def main(args: Array[String]): Unit = {
     

   // System.gc();
    val config =Map(
      "spark.core"->"local[3]",
      "mongo.uri"->"mongodb://ip:27017/recom",
      "mongo.db"->"recom",
      "kafka.topic"->"recom"
    )
    val sparkConf=new SparkConf().setAppName("StreamingRecommender").setMaster(config("spark.core"))
    val sparkSession=SparkSession.builder().config(sparkConf).getOrCreate()
    val sparkContext=sparkSession.sparkContext
    implicit val mongoConfig=MongoConfig(config("mongo.uri"),config("mongo.db"))
    import sparkSession.implicits._
    /**
      * 设置电影的相似矩阵为广播
      */
    val movieRecs=sparkSession.read
      .option("uri",mongoConfig.uri)
      .option("collection",MOVIE_RECMS)
      .format("com.mongodb.spark.sql")
      .load()
      .as[MovieRecs]
      .rdd
      .map {
     
        movieRecms =>
          (movieRecms.mid,movieRecms.recs.map(x => (x.mid, x.score)).toMap)
      }.collectAsMap()
    val movieRecsBroadCoast=sparkContext.broadcast(movieRecs)
    //广播变量需要使用聚合计算才能生效
    val a=sparkContext.makeRDD(1 to 2)
    a.map(x=>movieRecsBroadCoast.value.get(1)).count


    //获取kafka中的数据
    val ssc = new StreamingContext(sparkContext,Seconds(2))
    val kafkaParam=Map(
      "bootstrap.servers"->"ip:9092",
      "key.deserializer"->classOf[StringDeserializer],
      "value.deserializer"->classOf[StringDeserializer],
      "group.id" -> "recomgroup"
    )
    val kafkaStreaming=KafkaUtils.createDirectStream(ssc,LocationStrategies.PreferConsistent,
      ConsumerStrategies.Subscribe[String,String](Array(config("kafka.topic")),kafkaParam))

    //接收评分流  UID | MID | Score | TIMESTAMP
    //kafka数据：1|2|5.0|1564412033
    val ratingStream=kafkaStreaming.map{
     
      case msgs=>
        val msg= msgs.value().split("\\|")
        println("get data from kafka --- ratingStream ")
        (msg(0).toInt,msg(1).toInt,msg(2).toDouble)
    }
    //计算并更新用户的每次评分的推荐数据，将其保存到mongo
    ratingStream.foreachRDD{
     
      data=>
        data.map{
     
          case(uid,mid,score)=>
            println("get data from kafka --- ratingStreamNext ")
            //1.最近评价的电影，从redis中获取
            val userRecentMovies=getUserRecentMovie(uid:Int,REDISNUM:Int,ConnerHelper.jedis:Jedis)
            //获取d当前电影最相似的几个电影，同时要排除掉用户已经评价电影
            val topMovieSimScore=getTopMovieSimScore(uid,mid,RECOMNUM,movieRecsBroadCoast.value)
            //给最相似的电影赋优先级并
            val topMovieOrder=getTopMovieOrder(topMovieSimScore,userRecentMovies,movieRecsBroadCoast.value)
            //将数据保存到mongodb
            saveSimMovietoMongo(uid,topMovieOrder)

        }.count()
    }
    ssc.start()
    ssc.awaitTermination()
  }

  /**
    *
    * @param uid
    * @param num
    * @param jedis
    */
  //lpush uid:1 1129:2.0 1172:4.0 1263:2.0 1287:2.0 1293:2.0 1339:3.5 1343:2.0 1371:2.5
  def getUserRecentMovie(uid: Int, num: Int, jedis: Jedis) = {
     
    jedis.lrange("uid:"+uid,0,num).map{
     
      case item =>
        val datas=item.split("\\:")
        (datas(0).trim.toInt,datas(1).trim.toDouble)
    }.toArray
  }
  def log(num: Int):Double={
     
    math.log(num)/math.log(2)
  }

  /**
    * 获取电影mid最相似的电影，并且去掉用户已经观看的电影
    * @param uid
    * @param mid
    * @param RECOMNUM
    * @param simMovieCollections
    */
  def getTopMovieSimScore(uid: Int, mid: Int, RECOMNUM: Int, simMovieCollections: collection.Map[Int, Map[Int, Double]])(implicit mongoConfig: MongoConfig) = {
     
    //用户已经观看的电影
    val userRatingExist=ConnerHelper.mongoClient(mongoConfig.db)(RATINGMOVIE).find(MongoDBObject("uid"->uid)).toArray.map{
     
      item=>
        item.get("mid").toString.toInt
    }
    userRatingExist
    //电影mid所有相似的电影
    val allSimMovie=simMovieCollections.get(mid).get.toArray
    //过滤掉用户已经观看的电影，对相似电影排序，取RECOMNUM个电影
    allSimMovie.filter(x=> !userRatingExist.contains(x._1)).sortWith(_._2>_._2).take(RECOMNUM).map(x=>x._1)
  }

  /**
    *
    * @param topMovieSimScores
    * @param userRecentMovies
    * @param simMovies
    * @return
    */
  def getTopMovieOrder(topMovieSimScores: Array[Int], userRecentMovies: Array[(Int, Double)], simMovies: collection.Map[Int, Map[Int, Double]]) = {
     
    //存放每个待选电影的权重评分
    //这里用Array是便于使用groupBy集合计算
    val scores=ArrayBuffer[(Int,Double)]()
    //每一个待选电影的增强因子
    val incre=mutable.HashMap[Int,Int]()
    //每一个待选电影的减弱因子
    val decre=mutable.HashMap[Int,Int]()
    for (topMovieSimScore<-topMovieSimScores;userRecentMovie<-userRecentMovies){
     
        //相似值
      val simScore=getMoviesSimScore(simMovies,userRecentMovie._1,topMovieSimScore)
      if (simScore>0.6){
     
        scores +=((topMovieSimScore,simScore*userRecentMovie._2))
        if (userRecentMovie._2>3){
     
          incre(topMovieSimScore)=incre.getOrDefault(topMovieSimScore,0)+1
        }else{
     
          decre(topMovieSimScore)=decre.getOrDefault(topMovieSimScore,0)+1
        }
      }
    }
   scores.groupBy(_._1).map{
     
     case(mid,sim)=>
       (mid,sim.map(_._2).sum/sim.length+log(incre(mid))-log(decre(mid)))
   }.toArray
  }
  /**
    *    获取电影之间的相似度
    * @param simMovies
    * @param userRatingMovie
    * @param topSimMovie
    */
  def getMoviesSimScore(simMovies: collection.Map[Int, Map[Int, Double]],
                        userRatingMovie: Int,
                        topSimMovie: Int) = {
     

    simMovies.get(topSimMovie) match {
     
      case Some(sim) => sim.get(userRatingMovie) match {
     
        case Some(score) => score
        case None => 0.0
      }
      case None => 0.0
    }

  }

  /**
    *
    * @param uid
    * @param topMovieOrder
    * @param mongoConfig
    */
  def saveSimMovietoMongo(uid: Int, topMovieOrder: Array[(Int, Double)])(implicit mongoConfig: MongoConfig): Unit= {
     
    val StreamCollection=ConnerHelper.mongoClient(mongoConfig.db)(STREAMRESMS)
    StreamCollection.findAndRemove(MongoDBObject("uid"->uid))
    //(Int, Double)(Int, Double)(Int, Double)(Int, Double)(Int, Double)
    //Int:Double|Int:Double|Int:Double|Int:Double|Int:Double|Int:Double
    StreamCollection.insert(MongoDBObject("uid"->uid,"recms"->topMovieOrder.map(x=>x._1+":"+x._2).mkString("|")))
    println("save to momgo success")
  }

}

数据说明

redis获取近期用户评分数据，其中预存测试数据为:uid:1 1129:2.0 1172:4.0 1263:2.0 1287:2.0 1293:2.0 1339:3.5 1343:2.0 1371:2.5
kafka获取用户实时评分数据，预存数据为:1|2|5.0|1564412033
后台系统存储原始数据机构如图
：movie数据展示

:Rating评分数据展示

4.推荐结果

Apache大数据旭哥优选大数据选题 Apache大数据旭大数据定制选题 java hadoop spark 开发语言 idea hive 数据库架构
定制旭哥服务，一对一，无中介包安装+答疑+售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做，这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、spark、hive、hbase、flink、SparkStreaming、kafka、flume、sqoop分析+推
Python连接SQL SEVER数据库全流程 m0_74823131 数据库 python sql
背景介绍在数据分析领域，经常需要从数据库中获取数据进行分析和处理。而SQLServer是一种常用的关系型数据库管理系统，因此学习如何使用Python连接SQLServer数据库并获取数据是非常有用的。以下是Python使用pymssql连接SQLServer数据库的全流程：安装pymssql库本地账号设置脚本连接数据导入函数实现一、安装pymssqlpymssql是Python连接SQLServe
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
如何避免Bug跟踪系统混乱管理前沿运维人工智能大数据
流程规范化、工具集成化、沟通透明化。其中流程规范化通过明确每个环节的责任分工、标准化Bug报告和处理流程，有效减少混乱和重复劳动，确保Bug跟踪系统高效运转。企业通过数据分析发现，采用标准化流程后Bug处理效率可提升30%以上，这为软件质量控制提供了坚实保障。一、BUG跟踪系统的基本概念与重要性Bug跟踪系统是一种用于记录、管理和解决软件缺陷的工具和流程。它通过集中存储Bug报告、分类处理问题，并
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
零基础上手Python数据分析 (7)：Python 面向对象编程初步 kakaZhui python 数据分析 excel
写在前面回顾一下，我们已经学习了Python的基本语法、数据类型、常用数据结构和文件操作、异常处理等。到目前为止，我们主要采用的是面向过程(ProceduralProgramming)的编程方式，即按照步骤一步一步地编写代码，解决问题。这种方式对于简单的任务已经足够，但当程序变得越来越复杂，代码量越来越大时，面向过程编程可能会显得力不从心，代码难以组织、复用和维护。代码复杂性带来的挑战：面向过程v
Python 数据分析实战：跨境电商行业发展解析萧十一郎@ python python 数据分析开发语言
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1跨境电商消费者地域分布分析2.4.2跨境电商商品销售与价格关系分析2.4.3跨境电商行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-跨境电商消费者地域分布分析3.4数据分析-跨境电商商品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集
轻松帮你搞清楚Python爬虫数据可视化的流程 liuhaoran___ python
Python爬虫数据可视化的流程主要是通过网络爬取所需的数据，并利用相关的库将数据分析结果以图形化的方式展示出来，帮助用户更直观地理解数据背后的信息。Python爬虫+数据可视化步骤1.获取目标网站的数据使用`requests`或者`selenium`库从网页上抓取信息。对于动态加载内容的页面可以考虑结合JavaScript渲染引擎。2.解析HTML内容提取有用信息常见工具如BeautifulSo
抖音视频数据获取实战：从API调用到热门内容挖掘爱搞技术的猫猫 API 音视频
在短视频流量为王的时代，掌握抖音热门视频数据已成为内容运营、竞品分析及营销决策的关键。本文将手把手教你通过抖音开放平台API获取视频详情数据，并提供完整的代码实现及商业化应用思路。一、抖音API权限申请与核心接口抖音API需企业资质认证，个人开发者权限受限。以下是接入流程：企业开发者认证•登录开放平台，选择注册，提交信息等材料。•完成认证后，创建应用（如“视频数据分析工具”），获取ClientKe
Python 爬虫实战：社交媒体品牌反馈数据抓取与舆情分析西攻城狮北 python 爬虫媒体
一、引言在当今数字化时代，社交媒体已成为公众表达意见、分享信息的重要渠道。品牌的声誉和市场表现往往受到消费者在社交平台上的反馈和评价的影响，因此品牌舆情分析变得至关重要。本文将介绍如何使用爬虫技术爬取社交媒体上的品牌反馈数据，并通过数据分析技术，分析品牌的舆情动态。二、环境准备在开始之前，确保你的开发环境已经安装了以下必要的Python库：requests:用于发送HTTP请求。beautiful
Azure Delta Lake、Databricks和Event Hubs实现实时欺诈检测 weixin_30777913 azure 云计算
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合AzureEventHubs/Kafka摄入实时数据，通过DeltaLake实现Exactly-Once语义，实时欺诈检测（流数据写入DeltaLake，批处理模型实时更新），以及具体实现的详细步骤和关键PySpark代码。完整实现代码需要根据具体数据格式和业务规则进行调整，建议通过DatabricksR
零基础上手Python数据分析 (6)：Python 异常处理，告别程序崩溃的烦恼！ kakaZhui python 数据分析数据库 excel 数据挖掘
回顾一下，前几篇博客我们学习了Python的基本语法、数据结构和文件操作。现在，我们已经掌握了Python编程的基础知识，可以开始编写更复杂的数据分析代码了。但是，在实际的数据分析工作中，程序并非总能一帆风顺地运行，总会遇到各种意外情况，例如：文件找不到：程序尝试读取一个不存在的数据文件。数据格式错误：数据文件中包含非预期的格式，例如本应是数字的列包含了文本。网络连接中断：程序尝试从网络获取数据，
微软 LIDA 库：基于大模型的自动化数据分析与可视化窝窝和牛牛 microsoft 数据分析
微软LIDA库：基于大模型的自动化数据分析与可视化一、核心架构与LLM交互流程调用LLM生成数据摘要基于LLM推理分析目标LLM生成可视化代码结合图像生成模型优化原始数据Summarizer模块结构化摘要GoalExplorer模块可视化目标列表VizGenerator模块可执行图表代码Infographer模块风格化信息图表二、LLM交互核心功能1.多模型支持架构兼容主流LLM服务商：通过统一接
Python 向量检索库Faiss使用懒大王爱吃狼 python python 开发语言自动化 Python基础 python教程
Faiss（FacebookAISimilaritySearch）是一个由FacebookAIResearch开发的库，它专门用于高效地搜索和聚类大量向量。Faiss能够在几毫秒内搜索数亿个向量，这使得它非常适合于实现近似最近邻（ANN）搜索，这在许多应用中都非常有用，比如图像检索、推荐系统和自然语言处理。以下是如何使用Faiss的基本步骤和示例：1.安装Faiss首先，你需要安装Faiss。你可
AWS SAP学习笔记-概念 HainesFreeman AWS aws
1、什么是ETL应用程序，举个例子说明？ETL（Extract,Transform,Load）应用程序是一种用于数据处理和迁移的工具或程序，它主要负责从多个数据源提取数据，对数据进行转换和清洗，然后将处理后的数据加载到目标数据仓库或数据库中。ETL应用程序广泛应用于数据集成、数据仓库构建、数据分析和数据迁移等场景。ETL的三个主要步骤：Extract（提取）：从各种数据源（如数据库、文件、API等
探索数据安全新境界：Apache Spark SQL Ranger Security插件深度揭秘乌昱有Melanie
探索数据安全新境界：ApacheSparkSQLRangerSecurity插件深度揭秘项目地址:https://gitcode.com/gh_mirrors/sp/spark-ranger随着大数据的爆炸性增长，数据安全性成为了企业不可忽视的核心议题。在这一背景下，【ApacheSparkSQLRangerSecurityPlugin】以其强大的数据访问控制能力脱颖而出，成为数据处理领域的明星级
AI 赋能应急管理：ChatGPT、DeepSeek、Grok 的应用探索一ge科研小菜菜人工智能人工智能
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注1.引言随着人工智能（AI）技术的快速发展，大语言模型（LLM）在应急管理领域的应用逐步扩大。ChatGPT、DeepSeek、Grok等AI模型凭借强大的文本处理、数据分析和推理能力，可为灾害预警、应急响应、风险评估等提供高效支持。本文将对比三大AI模型在应急管理中的优势，并探讨其在未来智能化应急管理体系中的应用前景。2.应急管理中的核心挑战应
GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
大模型推理框架：从理论到实践的全面解析百度_开发者中心人工智能大模型自然语言处理
在数据驱动的时代，深度学习技术已经渗透到各个行业，从图像识别到自然语言处理，从推荐系统到智能客服，其应用无处不在。然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。一、大模型推理框架基本概念大模型推理框架是一种基于深度学习技术的推理框架，它通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
基于Azure云平台构建实时数据仓库 weixin_30777913 云计算 azure 开发语言 spark python
设计Azure云架构方案实现AzureDeltaLake和AzureDatabricks，结合电商网站的流数据，构建实时数据仓库，支持T+0报表（如电商订单分析），具以及具体实现的详细步骤和关键PySpark代码。一、架构设计[电商网站]→[AzureEventHubs]→[AzureDatabricksStreaming]↓[AzureDeltaLake]←→[DatabricksSQLAnal
使用 Nginx 实现镜像流量：提升系统可用性与负载均衡绝顶少年 nginx 负载均衡 java
在现代分布式系统中，确保高可用性和负载均衡是至关重要的。Nginx作为一个高性能的反向代理服务器，不仅可以用于负载均衡，还可以通过镜像流量（TrafficMirroring）功能，将实时流量复制到其他服务器，用于测试、监控或数据分析，而不会影响生产环境。本文将详细介绍如何使用Nginx实现镜像流量。(有时候只是实现单接口的数据共享也同样可以采用单接口配置！如果你遇到按照配置完成后主服务器实现了转发
阻止 Mac 在运行任务时进入休眠状态好好学习 666 macos
掌握`Caffeinate`命令：让您的Mac保持清醒以完成关键任务开发人员经常发现自己在Mac上运行持续时间较长的进程。无论是大量文件上传、广泛的数据分析脚本，还是复杂的构建过程，我们最不希望的就是我们的机器在任务中途进入睡眠状态。输入`caffeinate`命令–macOS的内置解决方案，可在您最需要时保持系统唤醒。##睡眠困境MacOS在设计时考虑了电源效率，这对电池寿命非常有用，但在运行时
使用Seaborn绘制小提琴图 CodeWG python 开发语言
使用Seaborn绘制小提琴图在数据分析与可视化中，小提琴图是一种常用的图表类型。它能够展示数据的分布情况，同时还能显示中位数、四分位数和异常值等统计指标。在Python中，我们可以使用Seaborn库来轻松地绘制小提琴图。下面就来详细介绍一下如何使用Seaborn来创建小提琴图。首先，我们需要导入必要的库和数据集。这里我们使用Seaborn自带的数据集tips作为例子。importseaborn
Elasticsearch + Docker：实现容器化部署指南 IT成长日记 elasticsearch docker 容器化部署
Elasticsearch是一款强大的分布式搜索和分析引擎，广泛应用于日志分析、全文检索、实时数据分析等场景。而Docker作为一种轻量级的容器化技术，能够帮助开发者快速部署和管理应用。将Elasticsearch与Docker结合，不仅可以简化部署流程，还能提高资源利用率和系统可维护性。1环境准备1.1安装Docker安装操作请参考：Docker入门指南：1分钟搞定安装+常用命令，轻松入门容器化
从入门到进阶：Python数据可视化实战技巧 Blossom.118 分布式系统与高性能计算领域信息可视化 python 开发语言网络协议 spring boot java 后端
在数据分析和数据科学领域，数据可视化是将复杂数据以直观图形展示的重要手段。Python作为数据科学领域的首选语言之一，提供了强大的数据可视化库，如Matplotlib、Seaborn、Plotly等。本文将从入门到进阶，逐步介绍Python数据可视化的实战技巧，帮助读者快速提升数据可视化能力。一、入门：Matplotlib基础Matplotlib是Python中最基础、最强大的数据可视化库之一。它
AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
Python 数据分析实战：宠物经济行业发展洞察萧十一郎@ python python 数据分析宠物
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1宠物用品用户满意度分析2.4.2宠物用品销售与价格关系分析2.4.3宠物经济行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-宠物用品用户满意度分析3.4数据分析-宠物用品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集改进4.2数据清
搜广推校招面经五十三 Y1nhl 搜广推面经 python 机器学习人工智能推荐算法搜索算法算法
小红书推荐算法一、ESMM(EntireSpaceMulti-TaskModel)ESMM（EntireSpaceMulti-TaskModel）是一种用于解决推荐系统中多任务学习问题的模型。它由阿里巴巴团队提出，主要用于处理点击率（CTR）和转化率（CVR）的联合预测问题。1.1.背景在推荐系统中，CTR和CVR是两个重要的指标：CTR（Click-ThroughRate）：用户点击广告的概率。
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

基于spark ALS协同过滤推荐系统代码实现