使用Spark MLlib给豆瓣用户推荐电影

推荐算法就是利用用户的一些行为，通过一些数学算法，推测出用户可能喜欢的东西。
随着电子商务规模的不断扩大，商品数量和种类不断增长，用户对于检索和推荐提出了更高的要求。由于不同用户在兴趣爱好、关注领域、个人经历等方面的不同，以满足不同用户的不同推荐需求为目的、不同人可以获得不同推荐为重要特征的个性化推荐系统应运而生。

推荐系统成为一个相对独立的研究方向一般被认为始自1994年明尼苏达大学GroupLens研究组推出的GroupLens系统。该系统有两大重要贡献：一是首次提出了基于协同过滤(Collaborative Filtering)来完成推荐任务的思想，二是为推荐问题建立了一个形式化的模型。基于该模型的协同过滤推荐引领了之后推荐系统在今后十几年的发展方向。

目前，推荐算法已经已经被广泛集成到了很多商业应用系统中，比较著名的有Netflix在线视频推荐系统、Amazon网络购物商城等。实际上，大多数的电子商务平台尤其是网络购物平台，都不同程度地集成了推荐算法，如淘宝、京东商城等。Amazon发布的数据显示，亚马逊网络书城的推荐算法为亚马逊每年贡献近三十个百分点的创收。

常用的推荐算法

基于人口统计学的推荐(Demographic-Based Recommendation):该方法所基于的基本假设是“一个用户有可能会喜欢与其相似的用户所喜欢的物品”。当我们需要对一个User进行个性化推荐时，利用User Profile计算其它用户与其之间的相似度，然后挑选出与其最相似的前K个用户，之后利用这些用户的购买和打分信息进行推荐。
基于内容的推荐(Content-Based Recommendation):Content-Based方法所基于的基本假设是“一个用户可能会喜欢和他曾经喜欢过的物品相似的物品”。
基于协同过滤的推荐(Collaborative Filtering-Based Recommendation)是指收集用户过去的行为以获得其对产品的显式或隐式信息，即根据用户对
物品或者信息的偏好，发现物品或者内容本身的相关性、或用户的相关性，然后再基于这些关联性进行推荐。基于协同过滤的推荐可以分基于用户的推荐（User-based Recommendation），基于物品的推荐（Item-based Recommendation），基于模型的推荐（Model-based Recommendation）等子类。

以上内容copy自参考文档1

ALS算法

LS是alternating least squares的缩写 , 意为交替最小二乘法。该方法常用于基于矩阵分解的推荐系统中。例如：将用户(user)对商品(item)的评分矩阵分解为两个矩阵：一个是用户对商品隐含特征的偏好矩阵，另一个是商品所包含的隐含特征的矩阵。在这个矩阵分解的过程中，评分缺失项得到了填充，也就是说我们可以基于这个填充的评分来给用户最商品推荐了。
由于评分数据中有大量的缺失项，传统的矩阵分解SVD（奇异值分解）不方便处理这个问题，而ALS能够很好的解决这个问题。对于R(m×n)的矩阵，ALS旨在找到两个低维矩阵X(m×k)和矩阵Y(n×k)，来近似逼近R(m×n)，即：$\tilde{R} = XY$ ，其中，$X\in \mathbb{R}^{m\times d}$，$Y\in \mathbb{R}^{d\times n}$，d 表示降维后的维度，一般 d<<r，r表示矩阵 R 的秩，$r<<min(m,n)$。

为了找到低维矩阵X,Y最大程度地逼近矩分矩阵R，最小化下面的平方误差损失函数。
$$L(X,Y) = \sum_{u,i}(r_{ui} - x_{u}^{T}y_{i})^{2}$$

为防止过拟合给公式 (1) 加上正则项，公式改下为： $$L(X,Y) = \sum_{u,i}(r_{ui} - x_{u}^{T}y_{i})^{2} + \lambda (\left | x_{u}\right |^{2} +　\left | y_{i}\right |^{2})......(2)$$

其中$x_{u}\in \mathbb{R}^{d}，y_{i}\in \mathbb{R}^{d}$，$1\leqslant u\leqslant m$，$1\leqslant i\leqslant n$，$\lambda$是正则项的系数。
MLlib 的实现算法中有以下一些参数：

numBlocks
用于并行化计算的分块个数 (-1为自动分配)
rank
模型中隐藏因子的个数，也就是上面的 r
iterations
迭代的次数，推荐值：10-20
lambda
惩罚函数的因数，是ALS的正则化参数，推荐值：0.01
implicitPrefs
决定了是用显性反馈ALS的版本还是用适用隐性反馈数据集的版本
alpha
是一个针对于隐性反馈 ALS 版本的参数，这个参数决定了偏好行为强度的基准

隐性反馈 vs 显性反馈
基于矩阵分解的协同过滤的标准方法一般将用户商品矩阵中的元素作为用户对商品的显性偏好。在许多的现实生活中的很多场景中，我们常常只能接触到隐性的反馈（例如游览，点击，购买，喜欢，分享等等）在 MLlib 中所用到的处理这种数据的方法来源于文献： Collaborative Filtering for Implicit Feedback Datasets。本质上，这个方法将数据作为二元偏好值和偏好强度的一个结合，而不是对评分矩阵直接进行建模。因此，评价就不是与用户对商品的显性评分而是和所观察到的用户偏好强度关联了起来。然后，这个模型将尝试找到隐语义因子来预估一个用户对一个商品的偏好。

以上的介绍带着浓重的学术气息，需要阅读更多的背景知识才能了解这些算法的奥秘。Spark MLlib为我们提供了很好的协同算法的封装。当前MLlib支持基于模型的协同过滤算法，其中 user和 product对应上面的user和item，user和product之间有一些隐藏因子。MLlib使用 ALS(alternating least squares)来学习/得到这些潜在因子。

下面我们就以实现一个豆瓣电影推荐系统为例看看如何使用Spark实现此类推荐系统。以此类推，你也可以尝试实现豆瓣图书，豆瓣音乐，京东电器商品推荐系统。

豆瓣数据集

一般学习Spark MLlib ALS会使用 movielens数据集。这个数据集保存了用户对电影的评分。
但是这个数据集对于国内用户来说有点不接地气，事实上国内有一些网站可以提供这样的数据集，比如豆瓣，它的人气还是挺高的。
但是豆瓣并没有提供这样一个公开的数据集，所以我用抓取了一些数据做测试。
数据集分为两个文件：

hot_movies.csv: 这个文件包含了热门电影的列表，一种166个热门电影。格式为 <movieID>,<评分>,<电影名>，如

     
      
      
      
      
       
       
       
       20645098,8.2,小王子
      
      
      
           
      
      
      
      
       
       
       
       26259677,8.3,垫底辣妹
      
      
      
           
      
      
      
      
       
       
       
       11808948,7.2,海绵宝宝
      
      
      
           
      
      
      
      
       
       
       
       26253733,6.4,突然变异
      
      
      
           
      
      
      
      
       
       
       
       25856265,6.7,烈日迷踪
      
      
      
           
      
      
      
      
       
       
       
       26274810,6.6,侦探：为了原点

user_movies.csv: 这个文件包含用户对热门电影的评价，格式为 <userID>:<movieID>:<评分>

     
      
      
      
      
       
       
       
       adamwzw,20645098,4
      
      
      
           
      
      
      
      
       
       
       
       baka_mono,20645098,3
      
      
      
           
      
      
      
      
       
       
       
       iRayc,20645098,2
      
      
      
           
      
      
      
      
       
       
       
       blueandgreen,20645098,3
      
      
      
           
      
      
      
      
       
       
       
       130992805,20645098,4
      
      
      
           
      
      
      
      
       
       
       
       134629166,20645098,5
      
      
      
           
      
      
      
      
       
       
       
       wangymm,20645098,3

可以看到，用户名并不完全是整数类型的，但是MLlib ALS算法要求user,product都是整型的，所以我们在编程的时候需要处理一下。
有些用户只填写了评价，并没有打分，文件中将这样的数据记为-1。在ALS算法中，把它转换成3.0，也就是及格60分。虽然可能和用户的实际情况不相符，但是为了简化运算，我在这里做了简化处理。
用户的评分收集了大约100万条，实际用户大约22万。这个矩阵还是相当的稀疏。

注意这个数据集完全基于豆瓣公开的网页，不涉及任何个人的隐私。

模型实现

本系统使用Scala实现。
首先读入这两个文件，得到相应的弹性分布数据集RDD (第 7行和第 8行)。

     
      
      
      
      
       
       
       
       object DoubanRecommender {
      
      
      
           
      
      
      
      
       
       
       
         def main(args: Array[String]): Unit = {
      
      
      
           
      
      
      
      
       
       
       
           val sc = new SparkContext(new SparkConf().setAppName("DoubanRecommender"))
      
      
      
           
      
      
      
      
       
       
       
           //val base = "/opt/douban/"
      
      
      
           
      
      
      
      
       
       
       
           val base = if (args.length > 0) args(0) else "/opt/douban/"
      
      
      
           
      
      
      
      
       
       
       
           //获取RDD
      
      
      
           
      
      
      
      
       
       
       
           val rawUserMoviesData = sc.textFile(base + "user_movies.csv")
      
      
      
           
      
      
      
      
       
       
       
           val rawHotMoviesData = sc.textFile(base + "hot_movies.csv")
      
      
      
           
      
      
      
      
       
       
       
           //准备数据
      
      
      
           
      
      
      
      
       
       
       
           preparation(rawUserMoviesData, rawHotMoviesData)
      
      
      
           
      
      
      
      
       
       
       
           println("准备完数据")
      
      
      
           
      
      
      
      
       
       
       
           model(sc, rawUserMoviesData, rawHotMoviesData)
      
      
      
           
      
      
      
      
       
       
       
         }
      
      
      
           
      
      
      
      
       
       
       
         ......
      
      
      
           
      
      
      
      
       
       
       
       }

第 10行调用 preparation方法，这个方法主要用来检查分析数据，得到数据集的一些基本的统计信息，还没有到协同算法那一步。

     
      
      
      
      
       
       
       
       def preparation( rawUserMoviesData: RDD[String],
      
      
      
           
      
      
      
      
       
       
       
                        rawHotMoviesData: RDD[String]) = {
      
      
      
           
      
      
      
      
       
       
       
         val userIDStats = rawUserMoviesData.map(_.split(',')(0).trim).distinct().zipWithUniqueId().map(_._2.toDouble).stats()
      
      
      
           
      
      
      
      
       
       
       
         val itemIDStats = rawUserMoviesData.map(_.split(',')(1).trim.toDouble).distinct().stats()
      
      
      
           
      
      
      
      
       
       
       
         println(userIDStats)
      
      
      
           
      
      
      
      
       
       
       
         println(itemIDStats)
      
      
      
           
      
      
      
      
       
       
       
         val moviesAndName = buildMovies(rawHotMoviesData)
      
      
      
           
      
      
      
      
       
       
       
         val (movieID, movieName) = moviesAndName.head
      
      
      
           
      
      
      
      
       
       
       
         println(movieID + " -> " + movieName)
      
      
      
           
      
      
      
      
       
       
       
       }

第 5行和第 6行打印RDD的statCounter的值，主要是最大值，最小值等。
第 9行输出热门电影的第一个值。
输出结果如下：

     
      
      
      
      
       
       
       
       (count: 223239, mean: 111620.188663, stdev: 64445.607152, max: 223966.000000, min: 0.000000)
      
      
      
           
      
      
      
      
       
       
       
       (count: 165, mean: 20734733.139394, stdev: 8241677.225813, max: 26599083.000000, min: 1866473.000000)
      
      
      
           
      
      
      
      
       
       
       
       6866928 -> 进击的巨人真人版：前篇

方法 buildMovies读取 rawHotMoviesData，因为 rawHotMoviesData的每一行是一条类似 20645098,8.2,小王子的字符串，需要按照,分割，得到第一个值和第三个值：

     
      
      
      
      
       
       
       
       def buildMovies(rawHotMoviesData: RDD[String]): Map[Int, String] =
      
      
      
           
      
      
      
      
       
       
       
         rawHotMoviesData.flatMap { line =>
      
      
      
           
      
      
      
      
       
       
       
           val tokens = line.split(',')
      
      
      
           
      
      
      
      
       
       
       
           if (tokens(0).isEmpty) {
      
      
      
           
      
      
      
      
       
       
       
             None
      
      
      
           
      
      
      
      
       
       
       
           } else {
      
      
      
           
      
      
      
      
       
       
       
             Some((tokens(0).toInt, tokens(2)))
      
      
      
           
      
      
      
      
       
       
       
           }
      
      
      
           
      
      
      
      
       
       
       
         }.collectAsMap()

我们使用这个Map可以根据电影的ID得到电影实际的名字。

下面就重点看看如何使用算法建立模型的：

     
      
      
      
      
       
       
       
       def model(sc: SparkContext,
      
      
      
           
      
      
      
      
       
       
       
                   rawUserMoviesData: RDD[String],
      
      
      
           
      
      
      
      
       
       
       
                   rawHotMoviesData: RDD[String]): Unit = {
      
      
      
           
      
      
      
      
       
       
       
           val moviesAndName = buildMovies(rawHotMoviesData)
      
      
      
           
      
      
      
      
       
       
       
           val bMoviesAndName = sc.broadcast(moviesAndName)
      
      
      
           
      
      
      
      
       
       
       
           val data = buildRatings(rawUserMoviesData)
      
      
      
           
      
      
      
      
       
       
       
           val userIdToInt: RDD[(String, Long)] =
      
      
      
           
      
      
      
      
       
       
       
             data.map(_.userID).distinct().zipWithUniqueId()
      
      
      
           
      
      
      
      
       
       
       
           val reverseUserIDMapping: RDD[(Long, String)] =
      
      
      
           
      
      
      
      
       
       
       
             userIdToInt map { case (l, r) => (r, l) }
      
      
      
           
      
      
      
      
       
       
       
           val userIDMap: Map[String, Int] =   userIdToInt.collectAsMap().map { case (n, l) => (n, l.toInt) }
      
      
      
           
      
      
      
      
       
       
       
           val bUserIDMap = sc.broadcast(userIDMap)
      
      
      
           
      
      
      
      
       
       
       
           val ratings: RDD[Rating] = data.map { r => Rating(bUserIDMap.value.get(r.userID).get, r.movieID, r.rating)}.cache()
      
      
      
           
      
      
      
      
       
       
       
           //使用协同过滤算法建模
      
      
      
           
      
      
      
      
       
       
       
           //val model = ALS.trainImplicit(ratings, 10, 10, 0.01, 1.0)
      
      
      
           
      
      
      
      
       
       
       
           val model = ALS.train(ratings, 50, 10, 0.0001)
      
      
      
           
      
      
      
      
       
       
       
           ratings.unpersist()
      
      
      
           
      
      
      
      
       
       
       
           println("输出第一个userFeature")
      
      
      
           
      
      
      
      
       
       
       
           println(model.userFeatures.mapValues(_.mkString(", ")).first())
      
      
      
           
      
      
      
      
       
       
       
           for (userID <- Array(100,1001,10001,100001,110000)) {
      
      
      
           
      
      
      
      
       
       
       
             checkRecommenderResult(userID, rawUserMoviesData, bMoviesAndName, reverseUserIDMapping, model)
      
      
      
           
      
      
      
      
       
       
       
           }
      
      
      
           
      
      
      
      
       
       
       
           unpersist(model)
      
      
      
           
      
      
      
      
       
       
       
         }

第 4行到第 12行是准备辅助数据，第 13行准备好ALS算法所需的数据RDD[Rating]。
第 16行设置一些参数训练数据。这些参数可以根据下一节的评估算法挑选一个较好的参数集合作为最终的模型参数。
第 21行是挑选几个用户，查看这些用户看过的电影，以及这个模型推荐给他们的电影。

     
      
      
      
      
       
       
       
       def checkRecommenderResult(userID: Int, rawUserMoviesData: RDD[String], bMoviesAndName: Broadcast[Map[Int, String]], reverseUserIDMapping: RDD[(Long, String)], model: MatrixFactorizationModel): Unit = {
      
      
      
           
      
      
      
      
       
       
       
           val userName = reverseUserIDMapping.lookup(userID).head
      
      
      
           
      
      
      
      
       
       
       
           val recommendations = model.recommendProducts(userID, 5)
      
      
      
           
      
      
      
      
       
       
       
           //给此用户的推荐的电影ID集合
      
      
      
           
      
      
      
      
       
       
       
           val recommendedMovieIDs = recommendations.map(_.product).toSet
      
      
      
           
      
      
      
      
       
       
       
           //得到用户点播的电影ID集合
      
      
      
           
      
      
      
      
       
       
       
           val rawMoviesForUser = rawUserMoviesData.map(_.split(',')).
      
      
      
           
      
      
      
      
       
       
       
             filter { case Array(user, _, _) => user.trim == userName }
      
      
      
           
      
      
      
      
       
       
       
           val existingUserMovieIDs = rawMoviesForUser.map { case Array(_, movieID, _) => movieID.toInt }.
      
      
      
           
      
      
      
      
       
       
       
             collect().toSet
      
      
      
           
      
      
      
      
       
       
       
           println("用户" + userName + "点播过的电影名")
      
      
      
           
      
      
      
      
       
       
       
           //点播的电影名
      
      
      
           
      
      
      
      
       
       
       
           bMoviesAndName.value.filter { case (id, name) => existingUserMovieIDs.contains(id) }.values.foreach(println)
      
      
      
           
      
      
      
      
       
       
       
           println("推荐给用户" + userName + "的电影名")
      
      
      
           
      
      
      
      
       
       
       
           //推荐的电影名
      
      
      
           
      
      
      
      
       
       
       
           bMoviesAndName.value.filter { case (id, name) => recommendedMovieIDs.contains(id) }.values.foreach(println)
      
      
      
           
      
      
      
      
       
       
       
         }

比如用户 yimiao曾经点评过以下的电影：

然后这个模型为他推荐

基本都属于喜剧动作，爱情类的，看起来还不错。

评价

当然，我们不能凭着自己的感觉评价模型的好坏，尽管我们直觉告诉我们，这个结果看不错。我们需要量化的指标来评价模型的优劣。
我们可以通过计算均方差（Mean Squared Error, MSE）来衡量模型的好坏。数理统计中均方误差是指参数估计值与参数真值之差平方的期望值，记为MSE。MSE是衡量“平均误差”的一种较方便的方法，MSE可以评价数据的变化程度，MSE的值越小，说明预测模型描述实验数据具有更好的精确度。
我们可以调整rank，numIterations，lambda，alpha这些参数，不断优化结果，使均方差变小。比如：iterations越多，lambda较小，均方差会较小，推荐结果较优。

     
      
      
      
      
       
       
       
       def evaluate( sc: SparkContext,
      
      
      
           
      
      
      
      
       
       
       
                       rawUserMoviesData: RDD[String],
      
      
      
           
      
      
      
      
       
       
       
                       rawHotMoviesData: RDD[String]): Unit = {
      
      
      
           
      
      
      
      
       
       
       
           val moviesAndName = buildMovies(rawHotMoviesData)
      
      
      
           
      
      
      
      
       
       
       
           val bMoviesAndName = sc.broadcast(moviesAndName)
      
      
      
           
      
      
      
      
       
       
       
           val data = buildRatings(rawUserMoviesData)
      
      
      
           
      
      
      
      
       
       
       
           val userIdToInt: RDD[(String, Long)] =
      
      
      
           
      
      
      
      
       
       
       
             data.map(_.userID).distinct().zipWithUniqueId()
      
      
      
           
      
      
      
      
       
       
       
           val userIDMap: Map[String, Int] =
      
      
      
           
      
      
      
      
       
       
       
             userIdToInt.collectAsMap().map { case (n, l) => (n, l.toInt) }
      
      
      
           
      
      
      
      
       
       
       
           val bUserIDMap = sc.broadcast(userIDMap)
      
      
      
           
      
      
      
      
       
       
       
           val ratings: RDD[Rating] = data.map { r =>
      
      
      
           
      
      
      
      
       
       
       
             Rating(bUserIDMap.value.get(r.userID).get, r.movieID, r.rating)
      
      
      
           
      
      
      
      
       
       
       
           }.cache()
      
      
      
           
      
      
      
      
       
       
       
       	val numIterations = 10
      
      
      
           
      
      
      
      
       
       
       
           for (rank   <- Array(10,  50);
      
      
      
           
      
      
      
      
       
       
       
                lambda <- Array(1.0, 0.01,0.0001)) {
      
      
      
           
      
      
      
      
       
       
       
             val model = ALS.train(ratings, rank, numIterations, lambda)
      
      
      
           
      
      
      
      
       
       
       
             // Evaluate the model on rating data
      
      
      
           
      
      
      
      
       
       
       
             val usersMovies = ratings.map { case Rating(user, movie, rate) =>
      
      
      
           
      
      
      
      
       
       
       
               (user, movie)
      
      
      
           
      
      
      
      
       
       
       
             }
      
      
      
           
      
      
      
      
       
       
       
             val predictions =
      
      
      
           
      
      
      
      
       
       
       
               model.predict(usersMovies).map { case Rating(user, movie, rate) =>
      
      
      
           
      
      
      
      
       
       
       
                 ((user, movie), rate)
      
      
      
           
      
      
      
      
       
       
       
               }
      
      
      
           
      
      
      
      
       
       
       
             val ratesAndPreds = ratings.map { case Rating(user, movie, rate) =>
      
      
      
           
      
      
      
      
       
       
       
               ((user, movie), rate)
      
      
      
           
      
      
      
      
       
       
       
             }.join(predictions)
      
      
      
           
      
      
      
      
       
       
       
             val MSE = ratesAndPreds.map { case ((user, movie), (r1, r2)) =>
      
      
      
           
      
      
      
      
       
       
       
               val err = (r1 - r2)
      
      
      
           
      
      
      
      
       
       
       
               err * err
      
      
      
           
      
      
      
      
       
       
       
             }.mean()
      
      
      
           
      
      
      
      
       
       
       
             println(s"(rank:$rank, lambda: $lambda, Explicit ) Mean Squared Error = " + MSE)
      
      
      
           
      
      
      
      
       
       
       
           }
      
      
      
           
      
      
      
      
       
       
       
           for (rank   <- Array(10,  50);
      
      
      
           
      
      
      
      
       
       
       
                lambda <- Array(1.0, 0.01,0.0001);
      
      
      
           
      
      
      
      
       
       
       
                alpha  <- Array(1.0, 40.0)) {
      
      
      
           
      
      
      
      
       
       
       
             val model = ALS.trainImplicit(ratings, rank, numIterations, lambda, alpha)
      
      
      
           
      
      
      
      
       
       
       
             // Evaluate the model on rating data
      
      
      
           
      
      
      
      
       
       
       
             val usersMovies = ratings.map { case Rating(user, movie, rate) =>
      
      
      
           
      
      
      
      
       
       
       
               (user, movie)
      
      
      
           
      
      
      
      
       
       
       
             }
      
      
      
           
      
      
      
      
       
       
       
             val predictions =
      
      
      
           
      
      
      
      
       
       
       
               model.predict(usersMovies).map { case Rating(user, movie, rate) =>
      
      
      
           
      
      
      
      
       
       
       
                 ((user, movie), rate)
      
      
      
           
      
      
      
      
       
       
       
               }
      
      
      
           
      
      
      
      
       
       
       
             val ratesAndPreds = ratings.map { case Rating(user, movie, rate) =>
      
      
      
           
      
      
      
      
       
       
       
               ((user, movie), rate)
      
      
      
           
      
      
      
      
       
       
       
             }.join(predictions)
      
      
      
           
      
      
      
      
       
       
       
             val MSE = ratesAndPreds.map { case ((user, movie), (r1, r2)) =>
      
      
      
           
      
      
      
      
       
       
       
               val err = (r1 - r2)
      
      
      
           
      
      
      
      
       
       
       
               err * err
      
      
      
           
      
      
      
      
       
       
       
             }.mean()
      
      
      
           
      
      
      
      
       
       
       
             println(s"(rank:$rank, lambda: $lambda,alpha:$alpha ,implicit  ) Mean Squared Error = " + MSE)
      
      
      
           
      
      
      
      
       
       
       
           }
      
      
      
           
      
      
      
      
       
       
       
         }

第 16行到第 35行评估显性反馈的参数的结果，第 36行到第 56行评估隐性反馈的参数的结果。
评估的结果如下：

     
      
      
      
      
       
       
       
       (rank:10, lambda: 1.0, Explicit ) Mean Squared Error = 1.5592024394027315                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:10, lambda: 0.01, Explicit ) Mean Squared Error = 0.1597401855959523                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:10, lambda: 1.0E-4, Explicit ) Mean Squared Error = 0.12000266211936791                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:50, lambda: 1.0, Explicit ) Mean Squared Error = 1.559198310777233                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:50, lambda: 0.01, Explicit ) Mean Squared Error = 0.015537276558121003                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:50, lambda: 1.0E-4, Explicit ) Mean Squared Error = 0.0029577581713741545                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:10, lambda: 1.0,alpha:1.0 ,implicit  ) Mean Squared Error = 10.352420717999916                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:10, lambda: 1.0,alpha:40.0 ,implicit  ) Mean Squared Error = 7.37758192206552                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:10, lambda: 0.01,alpha:1.0 ,implicit  ) Mean Squared Error = 9.138333638388543                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:10, lambda: 0.01,alpha:40.0 ,implicit  ) Mean Squared Error = 7.288950103420938                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:10, lambda: 1.0E-4,alpha:1.0 ,implicit  ) Mean Squared Error = 9.090678049662575                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:10, lambda: 1.0E-4,alpha:40.0 ,implicit  ) Mean Squared Error = 7.20726197573743                                                                               
      
      
      
           
      
      
      
      
       
       
       
       (rank:50, lambda: 1.0,alpha:1.0 ,implicit  ) Mean Squared Error = 9.920570381082038                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:50, lambda: 1.0,alpha:40.0 ,implicit  ) Mean Squared Error = 7.202627234339378                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:50, lambda: 0.01,alpha:1.0 ,implicit  ) Mean Squared Error = 7.756830091892575                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:50, lambda: 0.01,alpha:40.0 ,implicit  ) Mean Squared Error = 7.054065456899226                                                               
      
      
      
           
      
      
      
      
       
       
       
       (rank:50, lambda: 1.0E-4,alpha:1.0 ,implicit  ) Mean Squared Error = 7.599617817478698                                                                                
      
      
      
           
      
      
      
      
       
       
       
       (rank:50, lambda: 1.0E-4,alpha:40.0 ,implicit  ) Mean Squared Error = 7.0397787030727645

可以看到rank为50, lambda为0.0001的显性反馈时的MSE最小。我们就已这组参数作为我们的推荐模型。

模型应用

既然我们已经得到了一个很好的推荐模型，下一步就是使用它为所有的用户生成推荐集合。

     
      
      
      
      
       
       
       
       def recommend(sc: SparkContext,
      
      
      
           
      
      
      
      
       
       
       
                       rawUserMoviesData: RDD[String],
      
      
      
           
      
      
      
      
       
       
       
                       rawHotMoviesData: RDD[String],
      
      
      
           
      
      
      
      
       
       
       
                       base:String): Unit = {
      
      
      
           
      
      
      
      
       
       
       
           val moviesAndName = buildMovies(rawHotMoviesData)
      
      
      
           
      
      
      
      
       
       
       
           val bMoviesAndName = sc.broadcast(moviesAndName)
      
      
      
           
      
      
      
      
       
       
       
           val data = buildRatings(rawUserMoviesData)
      
      
      
           
      
      
      
      
       
       
       
           val userIdToInt: RDD[(String, Long)] =
      
      
      
           
      
      
      
      
       
       
       
             data.map(_.userID).distinct().zipWithUniqueId()
      
      
      
           
      
      
      
      
       
       
       
           val reverseUserIDMapping: RDD[(Long, String)] =
      
      
      
           
      
      
      
      
       
       
       
             userIdToInt map { case (l, r) => (r, l) }
      
      
      
           
      
      
      
      
       
       
       
           val userIDMap: Map[String, Int] =
      
      
      
           
      
      
      
      
       
       
       
             userIdToInt.collectAsMap().map { case (n, l) => (n, l.toInt) }
      
      
      
           
      
      
      
      
       
       
       
           val bUserIDMap = sc.broadcast(userIDMap)
      
      
      
           
      
      
      
      
       
       
       
           val bReverseUserIDMap = sc.broadcast(reverseUserIDMapping.collectAsMap())
      
      
      
           
      
      
      
      
       
       
       
           val ratings: RDD[Rating] = data.map { r =>
      
      
      
           
      
      
      
      
       
       
       
             Rating(bUserIDMap.value.get(r.userID).get, r.movieID, r.rating)
      
      
      
           
      
      
      
      
       
       
       
           }.cache()
      
      
      
           
      
      
      
      
       
       
       
           //使用协同过滤算法建模
      
      
      
           
      
      
      
      
       
       
       
           //val model = ALS.trainImplicit(ratings, 10, 10, 0.01, 1.0)
      
      
      
           
      
      
      
      
       
       
       
           val model = ALS.train(ratings, 50, 10, 0.0001)
      
      
      
           
      
      
      
      
       
       
       
           ratings.unpersist()
      
      
      
           
      
      
      
      
       
       
       
           //model.save(sc, base+"model")
      
      
      
           
      
      
      
      
       
       
       
           //val sameModel = MatrixFactorizationModel.load(sc, base + "model")
      
      
      
           
      
      
      
      
       
       
       
           val allRecommendations = model.recommendProductsForUsers(5) map {
      
      
      
           
      
      
      
      
       
       
       
             case (userID, recommendations) => {
      
      
      
           
      
      
      
      
       
       
       
               var recommendationStr = ""
      
      
      
           
      
      
      
      
       
       
       
               for (r <- recommendations) {
      
      
      
           
      
      
      
      
       
       
       
                 recommendationStr += r.product + ":" + bMoviesAndName.value.getOrElse(r.product, "") + ","
      
      
      
           
      
      
      
      
       
       
       
               }
      
      
      
           
      
      
      
      
       
       
       
               if (recommendationStr.endsWith(","))
      
      
      
           
      
      
      
      
       
       
       
                 recommendationStr = recommendationStr.substring(0,recommendationStr.length-1)
      
      
      
           
      
      
      
           
      
      
      
      
       
       
       
               (bReverseUserIDMap.value.get(userID).get,recommendationStr)
      
      
      
           
      
      
      
      
       
       
       
             }
      
      
      
           
      
      
      
      
       
       
       
           }
      
      
      
           
      
      
      
      
       
       
       
           allRecommendations.saveAsTextFile(base + "result.csv")
      
      
      
           
      
      
      
      
       
       
       
           unpersist(model)
      
      
      
           
      
      
      
      
       
       
       
         }

这里将推荐结果写入到文件中，更实际的情况是把它写入到HDFS中，或者将这个RDD写入到关系型数据库中如Mysql, Postgresql,或者NoSQL数据库中，如MongoDB, cassandra等。这样我们就可以提供接口为指定的用户提供推荐的电影。

查看本例生成的推荐结果，下面是其中的一个片段，第一个字段是用户名，后面是五个推荐的电影(电影ID:电影名字)

     
      
      
      
      
       
       
       
       (god8knows,25986688:流浪者年代记,26582787:斗地主,24405378:王牌特工：特工学院,22556810:猛龙特囧,25868191:极道大战争)
      
      
      
           
      
      
      
      
       
       
       
       (60648596,25853129:瑞奇和闪电,26582787:斗地主,3445457:无境之兽,3608742:冲出康普顿,26297388:这时对那时错)
      
      
      
           
      
      
      
      
       
       
       
       (120501579,25856265:烈日迷踪,3608742:冲出康普顿,26275494:橘色,26297388:这时对那时错,25868191:极道大战争)
      
      
      
           
      
      
      
      
       
       
       
       (xrzsdan,24405378:王牌特工：特工学院,26599083:妈妈的朋友,10440076:最后的女巫猎人,25868191:极道大战争,25986688:流浪者年代记)
      
      
      
           
      
      
      
      
       
       
       
       (HoldonBoxer,10604554:躲藏,26297388:这时对那时错,26265099:白河夜船,26275494:橘色,3608742:冲出康普顿)
      
      
      
           
      
      
      
      
       
       
       
       (46896492,1972724:斯坦福监狱实验,26356488:1944,25717176:新宿天鹅,26582787:斗地主,25919385:长寿商会)
      
      
      
           
      
      
      
      
       
       
       
       (blankscreen,24405378:王牌特工：特工学院,26599083:妈妈的朋友,25955372:1980年代的爱情,25853129:瑞奇和闪电,25856265:烈日迷踪)
      
      
      
           
      
      
      
      
       
       
       
       (linyiqing,3608742:冲出康普顿,25868191:极道大战争,26275494:橘色,25955372:1980年代的爱情,26582787:斗地主)
      
      
      
           
      
      
      
      
       
       
       
       (1477412,25889465:抢劫,25727048:福尔摩斯先生,26252196:卫生间的圣母像,26303865:维多利亚,26276359:酷毙了)
      
      
      
           
      
      
      
      
       
       
       
       (130875640,24405378:王牌特工：特工学院,25856265:烈日迷踪,25986688:流浪者年代记,25868191:极道大战争,25898213:军犬麦克斯)
      
      
      
           
      
      
      
      
       
       
       
       (49996306,25919385:长寿商会,26582787:斗地主,26285777:有客到,25830802:对风说爱你,25821461:旅程终点)
      
      
      
           
      
      
      
      
       
       
       
       (fanshuren,10604554:躲藏,26582787:斗地主,25856265:烈日迷踪,25843352:如此美好,26275494:橘色)
      
      
      
           
      
      
      
      
       
       
       
       (sweetxyy,26582787:斗地主,25868191:极道大战争,3608742:冲出康普顿,25859495:思悼,22556810:猛龙特囧)

综述

通过前面的介绍，我们可以了解如何使用Spark MLlib的ALS算法为22万豆瓣用户实现一个可用的推荐系统，如何加载数据集和输出数据结果，以及如何对模型进行有效的评估。
你可以使用本文的算法实现其它的推荐系统，如图书，文章，商品等。

参考文档

Advanced Analytics with Spark
http://yongfeng.me/attach/rs-survey-zhang.pdf
https://github.com/ceys/jdml/wiki/ALS
http://spark.apache.org/docs/latest/mllib-collaborative-filtering.html
https://www.codementor.io/spark/tutorial/building-a-recommender-with-apache-spark-python-example-app-part1
http://blog.javachen.com/2015/04/17/spark-mllib-collaborative-filtering.html
http://www.zhihu.com/question/31509438

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
免费的GPT可在线直接使用（一键收藏） kkai人工智能 gpt
1、LuminAI（https://kk.zlrxjh.top）LuminAI标志着一款融合了星辰大数据模型与文脉深度模型的先进知识增强型语言处理系统，旨在自然语言处理（NLP）的技术开发领域发光发热。此系统展现了卓越的语义把握与内容生成能力，轻松驾驭多样化的自然语言处理任务。VisionAI在NLP界的应用领域广泛，能够胜任从机器翻译、文本概要撰写、情绪分析到问答等众多任务。通过对大量文本数据的
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
[转载] NoSQL简介 weixin_30325793 大数据数据库运维
摘自“百度百科”。NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。虽然NoSQL流行语
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
疫情，疫情东山草
2020年，疫情爆发，至今已近三年，反反复复，此起彼伏。不但没被消灭，还自我发展，从德尔塔到奥密克戎，与时俱进的变异着。去年11月，疫情之下，大数据800米范围内，都成为时空伴随者。“你的码儿有没有变颜色”“你绿码还是黄码”成为那段时间的流行语，当然少不了的还有全员核酸。段子手整出来一首歌：我走过你走过的路,这算不算相逢？我吹过你吹过的风，这算不算相拥？800米内我们不曾擦肩而过，你却要我14天相
在服务器计算节点中使用 jupyter Lab ranshan567 程序人生
JupyterLab是一个基于网页的交互式开发环境,用于科学计算、数据分析和机器学.jupyterlab是jupyternotebook的下一代产品,集成了更多功能,使用起来更方便.在进行数据分析及可视化时，个人电脑不能满足大数据的分析需求，就需要用到高性能计算机集群资源，然而计算机集群的计算节点往往没有联网功能，所以在计算机集群中使用jupyterLab需要进行一些配置。具体的步骤如下：
大数据真实面试题---SQL The博宇大数据面试题——SQL 大数据 mysql sql 数据库 big data
视频号数据分析组外包招聘笔试题时间限时45分钟完成。题目根据3张表表结构，写出具体求解的SQL代码（搞笑品类定义：视频分类或者视频创建者分类为“搞笑”）1、表创建语句：createtablet_user_video_action_d(dsint,user_idstring,video_idstring,action_typeint,`timestamp`bigint)rowformatdelimi
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
架构评审的自动化与人工智能: 如何提高效率光剑书架上的书架构自动化人工智能运维
1.背景介绍架构评审是软件开发过程中的一个关键环节，它旨在确保软件架构的质量、可维护性和可扩展性。传统的架构评审通常是由人工进行，需要大量的时间和精力。随着大数据技术和人工智能的发展，自动化和人工智能技术已经开始应用于架构评审，从而提高评审的效率和准确性。在本文中，我们将讨论如何通过自动化和人工智能技术来提高架构评审的效率。我们将从以下几个方面进行讨论：背景介绍核心概念与联系核心算法原理和具体操作
【数字化供应链】数字化供应链架构、全景管理、全流程贯通方案数字化建设方案数字化转型数据治理主数据数据仓库供应链数字仓储智慧物流智慧仓储物流园区架构微服务数据挖掘大数据人工智能
原文《数字化供应链架构、全景管理、全流程贯通方案》PPT格式。主要从供应链管理全景、智慧供应链建设总体目标、供应链总体业务流程、供应链总体功能架构、供应链总体技术架构、供应链全流程贯通、供应链全领域管理、供应链数据数据分析、供应链决策中台等进行建设。本文仅对主要内容进行介绍。来源网络公开渠道，旨在交流学习，如有侵权联系速删，更多参考公众号：优享智库基于先进IT技术、大数据能力、物联网应用、区块链平
80 鑫_259b
科普一个谈恋爱的方法。在以前，谈恋爱千难万难，就难在对对方不知底细，不知道对方希望自己是一个怎样的人，要耗费大量的时间去试探、再磨合，往往会因为一些小事一些细节，满盘皆输。在一个信息化的时代，在一个大数据近乎变成了流行语的时代，我们要跟上时代的步伐，通过大数据，去寻找异性最希望自己展现出来的形象是什么，才可以在爱情的道路上少走弯路。那这个大数据怎么操作呢？上街发问卷？问别人的择偶标准？一来会被打死
解锁企业潜能，Vatee万腾平台引领智能新纪元自媒体经济说其他
在数字化转型的浪潮中，企业正站在一个前所未有的十字路口，面对着前所未有的机遇与挑战。解锁企业内在潜能，实现跨越式发展，已成为众多企业的共同追求。而Vatee万腾平台，作为智能科技的先锋，正以其强大的智能赋能能力，引领企业步入一个全新的智能纪元。Vatee万腾平台，是一个集成了人工智能、大数据、云计算等前沿技术的综合性智能服务平台。它不仅仅是一个技术工具，更是企业转型升级的加速器，能够深入企业运营的
释放“AI+”新质生产力，深算院如何“把大数据变小”？ YashanDB YashanDB 国产数据库数据库数据库大数据
近期，南都·湾财社推出《新质·中国造》栏目，深入千行百业，遍访湾区企业，解锁湾区新质生产力，共探高质量发展之道。本期对话深圳计算科学研究院YashanDB首席技术官陈志标，探讨国产数据库如何实现创新突围，抢抓数字经济时代的新机遇。以下是专访内容：如何应对AI时代所面临的算力挑战？南都·湾财社：数据、算力和算法是发展人工智能的三要素，深算院做了怎样的前瞻性布局？陈志标：今年，政府工作报告中首次提及开
数字化智能工厂数字化供应链架构、全景管理、全流程贯通方案数字化建设方案智能制造数字工厂制造业数字化转型工业互联网架构
随着信息技术的飞速发展，数字化转型已成为制造企业提升竞争力的关键途径。数字化智能工厂通过集成先进的物联网(IoT)、大数据、云计算、人工智能(AI)等技术，实现了生产过程的智能化、供应链管理的精准化及决策的科学化。本方案旨在构建一套完善的数字化供应链架构，实现全景管理、全流程贯通、智慧化升级，以数据为驱动，强化技术支撑与安全管理体系，推动企业向智能制造迈进。一、数字化供应链架构1.**集成化平台构
日记——我的歌单静若小猴
又到一年一度大数据汇总的时候了，听歌已经成为很多人生活里的一种乐趣。春夏秋冬，我们都有自己喜欢的歌，歌词歌曲唱出沃尔玛你的心声。还记得大学时候最喜欢听的《春天里》，我有一天单曲回放了30遍，总觉得听着仿佛看到自己声音。还有的歌，初听不知曲中意，再听已经是曲终人，听着歌流泪，听着歌入睡……还记得那些年少的故事吗，总觉得自己才是故事外的人，却不是自己已经入歌。一段时间会喜欢一个人的音乐，一段时间会沉静
Linux dmesg命令：显示开机信息 fafadsj666 linux 数据库数据挖掘机器学习大数据
通过学习《Linux启动管理》一章可以知道，在系统启动过程中，内核还会进行一次系统检测（第一次是BIOS进行加测），但是检测的过程不是没有显示在屏幕上，就是会快速的在屏幕上一闪而过那么，如果开机时来不及查看相关信息，我们是否可以在开机后查看呢？答案是肯定的，使用dmesg命令就可以。无论是系统启动过程中，还是系统运行过程中，只要是内核产生的信息，都会被存储在系统缓冲区中，已经为大家精心准备了大数据
大数据新视界 --大数据大厂之揭秘大数据时代 Excel 魔法：大厂数据分析师进阶秘籍青云交大数据新视界 Excel 数据分析函数公式数据透视表图表功能规划求解数据分析工具库大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
大数据新视界 --大数据大厂之数据挖掘入门：用 R 语言开启数据宝藏的探索之旅青云交大数据新视界数据库大数据数据挖掘 R 语言算法案例未来趋势应用场景学习建议大数据新视界
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
高职人工智能训练师边缘计算实训室解决方案武汉唯众智创人工智能训练师边缘计算实训室人工智能训练师实训室边缘计算实训室
一、引言随着物联网（IoT）、大数据、人工智能（AI）等技术的飞速发展，计算需求日益复杂和多样化。传统的云计算模式虽在一定程度上满足了这些需求，但在处理海量数据、保障实时性与安全性、提升计算效率等方面仍面临诸多挑战。在此背景下，边缘计算作为一种新兴的计算模式应运而生，通过将计算能力推向数据生成或用户所在的网络边缘，显著降低了数据传输的延迟，提升了处理效率，并增强了数据安全性。针对高等职业院校的人工
python基于django/flask的NBA球员大数据分析与可视化python+java+node.js QQ_511008285 python django flask java spring boot 数据分析
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以本文针对NBA球员的大数据进行
Java基于spring boot的国产电影数据分析与可视化python+java+node.js QQ_511008285 java spring boot 数据分析 python django vue.js flask
前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.Nodejs+Vue.js-vscode3.python(flask/django)--pycharm/vscode4.php(thinkphp/laravel)-hbuilderx数据库工具：Navicat/SQLyog等都可以该系统使用进行大数据处理和
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st