hellozhxy

基于Spark的Als算法+自迭代+Spark2.0新写法

主要介绍了一下几点：
1矩阵分解的几种算法
2spark使用矩阵分解的几种方式，1ml 包中使用，2mllib包中的使用，其实有不调用包自己写的案列（可以去看看哈，就在example目录）
3使用ALS做推荐的一个比较详细的流程：1自迭代确定比较优的参数是，2使用参数训练模型，3使用模型推荐topn的物品给用户
4讲了怎么自迭代ALS算法参数，感觉这个还重要点
5提交spark的报了一个错误，已经错误解决方式
6好多细节都没写，感觉要写的有好多，也不是很完善，时间不够，只是提供了核心代码和思路

一：Spark2.0新概率解释（仅限本文使用）

1 SparkSession

SparkSession是spark2.0的全新切入点，以前都是sparkcontext创建RDD的，StreamingContext，sqlContext，HiveContext。
DataDrame提供的API慢慢的成为新的标准API，我们需要1个新的切入点来构建他，这个就是SparkSession哈，以前我也没见过.官网API介绍

官网上说，这是用来构建Dataset和DataFrame的API的切入点。在环境中，SparkSession已经预先创建了，我们需要使用bulder方法得到已经存在在SparkSession。使用方法如下：

SparkSession.builder().getOrCreate()
SparkSession.builder()
  .master("local")
  .appName("Word Count")
  .config(key, value").
  .getOrCreate()

二：ALS算法

1含义

在现实中用户-物品-评分矩阵是及其大的，用户消费有限，对单个用户来说，消费的物品的非常有限的，产生的评分也是比较少的，这样就造成了用户-物品矩阵有大量的空值。
假定用户的兴趣只受少数因素的影响，所以用户-物品矩阵可以分解为用户的特征向量矩阵和物品的特征向量矩阵（降维了）。用户的特征向量距离表示用户的兴趣(U)，物品的特征向量矩阵代表用户的特点(V)，合起来（内积）表示用户对物品的特点的兴趣，也就是喜好程度。
M=U*V

2协同过滤矩阵分解算法

2.1奇异值分解（SVD）

矩阵的奇异值分解是最简单的一种矩阵分解算法，主要是在U*V中间加了个一个奇异值矩阵，公式如下：
M=U*(奇异值矩阵)*(V的共轭)
奇异值矩阵是对角矩阵，奇异值分解的缺点（没试过不知道，书上说的），1不允许分解矩阵有null值，需要进行填分，2如果填分，又有两个问题：1增加数据量，增加算法复杂度，2简单粗暴的填分方式会导致数据失真，如果将null值设置为0，那么会导致过度学习问题。
奇异值分解方式，感觉用的不多，我自己接触的话。

2.2正则化矩阵分解

加入正则化是为了解决稀疏矩阵可能过学习问题，评价矩阵分解是RMSE，通过最小化RMSE来学习用户特征矩阵U和物品特征矩阵V，在RMSE函数中加入了正则化项减少过拟合，公式如下，公式都是书上写的哈，这里截图：

K表示评分记录（u用户对I物品的评分）,Ru,i表示用户u对物品i的真实评分，诶梦达表示正则化系数，诶梦达后面的表示防止过拟合的正则化项。
加入正则化的含义可以理解为，修改rmse，不要其太大或者太小。
假设用户特征矩阵为Umt，物品评分矩阵为Vtn，其中t特征<

2.3带偏置的矩阵分解（说的很有道理，但是比较难评估）

理论就不说了，举个例子，u1对v1的评分为4表示u1对v1这个物品非常喜欢，u2对v1的评分为4表示u1对v1一般喜欢，对用用户来说，即使他们对同一物品的评分相同，但是表示他们的喜好程度并不是一样的。同理对于物品来说也是一样。把这种独立于用户和独立于物品的影响因素成为偏置，偏置一共有3个部分组成。
1训练集中所有评分记录的全局平均，表示训练集中总体评分情况，一般是一个常数。
2用户偏置bu，独立于物品特征因素，表示用户特定的打分习惯。
3物品偏置bi，表示独立于用户特征因素，举个列子，好片子一般总体评分偏高，烂片一般评分偏低，偏置就是表示这种特征。
以上的所有偏置对用户对物品喜好无关，得到的预测评分公式如下：

按照这种思路，其实还要很多其他优化，比如加入时间因素，社会流行因素等。

Spark使用的是带正则化矩阵分解，优化函数的方式选用的是交叉最小二乘法ALS

三Spark代码

spark代码一半是官方列子修改过来的哈

1调用ml包

使用org.apache.spark.ml.recommendation.ALS来计算，并且使用了spark2.0的新特性SparkSession来实现推荐，具体代码与注释如下：

package org.wq.scala.ml 

import org.apache.spark.ml.evaluation.RegressionEvaluator
import org.apache.spark.ml.recommendation.ALS
import org.apache.spark.sql.SparkSession


/**
  * Created by Administrator on 2016/10/24.
  */
//这是spark新的Als算法的列子
object ALSRecommendNewTest {
  //定义个类，来保存一次评分哈
  case class Rating(userId: Int, movieId: Int, rating: Float, timestamp: Long)
  //把一行转换成一个评分类
  def parseRating(str: String): Rating = {
    val fields = str.split("::")
    assert(fields.size == 4)
    Rating(fields(0).toInt, fields(1).toInt, fields(2).toFloat, fields(3).toLong)
  }
  def main(args:Array[String])={
    //SparkSession是spark2.0的全新切入点，以前都是sparkcontext创建RDD的，StreamingContext，sqlContext，HiveContext。
    //DataDrame提供的API慢慢的成为新的标准API，我们需要1个新的切入点来构建他，这个就是SparkSession哈
    //以前我也没见过
    val spark = SparkSession.builder().config("spark.sql.warehouse.dir","E:/ideaWorkspace/ScalaSparkMl/spark-warehouse").master("local").appName("ALSExample").getOrCreate()
    import spark.implicits._

    //read方法返回的是一个DataFrameReader类，可以转换为DataFrame
    //DataFrameReader类的textFile方法：加载文本数据，返回为Dataset
    //使用一个函数parseRating处理一行数据
    val ratings = spark.read.textFile("data/mllib/sample_movielens_ratings.txt").map(parseRating).toDF()

    val Array(training,test)=ratings.randomSplit(Array(0.8, 0.2))

    // Build the recommendation model using ALS on the training data
    //使用训练数据训练模型
    //这里的ALS是import org.apache.spark.ml.recommendation.ALS，不是mllib中的哈
    //setMaxiter设置最大迭代次数
    //setRegParam设置正则化参数，日lambda这个不是更明显么
    //setUserCol设置用户id列名
    //setItemCol设置物品列名
    //setRatingCol设置打分列名
    val als = new ALS()

      als.setRank(10)
      .setMaxIter(5)
      .setRegParam(0.01)
      .setUserCol("userId")
      .setItemCol("movieId")
      .setRatingCol("rating")

    //fit给输出的数据，训练模型，fit返回的是ALSModel类
    val model = als.fit(training)

    //使用测试数据计算模型的误差平方和
    //transform方法把数据dataset换成dataframe类型，预测数据
    val predictions = model.transform(test)

    //RegressionEvaluator这个类是用户评估预测效果的，预测值与原始值
    //这个setLabelCol要和als设置的setRatingCol一致，不然会报错哈
    //RegressionEvaluator的setPredictionCol必须是prediction因为，ALSModel的默认predictionCol也是prediction
    //如果要修改的话必须把ALSModel和RegressionEvaluator一起修改
    //model.setPredictionCol("prediction")和evaluator.setPredictionCol("prediction")
    //setMetricName这个方法，评估方法的名字，一共有哪些呢？
    //rmse-平均误差平方和开根号
    //mse-平均误差平方和
    //mae-平均距离（绝对）
    //r2-没用过不知道
    //这里建议就是用rmse就好了，其他的基本都没用，当然还是要看应用场景，这里是预测分值就是用rmse。如果是预测距离什么的mae就不从，看场景哈
    val evaluator = new RegressionEvaluator()
      .setMetricName("rmse")
      .setLabelCol("rating")
      .setPredictionCol("prediction")

    val rmse = evaluator.evaluate(predictions)
    println("Root-mean-square error = "+rmse)

    //stop是停止底层的SparkContext
    spark.stop()
  }
}

2调用mllib，实现

使用mllib中的ALS算法如下，如果是生产，建议使用mllib中的

package org.wq.scala.ml

import org.apache.log4j.{Level, Logger}
import org.apache.spark.examples.mllib.AbstractParams

import scala.collection.mutable
//处理输入参数的库
import org.apache.spark.mllib.recommendation.{ALS, MatrixFactorizationModel, Rating}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import scopt.OptionParser

/**
  * Created by Administrator on 2016/10/24.
  */
object ALSRecommendMllibTest {

  //参数含义
  //input表示数据路径
  //kryo表示是否使用kryo序列化
  //numIterations迭代次数
  //lambda正则化参数
  //numUserBlocks用户的分块数
  //numProductBlocks物品的分块数
  //implicitPrefs这个参数没用过，但是通过后面的可以推断出来了，是否开启隐藏的分值参数阈值，预测在那个级别才建议推荐，这里是5分制度的，详细看后面代码
  case class Params(
                     input: String = null,
                     output:String=null,
                     kryo: Boolean = false,
                     numIterations: Int = 20,
                     lambda: Double = 1.0,
                     rank: Int = 10,
                     numUserBlocks: Int = -1,
                     numProductBlocks: Int = -1,
                     implicitPrefs: Boolean = false) extends AbstractParams[Params]

  def main(args: Array[String]) {
    val defaultParams = Params()

    //规定参数的输入方式 --rank 10 这种
    //我个人习惯为直接用空格分割（如果参数不对，给予提示），当然下面这种更规范化和人性化，还有默认参数的
    //以后再研究OptionParser用法，不过他这种参数用法挺好用的哈
    val parser = new OptionParser[Params]("Mllib 的ALS") {
      head("MovieLensALS: an example app for ALS on MovieLens data.")
      opt[Int]("rank")
        .text(s"rank, default: ${defaultParams.rank}")
        .action((x, c) => c.copy(rank = x))
      opt[Int]("numIterations")
        .text(s"number of iterations, default: ${defaultParams.numIterations}")
        .action((x, c) => c.copy(numIterations = x))
      opt[Double]("lambda")
        .text(s"lambda (smoothing constant), default: ${defaultParams.lambda}")
        .action((x, c) => c.copy(lambda = x))
      opt[Unit]("kryo")
        .text("use Kryo serialization")
        .action((_, c) => c.copy(kryo = true))
      opt[Int]("numUserBlocks")
        .text(s"number of user blocks, default: ${defaultParams.numUserBlocks} (auto)")
        .action((x, c) => c.copy(numUserBlocks = x))
      opt[Int]("numProductBlocks")
        .text(s"number of product blocks, default: ${defaultParams.numProductBlocks} (auto)")
        .action((x, c) => c.copy(numProductBlocks = x))
      opt[Unit]("implicitPrefs")
        .text("use implicit preference")
        .action((_, c) => c.copy(implicitPrefs = true))
      arg[String]("")
        .required()
        .text("input paths to a MovieLens dataset of ratings")
        .action((x, c) => c.copy(input = x))

      arg[String]("")
        .required()
        .text("output Model Path")
        .action((x, c) => c.copy(output = x))
      note(
        """
          |For example, the following command runs this app on a synthetic dataset:
          |
          | bin/spark-submit --class org.apache.spark.examples.mllib.MovieLensALS \
          |  examples/target/scala-*/spark-examples-*.jar \
          |  --rank 5 --numIterations 20 --lambda 1.0 --kryo \
          |  data/mllib/sample_movielens_data.txt
        """.stripMargin)
    }

    //虽然是map但是只运行1次哈，主要看run方法做了什么
    parser.parse(args, defaultParams).map { params =>
      run(params)
    } getOrElse {
      System.exit(1)
    }
  }

  def run(params: Params) {
    val conf = new SparkConf().setAppName(s"MovieLensALS with $params").setMaster("local").set("spark.sql.warehouse.dir","E:/ideaWorkspace/ScalaSparkMl/spark-warehouse")
    //如果参数设置了kryo序列化没那么需要注册序列化的类和配置序列化的缓存，模板照着写就是了
    //使用序列化是为传输的时候速度更快，我没有使用这个，因为反序列话也需要一定的时间，我是局域网搭建spark集群的（机子之间很快）。
    // 如果是在云搭建集群可以考虑使用
    if (params.kryo) {
      conf.registerKryoClasses(Array(classOf[mutable.BitSet], classOf[Rating]))
        .set("spark.kryoserializer.buffer", "8m")
    }
    val sc = new SparkContext(conf)

    //设置log基本，生产也建议使用WARN
    Logger.getRootLogger.setLevel(Level.WARN)

    //得到因此的级别
    val implicitPrefs = params.implicitPrefs

    //读取数据，并通过是否设置了分值阈值来修正评分
    //官方推荐是，只有哦大于3级别的时候才值得推荐
    //且下面的代码，implicitPrefs，直接就是默认5 Must see，按道理会根据自己对分数阈值的预估，rating减去相应的值，比如fields(2).toDouble - 2.5
    //5 -> 2.5, 4 -> 1.5, 3 -> 0.5, 2 -> -0.5, 1 -> -1.5
    //现在是5分值的映射关系，如果是其他分值的映射关系有该怎么做？还不确定，个人建议别使用这个了。
    //经过下面代码推断出，如果implicitPrefs=true或者flase，true的意思是，预测的分数要大于2.5（自己设置），才能推荐给用户，小了，没有意义
    //它引入implicitPrefs的整体含义为，只有用户对物品的满意达到一定的值，才推荐，不然推荐不喜欢的没有意思，所以在构建样本的时候，会减去相应的值fields(2).toDouble - 2.5（自己设置）
    //这种理论是可以的，但是还有一个理论，不给用户推荐比给用户推荐错了还要严重（有人提出过），不推荐产生的效果还要严重，还有反向推荐，
    //我把implicitPrefs叫做分值阈值
    val ratings = sc.textFile(params.input).map { line =>
      val fields = line.split("::")
      if (implicitPrefs) {
        /*
         * MovieLens ratings are on a scale of 1-5:
         * 5: Must see
         * 4: Will enjoy
         * 3: It's okay
         * 2: Fairly bad
         * 1: Awful
         * So we should not recommend a movie if the predicted rating is less than 3.
         * To map ratings to confidence scores, we use
         * 5 -> 2.5, 4 -> 1.5, 3 -> 0.5, 2 -> -0.5, 1 -> -1.5. This mappings means unobserved
         * entries are generally between It's okay and Fairly bad.
         * The semantics of 0 in this expanded world of non-positive weights
         * are "the same as never having interacted at all".
         */
        Rating(fields(0).toInt, fields(1).toInt, fields(2).toDouble - 2.5)
      } else {
        Rating(fields(0).toInt, fields(1).toInt, fields(2).toDouble)
      }
    }.cache()

    //计算一共有多少样本数
    val numRatings = ratings.count()
    //计算一共有多少用户
    val numUsers = ratings.map(_.user).distinct().count()
    //计算应该有多少物品
    val numMovies = ratings.map(_.product).distinct().count()

    println(s"Got $numRatings ratings from $numUsers users on $numMovies movies.")

    //按80%训练，20%验证分割样本
    val splits = ratings.randomSplit(Array(0.8, 0.2))

    //把训练样本缓存起来，加快运算速度
    val training = splits(0).cache()

    //构建测试样，我先翻译下他说的英文哈。
    //分值为0表示，我对物品的评分不知道，一个积极有意义的评分表示：有信心预测值为1
    //一个消极的评分表示：有信心预测值为0
    //在这个案列中，我们使用的加权的RMSE，这个权重为自信的绝对值（命中就为1，否则为0）
    //关于误差，在预测和1,0之间是不一样的，取决于r 是正，还是负
    //这里splits已经减了分值阈值了，所以>0 =1 else 0的含义是，1表示分值是大于分值阈值的，这里是大于2.5,0表示小于2.5
    val test = if (params.implicitPrefs) {
      /*
       * 0 means "don't know" and positive values mean "confident that the prediction should be 1".
       * Negative values means "confident that the prediction should be 0".
       * We have in this case used some kind of weighted RMSE. The weight is the absolute value of
       * the confidence. The error is the difference between prediction and either 1 or 0,
       * depending on whether r is positive or negative.
       */
      splits(1).map(x => Rating(x.user, x.product, if (x.rating > 0) 1.0 else 0.0))
    } else {
      splits(1)
    }.cache()

    //训练样本量和测试样本量
    val numTraining = training.count()
    val numTest = test.count()
    println(s"Training: $numTraining, test: $numTest.")

    //这里应为不适用ratings了，释放掉它占的内存
    ratings.unpersist(blocking = false)

    //setRank设置随机因子，就是隐藏的属性
    //setIterations设置最大迭代次数
    //setLambda设置正则化参数
    //setImplicitPrefs 是否开启分值阈值
    //setUserBlocks设置用户的块数量，并行化计算,当特别大的时候需要设置
    //setProductBlocks设置物品的块数量
    val model = new ALS()
      .setRank(params.rank)
      .setIterations(params.numIterations)
      .setLambda(params.lambda)
      .setImplicitPrefs(params.implicitPrefs)
      .setUserBlocks(params.numUserBlocks)
      .setProductBlocks(params.numProductBlocks)
      .run(training)

    //训练的样本和测试的样本的分值全部是减了2.5分的
    //测试样本的分值如果大于0为1，else 0，表示分值大于2.5才预测为Ok

    //计算rmse
    val rmse = computeRmse(model, test, params.implicitPrefs)

    println(s"Test RMSE = $rmse.")

    //保存模型，模型保存路劲为
    model.save(sc,params.output)
    println("模型保存成功，保存路劲为："+params.output)

    sc.stop()
  }

  /** Compute RMSE (Root Mean Squared Error). */
  def computeRmse(model: MatrixFactorizationModel, data: RDD[Rating], implicitPrefs: Boolean)
  : Double = {

    //内部方法含义如下
    // 如果已经开启了implicitPref那么，预测的分值大于0的为1，小于0的为0，没有开启的话，就是用原始分值
    //min(r,1.0)求预测分值和1.0那个小，求小值，然后max(x,0.0)求大值， 意思就是把预测分值大于0的为1，小于0 的为0
    //这样构建之后预测的预测值和测试样本的样本分值才一直，才能进行加权rmse计算
    def mapPredictedRating(r: Double): Double = {
      if (implicitPrefs) math.max(math.min(r, 1.0), 0.0) else r
    }

    //根据模型预测，用户对物品的分值，predict的参数为RDD[(Int, Int)]
    val predictions: RDD[Rating] = model.predict(data.map(x => (x.user, x.product)))

    //mapPredictedRating把预测的分值映射为1或者0
    //join连接原始的分数,连接的key为x.user, x.product
    //values方法表示只保留预测值，真实值
    val predictionsAndRatings = predictions.map{ x =>
      ((x.user, x.product), mapPredictedRating(x.rating))
    }.join(data.map(x => ((x.user, x.product), x.rating))).values

    //最后计算预测与真实值的平均误差平方和
    //这是先每个的平方求出来，然后再求平均值，最后开方
    math.sqrt(predictionsAndRatings.map(x => (x._1 - x._2) * (x._1 - x._2)).mean())
  }
}

3找到最优（可能最优哈）参数

package org.wq.scala.ml

import org.apache.log4j.{Level, Logger}
import org.apache.spark.mllib.recommendation.{ALS, MatrixFactorizationModel, Rating}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by Administrator on 2016/10/24.
  */
object ALSRecommendMllibBestParamTest {


  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("ALS_mllib_best_param").setMaster("local").set("spark.sql.warehouse.dir","E:/ideaWorkspace/ScalaSparkMl/spark-warehouse")
    val sc = new SparkContext(conf)
    //设置log基本，生产也建议使用WARN
    Logger.getRootLogger.setLevel(Level.WARN)

    //第一步构建time,Rating
    val movie = sc.textFile("data/mllib/sample_movielens_ratings.txt")
    val ratings = movie.map(line=>{
      val fields = line.split("::")
      val rating  = Rating(fields(0).toInt,fields(1).toInt,fields(2).toDouble)
      val timestamp =fields(3).toLong%5
      (timestamp,rating)

    })

    //输出数据的基本信息
    val numRatings  = ratings.count()
    val numUser  = ratings.map(_._2.user).distinct().count()
    val numItems = ratings.map(_._2.product).distinct().count()
    println("样本基本信息为：")
    println("样本数："+numRatings)
    println("用户数："+numUser)
    println("物品数："+numItems)


    val sp = ratings.randomSplit(Array(0.6,0.2,0.2))
    //第二步骤
    //使用日期把数据分为训练集(timestamp<6),验证集(68）
   /* val training = ratings.filter(x=>x._1<6).values.repartition(2).cache()
    val validation = ratings.filter(x=>x._1>6 && x._1<8).values.repartition(2).cache()
    val test=ratings.filter(x=>x._1>=8).values.cache()*/
    //样本时间参数都一样，测试就使用随机算了
    val training=sp(0).map(x=>Rating(x._2.user,x._2.product,x._2.rating)).repartition(2).cache()
    val validation=sp(1).map(x=>Rating(x._2.user,x._2.product,x._2.rating)).repartition(2).cache()
    val test=sp(1).map(x=>Rating(x._2.user,x._2.product,x._2.rating))

    val numTraining = training.count()
    val numValidation=validation.count()
    val numTest=test.count()

    println("验证样本基本信息为：")
    println("训练样本数："+numTraining)
    println("验证样本数："+numValidation)
    println("测试样本数："+numTest)


  //第三步
   //定义RMSE方法
    def computeRmse(model:MatrixFactorizationModel,data:RDD[Rating]):Double={
      val predictions:RDD[Rating]=model.predict(data.map(x=>(x.user,x.product)))
      val predictionAndRatings = predictions.map(x=>{((x.user,x.product),x.rating)}).join(data.map(x=>((x.user,x.product),x.rating))).values
      math.sqrt(predictionAndRatings.map(x=>(x._1-x._2)*(x._1-x._2)).mean())
    }

    //第四步骤，使用不同的参数训练模型，并且选择RMSE最小的模型，规定参数的范围
    //隐藏因子数：8或者12
    //正则化系数，0.01或者0.1选择，迭代次数为10或者20,训练8个模型
    val ranks = List(8,12)
    val lambdas = List(0.01,0.1)
    val numiters = List(10,20)
    var bestModel:Option[MatrixFactorizationModel]=None
    var bestValidationRmse=Double.MaxValue
    var bestRank=0
    var bestLamdba = -1.0
    var bestNumIter=1
    for(rank<-ranks;lambda<-lambdas;numiter<-numiters){
      println(rank+"-->"+lambda+"-->"+numiter)
      val model = ALS.train(training,rank,numiter,lambda)
      val valadationRmse=computeRmse(model,validation)
      if(valadationRmsex.rating).mean()

//这就是使用平均分做预测，test样本的rmse
val baseRmse=math.sqrt(test.map(x=>(meanR-x.rating)*(meanR-x.rating)).mean())

val improvement =(baseRmse-testRmse)/baseRmse*100

println("使用了ALS协同过滤算法比使用评价分作为预测的提升度为："+improvement)

  }
}

4使用ALS模型进行预测

package org.wq.scala.ml

import org.apache.log4j.{Level, Logger}
import org.apache.spark.mllib.recommendation.{MatrixFactorizationModel, Rating}
import org.apache.spark.{SparkConf, SparkContext}

/**
  * Created by Administrator on 2016/10/25.
  */
object ALSModelTopn {

  def main(args: Array[String]): Unit = {

    //给用户推荐
    val conf = new SparkConf().setAppName("ALS_mllib_best_param").setMaster("local").set("spark.sql.warehouse.dir","E:/ideaWorkspace/ScalaSparkMl/spark-warehouse")
    val sc = new SparkContext(conf)
    Logger.getRootLogger.setLevel(Level.WARN)
    val movie = sc.textFile("data/mllib/sample_movielens_ratings.txt")
    val ratings = movie.map(line=>{
      val fields = line.split("::")
      val rating  = Rating(fields(0).toInt,fields(1).toInt,fields(2).toDouble)
      val timestamp =fields(3).toLong%5
      (rating)

    })

   val model=  MatrixFactorizationModel.load(sc,"data/mllib/t")

    //选择一个用户
    val user=5
    val myRating = ratings.filter(x=>x.user==5)
    //该用户已经消费了的物品
    val myRateItem = myRating.map(x=>x.product).collect().toSet

    //给用户5推荐前评分前10的物品
    val recommendations = model.recommendProducts(user,10)
    recommendations.map(x=>{
      println(x.user+"-->"+x.product+"-->"+x.rating)
    })

  }
}

提交部署

1提交寻找最优参数的jar

提交部署求最优参数的那个jar,这就把最优参数简单的打印出来，如果要周期的自迭代更新参数的话，就写在数据库或者配置文件中，当训练的时候，就从数据库或者配置文件读。
首先需要把上面的第三个程序修改一下，修改如下，因为要提交给集群嘛，所以不能指定master为local了，参数从命令行传入。把jar上传到master节点的目录下，data需要上传到所有的slaves.
if(args.length!=1){
println(“请输入1个参数购物篮数据路径”)
System.exit(0)
}
val conf = new SparkConf().setAppName(“ALS_mllib_best_param”)
以后所有的提交都需要修改conf的，以后就不说了
jar与数据目录如下：

数据长下面这个样子,用户id，物品id，评分，时间戳，用户id和物品id必须是整型，如果你的不是，那么必须进行一次映射:

把数据传到slave节点
scp sample_movielens_ratings.txt spark@slave1:/home/jar/data/
scp sample_movielens_ratings.txt spark@slave2:/home/jar/data/

提交job
spark-submit –class org.wq.scala.ml.ALSRecommendMllibBestParam –master spark://master:7077 –executor-memory 700m –num-executors 1 /home/jar/ALSRecommendMllibBestParam.jar /home/jar/data/sample_movielens_ratings.txt
运行结果如下：

也给大家看下job运行的过程
http://192.168.247.132:4040/jobs/

2把求得的最好参数带入mllib写的算法中，训练形成模型

提交Job
spark-submit –class org.wq.scala.ml.ALSRecommendMllib –master spark://master:7077 –executor-memory 700m –num-executors 1 /home/jar/ALSRecommendMllib.jar –rank 8 –numIterations 10 –lambda 0.1 /home/jar/data/sample_movielens_ratings.txt /home/jar/model/AlsModel
悲剧的报错了

这个错误很明显是缺少包spark-examples_2.11-2.0.0.jar，这个包在example目录下的。
两个种解决方法：
1修改/etc/profile，把example/jars加入classpath.
2把jar复制到目录sparkhome/jars目录下，因为sparkhome/jars目录下，因为spark_home/jars这个目录在环境变量中，这里采用第二种.

修改之后的运行结果为：

3调用模型，得出推荐

到这里模型就训练好了，这个模型可以定时训练，crontab就可以实现，训练好的模型，使用用户数据预测分数。
就不提交到集群运行了，因为这是demo而已，真实应该为提供接口，别人来调用
总结：
1矩阵分解的几种算法
2spark使用矩阵分解的几种方式，1ml 包中使用，2mllib包中的使用，其实有不调用包自己写的案列（可以去看看哈，就在example目录）
3使用ALS做推荐的一个比较详细的流程：1自迭代确定比较优的参数是，2使用参数训练模型，3使用模型推荐topn的物品给用户
4讲了怎么自迭代ALS算法参数，感觉这个还重要点
5提交spark的报了一个错误，已经错误解决方式
6好多细节都没写，感觉要写的有好多，也不是很完善，时间不够，只是提供了核心代码和思路

疑问：在做的过程中，我发现spark的job查看，只有在job运行的时候才可以查看，其他时候不行
http://192.168.247.132:4040/jobs/
这个应该是可以随时查看的，应该是spark的日志和查看jobs的服务要一直开启才行，希望对spark集群熟悉的人求解，跪谢

你可能感兴趣的:(spark)

【SequoiaDB】4 巨杉数据库SequoiaDB整体架构 Alen_Liu_SZ 巨杉数据库 SequoiaDB架构编目节点协调节点数据节点巨杉数据库
1整体架构SequoiaDB巨杉数据库作为分布式数据库，由数据库存储引擎与数据库实例两大模块组成。其中，数据库存储引擎模块是数据存储的核心，负责提供整个数据库的读写服务、数据的高可用与容灾、ACID与发你不是事务等全部核心数据服务能力。数据库实例模块则作为协议与语法的适配层，用户可根据需要创建包括MySQL、PostgreSQL与SparkSQL在内的结构化数据实例；支持JSON语法的MongoD
App Store暗藏虚假抖音，内含间谍软件窃取照片和加密货币 FreeBuf- TikTok App Store iOS Android
卡巴斯基网络安全研究人员近日发现名为SparkKitty的新型间谍软件活动，该恶意程序已感染苹果AppStore和谷歌Play官方商店的多个应用。这款间谍软件旨在窃取用户移动设备中的所有图片，疑似专门搜寻加密货币相关信息。该攻击活动自2024年初开始活跃，主要针对东南亚和中国用户。伪装流行应用渗透设备SparkKitty间谍软件通过看似无害的应用程序渗透设备，通常伪装成TikTok等流行应用的修改
存得快查得准，但就是算不动？试试时序数据库 TDengine × Spark 的组合拳
每个工程师可能都遇到过类似场景：时序数据沉淀在数据库中，格式规范、查询快捷，但当任务升级——比如滑窗聚合、多源拼接、机器学习训练——一些业务可能就需要更强的计算能力和更灵活的分析工具。TDengine专注于高效存储与极速查询，而在数据“算力”层面，我们选择了更强的伙伴。现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析
Spark Streaming 与 Flink 实时数据处理方案对比与选型指南浅沫云归后端技术栈小结 spark-streaming flink real-time
SparkStreaming与Flink实时数据处理方案对比与选型指南实时数据处理在互联网、电商、物流、金融等领域均有大量应用，面对海量流式数据，SparkStreaming和Flink成为两大主流开源引擎。本文基于生产环境需求，从整体架构、编程模型、容错机制、性能表现、实践案例等维度进行深入对比，并给出选型建议。一、问题背景介绍业务场景日志实时统计与告警用户行为实时画像实时订单或交易监控流式ET
Spark教程3：SparkSQL最全介绍 Cachel wood 大数据开发 spark 大数据分布式计算机网络 AHP 需求分析
文章目录SparkSQL最全介绍一、SparkSQL概述二、SparkSession：入口点三、DataFrame基础操作四、SQL查询五、SparkSQL函数六、与Hive集成七、数据源操作八、DataFrame与RDD互转九、高级特性十、性能优化十一、Catalyst优化器十二、SparkSQL应用场景十三、常见问题与解决方法SparkSQL最全介绍一、SparkSQL概述SparkSQL是A
Spark教程1：Spark基础介绍 Cachel wood 大数据开发 spark 大数据分布式计算机网络数据库数据仓库
文章目录一、Spark是什么？二、Spark的核心优势三、Spark的核心概念四、Spark的主要组件五、Spark的部署模式六、Spark与Hadoop的关系七、Spark应用开发流程八、Spark的应用场景九、Spark版本更新与社区一、Spark是什么？ApacheSpark是一个开源的分布式大数据处理引擎，最初由加州大学伯克利分校AMPLab开发，2013年捐赠给Apache软件基金会，如
讯飞星火（iFlytek Spark）：科大讯飞打造的国产AI大模型平台明似水 AI 人工智能
1.产品概述讯飞星火（iFlytekSpark）是科大讯飞自主研发的认知大模型，定位于通用人工智能（AGI）平台，集成了文本生成、语言理解、知识问答、逻辑推理、数学计算、代码生成和多模态交互等核心能力。作为国内首批基于全国产算力平台训练的大模型，讯飞星火在中文理解、语音交互、数学推理等方面表现突出，并持续对标国际顶尖模型（如GPT-4、Gemini）。核心优势全国产化：基于华为昇腾AI芯片和“飞星
基于Hadoop大数据分析应用场景与实战跨过山河大海
一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分别为:Hadoop、Spark和Strom：Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复
深度剖析无感刷新Token：领码SPARK平台赋能微服务认证的智能实践领码科技低代码实战篇无感刷新Token 领码SPARK 微服务认证 AI安全双Token机制
摘要在现代微服务架构与数字化转型大潮中，用户身份认证的连续性与安全性尤为关键。无感刷新Token技术通过智能的双Token机制，确保用户访问凭证在不打扰用户的前提下自动续期，避免因Token过期导致的频繁登录中断。本文结合领码SPARK融合平台的iPaaS和aPaaS优势，深刻解析无感刷新Token的实现原理、典型场景、安全风险及AI赋能智能防护，系统阐述实现无感刷新Token的最佳实践。通过流程
Spark 之 UT zhixingheyi_tian spark spark 大数据分布式
AQEOFFpartitionpruninginbroadcasthashjoinswithaliases==OptimizedLogicalPlan==Project[date_id#5283,pid#5281,sid#5282]+-JoinInner,(si
Spark eventlog 、Event、SparkListener zhixingheyi_tian spark spark 大数据分布式
SparkListenerSQLExecutionStartcaseclassSparkListenerSQLExecutionStart(executionId:Long,//iftheexecutionisaroot,thenrootExecutionId==executionId//iftheeventisparsedfromtheeventlogthatgeneratedbySparkno
图书《数据资产管理核心技术与应用》核心章节节选-3.1.2. 从Spark 执行计划中获取数据血缘张永清-老清大数据 spark 大数据分布式
本文节选自清华大学出版社出版的图书《数据资产管理核心技术与应用》，作者为张永清等著。从Spark执行计划中获取数据血缘->关注清哥聊技术公众号，了解更多技术文章因为数据处理任务会涉及到数据的转换和处理，所以从数据任务中解析血缘也是获取数据血缘的渠道之一，Spark是大数据中数据处理最常用的一个技术组件，既可以做实时任务的处理，也可以做离线任务的处理。Spark在执行每一条SQL语句的时候，都会生成
Spark 之 QueryPlan zhixingheyi_tian spark spark 大数据分布式
sameResultsrc/main/scala/org/apache/spark/sql/catalyst/plans/QueryPlan.scala/***Returnstruewhenthegivenqueryplanwillreturnthesameresultsasthisqueryplan.**Sinceitslikelyundecidabletogenerallydeterminei
Python与大数据：Spark和PySpark实战教程天天进步2015 python 大数据 python spark
引言在大数据时代，数据处理和分析能力成为核心竞争力。ApacheSpark作为新一代大数据计算引擎，以其高性能、易用性和强大的生态系统，成为数据工程师和分析师的首选工具。而PySpark作为Spark的Python接口，让Python开发者能够轻松驾驭大规模数据处理。本教程将带你系统了解Spark与PySpark的核心原理、环境搭建、典型应用场景及实战案例，助你快速上手大数据分析。目录Spark简
现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态讲文明的喜羊羊拒绝pua 大数据架构数据湖 Spark Iceberg Amoro 对象存储
本文全面剖析现代数据湖架构的核心组件，深入探讨对象存储（OSS/S3）、表格式（Iceberg/Hudi/DeltaLake）、计算引擎（Spark/Flink/Presto）及元数据服务（HMS/Amoro）的协作关系，并提供企业级选型指南。一、数据湖架构演进与核心价值数据湖架构演进历程现代数据湖核心价值矩阵维度传统数仓现代数据湖存储成本高（专有硬件）低（对象存储）数据时效性小时/天级分钟/秒级
通过CDH安装Spark的详细指南暴躁哥大数据技术 spark 大数据分布式
通过CDH安装Spark的详细指南简介ClouderaDistributionofHadoop(CDH)是一个企业级的大数据平台，它集成了多个开源组件，包括Hadoop、Spark、Hive等。本文将详细介绍如何通过CDH安装和配置Spark。前提条件在开始安装之前，请确保满足以下条件：已安装CDH集群具有管理员权限所有节点之间网络互通系统时间同步足够的磁盘空间（建议至少预留20GB）安装步骤1.
order、sort、distribute和cluster by（Spark/Hive）有数的编程笔记 Spark/Hive spark hive 大数据
1.abstractORDERBY：完整查询结果的全局行排序。与SORTBY、CLUSTERBY、DISTRIBUTEBY互斥，不能同时使用。示例SELECT*FROMtable_nameORDERBYcolumn_name;SORTBY：只在每个分区内排序，局部排序结果不是全局有序。与ORDERBY、CLUSTERBY互斥，不能同时指定。示例SELECT*FROMtable_nameSORTBY
合并小文件汇总（Hive/Spark）有数的编程笔记 Spark/Hive hive spark hadoop
合并小文件的原因：过多的小文件会导致HDFS上元数据负载增加。并且小文件也会导致计算性能下降。1.使用hive时1.1.使用hive.merge参数，开启文件合并--控制在map阶段结束后合并输出的小文件，默认值为trueSEThive.merge.mapfiles=true;--控制在reduce阶段结束后合并输出小文件，默认值为falseSEThive.merge.mapredfiles=tr
基于pyspark的北京历史天气数据分析及可视化_离线大数据CLUB spark数据分析可视化数据分析数据挖掘 hadoop 大数据 spark
基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8开发语言python开发流程数据上传(hdfs)->数据分析(spark)->数据存储(mysql)->后端(flask)->前端(
Spark底层原理详细解析 JavaShark spark big data hadoop
Spark简介ApacheSpark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量硬件之上，形成集群。Spark源码从1.x的40w行发展到现在的超过100w行，有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执行原理。Spark运行流程具
Java EDW三剑客：如何让数据从“沼泽”变身“报告神器”？手把手教你玩转企业数据仓库！墨瑾轩 Java乐园 java 数据仓库开发语言
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣一、你的EDW在“数据沼泽”里？是时候请个“数据炼金术士”了！“数据散落在10个系统里，生成月报要熬3个通宵？”——别慌！今天我们就用JDBC+ApacheSpark+Thymeleaf三剑客，教你如何让Java在EDW中将“数据沼泽”炼成“报告神器”！从“数
基于pyspark的北京历史天气数据分析及可视化_实时大数据CLUB spark数据分析可视化数据分析数据挖掘 spark hadoop 大数据
基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2、mysql5.7.38、scala2.12.18、jdk8、kafka2.8.2开发语言python开发流程数据上传(hdfs)->数据分析(spark)->数据写kafka(python)
Pyspark中的int 闯闯桑 python spark pandas 大数据
在PySpark中，整数类型（int）与Python或Pandas中的int有所不同，因为它基于SparkSQL的数据类型系统。以下是PySpark中整数类型的详细说明：1.PySpark的整数类型PySpark主要使用IntegerType（32位）和LongType（64位）表示整数，对应SQL中的INT和BIGINT：PySpark类型SQL类型位数取值范围占用存储IntegerTypeIN
Python 工程师迈向大数据时代： Hadoop 与 Spark 框架深度解析与实战指南清水白石008 python Python题库大数据 python hadoop
Python工程师迈向大数据时代：Hadoop与Spark框架深度解析与实战指南引言亲爱的Python工程师们，欢迎来到大数据时代！在这个数据驱动的时代，海量数据如同奔腾不息的河流，蕴藏着前所未有的价值。然而，传统的数据处理工具在面对TB甚至PB级别的数据时，往往显得力不从心。如何高效地处理、分析和挖掘这些海量数据，成为了现代软件工程师，特别是Python工程师们必须掌握的关键技能。幸运的是，大数
实战Spark从入门到精通（五）：Spark开发实操，先搞定Spark集群规划！元飞聊技术实战Spark从入门到精通 spark 大数据分布式 linux centos
系列文章目录实战Spark从入门到精通（一）：一文带你全面了解Spark大数据处理框架实战Spark从入门到精通（二）：Spark急速上手，给小白的3分钟入门指南实战Spark从入门到精通（三）：深入理解SparkRDD，大数据处理的核心引擎实战Spark从入门到精通（四）：揭秘Spark架构，这才是Spark速度快的真正秘密！文章目录系列文章目录前言Spark集群规划，先搞定Spark基础运行环
【Spark征服之路-2.9-Spark-Core编程（五）】
RDD行动算子：行动算子就是会触发action的算子，触发action的含义就是真正的计算数据。1.reduce➢函数签名defreduce(f:(T,T)=>T):T➢函数说明聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据valrdd:RDD[Int]=sc.makeRDD(List(1,2,3,4))valreduceResult:Int=rdd.reduce(_+_)printl
Spark Streaming 原理与代码实例讲解 AI智能应用 AI大模型应用入门实战与进阶 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
SparkStreaming原理与代码实例讲解1.背景介绍1.1实时流数据处理的重要性在当今大数据时代,海量的数据正以前所未有的速度不断产生。传统的批处理模式已经无法满足实时性要求较高的应用场景,如实时推荐、实时欺诈检测等。因此,实时流数据处理技术应运而生,成为大数据领域的研究热点。1.2SparkStreaming的优势SparkStreaming是ApacheSpark生态系统中的一个重要组件
pyspark底层浅析 lo_single Spark spark python
pyspark底层浅析pyspark简介pyspark是Spark官方提供的API接口，同时pyspark也是Spark中的一个程序。在terminal中输入pyspark指令，可以打开python的shell，同时其中默认初始化了SparkConf和SparkContext在编写Spark应用的.py文件时，可以通过importpyspark引入该模块，并通过SparkConf对Spark的启动
方舟自建服务器物品叠加mod,10000倍物品叠加 -90%负重 V280 大奇鸭方舟自建服务器物品叠加mod
MOD描述---------------------------------------------堆叠MOD增加+10.000(Ammo和Kibble+500)和-90％重量减少当你销毁结构时，物品可以正确堆叠弹弓，钓鱼竿和Jerky工作得很好。香草Engrams适用于砂浆和杵。请阅读说明堆叠mod需要按照mod列表(GameUserSettings.ini)的顺序尽可能高。工艺资源(Spark
Python大数据处理中有哪些分布式计算框架？如何选择和使用？代码小狂热者 python 开发语言
一、引言随着大数据时代的来临，数据处理和分析已成为企业和个人不可或缺的一部分。Python，作为一种简洁、易读且功能强大的编程语言，在大数据处理领域具有广泛的应用。而在处理大数据时，分布式计算框架的选择和使用至关重要。本文将介绍Python大数据处理中常见的分布式计算框架，并探讨如何根据实际需求进行选择和使用。二、Python大数据处理中的分布式计算框架ApacheSparkApacheSpark
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D