Richard_More

Spark学习笔记－推荐系统（协同过滤算法为用户推荐播放歌手）

这是Spark高级数据分析的第二个项目，基于用户，歌手，播放次数的简单数据记录，来为用户推荐歌手。

（1）获取数据

miaofu@miaofu-Virtual-Machine:~/user_artist_data$ wget http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz
--2016-09-12 14:14:10--  http://www.iro.umontreal.ca/~lisa/datasets/profiledata_06-May-2005.tar.gz
正在解析主机 www.iro.umontreal.ca (www.iro.umontreal.ca)... 132.204.26.36
正在连接 www.iro.umontreal.ca (www.iro.umontreal.ca)|132.204.26.36|:80... 已连接。
已发出 HTTP 请求，正在等待回应... 200 OK
长度： 135880312 (130M) [application/x-gzip]
正在保存至: “profiledata_06-May-2005.tar.gz”

profiledata_06-May-2005.tar.gz                100%[================================================================================================>] 129.58M  1.40MB/s   用时 90s  

2016-09-12 14:15:44 (1.44 MB/s) - 已保存 “profiledata_06-May-2005.tar.gz” [135880312/135880312])

miaofu@miaofu-Virtual-Machine:~/user_artist_data$ ls
profiledata_06-May-2005.tar.gz
miaofu@miaofu-Virtual-Machine:~/user_artist_data$ tar -zxvf profiledata_06-May-2005.tar.gz 
profiledata_06-May-2005/
profiledata_06-May-2005/artist_data.txt
profiledata_06-May-2005/README.txt
profiledata_06-May-2005/user_artist_data.txt
profiledata_06-May-2005/artist_alias.txt
miaofu@miaofu-Virtual-Machine:~/user_artist_data$ ls
profiledata_06-May-2005  profiledata_06-May-2005.tar.gz
miaofu@miaofu-Virtual-Machine:~/user_artist_data$ cd profiledata_06-May-2005/
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ ls
artist_alias.txt  artist_data.txt  README.txt  user_artist_data.txt
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ ls -l -h
总用量 464M
-rw-r--r-- 1 miaofu miaofu 2.8M  5月  6  2005 artist_alias.txt
-rw-r--r-- 1 miaofu miaofu  54M  5月  6  2005 artist_data.txt
-rw-r--r-- 1 miaofu miaofu 1.3K  5月 11  2005 README.txt
-rw-r--r-- 1 miaofu miaofu 407M  5月  5  2005 user_artist_data.txt
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ vi user_artist_data.txt
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ vi artist_alias.txt 
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ vi artist_data.txt 
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ vi README.txt 
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ pwd
/home/miaofu/user_artist_data/profiledata_06-May-2005
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ hadoop fs -put /home/miaofu/user_artist_data/profiledata_06-May-2005/
artist_alias.txt      artist_data.txt       README.txt            user_artist_data.txt  
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ hadoop fs -put /home/miaofu/user_artist_data/profiledata_06-May-2005/
artist_alias.txt      artist_data.txt       README.txt            user_artist_data.txt  
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ hadoop fs -put /home/miaofu/user_artist_data/profiledata_06-May-2005/user_artist_data.txt 
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ hadoop fs ls /user/miaofu/
ls: Unknown command
Did you mean -ls?  This command begins with a dash.
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ hadoop fs -ls /user/miaofu/
Found 4 items
drwxr-xr-x   - miaofu supergroup          0 2016-07-25 21:03 /user/miaofu/follower
drwxr-xr-x   - miaofu supergroup          0 2016-07-25 20:14 /user/miaofu/grep-temp-31205318
drwxr-xr-x   - miaofu supergroup          0 2016-08-27 22:02 /user/miaofu/linkage
-rw-r--r--   2 miaofu supergroup  426761761 2016-09-12 14:22 /user/miaofu/user_artist_data.txt

再把其它的两个数据放入到hdfs中，

miaofu@miaofu-Virtual-Machine:~$ cd user_artist_data/profiledata_06-May-2005/
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ ls
artist_alias.txt  artist_data.txt  README.txt  user_artist_data.txt
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ pwd
/home/miaofu/user_artist_data/profiledata_06-May-2005
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ hadoop fs -put artist_alias.txt artist_data.txt 
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ hadoop fs -ls .
Found 5 items
-rw-r--r--   2 miaofu supergroup    2932731 2016-09-12 16:18 artist_data.txt
drwxr-xr-x   - miaofu supergroup          0 2016-07-25 21:03 follower
drwxr-xr-x   - miaofu supergroup          0 2016-07-25 20:14 grep-temp-31205318
drwxr-xr-x   - miaofu supergroup          0 2016-08-27 22:02 linkage
-rw-r--r--   2 miaofu supergroup  426761761 2016-09-12 14:22 user_artist_data.txt
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ hadoop fs -put artist_alias.txt 
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$ hadoop fs -ls .
Found 6 items
-rw-r--r--   2 miaofu supergroup    2932731 2016-09-12 16:19 artist_alias.txt
-rw-r--r--   2 miaofu supergroup    2932731 2016-09-12 16:18 artist_data.txt
drwxr-xr-x   - miaofu supergroup          0 2016-07-25 21:03 follower
drwxr-xr-x   - miaofu supergroup          0 2016-07-25 20:14 grep-temp-31205318
drwxr-xr-x   - miaofu supergroup          0 2016-08-27 22:02 linkage
-rw-r--r--   2 miaofu supergroup  426761761 2016-09-12 14:22 user_artist_data.txt
miaofu@miaofu-Virtual-Machine:~/user_artist_data/profiledata_06-May-2005$

（2）看一看代码纵览

Last login: Mon Sep 12 13:38:36 on ttys006
miaofudeMacBook-Pro:aas miaofu$ ls
LICENSE			ch03-recommender	ch06-lsa		ch09-risk		common
README.md		ch04-rdf		ch07-graph		ch10-genomics		pom.xml
ch02-intro		ch05-kmeans		ch08-geotime		ch11-neuro		simplesparkproject
miaofudeMacBook-Pro:aas miaofu$ 
miaofudeMacBook-Pro:aas miaofu$ vi ch03-recommender/src/main/scala/com/cloudera/datascience/recommender/RunRecommender.scala 
miaofudeMacBook-Pro:aas miaofu$ cat ch
ch02-intro/       ch03-recommender/ ch04-rdf/         ch05-kmeans/      ch06-lsa/         ch07-graph/       ch08-geotime/     ch09-risk/        ch10-genomics/    ch11-neuro/
miaofudeMacBook-Pro:aas miaofu$ cat ch03-recommender/src/main/scala/com/cloudera/datascience/recommender/RunRecommender.scala 
/*
 * Copyright 2015 and onwards Sanford Ryza, Juliet Hougland, Uri Laserson, Sean Owen and Joshua Wills
 *
 * See LICENSE file for further information.
 */

package com.cloudera.datascience.recommender

import scala.collection.Map
import scala.collection.mutable.ArrayBuffer
import scala.util.Random
import org.apache.spark.broadcast.Broadcast
import org.apache.spark.ml.recommendation.{ALS, ALSModel}
import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}
import org.apache.spark.sql.functions._

object RunRecommender {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().getOrCreate()

    val base = "hdfs:///user/ds/"
    val rawUserArtistData = spark.read.textFile(base + "user_artist_data.txt")
    val rawArtistData = spark.read.textFile(base + "artist_data.txt")
    val rawArtistAlias = spark.read.textFile(base + "artist_alias.txt")

    val runRecommender = new RunRecommender(spark)
    runRecommender.preparation(rawUserArtistData, rawArtistData, rawArtistAlias)
    runRecommender.model(rawUserArtistData, rawArtistData, rawArtistAlias)
    runRecommender.evaluate(rawUserArtistData, rawArtistAlias)
    runRecommender.recommend(rawUserArtistData, rawArtistData, rawArtistAlias)
  }

}

class RunRecommender(private val spark: SparkSession) {

  import spark.implicits._

  def preparation(
      rawUserArtistData: Dataset[String],
      rawArtistData: Dataset[String],
      rawArtistAlias: Dataset[String]): Unit = {

    val userArtistDF = rawUserArtistData.map { line =>
      val Array(user, artist, _*) = line.split(' ')
      (user.toInt, artist.toInt)
    }.toDF("user", "artist")

    userArtistDF.agg(min("user"), max("user"), min("artist"), max("artist")).show()

    val artistByID = buildArtistByID(rawArtistData)
    val artistAlias = buildArtistAlias(rawArtistAlias)

    val (badID, goodID) = artistAlias.head
    artistByID.filter($"id" isin (badID, goodID)).show()
  }

  def model(
      rawUserArtistData: Dataset[String],
      rawArtistData: Dataset[String],
      rawArtistAlias: Dataset[String]): Unit = {

    val bArtistAlias = spark.sparkContext.broadcast(buildArtistAlias(rawArtistAlias))

    val trainData = buildCounts(rawUserArtistData, bArtistAlias).cache()

    val model = new ALS().
      setImplicitPrefs(true).
      setRank(10).
      setRegParam(0.01).
      setAlpha(1.0).
      setMaxIter(5).
      setUserCol("user").
      setItemCol("artist").
      setRatingCol("count").
      setPredictionCol("prediction").
      fit(trainData)

    trainData.unpersist()

    model.userFactors.select("features").show(truncate = false)

    val userID = 2093760

    val existingArtistIDs = trainData.
      filter($"user" === userID).
      select("artist").as[Int].collect()

    val artistByID = buildArtistByID(rawArtistData)

    artistByID.filter($"id" isin (existingArtistIDs:_*)).show()

    val topRecommendations = makeRecommendations(model, userID, 5)
    topRecommendations.show()

    val recommendedArtistIDs = topRecommendations.select("artist").as[Int].collect()

    artistByID.filter($"id" isin (recommendedArtistIDs:_*)).show()

    model.userFactors.unpersist()
    model.itemFactors.unpersist()
  }

  def evaluate(
      rawUserArtistData: Dataset[String],
      rawArtistAlias: Dataset[String]): Unit = {

    val bArtistAlias = spark.sparkContext.broadcast(buildArtistAlias(rawArtistAlias))

    val allData = buildCounts(rawUserArtistData, bArtistAlias)
    val Array(trainData, cvData) = allData.randomSplit(Array(0.9, 0.1))
    trainData.cache()
    cvData.cache()

    val allArtistIDs = allData.select("artist").as[Int].distinct().collect()
    val bAllArtistIDs = spark.sparkContext.broadcast(allArtistIDs)

    val mostListenedAUC = areaUnderCurve(cvData, bAllArtistIDs, predictMostListened(trainData))
    println(mostListenedAUC)

    val evaluations =
      for (rank     <- Seq(5,  30);
           regParam <- Seq(1.0, 0.0001);
           alpha    <- Seq(1.0, 40.0))
      yield {
        val model = new ALS().
          setImplicitPrefs(true).
          setRank(rank).setRegParam(regParam).
          setAlpha(alpha).setMaxIter(20).
          setUserCol("user").setItemCol("artist").
          setRatingCol("count").setPredictionCol("prediction").
          fit(trainData)

        val auc = areaUnderCurve(cvData, bAllArtistIDs, model.transform)

        model.userFactors.unpersist()
        model.itemFactors.unpersist()

        (auc, (rank, regParam, alpha))
      }

    evaluations.sorted.reverse.foreach(println)

    trainData.unpersist()
    cvData.unpersist()
  }

  def recommend(
      rawUserArtistData: Dataset[String],
      rawArtistData: Dataset[String],
      rawArtistAlias: Dataset[String]): Unit = {

    val bArtistAlias = spark.sparkContext.broadcast(buildArtistAlias(rawArtistAlias))
    val allData = buildCounts(rawUserArtistData, bArtistAlias).cache()
    val model = new ALS().
      setImplicitPrefs(true).
      setRank(10).setRegParam(1.0).setAlpha(40.0).setMaxIter(20).
      setUserCol("user").setItemCol("artist").
      setRatingCol("count").setPredictionCol("prediction").
      fit(allData)
    allData.unpersist()

    val userID = 2093760
    val topRecommendations = makeRecommendations(model, userID, 5)

    val recommendedArtistIDs = topRecommendations.select("artist").as[Int].collect()
    val artistByID = buildArtistByID(rawArtistData)
    artistByID.join(spark.createDataset(recommendedArtistIDs).toDF("id"), "id").
      select("name").show()

    model.userFactors.unpersist()
    model.itemFactors.unpersist()
  }

  def buildArtistByID(rawArtistData: Dataset[String]): DataFrame = {
    rawArtistData.flatMap { line =>
      val (id, name) = line.span(_ != '\t')
      if (name.isEmpty) {
        None
      } else {
        try {
          Some((id.toInt, name.trim))
        } catch {
          case _: NumberFormatException => None
        }
      }
    }.toDF("id", "name")
  }

  def buildArtistAlias(rawArtistAlias: Dataset[String]): Map[Int,Int] = {
    rawArtistAlias.flatMap { line =>
      val Array(artist, alias) = line.split('\t')
      if (artist.isEmpty) {
        None
      } else {
        Some((artist.toInt, alias.toInt))
      }
    }.collect().toMap
  }

  def buildCounts(
      rawUserArtistData: Dataset[String],
      bArtistAlias: Broadcast[Map[Int,Int]]): DataFrame = {
    rawUserArtistData.map { line =>
      val Array(userID, artistID, count) = line.split(' ').map(_.toInt)
      val finalArtistID = bArtistAlias.value.getOrElse(artistID, artistID)
      (userID, finalArtistID, count)
    }.toDF("user", "artist", "count")
  }

  def makeRecommendations(model: ALSModel, userID: Int, howMany: Int): DataFrame = {
    val toRecommend = model.itemFactors.
      select($"id".as("artist")).
      withColumn("user", lit(userID))
    model.transform(toRecommend).
      select("artist", "prediction").
      orderBy($"prediction".desc).
      limit(howMany)
  }

  def areaUnderCurve(
      positiveData: DataFrame,
      bAllArtistIDs: Broadcast[Array[Int]],
      predictFunction: (DataFrame => DataFrame)): Double = {

    // What this actually computes is AUC, per user. The result is actually something
    // that might be called "mean AUC".

    // Take held-out data as the "positive".
    // Make predictions for each of them, including a numeric score
    val positivePredictions = predictFunction(positiveData.select("user", "artist")).
      withColumnRenamed("prediction", "positivePrediction")

    // BinaryClassificationMetrics.areaUnderROC is not used here since there are really lots of
    // small AUC problems, and it would be inefficient, when a direct computation is available.

    // Create a set of "negative" products for each user. These are randomly chosen
    // from among all of the other artists, excluding those that are "positive" for the user.
    val negativeData = positiveData.select("user", "artist").as[(Int,Int)].
      groupByKey { case (user, _) => user }.
      flatMapGroups { case (userID, userIDAndPosArtistIDs) =>
        val random = new Random()
        val posItemIDSet = userIDAndPosArtistIDs.map { case (_, artist) => artist }.toSet
        val negative = new ArrayBuffer[Int]()
        val allArtistIDs = bAllArtistIDs.value
        var i = 0
        // Make at most one pass over all artists to avoid an infinite loop.
        // Also stop when number of negative equals positive set size
        while (i < allArtistIDs.length && negative.size < posItemIDSet.size) {
          val artistID = allArtistIDs(random.nextInt(allArtistIDs.length))
          // Only add new distinct IDs
          if (!posItemIDSet.contains(artistID)) {
            negative += artistID
          }
          i += 1
        }
        // Return the set with user ID added back
        negative.map(artistID => (userID, artistID))
      }.toDF("user", "artist")

    // Make predictions on the rest:
    val negativePredictions = predictFunction(negativeData).
      withColumnRenamed("prediction", "negativePrediction")

    // Join positive predictions to negative predictions by user, only.
    // This will result in a row for every possible pairing of positive and negative
    // predictions within each user.
    val joinedPredictions = positivePredictions.join(negativePredictions, "user").
      select("user", "positivePrediction", "negativePrediction").cache()

    // Count the number of pairs per user
    val allCounts = joinedPredictions.
      groupBy("user").agg(count(lit("1")).as("total")).
      select("user", "total")
    // Count the number of correctly ordered pairs per user
    val correctCounts = joinedPredictions.
      filter($"positivePrediction" > $"negativePrediction").
      groupBy("user").agg(count("user").as("correct")).
      select("user", "correct")

    // Combine these, compute their ratio, and average over all users
    val meanAUC = allCounts.join(correctCounts, "user").
      select($"user", ($"correct" / $"total").as("auc")).
      agg(mean("auc")).
      as[Double].first()

    joinedPredictions.unpersist()

    meanAUC
  }

  def predictMostListened(train: DataFrame)(allData: DataFrame): DataFrame = {
    val listenCounts = train.groupBy("artist").
      agg(sum("count").as("prediction")).
      select("artist", "prediction")
    allData.
      join(listenCounts, Seq("artist"), "left_outer").
      select("user", "artist", "prediction")
  }

}miaofudeMacBook-Pro:aas miaofu$

(3) spark

登陆spark

miaofu@miaofu-Virtual-Machine:~$ spark-shell
16/09/14 10:19:03 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 1.6.2
      /_/

Using Scala version 2.10.5 (OpenJDK 64-Bit Server VM, Java 1.7.0_95)
Type in expressions to have them evaluated.
Type :help for more information.
Spark context available as sc.
16/09/14 10:19:14 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)
16/09/14 10:19:14 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)
16/09/14 10:19:22 WARN ObjectStore: Version information not found in metastore. hive.metastore.schema.verification is not enabled so recording the schema version 1.2.0
16/09/14 10:19:22 WARN ObjectStore: Failed to get database default, returning NoSuchObjectException
16/09/14 10:19:26 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)
16/09/14 10:19:26 WARN Connection: BoneCP specified but not present in CLASSPATH (or one of dependencies)
SQL context available as sqlContext.

导入数据

scala>     val base = "hdfs:///user/ds/"
base: String = hdfs:///user/ds/

scala>     val base = "hdfs:///user/miaofu/"
base: String = hdfs:///user/miaofu/

scala>     val rawArtistData = spark.read.textFile(base + "artist_data.txt")
:27: error: object read is not a member of package spark
             val rawArtistData = spark.read.textFile(base + "artist_data.txt")
                                       ^

scala>     val rawArtistData = sc.textFile(base + "artist_data.txt")
rawArtistData: org.apache.spark.rdd.RDD[String] = hdfs:///user/miaofu/artist_data.txt MapPartitionsRDD[1] at textFile at :29

scala> val head = rawArtistData.take(10)
head: Array[String] = Array(1134999	06Crazy Life, 6821360	Pang Nakarin, 10113088	Terfel, Bartoli- Mozart: Don, 10151459	The Flaming Sidebur, 6826647	Bodenstandig 3000, 10186265	Jota Quest e Ivete Sangalo, 6828986	Toto_XX (1977, 10236364	U.S Bombs -, 1135000	artist formaly know as Mat, 10299728	Kassierer - Musik für beide Ohren)

scala> head.foreach(println)
1134999	06Crazy Life
6821360	Pang Nakarin
10113088	Terfel, Bartoli- Mozart: Don
10151459	The Flaming Sidebur
6826647	Bodenstandig 3000
10186265	Jota Quest e Ivete Sangalo
6828986	Toto_XX (1977
10236364	U.S Bombs -
1135000	artist formaly know as Mat
10299728	Kassierer - Musik für beide Ohren

清洗数据

scala> def f1(line:String)={
     | val g = line.split("\t")
     | (g(0).toInt,g(1).trim)
     | }
f1: (line: String)(Int, String)

scala> head.foreach(println)
1134999	06Crazy Life
6821360	Pang Nakarin
10113088	Terfel, Bartoli- Mozart: Don
10151459	The Flaming Sidebur
6826647	Bodenstandig 3000
10186265	Jota Quest e Ivete Sangalo
6828986	Toto_XX (1977
10236364	U.S Bombs -
1135000	artist formaly know as Mat
10299728	Kassierer - Musik für beide Ohren
scala> head.map(f1).foreach(println)
(1134999,06Crazy Life)
(6821360,Pang Nakarin)
(10113088,Terfel, Bartoli- Mozart: Don)
(10151459,The Flaming Sidebur)
(6826647,Bodenstandig 3000)
(10186265,Jota Quest e Ivete Sangalo)
(6828986,Toto_XX (1977)
(10236364,U.S Bombs -)
(1135000,artist formaly know as Mat)
(10299728,Kassierer - Musik für beide Ohren)

可以看出，这样清洗是有问题的，比如第三行就不是按照制表符分割的，因此这样直接做是不合理的。为此我们应当引入flatMap，option等概念

option是 scala 中collection的一个数据类型，有some，none两个子类。

scala> val myMap: Map[String, String] = Map("key1" -> "value")
myMap: Map[String,String] = Map(key1 -> value)

scala> val value1: Option[String] = myMap.get("key1")
value1: Option[String] = Some(value)

scala> val value2: Option[String] = myMap.get("key2")
value2: Option[String] = None

为什么需要使用flatMap？

然而,map() 函数要求对每个输入必须严格返回一个值,因此这里不能用这个函数。另一种可行的方法是用 filter() 方法删除那些无法解析的行,但这会重复解析逻辑。当需要将每个元素映射为零个、一个或更多结果时,我们应该使用 flatMap() 函数,因为它将每个输入对应的零个或多个结果组成的集合简单展开,然后放入到一个更大的 RDD 中。它可以和 Scala 集合一起使用,也可以和 Scala 的 Option 类一起使用。Option 代表一个值可以不存在,有点儿像只有 1 或 0 的一个简单集合,1 对应子类 Some,0 对应子类 None。因此在以下代码中,虽然 flatMap 中的函数本可以简单返回一个空 List,或一个只有一个元素的 List,但使用 Some 和 None 更合理,这种方法简单明了。

为此我们把上看的解析函数f1重新写成下面的形式。

scala> val artistByID = rawArtistData.flatMap { line =>
     |       val (id, name) = line.span(_ != '\t')
     |       if (name.isEmpty) {
     |         None
     |       } else {
     |         try {
     |           Some((id.toInt, name.trim))
     |         } catch {
     |           case _: NumberFormatException => None
     |         }
     |       }
     |     }
artistByID: org.apache.spark.rdd.RDD[(Int, String)] = MapPartitionsRDD[2] at flatMap at :31

scala> artistByID
res9: org.apache.spark.rdd.RDD[(Int, String)] = MapPartitionsRDD[2] at flatMap at :31

scala> val rawArtistAlias  = sc.textFile(base+"artist_alias.txt")
rawArtistAlias: org.apache.spark.rdd.RDD[String] = hdfs:///user/miaofu/artist_alias.txt MapPartitionsRDD[4] at textFile at :29

scala> val artistAlias = rawArtistAlias.flatMap { line =>
     |       val Array(artist, alias) = line.split('\t')
     |       if (artist.isEmpty) {
     |         None
     |       } else {
     |         Some((artist.toInt, alias.toInt))
     |       }
     |     }.collect().toMap
artistAlias: scala.collection.immutable.Map[Int,Int] = Map(1208690 -> 1003926, 2012757 -> 4569, 6949139 -> 1085752, 1109727 -> 1239120, 6772751 -> 1244705, 2070533 -> 1021544, 1157679 -> 2194, 9969617 -> 5630, 2034496 -> 1116214, 6764342 -> 40, 1272489 -> 1278238, 2108744 -> 1009267, 10349857 -> 1000052, 2145319 -> 1020463, 2126338 -> 2717, 10165456 -> 1001169, 6779368 -> 1239506, 10278137 -> 1001523, 9939075 -> 1329390, 2037201 -> 1274155, 1248585 -> 2885, 1106945 -> 1399, 6811322 -> 1019016, 9978396 -> 1784, 6676961 -> 1086433, 2117821 -> 2611, 6863616 -> 1277013, 6895480 -> 1000993, 6831632 -> 1246136, 1001719 -> 1009727, 10135633 -> 4250, 7029291 -> 1034635, 6967939 -> 1002734, 6864694 -> 1017311, 1237279 -> 1029752, 6793956 -> 1283231, 1208609 -> 1000699, 6693428 -> 1100258, 685174...

构建训练集

scala> import org.apache.spark.mllib.recommendation._
import org.apache.spark.mllib.recommendation._

scala> val bArtistAlias = sc.broadcastcast(artistAlias)
:36: error: value broadcastcast is not a member of org.apache.spark.SparkContext
         val bArtistAlias = sc.broadcastcast(artistAlias)
                               ^

scala> val bArtistAlias = sc.broadcast(artistAlias)
bArtistAlias: org.apache.spark.broadcast.Broadcast[scala.collection.immutable.Map[Int,Int]] = Broadcast(3)

scala> 

scala> val rawUserArtistData = sc.textFile(base + "user_artist_data.txt")
rawUserArtistData: org.apache.spark.rdd.RDD[String] = hdfs:///user/miaofu/user_artist_data.txt MapPartitionsRDD[7] at textFile at :32

scala> val trainData = rawUserArtistData.map{line => 
     | val Array(userID,artistID,count) = line.split(" ").map(_.toInt)
     | val finalArtistID =
     | bArtistAlias.value.getOrElse(artistID,artistID)
     | Rating(userID,finalArtistID,count)
     | }.cache()
trainData: org.apache.spark.rdd.RDD[org.apache.spark.mllib.recommendation.Rating] = MapPartitionsRDD[8] at map at :40

scala> trainData.count()
[Stage 1:==============>                                            (1 + 3) / 4]16/09/14 12:47:18 WARN MemoryStore: Not enough space to cache rdd_8_1 in memory! (computed 172.8 MB so far)
16/09/14 12:47:18 WARN MemoryStore: Not enough space to cache rdd_8_0 in memory! (computed 172.8 MB so far)
16/09/14 12:47:21 WARN MemoryStore: Not enough space to cache rdd_8_2 in memory! (computed 172.8 MB so far)
res0: Long = 24296858

模型训练

scala> val model = ALS.trainImplicit(trainData,10,5,0.01,1.0)
[Stage 2:==============>                                            (1 + 3) / 4]16/09/14 12:48:29 WARN MemoryStore: Not enough space to cache rdd_8_2 in memory! (computed 172.8 MB so far)
16/09/14 12:48:29 WARN MemoryStore: Not enough space to cache rdd_8_0 in memory! (computed 172.8 MB so far)
16/09/14 12:48:30 WARN MemoryStore: Not enough space to cache rdd_8_1 in memory! (computed 172.8 MB so far)
[Stage 3:>                                                          (0 + 4) / 4]16/09/14 12:49:12 ERROR Executor: Managed memory leak detected; size = 115703758 bytes, TID = 12
16/09/14 12:49:13 ERROR Executor: Exception in task 2.0 in stage 3.0 (TID 12)

因为个人的主机配置内存有限，所以出错了，先写到着，一会去申请新的配置。

你可能感兴趣的:(spark学习笔记)

Spark Standalone集群架构 htfenght spark spark
北风网spark学习笔记SparkStandalone集群架构SparkStandalone集群集群管理器，clustermanager：Master进程，工作节点：Worker进程搭建了一套Hadoop集群（HDFS+YARN）HDFS：NameNode、DataNode、SecondaryNameNodeYARN：ResourceManager、NodeManagerSpark集群（Spark
PySpark学习笔记5-SparkSQL 兔子宇航员0301 数据开发小白成长笔记学习笔记
sparkSql的数据抽象有两种。一类是dataset适用于java和Scala一类是dataframe适用于java，Scala，python将rdd转换为dataframe#方式一df=spark.createDataFrame(rdd,schema=['name','age'])#方式二schema=Structtype().add('id',integertype(),nullable=F
pySpark学习笔记4——预处理csv数据3 小李飞刀李寻欢 NLP与推荐算法 pySpark hdfs dataframe csv
嗨，各位大佬好，我是开局一手好牌，最后打得稀烂，输掉所有的菜鸟小明哥。本文仍旧是pySpark系列继续，欢迎关注，并请持续关注。入门，开始，继续。有大佬说，很多人写博文都是开篇啥的，往往只有一两篇，后来再无更新，而我不是，专注，持续深入才是我的本色。回到征途，在spark中，有很多函数可能你并不知道或者真的没有，那么就需要自己定义个函数了，这很正常，这就是udf，即望文生义——userdefine
spark学习笔记：弹性分布式数据集RDD(Resilient Distributed Dataset) 黄道婆 bigdata
弹性分布式数据集RDD1.RDD概述1.1什么是RDDRDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将数据缓存在内存中，后续的查询能够重用这些数据，这极大地提升了查询速度。D
Spark学习笔记五：Spark资源调度和任务调度开发者连小超
一、StageSpark任务会根据RDD之间的依赖关系，形成一个DAG有向无环图，DAG会提交给DAGScheduler，DAGScheduler会把DAG划分相互依赖的多个stage，划分stage的依据就是RDD之间的宽窄依赖。遇到宽依赖就划分stage,每个stage包含一个或多个task任务。然后将这些task以taskSet的形式提交给TaskScheduler运行。stage切割规则切
【大数据】Spark学习笔记 pass night 学习笔记 java spark 大数据 sql
初识SparkSpark和HadoopHadoopSpark起源时间20052009起源地MapReduceUniversityofCaliforniaBerkeley数据处理引擎BatchBatch编程模型MapReduceResilientdistributedDatesets内存管理DiskBasedJVMManaged延迟高中吞吐量中高优化机制手动手动APILowlevelhighleve
spark学习笔记（十一）——sparkStreaming-概述/特点/构架/DStream入门程序wordcount 一个人的牛牛 spark 学习 spark scala 大数据
目录SparkStreamingsparkStreamingDStreamsparkStreaming特点sparkStreaming构架背压机制DStream入门SparkStreamingsparkStreamingSparkStreaming用于流式数据的处理。SparkStreaming支持的数据输入源很多：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据
Spark学习笔记一孤独的偷学者开发环境的搭建大数据 spark
文章目录1Spark架构设计与原理思想1.1Spark初始1.2Spark架构核心1.3Spark的计算阶段1.4Spark执行流程1.4Spark核心模块2Spark运行环境2.1Local模式2.2Standalone模式2.2.1上传与解压Spark压缩包2.2.2默认配置文件的修改2.2.3启动集群2.2.4配置历史服务2.2.5配置高可用（HA）1Spark架构设计与原理思想1.1Spa
大数据Spark学习笔记—sparkcore Int mian[] 大数据大数据 spark hadoop scala 分布式
目录Spark概述核心模块Spark编程配置IDEA配置scala环境WordCount案例Spark-Standalone运行环境Local配置步骤集群分工解压文件修改配置启动集群配置历史服务器Spark-Yarn运行环境配置步骤配置历史服务器Windows运行环境配置步骤常用端口号Spark架构核心组件DriverExecutorMaster&WorkerApplicationMasterHa
20210127_spark学习笔记 yehaver spark
一、部分理论spark:由Scala语言开发的快速、通用、可扩展的基于内存的大数据分析引擎。在mapreduce上进行了优化，但没mapreduce稳定。SparkCore是spark平台的基础通用执行引擎，所有其他功能都是基于。它在外部存储系统中提供内存计算和引用数据集。spark最基础的最核心的功能SparkSQL是SparkCore之上的一个组件，它引入了一个称为SchemaRDD的新数据抽
【Spark学习笔记】- 1Spark和Hadoop的区别拉格朗日(Lagrange) #Spark 学习笔记 spark 学习笔记
目录标题Spark是什么SparkandHadoop首先从时间节点上来看:功能上来看:SparkorHadoopSpark是什么Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。SparkandHadoop在之前的学习中，Hadoop的MapReduce是大家广为熟知的计算框架，那为什么咱们还要学习新的计算框架Spark呢，这里就不得不提到Spark和Hadoop的关系。首先从时间
Spark学习笔记【基础概念】 java路飞大数据 Spark spark 大数据 java
文章目录前言Spark基础Spark是什么spark和hadoop区别Spark核心模块Spark运行模式Spark运行架构运行架构Executor与Core（核）并行度（Parallelism）有向无环图（DAG）spark的提交方式clientclusterSpark核心编程三大数据结构RDD什么是RDD执行原理RDDAPIRDD创建RDD转换算子Action行动算子统计操作RDD序列化RDD
Spark学习笔记(3)——Spark运行架构程光CS #Spark学习笔记
本系列文章内容全部来自尚硅谷教学视频，仅作为个人的学习笔记一、运行架构Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构。如下图所示，它展示了一个Spark执行时的基本结构。图形中的Driver表示master，负责管理整个集群中的作业任务调度。图形中的Executor则是slave，负责实际执行任务。二、核心组件由上图可以看出，对于Spark框架有两个核心组
【Spark学习笔记】- 4运行架构&核心组件&核心概念拉格朗日(Lagrange) #Spark 学习笔记 spark 学习笔记
目录标题1运行架构2核心组件2.1Driver2.2Executor2.3Master&Worker2.4ApplicationMaster3核心概念3.1Executor与Core3.2并行度(Parallelism)3.3有向无环图(DAG)4提交流程4.1YarnClient模式4.2YarnCluster模式5分布式计算模拟5.1Driver5.2Executor5.3Executor25
Spark学习笔记01-基础 GreenWang
本文基于Spark2.4.1进行演示，相关代码可以在我的Github上看到。简介Spark是一个分布式集群计算系统，类似Hadoop提供了强大的分布式计算能力，相比过去的批量处理系统，提供了处理更大规模数据的能力。Spark提供了Java、Python、Scala、R接口。除常见的MapReduce运算外，还支持图、机器学习、SparkSQL等计算方式。特性高效Speed，因为很多数据都在内存中，
spark学习笔记大数据男 hadoop实战 spark scala big data
文章目录1，spark架构2，spark部署模式3，spark单机模式4，standalone模式5，sparkonyarn6，idea写代码直接提交yarn7,RDD缓存持久化8，spark从mysql读写数据9，spark宽依赖、窄依赖、DAG、JOB、STAGE、Pipeline、taskset10，action和transformation11，RDD12，内存计算指的是上面13，DAG以
Spark学习笔记(三)：使用Java调用Spark集群 bluesnail95 Reduce)spark
我搭建的Spark集群的版本是2.4.4。在网上找的maven依赖，链接忘记保存了。。。。UTF-81.81.82.6.0-cdh5.14.21.1.0-cdh5.14.21.2.0-cdh5.14.22.11.82.4.4clouderahttps://repository.cloudera.com/artifactory/cloudera-repos/org.scala-langscala-l
2020-03-17 陆寒晨
spark学习笔记centos安装OracleVirtualBox:$sudoyuminstallkernel-develkernel-headersmakepatchgcc$sudowgethttps://download.virtualbox.org/virtualbox/rpm/el/virtualbox.repo-P/etc/yum.repos.d#安装virtualBox$sudoyum
spark学习笔记（六）——sparkcore核心编程-RDD行动算子一个人的牛牛 spark spark 学习大数据
行动算子-触发作业的执行（runjob）创建activeJob，提交并执行目录（1）reduce（2）collect（3）count（4）first（5）take（6）takeOrdered（7）aggregate（8）fold（9）countByKey（10）save相关算子（11）foreachRDD转换：对RDD功能的补充和封装，将旧的RDD包装成为新的RDD；RDD行动：触发任务的调度和作
Spark学习笔记11:RDD算子 balabalalibala Spark spark 学习 big data scala
目录一、RDD算子二、准备工作（一）准备文件1、准备本地系统文件2、准备HDFS系统文件（二）启动SparkShell1、启动HDFS服务2、启动Spark服务3、启动SparkShell三、转化算子（一）映射算子-map()1、映射算子功能2、映射算子案例A、将rdd1每个元素翻倍得到rdd2B、将rdd1每个元素平方得到rdd21、采用普通函数作为参数传给map()算子2、用下划线表达式作为参
pyspark学习笔记——RDD 千层肚学习大数据 spark
目录1.程序执行入口SparkContext对象2.RDD的创建2.1通过并行化集合创建（本地对象转分布式RDD）2.2读取外部数据源（读取文件）2.2.1使用textFileAPI2.2.2wholeTextFileAPI2.3RDD算子2.4常用Transformation算子2.4.1map算子2.4.2flatMap算子2.4.3reduceByKey算子2.4.4mapValues算子2
Spark学习笔记(1)RDD 灯火gg
RDDRDD（ResilientDistributedDataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。RDD内部结构.pngRDD5大特型Alistof
Spark学习笔记（一）：Spark 基本原理 leo825... 大数据学习 spark 学习笔记
文章目录1、Spark整体架构1.1、Spark集群角色1.1.1、ClusterManager1.1.2、WorkerNode1.1.3、Executor1.1.4、Application1.1.5、Driver1.1.6、Executor2、Spark运行基本流程2.1、RDD2.2、DAG2.3、DAGScheduler2.4、TaskScheduler2.5、Job2.6、Stage2.7
Spark学习笔记——龟速更新。。 5akura 个人学习笔记box hadoop spark scala java
文章目录Spark学习笔记第一章、基本认识与快速上手1.1、认识Spark1.2、对比Hadoop1.3、Spark组成基本介绍1.4、快速上手之WorldCount实现1.4.1、方式一（Scala类似集合操作实现）1.4.2、方式二(MR思维实现)1.4.3、方式三(Spark实现)第二章、环境搭建2.1、Local模式2.1.1、SparkShell命令行执行2.1.2、spark-subl
spark rdd java_Spark学习笔记之Spark中的RDD的具体使用 Minitab Users Group spark rdd java
1.Spark中的RDDResilientDistributedDatasets(弹性分布式数据集)Spark中的最基本的抽象有了RDD的存在我们就可以像操作本地集合一样操作分布式的数据包含所有元素的分区的集合RDD包含了很多的分区2.RDD中的弹性RDD中的数据是可大可小的RDD的数据默认情况下存放在内存中的，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘RDD有自动容错功能,当其中
大数据系列——Spark学习笔记之Spark中的RDD EVAO 大数据
1.Spark中的RDDResilientDistributedDatasets(弹性分布式数据集)Spark中的最基本的抽象有了RDD的存在我们就可以像操作本地集合一样操作分布式的数据包含所有元素的分区的集合RDD包含了很多的分区2.RDD中的弹性RDD中的数据是可大可小的RDD的数据默认情况下存放在内存中的，但是在内存资源不足时，Spark会自动将RDD数据写入磁盘RDD有自动容错功能,当其中
spark运行原理潮生明月 spark spark
1、YARN架构设计详解2、SparkonYarn的运行原理3、详细探究Spark的shuffle实现4、Spark基本工作流程及YARNcluster模式原理5、Spark学习笔记1：Application，Driver，Job，Task，Stage理解6、Spark学习之路（三）Spark之RDD7、SparkCore_资源调度与任务调度详述
Spark学习笔记[3]-Spark安装部署 kinglinch 大数据 spark big data
Spark学习笔记[3]-Spark安装部署1、下载对应版本的spark 官网我始终都下不下来，推荐一个国内的镜像：https://mirrors.tuna.tsinghua.edu.cn/apache/spark2、概述2-1安装模式虽然Spark是一个分布式计算框架，但是其不属于HadoopProject，它有自己的资源层管理和文件系统，可以不依赖Hadoop的HDFS和Yarn，所以安
Spark学习笔记 zhglance
1.Spark简述Spark通过内存计算能力，急剧的提高大数据处理速度。解决了Hadoop只适合于离线的高吞吐量、批量处理的业务场景的弊端，提出了实时计算的解决方法。1.1Spark特点a.快速处理能力：Hadoop的MapReduce中间数据采用磁盘存储，而Spark优先使用内存避免大量的磁盘IO，极大的提高了计算速度；b.支持性强：Spark支持Java、Scala、Python等；c.可查询
SPark学习笔记：08-SParkSQL的DataFrame和DataSet操作 wangzhongyudie 大数据 Spark spark 学习大数据
文章目录概述DataFrame的常用API操作添加maven依赖创建SparkSessionDataFrame的创建DataFrame的DSL操作DataFrame的SQL操作DataSet的常用操作DataSet的创建DataSet与DataFrame、RDD之间的关系和互转概述在Spark中DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库的二维表格。和python的Pan
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本