javastart

Kafka+Spark Streaming+Redis实时系统实践

基于 Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是 Spark提供了内建的计算库支持，像 Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时计算。

　　我们的应用场景是分析用户使用手机App的行为，描述如下所示：

　　1、手机客户端会收集用户的行为事件（我们以点击事件为例），将数据发送到数据服务器，我们假设这里直接进入到Kafka消息队列
　　2、后端的实时服务会从Kafka消费数据，将数据读出来并进行实时分析，这里选择Spark Streaming，因为Spark Streaming提供了与Kafka整合的内置支持
　　3、经过Spark Streaming实时计算程序分析，将结果写入Redis，可以实时获取用户的行为数据，并可以导出进行离线综合统计分析

Kafka+Spark Streaming+Redis编程实践

　　下面，我们根据上面提到的应用场景，来编程实现这个实时计算应用。首先，写了一个Kafka Producer模拟程序，用来模拟向Kafka实时写入用户行为的事件数据，数据是JSON格式，示例如下：

      查看源代码 
     
 打印 帮助 
    
        1 
        {  
       
        2 
            "uid":"068b746ed4620d25e26055a9f804385f",  
       
        3 
            "event_time":"1430204612405",  
       
        4 
            "os_type":"Android",   
       
        5 
            "click_count": 6 
       
        6 
        }

一个事件包含4个字段：
　　1、uid：用户编号
　　2、event_time：事件发生时间戳
　　3、os_type：手机App操作系统类型
　　4、click_count：点击次数
下面是我们实现的代码，如下所示：

      查看源代码 
     
 打印 帮助 
    
        01 
        package  com.iteblog.spark.streaming.utils  
       
        02 
           
        03 
        import  java.util.Properties  
       
        04 
        import  scala.util.Properties  
       
        05 
        import  org.codehaus.jettison.json.JSONObject  
       
        06 
        import  kafka.javaapi.producer.Producer  
       
        07 
        import  kafka.producer.KeyedMessage  
       
        08 
        import  kafka.producer.KeyedMessage  
       
        09 
        import  kafka.producer.ProducerConfig  
       
        10 
        import  scala.util.Random  
       
        11 
           
        12 
        object  KafkaEventProducer {  
       
        13 
            
        14 
          privateval users =Array(  
       
        15 
              "4A4D769EB9679C054DE81B973ED5D768","8dfeb5aaafc027d89349ac9a20b3930f", 
       
        16 
              "011BBF43B89BFBF266C865DF0397AA71","f2a8474bf7bd94f0aabbd4cdd2c06dcf", 
       
        17 
              "068b746ed4620d25e26055a9f804385f","97edfc08311c70143401745a03a50706", 
       
        18 
              "d7f141563005d1b5d0d3dd30138f3f62","c8ee90aade1671a21336c721512b817a", 
       
        19 
              "6b67c8c700427dee7552f81f3228c927","a95f22eabc4fd4b580c011a3161a9d9d") 
       
        20 
                
        21 
          privateval random =new Random()  
       
        22 
                
        23 
          privatevar pointer =-1 
       
        24 
            
        25 
          defgetUserID() :String  = {  
       
        26 
               pointer= pointer + 1 
       
        27 
            if(pointer >=users.length) {  
       
        28 
              pointer= 0 
       
        29 
              users(pointer) 
       
        30 
            }  else {  
       
        31 
              users(pointer) 
       
        32 
            }   
       
        33 
          }   
       
        34 
            
        35 
          defclick() : Double  = {  
       
        36 
            random.nextInt(10) 
       
        37 
          }   
       
        38 
            
        39 
          // bin/kafka-topics.sh --zookeeper zk1:2181,zk2:2181,zk3:2181/kafka --create --topic user_events --replication-factor 2 --partitions 2 
       
        40 
          // bin/kafka-topics.sh --zookeeper zk1:2181,zk2:2181,zk3:2181/kafka --list 
       
        41 
          // bin/kafka-topics.sh --zookeeper zk1:2181,zk2:2181,zk3:2181/kafka --describe user_events 
       
        42 
          // bin/kafka-console-consumer.sh --zookeeper zk1:2181,zk2:2181,zk3:22181/kafka --topic test_json_basis_event --from-beginning 
       
        43 
          defmain(args: Array[String]): Unit =  {  
       
        44 
            valtopic = "user_events" 
       
        45 
            valbrokers = "10.10.4.126:9092,10.10.4.127:9092" 
       
        46 
            valprops = new Properties()  
       
        47 
            props.put("metadata.broker.list", brokers) 
       
        48 
            props.put("serializer.class","kafka.serializer.StringEncoder") 
       
        49 
              
        50 
            valkafkaConfig =new ProducerConfig(props) 
       
        51 
            valproducer = new Producer[String, String](kafkaConfig)  
       
        52 
              
        53 
            while(true) { 
       
        54 
              // prepare event data 
       
        55 
              valevent = new JSONObject()  
       
        56 
              event 
       
        57 
                .put("uid", getUserID) 
       
        58 
                .put("event_time", System.currentTimeMillis.toString) 
       
        59 
                .put("os_type","Android")  
       
        60 
                .put("click_count", click) 
       
        61 
                
        62 
              // produce event message 
       
        63 
              producer.send(newKeyedMessage[String, String](topic, event.toString))  
       
        64 
              println("Message sent: "+ event)  
       
        65 
                
        66 
              Thread.sleep(200) 
       
        67 
            }   
       
        68 
          }     
       
        69 
        }

　　通过控制上面程序最后一行的时间间隔来控制模拟写入速度。下面我们来讨论实现实时统计每个用户的点击次数，它是按照用户分组进行累加次数，逻辑比较简单，关键是在实现过程中要注意一些问题，如对象序列化等。先看实现代码，稍后我们再详细讨论，代码实现如下所示：

      查看源代码 
     
 打印 帮助 
    
        01 
        object  UserClickCountAnalytics {  
       
        02 
           
        03 
          defmain(args: Array[String]): Unit =  {  
       
        04 
            varmasterUrl = "local[1]" 
       
        05 
            if(args.length > 0) { 
       
        06 
              masterUrl= args(0) 
       
        07 
            }   
       
        08 
           
        09 
            // Create a StreamingContext with the given master URL 
       
        10 
            valconf = new SparkConf().setMaster(masterUrl).setAppName("UserClickCountStat") 
       
        11 
            valssc = new StreamingContext(conf, Seconds(5)) 
       
        12 
           
        13 
            // Kafka configurations 
       
        14 
            valtopics = Set("user_events") 
       
        15 
            valbrokers = "10.10.4.126:9092,10.10.4.127:9092" 
       
        16 
            valkafkaParams =Map[String, String](  
       
        17 
              "metadata.broker.list"-> brokers, "serializer.class"-> "kafka.serializer.StringEncoder") 
       
        18 
           
        19 
            valdbIndex = 1 
       
        20 
            valclickHashKey ="app::users::click" 
       
        21 
           
        22 
            // Create a direct stream 
       
        23 
            valkafkaStream =KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics) 
       
        24 
           
        25 
            valevents = kafkaStream.flatMap(line => { 
       
        26 
              valdata = JSONObject.fromObject(line._2) 
       
        27 
              Some(data) 
       
        28 
            })   
       
        29 
           
        30 
            // Compute user click times 
       
        31 
            valuserClicks = events.map(x => (x.getString("uid"), x.getInt("click_count"))).reduceByKey(_+ _) 
       
        32 
            userClicks.foreachRDD(rdd=> {  
       
        33 
              rdd.foreachPartition(partitionOfRecords=> {  
       
        34 
                partitionOfRecords.foreach(pair=> {  
       
        35 
                  valuid = pair._1 
       
        36 
                  valclickCount = pair._2 
       
        37 
                  valjedis = <SPAN class=wp_keywordlink_affiliate><A title=""href="http://www.iteblog.com/archives/tag/redis"target=_blank data-original-title="View all posts in Redis"jQuery1830668587673401759="50">Redis</A></SPAN>Client.pool.getResource 
       
        38 
                  jedis.select(dbIndex) 
       
        39 
                  jedis.hincrBy(clickHashKey, uid, clickCount) 
       
        40 
                  RedisClient.pool.returnResource(jedis) 
       
        41 
                }) 
       
        42 
              }) 
       
        43 
            })   
       
        44 
           
        45 
            ssc.start() 
       
        46 
            ssc.awaitTermination() 
       
        47 
           
        48 
          }   
       
        49 
        }

　　上面代码使用了Jedis客户端来操作Redis，将分组计数结果数据累加写入Redis存储，如果其他系统需要实时获取该数据，直接从Redis实时读取即可。RedisClient实现代码如下所示：

      查看源代码 
     
 打印 帮助 
    
        01 
        object  RedisClient extends  Serializable {  
       
        02 
          valredisHost = "10.10.4.130" 
       
        03 
          valredisPort = 6379 
       
        04 
          valredisTimeout =30000 
       
        05 
          lazyval pool =new JedisPool(newGenericObjectPoolConfig(), redisHost, redisPort, redisTimeout) 
       
        06 
           
        07 
          lazyval hook =new Thread {  
       
        08 
            overridedef run ={  
       
        09 
              println("Execute hook thread: "+ this) 
       
        10 
              pool.destroy() 
       
        11 
            }   
       
        12 
          }   
       
        13 
          sys.addShutdownHook(hook.run) 
       
        14 
        }

　　上面代码我们分别在local[K]和Spark Standalone集群模式下运行通过。

　　如果我们是在开发环境进行调试的时候，也就是使用local[K]部署模式，在本地启动K个Worker线程来计算，这K个Worker在同一个JVM实例里，上面的代码默认情况是，如果没有传参数则是local[K]模式，所以如果使用这种方式在创建Redis连接池或连接的时候，可能非常容易调试通过，但是在使用Spark Standalone、YARN Client（YARN Cluster）或Mesos集群部署模式的时候，就会报错，主要是由于在处理Redis连接池或连接的时候出错了。我们可以看一下Spark架构，如图所示（来自官网）：

　　无论是在本地模式、Standalone模式，还是在Mesos或YARN模式下，整个Spark集群的结构都可以用上图抽象表示，只是各个组件的运行环境不同，导致组件可能是分布式的，或本地的，或单个JVM实例的。如在本地模式，则上图表现为在同一节点上的单个进程之内的多个组件；而在YARN Client模式下，Driver程序是在YARN集群之外的一个节点上提交Spark Application，其他的组件都运行在YARN集群管理的节点上。

　　在Spark集群环境部署Application后，在进行计算的时候会将作用于RDD数据集上的函数（Functions）发送到集群中Worker上的Executor上（在Spark Streaming中是作用于DStream的操作），那么这些函数操作所作用的对象（Elements）必须是可序列化的，通过Scala也可以使用lazy引用来解决，否则这些对象（Elements）在跨节点序列化传输后，无法正确地执行反序列化重构成实际可用的对象。上面代码我们使用lazy引用（Lazy Reference）来实现的，代码如下所示：

      查看源代码 
     
 打印 帮助 
    
        01 
        // lazy pool reference  
       
        02 
        lazy  val pool =new JedisPool(newGenericObjectPoolConfig(), redisHost, redisPort, redisTimeout) 
       
        03 
        ...  
       
        04 
        partitionOfRecords.foreach(pair  => {  
       
        05 
          valuid = pair._1 
       
        06 
          valclickCount = pair._2 
       
        07 
          valjedis = RedisClient.pool.getResource  
       
        08 
          jedis.select(dbIndex) 
       
        09 
          jedis.hincrBy(clickHashKey, uid, clickCount) 
       
        10 
          RedisClient.pool.returnResource(jedis) 
       
        11 
        })

　　另一种方式，我们将代码修改为，把对Redis连接的管理放在操作DStream的Output操作范围之内，因为我们知道它是在特定的Executor中进行初始化的，使用一个单例的对象来管理，如下所示：

      查看源代码 
     
 打印 帮助 
    
        001 
        package  org.shirdrn.spark.streaming  
       
        002 
           
        003 
        import  org.apache.commons.pool2.impl.GenericObjectPoolConfig 
       
        004 
        import  org.apache.spark.SparkConf  
       
        005 
        import  org.apache.spark.streaming.Seconds  
       
        006 
        import  org.apache.spark.streaming.StreamingContext  
       
        007 
        import  org.apache.spark.streaming.dstream.DStream.toPairDStreamFunctions  
       
        008 
        import  org.apache.spark.streaming.kafka.KafkaUtils  
       
        009 
           
        010 
        import  kafka.serializer.StringDecoder  
       
        011 
        import  net.sf.json.JSONObject  
       
        012 
        import  redis.clients.jedis.JedisPool  
       
        013 
           
        014 
        object  UserClickCountAnalytics {  
       
        015 
           
        016 
          defmain(args: Array[String]): Unit =  {  
       
        017 
            varmasterUrl = "local[1]" 
       
        018 
            if(args.length > 0) { 
       
        019 
              masterUrl= args(0) 
       
        020 
            }   
       
        021 
           
        022 
            // Create a StreamingContext with the given master URL 
       
        023 
            valconf = new SparkConf().setMaster(masterUrl).setAppName("UserClickCountStat") 
       
        024 
            valssc = new StreamingContext(conf, Seconds(5)) 
       
        025 
           
        026 
            // Kafka configurations 
       
        027 
            valtopics = Set("user_events") 
       
        028 
            valbrokers = "10.10.4.126:9092,10.10.4.127:9092" 
       
        029 
            valkafkaParams =Map[String, String](  
       
        030 
              "metadata.broker.list"-> brokers, "serializer.class"-> "kafka.serializer.StringEncoder") 
       
        031 
           
        032 
            valdbIndex = 1 
       
        033 
            valclickHashKey ="app::users::click" 
       
        034 
           
        035 
            // Create a direct stream 
       
        036 
            valkafkaStream =KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics) 
       
        037 
           
        038 
            valevents = kafkaStream.flatMap(line => { 
       
        039 
              valdata = JSONObject.fromObject(line._2) 
       
        040 
              Some(data) 
       
        041 
            })   
       
        042 
           
        043 
            // Compute user click times 
       
        044 
            valuserClicks = events.map(x => (x.getString("uid"), x.getInt("click_count"))).reduceByKey(_+ _) 
       
        045 
            userClicks.foreachRDD(rdd=> {  
       
        046 
              rdd.foreachPartition(partitionOfRecords=> {  
       
        047 
                partitionOfRecords.foreach(pair=> {  
       
        048 
                    
        049 
                  /** 
       
        050 
                   * Internal Redis client for managing Redis connection {@link Jedis} based on {@link RedisPool} 
       
        051 
                   */ 
       
        052 
                  objectInternalRedisClient extendsSerializable {  
       
        053 
                      
        054 
                    @transientprivate varpool: JedisPool =  null 
       
        055 
                      
        056 
                    defmakePool(redisHost:String, redisPort:Int, redisTimeout:Int,  
       
        057 
                        maxTotal:Int, maxIdle:Int, minIdle:Int): Unit =  {  
       
        058 
                      makePool(redisHost, redisPort, redisTimeout, maxTotal, maxIdle, minIdle,true, false,  10000)    
       
        059 
                    } 
       
        060 
                      
        061 
                    defmakePool(redisHost:String, redisPort:Int, redisTimeout:Int,  
       
        062 
                        maxTotal:Int, maxIdle:Int, minIdle:Int, testOnBorrow:Boolean,  
       
        063 
                        testOnReturn:Boolean, maxWaitMillis:Long): Unit =  {  
       
        064 
                      if(pool== null) { 
       
        065 
                           valpoolConfig = new GenericObjectPoolConfig()  
       
        066 
                           poolConfig.setMaxTotal(maxTotal) 
       
        067 
                           poolConfig.setMaxIdle(maxIdle) 
       
        068 
                           poolConfig.setMinIdle(minIdle) 
       
        069 
                           poolConfig.setTestOnBorrow(testOnBorrow) 
       
        070 
                           poolConfig.setTestOnReturn(testOnReturn) 
       
        071 
                           poolConfig.setMaxWaitMillis(maxWaitMillis) 
       
        072 
                           pool= newJedisPool(poolConfig, redisHost, redisPort, redisTimeout) 
       
        073 
                             
        074 
                           valhook = new Thread{  
       
        075 
                                overridedef run =pool.destroy()  
       
        076 
                           } 
       
        077 
                           sys.addShutdownHook(hook.run) 
       
        078 
                      } 
       
        079 
                    } 
       
        080 
                      
        081 
                    defgetPool: JedisPool =  { 
       
        082 
                      assert(pool !=null)  
       
        083 
                      pool 
       
        084 
                    } 
       
        085 
                  } 
       
        086 
                    
        087 
                  // Redis configurations 
       
        088 
                  valmaxTotal = 10 
       
        089 
                  valmaxIdle = 10 
       
        090 
                  valminIdle = 1 
       
        091 
                  valredisHost = "10.10.4.130" 
       
        092 
                  valredisPort = 6379 
       
        093 
                  valredisTimeout =30000 
       
        094 
                  valdbIndex = 1 
       
        095 
                  InternalRedisClient.makePool(redisHost, redisPort, redisTimeout, maxTotal, maxIdle, minIdle) 
       
        096 
                    
        097 
                  valuid = pair._1 
       
        098 
                  valclickCount = pair._2 
       
        099 
                  valjedis =InternalRedisClient.getPool.getResource 
       
        100 
                  jedis.select(dbIndex) 
       
        101 
                  jedis.hincrBy(clickHashKey, uid, clickCount) 
       
        102 
                  InternalRedisClient.getPool.returnResource(jedis) 
       
        103 
                }) 
       
        104 
              }) 
       
        105 
            })   
       
        106 
           
        107 
            ssc.start() 
       
        108 
            ssc.awaitTermination() 
       
        109 
           
        110 
          }   
       
        111 
        }

　　上面代码实现，得益于Scala语言的特性，可以在代码中任何位置进行class或object的定义，我们将用来管理Redis连接的代码放在了特定操作的内部，就避免了瞬态（Transient）对象跨节点序列化的问题。这样做还要求我们能够了解Spark内部是如何操作RDD数据集的，更多可以参考RDD或Spark相关文档。

　　在集群上，以Standalone模式运行，执行如下命令：

      查看源代码 
     
 打印 帮助 
    
        1 
        cd  /usr/local/spark 
       
        2 
        ./bin/spark-submit --class org.shirdrn.spark.streaming.UserClickCountAnalytics  
       
        3 
        　　　　　　　　    --master spark://hadoop1:7077   
       
        4 
        　　　　　　　　    --executor-memory 1G    
       
        5 
        　　　　　　　　    --total-executor-cores 2  
       
        6 
        　　　　　　　　    ~/spark-0.0.SNAPSHOT.jarspark://hadoop1:7077

　　可以查看集群中各个Worker节点执行计算任务的状态，也可以非常方便地通过Web页面查看。

　　下面，看一下我们存储到Redis中的计算结果，如下所示：

      查看源代码 
     
 打印 帮助 
    
        01 
        127.0.0.1:6379[1]> HGETALL app::users::click 
       
        02 
        1)"4A4D769EB9679C054DE81B973ED5D768" 
       
        03 
        2)"7037" 
       
        04 
        3)"8dfeb5aaafc027d89349ac9a20b3930f" 
       
        05 
        4)"6992" 
       
        06 
        5)"011BBF43B89BFBF266C865DF0397AA71" 
       
        07 
        6)"7021" 
       
        08 
        7)"97edfc08311c70143401745a03a50706" 
       
        09 
        8)"6874" 
       
        10 
        9)"d7f141563005d1b5d0d3dd30138f3f62" 
       
        11 
        10)"7057" 
       
        12 
        11)"a95f22eabc4fd4b580c011a3161a9d9d" 
       
        13 
        12)"7092" 
       
        14 
        13)"6b67c8c700427dee7552f81f3228c927" 
       
        15 
        14)"7266" 
       
        16 
        15)"f2a8474bf7bd94f0aabbd4cdd2c06dcf" 
       
        17 
        16)"7188" 
       
        18 
        17)"c8ee90aade1671a21336c721512b817a" 
       
        19 
        18)"6950" 
       
        20 
        19)"068b746ed4620d25e26055a9f804385f"

pom文件及相关依赖

　　这里，附上前面开发的应用所对应的依赖，以及打包Spark Streaming应用程序的Maven配置，以供参考。如果使用maven-shade-plugin插件，配置有问题的话，打包后在Spark集群上提交Application时候可能会报错Invalid signature file digest for Manifest main attributes。参考的Maven配置，如下所示：

      查看源代码 
     
 打印 帮助 
    
        001 
        ="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
       
        002 
             xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/xsd/maven-4.0.0.xsd"> 
       
        003 
             4.0.0 
       
        004 
             org.shirdrn.spark 
       
        005 
             spark 
       
        006 
             0.0.1-SNAPSHOT 
       
        007 
           
        008 
              
        009 
                   
        010 
                       org.apache.spark 
       
        011 
                       spark-core_2.10 
       
        012 
                       1.3.0 
       
        013 
                   
        014 
                   
        015 
                       org.apache.spark 
       
        016 
                       spark-streaming_2.10 
       
        017 
                       1.3.0 
       
        018 
                   
        019 
                   
        020 
                       net.sf.json-lib 
       
        021 
                       json-lib 
       
        022 
                       2.3 
       
        023 
                   
        024 
                   
        025 
                       org.apache.spark 
       
        026 
                       spark-streaming-kafka_2.10 
       
        027 
                       1.3.0 
       
        028 
                   
        029 
                   
        030 
                       redis.clients 
       
        031 
                       jedis 
       
        032 
                       2.5.2 
       
        033 
                   
        034 
                   
        035 
                       org.apache.commons 
       
        036 
                       commons-pool2 
       
        037 
                       2.2 
       
        038 
                   
        039 
              
        040 
           
        041 
              
        042 
                  ${basedir}/src/main/scala 
       
        043 
                  ${basedir}/src/test/scala 
       
        044 
                   
        045 
                        
        046 
                            ${basedir}/src/main/resources 
       
        047 
                        
        048 
                   
        049 
                   
        050 
                        
        051 
                            ${basedir}/src/test/resources 
       
        052 
                        
        053 
                   
        054 
                   
        055 
                        
        056 
                            maven-compiler-plugin 
       
        057 
                            3.1 
       
        058 
                             
        059 
                                 1.6 
       
        060 
                                 1.6 
       
        061 
                             
        062 
                        
        063 
                        
        064 
                            org.apache.maven.plugins 
       
        065 
                            maven-shade-plugin 
       
        066 
                            2.2 
       
        067 
                             
        068 
                                 true 
       
        069 
                             
        070 
                             
        071 
                                  
        072 
                                      package 
       
        073 
                                       
        074 
                                           shade 
       
        075 
                                       
        076 
                                       
        077 
                                            
        078 
                                                 
        079 
                                                     *:* 
       
        080 
                                                 
        081 
                                            
        082 
                                            
        083 
                                                 
        084 
                                                     *:* 
       
        085 
                                                      
        086 
                                                          META-INF/*.SF 
       
        087 
                                                          META-INF/*.DSA 
       
        088 
                                                          META-INF/*.RSA 
       
        089 
                                                      
        090 
                                                 
        091 
                                            
        092 
                                            
        093 
                                                 
        094 
                                                     implementation="org.apache.maven.plugins.shade.resource.ServicesResourceTransformer"/>  
       
        095 
                                                 
        096 
                                                     implementation="org.apache.maven.plugins.shade.resource.AppendingTransformer"> 
       
        097 
                                                     reference.conf 
       
        098 
                                                 
        099 
                                                 
        100 
                                                     implementation="org.apache.maven.plugins.shade.resource.DontIncludeResourceTransformer"> 
       
        101 
                                                     log4j.properties 
       
        102 
                                                 
        103 
                                            
        104 
                                       
        105 
                                  
        106 
                             
        107 
                        
        108 
                   
        109 
              
        110

你可能感兴趣的:(spark)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
写出渗透测试信息收集详细流程卿酌南烛_b805
一、扫描域名漏洞：域名漏洞扫描工具有AWVS、APPSCAN、Netspark、WebInspect、Nmap、Nessus、天镜、明鉴、WVSS、RSAS等。二、子域名探测：1、dns域传送漏洞2、搜索引擎查找（通过Google、bing、搜索c段）3、通过ssl证书查询网站：https://myssl.com/ssl.html和https://www.chinassl.net/ssltools
Spark MLlib模型训练—推荐算法 ALS(Alternative Least Squares) 不二人生 Spark ML 实战 spark-ml 推荐算法算法
SparkMLlib模型训练—推荐算法ALS(AlternativeLeastSquares)如果你平时爱刷抖音，或者热衷看电影，不知道有没有过这样的体验：这类影视App你用得越久，它就好像会读心术一样，总能给你推荐对胃口的内容。其实这种迎合用户喜好的推荐，离不开机器学习中的推荐算法。在今天这一讲，我们就结合两个有趣的电影推荐场景，为你讲解SparkMLlib支持的协同过滤与频繁项集算法电影推荐场
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
大数据领域的深度分析——AI是在帮助开发者还是取代他们？阳爱铭大数据与数据中台技术沉淀大数据人工智能后端数据库架构数据库开发 etl工程师 chatgpt
在大数据领域，生成式人工智能（AIGC）的应用正在迅速扩展，改变了数据科学家和开发者的工作方式。本文将从大数据的专业视角，探讨AI工具在这一领域的作用，以及它们是如何帮助开发者而非取代他们的。1.大数据领域的AI工具现状在大数据领域，AI工具已经取得了显著进展，以下是几款主要的AI工具及其功能和实际应用：ApacheSpark+MLlib：ApacheSpark是一个开源的分布式计算系统，广泛用于
大数据新视界 --大数据大厂之 Spark 性能优化秘籍：从配置到代码实践青云交大数据新视界 Spark 性能优化内存分配并行度存储级别 shuffle 减少算法优化代码实践数据读取广播变量数据倾斜 Spark 数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
【面试系列】Spark 高频面试题解答野老杂谈全网最全IT公司面试宝典面试 spark 职场和发展大数据
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
spark常见面试题爱敲代码的小黑 spark 大数据分布式
文章目录1.Spark的运行流程？2.Spark中的RDD机制理解吗？3.RDD的宽窄依赖4.DAG中为什么要划分Stage？5.Spark程序执行，有时候默认为什么会产生很多task，怎么修改默认task执行个数？6.RDD中reduceBykey与groupByKey哪个性能好，为什么？7.SparkMasterHA主从切换过程不会影响到集群已有作业的运行，为什么？8.SparkMaster使
Spark面试题 golove666 面试题大全 spark 大数据分布式面试
Spark面试题1.Spark基础概念1.1解释Spark是什么以及它的主要特点Spark是什么？Spark的主要特点1.2描述Spark运行时架构和组件主要的Spark架构组件：1.3讲述Spark中的弹性分布式数据集（RDD）和数据帧（DataFrame）弹性分布式数据集（RDD）主要特征：创建和转换：使用场景：数据帧（DataFrame）主要特征：创建和操作：使用场景：RDD与DataFra
图计算：基于SparkGrpahX计算聚类系数妙龄少女郭德纲 Spark 图算法 Scala 聚类数据挖掘机器学习
图计算：基于SparkGrpahX计算聚类系数文章目录图计算：基于SparkGrpahX计算聚类系数一、什么是聚类系数二、基于SparkGraphX的聚类系数代码实现总结一、什么是聚类系数聚类系数（ClusteringCoefficient）是图计算和网络分析中的一个重要概念，用于衡量网络中节点的局部聚集程度。它有助于理解网络中节点之间的紧密程度和网络的结构特性。这是一种用来衡量图中节点聚类程度的
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
Spark运行时架构 tooolik spark 架构大数据
目录一，Spark运行时架构二，YARN集群架构（一）YARN集群主要组件1、ResourceManager-资源管理器2、NodeManager-节点管理器3、Task-任务4、Container-容器5、ApplicationMaster-应用程序管理器6，总结（二）YARN集群中应用程序的执行流程三、SparkStandalone架构（一）client提交方式（二）cluster提交方式四、
使用SparkSql进行表的分析与统计 xingyuan8 大数据 java
背景我们的数据挖掘平台对数据统计有比较迫切的需求，而Spark本身对数据统计已经做了一些工作，希望梳理一下Spark已经支持的数据统计功能，后期再进行扩展。准备数据在参考文献6中下载鸢尾花数据，此处格式为iris.data格式，先将data后缀改为csv后缀（不影响使用，只是为了保证后续操作不需要修改）。数据格式如下：SepalLengthSepalWidthPetalLengthPetalWid
13.Spark Core-Spark中广播变量和累加器 __元昊__
一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。二、具体原理1、广播变量广播变量理解图image注意事项1、能不能将一个RDD使用广播变量广播出去？不能，因为RDD是不存储数据的。可以将RDD的结果广播出去。2、广播变量只能在Driver端定义，不能在Executor
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Spark底层逻辑傲雪凌霜，松柏长青大数据后端 spark 大数据
ApacheSpark的底层逻辑可以从其核心概念、组件和执行流程等方面来理解。Spark提供了一个分布式数据处理框架，其底层逻辑基于批处理架构，能够在大规模集群中高效地处理数据。以下是Spark的底层逻辑的详细介绍：1.核心概念Spark的底层基于几个核心概念来实现分布式计算，包括：RDD（ResilientDistributedDataset，弹性分布式数据集）：RDD是Spark最基础的数据抽
Spark - 升级版数据源JDBC2 大猪大猪
在spark的数据源中，只支持Append,Overwrite,ErrorIfExists,Ignore,这几种模式，但是我们在线上的业务几乎全是需要upsert功能的，就是已存在的数据肯定不能覆盖，在mysql中实现就是采用：ONDUPLICATEKEYUPDATE，有没有这样一种实现？官方：不好意思，不提供，dounine：我这有呀，你来用吧。哈哈，为了方便大家的使用我已经把项目打包到mave
PySpark 静听山水 Spark spark
PySpark的本质确实是Python的一个接口层，它允许你使用Python语言来编写ApacheSpark应用程序。通过这个接口，你可以利用Spark强大的分布式计算能力，同时享受Python的易用性和灵活性。1、PySpark的工作原理PySpark的工作原理可以概括为以下几个步骤：编写Python代码：开发者使用Python语法来编写Spark应用程序。这些程序通常涉及创建RDDs（弹性分布
Ubuntu的ssh 请不要问我是谁
安装sshsudoapt-getupdatesudoapt-getinstallopenssh-server检测ssh是否启动sudops-e|grepssh创建root用户sudopasswdroot配置本机无密码ssh登录cd/home/spark0ssh-keygen-trsa-P""cat.ssh/id_rsa.pub>>.ssh/authorized_keyschmod600.ssh/a
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他