bit1129

【Spark二十】运行Spark Streaming的NetworkWordCount实例

Spark Streaming简介

NetworkWordCount代码

/*
* Licensed to the Apache Software Foundation (ASF) under one or more
* contributor license agreements. See the NOTICE file distributed with
* this work for additional information regarding copyright ownership.
* The ASF licenses this file to You under the Apache License, Version 2.0
* (the "License"); you may not use this file except in compliance with
* the License. You may obtain a copy of the License at
*
* http://www.apache.org/licenses/LICENSE-2.0
*
* Unless required by applicable law or agreed to in writing, software
* distributed under the License is distributed on an "AS IS" BASIS,
* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
* See the License for the specific language governing permissions and
* limitations under the License.
*/
package org.apache.spark.examples.streaming
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.storage.StorageLevel
/**
* Counts words in UTF8 encoded, '\n' delimited text received from the network every second.
*
* Usage: NetworkWordCount <hostname> <port>
* <hostname> and <port> describe the TCP server that Spark Streaming would connect to receive data.
*
* To run this on your local machine, you need to first run a Netcat server
* `$ nc -lk 9999`
* and then run the example
* `$ bin/run-example org.apache.spark.examples.streaming.NetworkWordCount localhost 9999`
*/
object NetworkWordCount {
	def main(args: Array[String]) {
		if (args.length < 2) {
		System.err.println("Usage: NetworkWordCount <hostname> <port>")
		System.exit(1)
	}
	StreamingExamples.setStreamingLogLevels()
	// Create the context with a 1 second batch size
	// 创建SparkConf实例
	val sparkConf = new SparkConf().setAppName("NetworkWordCount")
	
	///创建Spark Streaming Context，每隔1秒钟处理一批数据，那么这一秒收集的数据存放在哪，如何将收集的数据推送出去？是生产者主动推出去还是消费者每隔1秒钟来拉取一次数据
	val ssc = new StreamingContext(sparkConf, Seconds(1))
	
	// Create a socket stream on target ip:port and count the
	// words in input stream of \n delimited text (eg. generated by 'nc')
	// Note that no duplication in storage level only for running locally.
	// Replication necessary in distributed scenario for fault tolerance.
	val lines = ssc.socketTextStream(args(0), args(1).toInt, StorageLevel.MEMORY_AND_DISK_SER)
	//flatMap是把将每一行使用空格做分解，那么words对应的数据结构是怎么样的？
        ///words是个集合，每个集合元素依然是个集合，这个集合存放单词
        val words = lines.flatMap(_.split(" "))
	val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
	wordCounts.print()
	//启动计算作业
	ssc.start()
	
	//等待结束，什么时候结束作业，即触发什么条件会让作业执行结束
	ssc.awaitTermination()
   }
}

运行NetworkWordCount

1. 启动NetCat命令

[hadoop@hadoop ~]$ nc -lk 9999
This is a book

启动后，可以在后面输入文本，比如This is a book

2. 在另外一个终端，Spark提交NetworkWordCount任务

./bin/run-example streaming.NetworkWordCount localhost 9999

启动后，发现每隔一秒钟，打印一行日志，例如

15/01/11 00:10:09 INFO scheduler.JobScheduler: Added jobs for time 1420953009000 ms
15/01/11 00:10:10 INFO scheduler.JobScheduler: Added jobs for time 1420953010000 ms
15/01/11 00:10:11 INFO scheduler.JobScheduler: Added jobs for time 1420953011000 ms
15/01/11 00:10:12 INFO scheduler.JobScheduler: Added jobs for time 1420953012000 ms
15/01/11 00:10:13 INFO scheduler.JobScheduler: Added jobs for time 1420953013000 ms
15/01/11 00:10:14 INFO scheduler.JobScheduler: Added jobs for time 1420953014000 ms
15/01/11 00:10:15 INFO scheduler.JobScheduler: Added jobs for time 1420953015000 ms
15/01/11 00:10:16 INFO scheduler.JobScheduler: Added jobs for time 1420953016000 ms
15/01/11 00:10:17 INFO scheduler.JobScheduler: Added jobs for time 1420953017000 ms
15/01/11 00:10:18 INFO scheduler.JobScheduler: Added jobs for time 1420953018000 ms

///Added jobs是个什么概念？不就是一个Job吗
15/01/11 00:10:19 INFO scheduler.JobScheduler: Added jobs for time 1420953019000 ms
15/01/11 00:10:20 INFO scheduler.JobScheduler: Added jobs for time 1420953020000 ms
15/01/11 00:10:21 INFO scheduler.JobScheduler: Added jobs for time 1420953021000 ms
15/01/11 00:10:22 INFO scheduler.JobScheduler: Added jobs for time 1420953022000 ms
15/01/11 00:10:23 INFO scheduler.JobScheduler: Added jobs for time 1420953023000 ms
15/01/11 00:10:24 INFO scheduler.JobScheduler: Added jobs for time 1420953024000 ms
15/01/11 00:10:25 INFO scheduler.JobScheduler: Added jobs for time 1420953025000 ms
15/01/11 00:10:26 INFO scheduler.JobScheduler: Added jobs for time 1420953026000 ms
15/01/11 00:10:27 INFO scheduler.JobScheduler: Added jobs for time 1420953027000 ms
15/01/11 00:10:28 INFO scheduler.JobScheduler: Added jobs for time 1420953028000 ms

3. 在nc -lk运行的终端，输入文本，发现Spark作业没有将文本输出

不过通过nc -lk输入一行文本后，控制台会显示如下信息

5/01/11 00:29:08 INFO storage.MemoryStore: ensureFreeSpace(11) called with curMem=91198, maxMem=280248975
15/01/11 00:29:08 INFO storage.MemoryStore: Block input-0-1420954147800 stored as bytes in memory (estimated size 11.0 B, free 267.2 MB)
15/01/11 00:29:08 INFO scheduler.JobScheduler: Added jobs for time 1420954148000 ms
15/01/11 00:29:08 INFO storage.BlockManagerInfo: Added input-0-1420954147800 in memory on localhost:57786 (size: 11.0 B, free: 267.2 MB)
15/01/11 00:29:08 INFO storage.BlockManagerMaster: Updated info of block input-0-1420954147800
15/01/11 00:29:08 INFO receiver.BlockGenerator: Pushed block input-0-1420954147800

4. 关闭nc命令的执行，此时，Spark报错，提示9999端口连接不上

///相对于数据源而言，Spark是Receiver，所以Spark Streaming有Receiver这个模块
15/01/11 00:09:36 INFO receiver.ReceiverSupervisorImpl: Stopped receiver 0
15/01/11 00:09:37 INFO scheduler.JobScheduler: Added jobs for time 1420952977000 ms
15/01/11 00:09:38 INFO scheduler.JobScheduler: Added jobs for time 1420952978000 ms
///重提开始Receiver
15/01/11 00:09:38 INFO receiver.ReceiverSupervisorImpl: Starting receiver again
15/01/11 00:09:38 INFO receiver.ReceiverSupervisorImpl: Starting receiver
15/01/11 00:09:38 INFO receiver.ReceiverSupervisorImpl: Called receiver onStart
15/01/11 00:09:38 INFO scheduler.ReceiverTracker: Registered receiver for stream 0 from akka://sparkDriver
15/01/11 00:09:38 INFO receiver.ReceiverSupervisorImpl: Receiver started again
15/01/11 00:09:38 INFO dstream.SocketReceiver: Connecting to localhost:9999
15/01/11 00:09:38 WARN receiver.ReceiverSupervisorImpl: Restarting receiver with delay 2000 ms: Error connecting to localhost:9999
java.net.ConnectException: Connection refused
	at java.net.PlainSocketImpl.socketConnect(Native Method)
	at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:339)
	at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:200)
	at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:182)
	at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
	at java.net.Socket.connect(Socket.java:579)
	at java.net.Socket.connect(Socket.java:528)
	at java.net.Socket.<init>(Socket.java:425)
	at java.net.Socket.<init>(Socket.java:208)
	at org.apache.spark.streaming.dstream.SocketReceiver.receive(SocketInputDStream.scala:71)
	at org.apache.spark.streaming.dstream.SocketReceiver$$anon$2.run(SocketInputDStream.scala:57)

关于接不到消息

下面的代码收不到消息

val sparkConf = new SparkConf().setAppName("SparkStreamingExample").setMaster("local")

而下面的代码则能收到消息

val sparkConf = new SparkConf().setAppName("SparkStreamingExample").setMaster("local[2]")

原因来自于http://spark.apache.org/docs/latest/streaming-programming-guide.html：

When running a Spark Streaming program locally, do not use “local” or “local[1]” as the master URL. Either of these means that only one thread will be used for running tasks locally. If you are using a input DStream based on a receiver (e.g. sockets, Kafka, Flume, etc.), then the single thread will be used to run the receiver, leaving no thread for processing the received data. Hence, when running locally, always use “local[n]” as the master URL where n > number of receivers to run (see Spark Properties for information on how to set the master).
Extending the logic to running on a cluster, the number of cores allocated to the Spark Streaming application must be more than the number of receivers. Otherwise the system will receive data, but not be able to process them.

关于Receiver的线程数

上面提到，有一个线程用于运行Receiver,实际中，可能需要多个线程运行Receiver：

Receiving data over the network (like Kafka, Flume, socket, etc.) requires the data to deserialized and stored in Spark. If the data receiving becomes a bottleneck in the system, then consider parallelizing the data receiving. Note that each input DStream creates a single receiver (running on a worker machine) that receives a single stream of data. Receiving multiple data streams can therefore be achieved by creating multiple input DStreams and configuring them to receive different partitions of the data stream from the source(s). For example, a single Kafka input DStream receiving two topics of data can be split into two Kafka input streams, each receiving only one topic. This would run two receivers on two workers, thus allowing data to be received in parallel, and increasing overall throughput. These multiple DStream can be unioned together to create a single DStream. Then the transformations that was being applied on the single input DStream can applied on the unified stream. This is done as follows

val numStreams = 5
val kafkaStreams = (1 to numStreams).map { i => KafkaUtils.createStream(...) }
val unifiedStream = streamingContext.union(kafkaStreams)
unifiedStream.print()

关于Spark内部处理数据的并行数

Cluster resources can be under-utilized if the number of parallel tasks used in any stage of the computation is not high enough. For example, for distributed reduce operations like reduceByKey and reduceByKeyAndWindow, the default number of parallel tasks is controlled by thespark.default.parallelism configuration property. You can pass the level of parallelism as an argument (see PairDStreamFunctions documentation), or set the spark.default.parallelism configuration property to change the default.

关于谁先启动：

如果SparkStreaming先启动而9999端口后启动，会发生什么样的情况？

首先，SparkStreaming每次到了时间点都会提示连接失败，也就是说，每次操作都是尝试新建连接。

1. 实际上，当SparkStreaming每次时间间隔到了进行提交作业时，都会首先start Receiver，本次Job运行完成时再stop Receiver，如下是一个时间点在没有开启9999的一个情况

[hadoop@hadoop ~]$ cat spark.log | grep "2015-02-20 00:50:04"
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Slicing from 1424411402000 ms to 1424411404000 ms (aligned to 1424411402000 ms and 1424411404000 ms)
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Added jobs for time 1424411404000 ms
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Starting job: foreachRDD at LogAnalyzerStreamingSQL.scala:44
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Job 238 finished: foreachRDD at LogAnalyzerStreamingSQL.scala:44, took 0.000036 s
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Starting job streaming job 1424411404000 ms.0 from job set of time 1424411404000 ms
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Finished job streaming job 1424411404000 ms.0 from job set of time 1424411404000 ms
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Total delay: 0.012 s for time 1424411404000 ms (execution: 0.000 s)
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Removing RDD 711 from persistence list
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Removing RDD 711
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Removing RDD 704 from persistence list
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Removing RDD 704
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Removing RDD 703 from persistence list
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Removing RDD 703
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Removing blocks of RDD BlockRDD[703] at socketTextStream at LogAnalyzerStreamingSQL.scala:38 of time 1424411404000 ms
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Deleting batches ArrayBuffer()
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Deleting batches ArrayBuffer(1424411400000 ms)
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Starting receiver again
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Starting receiver
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Called receiver onStart
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Registered receiver for stream 0 from akka://sparkDriver
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Receiver started again
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Connecting to hadoop.master:9999
[WARN ] [2015-02-20 00:50:04] [Logging$class:logWarning:92] Restarting receiver with delay 2000 ms: Error connecting to hadoop.master:9999
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Stopping receiver with message: Restarting receiver with delay 2000ms: Error connecting to hadoop.master:9999: java.net.ConnectException: Connection refused
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Called receiver onStop
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Deregistering receiver 0
[ERROR] [2015-02-20 00:50:04] [Logging$class:logError:75] Deregistered receiver for stream 0: Restarting receiver with delay 2000ms: Error connecting to hadoop.master:9999 - java.net.ConnectException: Connection refused
[INFO ] [2015-02-20 00:50:04] [Logging$class:logInfo:59] Stopped receiver 0

上面的日志有Starting receiver和Stopped Receiver的输出，同时，也有java.net.Connection refused的异常

2. 虽然9999端口没有监听上，但是此时由于提交了spark streaming application，那么spark streaming application已经开始正常运行了，即上面的wordcount例子，words这个RDD为空，下面的代码更能说明问题：

package spark.examples.databricks.reference.apps.loganalysis

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.streaming.{StreamingContext, Duration}

/**
 * The LogAnalyzerStreamingSQL is similar to LogAnalyzerStreaming, except
 * it computes stats using Spark SQL.
 *
 * To feed the new lines of some logfile into a socket for streaming,
 * Run this command:
 *   % tail -f [YOUR_LOG_FILE] | nc -lk 9999
 *
 * If you don't have a live log file that is being written to,
 * you can add test lines using this command:
 *   % cat ../../data/apache.access.log >> [YOUR_LOG_FILE]
 *
 * Example command to run:
 * % spark-submit
 *   --class "com.databricks.apps.logs.chapter1.LogAnalyzerStreaming"
 *   --master local[4]
 *   target/scala-2.10/spark-logs-analyzer_2.10-1.0.jar
 */
object LogAnalyzerStreamingSQL {
  val WINDOW_LENGTH = new Duration(4 * 1000)
  val SLIDE_INTERVAL = new Duration(2 * 1000)

  def main(args: Array[String]) {
    val sparkConf = new SparkConf().setAppName("Log Analyzer Streaming SQL in Scala")
    val sc = new SparkContext(sparkConf)

    val sqlContext = new SQLContext(sc)
    import sqlContext.createSchemaRDD

    val streamingContext = new StreamingContext(sc, SLIDE_INTERVAL)

    //首先应该监听上localhost:9999端口，如果不监听会发生什么情况？
    //下面的逻辑  println("No access com.databricks.app.logs received in this time interval")已经执行了
    //同时日志中报出Connection Refused错误
    val logLinesDStream = streamingContext.socketTextStream("localhost", 9999)

    //转换成DStream[ApacheAccessLog]
    val accessLogsDStream = logLinesDStream.map(ApacheAccessLog.parseLogLine).cache()

    val windowDStream = accessLogsDStream.window(WINDOW_LENGTH, SLIDE_INTERVAL)

    windowDStream.foreachRDD(accessLogs => {
      if (accessLogs.count() == 0) {
        println("No access com.databricks.app.logs received in this time interval")
      } else {
        accessLogs.registerTempTable("TBL_ACCESS_LOG")

        // Calculate statistics based on the content size.
        val contentSizeStats = sqlContext
          .sql("SELECT SUM(contentSize), COUNT(*), MIN(contentSize), MAX(contentSize) FROM TBL_ACCESS_LOG")
          .first()
        println("Content Size Avg: %s, Min: %s, Max: %s".format(
          contentSizeStats.getLong(0) / contentSizeStats.getLong(1),
          contentSizeStats(2),
          contentSizeStats(3)))

        // Compute Response Code to Count.
        val responseCodeToCount = sqlContext
          .sql("SELECT responseCode, COUNT(*) FROM TBL_ACCESS_LOG GROUP BY responseCode")
          .map(row => (row.getInt(0), row.getLong(1)))
          .take(1000)
        println(s"""Response code counts: ${responseCodeToCount.mkString("[", ",", "]")}""")

        // Any IPAddress that has accessed the server more than 10 times.
        val ipAddresses =sqlContext
          .sql("SELECT ipAddress, COUNT(*) AS total FROM TBL_ACCESS_LOG GROUP BY ipAddress HAVING total > 10")
          .map(row => row.getString(0))
          .take(100)
        println(s"""IPAddresses > 10 times: ${ipAddresses.mkString("[", ",", "]")}""")

        val topEndpoints = sqlContext
          .sql("SELECT endpoint, COUNT(*) AS total FROM TBL_ACCESS_LOG GROUP BY endpoint ORDER BY total DESC LIMIT 10")
          .map(row => (row.getString(0), row.getLong(1)))
          .collect()
        println(s"""Top Endpoints: ${topEndpoints.mkString("[", ",", "]")}""")
      }
    })

    streamingContext.start()
    streamingContext.awaitTermination()
  }
}

虽然9999端口没有开启监听，但是spark streaming application的console，定时的输出No access com.databricks.app.logs received in this time interval

Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
Spark分布式计算原理 NightFall丶 #Spark apache spark spark
目录一、RDD依赖与DAG原理1.1RDD的转换一、RDD依赖与DAG原理Spark根据计算逻辑中的RDD的转换与动作生成RDD的依赖关系，同时这个计算链也形成了逻辑上的DAG。1.1RDD的转换e.g.(以wordcount为例）packagesparkimportorg.apache.spark.{SparkConf,SparkContext}objectWordCount{defmain(a
【Hadoop】- MapReduce & YARN 初体验[9] 星星法术嗲人 hadoop hadoop mapreduce
目录提交MapReduce程序至YARN运行1、提交wordcount示例程序1.1、先准备words.txt文件上传到hdfs，文件内容如下：1.2、在hdfs中创建两个文件夹，分别为/input、/output1.3、将创建好的words.txt文件上传到hdfs中/input1.4、提交MapReduce程序至YARN1.5、可通过node1:8088查看1.6、返回我们的服务器，检查输出文
flink经典实战案例不爱吃肉肉 flink big data java scala
一、java版flink-wordcount-离线计算版1.1maven构建flink，加入依赖org.apache.flinkflink-java${flink.version}provided-->org.apache.flinkflink-clients_${scala.version}${flink.version}1.2java实现flinkwordCount的代码编写1.2.1代码编写
Spark Streaming（二）：DStream数据源雪飘千里
1、输入DStream和Receiver输入（Receiver）DStream代表了来自数据源的输入数据流，在之前的wordcount例子中，lines就是一个输入DStream（JavaReceiverInputDStream），代表了从netcat（nc）服务接收到的数据流。除了文件数据流之外，所有的输入DStream都会绑定一个Receiver对象，该对象是一个关键的组件，用来从数据源接收数
ros自定义srv记录西木九 robotic ROS srv
文章目录自定义srv1.定义srv文件2.修改package.xml3.修改CMakeLists.txt4.sevice_server.py5.运行`catkinbuild`测试使用(rosservice命令)自定义srvros版本：kinetic自定义test包的文件结构如下|--test||--CMakeLists.txt||--srv||`--WordCount.srv||--package
Hive使用双重GroupBy解决数据倾斜问题黄土高坡上的独孤前辈 Hive/Kylin数据仓库 hive hadoop 数据仓库
文章目录1.数据准备2.双重groupby实现解决数据倾斜2.1第一层加盐groupby2.2第二层去盐groupby1.数据准备createtablewordcount(astring)rowformatdelimitedfieldsterminatedby‘,’;loaddatalocalinpath‘opt/2.txt’intotablewordcount;hive(default)>sel
Scala基础教程--19--Actor 落空空。 java spark scala java 开发语言
Scala基础教程–19–Actor章节目标了解Actor的相关概述掌握Actor发送和接收消息掌握WordCount案例1.Actor介绍Scala中的Actor并发编程模型可以用来开发比Java线程效率更高的并发程序。我们学习ScalaActor的目的主要是为后续学习Akka做准备。1.1Java并发编程的问题在Java并发编程中，每个对象都有一个逻辑监视器（monitor），可以用来控制对象
【Flink入门修炼】1-3 Flink WordCount 入门实现 flinkhadoop
本篇文章将带大家运行Flink最简单的程序WordCount。先实践后理论，对其基本输入输出、编程代码有初步了解，后续篇章再对Flink的各种概念和架构进行介绍。下面将从创建项目开始，介绍如何创建出一个Flink项目；然后从DataStream流处理和FlinkSQL执行两种方式来带大家学习WordCount程序的开发。Flink各版本之间变化较多，之前版本的函数在后续版本可能不再支持。跟随学习时
七天爆肝flink笔记我才是真的封不觉 flink 笔记大数据
一.flink整体介绍及wordcount案例代码1.1整体介绍从上到下包含有界无界流支持状态特点与spark对比应用场景架构分层1.2示例代码了解了后就整个demo吧数据源准备这里直接用的文本文件gradle中的主要配置group='com.example'version='0.0.1-SNAPSHOT'java{sourceCompatibility='11'}repositories{mav
Hadoop手把手逐级搭建第二阶段: Hadoop完全分布式(full) 郑大能
前置步骤:1).第一阶段：Hadoop单机伪分布(single)0.步骤概述1).克隆4台虚拟机2).为完全分布式配置ssh免密3).将hadoop配置修改为完全分布式4).启动完全分布式集群5).在完全分布式集群上测试wordcount程序1.克隆4台虚拟机1.1使用hadoop0克隆4台虚拟机hadoop1,hadoop2,hadoop3,hadoop41.1.0克隆虚拟机hadoop11.1
FLink发布任务卡门001
例子任务名：SocketWindowWordCount.jar开启客户端模拟发数据nc-lk9527命令行启动../../bin/flinkrun-corg.apache.flink.streaming.examples.socket.SocketWindowWordCountSocketWindowWordCount.jar--hostnamelocalhost--port9527参数--hos
【Flink入门修炼】1-3 Flink WordCount 入门实现大数据王小皮 Flink 入门修炼 flink 大数据
本篇文章将带大家运行Flink最简单的程序WordCount。先实践后理论，对其基本输入输出、编程代码有初步了解，后续篇章再对Flink的各种概念和架构进行介绍。下面将从创建项目开始，介绍如何创建出一个Flink项目；然后从DataStream流处理和FlinkSQL执行两种方式来带大家学习WordCount程序的开发。Flink各版本之间变化较多，之前版本的函数在后续版本可能不再支持。跟随学习时
win10 spark scala 本地运行wordcount 疯琴大数据 java/scala flink/spark
注意每次修改环境变量都要重启cmd本机运行需要hadoopcommon，可以从github下载zip，解包以后设置HADOOP_HOME环境变量指向它，然后在PATH里加上HADOOP_HOME\bin，特别注意，hadoopcommon的版本要和spark的hadoop版本匹配spark的scala和本机的scala大版本要匹配报错ExceptionwhiledeletingSparktempd
在多台阿里云服务器上部署Hadoop分布式系统及WordCount实验 Clearlove灬Star 大数据阿里云 Hadoop 分布式 Wordcount
一、实现master与slave之间无密码连接分别在master及slave上生成rsa密钥：mkdir~/.sshcd~/.sshssh-keygen-t-rsa一路回车（选择默认设置），此时，ssh文件夹中生成了id_rsa.pub和id_rsa两个，然后使用scp命令将公钥（id_rsa.pub）分别拷到对方机器中scpid_rsa.pubh1@对方机器IP：~/.ssh/authorize
合肥工业大学2022大数据技术实验二一头骇人鲸大数据技术大数据 hadoop java
实验序号及名称：实验二在Hadoop平台上部署WordCount程序实验时间∶2022年5月14日预习内容一、实验目的和要求∶在Hadoop平台上部署WordCount程序。二、实验任务∶该项任务请同学作为作业自行完成，并提交实验报告。脱离ide环境运行wordcount三、实验准备方案，包括以下内容：（硬件类实验：实验原理、实验线路、设计方案等）（软件类实验：所采用的系统、组件、工具、核心方法、
hadoopwordcount代码分析姹紫_嫣红大数据hadoop Java
packagecom.felix;importjava.io.IOException;//java输入输出文件异常类importjava.util.Iterator;Iterator是迭代器类importjava.util.StringTokenizer;用来对字符串进行切importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntW
【实验2】在Hadoop平台上部署WordCount程序 -借我杀死庸碌的情怀- hadoop npm 大数据 centos 分布式
文章目录实验内容一、实验环境：二、实验内容与步骤（过程及数据记录）：5.分布式文件系统HDFS上的操作5.1利用Shell命令与HDFS进行交互5.2利用Web界面管理HDFS6.分布式文件系统HDFS上的编程实践6.1安装Eclipse6.2创建Eclipse工程6.3编写一个Java应用程序检测HDFS中是否存在一个文件7.Eclipse上的HDFS操作7.1安装Hadoop-Eclipse-
Spark大数据分析与实战笔记（第二章 Spark基础-06）想你依然心痛 #Spark大数据分析与实战 spark 数据分析笔记
文章目录每日一句正能量2.6IDEA开发WordCount程序2.6.1本地模式执行Spark程序2.6.2集群模式执行Spark程序每日一句正能量我们全都要从前辈和同辈学习到一些东西。就连最大的天才，如果想单凭他所特有的内在自我去对付一切，他也决不会有多大成就。2.6IDEA开发WordCount程序Spark-Shell通常在测试和验证我们的程序时使用的较多，然而在生产环境中,通常会在IDEA
Spark Shuffle模块详解晓之以理的喵~~ 大数据 Hadoop Spark spark 大数据 hadoop
Shuffle，具有某种共同特征的一类数据需要最终汇聚（aggregate）到一个计算节点上进行计算。这些数据分布在各个存储节点上并且由不同节点的计算单元处理。以最简单的WordCount为例，其中数据保存在Node1、Node2和Node3；经过处理后，这些数据最终会汇聚到Nodea、Nodeb处理。这个数据重新打乱然后汇聚到不同节点的过程就是Shuffle。但是实际上，Shuffle过程可能会
6.0 MapReduce 服务使用教程二当家的素材网 Hadoop 教程 mapreduce 大数据
在学习了之前的MapReduce概念之后，我们应该已经知道什么是Map和Reduce，并了解了他们的工作方式。本章将学习如何使用MapReduce。WordCountWordCount就是"词语统计"，这是MapReduce工作程序中最经典的一种。它的主要任务是对一个文本文件中的词语作归纳统计，统计出每个出现过的词语一共出现的次数。Hadoop中包含了许多经典的MapReduce示例程序，其中就包
Spark Streaming实战：窗口操作，每10秒，把过去30秒的数据取出来(读取端口号1235中的数据) Movle
1.需求：窗口操作，每10秒，把过去30秒的数据取出来窗口长度：30秒滑动距离：10秒2.代码：(1)pom.xmlorg.apache.sparkspark-core_2.112.1.0org.apache.sparkspark-sql_2.112.1.0org.apache.sparkspark-streaming_2.112.1.0(2)MyNetWorkWordCountByWindow.
spark WordCount lehuai
SparkWC.scalapackageday06importorg.apache.spark.rdd.RDDimportorg.apache.spark.{SparkConf,SparkContext}objectSparkWC{defmain(args:Array[String]):Unit={//配置信息类valconf:SparkConf=newSparkConf().setAppName
大数据组件笔记 -- Spark 入门 L小Ray想有腮 BigData
文章目录一、简介二、Spark运行模式2.1本地模式2.2集群角色2.3Standalone模式2.4Yarn模式2.5总结三、WordCount开发案例实操一、简介Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。Spark历史Spark虽然有自己的资源调度框架，但实际中常用Yarn来进行统一资源管理。Spark框架Spark内置模块SparkCore：实现了Spark的基本功能
Flink的dataStream的状态保存和恢复我还不够强
我们前面写的wordcount的例子，没有包含状态管理。如果一个task在处理过程中挂掉了，那么它在内存中的状态都会丢失，所有的数据都需要重新计算。从容错和消息处理的语义上(atleastonce,exactlyonce)，Flink引入了state和checkpoint。首先区分一下两个概念state一般指一个具体的task/operator的状态【state数据默认保存在java的堆内存中】而
Flink 1.18.1的基本使用 You Only Live Once_2 快速响应 flink 大数据
系统示例应用/usr/local/flink-1.18.1/bin/flinkrun/usr/local/flies/streaming/SocketWindowWordCount.jar--port9010nc-l9010asdasdsdfsfsdfsdfsdagdsdf单次统计示例工程cdC:\Dev\IdeaProjectsmvnarchetype:generate-DarchetypeGr
Hadoop3.x基础（3）- MapReduce 魅美大数据基础 hadoop
来源:B站尚硅谷目录MapReduce概述MapReduce定义MapReduce优缺点优点缺点MapReduce核心思想MapReduce进程常用数据序列化类型MapReduce编程规范WordCount案例实操本地测试提交到集群测试Hadoop序列化序列化概述自定义bean对象实现序列化接口（Writable）序列化案例实操MapReduce框架原理InputFormat数据输入切片与MapT
大数据 - Spark系列《一》- 从Hadoop到Spark：大数据计算引擎的演进王哪跑nn spark 大数据 spark hadoop
目录1.1Hadoop回顾1.2spark简介1.3Spark特性1.通用性2.简洁灵活3.多语言1.4SparkCore编程体验1.4.1spark开发工程搭建1.开发语言选择：2.依赖管理工具：1.4.2Spark编程流程1.获取sparkcontext对象2.加载数据3.处理转换数据4.输出结果,释放资源1.4.3简单代码实现-wordCount在大数据领域，Hadoop一直是一个重要的框架
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include