Hellomdk

资源调度（学习笔记）

文章目录

资源调度流程
资源调度原理

workers集合
waitingDriver集合
waitingApps集合
Schedule方法

资源调度源码分析

资源调度三大集合源码解析
一 schedule方法

1.1 Random.shuffle是一个java的方法。
1.2 launchDriver 发起driver

二 startExecutorsOnWorkers 在worker上启动executor进程
三 scheduleExecutorsOnWorkers在每一个worker上调度资源
四 allocateWorkerResourceToExecutors在worker上分配具体的资源

资源调度流程

1，当集群启动时，各个worker向master汇报信息，封装到workerInfo类中，放入workers集合。
2，当客户端向集群提交Application时，首先会在客户端启动一个sparksubmit进程
3，为driver向Master申请资源，此时先遍历waitingDriver集合，集合不为空，说明有客户端向master申请资源，此时再遍历workers集合，随机找一台资源充沛的worker节点，启动driver进程。
4，Driver启动成功后，把这个申请信息从waitingDriver中删除掉。
5，Driver向Master为当前的Application申请资源。此时将请求信息封装到ApplicationInfo中，放入waitingApps集合中。
5，Master接收到请求后，查看waitingApps集合，若不为空，再遍历worker集合，寻找符合条件的worker节点，在这些worker节点上启动一批excuter进程，这些excuter，默认占用1G内存和这个excuter所能管理的所有的核。
7，excuter启动成功后，向TaskSchedule反向注册。
8，TaskSchedule可以向各个excuter进程分发task。

资源调度原理

workers集合

当集群启动的时候，各个worker节点向master汇报信息，这些信息先是封装到workerInfo类中，再把这些类放到workers集合中。

waitingDriver集合

waitingDriver存放的都是等待client向master申请资源的信息（这个资源实际上就是Driver）。
当 waitingDriver集合中元素不为空，说明有客户端向master申请资源，此时应该查看当前集群的资源情况(查看一下workers集合)，找到符合要求的节点，启动Driver，当Driver成功启动，这个申请资源的信息从waitingDrivers中删掉。

waitingApps集合

waitingApps存放的都是Driver向Master申请的资源（为当前Application申请的资源）。
当waitingApps集合不为空，说明Driver向Master为当前的Application申请资源，查看集群的资源情况（workers集合），找到合适的worker节点，启动Excuter进程，默认情况下，每一个worker为当前的Application只是启动一个Excutor，这个Excutor会使用1G内存和这个worker所管理的所有的core。

Schedule方法

waitingApps和waitingDriver这两个集合一直在发生变化，所以需要时时监控他们的状态。

所以Master里有一个schedule()方法，每当这两个集合中添加元素的时候，就会反调这个方法，这个方法里有2套逻辑，分别对应这两个集合，当某个集合反调这个函数时，它会按照上述处理过程来处理。

资源调度源码分析

Master是通过schedule方法进行资源调度，告知worker启动executor等。

资源调度三大集合源码解析

val workers = new HashSet[WorkerInfo]   // 存储每一个Worker节点的基本信息
val waitingApps = new ArrayBuffer[ApplicationInfo]
private val waitingDrivers = new ArrayBuffer[DriverInfo]

WorkerInfo

host：Worker所在的节点
port：端口号
cores：worker所有的核数
memory：它所有的内存
endpoint：spark内部通信属性，类似于邮箱
webUiAddress：外部UI的地址，默认端口8081

DriverInfo

StartTime：启动时间
id：id号
desc：Driver的资源描述信息

ApplicationInfo

startTime：开启时间
id：id号
desc：App的使用资源信息

一 schedule方法

前面分析的都是怎样将资源,如worker、executor、Application等加入到各自的等待队列中(失败完成异常等等).
在等待的应用程序中调度当前可用的资源。
此方法将被调用–>每次一个新的应用程序连接或可用资源改变的时候。

Master上面最重要的部分–>Master资源调度算法(其实就是在worker上面启动Executor)

1 判断master状态，只有alive状态的master才可以进行资源调度，standby是不能够调度的
2 将可用的worker节点打乱，这样有利于driver的负载均衡
3 进行driver资源调度，遍历处于等待状态的driver队列，发起driver
4 在worker上开启executor进程

private def schedule(): Unit = {
// 判断Master的状态
// 只有alive状态的master才可以进行资源调度，standby是不能够调度的
if (state != RecoveryState.ALIVE) { return }
 
// 将可用的worker节点打乱，这样有利于driver的均衡
val shuffledWorkers = Random.shuffle(workers)
for (worker <- shuffledWorkers if worker.state == WorkerState.ALIVE) {
// 进行driver资源调度，遍历处于等待状态的driver队列
for (driver <- waitingDrivers) {
// 判断worker的可使用内存是否大于driver所需要的内存以及worker可使用cpu核数是否大于driver所需要的cpu核数
if (worker.memoryFree >= driver.desc.mem && worker.coresFree >= driver.desc.cores) {
// 满足条件发起driver
launchDriver(worker, driver)
// 将当前driver从等待队列中移除
waitingDrivers -= driver
}
}
}
// 在worker上开启executor进程
startExecutorsOnWorkers()
}

1.1 Random.shuffle是一个java的方法。

Random.shuffle的原理是:
对传入集合中的元素进行随机的打乱,取出workers中所有注册上来的worker,首先进行过滤,必须保证(作为参数)传入的worker的状态都是alive的,然后, 对于状态为alive的worker,调用shuffle方法进行打乱。

将worker存入到ArrayBuffer中并赋值给buf.
swap函数: 是将索引位置上的Worker两两进行交换.
For循环：从buf中最后一个元素开始循环，一直到索引为3，其中的nextInt是取0到n-1的随机数，然后调用swp()函数，将n-1和k进行交换，这样执行结束后，buf中的Worker顺序完全被打乱了

def shuffle[T, CC[X] <: TraversableOnce[X]](xs: CC[T])(implicit bf: CanBuildFrom[CC[T], T, CC[T]]): CC[T] = {
val buf = new ArrayBuffer[T] ++= xs
 
def swap(i1: Int, i2: Int) {
val tmp = buf(i1)
buf(i1) = buf(i2)
buf(i2) = tmp
}
 
for (n <- buf.length to 2 by -1) {
val k = nextInt(n)
swap(n - 1, k)
}
 
(bf(xs) ++= buf).result()
}

1.2 launchDriver 发起driver

首先调度driver–>优先级高于Application 为什么先调度driver?
其实,只有提交方式为cluster的时候,才会注册driver,然后调度driver
standalone和client都是在本地启动driver,而不会来注册driver,更不用说调度driver了


/**
* 判断某个worker上面有driver所需的足够资源来启动相应的Executor
* @param worker
* @param driver
*/
private def launchDriver(worker: WorkerInfo, driver: DriverInfo) {
// 提示信息
logInfo("Launching driver " + driver.id + " on worker " + worker.id)
// 将driver的信息加入到要为其启动Executor的workerInfo中
worker.addDriver(driver)
driver.worker = Some(worker)
// 向worker发送LaunchDriver消息
worker.endpoint.send(LaunchDriver(driver.id, driver.desc))
// 将driver的状态修改为RUNNING
driver.state = DriverState.RUNNING
}

二 startExecutorsOnWorkers 在worker上启动executor进程

/**
* Schedule and launch executors on workers
* 在worker上开启executor进程
*/
private def startExecutorsOnWorkers(): Unit = {
// 遍历处于等待状态的application，且处于等待的状态的application的所需要的cpu核数大于0
// coresLeft = app请求的核数-已经分配给executor的核数的和
for (app <- waitingApps if app.coresLeft > 0) {
// 每一个executor所需要的核数
val coresPerExecutor: Option[Int] = app.desc.coresPerExecutor
// 过滤出有效的可用worker
// 再从worker中过滤出worker剩余内存和CPU核数不小于app对应executor所需要的内存和CPU核数
// 按照剩余的CPU核数反向排序woker
val usableWorkers = workers.toArray.filter(_.state == WorkerState.ALIVE)
.filter(worker => worker.memoryFree >= app.desc.memoryPerExecutorMB &&
worker.coresFree >= coresPerExecutor.getOrElse(1))
.sortBy(_.coresFree).reverse
 
// 在可用的worker上调度executor，启动executor有两种算法模式：
// 一：将应用程序尽可能多的分配到不同的worker上：spreadOutApps(平均分配)
// 二：和第一种相反，分配到尽可能少的worker上，通常用于计算密集型；非spreadOutApps(有点按需分配的意思)
// 每一个executor所需要的核数是可以配置的，一般来讲如果worker有足够的内存和CPU核数，同一个应用程序就可以
// 在该worker启动多个executors；否则就不能再启动新的executor了，则需要到其他worker上去分配executor了
val assignedCores = scheduleExecutorsOnWorkers(app, usableWorkers, spreadOutApps)
 
// 在可用的worker上分配资源给executor
for (pos <- 0 until usableWorkers.length if assignedCores(pos) > 0) {
allocateWorkerResourceToExecutors(
app, assignedCores(pos), coresPerExecutor, usableWorkers(pos))
}
}
}

三 scheduleExecutorsOnWorkers在每一个worker上调度资源

判断该worker能不能分配一个或者多个executor，能则分配相对应的executor所需要的CPU核数.

private def scheduleExecutorsOnWorkers(
      app: ApplicationInfo,
      usableWorkers: Array[WorkerInfo],
      spreadOutApps: Boolean): Array[Int] = {
    // 每一个Executor所需要的核数，若没有设置则为null
    val coresPerExecutor = app.desc.coresPerExecutor
    // 加入为空，给他设置默认最小值1
    val minCoresPerExecutor = coresPerExecutor.getOrElse(1)
    val oneExecutorPerWorker = coresPerExecutor.isEmpty
    // 每一个Executor所需要的内存
    val memoryPerExecutor = app.desc.memoryPerExecutorMB
    // 可用的Worker个数
    val numUsable = usableWorkers.length
    val assignedCores = new Array[Int](numUsable) // 每一个Worker可以贡献的核
    val assignedExecutors = new Array[Int](numUsable) // 每一个Worker启动的executor的个数
    // 计算所有可用worker的可用核数
    var coresToAssign = math.min(app.coresLeft, usableWorkers.map(_.coresFree).sum)

    /** Return whether the specified worker can launch an executor for this app. */
    def canLaunchExecutor(pos: Int): Boolean = {
      val keepScheduling = coresToAssign >= minCoresPerExecutor
      val enoughCores = usableWorkers(pos).coresFree - assignedCores(pos) >= minCoresPerExecutor

      // If we allow multiple executors per worker, then we can always launch new executors.
      // Otherwise, if there is already an executor on this worker, just give it more cores.
      val launchingNewExecutor = !oneExecutorPerWorker || assignedExecutors(pos) == 0
      if (launchingNewExecutor) {
        val assignedMemory = assignedExecutors(pos) * memoryPerExecutor
        val enoughMemory = usableWorkers(pos).memoryFree - assignedMemory >= memoryPerExecutor
        val underLimit = assignedExecutors.sum + app.executors.size < app.executorLimit
        keepScheduling && enoughCores && enoughMemory && underLimit
      } else {
        // We're adding cores to an existing executor, so no need
        // to check memory and executor limits
        keepScheduling && enoughCores
      }
    }

    // Keep launching executors until no more workers can accommodate any
    // more executors, or if we have reached this application's limits
    var freeWorkers = (0 until numUsable).filter(canLaunchExecutor)
    while (freeWorkers.nonEmpty) {
      freeWorkers.foreach { pos =>
        var keepScheduling = true
        while (keepScheduling && canLaunchExecutor(pos)) {
          coresToAssign -= minCoresPerExecutor
          assignedCores(pos) += minCoresPerExecutor

          // If we are launching one executor per worker, then every iteration assigns 1 core
          // to the executor. Otherwise, every iteration assigns cores to a new executor.
          if (oneExecutorPerWorker) {
            assignedExecutors(pos) = 1
          } else {
            assignedExecutors(pos) += 1
          }

          // Spreading out an application means spreading out its executors across as
          // many workers as possible. If we are not spreading out, then we should keep
          // scheduling executors on this worker until we use all of its resources.
          // Otherwise, just move on to the next worker.
          if (spreadOutApps) {
            keepScheduling = false
          }
        }
      }
      freeWorkers = freeWorkers.filter(canLaunchExecutor)
    }
    assignedCores
  }

四 allocateWorkerResourceToExecutors在worker上分配具体的资源

private def allocateWorkerResourceToExecutors(
app: ApplicationInfo,
assignedCores: Int,
coresPerExecutor: Option[Int],
worker: WorkerInfo): Unit = {
 
// 获取该worker应该有多少个executor
val numExecutors = coresPerExecutor.map { assignedCores / _ }.getOrElse(1)
// 获取每一个executor应该分配的核数，如果没有指定则使用计算的应该分配的核数
val coresToAssign = coresPerExecutor.getOrElse(assignedCores)
for (i <- 1 to numExecutors) {
// 向worker上添加executor，创建ExecutorDesc对象，更新application已经分配到的cpu核数
val exec = app.addExecutor(worker, coresToAssign)
// 启动executor
launchExecutor(worker, exec)
// 更新application的状态
app.state = ApplicationState.RUNNING
}
}

五 launchExecutor发起executor

/**
* launchExecutor发起executor
* @param worker-->WorkerInfo
* @param exec-->ExecutorDesc
*/
private def launchExecutor(worker: WorkerInfo, exec: ExecutorDesc): Unit = {
logInfo("Launching executor " + exec.fullId + " on worker " + worker.id)
// worker启动executor,并且更新worker的cpu和内存信息
worker.addExecutor(exec)
worker.endpoint.send(LaunchExecutor(masterUrl,
exec.application.id, exec.id, exec.application.desc, exec.cores, exec.memory))
// 向application发送ExecutorAdded消息
exec.application.driver.send(
ExecutorAdded(exec.id, worker.id, worker.hostPort, exec.cores, exec.memory))
}

【大数据学习笔记】最全Python连接各种数据库及对应的CRUD操作伊达大数据 Python python mysql database sql
本文将详细探讨如何在Python中连接全种类数据库以及实现相应的CRUD（创建，读取，更新，删除）操作。我们将逐一解析连接MySQL，SQLServer，Oracle，PostgreSQL，MongoDB，SQLite，DB2，Redis，Cassandra，MicrosoftAccess，ElasticSearch，Neo4j，InfluxDB，Snowflake，AmazonDynamoDB，
【大数据学习笔记】新手学习路线图伊达大数据大数据学习笔记
第1阶段-数据仓库基1.MysQL关系型数据库（MySQL介绍、MySQL安装、MySQL基础语法、MySQL高级语法、MySQL系统架构、MySQL存储引擎、MySQL索引、MySQL备份恢复、MySQL主从、主主复制、MySQL存储过程、MySQL分库分表、MySQL综合案例、MySQL性能优化）2.Python编程技术（Python基础语法、Python循环、Python集合、Python函
大数据学习笔记——数据仓库hive重要的总结新宿一次狼大数据大数据
1、外部表和内部表Hive表分为两类，即内部表和外部表。所谓内部表，即Hive管理的表，Hive内部表的管理既包含逻辑以及语法上的，也包含实际物理意义上的，即创建Hive内部表时，数据将真实存在于表所在的目录内，删除内部表时，物理数据和文件也一并删除。外部表（externaltable）则不然，其管理仅仅是在逻辑和语法意义上的，即新建表仅仅是指向一个外部目录而已。同样，删除时也并不物理删除外部目录
hadoop大数据学习笔记驰宇爱吃鱼学习笔记大数据 hadoop 学习
一、Hadoop的作用本质来说hadoop的作用是在多计算机集群环境中营造一个统一而稳定的存储和计算环境，并能为其他分布式应用服务提供平台支持。或者说将多台计算机组织成了一台计算机，让他们做同一件事，在这其中HDFS就相当于这台计算机的硬盘，而MapReduce就是这台计算机的CPU控制器。二、Hadoop环境部署按着正常来说我们想要部署Hadoop集群需要把相同的软件部署到众多计算机上，实际学习
大数据学习笔记-MapReduce（一）入门基础理论天码村大数据 mapreduce 大数据学习
1、HadoopMapReduce介绍mapreduce的思想：分而治之，先分再和，分而治之，把复杂的问题分解，然后逐个解决，分别计算出结果。拆分求解合并拆分求解合并原问题子问题子问题的解结果子问题子问题的解模拟实现分布式计算：分布式计算和集中式计算相对，有些应用需要非常巨大的算力才能完成，如果采用集中式计算，需要耗费比较长的时间，分布式计算应该将该应用分解成许多小的部分，分配给多台计算机进行处理
大数据学习笔记 Try harder100 Hadoop 大数据尚硅谷笔记总结
大数据技术之大数据概论第1章大数据概念大数据（BigData）：指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。按顺序给出数据存储单位：bit、Byte、KB、MB、GB、**TB、PB、EB、**ZB、YB、BB、NB、DB。1Byte=8bit1K=1024Byte1MB=10
【大数据学习笔记-1】大数据hadoop平台基本组件工匠小能手相关概念和应用场景大数据
Hadoop是一个由Apache基金会所开发的分布式计算和存储架构。说人话的通俗描述：你在爱奇艺网站看过一次科幻片后，下次再登录爱奇艺，首页会把最新科幻动作片推送给你，目的是要向你多收点会员费。这背后的技术就是叫大数据的技术来自动判断你好什么口味的电影。行业描述：开源的分布式存储和计算框架，广泛用户海量数据的存储和处理，比如淘宝网的商品推送，爱奇艺视频的首页电影推送。Hadoop的主要组件：htt
大数据学习笔记-HDFS（一）天码村大数据数据库 hadoop hdfs
目录1、企业存储系统1.1认识硬盘、RAID1.2存储架构1.3文件系统1.4文件系统的分类（按照位置）1.5海量数据存储面临的问题2、场景案例：如何实现分布式文件存储2.1如何解决海量数据存的下的问题2.2如何解决海量数据文件查询边界问题2.3如何解决大文件传输效率慢的问题2.4如何解决硬件故障导致的数据丢失问题2.5如何解决用户查询视角统一规整问题3、分布式文件系统HDFS入门3.1简介3.2
【基础篇】大数据学习笔记（4）相关名词解释风也醉
RAID：RedundantArraysofIndependentDrives独立冗余磁盘阵列，独立磁盘构成的具有冗余功能的阵列。GFS：GoogleFileSystemGoogle文件系统HDFS：HadoopDsitributedFileSystemHadoop分布式文件系统Zookeeper：分布式应用程序协调服务，是Hadoop和Hbase的重要组件Hadoop：Apache基金会所开发的
2021年全网最细大数据学习笔记（二）：Hadoop 伪分布式安装 Amo Xiang 大数据开发 hadoop 大数据 linux
文章目录一、Linux操作系统的安装二、在Ubuntu20.04.2.0中进行Hadoop伪分布式安装1、Ubuntu20.04.2.0安装jdk2、配置SSH无密码登录3、Hadoop的下载与安装4、Hadoop环境配置5、启动与关闭Hadoop6、查看Hadoop的基本信息6.1、查看HDFSWeb界面6.2、查看YARNWeb界面三、在Centos7中进行Hadoop伪分布式安装一、Linu
华为云hadoop伪分布式安装学习笔记（一）我是夜阑的狗大数据学习笔记 hadoop java eclipse
所属专栏：【大数据学习笔记（华为云）】作者：我是夜阑的狗个人简介：一个正在努力学技术的码仔，专注基础和实战分享，欢迎咨询！欢迎大家：这里是CSDN，我总结知识的地方，喜欢的话请三连，有问题请私信文章目录前言1.购买云ECS主机2.开发环境step1创建hadoop用户step2更新aptstep3安装最新版本的Javastep4配置SSH无密码登陆节点3.安装Hadoopstep1下载step
大数据学习笔记-MapReduce（二）深度天码村 mapreduce 大数据学习
深度了解MapReduce运行流程，通过案例全面了解MR运行过程、涉及的组件、设计的思想。对MapReducePartition、MapreduceCombiner、MapReduce编程技巧掌握，对自定义对象、序列化、排序、分区、分组的实现熟练掌握，掌握MapReduce并行度机制、工作流程和shuffle的机制。1、MapreducePartition、Combiner输出结果文件只有一个。默
大数据学习笔记，学习清单平凡天下大数据学习笔记
大数据目前技术组件有很多，比如有hdfs,hive,spark,flink,kafka,clickhouse,cdh,nifi,streamset等等技术，主流的开发语言有Java，Scala，Python等等开发语言，大数据SQL必须要会，MySQL和hive，clickhouse等等SQL语言都要会，SQL语言必须要会而且要能随时写百行以上的SQL语言下面是我整理的学习笔记和大数据学习的基本路
阿里云大学Apache Flink大数据学习笔记 Jmayday Flink 大数据 flink 学习
之前有看过一些基础的大数据课程，现在又回来发现这里的课程更新还是蛮快的，讲的内容干货也很多，继续学习一下，下面是一些主要内容说明。地址:https://developer.aliyun.com/learning/course/58?spm=a2c6h.17661847.0.0.3b266fb2aXVsbc第一节Flink中文社区发起人开课寄语内容介绍：1.大数据趋势2.ApacheFlink的介绍
大数据学习笔记之flink----流式数据处理引擎 WRichards 大数据大数据 flink
很多人可能都是在2015年才听到Flink这个词，其实早在2008年，Flink的前身已经是柏林理工大学一个研究性项目，在2014被Apache孵化器所接受，然后迅速地成为了ASF（ApacheSoftwareFoundation）的顶级项目之一。Flink的最新版本目前已经更新到了0.10.0了，在很多人感慨Spark的快速发展的同时，或许我们也该为Flink的发展速度点个赞。Flink是一个针
大数据学习笔记1.3 Linux目录操作 zl202111 Linux 大数据 linux 学习运维
Linux目录操作一、常用权限操作(一)、常用权限操作（1）chgrp命令（2）chown命令（3）chmod命令(二)、权限操作1、创建文件，设置其用户组2、修改文件的所有者3、修改文件所有者与用户组4、修改文件操作权限二、常用目录操作(一)、常用目录操作2、目录操作实战1、获取命令帮助信息2、查看当前目录3、显示目录（文件）4、创建目录创建多级目录方法一：采用参数-p直接创建方法二、逐层创建每
北风网大数据学习笔记--java语言基础--初识JAVA--JAVA历史发展(1) lrwliu
1.使用文本编辑器开发JAVA程序。建议刚开始学用文本编辑器，而不用IDE，IDE有补全功能方便很多。2.使用MyEclipse开发JAVA程序,真正用于企业写编程的软件。SUN公司，目前稳定的版本是java7JAVA平台的体系结构基础核心：JAVASEJAVAEEJAVAME-移动端应用–不在有人使用，因为安卓、IOS流行。JavaSE=JavaStandardEditionJavaEE=Jav
大数据学习笔记2：现代数据湖之Iceberg 泊浮目
本文首发于泊浮目的：https://www.jianshu.com/u/204b8aaab8ba版本日期备注1.02021.6.20文章首发最近Iceberg有点小火，在这里也是根据自己看到的资料做个笔记输出一下。数据湖的定义就不说了，不了解的小伙伴可以看我之前做的笔记大数据学习笔记1：数仓、数据湖、数据中台。1.数据湖发展现状从广义上来说数据湖系统主要包括数据湖村处和数据湖分析现有数据湖技术主要
大数据学习笔记-HDFS（三）——集群管理运维天码村大数据大数据 hdfs 学习
1、HDFS数据迁移解决方案1.1迁移方案——数据迁移的使用场景和考量因素场景冷热集群数据同步、分类存储使用频率较高的数据随着时间发展频率变低而迁移集群数据整体搬迁：原A机房搬迁到B机房数据的准实时同步：数据双备份使用考量因素带宽：带宽使用多了影像正常业务，带宽低了迁移慢性能：采用单机程序，还是多线程的分布式程序增量同步：TB\PB级别的数据如何只迁移增量数据数据迁移的同步性：数据迁移的过程需要保
大数据学习笔记：Hadoop之HDFS（上）值得一看的喵
HDFS（HadoopDistributedFileSystem）Hadoop分布式文件系统。是根据google发表的论文翻版的。分布式文件系统（DistributedFileSystem）是指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。[优点]支持超大文件:超大文件在这里指的是几百M，几百GB，甚至几TB大小的文
黑马大数据学习笔记5-案例蓝净云大数据大数据学习笔记
目录需求分析背景介绍目标需求数据内容DBeaver连接到Hive建库建表加载数据ETL数据清洗数据问题需求实现查看结果扩展指标计算需求需求指标统计可视化展示BIFineBI的介绍及安装FineBI配置数据源及数据准备可视化展示P73~77https://www.bilibili.com/video/BV1WY4y197g7?p=73需求分析背景介绍聊天平台每天都会有大量的用户在线，会出现大量的聊天
黑马大数据学习笔记4-Hive部署和基本操作蓝净云大数据大数据学习笔记
目录思考规划安装MySQL数据库修改root用户密码配置Hadoop下载解压Hive提供MySQLDriver包配置Hive初始化元数据库启动Hive（使用Hadoop用户）Hive体验HiveServer2HiveServer2服务启动Beelinep48、51、52https://www.bilibili.com/video/BV1WY4y197g7/?p=48思考Hive是分布式运行的框架还
大数据学习笔记 smilinggg 大数据 flink spark hadoop
大数据学习笔记一.概念1.传统数据处理架构2.有状态的流处理二.批处理与流处理1.批处理2.流处理三.大数据软件生态1.Hadoop2.Spark3.Flink一.概念大数据（BigData）指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。四个主要特征：Volume（数据量）数据量
大数据学习笔记（一）加油牛牛 big data 学习大数据
一、大数据的概念无法再一定时间范围内用软件工具进行管理与处理的数据集合称之为大数据。大数据技术主要解决存储和分析计算问题.1.4V特征-A.Valume 大量 (KB->MB->GB->TB->PB->EB->ZB)-B.Velocity 高速分布式技术(N台计算机同时运算.)-C.Variety 多样 (存储结构化数据与非结构化数据和半结构化数据)-D.Value 低价值密度2.结构化、
大数据学习笔记-Yarn（二）天码村大数据大数据学习 hadoop
YarnWebUI服务1.1yarnwenUI服务，http://RMHOST:8088打开页面，以列表的形式展示处于各种状态的各种程序以下参数指定UI地址UI页面的参数介绍（图片来源黑马程序员教程）1.2JobHistoryServer服务仅存储已经完成的Mapredyce应用程序的作业历史信息，当启用JHS服务时，建议开启日志聚合功能。配置mapreduce.jobhistory.addres
大数据学习笔记-Yarn（一）天码村大数据大数据学习 hadoop yarn
1、yarn产生和发展历史背景：数据、程序、运算资源三者组合在一起，才能完成数据的处理，单机不存在问题，但是分布式环境如何协调是一个问题。Hadoop早期用户使用Hadoop与众多主机上运行的桌面程序类似：在少了几个节点上建立一个集群、将数据载入HDFS、运行mapreduceHadoop演进阶段：Adhoc集群以单用户的方式建立，随着私人集群的使用实现了HDFS集群的共享，不同于HDFS，共享m
黑马大数据学习笔记3-MapReduce配置和YARN部署以及基本命令蓝净云大数据大数据学习笔记
目录部署说明MapReduce配置文件YARN配置文件分发配置文件集群启动命令开始启动YARN集群查看YARN的WEBUI页面保存快照YARN集群的启停命令一键启动脚本单进程启停提交MapReduce任务到YARN执行提交wordcount示例程序查看运行日志提交求圆周率示例程序p41~43https://www.bilibili.com/video/BV1WY4y197g7/?p=41部署说明H
黑马大数据学习笔记2-HDFS基本操作蓝净云大数据大数据学习笔记
目录进程启停管理一键启停脚本单进程启停文件系统操作命令HDFS文件系统基本信息介绍创建文件夹查看指定目录下内容上传文件到HDFS指定目录查看HDFS文件内容下载HDFS文件拷贝HDFS文件追加数据到HDFS文件HDFS数据移动HDFS数据删除其他命令HDFSWEB浏览HDFS权限修改权限https://www.bilibili.com/video/BV1WY4y197g7?p=26切换到hadoo
黑马大数据学习笔记0-环境配置蓝净云大数据学习笔记
目录设置VMware网络CentOS操作系统三台虚拟机系统配置：主机名、固定IP、SSH免密登录配置主机名映射配置SSH免密登录创建hadoop用户并配置免密登录JDK1.8环境部署防火墙、SELinux、时间同步设置快照视频p3-p5https://www.bilibili.com/video/BV1WY4y197g7?p=3设置VMware网络网段设置为192.168.88.0网关设置为192
黑马大数据学习笔记2-HDFS环境部署蓝净云大数据学习笔记
目录环境部署hadoop-3.3.4.tar.gz构建软链接配置workers文件夹配置hadoop-env.sh文件配置core-site.xml文件配置hdfs-site.xml文件准备数据目录分发Hadoop文件夹将Hadoop的一些脚本、程序配置到PATH中授权为hadoop用户格式化整个文件系统查看HDFSWEBUI保存快照https://www.bilibili.com/video/B
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f