E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
梦工厂
(DT大数据
梦工厂
)
内容:1、Task性能优化;2、数据倾斜性能优化;3、网络性能优化;==========Task性能优化============1、慢任务的性能优化:可以考虑每个partition处理的数据量,同时建议开启spark.speculation(任务推测执行模式,检索partition任务执行的话,可能就几个任务比较慢,这样减少可能每个partition的任务都减少),就是任务还没完成的情况下,开启相
feiweihy
·
2016-02-25 17:39
spark
性能优化
王家林谈
(DT大数据
梦工厂
)
内容:1、Spark性能优化需要思考的基本问题;2、CPU和Memory;3、并行度和Task;4、网络;==========王家林每日大数据语录============王家林每日大数据语录Spark篇0080(2016.1.26于深圳):如果Spark中CPU的使用率不够高,可以考虑为当前的程序分配更多的Executor,或者增加更多的Worker实例来充分的使用多核的潜能。王家林每日大数据语录
feiweihy
·
2016-02-25 17:47
spark
性能优化
王家林谈
day18:RDD持久化、广播、累加器
本文内容整理来源于大数据
梦工厂
:http://weibo.com/ilovepains作业: 1、手动清除掉persist 2、研究accumulater源码
·
2016-02-24 17:00
day17:RDD案例(join、cogroup、reduceByKey、groupByKey, join cogroup
本文内容来源于DT大数据
梦工厂
整理,DT大数据
梦工厂
新浪微博:http://weibo.com.ilovepains/微信公共号:DT_Spark博客:http://bolg.sina.com.cn/ilovepains
·
2016-02-24 17:00
Spark 1.6 RPC内幕解密:运行机制、源码详解、Netty与Akka等(DT大数据
梦工厂
)
内容:1、Spark1.6RPC解析;2、RPCEnv源码解析;3、RPCEndpoint等源码解析;以前和现在的RPC都是采用Akka,以前和现在的不同就在于RPCEnv,现在就是基于RPCEnv去做RPC通信的==========Spark1.6RPC解析============1、Spark1.6推出了以RPCEnv、RPCEndpoint、RPCEndpointRef为核心的新型架构下的R
feiweihy
·
2016-02-23 13:37
spark
rpc
内幕解密
day16:RDD实战(RDD基本操作实战及Transformation流程图)
以下内容整理来源于DT大数据
梦工厂
:http://weibo.com/ilovepains(f:T=>U)函数参数为f,函数类型是T,返回类型是U实现统计文件里面数据总和objectFileTextLines
·
2016-02-23 06:00
day15 RDD 内幕解析
本文整理自大数据
梦工厂
:http://weibo.com/ilovepains实现计算2数和objectRDDBaseOnCollection{ defmain(args:Array[String]){
·
2016-02-22 23:00
day14 RDD 揭秘
本内容整理来源于DT大数据
梦工厂
:http://weibo.com/ilovepains1、基于数据集的处理工作:从物理设备上加载数据,然后操作数据,然后在写入物理存储设备,基于数据流的方式不能够复用曾经的结果或者查询中间计算
·
2016-02-22 21:00
Checkpoint彻底解密:Checkpoint的运行原理和源码实现彻底详解(DT大数据
梦工厂
)
内容:1、Checkpoint重大价值;2、Checkpoint运行原理图;3、Checkpoint源码解析;机器学习、图计算稍微复杂迭代算法的时候都有Checkpoint的身影,作用不亚于persist==========Checkpoint到底是什么============1、Spark在生产环境下经常会面临transformation的RDD非常多(例如一个Job中包含1万个RDD)或者具体
feiweihy
·
2016-02-22 13:47
checkpoint
彻底解密
CacheManager彻底解密:CacheManager运行原理流程图和源码详解(DT大数据
梦工厂
)
内容:1、CacheManager重大价值;2、CacheManager运行原理图;3、CacheManager源码解析;BlockManager针对Cache这样的行为做了CacheManagerSpark出色的原因:1、Spark基于RDD构成了一体化、多元化的大数据处理中心(不需要再处理多种范式来部署多种框架,只要Spark!!!降低成本投入获得更高的产出);2、迭代,因为在计算的时候迭代,
feiweihy
·
2016-02-22 11:52
manager
cache
彻底解密
汪星人要带喵星人去流浪
图片发自于橘车侠的
梦工厂
文/橘车侠我住在老区,周边生活的都是生活悠闲的老人,这里没有城市的浮躁和快节奏的上班族。老区在这城市中央,自成一界。我住在一栋临街的小公寓里,邻居是个养了汪星人和喵星人的老头。
橘车侠
·
2016-02-21 22:59
汪星人要带喵星人去流浪
图片发自于橘车侠的
梦工厂
文/橘车侠我住在老区,周边生活的都是生活悠闲的老人,这里没有城市的浮躁和快节奏的上班族。老区在这城市中央,自成一界。我住在一栋临街的小公寓里,邻居是个养了汪星人和喵星人的老头。
橘车侠
·
2016-02-21 22:59
BlockManager架构原理、运行流程图和源码解密(DT大数据
梦工厂
)
内容:1、BlockManager运行实例;2、BlockManager原理流程图;3、BlockManager源码解析;BlockManager是管理管理Spark运行时读写,包括数据存储本身。由于Spark是分布式的,所以BlockManager也是分布式,BlockManager本身是一个比较庞大的模块。本身源码量非常大。==========从Application启动的角度来观察Block
feiweihy
·
2016-02-21 13:17
manager
block
架构原理
Task执行内幕与结果处理解密(DT大数据
梦工厂
)
内容:1、Task执行原理流程图;2、Task执行内幕源码解密;3、Task执行结果在Driver上处理解密;==========Task执行原理流程图============1、当Driver中的CoarseGaraindSchedulerBackend给CoarseGrainedExecutorBackend发送launchTask之后,CoarseGrainedExecutorBackend
feiweihy
·
2016-02-21 11:38
task
执行内幕
结果处理
TaskScheduler和SchedulerBackend(DT大数据
梦工厂
)
内容:1、TaskScheduler与SchedulerBackend;2、FIFO与FAIR两种调度模式彻底解密;3、Task数据本地性资源分配源码实现;==========通过spark-shell运行程序来观察TaskScheduler内幕============先运行个例子:root@Master:/usr/local/spark/spark-1.6.0-bin-hadoop2.6/bin
feiweihy
·
2016-02-21 11:22
spark
TaskScheduler
内幕天机
打通Spark系统运行内幕机制循环流程(DT大数据
梦工厂
)
内容:1、TaskScheduler工作原理;2、TaskScheduler源码解密;Stage里面有一系列任务,里面的任务是并行计算的,逻辑是完全相同的,只不过是处理的数据不同而已。DAGScheduler会以Task方式提交给TaskScheduler(任务调度器)。==========TaskScheduler工作原理解密============1、DAGScheduler在提交TaskSe
feiweihy
·
2016-02-20 14:18
Stage划分和Task最佳位置算法源码彻底解密(DT大数据
梦工厂
)
内容:1、JobStage划分算法解密;2、Task最佳位置算法实现解密;为什么要讲这两点:1、Spark算子是链式的,计算首先Stage划分,划分好了之后才计算2、Spark追求最大化数据本地行,追求数据最大化的在内存中==========JobStage划分算法解密============1、SparkApplication中可以因为不同的Action触发众多的Job,也就是说一个Applic
feiweihy
·
2016-02-20 13:07
Spark Executor内幕彻底解密(DT大数据
梦工厂
)
内容:1、SparkExecutor工作原理图;2、ExecutorBackend注册源码解密;3、Executor实例化内幕;4、Executor具体是如何工作的?1、Master发指令给Worker启动Executor;2、Worker接受到Master发送来的指令,通过ExecutorRunner启动另外一个进程来运行Executor;3、此时会启动粗粒度的ExecutorBackend(C
feiweihy
·
2016-02-20 13:29
spark
Executor内幕彻底解密
Spark Worker原理和源码剖析解密(DT大数据
梦工厂
)
内容:1、SparkWorker原理剖析;2、Worker启动Driver源码解密;3、Worker启动Executor源码解密;4、Worker与Master的交互解密;==========原理============1、Master会发送LaunchDriver和LaunchExecutor给Worker2、LaunchDriver的时候会创建DrvierRunner对象来运行,内部使用Thr
feiweihy
·
2016-02-20 13:57
spark
Worker原理和源码剖析解密
Driver在Cluster模式下的启动、两种不同的资源调度方式源码彻底解析、资源调度内幕总结(DT大数据
梦工厂
)
内容:1、分配Driver(Cluster);2、为Application分配资源;3、两种不同的资源分配方式彻底解密;4、Spark资源分配的思考;Spark最最重要的,这个内容每个IMF成员必须掌握,后面的性能优化全部跟这个有关。==========任务调度与资源调度的区别============1、任务调度是通过DAGScheduler、TaskScheduler、SchedulerBack
feiweihy
·
2016-02-20 13:25
资源调度内幕总结
Master的注册机制和状态管理解密(DT大数据
梦工厂
)
内容:1、Master接受Driver注册内幕;2、Master接受Application注册内幕;3、Master接受Worker注册内幕;4、Master处理Drvier状态变化内幕;5、Master处理Executor状态变化内幕;==========Master对其它组件注册的处理============1、Master接收注册的对象主要分为以下几个部分:Driver、Applicatio
feiweihy
·
2016-02-20 13:51
Master HA彻底解密(DT大数据
梦工厂
)
内容:1、MasterHA解析;2、MasterHA的四种方式;3、MasterHA的内部工作机制;4、MasterHA的源码解密;本讲主要源码角度分析MasterHA,因为在生产环境必然要做的==========MasterHA解析============Spark是Master-Slave的结构现在业界是1个MasterActive,2个以上standby如果有HA的话,切换active的时候
feiweihy
·
2016-02-20 13:20
master
HA彻底解密
Spark天堂之门(SparkContext)解密(DT大数据
梦工厂
)
内容:1、Spark天堂之门;2、SparkContext使用案例鉴赏;3、SparkContext内幕;4、SparkContext源码解密;SparkContext是编写任意Spark程序的第一个对象,用SparkConf为传入的参数==========Spark天堂之门:SparkContext!!!============1、Spark程序在运行的时候分为Driver和Executors;
feiweihy
·
2016-02-20 13:46
Spark天堂之门解密
Spark on Yarn彻底解密(DT大数据
梦工厂
)
内容:1、HadoopYarn的工作流程解密;2、SparkonYarn两种运行模式实战;3、SparkonYarn工作流程解密;4、SparkonYarn工作内幕解密;5、SparkonYarn最佳实践;资源管理框架YarnMesos是分布式集群的资源管理框架,和大数据没关系,但是可以管理大数据的资源==========HadoopYarn解析============1、Yarn是Hadoop推
feiweihy
·
2016-02-20 13:03
spark
on
Yarn彻底解密
Spark Runtime(Driver、Masster、Worker、Executor)内幕解密(DT大数据
梦工厂
)
内容:1、再论Spark集群部署;2、Job提交解密;3、Job的生成和接受;4、Task的运行;5、再论Shuffle;从一个作业视角,透过Master、Drvier、Executor来透视SparkRuntime==========再论Spark集群部署============官网中关于集群的部署:默认情况下,每个Worker下有一个Executor,会最大化的使用内存和CPU。Master发
feiweihy
·
2016-02-20 12:42
spark
worker
Masster
Runtime(Driver
Executor)内幕解密
Spark Sort-Based Shuffle内幕彻底解密(DT大数据
梦工厂
)
内容:1、为什么使用Sorted-BasedShuffle;2、Sorted-BasedShuffle实战;3、Sorted-BasedShuffle内幕;4、Sorted-BasedShuffle的不足;最常用的Shuffle方式,Sorted-BasedShuffle涉及了大规模Spark开发、运维时核心问题,以及答案的要害所在。必须掌握这一讲内容。本课是从Spark初级人才成功升级为Spar
feiweihy
·
2016-02-20 12:10
spark
sort-based
Shuffle内幕彻底解密
Spark Shuffle内幕彻底解密(DT大数据
梦工厂
)
内容:1、HashShuffle彻底解密;2、ShufflePluggable解密;3、SortedShuffle解密;4、Shuffle性能优化;Spark的MapReduce本身就是shuffl的思想钨丝计划到底什么是shuffle?Hadoop中产生于Mapper和Reducer中间。中文翻译为洗牌,需要shuffle关键性原因是,某种具有共同特征的数据,需要最终汇聚到一个计算节点上计算。s
feiweihy
·
2016-02-20 12:37
spark
Shuffle内幕彻底解密
从物理执行的角度透视Spark Job(DT大数据
梦工厂
)
内容:1、再次思考pipeline;2、窄依赖物理执行内幕;3、宽依赖物理执行内幕;4、Job提交流程;物理执行是更深层次的角度。==========再次思考pipeline============即使采用pipeline的方式,函数f对依赖的RDD中的数据集合的操作也会有两种方式:1、f(record),f作用于集合的每一条记录,每次只作用于一条记录;2、f(records),f一次性作用于集合
feiweihy
·
2016-02-20 12:04
job
从物理执行的角度透视Spark
RDD的依赖关系彻底解密(DT大数据
梦工厂
)
内容:1、RDD依赖关系本质内幕;2、依赖关系下数据流动视图;3、经典的RDD依赖关系解析;4、RDD依赖关系源码内幕;==========RDD依赖关系本质内幕============窄依赖和宽依赖两种情况窄依赖是指每个父RDD的partition最多被子RDD的一个partition所使用宽依赖是指多个子RDD的partition会依赖同一个父的partition,就是一个父RDD的parti
feiweihy
·
2016-02-20 12:31
RDD的依赖关系彻底解密
从Spark架构中透视Job(DT大数据
梦工厂
)
内容:1、通过案例观察Spark架构;2、手动绘制Spark内部架构;3、SparkJob的逻辑视图解析;4、SparkJob的物理视图解析;Action触发的Job或者checkpoint触发Job==========通过案例观察Spark架构============jps看到的master,作用:管理集群的计算资源,主要指内存、CPU,也会考虑磁盘或者网络;还做接受客户端提交的作业请求,分配资
feiweihy
·
2016-02-20 12:58
从Spark架构中透视Job
TOP N彻底解密(DT大数据
梦工厂
)
内容:1、基础TOPN算法实战;2、分组TOPN算法实战;3、RangePartitioner内幕解密;社交、新闻等等地方都比较在意TOPN这个方面的东西take和topn的差别:take知识拿几个元素,topn有排序,可能还有复杂的算法,比如分组topn算法等等。==========基础TOPN算法============基础内容先排序,再take出前面的N个元素package com.dt.s
feiweihy
·
2016-02-20 12:24
top
N彻底解密
Spark高级排序彻底解密(DT大数据
梦工厂
)
内容:1、基础排序算法实战;2、二次排序算法实战;3、更高局级别排序算法;4、排序算法内幕解密;为啥讲排序?因为在应用的时候都有排序要求。海量数据经常排序之后要我们想要的内容。==========基础排序算法============scala>sc.setLogLevel("WARN")scala>valx=sc.textFile("/historyserverforSpark/README.md
feiweihy
·
2016-02-20 12:46
Spark高级排序彻底解密
RDD持久化、广播、累加器(DT大数据
梦工厂
)
内容:1、RDD持久化实战;2、Spark广播实战;3、Spark累加器实战;持久化实战几个方面:1、怎么保存结果;2、实现算法的时候cache、persist;3、checkpoint广播:构建算法至关重要,降低网络传输数据量、提高内存的使用效率、加快程序的运行速度累加器:全局的指针部件的变量,在executor中只能修改累加器的内容,不能读累加器的内容,在driver中才能读取========
feiweihy
·
2016-02-20 12:00
广播
RDD持久化
累加器
Day19 实现二次排序
本文来自王家林大数据
梦工厂
整理:http://weibo.com/ilovepains 分别用java和scala实现二次排序分析://按照order和Serializable实现自定义排序的key /
·
2016-02-19 00:00
QQ炫舞
梦工厂
手机端刮刮乐活动网址_刮刮乐活动奖励一览
QQ炫舞
梦工厂
手机端刮刮乐送永久翅膀就是QQ炫舞在新年到来之际准备的活动,也更新了新版本。当然似乎有些活动已经到期了。毕竟QQ炫舞是大家最爱的一款游戏之一,还有仅有的假期大家还想畅玩一番。
佚名
·
2016-02-17 14:48
RDD案例(DT大数据
梦工厂
)
内容:1、map、filter、flatmap等操作回顾;2、reduceBykey、groupBykey;3、jion、cogroug;算子共同特点:都是最常用的算子,构建复杂算法的基石,都是lazy级别的,不属于action创建SparkContext是Spark的起点,只有创建SparkContext,才能创建RDD==========map============适用于任何元素且对其作用的
feiweihy
·
2016-02-08 09:17
RDD
案例
RDD实战(DT大数据
梦工厂
)
内容:1、RDD实战;2、RDD的Transformation与Action;3、RDD执行手工绘制;RDD本身有几种操作:Transformation(map)ActionControllerCacheCheckpointTransformation(lazy,只是标记,并不会马上执行)常用的:==========例子:看文件中相同行的个数============建文件,内容:HadoopSpa
feiweihy
·
2016-02-08 09:25
RDD
实战
RDD创建内幕彻底解密(DT大数据
梦工厂
)
方面1、RDD创建的几个方式;2、RDD创建实战;3、RDD创建内幕==========RDD创建的几个方式============为什么要有几个创建方式?Spark会基于不同的介质进行计算。Spark和Hadoop有没有关系?没有任何关系,知识当Spark运行在Hadoop之上,Hadoop作为数据来源的时候才有关系。如果知识基于计算本身,完全没必要学Hadoop。既可以运行在Hadoop之上,
feiweihy
·
2016-02-06 16:32
RDD
创建内幕
彻底解密
SparkRDD解密(DT大数据
梦工厂
)
第一阶段,彻底精通Spark第二阶段,从0起步,操作项目Hadoop是大数据的基础设施,存储等等Spark是计算核心所在1、RDD:基于工作集的应用抽象2、RDD内幕解密3、RDD思考不掌握RDD的人,不可能成为Spark的高手绝对精通RDD,解决问题的能力大大提高各种框架底层封装的都是RDD,RDD提供了通用框架RDD是Spark的通用抽象基石顶级SPark高手,1、能解决问题、性能调优;2、S
feiweihy
·
2016-02-06 16:21
解密
SparkRDD
Spark内核架构解密(DT大数据
梦工厂
)
只有知道内核架构的基础上,才知道为什么要这样写程序?手工绘图来解密Spark内核架构通过案例来验证Spark内核架构Spark架构思考==========SparkRuntime的几个概念============下载下来运行,基本都是standalone模式,如果掌握了standalone,则yarn和mesos,以后不做特别说明,一律是standalone模式application=driver
feiweihy
·
2016-02-05 11:42
spark
内核
架构解密
HA下Spark集群工作原理(DT大数据
梦工厂
)
Spark高可用HA实战Spark集群工作原理详解资源主要指内存、CPU如果是单点的话,Master如果出现故障,则集群不能对外工作Spark通过Zookeeper做HA,一般做HA是一个active级别,standbyactive就是当前工作standby是随时准备active的挂了之后会切换成为active级别以前一般是2台机器,一个active,一个standby现在一般是3台机器,一个ac
feiweihy
·
2016-02-05 11:22
spark
工作原理
HA
彻底解密WordCount运行原理(DT大数据
梦工厂
)
主要内容:数据流动视角解密WordCountRDD依赖关系视角解密WordCountDAG与Lineage的思考==========数据流动视角============新建文件,里面输入HelloSparkHelloScalaHelloHadoopHelloFlinkSparkisawesome修改代码:packagecom.dt.spark.SparkApps.cores;importjava.
feiweihy
·
2016-02-04 15:22
wordcount
运行原理
彻底解密
底层战详解使用Java开发Spark程序(DT大数据
梦工厂
)
Scala开发Spark很多,为什么还要用Java开发原因:1、一般Spark作为数据处理引擎,一般会跟IT其它系统配合,现在业界里面处于霸主地位的是Java,有利于团队的组建,易于移交;2、Scala学习角度讲,比Java难。找Scala的高手比Java难,项目的维护和二次开发比较困难;3、很多人员有Java的基础,确保对Scala不是很熟悉的人可以编写课程中的案例预测:2016年Spark取代
feiweihy
·
2016-02-04 13:55
java
spark
底层战
IDEA下Spark的开发(DT大数据
梦工厂
)
IDEA越使用效果越好,快捷键方便,阅读源码方便一般阅读Spark或者Scala的源码都采用IDEA使用下载IDEA最新版本的社区版本即可,安装的时候必须安装Scala,这个过程是IDEA自动化的插件管理,所以点击后会自动下载(跳过在settingplugins里面也可以安装)本地JAVA8和Scala2.10.4软件套件的安装和Eclipse不同打开打开之后点击File->ProjectStru
feiweihy
·
2016-02-03 22:58
IDEA下Spark的开发
Eclipse下开发Scala(DT大数据
梦工厂
)
本讲主要内容:环境安装、配置、本地模式、集群模式、自动化脚本、web状态监控==========单机============开发工具开发下载最新版ScalaForEclipse1、建立工程,修改scala编译版本2、加入Spark1.6.0的jar文件依赖下载http://apache.opencas.org/spark/spark-1.6.0/spark-1.6.0-bin-hadoop2.6.
feiweihy
·
2016-02-03 22:36
Eclipse下开发Scala
Spark运行原理和RDD解析(DT大数据
梦工厂
)
Spark一般基于内存,一些情况下也会基于磁盘Spark优先会把数据放到内存中,如果内存实在放不下,也会放到磁盘里面的不单能计算内存放的下的数据,也能计算内存放不下的数据实际如果数据大于内存,则要考虑数据放置策略和优化算法,因为Spark初衷是一寨式处理小到5~10台的分布式大到8000台的规模,Spark都能运行大数据计算问题:交互式查询(基于shell、sparkSQL)、批处理、机器学习和计
feiweihy
·
2016-02-03 13:25
Spark运行原理和RDD解析
Spark集群搭建与测试(DT大数据
梦工厂
)
Spark流行的两种文件存储方式:1、Hadoop的HDFS;2、H3云存储tuxyarn +HDFS是未来3、5年的趋势看你用的是bash,可能ubuntu里的bash不会自动source /etc/profile,所以你将那条export命令放在~/.bashrc里试试计算的集群和数据存储的集群不在同一个集群上的话,性能不高不可接受,tuxyarn解决了这个问题,它用JAVA写的ubuntu设
feiweihy
·
2016-02-03 01:35
spark
测试
集群搭建
大数据学习:Scala隐式转换和并发编程(DT大数据
梦工厂
)
很多Spark代码中使用了隐式转换、隐式参数、隐式类、隐式对象如果不掌握,基本在读写复杂代码的时候读不懂并发编程,怎么样进行高效并发,相互之间怎么通信,Spark这种分布式并发肯定非常重要(Actor、Akka)==========隐式转换函数============可以手动指定将某种类型的对象转换成其它类型的对象或者类转换原因:假设制定好接口比如File,我们想要File.dtSpark的方法,
feiweihy
·
2016-02-02 13:38
Scala隐式转换和并发编程
Hash-based Shuffle内幕彻底解密
Hash-basedShuffle内幕彻底解密视频学习来源:DT-大数据
梦工厂
IMF传奇行动视频本期内容:1HashShuffle彻底解密2ShufflePluggable解密3SortedShuffle
kxr0502
·
2016-02-01 07:12
spark
影向标 | 《功夫熊猫3》赛人打几分?
梦工厂
在这个系列中一如既往地显示出了美国商业电影对中国文化符号、视觉意象的强劲吸纳能力。其中师父展开的那个手卷尤其让人暗出冷汗:他们
虹膜
·
2016-02-01 00:00
上一页
17
18
19
20
21
22
23
24
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他