E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
王家林
第8课:彻底实战详解使用IDE开发Spark程序
spark内核原理(必须有一个大型项目经验);第二阶段:spark运行的各种环境,各种故障的解决,性能优化(精通spark内核、运行原理);第三阶段:流处理、机器学习为鳌头,需要首先掌握前两个阶段的内容;跟随
王家林
老师的零基础讲解
lhui798
·
2016-01-10 19:00
大数据系列第五课:scala基础
spark内核原理(必须有一个大型项目经验);第二阶段:spark运行的各种环境,各种故障的解决,性能优化(精通spark内核、运行原理);第三阶段:流处理、机器学习为鳌头,需要首先掌握前两个阶段的内容;跟随
王家林
老师的零基础讲解
lhui798
·
2016-01-06 23:00
大数据系列第四课:scala基础
spark内核原理(必须有一个大型项目经验);第二阶段:spark运行的各种环境,各种故障的解决,性能优化(精通spark内核、运行原理);第三阶段:流处理、机器学习为鳌头,需要首先掌握前两个阶段的内容;跟随
王家林
老师的零基础讲解
lhui798
·
2016-01-04 23:00
大数据系列第三课:scala基础
spark内核原理(必须有一个大型项目经验);第二阶段:spark运行的各种环境,各种故障的解决,性能优化(精通spark内核、运行原理);第三阶段:流处理、机器学习为鳌头,需要首先掌握前两个阶段的内容;跟随
王家林
老师的零基础讲解
lhui798
·
2016-01-03 22:00
2016 第2讲 Scala面向对象彻底精通及Spark源码阅读
2016/1/2晚7点准时参加了
王家林
老师的3000门徒的课程,学习了Scala中的类、Object实战和Scala的抽象类、接口实战等内容。
chinsun_1
·
2016-01-03 14:00
我们的大数据时代
要学好Spark,Scala是基础,作为可能Java下一个流行语言,我们有必要好好的学习网上
王家林
先生的《Scala深入浅出经典》视频教程+《ProgramminginScala》让我们事半功倍!
Rison_Qian
·
2015-12-31 17:29
王家林
的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员!
王家林
的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员!
wynlx8
·
2015-12-31 17:06
大数据
云计算
王家林
从菜鸟走向大数据高手
王家林
的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员!
xiyf2046
·
2015-12-30 19:00
spark
王家林
大数据资源共享
王家林
的第一个中国梦:免费为全社会培养100万名优秀的大数据从业人员!
东方神剑
·
2015-12-25 17:00
spark
王家林
王家林
每日大数据语录Spark篇0022(2015.11.18于珠海)
Spark Checkpoint通过将RDD写入Disk做检查点,是Spark lineage容错的辅助,lineage过长会造成容错成本过高,这时候在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做Lineage,就会减少开销。Checkpoint主要适用于以下两种情况:1. DAG中的Lineage过长,如果重算时会开销太大,例如在PageRank、ALS等;
王家林学院
·
2015-12-16 00:09
王家林
王家林语录
王家林spark
王家林
每日大数据语录Spark篇0021(2015.11.18于珠海)
Spark RDD实现基于Lineage的容错机制,基于RDD的各项transformation构成了compute chain,在部分计算结果丢失的时候可以根据Lineage重新计算恢复。在窄依赖中,在子RDD的分区丢失要重算父RDD分区时,父RDD相应分区的所有数据都是子RDD分区的数据,并不存在冗余计算;在宽依赖情况下,丢失一个子RDD分区重算的每个父RDD的每个分区的所有数据并不是都给丢失
王家林学院
·
2015-12-16 00:31
王家林
王家林spark
王家林语录
王家林
每日大数据语录Spark篇0020(2015.11.11于重庆)
Spark中生成的不同的RDD中有的喝用户的逻辑显式的对于,例如map操作会生成MapPartitionsRDD,而又的RDD则是Spark框架帮助我们隐式生成的,例如reduceByKey操作时候的ShuffledRDD.
王家林学院
·
2015-12-16 00:48
王家林
王家林语录
王家林spark
王家林
每日大数据语录Spark篇0019(2015.11.10于重庆)
park中的Task分为ShuffleMapTask和ResultTask两种类型,在Spark中DAG的最后一个Stage内部的任务都是ResultTask,其余所有的Stage(s)的内部都是ShuffleMapTask,生成的Task会被Driver发送到已经启动的Executor中执行具体的计算任务,执行的实现是在TaskRunner.run方法中完成的。
王家林学院
·
2015-12-16 00:03
王家林
王家林语录
王家林spark
王家林
每日大数据语录Spark篇0018(2015.11.7于南宁)
在Spark的reduceByKey操作时会触发Shuffle的过程,在Shuffle之前,会有本地的聚合过程产生MapPartitionsRDD,接着具体Shuffle会产生ShuffledRDD,之后做全局的聚合生成结果MapPartitionsRDD
王家林学院
·
2015-12-16 00:27
王家林
王家林语录
王家林spark
王家林
每日大数据语录Spark篇0017(2015.11.6于南宁)
在Spark的Stage内部的每个Partition都会被分配一个计算任务Task,这些Task是并行执行的; Stage之间的依赖关系变成了一个大粒度的DAG,Stage只有在它没有parent Stage或者parent Stage都已经执行完成后才可以执行,也就是说DAG中的Stage是从前往后顺序执行的。
王家林学院
·
2015-12-16 00:44
王家林
王家林语录
王家林spark
王家林
每日大数据语录Spark篇0016(2015.11.6于南宁)
RDD在创建子RDD的时候,会通过Dependency来定义他们之间的关系,通过Dependency,子RDD可以获得parent RDD(s)和parent RDD(s)的Partition(s).
王家林学院
·
2015-12-16 00:59
王家林
王家林语录
王家林spark
王家林
每日大数据语录Spark篇0015(2015.11.5于南宁)
Spark中宽依赖指的是生成的RDD的每一个partition都依赖于父 RDD(s) 所有partition,宽依赖典型的操作有groupByKey, sortByKey等,宽依赖意味着shuffle操作,这是Spark划分stage的边界的依据,Spark中宽依赖支持两种Shuffle Manager,即HashShuffleManager和SortShuffleManager,前者是基于Ha
王家林学院
·
2015-12-16 00:20
王家林
王家林spark
王家林语录
王家林
每日大数据语录Spark篇0014(2015.11.4于南宁)
对于Spark中的join操作,如果每个partition仅仅和特定的partition进行join那么就是窄依赖;对于需要parent RDD所有partition进行join的操作,即需要shuffle,此时就是宽依赖。
王家林学院
·
2015-12-15 23:38
王家林
王家林语录
王家林spark
王家林
每日大数据语录Spark篇0013(2015.11.3于广州)
RDD有narrow dependency和wide dependency两种不同的类型的依赖,其中的narrow dependency指的是每一个parent RDD 的Partition最多被child RDD的一个Partition所使用,而wide dependency指的是多个child RDDs的Partition会依赖于同一个parent RDD的Partition。
王家林学院
·
2015-12-15 23:56
王家林
王家林语录
王家林spark
王家林
每日大数据语录Spark篇0012(2015.11.2于深圳)
可以从两个方面来理解RDD之间的依赖关系,一方面是RDD的parent RDD(s)是什么,另一方面是依赖于parent RDD(s)哪些Partions(s); 根据依赖于parent RDD(s)哪些Partions(s)的不同情况,Spark讲Dependency分为宽依赖和窄依赖两种。
王家林学院
·
2015-12-15 23:22
王家林
王家林spark
王家林语录
王家林
每日大数据语录Spark篇0011(2015.11.2于深圳)
RDD的saveAsTextFile方法会首先生成一个MapPartitionsRDD,该RDD通过雕工PairRDDFunctions的saveAsHadoopDataset方法向HDFS等输出RDD数据的内容,并在在最后调用SparkContext的runJob来真正的向Spark集群提交计算任务。
王家林学院
·
2015-12-15 23:46
王家林
王家林spark
王家林语录
王家林
每日大数据语录Spark篇0009(2015.11.1于北京)
Spark的CheckPoint是在计算完成之后重新建立一个Job来进行计算的,用户可以通过调用RDD.checkpoint()来指定RDD需要checkpoint的机制;为了避免重复计算,建议先对RDD进行persist操作,这样可以保证checkpoint更加快速的完成。
王家林学院
·
2015-12-15 23:13
王家林
王家林spark
王家林语录
王家林
每日大数据语录Spark篇0008(2015.10.31于北京)
持久化(包含Memory、Disk、Tachyon等类型)是Spark构建迭代算法和快速交互式查询的关键,当通过persist对一个RDD持久化后,每一个节点都将把计算的分片结果保存在内存或者磁盘或者Tachyon上,并且对此数据集或者衍生出来的数据集进行的其它Action级别的炒作都可以重用当前RDD的计算结果,这是的后续的的操作通常会快10到100倍。
王家林学院
·
2015-12-15 23:19
王家林
王家林spark
王家林语录
王家林
每日大数据语录Spark篇0007
RDD的所有Transformation操作都是Lazy级别的,实际上这些Transformation级别操作的RDD在发生Action操作之前只是仅仅被记录会作用在基础数据集上而已,只有当Driver需要返回结果的时候,这些Transformation类型的RDD才会真正作用数据集,基于这样设计的调度模式和运行模式让Spark更加有效率的运行。
王家林学院
·
2015-12-15 23:56
王家林
王家林语录
王家林spark
王家林
每日大数据语录Spark篇0006
基于RDD的整个计算过程都是发生在Worker中的Executor中的。RDD支持三种类型的操作:Transformation、Action以及Persist和CheckPoint为代表的控制类型的操作,RDD一般会从外部数据源读取数据,经过多次RDD的Transformation(中间为了容错和提高效率,有可能使用Persist和CheckPoint),最终通过Action类型的操作一般会把结果
王家林学院
·
2015-12-15 23:03
王家林
王家林spark
王家林语录
王家林
每日大数据语录Spark篇0005
Spark RDD是被分区的,对于RDD来说,每个分区都会被一个计算任务处理,并决定并行计算的粒度;RD的每次转换操作都会生成新的RDD,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Block数。
王家林学院
·
2015-12-15 23:18
王家林
王家林语录
王家林spark
王家林
每日大数据语录Spark篇0004
Spark中RDD采用高度受限的分布式共享内存,且新的RDD的产生只能够通过其它RDD上的批量操作来创建,依赖于以RDD的Lineage为核心的容错处理,在迭代计算方面比Hadoop快20多倍,同时还可以在5~7秒内交互式的查询TB级别的数据集。
王家林学院
·
2015-12-15 23:21
王家林
王家林spark
王家林语录
王家林
每日大数据语录Spark篇0003
Spark一体化多元化的解决方案极大的减少了开发和维护的人力成本和部署平台的物力成本,并在性能方面有极大的优势,特别适合于迭代计算,例如机器学习和和图计算;同时Spark对Scala和Python交互式shell的支持也极大的方便了通过shell直接来使用Spark集群来验证解决问题的方法,这对于原型开发至关重要,对数据分析人员有着无法拒绝的吸引力!
王家林学院
·
2015-12-15 23:13
王家林
王家林语录
王家林spark
王家林
每日大数据语录Spark篇0002
Spark基于RDD近乎完美的实现了分布式内存的抽象,且能够基于位置感知性调度、自动容错、负载均衡和高度的可扩展性,Spark中允许用户在执行多个查询时显式的将工作集缓存起来以供后续查询重用,这极大的提高了查询的速度。
王家林学院
·
2015-12-15 23:47
王家林
王家林spark
王家林语录
证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程
证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程此教程是
王家林
编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”第三讲:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程
·
2015-12-09 16:32
hadoop
开启大数据学习之旅
感谢
王家林
老师!
静Hadoop
·
2015-11-13 16:00
大数据学习之旅开启了
一个偶然的机会听了一次
王家林
老师的大数据课程,讲得非常棒,从今天开始向王老师学习,一步步打好大数据的基础,加油!
ff2008zhj
·
2015-11-13 16:13
王家林
的81门一站式云计算分布式大数据&移动互联网解决方案课程第八门课程:云计算分布式大数据HBase动手实践
一:课程简介: HBase是云计算时代大数据技术的事实开源标准和技术,是和Google的Bigtable类似的技术,很多使用云计算技术的公司(尤其是搜索引擎公司和金融机构基于互联网公司)均会选在使用HBase技术,本课程从HBase集群的实际构建、HBase具体的开发实战、HBase的内部架构、HBase的运维管理以及HBase的优化等深入浅出的细致剖析,祝
·
2015-11-13 08:41
hbase
王家林
的81门一站式云计算分布式大数据&移动互联网解决方案课程第六门课程:NoSQL架构揭秘和MongoDB深入浅出最佳实践
一:课程简介: 该来的终于来了,一股NoSQL革命正在席卷全球… 由于传统数据库越来越无法满足日益增长的海量数据的高效存储、访问以及高并发读写以及巨大的可扩展性等问题,传统的关系型数据库面临着巨大的调整,NoSQL应用而生。 NoSQL通过自身的架构和设计非常有效的解决了大数据量、高性能、高可用性、高度可扩展性等问题,并且在性能上具有革命性的优势,在众多的NoSQL
·
2015-11-13 08:40
mongodb
王家林
的81门一站式云计算分布式大数据&移动互联网解决方案课程第四门课程:云计算架构实例与案例鉴赏
一:课程简介: 首先从国内主要的云计算厂商系统比较和理解云计算架构等入手,然后细致剖析: Google的云计算 亚马逊的AWS 微软云计算平台Windows Azure VMware云计算 最后以实战技术:云计算动手实战---Hadoop结束; 让您理解云计算的基本概念、架构、工作机制;了解云计算的业务模式及其价值;结合业界云计算的发展,找出适合本企业云计算模式; 二:课程特色
·
2015-11-13 08:40
移动互联网
“大数据讲师”、“Hadoop讲师”、“Spark讲师”、“云计算讲师”、“Android讲师”
王家林
简介 Spark亚太研究院院长和首席专家,中国目前唯一的移动互联网和云计算大数据集大成者。 在Spark、Hadoop、Android等方面有丰富的源码、实务和性能优化经验。
·
2015-11-13 06:54
android
王家林
的81门一站式云计算分布式大数据&移动互联网解决方案课程第14门课程:Android软硬整合设计与框架揭秘: HAL&Framework &Native Service &App&HTML5架构设计与实战开发
掌握Android从底层开发到框架整合技术到上层App开发及HTML5的全部技术; 一次彻底的Android架构、思想和实战技术的洗礼; 彻底掌握Andorid HAL、Android Runtime、Android Framework、Android Native Service、Android Binder、Android App、Android Testing、HTML5技术的源泉和精髓
·
2015-11-13 06:52
framework
王家林
的81门一站式云计算分布式大数据&移动互联网解决方案课程第12门课程:Android系统完整训练:开发搭载Android系统的产品
如何从Linux起步,开发出搭载Android系统并且具备深度定制和软硬整合能力特色产品,是本课程解决的问题。 课程以Android的五大核心:HAL、Binder、Native Service、Android Service(并以AMS和WMS为例)、View System为主轴,一次性彻底掌握Android的精髓。 之所以是开发Android产品的必修课,缘起于: 1, &nb
·
2015-11-13 06:51
android
王家林
的81门一站式云计算分布式大数据&移动互联网解决方案课程第13门课程:NoSQL下的MongoDB企业级开发最佳实践
一:课程简介: Mongo DB是NoSQL最杰出的代表,是非关系数据库中功能最丰富、最想关系数据库的,是NoSQL在企业级的核心应用。 本课程从企业级实战的角度彻底揭秘MongoDB: 1, &nb
·
2015-11-13 06:51
mongodb
王家林
的81门一站式云计算分布式大数据&移动互联网解决方案课程第11门课程:Android应用程序开发完整训练:从零起步通过23个动手实战案例精通App开发
从零起步,24小时内通过23个动手实战案例,循序渐进的对Android商业级别的应用程序开发要点各个击破,依托于在多年的Android(6款完整的硬件产品和超过20款应用软件)开发和企业级培训经验(超过150期的次Android的企业内训和公开课),旨在在实务的基础之上帮助你完成任何复杂程序的高质量Android应用程序开发,让Android开发跟上想象的速度。最后,通过Activ
·
2015-11-13 06:50
android
王家林
的81门一站式云计算分布式大数据&移动互联网解决方案课程第10门课程:彻底精通Android系统架构与实战
如何彻底精通Android Framework并开发出搭载Android系统并且具备深度定制和软硬整合能力特色产品,是本课程解决的问题。 课程以Android的五大核心:HAL、Binder、Native Service、Android Service(并以AMS和WMS为例)、View System为主轴,一次性彻底掌握Android的精髓。 之所以是开发Android产品的必修课,缘起于:
·
2015-11-13 06:49
android
王家林
的81门一站式云计算分布式大数据&移动互联网解决方案课程第七门课程:云计算分布式大数据Hive数据仓库最佳实践
一:课程简介: 或许Hive会是数据仓库的终结者…… 作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成. Hive可以让你轻松的在Hadoop中存储、查询和分析海量
·
2015-11-13 06:48
移动互联网
王家林
的81门一站式云计算分布式大数据&移动互联网解决方案课程第九门课程:Android系统移植及框架整合与维护
移植Android到不同的平台必须整合Linux驱动程序,了解HAL及其设计和实现,是开发Android第一门课程,考虑Android Service的架构设计和实现是出色的移植工作必须做的功课,如何把新的和有特色的硬件功能加入Android是Android Service一个核心主题; 掌握Android的秘诀在于掌握其架构设计,本课程以代码剖析为基础,助你东西Android背后的架构设计和商
·
2015-11-13 06:48
android
王家林
的81门一站式云计算分布式大数据&移动互联网解决方案课程第五门课程:云计算分布式大数据Hadoop最佳实践
一:课程简介: Hadoop天生是解决大数据高并发问题的, 是一个能够对海量数据进行分布式处理的软件框架。互联网企业、金融机构、政府组织和云计算服务企业每天都会产生大量的数据并面临高并发的严峻考验,传统的关系型数据库已经无法满足大数据量高并发的要求,作为云计算实现规范和实施标准的Hadoop应运而生。 使用Hadoop,用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉
·
2015-11-13 06:47
hadoop
王家林
的81门一站式云计算分布式大数据&移动互联网解决方案课程第二门课程:云计算分布式大数据Hadoop数据库管理员企业级动手实践
一:课程介绍 数据库管理人员如何管理分布式的海量数据,是云计算时代的数据库从业人员面临的核心问题之一,Hadoop提出了解决方案。 本课程从数据库管理人员与系统管理人员的职业角度出发,从动手搭建Hadoop集群环境开始,涉及Hadoop集群的配置、维护、管理、监控、运维、测试、优化等主题,并细致剖析Hive数据仓库集群和优化等主题,帮助传统的
·
2015-11-13 06:46
hadoop
王家林
的81门一站式云计算分布式大数据&移动互联网解决方案课程第三门课程:云计算分布式大数据Hadoop征服之旅:HDFS&MapReduce&HBase&Hive&集群管理
一:课程简介: 作为云计算实现规范和实施标准的Hadoop恰逢其时的应运而生,使用Hadoop用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的、高效,的、可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择。 本课程会助你深入浅出的掌握Hadoop开发(
·
2015-11-13 06:46
mapreduce
王家林
的81门一站式云计算分布式大数据&移动互联网解决方案课程第一门课程:云计算分布式大数据Hadoop企业级开发动手实践
一:课程简介: Hadoop是云计算分布式大数据的事实标准软件框架,Hadoop中的架构实现是整个云计算产业技术的基础,作为与Google三大核心技术DFS、MapReduce、BigTable相对的HDFS、MapReduce、和HBase也是整个Hadoop生态系统的核心的技术,本课程致力于帮您掌握这三大技术的同时掌握云计算的数据仓库挖掘技术Hive,助
·
2015-11-13 06:45
hadoop
Spark视频
王家林
Spark公开课大讲坛第二期: Spark的Shark和SparkSQL
王家林
Spark公开课大讲坛第一期:Spark把云计算大数据速度提高100倍以上 http://edu.51cto.com/lesson/id-30816.html Spark
·
2015-11-13 04:37
spark
王家林
Spark公开课大讲坛第一期:Spark把云计算大数据速度提高100倍以上
王家林
Spark公开课大讲坛第一期:Spark把云计算大数据速度提高100倍以上 http://edu.51cto.com/lesson/id-30815.html  
·
2015-11-13 04:36
spark
王家林
的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第十一讲Hadoop图文训练课程:MapReduce的原理机制和流程图剖析
这一讲我们主要剖析MapReduce的原理机制和流程。 “云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Hadoop交流群:312494188,每天都会在群中发布云计算实战性资料,欢迎大家加入! 关于MapReduce,你至少需要知道以下几点: 1, &nb
·
2015-11-13 04:35
mapreduce
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他