大数据Spark 第2页

第5章 RDD编程进阶

上篇：第4章大数据Spark连接HBase数据读取与保存Spark三大数据结构RDD：分布式数据集广播变量：分布式只读共享变量累加器：分布式只写共享变量1、累加器累加器用来对信息进行聚合，通常在向Spark

江湖侠客·2020-09-15 02:41

Windows 7 下Scala运行环境的搭建

今天开始，要踏上大数据Spark的学习征程了，生命这么短，我们需要SparkSpark的内核使用Scala语言编写的，在编写Spark项目时，Scala也是最好的选择第一步是Scala运行环境的搭建，安装步骤如下

涤生新·2020-09-14 07:54

Scala定义函数的5种方式

大数据spark的源码是用Scala来开发的，因此学习Scala来开发spark会更加便捷。

zhu_si_tao·2020-09-14 05:58

大数据Spark处理算法004-查找共同好友

packagecn.spark.study.core;importjava.util.ArrayList;importjava.util.Arrays;importjava.util.HashMap;importjava.util.HashSet;importjava.util.List;importjava.util.Map;importjava.util.Map.Entry;importjav

犇犇_D·2020-08-22 13:05

大数据Spark基础和hadoop生态圈

xfxf996·2020-08-18 12:41

【大数据Spark_SparkSQL系列_1】Spark SQL基础（五星重要）

一、Spark生态简介官网：http://spark.apache.org/Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStreaming、Graph

weixin_30384031·2020-08-18 12:39

大数据spark教程

Spark是一种与Hadoop相似的开源集群计算环境，是专为大规模数据处理而设计的快速通用的计算引擎，现已形成一个高速发展应用广泛的生态系统，主要应用场景如下：1.Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小；2.由于RDD的特性，Spark不适用那种异步细粒度更

lmseo5hy·2020-08-11 22:12

大数据Spark “蘑菇云”行动第64课：页面跳转功能分析与架构 A、B、C页面之间跳转率的计算方法

大数据Spark“蘑菇云”行动第64课：页面跳转功能分析与架构64课程：例如京东上买东西进入某个目录搜商品--〉手机--〉华为--〉下订单--〉付款--〉业务处理用户喜欢什么页面，从什么页面跳转到什么页面流处理结合页面跳转

段智华·2020-08-11 05:32

大数据Spark技术数据分析综合实验：出租车数据分析

Spark出租车数据实验目录Spark出租车数据实验【实验目的】【实验原理】【实验环境】【实验步骤】1.数据加载2.数据分析3、模型构建4.可视化展现【实验目的】主要使用出租车上传的GPS点作为分析对象，使用Kmeans把出租车轨迹点聚类，找出出租车出现密集的地方，并用地图的方式进行可视化展示【实验原理】（1）数据的准备。（2）创建DataFrame。（3）使用kmeans聚类。（4）聚类结果可视

会涂色的雨·2020-08-11 03:58

20200625大数据spark学习笔记

启动src/redis-serverredis.confsrc/redis-cli-hhadoop000-p6379keys*查询里面的keyHBase特点大:面向列：列族（可以存放很多列），列族/列独立索引稀疏：对于空的列，不会占用存储空间数据类型单一：btye/string无模式：每一行的数据所对应的列不一定相同，每行的列是可以动态添加的数据多版本：比如company可以存放不同的版本的值默认

see you in September·2020-08-11 00:39

大数据Spark处理算法002-TopN

packagecn.spark.study.core;importjava.io.Serializable;importjava.util.Collections;importjava.util.Comparator;importjava.util.Iterator;importjava.util.List;importjava.util.Map;importjava.util.SortedMap

犇犇_D·2020-08-09 23:25

实战示例：分享大数据Spark常用操作示例，含有scala版、对应的java8 lambda版本

Spark开发语言选择说明：在生产环境中，每家公司会根据自身的技术储备情况选择对应的开发语言进行Spark应用开发。拿我们公司的例子，因为我们主要是熟悉java，所以更适合选择java开发。目前，市面上如果选用java进行Spark应用开发，大部分会优先选用java8lambda表达式进行开发；如果团队中都是新成员，或者大部分人都熟悉scala，则可以选用scala进行开发。针对此情况，编写了sc

十点进修·2020-08-06 11:44

Spark 核心技术链接

十点进修·2020-08-06 10:30

大数据Spark-----spark代码源码解析

firstCodec**publicclassFriend{publicstaticvoidmain(String[]args){System.out.println("BigData加：947967114");}}**SPARK源码解析首先看一段使用scala编写的spark代码：packagespark0719importorg.apache.spark.SparkConfimportorg.

爱码-947967114·2020-08-05 19:56

大数据修炼之路

大数据修炼之路大数据修炼之路大数据修炼之路大数据Spark是用Scala语言编写架构，因此，认真学习Scala是首选。

Eifre_Wu·2020-08-05 08:24

scala-语法简介

Scala本文档由博主参考慕课网学习Scala进击大数据Spark生态圈整理1.初始Scalahttps://zh.wikipedia.org/wiki/Scala面向对象、函数式编程、基于Java虚拟机

252619·2020-08-04 08:46

第3章键值对RDD数据分区器

上篇：第2章大数据SparkCore的RDD编程案例（下）一、键值对RDD数据分区器Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash分区为当前的默认分区，Spark中分区器直接决定了

江湖侠客·2020-08-02 14:29

ApacheCN 学习资源汇总 2018.11

Java基础Java编程思想JavaWeb和大数据Spark中文文档Storm中文文档Kafka中文文档Flink中文文档Beam中文文档Zeppelin0.7.2中文文档Elastics

布客飞龙·2020-08-01 05:31

C语言基础习题50例（二）6-10

文章目录习题6习题7习题8习题9习题10Spark大数据实战——大数据集训营的先导课给大家推荐一门大数据Spark入门课程https://www.bilibili.com/video/BV1oi4y147iD

cutercorley·2020-07-30 22:26

SPARK生产者写入KAFKA消息-代码及踩坑记录

背景是：项目通过大数据spark做模型的评估，评估代码为scala，评估的结果需要通过kafka消息队列进行中转，于是需要通过spark去连接kakfa队列，作为生产者像kafka队列中传送消息。

泰格数据·2020-07-30 18:33

2019年美团，滴滴，蘑菇街Java大数据面经分享！

架构师小秘圈·2020-07-29 05:23

ApacheCN 学习资源汇总

首页地址：http://www.apachecn.org关于我们：http://www.apachecn.org/aboutJava基础Java编程思想JavaWeb和大数据Spark中文文档Storm

丹之·2020-07-28 21:42

大数据Spark企业级实战版【学习笔记】---Spark简介

第1章Spark编程模式Hadoop和Spark联合构成了当今的大数据世界！Hadoop负责数据存储和资源管理，Spark负责一体化、多元化的不同规模的数据计算，而计算正是大数据的精髓之所在！1.1Spark简介基于RDD，Spark成功构建了一体化、多元化的大数据处理体系，而且Spark成功使用SparkSQL、SparkStreaming、MLlib、GraphX近乎完美地解决了大数据中Bat

WEL测试·2020-07-15 23:00

大数据Spark企业级实战版【学习笔记】----Tachyon& BlinkDB&Akka

8.TachyonTachyon是一个高容错的分布式文件系统，允许文件以内存的速度在集群框架中进行可靠的共享，就像Spark和MapReduce那样。通过信息继承、内存侵入，Tachyon获得了高性能。Tachyon工作集文件缓存在内存中，并且让不同的Jobs/Queries以及框架都能以内存的速度来访问缓存文件。因此，Tachyon可以减少那些需要经常使用的数据集通过访问磁盘来获得的次数。Tac

WEL测试·2020-07-15 23:00

大数据Spark企业级实战版【学习笔记】----Spark Shark& Spark SQL

4.SparkSharkShark即HiveonSpark，本质上是通过Hive的HQL解析，Shark在Spark1.0.0由于整合度和性能等原因，已被Spark官方团队停止开发。Shark在实现上是把HQL翻译成Spark上的RDD操作，然后通过Hive的metadata获取数据库里的表信息，Shark获取HDFS上的数据和文件并放到Spark上运算。Shark的最大特性就是快以及与Hive完

WEL测试·2020-07-15 23:00

大数据Spark “蘑菇云”行动第50课程 Spark 2.0项目概述项目！！！大项目！！！超大型大数据项目！！！

大数据Spark“蘑菇云”行动第50课程Spark2.0项目概述从9月20号的大数据项目课程内容开始，所有的同学每节课必须按照课程内容动手实战，且基于课程内容写项目的学习博客；第一步：需求：数据的输入和数据的产出

段智华·2020-07-15 22:13

大数据Spark “蘑菇云”行动第48课程 Spark 2.0内幕深度解密和学习最佳实践

大数据Spark“蘑菇云”行动第48课程Spark2.0内幕深度解密和学习最佳实践观点1：从Spark2.0开始，Spark本身成为了编译器90%左右都是在基于Hive做SQL多维度数据分析，现在的主要的潮流是

段智华·2020-07-15 22:42

Apache Flink之架构概述和环境(章节一)

jiangzz电话：15652034180微信：jiangzz_wx微信公众账号：jiangzz_wy背景介绍继Spark之后第三代内存计算框架Flink应运而生，Flink作为第三代计算框架Flink吸取了二代大数据

麦田里的守望者··2020-07-15 16:38

大数据开发学习重难点全面解析

大数据开发，有4个阶段：1、数据采集想成为云计算大数据Spark高手，看这里！戳我阅读年薪50W的Java程序员转大数据学习路线戳我阅读大数据人工智能发展趋势与前景

乐姐·2020-07-14 23:33

大数据spark、hadoop、hive、hbase面试题及解析

整理的答案后面继续更新：(1)spark运行流程、源码架构https://blog.csdn.net/sghuu/article/details/103547937(2)Hbase主键设计、hbase为何这么快？主键设计：1.生成随机数、hash、散列值2.字符串反转3.字符串拼接hbase为何快：https://blog.csdn.net/sghuu/article/details/102955

sghuu·2020-07-14 22:07

sun.security.validator.ValidatorException,sun.security.provider.certpath.SunCertPathBuilderException

一.问题描述:最近搞大数据spark时,在idea中使用Maven出现如下异常,导致依赖的包无法下载：sun.security.validator.ValidatorException:PKIXpathbuildingfailed

浩然正气2017·2020-07-12 00:55

视频教程-大数据Spark实战视频教程-Spark

大数据Spark实战视频教程张长志技术全才、擅长领域：区块链、大数据、Java等。10余年软件研发及企业培训经验，曾为多家大型企业提供企业内训如中石化，中国联通，中国移动等知名企业。

学院导师-张长志·2020-07-10 06:52

大数据spark常用算子用法总结（个人学习笔记）

楼主目前在百度实习，刚学spark时困难重重，幸亏在百度实习的导师的帮助，年前学会了spark，并跑了几个程序，现在将学习过程中整理的spark算子代码用法给整理出来。#coding=utf-8#!/usr/bin/python#frompyspark.sqlimportSQLContext,Row#导入pyspark模块frompysparkimportSparkContext,SparkCon

yuekangwei·2020-07-09 04:25

Hadoop 不再权威，开源大数据的未来何去何从？

想成为云计算大数据Spark高手，看这里！戳我阅读年薪50W的Java程序员转大数据学

乐姐·2020-07-05 13:45

大数据Spark “蘑菇云”行动第72课：基于Spark 2.0.1项目实现之二. 实战各种小bug修复及性能调优 200并行度调整为2个task

大数据Spark“蘑菇云”行动第72课：基于Spark2.0.1项目实现之二.源数据格式及代码的小bug修复。

段智华·2020-07-04 15:40

将mysql的数据转存到Hadoop做实时统计分析，应该采用怎样的解决方案

关注问题写回答HadoopHBaseHive大数据Spark将mysql的数据转存到Hadoop做实时统计分析，应该采用怎样的解决方案？

lein_wang·2020-07-02 07:19

第54课作业实战成功：用phpMyAdmin等数据库可视化软件操作MySQL，并且通过远程操作MySQL;

phpMyAdmin等数据库可视化软件操作MySQL大数据Spark“蘑菇云”行动第54课：作业讲解与广告点击实现代码.作业：用phpMyAdmin等数据库可视化软件操作MySQL，并且通过远程操作MySQL

段智华·2020-07-01 23:50

Python玩转大数据-张敏-专题视频课程

通过这门课程不仅可以学到Spark/Hadoop/Hive大数据知识，还可以学到当下后的云计算技术Docker.课程收益通过这门课程，带领广大学员入门大数据，胜任大数据Spark开发工作，熟悉Docker

艾尔aier·2020-07-01 07:50

专访许鹏：谈C程序员修养及大型项目源码阅读与学习

注册业界移动开发云计算软件研发程序员杂志极客头条专题大数据数据中心服务器存储虚拟化NoSQL安全云先锋订阅云计算RSSCSDN首页>云计算发表于2014-06-0521:16|19253次阅读|来源CSDN|84条评论|作者仲浩云计算大数据

「已注销」·2020-07-01 07:07

大数据Spark实战高手之路职业学习路线图

从零起步，分阶段无任何障碍逐步掌握大数据统一计算平台Spark，从Spark框架编写和开发语言Scala开始，到Spark企业级开发，再到Spark框架源码解析、Spark与Hadoop的融合、商业案例和企业面试，一次性彻底掌握Spark，成为云计算大数据时代的幸运儿和弄潮儿，笑傲大数据职场和人生！学习目标：1、掌握Scala；2、精通Spark企业及开发；3、精通Spark框架源码实现；4、掌握

yiyidsj·2020-06-30 08:19

大数据Spark企业级实战 PDF 下载和目录

大数据Spark企业级实战PDF完整版下载地址http://download.csdn.net/detail/laoge/9504794基本信息书名:大数据Spark企业级实战定价：129元作者:Spark

wyx100·2020-06-29 22:11

第2章大数据Spark基础解析

上篇：第1章大数据Spark概述1、Spark安装地址（1）官网地址http://spark.apache.org/（2）文档查看地址https://spark.apache.org/docs/2.1.1

江湖侠客·2020-06-28 22:08

王家林大数据Spark超经典视频链接全集[转]

压缩过的大数据Spark蘑菇云行动前置课程视频百度云分享链接链接：http://pan.baidu.com/s/1cFqjQuSCALA专辑Scala深入浅出经典视频链接：http://pan.baidu.com

weixin_30847939·2020-06-28 01:49

idea设置控制台不打印日志

这样做的好处是当想打印数据到控制台查看就特别方便，这个在大数据sparksql使用的多。当然如果代码报错也会打印，这个不必担心。

weixin_30755393·2020-06-28 00:35

大数据Spark：从入门到实战（附视频教程&项目源码）

本文是由菜鸟窝出品的12天大数据特训营课程摘录出来的，关于大数据spark的入门到实战视频可以戳此查看第三章：https://www.cniao5.com/course/10244勾搭助教Bella的weixin

Bella人工智能爱好者·2020-06-22 17:26

大数据Spark和Hadoop以及区别（干货）

1.Spark是什么？Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。Spark包含了大数据领域常见的各种计算框架：比如SparkCore用于离线计算，SparkSQL用于交互式查询，SparkStreaming用于实时流式计算，SparkMLlib用于机器学习，SparkGraphX用于图计算。Spark

BAO7988·2020-06-21 17:47

第1章大数据Spark概述

Spark概述1.1、什么是SparkMR的缺点：mr基于数据集计算，所以面向数据（1）基本运算规则从存储介质中获取（采集）数据，然后进行计算，最后将结果存储到介质中，所以主要应用于一次计算，不适合于数据挖掘和机器学习的迭代计算和图形挖掘计算。（2）MR基于文件存储介质的操作，所以性能非常慢。（3）MR和hadoop紧密耦合在一起，无法动态替换Spark的历史（1）2013年6月发布（2）Spar

江湖侠客·2020-06-21 12:58

七月在线Spark大数据实战班

课程大纲第一阶段：大数据spark入门介绍第一课：大数据入门概述知识点1：大数据技术发展史知识点2：大数据的应用以及未来知识点3：hadoop生态圈介绍知识点4：hadoop框架演变与发展知识点5：大数据存储系统

Ot4Wo08D·2020-03-06 12:01

2015年第二拨图书袭来

备战两个月，继《大数据Spark企业级实战》之后，有一拨图书上市，这里稍加总结一下：游戏自动化测试实践《游戏自动化测试实践》是一本有关游戏测试的图书，没有过多的测试理论上的讲述，而是将自动化测试思想、方法与技巧融汇到小游戏当中

半亩方塘_·2020-03-01 13:56

大数据Spark SQL慕课网日志分析

前5章小结环境变量/etc/profileJAVA_HOME=/usr/local/src/java/jdkCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarHIVE_HOME=/usr/local/src/app/hive-1.1.0-cdh5.12.0SPARK_HOME=/usr/local/src/app/spark-2.2

HUAWEIMate20·2020-01-06 02:33

推荐频道

大数据Spark

第5章 RDD编程进阶

Windows 7 下Scala运行环境的搭建

Scala定义函数的5种方式

大数据Spark处理算法004-查找共同好友

大数据Spark基础和hadoop生态圈

【大数据Spark_SparkSQL系列_1】Spark SQL基础（五星重要）

大数据spark教程

大数据Spark “蘑菇云”行动第64课： 页面跳转功能分析与架构 A、B、C页面之间跳转率的计算方法

大数据Spark技术数据分析综合实验：出租车数据分析

20200625大数据spark学习笔记

大数据Spark处理算法002-TopN

实战示例：分享大数据Spark常用操作示例，含有scala版、对应的java8 lambda版本

Spark 核心技术链接

大数据Spark-----spark代码源码解析

大数据修炼之路

scala-语法简介

第3章 键值对RDD数据分区器

ApacheCN 学习资源汇总 2018.11

C语言基础习题50例（二）6-10

SPARK生产者写入KAFKA消息-代码及踩坑记录

2019年美团，滴滴，蘑菇街Java大数据面经分享！

ApacheCN 学习资源汇总

大数据Spark企业级实战版【学习笔记】---Spark简介

大数据Spark企业级实战版【学习笔记】----Tachyon& BlinkDB&Akka

大数据Spark企业级实战版【学习笔记】----Spark Shark& Spark SQL

大数据Spark “蘑菇云”行动第50课程 Spark 2.0项目概述 项目！！！大项目！！！超大型大数据项目！！！

大数据Spark “蘑菇云”行动第48课程 Spark 2.0内幕深度解密和学习最佳实践

Apache Flink之架构概述和环境(章节一)

大数据开发学习 重难点全面解析

大数据spark、hadoop、hive、hbase面试题及解析

sun.security.validator.ValidatorException,sun.security.provider.certpath.SunCertPathBuilderException

视频教程-大数据Spark实战视频教程-Spark

大数据spark常用算子用法总结（个人学习笔记）

Hadoop 不再权威，开源大数据的未来何去何从？

大数据Spark “蘑菇云”行动第72课： 基于Spark 2.0.1项目实现之二. 实战 各种小bug修复及性能调优 200并行度调整为2个task

将mysql的数据转存到Hadoop做实时统计分析，应该采用怎样的解决方案

第54课作业实战成功：用phpMyAdmin等数据库可视化软件操作MySQL，并且通过远程操作MySQL;

Python玩转大数据-张敏-专题视频课程

专访许鹏：谈C程序员修养及大型项目源码阅读与学习

大数据Spark实战高手之路职业学习路线图

大数据Spark企业级实战 PDF 下载 和目录

第2章 大数据Spark基础解析

王家林 大数据Spark超经典视频链接全集[转]

idea设置控制台不打印日志

大数据Spark：从入门到实战（附视频教程&项目源码）

大数据Spark和Hadoop以及区别（干货）

第1章 大数据Spark概述

七月在线Spark大数据实战班

2015年第二拨图书袭来

大数据Spark SQL慕课网日志分析

大数据Spark “蘑菇云”行动第64课：页面跳转功能分析与架构 A、B、C页面之间跳转率的计算方法

第3章键值对RDD数据分区器

大数据Spark “蘑菇云”行动第50课程 Spark 2.0项目概述项目！！！大项目！！！超大型大数据项目！！！

大数据开发学习重难点全面解析

大数据Spark “蘑菇云”行动第72课：基于Spark 2.0.1项目实现之二. 实战各种小bug修复及性能调优 200并行度调整为2个task

大数据Spark企业级实战 PDF 下载和目录

第2章大数据Spark基础解析

王家林大数据Spark超经典视频链接全集[转]

第1章大数据Spark概述