【大数据开发】第24页

大数据开发工程师必备

原文地址：https://mp.weixin.qq.com/s/T3eNGhixOwQJqfbrsdXBcw目录模型设计流程业务建模领域建模逻辑建模物理建模模型设计流程业务建模：梳理业务流程领域建模：数仓分域/主题逻辑建模：指标体系梳理、实体关系调研、维度梳理、数仓分层物理建模：模型建立业务建模找到公司核心业务流程，找到谁，在什么环节，做什么关键动作，得到什么结果。梳理每个业务节点的客户及关注重点

菜鸟也学大数据·2021-04-03 17:56

腾讯游戏实时计算应用平台建设实践

内容包括：建设背景统一实时大数据开发OneData统一大数据接口服务OneFun数据服务微服务化&ServiceMesh管理一、建设背景首先介绍一下相关背景，很早之前我们就开始做游戏开发游戏运营，尤其是在五六年前开发过程还是比较痛苦的

·2021-04-01 12:37

从实战中了解数据开发全流程——DataWorks OpenAPI实战

简介：DataWorks作为飞天大数据平台操作系统，历经11年发展，形成了涵盖数据集成、数据开发、数据治理、数据服务的一站式大数据开发治理平台。

·2021-04-01 03:41

大数据开发-数据表监控-实现

1.简介大数据开发-表数据波动、码值分布波动监控&&报警，是关于理论和设计部分，初步计算已经写完，管理平台部分，后续完善，本文主要针对模块设计部分，整体模块实现上是离线数据源的异步模块，分为指标跑批模块

·2021-03-29 01:43

大数据开发-Flink-体系结构 && 运行架构

Flink体系结构以及主要组成像大多数大数据框架一样，Flink是非常经典的Master/Slave结构实现，JobManager是Master，TaskManager是Slave。JobManager处理器（Master）协调分布式执行，它们用来调度task，协调检查点(CheckPoint)，协调失败时恢复等，Flink运行时至少存在一个master处理器，如果配置高可用模式则会存在多个mas

·2021-03-29 01:43

大数据开发-数据表监控-实现

1.简介大数据开发-表数据波动、码值分布波动监控&&报警，是关于理论和设计部分，初步计算已经写完，管理平台部分，后续完善，本文主要针对模块设计部分，整体模块实现上是离线数据源的异步模块，分为指标跑批模块

·2021-03-29 01:01

大数据开发-Flink-体系结构 && 运行架构

Flink体系结构以及主要组成像大多数大数据框架一样，Flink是非常经典的Master/Slave结构实现，JobManager是Master，TaskManager是Slave。JobManager处理器（Master）协调分布式执行，它们用来调度task，协调检查点(CheckPoint)，协调失败时恢复等，Flink运行时至少存在一个master处理器，如果配置高可用模式则会存在多个mas

·2021-03-29 01:01

大数据开发-深入理解大数据Lambda架构

1.大数据处理的挑战缕一缕it的发展，第一阶段是各大系统各大平台的出现，解决的是线下搬到线上的效率问题，而下一个阶段是数据时代，处理这些各大平台积累的数据，积累的数据，一般比较大，大数据做的是什么，大规模的数据处理，主要是离线为主，所以就出现了hadoop的三大基础组件，分别解决大数据存储，计算，大表存储，这个阶段基本解决了大数据的计算，也即可以编写出程序，完成大数据的大规模运算，后面又出现了实时

·2021-03-19 22:27

大数据开发-Spark-Streaming处理数据到mysql

前面一篇讲到streamin读取kafka数据加工处理后写到kafka数据，大数据开发-Spark-开发Streaming处理数据&&写入Kafka是针对比如推荐领域，实时标签等场景对于实时处理结果放到

·2021-03-19 22:14

大数据开发-深入理解大数据Lambda架构

1.大数据处理的挑战缕一缕it的发展，第一阶段是各大系统各大平台的出现，解决的是线下搬到线上的效率问题，而下一个阶段是数据时代，处理这些各大平台积累的数据，积累的数据，一般比较大，大数据做的是什么，大规模的数据处理，主要是离线为主，所以就出现了hadoop的三大基础组件，分别解决大数据存储，计算，大表存储，这个阶段基本解决了大数据的计算，也即可以编写出程序，完成大数据的大规模运算，后面又出现了实时

·2021-03-19 22:59

Java工程师（面试）

Java工程师（面试）目前行业需求已有单体应用的开发转向微服务开发，甚至和大数据开发（java）方向融合，而传统的java开发技术正在逐渐淘汰。

来自西北的星星·2021-03-12 22:48

大数据工程师的通关攻略

Java/Scala大数据开发工程师灵活使用大数据技术解决业务问题了解大数据工具使用原理Java/Scala数据仓库工程师对业务敏感对数据建模Java/HQL/Pytho

·2021-03-12 06:17

美团优选大数据开发岗面试真题-附答案详细解析

以下为面试过程中提问，岗位为大数据开发，根据提问内容看出，主要偏数仓方向自我介绍到北京工作的意

·2021-03-11 08:46

美团优选大数据开发岗面试真题-附答案详细解析

以下为面试过程中提问，岗位为大数据开发，根据提问内容看出，主要偏数仓方向自我介绍到北京工作的意

·2021-03-11 08:28

某大厂大数据开发工程师（偏数据仓库）社招面经

从校招之后两年多以来的第一次面试，悲惨的挂了。记录一下问题和不足吧。1、问项目，以及你在其中参与的角色，遇到的挑战之类的。2、继续基于项目发问，因为我之前做的都是离线数据开发，问怎样保障数据及时准确出具？以及数据质量如何保证？3、数据仓库分层思想，可以结合自己公司数仓的情况。ods-dwd/dws-dm，每一层大致介绍一下作用是什么。最后说一下这么分层的好处。4、有没有听过cube表。5、事务性数

FengYuxin0706·2021-03-11 00:43

美团优选大数据开发岗面试真题-附答案详细解析

以下为面试过程中提问，岗位为大数据开发，根据提问内容看出，主要偏数仓方向自我介绍到北京工作的意

五分钟学大数据·2021-03-10 12:49

大数据开发专业有哪些就业方向呢？

如今，大数据开发行业已经成为无数人向往的职业之一，因为大数据开发行业的薪水高，发展前景广阔，那么对于想学习数据开发的小伙伴来说，建议先了解大数据开发行业的就业前景，再考虑要不要学，下面随编辑一起来认识一下吧

yiduedu2008·2021-03-08 12:39

操作系统与Linux常用知识总结

操作系统与Linux常用知识总结Java、大数据开发学习要点（持续更新中…）文章目录操作系统与Linux常用知识总结一、操作系统部分：1.==进程与线程间的区别、协程相关==2.==进程有哪些状态？

oahaijgnahz·2021-03-07 16:56

内存与操作系统内存管理

内存与操作系统内存管理文章目录内存与操作系统内存管理一、内存的基础知识二、内存管理2.1内存空间扩充2.2内存空间的分配与回收**Java、大数据开发学习要点（持续更新中…）一、内存的基础知识内存是用于存放数据的硬件

oahaijgnahz·2021-03-01 10:31

全套大数据开发面试题库教程，包含大数据面试复习，简历编写指导

全套大数据开发面试题库教程，把各大公司的题库都给拿来了，总近千道面试题，此外还包含简历编写指导，面试技巧，还有一整套大数据面试复习的视频，让你在最短的时间内最高效复习大数据知识点本内容已更新至2020年最新版

五分钟学大数据·2021-02-25 16:29

Docker一键部署大数据平台开发环境

大数据开发环境搭建一般比较费时，如果用docker部署的话，能够大大节约部署时间，提高数据开发效率。为了让数据开发变得更加简单，抽时间进行了大数据平台的docker部署开发。

谷迈科技·2021-02-23 17:29

大数据开发--Hbase协处理器案例

大数据开发--Hbase协处理器案例1.需求描述在社交网站，社交APP上会存储有大量的用户数据以及用户之间的关系数据，比如A用户的好友列表会展示出他所有的好友，现有一张Hbase表，存储就是当前注册用户的好友关系数据

·2021-02-15 18:06

大数据开发--Hbase协处理器案例

大数据开发--Hbase协处理器案例1.需求描述在社交网站，社交APP上会存储有大量的用户数据以及用户之间的关系数据，比如A用户的好友列表会展示出他所有的好友，现有一张Hbase表，存储就是当前注册用户的好友关系数据

·2021-02-15 18:58

大数据开发-linux下常见问题详解

1.userssiscurrentlyuserbyprocess3234问题原因：root-->ss-->root栈递归一样解决方式：exit退出当前到ss再退出到root然后执行命令即可。2.列出某目录下的目录而不是文件参考：ls--https://jingyan.baidu.com/article/e8cdb32b100dd537052badc5.html3.登录用户与当前用户whoami当前

·2021-02-14 22:54

大数据开发-linux后台运行，关闭，查看后台任务

在日常开发过程中，除了例行调度的任务和直接在开发环境下比如Scripts，开发，很多情况下是shell下直接搞起（小公司一般是这样），看一下常见的linux后台运行和关闭的命令，这里做一个总结，主要包括：fg、bg、jobs、&、nohup、ctrl+z、ctrl+c命令等一、&加在一个命令的最后，可以把这个命令放到后台执行，如watch-n10shtest.sh&#每10s在后台执行一次test

·2021-02-14 22:53

大数据开发-linux下常见问题详解

1.userssiscurrentlyuserbyprocess3234问题原因：root-->ss-->root栈递归一样解决方式：exit退出当前到ss再退出到root然后执行命令即可。2.列出某目录下的目录而不是文件参考：ls--https://jingyan.baidu.com/article/e8cdb32b100dd537052badc5.html3.登录用户与当前用户whoami当前

·2021-02-14 22:16

大数据开发-linux后台运行，关闭，查看后台任务

在日常开发过程中，除了例行调度的任务和直接在开发环境下比如Scripts，开发，很多情况下是shell下直接搞起（小公司一般是这样），看一下常见的linux后台运行和关闭的命令，这里做一个总结，主要包括：fg、bg、jobs、&、nohup、ctrl+z、ctrl+c命令等一、&加在一个命令的最后，可以把这个命令放到后台执行，如watch-n10shtest.sh&#每10s在后台执行一次test

·2021-02-14 22:16

MySQL 5.7 RPM安装 - Linux（结尾附视频）

本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域，如今终有小成，愿将昔日所获与大家交流一二，希望对学习路上的你有所助益。

小山猪的沙塔·2021-02-14 14:00

2021,要这样学大数据开发

序数据是一个企业的核心资产，这是大家公认的观点。现在是数据为王的时代，谁掌握了数据，谁就掌握了未来。人人都听过大数据，人人都知道大数据的价值，但对于非从业者来说，如何从事大数据工作，或者怎样才能从事大数据工作，都不是很清楚。大数据从业，这个不是学校教育出来的，不是培训机构吹捧出来的，是企业（由于是大企业），拿上亿资金投入生产后，总结出来的方法论和实践论。大数据的就业前景广阔，薪资待遇优厚，很多小伙

朱元禄·2021-02-13 16:57

程序员如何用“心“表白（结尾附源码）

本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域，如今终有小成，愿将昔日所获与大家交流一二，希望对学习路上的你有所助益。

小山猪的沙塔·2021-02-13 15:37

大数据开发-从cogroup的实现来看join是宽依赖还是窄依赖

前面一篇文章提到大数据开发-SparkJoin原理详解,本文从源码角度来看cogroup的join实现1.分析下面的代码importorg.apache.spark.rdd.RDDimportorg.apache.spark

·2021-02-13 01:38

大数据开发-从cogroup的实现来看join是宽依赖还是窄依赖

前面一篇文章提到大数据开发-SparkJoin原理详解,本文从源码角度来看cogroup的join实现1.分析下面的代码importorg.apache.spark.rdd.RDDimportorg.apache.spark

·2021-02-13 01:04

大数据开发知识点汇总（待更新）

GoAl的博客·2021-02-09 11:34

大数据开发-Spark-初识Spark-Graph && 快速入门

1.SparkGraph简介GraphX是Spark一个组件，专门用来表示图以及进行图的并行计算。GraphX通过重新定义了图的抽象概念来拓展了RDD：定向多图，其属性附加到每个顶点和边。为了支持图计算，GraphX公开了一系列基本运算符（比如：mapVertices、mapEdges、subgraph）以及优化后的PregelAPI变种。此外，还包含越来越多的图算法和构建器，以简化图形分析任务。

·2021-02-08 00:51

大数据开发-Sql-涉及迭代数据的sql问题处理思路

在前面一篇里面，算法-一个经典sql题和一个Java算法题大数据开发-Hive-常用日期函数&&日期连续题sql套路有一道经典sql题目，解决连续问题，本文继续总结关于连续性的套路，来自于实际生产项目的问题

·2021-02-08 00:50

大数据开发-Spark-开发Streaming处理数据 && 写入Kafka

1.SparkStreaming简介SparkStreaming从各种输入源中读取数据，并把数据分组为小的批次。新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候，一个新的批次就创建出来，在该区间内收到的数据都会被添加到这个批次中。在时间区间结束时，批次停止增长，时间区间的大小是由批次间隔这个参数决定的。批次间隔一般设在500毫秒到几秒之间，由开发者配置。每个输入批次都形成一个RDD，以S

·2021-02-08 00:50

大数据开发-Sql-涉及迭代数据的sql问题处理思路

在前面一篇里面，算法-一个经典sql题和一个Java算法题大数据开发-Hive-常用日期函数&&日期连续题sql套路有一道经典sql题目，解决连续问题，本文继续总结关于连续性的套路，来自于实际生产项目的问题

·2021-02-08 00:34

大数据开发-Spark-初识Spark-Graph && 快速入门

1.SparkGraph简介GraphX是Spark一个组件，专门用来表示图以及进行图的并行计算。GraphX通过重新定义了图的抽象概念来拓展了RDD：定向多图，其属性附加到每个顶点和边。为了支持图计算，GraphX公开了一系列基本运算符（比如：mapVertices、mapEdges、subgraph）以及优化后的PregelAPI变种。此外，还包含越来越多的图算法和构建器，以简化图形分析任务。

·2021-02-08 00:34

大数据开发-Spark-开发Streaming处理数据 && 写入Kafka

1.SparkStreaming简介SparkStreaming从各种输入源中读取数据，并把数据分组为小的批次。新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候，一个新的批次就创建出来，在该区间内收到的数据都会被添加到这个批次中。在时间区间结束时，批次停止增长，时间区间的大小是由批次间隔这个参数决定的。批次间隔一般设在500毫秒到几秒之间，由开发者配置。每个输入批次都形成一个RDD，以S

·2021-02-08 00:34

2021年超全超详细的最新大数据开发面试题，附答案解析

版本时间描述V1.02020-12-18创建V1.22021-01-17新增spark面试题V1.32021-01-18新增kafka面试题V1.42021-01-20新增hbase面试题V1.52021-01-30新增flink面试题复习大数据面试题，看这一套就够了！持续更新中…文章更新首发于公众号：五分钟学大数据获取此套面试题最新pdf版，请搜索公众号【五分钟学大数据】，对话框发送面试宝典此套

五分钟学大数据·2021-02-02 14:27

大数据开发环境搭建番外之docker初识

1.写在前面这几天业余时间简单的学习了一下docker，这个东西是Linux容器的一种封装，然后提供简单易用的容器接口，这个东西有点像轻量级的虚拟机，能够将应用程序和该程序需要的依赖打包在一个文件里面，运行的时候就会生成一个虚拟容器，让程序在里面运行而不用担心环境问题。既然有虚拟机了，那为啥要用docker呢?docker成本开销要比虚拟机小的多。这篇文章就来初识一下docker，顺便在之前的Li

Miracle8070·2021-01-31 21:05

大数据开发-Spark-拷问灵魂的5个问题

1.Spark计算依赖内存，如果目前只有10g内存，但是需要将500G的文件排序并输出，需要如何操作？①、把磁盘上的500G数据分割为100块（chunks），每份5GB。（注意，要留一些系统空间！）②、顺序将每份5GB数据读入内存，使用quicksort算法排序。③、把排序好的数据（也是5GB）存放回磁盘。④、循环100次，现在，所有的100个块都已经各自排序了。（剩下的工作就是如何把它们合并排

·2021-01-31 21:35

大数据开发-Spark-拷问灵魂的5个问题

1.Spark计算依赖内存，如果目前只有10g内存，但是需要将500G的文件排序并输出，需要如何操作？①、把磁盘上的500G数据分割为100块（chunks），每份5GB。（注意，要留一些系统空间！）②、顺序将每份5GB数据读入内存，使用quicksort算法排序。③、把排序好的数据（也是5GB）存放回磁盘。④、循环100次，现在，所有的100个块都已经各自排序了。（剩下的工作就是如何把它们合并排

·2021-01-31 15:46

大数据开发-Spark Join原理详解

数据分析中将两个数据集进行Join操作是很常见的场景。在Spark的物理计划阶段，Spark的JoinSelection类会根据Joinhints策略、Join表的大小、Join是等值Join还是不等值以及参与Join的key是否可以排序等条件来选择最终的Join策略，最后Spark会利用选择好的Join策略执行最终的计算。当前Spark一共支持五种Join策略：Broadcasthashjoin

·2021-01-31 15:46

大数据开发-Spark-RDD实操案例-http日志分析

1.在生产环境下，如何处理配置文件&&表的数据处理配置文件，或者配置表，一般是放在在线db，比如mysql等关系型数据库，或者后台rd直接丢给你一份文件，数据量比起整个离线数据仓库的大表来说算很小，所以这种情况下，一般的做法是将小表，或者小文件广播出去，那么下面一个例子来看，广播表的使用解决ip地址映射问题数据地址：链接：https://pan.baidu.com/s/1FmFxSrPIynO3u

·2021-01-31 15:45

大数据开发-生产中遇到的10个致命问题

生产环境版本Hive:1.2.1,Spark:2.3.21.insertoverwritedirectory不会覆盖数据注意，生成结果是目录，生成目录里面的不同文件名不会被覆盖，因此很容易出现数据double或者没有覆盖到数据的问题，比如数据分片原始结果如下：/mytable/000000_0/mytable/000000_1/mytable/000000_2/mytable/000000_3##

·2021-01-31 15:07

大数据开发-Spark-闭包的理解

1.从Scala中理解闭包闭包是一个函数，返回值依赖于声明在函数外部的一个或多个变量。闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。如下面这段匿名的函数：valmultiplier=(i:Int)=>i*10函数体内有一个变量i，它作为函数的一个参数。如下面的另一段代码：valmultiplier=(i:Int)=>i*factor在multiplier中有两个变量：i和

·2021-01-31 15:06

大数据开发-Spark Join原理详解

数据分析中将两个数据集进行Join操作是很常见的场景。在Spark的物理计划阶段，Spark的JoinSelection类会根据Joinhints策略、Join表的大小、Join是等值Join还是不等值以及参与Join的key是否可以排序等条件来选择最终的Join策略，最后Spark会利用选择好的Join策略执行最终的计算。当前Spark一共支持五种Join策略：Broadcasthashjoin

·2021-01-31 15:04

大数据开发-Spark-RDD实操案例-http日志分析

1.在生产环境下，如何处理配置文件&&表的数据处理配置文件，或者配置表，一般是放在在线db，比如mysql等关系型数据库，或者后台rd直接丢给你一份文件，数据量比起整个离线数据仓库的大表来说算很小，所以这种情况下，一般的做法是将小表，或者小文件广播出去，那么下面一个例子来看，广播表的使用解决ip地址映射问题数据地址：链接：https://pan.baidu.com/s/1FmFxSrPIynO3u

·2021-01-31 15:03

Java : Stream 数据流 (Collection 接口扩充, Stream基本操作, MapReduce 模型)

Stream接口里有两个重要的操作方法:MapReduce基础模型范例:编写一个简单的数据统计操作范例:实现订单信息的保存,随后进行一个总量的统计从JDK1.8发起的时候实际上就是世界上大数据兴起的时候,在大数据开发里面有一个最经典的模型

流浪少年的梦·2021-01-30 00:10

推荐频道

【大数据开发】

大数据开发工程师必备

腾讯游戏实时计算应用平台建设实践

从实战中了解数据开发全流程——DataWorks OpenAPI实战

大数据开发-数据表监控-实现

大数据开发-Flink-体系结构 && 运行架构

大数据开发-数据表监控-实现

大数据开发-Flink-体系结构 && 运行架构

大数据开发-深入理解大数据Lambda架构

大数据开发-Spark-Streaming处理数据到mysql

大数据开发-深入理解大数据Lambda架构

Java工程师（面试）

大数据工程师的通关攻略

美团优选大数据开发岗面试真题-附答案详细解析

美团优选大数据开发岗面试真题-附答案详细解析

某大厂大数据开发工程师（偏数据仓库）社招面经

美团优选大数据开发岗面试真题-附答案详细解析

大数据开发专业有哪些就业方向呢？

操作系统与Linux常用知识总结

内存与操作系统内存管理

全套大数据开发面试题库教程，包含大数据面试复习，简历编写指导

Docker一键部署大数据平台开发环境

大数据开发--Hbase协处理器案例

大数据开发--Hbase协处理器案例

大数据开发-linux下常见问题详解

大数据开发-linux后台运行，关闭，查看后台任务

大数据开发-linux下常见问题详解

大数据开发-linux后台运行，关闭，查看后台任务

MySQL 5.7 RPM安装 - Linux（结尾附视频）

2021,要这样学大数据开发

程序员如何用“心“表白（结尾附源码）

大数据开发-从cogroup的实现来看join是宽依赖还是窄依赖

大数据开发-从cogroup的实现来看join是宽依赖还是窄依赖

大数据开发知识点汇总（待更新）

大数据开发-Spark-初识Spark-Graph && 快速入门

大数据开发-Sql-涉及迭代数据的sql问题处理思路

大数据开发-Spark-开发Streaming处理数据 && 写入Kafka

大数据开发-Sql-涉及迭代数据的sql问题处理思路

大数据开发-Spark-初识Spark-Graph && 快速入门

大数据开发-Spark-开发Streaming处理数据 && 写入Kafka

2021年超全超详细的最新大数据开发面试题，附答案解析

大数据开发环境搭建番外之docker初识

大数据开发-Spark-拷问灵魂的5个问题

大数据开发-Spark-拷问灵魂的5个问题

大数据开发-Spark Join原理详解

大数据开发-Spark-RDD实操案例-http日志分析

大数据开发-生产中遇到的10个致命问题

大数据开发-Spark-闭包的理解

大数据开发-Spark Join原理详解

大数据开发-Spark-RDD实操案例-http日志分析

Java : Stream 数据流 (Collection 接口扩充, Stream基本操作, MapReduce 模型)