【大数据开发】第4页

大数据开发：Hive on Spark设计原则及架构

今天的大数据开发分享，我们来讲讲HiveonSpark设计原则及架构。

成都加米谷大数据·2023-12-05 01:44

大数据开发：Kafka消息存储到Broker的流程

今天的大数据开发学习分享，我们就主要来讲讲Kafka消息存储到Broker的流程。

成都加米谷大数据·2023-12-04 23:34

大数据开发：HDFS Erasure Coding机制

今天的大数据开发分享，我们就来讲讲HDFSErasureCoding机制。1、HDFS备份机制的问题为了提供容错，HDFS根据复制因子的大小在不同的DataNodes节点复制文件块数据。

成都加米谷大数据·2023-12-03 14:29

Mysql基本概念和Sql基本语法

数据库的基本概念DB:表视图索引存储过程触发器EventsDB可以想象成为一个文件夹，表就是文件夹里面的excel文件一般作为大数据开发来说只需要掌握前面三个就可以了字段类型1.数值类型int整数long

吃货大米饭·2023-12-02 17:19

大数据开发：Hbase集群安装配置入门

今天的大数据开发学习分享，我们就主要来讲讲Hbase集群安装配置入门。

成都加米谷大数据·2023-12-01 22:39

零基础学习大数据的方向和路线

大数据三大学习方向：大数据开发师、大数据架构师、大数据运维师互联网科技发展蓬勃兴起，人工智能时代来临，抓住下一个

weixin_44386638·2023-11-30 18:50

如何高效优雅的完成一次机器学习服务部署？一文详解部署难点以及实战案例...

本篇作者fanstuck世界五百强私企大数据工程师，工作与研究方向为大数据开发和数据分析，个人喜欢研究技术和算法。数据分析领域优质创

亚马逊云开发者·2023-11-30 18:02

学Java有什么用？Java就业前景怎么样？

Java语言经过多年的使用和发展建立起了一个庞大的生态体系，在Web开发、Android开发、大数据开发、后端开发等领域都有广泛的应用。

程序媛小白·2023-11-30 14:49

使用Java+SSM(Spring+SpringMVC+Mybatis)实现在线电影推荐网电影推荐系统豆瓣电影爬虫基于用户、物品的协同过滤推荐算法机器学习、人工智能、大数据开发

使用Java+SSM(Spring+SpringMVC+Mybatis)实现在线电影推荐网电影推荐系统豆瓣电影爬虫基于用户、物品的协同过滤推荐算法机器学习、人工智能、大数据开发MovieRecommendWeb

linge511873822·2023-11-30 05:05

Hadoop大数据开发__Spark on YARN模式分布式集群安装部署

1、下载解压sparkcd/home/hadoop/apptar-zxvfspark-3.3.0-bin-hadoop3.tgzrmspark-3.3.0-bin-hadoop3.tgzln-sspark-3.3.0-bin-hadoop3spark2、修改spark-env.shcd/home/hadoop/app/spark/confvispark-env.sh#追加下面的路径HADOOP_C

姚华军·2023-11-30 02:32

大数据开发：Flink容错机制Task Failover策略

那么Flink是怎么处理的呢，今天的大数据开发分享，我们就来讲讲这个TaskFailover策略。

成都加米谷大数据·2023-11-29 12:37

大数据开发：实时数仓架构层次设计

今天的大数据开发学习分享，我们就主要来讲讲大数据实时数仓架构设计的问题。大数据实时数仓架构，通常来说，分为数据接入、数据计算、数据存储三个大的层次。

成都加米谷大数据·2023-11-28 16:52

大数据开发学习笔记linux java hadoop环境变量配置

linux下配置环境变量javahadoopvim/etc/profile在文件最下方加入以下代码exportJAVA_HOME=java目录exportHADOOP_HOME=hadoop目录exportPATH=HADOOP_HOME/bin:PATHexportCLASSPATH=.:JAVA_HOME/lib/tools.jarexportJAVA_HOMEexportHADOOP_HOM

我还不够强·2023-11-27 20:39

大数据开发：数据库中间件的两种设计方案

今天的大数据开发分享，我们就来讲讲，数据库中间件的两种设计方案。目前来说，市面上典型的数据库中间件设计方案就是两种：Proxy、Smart-client。数据库中间件的设计原理，其实也很简单。

成都加米谷大数据·2023-11-27 20:58

为什么学习大数据，大数据专家写给大数据分析学习者的10个理由

因为大数据爆发，因此出现了大数据开发、大数据分析这两大主流的工作方向，目前这两个方向是很热门，不少人已经在开始转型往这两个方向发展，相较而言，转向大数据分析的人才更多一点，而同时也有不少人在观望中，这边小编收集了十个为什么要学习大数据分析的十个理由

大数据学习01·2023-11-27 11:40

0基础转行，学Java和大数据有什么区别？大数据学习步骤是什么？

Java和大数据如何选大数据方向有很多，目前我们经常说的大数据学习，其实指的是大数据开发！大数据开发顾名思义学习的主要技术就是编程技术，零基础学习大数据是需要从java和linux学起的。

yoku酱·2023-11-27 07:45

学java有前途吗？初学者如何学好java？

经过了这么多年的使用和发展，java语言可以说已经是成功的建立奇了一个很庞大的体系，java语言在后端开发、Web开发、大数据开发、Android开发等领域都有着非常广泛的应用。

AI小菜鸡一个·2023-11-26 03:11

大数据开发之运维面试题汇总分享

Q1：集群线上扩容如何达到自动化？线上扩容，规模正常都是以10+以上，如果都以课堂所示，人肉操作，时间投入与产出比不匹配，人力造成很大的不必要浪费，想学习老师线上集群实际扩容的方案。A:课堂所示兼顾了小白同学，所以是手把手纯人肉搭建，产线环境扩容数量少则几十多则上百，人肉肯定不行，我们公司的运维分为IAAS运维、大数据运维、应用运维，大数据运维工程师在扩容集群时，需要向IAAS运维工程师以工单的方

at小白在线中·2023-11-25 19:43

大数据开发之Kafka篇----Kafka入门(2)

部署试用篇说了这么就的Kafka理论知识，我们也需要实际操作一波了Zookeeper部署使用Kafka肯定离不开使用Zookeeper的，这里我们介绍一下在3台机器上部署Zookeeper的过程(但我就只在我是在我本机上演示的，就只能展示单机版的了)首先下载Zookeeper的压缩包，然后解压并到Zookeeper目录下tar-xzvfzookeeper-3.4.6.tar.gz-C/home/t

豆豆总·2023-11-25 17:40

ChatGPT 上新，效果炸裂，知识平台才是大模型的最佳狩猎场

数新网络可提供大数据开发管理、安全合规、建模分析、价值流通等多种服务，让大数据、AI和数据价

数新网络·2023-11-25 09:22

Kafka集成Flink

集成Flink一、Flink环境准备二、Flink生产者1.在包名下创建java类：FlinkKafkaProducer三、Flink消费者Flink是一个在大数据开发中非常常用的组件。

Smartaotao·2023-11-24 04:46

大数据开发之Hive优化篇6-Hive on spark

备注:Hive版本2.1.1一.HiveonSpark介绍Hive是基于Hadoop平台的数据仓库，最初由Facebook开发，在经过多年发展之后，已经成为Hadoop事实上的SQL引擎标准。相较于其他诸如Impala、Shark（SparkSQL的前身）等引擎而言，Hive拥有更为广泛的用户基础以及对SQL语法更全面的支持。Hive最初的计算引擎为MapReduce，受限于其自身的Map+Red

只是甲·2023-11-23 12:06

DataWorks实践笔记-从入门到精通

DataWorks是阿里出品的一站式大数据开发与治理平台，基于MaxCompute/EMR/MC-Hologres等大数据计算引擎，网络上的教程很多，但是一般都比较冗长。

qq_43548990·2023-11-22 13:58

阿里大数据工程师：教你如何快速的搭建数据库

下面我们来讲大数据开发核心流程。当我们接到一个需求，首先会进行需求分析，然后做工作流设计，比如这个任务是什么时候跑的、依赖于哪些业务。工作流设计完成后进行数据采集和数据同步。接下去就是数据开发，我们

yoku酱·2023-11-22 13:03

大数据学习路线图让你轻松掌握大数据技术学习

互联网时代每个企业每天都要产生庞大的数据，对数据进行储存，对有效的数据进行挖掘分析并应用需要依赖于大数据开发，大数据开发课程采用真实商业数据源并融合云计算+机器学习，让学员有实力入职一线互联网企业。

金光闪闪耶·2023-11-22 02:59

基于Flink打造实时计算平台为企业赋能

点击上方蓝色字体，选择“设为星标”回复”资源“获取更多资源大数据技术与架构点击右侧关注，大数据开发领域最强公众号！大数据真好玩点击右侧关注，大数据真好玩！

王知无(import_bigdata)·2023-11-21 10:40

Scala学习笔记

大数据开发中常用Scala进行功能开发，而且大数据处理和计算框架Flink和Spark都是基于Scala开发的，学习Scala不仅是进行业务开发的前提，而且是深入研究大数据前言技术的基础。

火影启源·2023-11-21 02:02

【2023云栖】大模型驱动DataWorks数据开发治理平台智能化升级

DataWorks产品负责人田奇铣发布了DataWorksCopilot、DataWorksAI增强分析、DataWorks湖仓融合数据管理等众多新产品能力，让DataWorks这款已经发展了14年的大数据开发治理平台产品

阿里云大数据AI技术·2023-11-20 11:22

大数据开发(20)-Skew join

&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦skewjoin的原理是，为倾斜的大key单独启动一个mapjoin任务进行计算，其余key进行正常的commonjoin。在一般情况下，是否开启skewjoin取决于具体的使用场景。skewjoin是一种优化技术，主要用于大数据处理中的join操作。当处理大表

viperrrrrrr·2023-11-20 07:06

大数据开发(19)-hash table详解

&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦在Map-side聚合中，每个Map任务（mapper）都会维护一个独立的哈希表（hashtable）。在MapReduce框架中，每个Map任务都是独立的，它们分别处理输入数据集的不同部分。每个Map任务都会创建一个哈希表，用于存储键值对（key-valuep

viperrrrrrr·2023-11-20 07:36

HDFS、MapReduce原理--学习笔记

1.Hadoop框架1.1框架与Hadoop架构简介（1）广义解释从广义上来说，随着大数据开发技术的快速发展与逐步成熟，在行业里，Hadoop可以泛指为：Hadoop生态圈。

祈愿lucky·2023-11-20 06:33

大数据开发面试经验总结1（慢慢学习补充）

字节一面1.介绍项目的时候，把自己项目中的数据特点说一下，比如多少字段，多少数据量，大约什么类型，以及输出的‘数据类型和要求，中间进行哪些操作，一步步怎么进行的2.会问到数据库索引数据库索引：官方介绍索引是帮助MySQL高效获取数据的数据结构。更通俗的说，数据库索引好比是一本书前面的目录，能加快数据库的查询速度。一般来说索引本身也很大，不可能全部存储在内存中，因此索引往往是存储在磁盘上的文件中的（

L-JankinLee·2023-11-20 01:46

大数据开发面试（一）

1、Kafka和Flume的应用场景？Kafka和Flume的应用场景如下：Kafka：定位消息队列，适用于多个生产者和消费者共享一个主题队列的场景。适用于需要高吞吐量、可扩展性和容错能力的场景。主要用于大数据处理、实时数据流分析和日志收集等场景。Flume：定位数据传输，主要用于将数据从源头传输到目标存储系统。适用于需要将大量数据发送到HDFS、HBase等存储系统的场景。具有较强的可靠性、可扩

ChlinRei·2023-11-20 01:41

分组表，分桶表

nohuphive--servicemetastore&（2）启动Metastore服务nohuphive--servicehiveserver2&（3）查看进程信息lsof-i:100002，分区表概述定义：在大数据开发中

祈愿lucky·2023-11-19 15:29

大数据开发：kafka集群搭建步骤示例

今天的大数据开发学习分享，我们主要来讲讲在Hadoop集群上如何搭建和配置kafka集群。一、集群规划首先看一下集群规划，3台节点都搭建kafka,并且每个节点都需要提前安装有zookeeper集群。

成都加米谷大数据·2023-11-19 08:53

Numpy+Pandas+Matplotlib，Python数据分析三剑客从入门到进阶

Python数据之道·2023-11-19 00:44

大数据开发学习笔记

前言：本文介绍了各个大数据开发框架及数据库的学习记录链接有什么问题欢迎大家留言或者私信交流~Hadoophadoop集群搭建+hive安装_hadoop集群安装hive-CSDN博客Hadoop基础入门

THE WHY·2023-11-17 16:01

广州云栖大会：阿里云携手虎牙，首次落地直播行业边缘节点及云企业网服务

2018年11月22日，由阿里巴巴集团主办的广东省大数据开发者大会暨2018广东云栖大会在广州正式召开，其中以助力游戏企业畅游全球为主题的游戏云专场也在上午如期举办。

阿里云云栖号·2023-11-17 06:58

大数据应用开发线上班（学徒班）课程大纲

泰迪智能科技大数据应用开发线上班课程使用当下流行的Hadoop+Spark大数据框架，全面、深入地探讨了大数据开发、大数据分析、数据仓库等技术。

泰迪智能科技·2023-11-16 19:23

大数据工作流_【大数据开发】OOZIE的工作流调度及功能架构（一）

常见的JBMP(工作流调度框架)：1.Crontab：详情见新闻网关指标张景宇，公众号：数据信息化【大数据开发】Hive的高级应用之新闻网关键指标统计(九)2.Azkaban3.Oozie+Hue4.Zeusoozie

weixin_39918682·2023-11-14 21:03

大数据平台作业调度系统详解－理论篇

大数据开发平台的核心组件之一：作业调度系统。作业调度系统是一个相对复杂的系统，涉及的内容繁杂，针对的场景多种多样，实现的方案千差万别，是一个需要理论和实践并重的系统。

javastart·2023-11-14 20:27

大数据开发面试知识点复习1

文章目录大数据开发复习课程课程目标1、大数据开发复习2、面试流程2.1、面试准备2.2、准备简历2.3、投递简历2.4、面试2.5、入职3、基础复习3.1、idea3.11、idea常用快捷键3.12、

爱敲代码的小黑·2023-11-14 06:44

大数据开发-Spark调优常用手段

Spark调优spark调优常见手段，在生产中常常会遇到各种各样的问题，有事前原因，有事中原因，也有不规范原因，spark调优总结下来可以从下面几个点来调优。1.分配更多的资源分配更多的资源：它是性能优化调优的王道，就是增加和分配更多的资源，这对于性能和速度上的提升是显而易见的，基本上，在一定范围之内，增加资源与性能的提升，是成正比的；写完了一个复杂的spark作业之后，进行性能调优的时候，首先第

Hoult-吴邪·2023-11-14 06:39

大数据开发学习脑图+学习路线清晰的告诉你！月薪30K很轻松

近些年，大数据的火热可谓是技术人都知道啊，很多人呢，也想学习大数据相关，但是又不知道从何下手，所以今天柠檬这里分享几个大数据脑图，希望可以让你清楚明白从哪里入门大数据，知道该学习以及掌握哪些知识点；当然还有自学教程分享哦！想学习好大数据可以加我vx号（VIP452141）有视频资源分享一起学习第一阶段linux+搜索+hadoop体系Linux基础→shell编程→高并发架构→lucene,sol

juan777·2023-11-13 15:28

阿里云大数据利器Maxcompute学习之-假如你使用过hive

如果您是一个大数据开发工程师并且使用过hadoop的hive框架，那么恭喜您，阿里云的大数据计算服务-Maxcompute，您已经会了90%。

weixin_34221276·2023-11-11 19:28

【云栖2023】林伟：大数据AI一体化的解读

本文根据2023云栖大会演讲实录整理而成，演讲信息如下：演讲人：林伟|阿里云研究员，阿里云计算平台事业部首席架构师，阿里云人工智能平台PAI和大数据开发治理平台DataWorks负责人演讲主题：大数据AI

阿里云大数据AI技术·2023-11-10 02:07

大数据开发笔记（十）：Hbase实践

GoAI·2023-11-10 02:56

【面经】字节大数据开发面经

1.wordcount的实现过程Map阶段：按行读取要统计的文本文件；按空格拆分每行的单词将单词转换成kv键值对，格式为（单词，1）将所有的kv键值对中的单词按照单词首字母分区，比如分两个区，那么分区1（a-p），分区2（q-z）Reduce阶段：每个ReduceTask拉取上一阶段所有MapTask的输出，按照key汇总对相同的key的value（value都是1）求和扩展：程序的写法如下//M

和风与影·2023-11-09 03:36

【面经】联想大数据开发面经

欢迎点击此处关注公众号。1.说一下实习和学校做过什么事情，有什么收获。问了一些细节。2.Hive怎么把SQL编译成MapReduceHive的基本流程：UI调用DRIVER的接口；DRIVER为查询创建会话句柄，并将查询发送到COMPILER生成执行计划；COMPILER从元数据存储中获取本次查询所需要的元数据，该元数据用于对查询树中的表达式进行类型检查，以及基于查询谓词修建分区；COMPILER