Hadoop；Spark 第33页

HDFS HA 集群搭建 - 基于Quorum Journal Manager（hadoop2.7.1）

0、前置概念0.1checkpoint检查点在Hadoop分布式文件系统（HDFS）中，检查点（Checkpointing）是一个关键的过程，它涉及到将文件系统的命名空间状态持久化到磁盘。

Studying！！！·2024-01-16 06:36

flink1.14.5使用CDH6.3.2的yarn提交作业

使用CDH6.3.2安装了hadoop集群，但是CDH不支持flink的安装，网上有CDH集成flink的文章，大都比较麻烦；但其实我们只需要把flink的作业提交到yarn集群即可，接下来以CDHyarn

码道功成·2024-01-16 06:30

mac上搭建 hadoop 伪集群

1.hadoop介绍Hadoop是Apache基金会开发的一个开源的分布式计算平台，主要用于处理和分析大数据。Hadoop的核心设计理念是将计算任务分布到多个节点上，以实现高度可扩展性和容错性。

寂夜了无痕·2024-01-16 06:30

hadoop- yarn启动后用jps查看没有resourcemanager

1.问题启动hadoop的yarn时发现jps并没有resourcemanager2.排查在hadoop-xxx-resourcemanager-.log日志文件中发现了报错日志日志内容如下contextlogs2024

寂夜了无痕·2024-01-16 06:30

Hadoop分布式文件系统(三)

目录一、Hadoop1、MapReduce1.1、理解MapReduce思想1.2、分布式计算概念1.3、MapReduce介绍1.4、MapReduce特点1.5、MapReduce局限性1.6、MapReduce

杀神lwz·2024-01-16 06:57

seatunnel 消费kafka数据写入clickhouse

SeaTunnel是一个非常易用、高性能、支持实时流式和离线批处理的海量数据集成平台，架构于ApacheSpark和ApacheFlink之上，支持海量数据的实时同步与转换。

冰帆<·2024-01-16 05:41

Hadoop 3.2.4 集群搭建详细图文教程

一、集群简介Hadoop集群包括两个集群：HDFS集群、YARN集群。两个集群逻辑上分离、通常物理上在一起；两个集群都是标准的主从架构集群。

༺࿈誓言࿈༻·2024-01-16 05:10

大数据技术原理与应用第三版林子雨期末复习（四） Hive

大数据技术原理与应用第三版林子雨期末复习（四）Hive概念数据仓库层次传统数据仓库面临的挑战Hive简介Hive与传统数据库对比概念Hive是一个基于Hadoop的数据仓库工具。

头发多多，肆意生长·2024-01-16 05:22

大数据技术原理与应用第三版林子雨期末复习（五）第十章 SPARK

大数据技术原理与应用第三版林子雨期末复习（五）第十章SPARK简介spark特点spark与Hadoop对比Hadoop缺点spark优点RDDRDD概念RDD间存在依赖关系分为宽依赖与窄依赖RDD的两种常用操作简介

头发多多，肆意生长·2024-01-16 05:22

大数据技术原理与应用第三版林子雨期末复习（二） Hadoop HDFS HBase

大数据技术原理与应用第三版林子雨期末复习（二）HadoopHDFSHBaseHadoop生态系统HDFSHDFS结构块NameNode与SecondNameNode与DataNode数据冗余存储HDFS

头发多多，肆意生长·2024-01-16 05:21

大数据技术原理与应用期末复习（林子雨）

大数据技术原理与应用期末复习（林子雨）Hadoop的特性HBase编程实践NoSQL的四大类型键值数据库优点：缺点：列族数据库优点：缺点：文档数据库优点：缺点：图数据库优点：缺点：NoSQL的三大基石CAP

laowang357·2024-01-16 05:50

Kafka部署及使用

broker、topic启动zk下载zkzookeeper-3.4.5-cdh5.7.0.tar.gz解压：tar-zxvfzookeeper-3.4.5-cdh5.7.0.tar.gz-C/home/hadoop

Sx_Ren·2024-01-16 05:15

Spark - 资源动态释放

>通过spark-submit会固定占用一占的资源，有什么办法，在任务不运作的时候将资源释放，让其它任务使用呢，yarn新版本默认已经支持了，我们使用的是HDP。##版本如下!

kikiki4·2024-01-16 03:58

Spark MLlib ----- ALS算法

补充在谈ALS（AlternatingLeastSquares）之前首先来谈谈LS，即最小二乘法。LS算法是ALS的基础，是一种数优化技术，也是一种常用的机器学习算法，他通过最小化误差平方和寻找数据的最佳匹配，利用最小二乘法寻找最优的未知数据，保证求的数据与已知的数据误差最小。LS也被用于拟合曲线，比如所熟悉的线性模型。下面以简单的线性一元线性回归模型说明最小二乘法。假设我们有一组数据{(x1,y

创作者mateo·2024-01-16 02:54

ClickHouse - 01

与其特性在大数据处理场景中，流处理和批处理使用到的技术大致如下：大数据处理场景流程.png批处理会将源业务系统中的数据通过数据抽取工具（例如Sqoop）将数据抽取到HDFS中，这个过程可以使用MapReduce、Spark

ArthurHC·2024-01-16 02:17

Python语法进阶学习--进程和线程

后续很快就要进入Spark的学习，在学习之前也是要铺垫一个知识点：进程是什么？线程是什么？两者有什么区别？又有什么关系？

Yan_bigdata·2024-01-15 23:34

任务10：安装配置Java开发环境

开发工具Maven配置重点：安装配置Java开发工具IDEA为IDEA配置自定义Maven（国内源）内容：下载并配置JDK1.8下载安装IDEA为IDEA配置自定义MavenWindows环境安装配置Hadoop

Dija-bl·2024-01-15 22:21

任务12：使用Hadoop Streaming解压NCDC天气原始数据

任务描述知识点：NCDC原始的气象数据上传到HDFSMapReduce程序处理NCDC原始数据重点：熟练使用HDFS基础命令查看HDFS文件块的分布情况掌握Linux系统Shell脚本的编写熟练使用MapReduce程序解压缩文件使用MapReduce程序处理NCDC气象数据内容：NCDC气象数据上传至HDFS检查HDFS文件块的分布情况编写LinuxShell脚本生成input文件编写Shell

Dija-bl·2024-01-15 22:21

任务4：安装并配置JDK

：检查系统中是否自带OpenJDK卸载系统自带OpenJDK安装OracleJDK配置环境变量并使其生效将JDK分发至其他机器任务指导安装并配置OracleJDK过程1、安装配置OracleJDK概述Hadoop2.9.2

Dija-bl·2024-01-15 22:51

任务3：配置SSH免密码连接--自用

任务描述知识点：掌握配置SSH免密连接重点：掌握SSH免密连接熟练使用Linux命令配置机器间的免密登陆内容：配置SSH免密登陆使用命令分发文件测试SSH免密登陆任务指导Hadoop分布式集群是由多个节点组成

Dija-bl·2024-01-15 22:21

任务5：安装并配置Hadoop

任务描述知识点：掌握Hadoop集群的搭建重点：掌握Linux基础命令在Linux系统下使用命令安装Hadoop集群内容：安装配置Hadoop集群配置Hadoop环境变量修改Hadoop配置文件部署Hadoop

Dija-bl·2024-01-15 22:21

ZooKeeper 简介

1、概念介绍ZooKeeper是一个开放源码的分布式应用程序协调服务，为分布式应用提供一致性服务的软件，由雅虎创建，是GoogleChubby的开源实现，是Apache的子项目，之前是Hadoop项目的一部分

HuaLuLemon·2024-01-15 21:37

CC00023.python——|Hadoop&Python.v01|——|Arithmetic.v01|Jupyter交互程序：Jupyter库安装|

一、安装jupyter库###---查看pip版本C:\Users\Administrator>pip--versionpip21.2.4fromD:\JAVA\Python310\lib\site-packages\pip(python3.10)###---在windows.dos下安装jupyter###---win+R：dos窗口###---安装jupyter库C:\Users\Admini

yanqi_vip·2024-01-15 19:36

flink02-安装

1standalone模式1.1安装解压缩flink-1.7.0-bin-hadoop27-scala_2.11.tgz修改flink/conf/flink-conf.yaml文件image.png修改

chen_666·2024-01-15 18:25

基于JavaWeb+BS架构+SpringBoot+Vue+Hadoop短视频流量数据分析与可视化系统的设计和实现

基于JavaWeb+BS架构+SpringBoot+Vue+Hadoop短视频流量数据分析与可视化系统的设计和实现文末获取源码Lun文目录前言主要技术系统设计功能截图订阅经典源码专栏Java项目精品实战案例

FREE技术·2024-01-15 14:51

初识Hadoop

Hadoop作为一个能够对大量数据进行分布式处理的软件框架，用户可以利用Hadoop生态体系开发和处理海量数据。由于Hadoop有可靠及高

一米八多的瑞兹·2024-01-15 14:08

Hadoop基础之初识大数据与Hadoop

学习Hadoop有一个8020原则，80%都是在不断的配置配置搭建集群，只有20%写程序！

林尧彬·2024-01-15 14:37

2022-01-03大数据学习日志——Hadoop离线阶段——Hadoop MapReduce、YARN、HA

学习目标理解分布式计算分而治之的思想学会提交MapReduce程序掌握MapReduce执行流程掌握YARN功能与架构组件掌握程序提交YARN交互流程理解YARN调度策略掌握HadoopHA实现原理内容大纲

王络不稳定·2024-01-15 14:37

Hadoop（一）之初识大数据与Hadoop

Hadoop（一）之初识大数据与Hadoop阅读目录(Content)一、引言（大数据时代）1.1、从数据中得到信息1.2、大数据表象概念二、大数据基础2.1、什么是大数据？

筱若水qq·2024-01-15 14:04

Hadoop高手之路1—Hadoop简介

文章目录初识Hadoop1.大数据概述1.1什么是大数据1.2大数据的特征1.3研究大数据的意义2.大数据的应用场景2.1医疗行业的应用2.2金融行业的应用2.3零售行业的应用3.Hadoop的概述3.1Hadoop

W_chuanqi·2024-01-15 14:31

初识Hadoop-概述与关键技术

一.大数据概述1.什么是大数据高速发展的信息时代，新一轮科技革命和变革正在加速推进，技术创新日益成为重塑经济发展模式和促进经济增长的重要驱动力量，而“大数据”无疑是核心推动力。那么，什么是“大数据”呢？如果从字面意思来看，大数据指的是巨量数据。那么可能有人会问，多大量级的数据才叫大数据？不同的机构或学者有不同的理解，难以有一个非常定量的定义，只能说，大数据的计量单位已经越过TB级别发展到PB、EB

僖僖cc·2024-01-15 14:58

【Spark】Spark原理简述

发现一篇很好的文章，适合对Spark有一定了解的小伙伴阅读主要介绍下自己在学习spark当中的一些理解和学习过程中踩到的坑，对spark时间效率优化的点做个总结，各位大佬轻拍。

turboSniper·2024-01-15 14:57

streaming 101

看之前就知道这是两篇能够提升你对流处理理解的文章，不是一般的提升，可以说是一种升华，因为他谈的不是一个具体的工具（sparkstreaming，flink等），而是谈流处理应该是怎么样的，流处理要打败批处理一统天下的话需要有什么特性

Bitson·2024-01-15 12:31

Hive导入数据的五种方法

不管路径在哪里，只有把数据文件移动到对应的表文件夹下面，Hive才能映射解析成功;最原始暴力的方式就是使用hadoopfs

冬瓜的编程笔记·2024-01-15 12:04

大数据开发之Hive（压缩和存储）

利用Hadoop的InputFormatAPI可以从不同数据源读取数据，使用OutputFormatAPI可以将数据写成不同的格式输出。

Key-Key·2024-01-15 12:34

大数据开发之HA

第1章：HadoopHA高可用1.1HA概述所谓HA（HighAvailablity），即高可用（7*24小时不间断服务）。实现高可用最关键的策略是消除单点故障。

Key-Key·2024-01-15 12:03

Zookeeper教程1

ZookeeperZookeeper概念Zookeeper是ApacheHadoop项目下的一个子项目，是一个树形目录服务。

暗雪之格·2024-01-15 09:56

Zookeeper使用详解

介绍ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。

有梦想的攻城狮·2024-01-15 09:25

Spark原理——Shuffle 过程

Shuffle过程Shuffle过程的组件结构从整体视角上来看,Shuffle发生在两个Stage之间,一个Stage把数据计算好,整理好,等待另外一个Stage来拉取放大视角,会发现,其实Shuffle发生在Task之间,一个Task把数据整理好,等待Reducer端的Task来拉取如果更细化一下,Task之间如何进行数据拷贝的呢?其实就是一方Task把文件生成好,然后另一方Task来拉取现在是

我像影子一样·2024-01-15 09:47

Spark高级特性 (难)

Spark高级特性(难)闭包/**编写一个高阶函数，在这个函数要有一个变量，返回一个函数，通过这个变量完成一个计算**/@Testdeftest():Unit={//valf:Int=>Double=closure

我像影子一样·2024-01-15 09:11

分布式计算平台 Hadoop 简介

Hadoop简介Hadoop是一种分析和处理大数据的软件平台，是一个用Java语言实现的Apache的开源软件框架，在大量计算机组成的集群中实现了对海量数据的分布式计算。

rookiexiong·2024-01-15 08:19

Hadoop 实战 | 倒排索引 InvertedIndex

倒排索引概念倒排索引（InvertedIndex）是信息检索领域中的一种数据结构，它是一种反转（倒排）文档-词项关系的数据结构，以支持通过词项来查找相关文档。在倒排索引中，每个词项都被映射到包含该词项的文档列表。并且在实际应用中，还需要给每个文档添加一个权值，用以指出每个文档与搜索内容的相关度。与倒排索引相对应的是正向索引，即文档-词项关系的数据结构。当用户发起查询关键词时，需要扫描索引库中的所有

rookiexiong·2024-01-15 07:41

Hadoop 实战 | 词频统计WordCount

词频统计通过分析大量文本数据中的词频，可以识别常见词汇和短语，从而抽取文本的关键信息和概要，有助于识别文本中频繁出现的关键词，这对于理解文本内容和主题非常关键。同时，通过分析词在文本中的相对频率，可以帮助理解词在不同上下文中的含义和语境。"纽约时报"评论数据集记录了有关《纽约时报》2017年1月至5月和2018年1月至4月发表的文章上的评论的信息。月度数据分为两个csv文件：一个用于包含发表评论的

rookiexiong·2024-01-15 07:11

[Docker] Docker为什么出现

环境配置十分麻烦，每一个机器都要部署环境（Redis,ES,Hadoop）费时费力项目带上配置环境安装打包。传统：开发jar，运维来做现在：开发打包部署上线，一套流程做完！

程序员三木·2024-01-15 06:09

sparkStreaming 连接kafka的方式

sparkStreaming消费kafak有两种方式1：receiver方式2：direct方式receiver方式：1：sparkStreaming将kafka之中的数据读取到spark内存之中，然后对

流砂月歌·2024-01-15 06:59

Hadoop2.9.2在windows上的安装

1、下载hadoop-2.9.2.tar.gz官网下载地址：http://archive.apache.org/dist/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.

懵懂无知的蜗牛·2024-01-15 06:30

java大数据hadoop2.92安装伪分布式文件系统

ApacheHadoop3.3.6–Hadoop:SettingupaSingleNodeCluster.1、解压缩到某个路径/usr/local/hadoop2、修改配置文件/usr/local/hadoop

crud-boy·2024-01-15 06:29

Java大数据hadoop2.9.2搭建伪分布式yarn资源管理器

1、修改配置文件cd/usr/local/hadoop/etc/hadoopcp./mapred-site.xml.template.

crud-boy·2024-01-15 06:29

java大数据hadoop2.92 Java连接操作

1、要想Java可以连接自己虚拟机的hadoop文件系统，需要给文件系统权限（1）需要在/usr/local/hadoop/etc/hadoop/core-site.xmlcore-site.xml文件配置具体

crud-boy·2024-01-15 06:29

java大数据hadoop2.9.2 Java编写Hadoop分析平均成绩

1、准备文件，例如score.txt，内容如下：zsk188lsk198wwk178zsk288lsk298wwk278zsk388lsk398wwk3782、创建maven项目org.apache.hadoophadoop-common2.9.2org.apache.hadoophadoop-client

crud-boy·2024-01-15 06:23

推荐频道

Hadoop；Spark

HDFS HA 集群搭建 - 基于Quorum Journal Manager（hadoop2.7.1）

flink1.14.5使用CDH6.3.2的yarn提交作业

mac上搭建 hadoop 伪集群

hadoop- yarn启动后用jps查看没有resourcemanager

Hadoop分布式文件系统(三)

seatunnel 消费kafka数据写入clickhouse

Hadoop 3.2.4 集群搭建详细图文教程

大数据技术原理与应用 第三版 林子雨 期末复习（四） Hive

大数据技术原理与应用 第三版 林子雨 期末复习（五） 第十章 SPARK

大数据技术原理与应用 第三版 林子雨 期末复习（二） Hadoop HDFS HBase

大数据技术原理与应用期末复习（林子雨）

Kafka部署及使用

Spark - 资源动态释放

Spark MLlib ----- ALS算法

ClickHouse - 01

Python语法进阶学习--进程和线程

任务10：安装配置Java开发环境

任务12：使用Hadoop Streaming解压NCDC天气原始数据

任务4：安装并配置JDK

任务3：配置SSH免密码连接--自用

任务5：安装并配置Hadoop

ZooKeeper 简介

CC00023.python——|Hadoop&Python.v01|——|Arithmetic.v01|Jupyter交互程序：Jupyter库安装|

flink02-安装

基于JavaWeb+BS架构+SpringBoot+Vue+Hadoop短视频流量数据分析与可视化系统的设计和实现

初识Hadoop

Hadoop基础之初识大数据与Hadoop

2022-01-03大数据学习日志——Hadoop离线阶段——Hadoop MapReduce、YARN、HA

Hadoop（一）之初识大数据与Hadoop

Hadoop高手之路1—Hadoop简介

初识Hadoop-概述与关键技术

【Spark】Spark原理简述

streaming 101

Hive导入数据的五种方法

大数据开发之Hive（压缩和存储）

大数据开发之HA

Zookeeper教程1

Zookeeper使用详解

Spark原理——Shuffle 过程

Spark高级特性 (难)

分布式计算平台 Hadoop 简介

Hadoop 实战 | 倒排索引 InvertedIndex

Hadoop 实战 | 词频统计WordCount

[Docker] Docker为什么出现

sparkStreaming 连接kafka的方式

Hadoop2.9.2在windows上的安装

java大数据hadoop2.92安装伪分布式文件系统

Java大数据hadoop2.9.2搭建伪分布式yarn资源管理器

java大数据hadoop2.92 Java连接操作

java大数据hadoop2.9.2 Java编写Hadoop分析平均成绩

大数据技术原理与应用第三版林子雨期末复习（四） Hive

大数据技术原理与应用第三版林子雨期末复习（五）第十章 SPARK

大数据技术原理与应用第三版林子雨期末复习（二） Hadoop HDFS HBase