Hadoop并行计算第5页

记一次 Flink 作业启动缓慢

记一次Flink作业启动缓慢背景应用发现，Hadoop集群的hdfs较之前更加缓慢，且离线ELT任务也以前晚半个多小时才能跑完。

卢说·2024-02-20 18:38

大数据Map Reduce (Hadoop) 和 MPP数据库的区别

原理的角度出发,mapreduce其实就是二分查找的一个逆过程,不过因为计算节点有限,所以map和reduce前都预先有一个分区的步骤.二分查找要求数据是排序好的,所以MapReduce之间会有一个shuffle的过程对Map的结果排序.Reduce的输入是排好序的.MR分而治之的策略和数据库行业中另一种数据库MassivelyParallelProcessor即大规模并行处理数据库(典型代表AW

山哥Samuel·2024-02-20 15:05

Hadoop 大数据的入门学习

由于所做的银行项目与大数据有关，所以个人学习下hadoop的知识，希望能对大数据有所了解，不喜勿喷，哪里有不对的希望大神指点Hadoop百度百科：Hadoop是一个由Apache基金会所开发的分布式系统基础架构

heybo_zhang·2024-02-20 14:36

CUDA与CUDNN 关系

CUDA是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。2、什么是CUDNNNVIDIAcuDNN是用于深度神经网络的GPU加速库。它强调性能、易用性和低内存开销。

XF鸭·2024-02-20 13:52

Unity中的Compute Shader

ComputeShader前言一、定义二、创建三、computer代码解析四、c#调用方式五、计算关系六、平台支持七、引用前言游戏开发中，dot编程在处理大数量级的运算应用已经越来越广泛了，而GPU本身对大规模数据的并行计算已经越来越强了

popcorn丶·2024-02-20 13:13

Flink理论—Flink架构设计

它集成了所有常见的集群资源管理器，例如HadoopYARN，但也可以设置作为独立集群甚至库运行,例如Spark的StandaloneMode本节概述了Flink架构，并且描述了其主要组件如何交互以执行应用程序和从故障中恢复

不二人生·2024-02-20 12:59

Kafka核心逻辑介绍 | 京东云技术团队

分布式消息系统（kafka2.8.0版本之后接触了对zk的依赖，使用自己的kRaft做集群管理，新增内部主体@metadata存储元数据信息），它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop

·2024-02-20 11:54

大数据 - Spark系列《六》- RDD详解

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-20 10:55

大数据 - Spark系列《七》- 分区器详解

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-20 10:55

Linux之Shell

第1章Shell概述1）Linux提供的Shell解析器有[zhao@hadoop101~]$cat/etc/shells/bin/sh/bin/bash/usr/bin/sh/usr/bin/bash

efzy·2024-02-20 08:16

测试环境搭建整套大数据系统（三：搭建集群zookeeper，hdfs，mapreduce，yarn，hive）

一：搭建zkhttps://blog.csdn.net/weixin_43446246/article/details/123327143二：搭建hadoop，yarn，mapreduce。

宇智波云·2024-02-20 08:05

TiDB 7.5.0 LTS 高性能数据批处理方案

TiDB在面向这种超大规模数据的批处理场景，其能力也一直在演进，其复杂度也变得越来越低：○从TiDB5.0开始，TiFlash支持MPP并行计算能力，在大批量数据上进行聚合、关联的查询性能有了极大的提升

TiDB_PingCAP·2024-02-20 07:46

Hadoop Streaming原理

Streaming简介•MapReduce和HDFS采用Java实现，默认提供Java编程接口•Streaming框架允许任何程序语言实现的程序在HadoopMapReduce中使用•Streaming

可乐加冰丶丶·2024-02-20 07:18

【Flink】ClassNotFoundException: org.apache.hadoop.conf.Configuration

问题背景在Flink的sql-client客户端中执行连接hive的sql代码时出现如下错误，版本Flink1.13.6FlinkSQL>createcatalogtestwith(>'type'='hive',>'default-database'='default',>'hive-conf-dir'='/opt/hive/conf');[ERROR]CouldnotexecuteSQLstat

一杯咖啡半杯糖·2024-02-20 07:38

生产环境下，应用模式部署flink任务，通过hdfs提交

通过通过yarn.provided.lib.dirs配置选项指定位置，将flink的依赖上传到hdfs文件管理系统1.实践（1）生产集群为cdh集群，从cm上下载配置文件，设置环境exportHADOOP_CONF_DIR

但行益事莫问前程·2024-02-20 07:04

以内存为核心的开源分布式存储系统

Tachyon为不同的大数据计算框架（如ApacheSpark，HadoopMapReduce,ApacheFlink等）提供可靠的内存级的数据共享服务。

这次靠你了·2024-02-20 05:26

Zookeeper(1):入门

/bin/bashcase$1in"start"){foriinhadoop100hadoop101hadoop102doecho----------zookeeper$i启动------------ssh

叶惠美zz·2024-02-20 04:33

【Linux】指令【scp】

scphadoop.tar.gzdatanode:/software这条命令的含义是将本地的hadoop.tar.gz文件复制到远程主机datanode的/software目录下。

giao客·2024-02-20 01:31

AI芯片技术架构有哪些？FPGA芯片定义及结构分析

GPU架构采用多个计算单元（CUDA核心）进行并行计算，能够高效地执行浮点运算和矩阵计算。NVIDIA的Tens

Hack电子·2024-02-20 00:43

无依赖单机尝鲜 Nebula Exchange 的 SST 导入

无依赖单机尝鲜NebulaExchange的SST导入本文尝试分享下以最小方式（单机、容器化Spark、Hadoop、NebulaGraph），快速趟一下NebulaExchange中SST写入方式的步骤

NebulaGraph·2024-02-19 23:51

TiDB 7.5.0 LTS 高性能数据批处理方案

TiDB在面向这种超大规模数据的批处理场景，其能力也一直在演进，其复杂度也变得越来越低：○从TiDB5.0开始，TiFlash支持MPP并行计算能力，在大批量数据上进行聚合、关联的查询性能有了极大的提升

·2024-02-19 21:30

mv: 无法获取“/opt/module/hadoop/logs/hadoop-atguigu-nodemanager-hadoop102.out.1“ 的文件状态(stat): 没有那个文件或目录

最近在回顾之前做过的离线数仓项目，在启动hadoop时出现了如下错误：hadoop102:mv:无法获取"/opt/module/hadoop/logs/hadoop-atguigu-nodemanager-hadoop102

时代新人0-0·2024-02-19 21:53

马士兵 day4_Yarn和Map/Reduce配置启动和原理讲解

分布式计算原则：移动计算，而不是移动数据hadoop默认包含了hdfs、yarn、mapReduce三个组件yarn（YetAnotherResourceNegotiater）是资源调度系统，yarn调配的是内存和

PC_Repair·2024-02-19 20:28

英伟达（NVIDIA）和CUDA

英伟达（NVIDIA）是一家知名的图形处理器（GPU）制造公司，而CUDA则是NVIDIA推出的一种并行计算架构和编程模型。

小米人er·2024-02-19 20:57

Flink-部署实践

1)修改flink/conf/flink-conf.yaml文件:jobmanager.rpc.address:hadoop1132)修改/conf/masters文件:hadoop1133)修改/conf

魔笛Love·2024-02-19 20:52

主流开发语言和开发环境?

Java被广泛应用于企业级应用开发、移动应用（特别是Android应用）、游戏开发、大数据处理（如Hadoop生态系统）、云计算服务端开发等场景。C++简介：C+

dami_king·2024-02-19 20:50

Fork/Join线程池

Fork/Join框架主要用于任务需要分解为多个子任务执行的场景，是一种分而治之的并行计算模型。

青衫客36·2024-02-19 18:25

ChatGPT魔法1：背后的原理

Deeplearning，有神经网络，最有代表性的是ChatGPT,GPT(GenerativePre-TrainedTransformer)2.深度神经网络llyaSutskever:做图像识别，使用了GPT去并行计算及训练

王丰博·2024-02-19 18:22

深度神经网络中的BNN和DNN：基于存内计算的原理、实现与能量效率

尽管图形处理单元（GPU）在许多应用中被用于提供并行计算能力，但较低能耗的平台有可能实现一系列新的应用。

·2024-02-19 16:10

Quick introduction to Apache Spark

Spark使用Hadoop的客户端库来

Liam_ml·2024-02-19 13:29

Hadoop Shuffle

Whentherearemultiplereducers,themaptaskspartitiontheiroutput,eachcreatingonepartitionforeachreducetask.Therecanbemanykeys(andtheirassociatedvalues)ineachpartition,buttherecordsforeverykeyareallinasing

SharlotteZZZ·2024-02-19 13:22

Flink 细粒度滑动窗口性能优化

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料118篇原创内容公众号1、概述1.1细粒度滑动的影响当使用细粒度的滑动窗口（窗口长度远远大于滑动步长）时，

hyunbar·2024-02-19 13:39

【大数据面试题】006介绍一下Parquet存储格式的优势

同时一般查询使用时不会使用所有列，而是只用到几列，所以查询速度会更快压缩比例高因为是列式存储，所以可以对同一类型的一段做压缩，压缩比例高支持的平台和框架多在Hadoop,Spark,Presto,Python

Jiweilai1·2024-02-19 13:34

Sqoop 入门基础

简介Sqoop（SQLtoHadoop）是一个开源工具，用于在关系型数据库和Hadoop之间传输数据。

香菜的开发日记·2024-02-19 13:17

hadoop硬件配置高可用 datanode namenode硬件配置

每个分布式文件系统分块在NameNode的内存中大小约为250个字节，此外还要加上文件和目录所需的250字节空间。500字节一个块假设我们有5000个平均大小为20GB的文件并且使用默认的分布式文件系统分块大小（64MB）同时副本因子为3，5000*20GB=102400000M=97T那么NameNode需要保存5千万个分块的信息，这些分块的大小加上文件系统的开销总共需要1.5GB的内存。但是一

xcagy·2024-02-19 13:07

【大数据】HADOOP-YARN-ContainerExecutor容器启动器详解

在NodeManager中，有三种运行Container的方式，它们分别是:DefaultContainerExecutorLinuxContainerExecutorDockerContainerExecutor从它们的名字中，我们就能看得出来，默认情况下，一定使用的是DefaultContainerExecutor。而一般情况下，DefaultContainerExecutor也确实能够满足我

笑起来贼好看·2024-02-19 11:38

学习篇-Hadoop-YARN-环境搭建

文章目录一、Hadoop-YARN-环境搭建一、Hadoop-YARN-环境搭建官网参考：https://hadoop.apache.org/docs/stable/hadoop-project-dist

东东爱编码·2024-02-19 11:08

【大数据】HADOOP-Yarn集群界面UI指标项详解（建议收藏哦）

目录首页（Cluster）节点信息SchedulerMetrics：集群调度信息节点信息详解（Nodes）应用列表信息（applications）队列详情页（Scheduler）指标详细说明（非常重要）首页（Cluster）集群监控信息指标详解AppsSubmitted：已提交的应用AppsCompleted：已完成的应用AppsRunning：正在运行的应用ContainersRunning：正

笑起来贼好看·2024-02-19 11:08

Hadoop-Yarn-NodeManager都做了什么

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧Indexof/dist/hadoop/core二、上下文在我的博客中已经简要的分析了NodeManager

隔着天花板看星星·2024-02-19 11:00

【2019-04-28】Hadoop分布式文件系统

Hadoop自带HDFS(hadoopdistributefilesystem)。HDFS默认数据块128M。

BigBigFlower·2024-02-19 11:56

Hadoop搭建之 start-yarn.sh 报错

在搭建伪分布式的Hadoop集群环境时，在配置基础环境了并成功开启了HDFS组件后，jps查看已运行的名称节点和数据节点进程，[hadoop@masterhadoop]$jps8994NameNode10396Jps9087DataNode9279SecondaryNameNode

万里长江雪·2024-02-19 11:58

hadoop-2.7.4-nodemanager无法启动问题解决方案

近期新配了hadoop-274版本的集群，发现有一个小问题，DataNode无法顺利启动。

半肉哥·2024-02-19 11:27

hadoop-yarn资源分配介绍-以及推荐常用优化参数

如果有什么不正确的欢迎大家一起交流学习~Yarn前言作为Hadoop2.x的一部分，YARN采用MapReduce中的资源管理功能并对其进行打包，以便新引擎可以使用它们。

Winhole·2024-02-19 11:26

Hadoop-Yarn-NodeManager如何计算Linux系统上的资源信息

NodeResourceMonitorImpl）时只是提了下SysInfoLinux，下面我们展开讲下SysInfoLinux是用于计算Linux系统上的资源信息的插件二、SysInfoLinux源码packageorg.apache.hadoop.util

隔着天花板看星星·2024-02-19 11:48

node命令yarn --version指向了java

问题描述本地安装了java、hadoop和nodejs，并配置了环境变量，但是hadoop的bin目录下存在yarn命令，所以使用nodejs的yarn命令启动项目会出现找不到类，此时键入yarn-version

码学弟·2024-02-19 11:43

企业级大数据安全架构（一）平台安全隐患

1缺乏统一的访问控制机制大数据平台由Hadoop生态体系众多组件组成，而每个组件都会提供相应的WebUI界面和RESTful接口，例如Nam

·2024-02-19 11:48

MapReduce

MapReduce定义mapReduce是一个分布式运算程序的编程框架，是用户开发基于hadoop的数据分析应用的核心框架。

诺冰1314·2024-02-19 10:46

Hive入门，Hive是什么？

它是建立在Hadoop生态系统之上的，利用Hadoop的分布式存储和计算能力来处理和分析数据。

JayGboy·2024-02-19 10:31

Hive on Spark配置

pwd=66663、将Spark安装包通过xftp上传到/opt/software安装部署Spark1、解压spark-3.3.1-bin-without-hadoop.tgz进入安装包所在目录cd/opt

在下区区俗物·2024-02-15 10:51

配置hive on spark

hdfsdfs-mkdir/spark-jarshdfsdfs-put/opt/spark/jars/*/spark-jars2、修改hive-site.xml文件，添加如下配置：spark.yarn.jarshdfs://hadoop

空白格2519·2024-02-15 10:51

推荐频道

Hadoop并行计算

记一次 Flink 作业启动缓慢

大数据Map Reduce (Hadoop) 和 MPP数据库 的区别

Hadoop 大数据的入门学习

CUDA与CUDNN 关系

Unity中的Compute Shader

Flink理论—Flink架构设计

Kafka核心逻辑介绍 | 京东云技术团队

大数据 - Spark系列《六》- RDD详解

大数据 - Spark系列《七》- 分区器详解

Linux之Shell

测试环境搭建整套大数据系统（三：搭建集群zookeeper，hdfs，mapreduce，yarn，hive）

TiDB 7.5.0 LTS 高性能数据批处理方案

Hadoop Streaming原理

【Flink】ClassNotFoundException: org.apache.hadoop.conf.Configuration

生产环境下，应用模式部署flink任务，通过hdfs提交

以内存为核心的开源分布式存储系统

Zookeeper(1):入门

【Linux】指令 【scp】

AI芯片技术架构有哪些？FPGA芯片定义及结构分析

无依赖单机尝鲜 Nebula Exchange 的 SST 导入

TiDB 7.5.0 LTS 高性能数据批处理方案

mv: 无法获取“/opt/module/hadoop/logs/hadoop-atguigu-nodemanager-hadoop102.out.1“ 的文件状态(stat): 没有那个文件或目录

马士兵 day4_Yarn和Map/Reduce配置启动和原理讲解

英伟达（NVIDIA）和CUDA

Flink-部署实践

主流开发语言和开发环境?

Fork/Join线程池

ChatGPT魔法1： 背后的原理

深度神经网络中的BNN和DNN：基于存内计算的原理、实现与能量效率

Quick introduction to Apache Spark

Hadoop Shuffle

Flink 细粒度滑动窗口性能优化

【大数据面试题】006介绍一下Parquet存储格式的优势

Sqoop 入门基础

hadoop硬件配置 高可用 datanode namenode硬件配置

【大数据】HADOOP-YARN-ContainerExecutor容器启动器详解

学习篇-Hadoop-YARN-环境搭建

【大数据】HADOOP-Yarn集群界面UI指标项详解（建议收藏哦）

Hadoop-Yarn-NodeManager都做了什么

【2019-04-28】Hadoop分布式文件系统

Hadoop搭建之 start-yarn.sh 报错

hadoop-2.7.4-nodemanager无法启动问题解决方案

hadoop-yarn资源分配介绍-以及推荐常用优化参数

Hadoop-Yarn-NodeManager如何计算Linux系统上的资源信息

node命令yarn --version指向了java

企业级大数据安全架构（一）平台安全隐患

MapReduce

Hive入门，Hive是什么？

Hive on Spark配置

配置hive on spark

大数据Map Reduce (Hadoop) 和 MPP数据库的区别

【Linux】指令【scp】

ChatGPT魔法1：背后的原理

hadoop硬件配置高可用 datanode namenode硬件配置