Hadoop大数据学习第46页

本地IDEA、spark程序远程读取hive数据

1下载winutilsgithub-winutils各个版本集合下载里面和自己服务器版本对应的，配置HADOOP_HO

一加六·2023-11-30 02:08

idea对spark程序进行远程提交和调试

第一部分远程提交本文以WordCount程序来实现idea对spark程序进行远程提交和调试环境利用虚拟机搭建拥有3台主机的spark集群hadoop102hadoop103hadoop104IntelliJIDEA2020.3.2

akenseren·2023-11-30 02:06

Hadoop大数据开发__Spark on YARN模式分布式集群安装部署

1、下载解压sparkcd/home/hadoop/apptar-zxvfspark-3.3.0-bin-hadoop3.tgzrmspark-3.3.0-bin-hadoop3.tgzln-sspark

姚华军·2023-11-30 02:32

spark写出分布式的训练算法_Spark分布式计算执行模型

引言相对Hadoop,Spark在处理需要迭代运算的机器学习训练等任务上有着很大性能提升，同时提供了批处理、实时数据处理、机器学习以及图算法等一站式的服务，因此最近大家一起来学习Spark，特别是MLLib

weixin_39965673·2023-11-30 02:01

Spark 分布式环境搭建

Spark分布式环境搭建1.scala环境搭建1）下载scala安装包scala2.12.10.tgz安装到/usr/scala[root@hadoop001scala]#tar-zxvfscala-2.12.10

陈同学�·2023-11-30 02:01

Spark完全分布式搭建

Spark完全分布式搭建教程(Standalone:Master+Slave）分析:1.配置好IP2.修改主机名3.做好IP主机映射4.关闭防火墙5.配置SSH免密登入6.安装Java7.安装Hadoop

明天要开心·2023-11-30 02:00

Spark2.3.1的安装运行(伪分布式)

一、spark的安装1、本地安装1、在安装spark之前需要先安装JDK和scala环境，hadoop环境2、解压安装即可2、standalone安装模式1、解压安装，配置环境变量(通过spark-shell

翻斗花园牛爷爷..·2023-11-30 02:30

搭建Spark伪分布式

文章目录零、本讲学习目标一、搭建伪分布式Hadoop（一）登录ied虚拟机（二）配置免密登录1、在ied虚拟机上生成密钥对2、将生成的公钥发送到本机3、验证虚拟机是否能免密登录本机（三）下载与Spark

jzy2024·2023-11-30 02:00

Spark完全分布式搭建（On Yarn）

目录一、集群规划二、配置Spark路径三、修改配置文件1.spark-env.sh2.修改slaves文件四、启动集群1.先起动Hadoop的HDFS和Yarn2.启动Spark五、Web查看集群启动情况六

Congee小周·2023-11-30 02:00

Spark分布式安装模式

Spark分布式环境安装目前有四种模式：1.Standalone：Spark自带的简单群资源管理器，安装较为简单，不需要依赖Hadoop；2.HadoopYARN:使用YARN作为集群资源管理，安装需要依赖

qq_58647543·2023-11-30 02:59

抖音SEO矩阵系统源码开发关键要素详解！

在该系统的开发过程中，多种编程语言（如Java、Python等）和框架技术（如Hadoop、Spark、PyTorch等）被应用，以提高数据处理和分析的效率。

矩阵源码_Muoyu111·2023-11-30 01:26

The Log: What every software engineer should know about real-time data's unifying abstraction

LinkIn2013年的日志与流处理架构，bolg中涉及到了大量的参考资料，与我的架构类似，但是基于JAVAHadoop生态，并用Kafka作为日志底层文章地址：https://engineering.linkedin.com

doubeye·2023-11-30 00:23

谨慎Apache-Zookeeper-3.5.5以后在CentOS7.X安装的坑

资源环境列表如下：序号依赖组件说明1jdk-8u201-linux-x64.tar.gz基础的jdk依赖2hadoop-3.1.3.tar.gzhadoop依赖3apache-zookeeper-3.5.7

夜郎king·2023-11-30 00:25

数据中台·实时开发计算平台

在数据中台中，不同计算引擎对应不同的数据处理场景，Hadoop、MPP（g

数据先生·2023-11-30 00:33

spark-submit：未找到命令

在执行过程中出现错误hadoop@Master:~/sparkapp$spark-submit--class"hw10_1_CountLine"/usr/local/spark/sparkapp/target

ZYT＿庄彦涛·2023-11-29 22:02

flink AskTimeoutException异常

java.util.concurrent.CompletionException:akka.pattern.AskTimeoutException:Asktimedouton[Actor[akka.tcp://[email protected].hadoop

Jackson_Tan·2023-11-29 22:48

Spark面试题

（☆☆☆☆☆）1）本地模式 Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。

終于、·2023-11-29 22:38

hadoop源码解读

一、hadooprpc总结1、RPC指的是不同进程的方法调用，分为客户端和服务端，客户端调用服务端的方法，方法的执行在服务端。

半_调_子·2023-11-29 21:10

【解决】HDFS JournalNode启动慢问题排查

文章目录一.问题描述二.问题分析1.排查机器性能2.DNS的问题三.问题解决1.修复DNS服务2.添加主机映射为0.0.0.03.修改hadoop源码一句话：因为dns的问题导致journalnode启动时很慢

roman_日积跬步-终至千里·2023-11-29 20:12

大数据之HBase教程

大数据的出现后，好多公司实现处理大数据并从中受益，并开始选择像Hadoop的解决方案。Hadoop使用分布式文件系统，用于存储大数据，并使用MapReduce来处理。

@轻流·2023-11-29 20:00

大数据之Hbase（心得）

什么是HBase（1）HBase的原型是Google的BigTable论文，受到了该论文思想的启发，目前作为Hadoop的子项目来开发维护，用于支持结构化的数据存储。

宝宝不哭^_^·2023-11-29 20:30

大数据技术之 HBase安装配置

大数据技术之HBase安装1.hbase依赖于hadoop以及zookeeper，所以1.1首先myhadoop.shstart1.2然后zk.shstart接下来安装hbase1.3HBase的解压[

大数据小理·2023-11-29 20:57

大数据之HBase

HBase介绍Apache的三篇论文，GFS谷歌文件系统->HDFS；MR->MR;BigTable->HBase;HBase是hadoop数据库，一种分布式、可扩展的大数据NoSQL数据库之一。

十七✧ᐦ̤·2023-11-29 20:55

如何能打进去idea引入外部jar包

文件中加入下面代码：org.apache.maven.pluginsmaven-war-plugin3.2.3${project.basedir}/libWEB-INF/lib/**/*.jar然后导入依赖即可comhadoop-hdfs-client2.7

一个正在努力的小白码农·2023-11-29 19:57

Module-Spark使用文档

1.1.Spark说明ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop

SuperScfan·2023-11-29 17:21

大数据学习(24)-spark on hive和hive on spark的区别

&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦1）SparkonHiveSparkonHive是Hive只作为存储角色

viperrrrrrr·2023-11-29 17:30

大数据学习(26)-spark SQL核心总结

&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦SparkSQL是ApacheSpark的一个模块，它用于处理结构化数据

viperrrrrrr·2023-11-29 17:30

大数据学习(26)-数据倾斜总结

&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦Hive数据倾斜问题是指在HiveSQL查询过程中，由于数据在表或列上的分布不均衡

viperrrrrrr·2023-11-29 17:30

大数据学习之HiveSQL

一.DDL(数据定义语言)1.DDL概述数据定义语言(DataDefinitionLanguage,DDL)，是SQL语言集中对数据库内部的对象结构进行创建，删除，修改等的操作语言，这些数据库对象包括database（schema）、table、view、index等。核心语法由CREATE、ALTER与DROP三个所组成。DDL并不涉及表内部数据的操作。2.DDL建表2.1完整建表语法树蓝色字体

煜筱子·2023-11-29 17:29

大数据学习路线-（值得收藏）

大数据学习路线一、大数据处理流程1.1数据收集1.2数据存储1.3数据分析1.4数据应用1.5其他框架二、学习路线2.1语言基础2.2Linux基础2.3构建工具2.4框架学习三、开发工具四、结语一、大数据处理流程上图是一个简化的大数据处理流程图

门柚·2023-11-29 17:29

大数据学习(25)-hive核心总结

&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦1）用户接口：ClientCLI（command-lineinterface

viperrrrrrr·2023-11-29 17:20

HBase的微博案例

HBase的微博案例1.实验环境说明2.实验目的3.实验步骤3.1正常启动HADOOP、ZOOKEEPER3.2启动HBASE3.3实验步骤3.3.1先把虚拟机的地址映射加入到windows下的Hosts3.3.2

YGSBlog·2023-11-29 15:05

HBase初识之学生心得总结

c、HBase：理解为Hadoopbase--3.大数据框架：a、数据的存储：hdfs/hive/hbaseb、数据的传输：flume/sqoopc、数据的计算

程序员驴子酱·2023-11-29 15:33

大数据技术基础实验五：Zookeeper实验——部署ZooKeeper

实验目的与要求三、实验原理四、实验步骤1、安装JDK2、修改ZooKeeper配置文件3、启动ZooKeeper集群4、查看java进程和ZooKeeper集群目录五、最后我想说一、前言本期我们将学习Hadoop

-北天-·2023-11-29 15:03

hadoop安装

简介Hadoop是一个开源的分布式存储和计算框架，最初由Apache软件基金会开发。

necessary653·2023-11-29 14:11

Spark 学习笔记3. spark-submit + spark-shell

spark-submit:相当于hadoopjar命令--->提交MapReduce任务（jar文件）提交Spark的任务（jar文件）Spark提供Example例子：/root/training/spark

aimmon·2023-11-29 12:05

基于hadoop的商品推荐系统_基于知识图谱的推荐系统

作为大数据应用的两大类应用，搜索引擎和推荐系统既相互伴随和影响，又满足不同的产品需求。在作为互联网产品的连接器：连接人、信息、服务之间的桥梁，搜索和推荐有其各自的特点移联动互网、人工智能等技术的迅速发展为人们的工作生活带来了很多便利，用户面临着海量的信息，传统的搜索算法只能呈现给用户相同的物品排序结果，无法针对不同用户的兴趣爱好提供相应的服务。信息爆炸使得信息的利用率反而降低，这种现象被称为信息超

weixin_39936086·2023-11-29 12:26

RHadoop实践系列之三 R实现MapReduce的协同过滤算法

wbj0110·2023-11-29 12:26

R实现MapReduce的协同过滤算法

Gold_Spring·2023-11-29 12:46

基于Hadoop的异构网络协同过滤推荐算法设计

基于Hadoop的异构网络协同过滤推荐算法设计基于Hadoop的异构网络协同过滤推荐算法设计DesignofHeterogeneousNetworkCollaborativeFilteringRecommendationAlgorithmbasedonHadoop

wusp1994·2023-11-29 12:43

Flink读取MongoDB中的数据

fantasticMao·2023-11-29 08:01

5. MapReduce 和 Yarn 技术原理【华为HCIA-BigData】

5.1导读本章主要讲述大数据领域中最著名的批处理与离线处理计算框架MapReduce，包括MapReduce的原理、流程、使用场景，以及Hadoop集群中负责统一的资源管理与调度的组件Yarn，包括Yarn

Mengo_x·2023-11-29 08:45

HCIA-Big Data V3.0 华为认证大数据工程师在线课程章节测试题汇总

1.大数据发展趋势与鲲鹏大数据1、(单选)以下哪个不是大数据时代新兴的技术:A.HBaseB.HadoopC.MySQLD.Spark正确答案：C2、(单选)第三次信息化浪潮的标志是:A.云计算、大数据

gaogao_jack·2023-11-29 08:11

使用Spark Streaming处理Kafka数据流

1系统软件本文实验基于的各软件版本如下：Java1.8.0_191Scala2.11hadoop-3.0.3zookeeper-3.4.10Spark2.3.2kafka_2.12-2.0.1kafka-manager

打酱油的葫芦娃·2023-11-29 07:28

Spark Streaming的基本数据流

在大数据环境中，尤其是使用Hadoop分布式文件系统（HDFS）时，数据通常被认为是静态的，这是因为HDFS被设计成适合一次写入和多次读取的场景

俺会hello我的·2023-11-29 07:55

启动集群时datanode进程没有启动执行jps没有datanode的解决方法亲测有效Incompatible clusterIDs in /export/servers/hadoop-3.1

执行jps查看进程时没有datanode进程：另外可以检查日志文件catlogs/hadoop-root-datanode-hadoop101.log#查看最新的log文件可以看到的是，这里给出的错误提示信息是

'一生所爱·2023-11-29 06:43

阿里云服务器搭建Hadoop报错“Incompatible clusterIDs”“Excluding datanode”“Cannot assign requested address”

阿里云服务器搭建Hadoop确实有一些坑，以下进行一个错误总结记录：！！

暮月七·2023-11-29 06:40

hadoop启动datanode报错：Incompatible clusterIDs in

Hadoop版本为3.1.2。在启动datanode时报错，日志如下:意思是namenode的集群ID和datanode的集群ID不一致。解决方案：将datanode存放数据的文件目录清空。

兔帮大人·2023-11-29 06:09

解决Hadoop DataNode ‘Incompatible clusterIDs‘报错

问题启动hadoop时报错Failedtoaddstoragedirectory2023-11-2612:02:06,840WARNcommon.Storage:Failedtoaddstoragedirectory

gcygeeker·2023-11-29 06:03

hadoop集群环境搭建和常用命令

搭建过程1.集群配置cat/etc/hosts2.步骤安装Java是否安装whichjava或者echo$JAVA_HOME3.解压安装包tar-zxvf4.修改配置文件cd$HADOOP_HOME/etc

Logan_addoil·2023-11-29 05:04

推荐频道

Hadoop大数据学习

本地IDEA、spark程序远程读取hive数据

idea对spark程序进行远程提交和调试

Hadoop大数据开发__Spark on YARN模式分布式集群安装部署

spark写出分布式的训练算法_Spark分布式计算执行模型

Spark 分布式环境搭建

Spark完全分布式搭建

Spark2.3.1的安装运行(伪分布式)

搭建Spark伪分布式

Spark完全分布式搭建（On Yarn）

Spark分布式安装模式

抖音SEO矩阵系统源码开发关键要素详解！

The Log: What every software engineer should know about real-time data's unifying abstraction

谨慎Apache-Zookeeper-3.5.5以后在CentOS7.X安装的坑

数据中台·实时开发计算平台

spark-submit：未找到命令

flink AskTimeoutException异常

Spark面试题

hadoop源码解读

【解决】HDFS JournalNode启动慢问题排查

大数据之HBase教程

大数据之Hbase（心得）

大数据技术之 HBase安装配置

大数据之HBase

如何能打进去idea引入外部jar包

Module-Spark使用文档

大数据学习(24)-spark on hive和hive on spark的区别

大数据学习(26)-spark SQL核心总结

大数据学习(26)-数据倾斜总结

大数据学习之HiveSQL

大数据学习路线-（值得收藏）

大数据学习(25)-hive核心总结

HBase的微博案例

HBase初识之学生心得总结

大数据技术基础实验五：Zookeeper实验——部署ZooKeeper

hadoop安装

Spark 学习笔记3. spark-submit + spark-shell

基于hadoop的商品推荐系统_基于知识图谱的推荐系统

RHadoop实践系列之三 R实现MapReduce的协同过滤算法

R实现MapReduce的协同过滤算法

基于Hadoop的异构网络协同过滤推荐算法设计

Flink读取MongoDB中的数据

5. MapReduce 和 Yarn 技术原理【华为HCIA-BigData】

HCIA-Big Data V3.0 华为认证大数据工程师在线课程章节测试题汇总

使用Spark Streaming处理Kafka数据流

Spark Streaming的基本数据流

启动集群时datanode进程没有启动 执行jps没有datanode的解决方法 亲测有效Incompatible clusterIDs in /export/servers/hadoop-3.1

阿里云服务器搭建Hadoop报错“Incompatible clusterIDs”“Excluding datanode”“Cannot assign requested address”

hadoop启动datanode报错：Incompatible clusterIDs in

解决Hadoop DataNode ‘Incompatible clusterIDs‘报错

hadoop集群环境搭建和常用命令

启动集群时datanode进程没有启动执行jps没有datanode的解决方法亲测有效Incompatible clusterIDs in /export/servers/hadoop-3.1