Hadoop；Spark 第12页

CentOS7集群配置免密登录

准备工作提前开启三台虚拟机hadoop102、hadoop103,hadoop104,关于三台虚拟机的安装可以参考：https://mp.csdn.net/mp_blog/creation/editor

在下区区俗物·2024-02-07 12:00

CentOS7搭建Hadoop集群

集群环境搭建（3台）-CSDN博客2、配置虚拟机之间免密登录，参考：CentOS7集群配置免密登录-CSDN博客3、虚拟机分别安装jdk，参考：CentOS7集群安装JDK1.8-CSDN博客4、下载Hadoop

在下区区俗物·2024-02-07 12:57

请问半吊子 C++选手该如何深入学习 C++?

java是典型的后台语言，能和netty、hadoop、hbase-、elastics

枪哥玩转嵌入式·2024-02-07 11:21

【Iceberg学习一】什么是Iceberg？

Iceberg为包括Spark、Trino、PrestoDB、Flink、Hive和Impala在内的计算引擎增加了表格功能，使用一种高性能的表格格式，其工作方式就像一个SQL表一样。

周润发的弟弟·2024-02-07 10:56

hadoop集群搭建踩坑实录

由于不可控以及不可知的原因我搭建的hadoop集群突然显示虚拟机出现了问题导致某一个DataNode数据丢失并且无法通过Xshell远程访问其他的DataNode主机和虚拟机无法互相ping通网上能找的解决办法基本都找了依然无法解决因此我能想到的是只能删除虚拟机重新克隆一台机器然而还是无法通过远程连接无奈之下我重启电脑发现又可以通过

温文尔雅的流氓·2024-02-07 10:39

Hadoop分布式计算实验踩坑实录及小结

目录Hadoop分布式计算实验踩坑实录及小结踩坑实录Hadoop学习Hadoop简介HDFSSomeconceptsMapReduce主要配置文件集群搭建来源与引用Hadoop分布式计算实验踩坑实录及小结踩坑实录单机

小童同学_·2024-02-07 10:08

RDD任务切分之Stage任务划分(图解和源码)

RDD任务切分中间分为：Application、Job、Stage和Task（1）Application：初始化一个SparkContext即生成一个Application；（2）Job：一个Action

大数据左右手·2024-02-07 09:34

kyuubi 接入starrocks | doris

kyuubi接入starrocks一、环境Hadoop集群组件版本Hadoop3.1.1spark3.Xzookeeper3.XHive3.Xkyuubi版本1.7.1starrocks2.X 已将kyuubi

甜甜的巧克力阿·2024-02-07 09:48

Hive Sql优化记录

日常检查ETLjob时发现一段sql采用hiveonmr执行比hiveonspark要快70%，与正常的认知正好相反，所以对该sql进行了详细分析。

风筝flying·2024-02-07 07:40

SparkJDBC读写数据库实战

默认的操作代码valdf=spark.read.format("jdbc").option("url","jdbc:postgresql://localhost:5432/testdb").option

SunnyRivers·2024-02-07 07:41

IDEA 本地运行Spark

IDEA本地运行Spark1、背景2、环境准备3、具体流程3.1IDEA创建maven项目3.2pom.xml配置3.3Demo程序示例3.4结果输出4、总结改进1、背景主要用于本地阅读Spark源码，

fir_dameng·2024-02-07 06:41

Spark Scala大数据编程实例

一、Scala1.1、Scala简介Scala是一门现代的多范式编程语言，平滑地集成了面向对象和函数式语言的特性，旨在以简练、优雅的方式来表达常用编程模式。Scala的设计吸收借鉴了许多种编程语言的思想，只有很少量特点是Scala自己独有的。Scala语言的名称来自于“可伸展的语言”，从写个小脚本到建立个大系统的编程任务均可胜任。Scala运行于Java平台（JVM，Java虚拟机）上，并兼容现有

一直de不完的bug·2024-02-07 06:38

win10 spark scala 本地运行wordcount

注意每次修改环境变量都要重启cmd本机运行需要hadoopcommon，可以从github下载zip，解包以后设置HADOOP_HOME环境变量指向它，然后在PATH里加上HADOOP_HOME\bin

疯琴·2024-02-07 06:06

Scala与java

目录Scala简介Scala和java的区别Spark选择Scala的原因Scala：Object与Class的区别Scala样例类和普通类的区别Scala中的None,Nothing,Null,NilScala

K. Bob·2024-02-07 06:05

Spark scala如何本地运行

Sparkscala如何本地运行Spark任务调试太费时间啦SparkScala本地运行Spark任务调试太费时间啦ApacheSpark是一个开源的大数据处理框架，它提供了一个接口用于编程大规模分布式计算

HanhahnaH·2024-02-07 06:03

同是ZooKeeper，你和架构师的理解差在哪里？

Dubbo，Kafka,Hadoop等等项目里都能看到它的影子。但是你真的了解ZooKeeper吗？如果面试官让你给他讲讲ZooKeeper是个什么东西，你能回答到什么地步呢？

l鹿狸i·2024-02-07 06:12

Zeppelin结合Flink查询hudi数据

目前ApacheZeppelin支持ApacheSpark、ApacheFlink、Python、R、JDBC、

BigDataToAI·2024-02-07 05:38

Apache Zeppelin 整合 Spark 和 Hudi

一环境信息1.1组件版本组件版本Spark3.2.3Hudi0.14.0Zeppelin0.11.0-SNAPSHOT1.2环境准备Zeppelin整合Spark参考：ApacheZeppelin一文打尽

大数据AI·2024-02-07 05:03

Hadoop-IDEA开发平台搭建

1.安装下载Hadoop文件1）hadoop-3.3.5将下载的文件保存到英文路径下，名称一定要短。

Snower_2022·2024-02-07 05:02

【实验1】分布式模式的CentOS 6上安装Hadoop（1个master节点，2个slave节点）

实验环境：二、实验内容与步骤（过程及数据记录）：1.安装VMWareWorkstation162.VMWare10安装CentOS62.1CentOS系统安装2.2CentOS系统安装中的关键问题2.3克隆HadoopSlave3

-借我杀死庸碌的情怀-·2024-02-07 05:31

在多台阿里云服务器上部署Hadoop分布式系统及WordCount实验

一、实现master与slave之间无密码连接分别在master及slave上生成rsa密钥：mkdir~/.sshcd~/.sshssh-keygen-t-rsa一路回车（选择默认设置），此时，ssh文件夹中生成了id_rsa.pub和id_rsa两个，然后使用scp命令将公钥（id_rsa.pub）分别拷到对方机器中scpid_rsa.pubh1@对方机器IP：~/.ssh/authorize

Clearlove灬Star·2024-02-07 05:01

合肥工业大学2022大数据技术实验二

实验序号及名称：实验二在Hadoop平台上部署WordCount程序实验时间∶2022年5月14日预习内容一、实验目的和要求∶在Hadoop平台上部署WordCount程序。

一头骇人鲸·2024-02-07 05:00

hadoopwordcount代码分析

输入输出文件异常类importjava.util.Iterator;Iterator是迭代器类importjava.util.StringTokenizer;用来对字符串进行切importorg.apache.hadoop.fs.Path

姹紫_嫣红·2024-02-07 05:57

【实验2】在Hadoop平台上部署WordCount程序

HDFS6.分布式文件系统HDFS上的编程实践6.1安装Eclipse6.2创建Eclipse工程6.3编写一个Java应用程序检测HDFS中是否存在一个文件7.Eclipse上的HDFS操作7.1安装Hadoop-Eclipse

-借我杀死庸碌的情怀-·2024-02-07 05:27

spark sql上线前的调试工作实现

背景每个公司应该都有大数据的平台的吧，平台的作用就是可以在上面执行各种sparksql以及定时任务，不过一般来说，由于这些sparksql的上线不经过测试，所以可能会影响到生产的数据，这种情况下大数据平台提供一个上线前的调试功能也就非常好了

lixia0417mul2·2024-02-07 05:22

如何将日志文件和二进制文件快速导入HDFS？

日志数据在应用程序中一直很常见，Hadoop能够处理生产系统生成的大量日志数据，比如网络设备、操作系统、Web服务器和应用程序的日志数据。

weixin_34159110·2024-02-07 05:36

Kuberntes DNS

kubectlgetendpointsNAMEENDPOINTSAGEdocker-registry172.17.0.10:500019dkubernetes10.0.2.41:844319drouter10.0.2.41:1936,10.0.2.41:80,10.0.2.41:44319dsparkthrift-headless172.17.0.12

zhixingheyi_tian·2024-02-07 03:02

数据仓库-Hive基础（二）Hive 的基本概念

什么是HiveHive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

做个合格的大厂程序员·2024-02-07 03:42

Spark RDD的学习(JAVA)

注：本文是跟着《Spark快速大数据分析》一书学习的笔记式总结，不喜勿喷。RDD(ResilientDistributedDataset)弹性分布式数据集是Spark对数据的核心抽象。

啊其11·2024-02-07 02:47

Spark Chapter 8 Spark SQL

【参考以慕课网日志分析为例进入大数据Sparksql】0导读SQL：MySQL，Oracle，DB2，SQLServer在大数据平台上实现大数据计算：Hive/SparkSQL/SparkCore直接使用

深海suke·2024-02-07 01:34

Spark大数据分析与实战笔记（第三章 Spark RDD弹性分布式数据集-01）

文章目录每日一句正能量第3章SparkRDD弹性分布式数据集章节概要3.1RDD简介3.2RDD的创建方式3.2.1从文件系统加载数据创建RDD3.2.2通过并行集合创建RDD每日一句正能量学如积薪，后来者居上

想你依然心痛·2024-02-07 01:53

Hadoop集群（第10期副刊）_常用MySQL数据库命令

1、系统管理1.1连接MySQL格式：mysql-h主机地址-u用户名－p用户密码举例：例1：连接到本机上的MySQL。首先在打开DOS窗口，然后进入目录mysqlbin，再键入命令"mysql–uroot–p"，回车后提示你输密码，如果刚安装好MySQL，超级用户"root"是没有密码的，故直接回车即可进入到MySQL中了，MySQL的提示符是：mysql>。例2：连接到远程主机上的MYSQL。

阿布2·2024-02-07 00:08

2024-02-06（Sqoop）

1.SqoopApacheSqoop是Hadoop生态体系和RDBMS（关系型数据库）体系之间传递数据的一种工具。Sqoop工作机制是将导入或者导出命令翻译成MapReduce程序来实现。

陈xr·2024-02-06 23:29

StarRocks入门

目录一、连接StarRocks二、建表1.创建非分区表2.创建动态分区表3.修改表字段类型三、数据导入1.Sparkload2.Brokerload3.Streamload4.Routineload5.

jingyu鲸鱼·2024-02-06 22:42

java推荐算法_基于内容的推荐算法实现

javapackagecom.oracle.moviecf;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.hadoop.conf.Configuration

RED韵·2024-02-06 19:54

spark的数据倾斜和解决方案

#数据倾斜##4.1.什么是数据倾斜，现象是什么？所谓数据倾斜(dataskew)，其实说白了，由于数据分布不均匀造成计算时间差异很大，产生了一些列异常现象。常见的现象有两种：1.个别task作业运行缓慢大多数的task运行都很快速，但是极个别的task运行非常缓慢，甚至是正常task运行时间好多倍。莫名其妙的OOM异常这是一种相对比较少见的现象，正常运行的task作业，突发发生了一个OOM异常。

XLMN·2024-02-06 18:32

Spark简介

Spark作为第二代大数据处理工具，跟hadoop对比，它是基于内存的，所以在迭代计算方便速度有了很大提升。我用到的主要是SparkCore,SparkSQL,SparkStreaming。

麦克阿瑟99·2024-02-06 18:07

Spark编程实现简例

对于两个输入文件A和B，编写Spark独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件C。下面是输入文件和输出文件的一个样例，供参考。

哲子带你学编程·2024-02-06 16:34

致IT领域那些忽悠过的概念

这里我要说的是：1：Hadoop是大数据解决方案之一，是个代名词，但是不是全部。2：除了少数公司，绝大多数（99.99%）的公

薛晓刚·2024-02-06 15:08

Hbase 数据迁移

Hbase数据迁移可选方案对比l已验证方案操作说明：nExport&importu导出命令及示例hbaseorg.apache.hadoop.hbase.mapreduce.Export“表名”文件路径导出至本地文件系统

运维那些事儿·2024-02-06 14:44

flink学习记录

flink-conf.yaml配置文件：jobmanager.rpc.address:hadoop1jobmanager.rpc.port:6123jobmanager.heap.size:512mtaskmanager.heap.size

戏剧·2024-02-06 14:34

Hadoop 命令手册

翻译：http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/CommandsManual.html版本：2.9.0

金刚_30bf·2024-02-06 13:29

热数据存储在HDFS，冷备数据存储于对象存储中

改方案均采用同一套Hadoop架构，使用hive均可以读取到，在降低成本的同时提高数据的利用率。2.准备条件c

tuoluzhe8521·2024-02-06 10:11

决胜大数据时代：Hadoop&Yarn&Spark企业级最佳实践（8天完整版脱产式培训版本）...

Hadoop、Yarn、Spark是企业构建生产环境下大数据中心的关键技术，也是大数据处理的核心技术，是每个云计算大数据工程师必修课。

weixin_30273931·2024-02-06 09:08

Spark视频第5期：Spark SQL架构和案例深入实战

SparkSQL架构和案例深入实战视频下载：http://pan.baidu.com/share/link?

Rocky_wangjialin·2024-02-06 09:35

RDD 依赖关系

packagecom.atguigu.bigdata.spark.core.rdd.depimportorg.apache.spark.

zmx_messi·2024-02-06 09:08

转换算子小案例

2)需求描述统计出每一个省份每个广告被点击数量排行的Top33)需求分析4)功能实现整体思路代码实现packagecom.atguigu.bigdata.spark.core.rdd.operator.transformimportorg.apache.spark

zmx_messi·2024-02-06 09:37

Spark SQL调优实战

1、新添参数说明//Driver和Executor内存和CPU资源相关配置--是否开启executor动态分配，开启时spark.executor.instances不生效spark.dynamicAllocation.enabled

sighting_info·2024-02-06 09:06

Python学习路线 - Python高阶技巧 - PySpark案例实战

Python学习路线-Python高阶技巧-PySpark案例实战前言介绍Spark是什么PythonOnSparkPySparkWhyPySpark基础准备PySpark库的安装构建PySpark执行环境入口对象

mry6·2024-02-06 09:34

linux安装hadoop详细步骤（伪分布式）

今天重装了下hadoop，特在此记录下！

红烧柯基·2024-02-06 08:28

推荐频道

Hadoop；Spark