大数据入门-hadoop 第35页

【大数据存储与处理】实验五 Python 操作 MongoDB

【实验内容与要求】：安装pymongo方法一：cd/home/hadoop/myshare/pymongo-3.10.1.tar.gztarzxvfpymongo-3.10.1.tar.gzmvpymongo

friklogff·2023-12-21 06:55

计算机毕业设计吊打导师hadoop+spark+hive知识图谱股票推荐系统股票数据分析可视化大屏股票基金爬虫股票基金大数据机器学习大数据毕业设计

开发技术：sparkhadoophive装杯显摆虚拟机Linux敲命令炫酷吊打flaskechartssqoopscalahdfsyarnmysqlselenium爬虫框架等；1.png2.png5.png6

计算机毕业设计大神·2023-12-21 05:47

2019-12-13 Hadoop中压缩方式对比

www.jianshu.com/p/c8c97a9462ff1、压缩Compression压缩有两大好处：可以减少文件存储所需要的磁盘空间，其次是可以加快数据在网络和磁盘上的传输压缩的缺点：CUP消耗大Hadoop

开心的小猫咪·2023-12-21 04:51

一小时搞定Mapreduce程序

第一步：maven里面添加几个jar包：代码如下：第二步：main类：主要是调度MR程序的启动运行importorg.apache.hadoop.conf.Configura

snow_14b5·2023-12-21 02:42

Apache Kyuubi 讲解与实战操作

文章目录一、概述二、SparkKyuubi架构三、Hadoop基础环境安装1）hadoop下载部署包2）创建网络3）部署MySQL4）部署HadoopHive四、SparkKyuubi安装1）下载Kyuubi2

大数据老司机·2023-12-21 02:02

HBase2.4.10 踩坑笔记

安装目标：安装HBase2.4.10，伪分布式，使用自带的Zookeeper参考确保有Java环境确保有Hadoop环境，我的是Hadoop3.3.1[root@main~]#start-all.shStartingnamenodeson

inch-whf·2023-12-21 02:36

Hadoop3.3.1 踩坑笔记

安装参考12目标：安装Hadoop3.3.1伪分布式确认已经与java开发环境(java-version)，用OracleJDK8，不要用OpenJDKyuminstalljava-1.8环境变量↓exportJAVA_HOME

inch-whf·2023-12-21 02:35

Flink高可用集群搭建

部署flink的准备工作flink版本的选择需要考虑hadoop的版本，本集群hadoop的版本为2.7.4,flink的版本为flink-1.7.2-bin-hadoop27-scala_2.11.tgzflink

NikolasNull·2023-12-20 23:44

数据同步工具

mysql--->es数据同步工具数据同步工具介绍基本介绍一下工具DataX,离线导入导出Sqoop,Sqoop是针对大数据而生的，专注于Hadoop(Hive)与传统的数据库数据的传递Sqoop(发音

光小月·2023-12-20 23:49

大数据学习(27)-Yarn总结与注意事项

哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、概述YARN（YetAnotherResourceNegotiator）是ApacheHadoop

viperrrrrrr·2023-12-20 16:48

MapReduce综合应用案例 — 电信数据清洗

文章目录第1关：数据清洗第1关：数据清洗测试说明平台会对你编写的代码进行测试：评测之前先在命令行启动hadoop：start-all.sh；点击测评后MySQL所需的数据库和表会自动创建好。

柔雾·2023-12-20 16:54

Idea2019.3+Hadoop-3.0.0+Spark3.0.0+Scala2.12安装部署

首先在安装环境前，最好确认各个版本之间的兼容性，避免出现不必要的错误而耽误时间！！！！！！系统环境安装1.JDK8+安装a.设置JAVA_HOME变量b.设置Path变量，添加;%JAVA_HOME%\bin;%JAVA_HOME%\jre\binc.设置Classpath添加：.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar2.Scala安装下

忘了盖被·2023-12-20 15:50

Python过气，Hadoop凉了？零基础项目实战诠释何为经典

今天，我们特邀了公众号“冰河技术”作者、腾讯云TVP冰河老师，他将为我们带来基于Python+Hadoop手把手教学如何实现单词统计。

腾讯云开发者·2023-12-20 14:26

sqoop简介及安装配置

概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。

一个人一匹马·2023-12-20 11:30

Zookeeper-快速开始

Zookeeper介绍简介：ZooKeeper是一个开源的分布式协调框架，是ApacheHadoop的一个子项目，主要用来解决分布式集群中应用系统的一致性问题。

有梦想的年轻人6174·2023-12-20 09:04

大数据集群增加数据盘，平衡数据盘HDFS Disk Balancer

大数据集群增加数据盘，平衡数据盘HDFSDiskBalancer官网：https://hadoop.apache.org/docs/r3.3.6/hadoop-project-dist/hadoop-hdfs

墨卿风竹·2023-12-20 09:48

Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job faile

hiveonspark错误Errorwhileprocessingstatement:FAILED:ExecutionError,returncode3fromorg.apache.hadoop.hive.ql.exec.spark.SparkTask.Sparkjobfailedduringruntime.Pleasecheckstacktracefortherootcause

墨卿风竹·2023-12-20 09:48

hadoop完全分布式搭建

hadoop完全分布式搭建1完全分布式介绍Hadoop运行模式包括：本地模式（计算的数据存在Linux本地，在一台服务器上自己测试）、伪分布式模式（和集群接轨HDFSyarn，在一台服务器上执行）、完全分布式模式

程序喵猴·2023-12-20 08:51

用户行为分析遇到的问题-ubantu16,hadoop3.1.3

用户行为分析传送门我的版本ubantu16hadoop3.1.3habse2.2.2hive3.1.3zookeeper3.8.3sqoop1.46/1.47我sqoop把MySQL数据往hbase导数据时候有问题重磅

To Shine·2023-12-20 08:49

hadoop运行jar遇到的一个报错

报错信息：2023-12-1914:28:25,893INFOmapreduce.Job:Jobjob_1702967272525_0001failedwithstateFAILEDdueto:Applicationapplication_1702967272525_0001failed2timesduetoAMContainerforappattempt_1702967272525_0001_0

sunweiking·2023-12-20 08:18

ZooKeeper分布式协调服务

后来，ApacheZooKeeper成为Hadoop，HBase和其他分布式框架使用的有组织服务的标准。

时光故事·2023-12-20 08:23

Linux集群实用脚本

现有三台虚拟机，例如：node2、node3、node4三台虚拟机配置了免密登录，安装了hadoop等软件。相关集群实用脚本命令统一执行jps命令jpsall#!

Hadoop_Liang·2023-12-20 07:13

hive执行集群模式正常本地模式报错Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

问题：同样的SQL在集群模式执行成功，但是切换到本地模式执行失败出现以下报错原因：由于本地模式内存不够导致无法执行任务解决方法：将hive-env.sh.template后缀.template去掉默认HADOOP_HEAPSIZE

Appreciate(欣赏)·2023-12-20 06:05

《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-20 06:47

hadoop格式化报错

在var/bigdata/hadoop/ha/dfs/jn/下没有mycluster目录增加后就格式化成功了

新鲜氧气·2023-12-20 05:27

运行官方实例

hdfsdfs-mkdir-p/data/wc/inputhdfsdfs-Ddfs.blocksize=1048576-putdata.txt/data/wc/inputcd$HADOOP_HOMEcdshare

新鲜氧气·2023-12-20 05:57

hadoop集群基础环境搭建

1.安装基础环境（以centos7为例）1.1修改IP创建4台虚拟机IP设置为192.168.154.4，192.168.154.5，192.168.154.6，192.168.154.7启动每台节点，在对应的节点路径"/etc/sysconfig/network-scripts"下配置ifg-ens33文件配置IP（注意，不同机器可能此文件名称不同，一般以ifcfg-xxx命名），以配置ip19

新鲜氧气·2023-12-20 05:27

hadoop集群搭建之HA模式

新鲜氧气·2023-12-20 05:27

【Hadoop精讲】HDFS详解

目录理论知识点角色功能元数据持久化安全模式SecondaryNameNode(SNN)副本放置策略HDFS写流程HDFS读流程HA高可用CPA原则Paxos算法HA解决方案HDFS-Fedration解决方案（联邦机制）理论知识点角色功能元数据持久化另一台机器就是SecondaryNameNode(SNN)安全模式不保存位置信息的原因，是因为当机器重启恢复后，DN会和NN建立心跳，汇报块信息。这个

话数Science·2023-12-20 05:42

Ubuntu 域名映射

Ubuntu域名映射修改主机名将主机名分别设置为hadoop01、hadoop02、hadoop03（1）输入命令：vim/etc/sysconfig/network(编辑网络配置文件)将主机名修改为：

清风明月一壶酒·2023-12-20 04:47

架构设计：远程调用服务架构设计及zookeeper技术详解

Hadoop是一个技术生态圈，zookeeper是hadoop生态圈里一个非常重要的技术。

Java圈子·2023-12-19 22:36

Hive建表失败：Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException

hive建表失败：解决办法：进入mysql修改hive数据库的编码：mysql>alterdatabasehivecharactersetlatin1;QueryOK,1rowaffected(0.00sec)之后重建表成功重新执行建表命令

匆匆岁月·2023-12-19 22:39

Hadoop基础情况回顾

大数据开源技术发展了这么多年，从Hadoop开源框架开始，陆陆续续出现了很多框架技术，把Hadoop框架中的模块部件取代了，但是Hadoop依然是值得回顾学习的，一个是Hadoop的三驾马车是经典技术思想

鬓戈·2023-12-19 22:30

Hadoop伪分布式集群安装

平时我们学习Hadoop技术时，可不一直沉溺于理论学习，一定要理论和实践相结合，所以就必须有一个Hadoop环境，我们能在这个Hadoop环境里进行各种操作，来验证我们在书本上学到的知识。

鬓戈·2023-12-19 22:28

Hive学习新天地一站式掌握Hive技能，让你成为大数据领域的佼佼者！

介绍：Hive是一个构建在Hadoop顶层的数据仓库工具，起源于Facebook为了解决海量数据的统计分析需求。

知识分享小能手·2023-12-19 22:56

从零开始学Hadoop，这些网站助你轻松掌握大数据技能！

介绍：Hadoop是一个开源框架，允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计旨在从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。

知识分享小能手·2023-12-19 22:56

Hbase2.1 集群搭建

>Hbase在大数据的体系中扮演着DB角色，不得不说是重要的一员，在上一篇，大猪已经给大家演示了[Hadoop3.2集群搭建](https://www.jianshu.com/p/3182aaff918d

kikiki5·2023-12-19 20:39

HBase shell 基础实操

目录1查看HBase状态2查看帮助命令3查看版本号4命名空间操作5创建表6列出所有的表7获取表描述8删除列族9其他DDL操作1查看HBase状态进入HBase客户端命令行：(base)[root@hadoop01

Stars.Sky·2023-12-19 19:21

Hadoop3.x完全分布式模式下slaveDataNode节点未启动调整

目录前言一、问题重现1、查询Hadoop版本2、集群启动Hadoop二、问题分析三、Hadoop3.x的集群配置1、停止Hadoop服务2、配置workers3、从节点检测4、WebUI监控总结前言在大数据的世界里

夜郎king·2023-12-19 17:35

Hive底层如何和数据库进行交互

Hivehive是hadoop底层用于管理和查询结构化数据的系统。hive的功能实现是由HDFS+Mapreduce结合起来使用的。

旅僧·2023-12-19 17:31

熟悉HDFS

（一）熟悉HDFS操作常用的Shell命令（1）使用hadoop用户登录Linux系统，启动Hadoop（Hadoop的安装目录为“/usr/local/hadoop”），为hadoop用户在HDFS中创建用户目录

ngc2244·2023-12-19 16:26

从零开始了解大数据(二)：Hadoop篇

目录前言一、Hadoop集群整体概述1.HDFS集群（分布式存储）：(1)HDFS集群角色构成：(2)HDFS集群功能：2.YARN集群（资源管理、调度）：(1)YARN集群角色构成：(2)YARN集群功能

橘子-青衫·2023-12-19 13:23

Flume 安装与部署

apache-flume-1.9.0-bin.tar.gz上传到linux的/opt/software目录下（2）解压apache-flume-1.9.0-bin.tar.gz到/opt/module/目录下huwei@hadoop101

夏木夕·2023-12-19 12:06

Kafka 安装与部署

目录Kafka下载（1）将kafka_2.11-2.4.1.tgz上传至/opt/software/（2）解压安装包至/opt/module/[huwei@hadoop101~]$cd/opt/software

夏木夕·2023-12-19 12:05

【Hadoop】HDFS的体系架构

整体上说HDFS框架结构一HDFS框架结构二（HDFSHighAvailability）整体上说HDFS采用Master/Slave架构。一个HDFS集群是由一个NameNode和一定数目的DataNodes组成。其中NameNode是一个中心服务器，负责文件系统的名字空间(namespace)管理以及客户端对文件的访问。集群中的DataNode一般是一个节点一个，负责管理它所在节点上的存储。从内

不怕娜·2023-12-19 11:29

Aloudata 余俊：数据虚拟化技术如何实现敏捷高效的逻辑数据集成与链路编排

当提到数据仓库时，许多从事数据工作的人可能会想到ETL（抽取、转换、加载）和一些技术工具，如Hive、Hadoop和Spark。

Aloudata·2023-12-19 11:43

【已解决】Atlas 导入 Hive 元数据，执行 import-hive.sh 报错

执行import-hive.sh报错[omc@hadoop102apache-atlas-2.2.0]$hook-bin/import-hive.shUsingHiveconfigurationdirectory

mba1398·2023-12-19 10:29

大数据学习笔记-MapReduce（一）入门基础理论

1、HadoopMapReduce介绍mapreduce的思想：分而治之，先分再和，分而治之，把复杂的问题分解，然后逐个解决，分别计算出结果。

天码村·2023-12-19 10:36

Hadoop学习(3)-mapreduce快速入门加yarn的安装

mapreduce是一个运算框架，让多台机器进行并行进行运算，他把所有的计算都分为两个阶段，一个是map阶段，一个是reduce阶段map阶段：读取hdfs中的文件，分给多个机器上的maptask，分文件的时候是按照文件的大小分的比如每个maptask都会处理128M的文件大小，然后有个500M的文件，就会启动ceil（500/128）个maptask每读取文件的一行的处理，需要自己去写，注意每个

weixin_30323961·2023-12-19 10:05

大数据入门二（YARN部署）

1.入门HDFS存储MapReduce计算SparkFlinkYarn资源作业调度伪分布式部署要求环境配置文件参数文件ssh无密码启动jps命令[hadoop@hadoop002~]$jps28288NameNodeNN27120Jps28410DataNodeDN28575SecondaryNameNodeSNN1

倾白首·2023-12-19 10:04

推荐频道

大数据入门-hadoop

【大数据存储与处理】实验五 Python 操作 MongoDB

计算机毕业设计吊打导师hadoop+spark+hive知识图谱股票推荐系统 股票数据分析可视化大屏 股票基金爬虫 股票基金大数据 机器学习 大数据毕业设计

2019-12-13 Hadoop中压缩方式对比

一小时搞定Mapreduce程序

Apache Kyuubi 讲解与实战操作

HBase2.4.10 踩坑笔记

Hadoop3.3.1 踩坑笔记

Flink高可用集群搭建

数据同步工具

大数据学习(27)-Yarn总结与注意事项

MapReduce综合应用案例 — 电信数据清洗

Idea2019.3+Hadoop-3.0.0+Spark3.0.0+Scala2.12安装部署

Python过气，Hadoop凉了？零基础项目实战诠释何为经典

sqoop简介及安装配置

Zookeeper-快速开始

大数据集群增加数据盘，平衡数据盘HDFS Disk Balancer

Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spark job faile

hadoop完全分布式搭建

用户行为分析遇到的问题-ubantu16,hadoop3.1.3

hadoop运行jar遇到的一个报错

ZooKeeper分布式协调服务

Linux集群实用脚本

hive执行集群模式正常本地模式报错Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

《PySpark大数据分析实战》-15.云服务模式Databricks介绍创建集群

hadoop格式化报错

运行官方实例

hadoop集群基础环境搭建

hadoop集群搭建之HA模式

【Hadoop精讲】HDFS详解

Ubuntu 域名映射

架构设计：远程调用服务架构设计及zookeeper技术详解

Hive建表失败：Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException

Hadoop基础情况回顾

Hadoop伪分布式集群安装

Hive学习新天地一站式掌握Hive技能，让你成为大数据领域的佼佼者！

从零开始学Hadoop，这些网站助你轻松掌握大数据技能！

Hbase2.1 集群搭建

HBase shell 基础实操

Hadoop3.x完全分布式模式下slaveDataNode节点未启动调整

Hive底层如何和数据库进行交互

熟悉HDFS

从零开始了解大数据(二)：Hadoop篇

Flume 安装与部署

Kafka 安装与部署

【Hadoop】HDFS的体系架构

Aloudata 余俊：数据虚拟化技术如何实现敏捷高效的逻辑数据集成与链路编排

【已解决】Atlas 导入 Hive 元数据，执行 import-hive.sh 报错

大数据学习笔记-MapReduce（一） 入门基础理论

Hadoop学习(3)-mapreduce快速入门加yarn的安装

大数据入门二（YARN部署）

计算机毕业设计吊打导师hadoop+spark+hive知识图谱股票推荐系统股票数据分析可视化大屏股票基金爬虫股票基金大数据机器学习大数据毕业设计

大数据学习笔记-MapReduce（一）入门基础理论