Hadoop 第38页

《PySpark大数据分析实战》-05.PySpark库介绍

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-16 14:05

Mapreduce小试牛刀(1)

1.与hdfs一样，mapreduce基于hadoop框架，所以我们首先要启动hadoop服务器-----------------------------------------------------

printcsr·2023-12-16 12:51

Mapreduce小试牛刀(2)--java api

1.同hdfs的javaapi,我们首先要在IDE中建立一个maven项目pom.xml中配置如下：org.apache.hadoophadoop-mapreduce-client-common3.3.4org.apache.hadoophadoop-mapreduce-client-jobclient3.3.4org.apache.hadoophadoop-client3.3.4org.slf4

printcsr·2023-12-16 12:51

Hdfs java API

1.在主机上启动hadoopsbin/start-all.sh这里有一个小窍门，可以在本机上打开8088端口查看三台机器的连接状态，以及可以打开50070端口，查看hdfs文件状况。

printcsr·2023-12-16 12:21

hadoop-yarn简介及常用命令详解（超详细）

文章目录前言一、YARN概述1.YARN简介2.YARN架构(1)ResourceManager（资源管理器）(2)NodeManager（节点管理器）(3)ApplicationMaster（应用程序管理器）3.YARN特点(1)分布式资源管理(2)多框架支持(3)灵活的资源调度(4)高可靠性和容错性(5)可扩展性(6)安全性二、YARN命令介绍1.YARN命令简介2.yarnapplicati

大数据魔法师·2023-12-16 12:46

hadoop3.3.4安装及启动

1.虚拟机的安装此处我选择的是VMware,激活码可以百度搜索，安装过程比较缓慢，需要耐心等待---------------------------------------------------------------------------------------------------------------------------------2.创建新的虚拟机点击创建虚拟机，如果已经创建，

printcsr·2023-12-16 12:45

kafka常用命令

/bin/kafka-console-producer.sh--broker-listdn02.hadoop.cn:6667,dn03.hadoop.cn:6667,dn04.hadoop.cn:6667

wind_103·2023-12-16 12:23

ElasticSearch与HBase的分布式存储设计

本文内容覆盖如今两大非结构化数据库之间的区别详情介绍从各个角度详细对比1.官方定位HBase是Hadoop数据库，是一个分布式、可扩展的大数据存储。

不学会Ⅳ·2023-12-16 09:32

Hive建表语句

CREATEDATABASEIFNOTexistsmyhivebook2COMMENT'数据库测试';--创建数据库并指定路径CREATEDATABASEIFNOTexistsmyhivebook3LOCATION'/hadoop

xinxinyydss·2023-12-16 08:58

Kafka快速实战与基本原理详解

Linkedin公司开发，是一个分布式、支持分区的（partition）、多副本的（replica），基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop

Memory_2020·2023-12-16 06:08

华为大数据开发者教程知识点提纲

一、线下处理1.离线处理方案数据支持：HDFS调度：YARN收入：Flume，sqoop，loader处理：Mapreduce，SparkSql，spark，hive（，Flink）2.HadoopNamenode

qq_1418269732·2023-12-16 06:08

初识大数据应用，一文掌握大数据知识文集(1)

06、请列出正常工作的hadoop集群中hadoop都需要启动哪些进程，他们的作用分别是什么？07、KafkaUtils.cr

普修罗双战士·2023-12-16 06:22

ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: java.lang.RuntimeExcepti...

CONVERT_TO_NULL','EXCEPTION'or'ROUND'.Thevalue'convertToNull'isnotacceptable.解决:--connectjdbc:mysql://hadoop00

weixin_30695195·2023-12-16 05:47

使用sqoop操作HDFS与MySQL之间的数据互传

一，数据从HDFS中导出至MySQL中1）开启Hadoop、mysql进程start-all.sh/etc/init.d/mysqldstart/etc/init.d/mysqldstatus2）将学生数据

冬瓜的编程笔记·2023-12-16 05:44

Win10 IDEA连接虚拟机中的Hadoop集群（进来保你成）

目录引言：环境：前提：实现:测试结语：问题引言：分布式课程要求使用IDE（IDEA、Eclipse）来编写程序直接对Hadoop集群进行文件操作，目前关于IDEA连接Hadoop集群的教程，良莠不齐，根据多个教程完成了

小小小秃头·2023-12-16 05:24

【Hadoop-Cos】存储对象Cos通过Java-SDK获取目录结构

com.qcloudcos_api5.6.133packagegaei.cn.x5l.x5lhive2cos.utils;importcom.qcloud.cos.COSClient;importcom.qcloud.cos.ClientConfig;importcom.qcloud.cos.auth.BasicCOSCredentials;importcom.qcloud.cos.auth.CO

bmyyyyyy·2023-12-16 05:45

【Hadoop-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移

【Hadoop-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移1）Distcp工具简介及参数说明2）Shell脚本1）Distcp工具简介及参数说明【Hadoop-Distcp】工具简介及参数说明

bmyyyyyy·2023-12-16 05:45

【Hadoop-Yarn】Yarn的常用命令

【Hadoop-Yarn】Yarn的常用命令1）查看任务列表2）杀死任务3）查看日志4）根据Application状态过滤任务5）查询Container日志6）查看尝试运行的任务7）yarncontainer

bmyyyyyy·2023-12-16 05:15

【Hadoop-CosDistcp-Distcp】通过命令方式将Cos中的数据迁移至HDFS，再将HDFS数据迁移至S3

【Hadoop-CosDistcp-Distcp】通过命令方式将Cos中的数据迁移至HDFS，再将HDFS数据迁移至S31）Shell脚本2）参数说明1）Shell脚本注意：此Shell脚本内置了按照sample_date

bmyyyyyy·2023-12-16 05:15

【Hadoop-Distcp】工具简介及参数说明

【Hadoop-Distcp】工具简介及参数说明1）概述2）适合的场景及其有点3）参数说明1）概述Distcp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。

bmyyyyyy·2023-12-16 05:15

【Hadoop-Distcp】通过Distcp的方式迁移Hive中的数据至存储对象

【Hadoop-Distcp】通过Distcp的方式迁移Hive中的数据至存储对象1）了解Distcp1.1.Distcp的应用场景1.2.Distcp的底层原理2）使用Distcp4）S3可视化App

bmyyyyyy·2023-12-16 05:14

【Hadoop-OBS-Hive】利用华为云存储对象 OBS 作为两个集群的中间栈 load 文件到 Hive

【Hadoop-OBS-Hive】利用华为云存储对象OBS作为两个集群的中间栈load文件到Hive1）压缩文件2）上传文件到OBS存储对象3）crontab定时压缩上传4）从obs上拉取下来文件后解压缩

bmyyyyyy·2023-12-16 04:04

Spark编程实验一：Spark和Hadoop的安装使用

一、目的与要求1、掌握在Linux虚拟机中安装Hadoop和Spark的方法；2、熟悉HDFS的基本使用方法；3、掌握使用Spark访问本地文件和HDFS文件的方法。

Francek Chen·2023-12-16 04:32

启动YARN并运行MapReduce程序

之前已经搭建好了Hadoop集群，接下来在集群上启动YARN。

Manfestain·2023-12-16 03:38

FinallShell连接Ubuntu报错：java.net.ConnectException: Connection refused: connect 无法连接

服务的问题：#安装OpenSSH服务器和客户端sudoaptinstallopenssh-serveropenssh-client-y一定一定确保安装了上述ssh服务，可通过以下命令检查并对应返回值应该如下：hadoop

m0_73815626·2023-12-16 03:13

十六、YARN和MapReduce配置

1、部署前提（1）配置前提已经配置好Hadoop集群。

弦之森·2023-12-16 01:55

基于Hadoop平台的音乐推荐系统的设计与实现

QQ2743785109·2023-12-16 01:36

基于Hadoop毕业生就业择业数据分析的设计与实现

收藏关注不迷路文章目录摘要一、需求分析二、系统设计4.1系统总体功能设计三、系统实现四、结论摘要本系统结合计算机系统的结构、概念、模型、原理、方法，在计算机各种优势的情况下，采用JAVA语言，结合SpringBoot框架与Vue框架以及MYSQL数据库设计并实现的。本毕业生就业择业数据分析主要包括系统生源质量指数管理、年份管理、学院管理、生源质量指数、就业率指数、就业状态指数等多个模块。它帮助

QQ2743785109·2023-12-16 01:36

基于Hadoop的视频日志分析系统设计与实现

视频日志的收集和存储模2.1.2视频日志的处理模块2.1.3用户行为分析模块2.1.4用户行为分析模块2.2数据收集二、实验结果分析3.1数据采集3.2数据存储三、系统实现四、结论摘要本文设计并实现了一种基于Hadoop

QQ2743785109·2023-12-16 01:36

单节点hadoop搭建

下载Hadoop-bin.*.tar.gz解压文件，配置HADOOP_HOME编辑文件etc/hadoop/hadoop-env.sh配置JAVA_HOME配置etc/hadoop/core-site.xml

曾阿伦·2023-12-16 00:04

flink yarn-session 启动失败retrying connect to server 0.0.0.0/0.0.0.0:8032

yarn-session.sh，会向resourcemanager的端口8032发起请求：但是一直无法请求到8032端口，触发重试机制会不断尝试备注：此问题出现时，我的环境ambari部署的HA高可用hadoop

dogplays·2023-12-16 00:01

hue的安装和hadoop集群整合

一、Hue概述HUE（HadoopUserExperience）是一个开源的ApacheHadoopUI系统，由ClouderaDesktop演化而来，最后Cloudera公司将其贡献给Apache基金会的

五块兰州拉面·2023-12-16 00:15

Hue安装部署

1Hue简介1.1Hue介绍Hue是一个开源的ApacheHadoopUI系统，最早是由ClouderaDesktop演化而来，由Cloudera贡献给开源社区，它是基于PythonWeb框架Django

chenlouzhen1603·2023-12-16 00:43

Spark+Kafka构建实时分析Dashboard案例

目录一、环境准备Ubuntu安装Hadoop安装Spark安装Kafka安装Python安装Python依赖库安装vscode安装Python工程目录结构二、数据处理和Python操作Kafka数据集数据预处理运行三

Hay Ha!·2023-12-15 22:40

kafka学习笔记--安装部署、简单操作

教程（从入门到调优，深入全面）文章目录1安装部署1.1集群规划1.2集群部署2命令行操作2.1主题2.2生产者2.3消费者2.4消费者组1安装部署1.1集群规划这里采用的是三节点的kafka集群，名称为hadoop

向着百万年薪努力的小赵·2023-12-15 22:54

大数据学习（一）-------- HDFS

已经有了很多框架方便使用，常用的有hadoop，storm，spark，flink等，辅助框架hive，kafka，es，sqoop，flume等。常见应用推荐系统，用户画像等。

大数据流动·2023-12-15 21:01

Hadoop在mac上的安装与配置

brewcaskinstallhomebrew/cask-versions/adoptopenjdk8安装指导，指导里面把java换成8：https://medium.com/beeranddiapers/installing-hadoop-on-mac-a9a3649dbc4d

大红豆小薏米·2023-12-15 20:45

Hadoop和Spark的区别

Hadoop表达能力有限。磁盘IO开销大，延迟度高。任务和任务之间的衔接涉及IO开销。前一个任务完成之前其他任务无法完成，难以胜任复杂、多阶段的计算任务。

旅僧·2023-12-15 20:12

kmeans设置中心_Spark分布式机器学习源码分析：Kmeans族聚类

本文采用的组件版本为：Ubuntu19.10、Jdk1.8.0_241、Scala2.11.12、Hadoop3.2.1、Spark2.4.5，老规矩先开启一系列Hadoop、Spark服务与Spa

weixin_39699121·2023-12-15 19:27

Windows平台搭建Spark开发环境（Intellij idea 2020.1社区版+Maven 3.6.3+Scala 2.11.8）

在开始之前，需要说明的是要跑通基本的wordcount程序，是不需要在windows上安装hadoop和spark的，因为idea在跑程序的时候，会按照pom.xml配置文件，从指定的repository

阳泉酒家小当家·2023-12-15 19:56

Spark 随机森林算法原理、源码分析及案例实战

与其它大数据处理工具的活跃程度比较回页首环境要求操作系统：Linux，本文采用的Ubuntu10.04，大家可以根据自己的喜好使用自己擅长的Linux发行版Java与Scala版本：Scala2.10.4，Java1.7Spark集群环境（3台）：Hadoop2.4.1

黑谷子·2023-12-15 19:51

IntelliJ IDEA创建一个spark的项目

在开始之前，需要说明的是要跑通基本的wordcount程序，是不需要在windows上安装hadoop和spark的，因为idea在跑程序的时候，会按照pom.xml配置文件，从指定的repository

刘文钊1·2023-12-15 19:45

【Hadoop】Hadoop基础架构的变化

1.x版本架构2.x版本架构3.x版本架构参考1.x版本架构NameNode：，负责文件系统的名字空间(Namespace)管理以及客户端对文件的访问。NameNode负责文件元数据的管理和操作。是单节点。SecondaryNameNode：它的职责是合并NameNode的editlogs到fs_image文件中，并将合并文件返回给Namenode。然后Namenode将该文件加载到内存中。Sec

不怕娜·2023-12-15 19:13

【Hadoop】执行start-dfs.sh启动hadoop集群时，datenode没有启动怎么办

执行start-dfs.sh后，datenode没有启动，很大一部分原因是因为在第一次格式化dfs后又重新执行了格式化命令（hdfsnamenode-format)，这时主节点namenode的clusterID会重新生成，而从节点datanode的clusterID保持不变。在主节点也就是namenode那个节点上的hdfs-site.xml文件下找到这两个文件路径打开name目录中curren

不怕娜·2023-12-15 19:13

【Hadoop】Hadoop简介

Hadoop是什么Hadoop解决了什么问题Hadoop的优势/特性Hadoop的局限和不足参考Hadoop是什么Hadoop是一个由Apache基金会所开发的开源软件框架，是一个开发和运行处理大规模数据的软件平台

不怕娜·2023-12-15 19:42

spark 写入 mysql 报错

报错信息如下："C:\ProgramFiles\Java\jdk1.8.0_291\bin\java.exe""-javaagent:D:\Hadoopruanjian\IDEA\IntelliJIDEA2021.3.2

南城守护·2023-12-15 18:17

物联网、大数据、云计算的区别与联系

Hadoop、Spark海量数据云计算将计算资源虚拟化并按需卖给用户。方便计算资源的管理提高计算资源利用率。openstack、docker虚拟化二、相互关系粗略地看，可以认为物联网产生

weixin_30455067·2023-12-15 18:46

大数据基础知识

为了一场紧急考试，没有正经系统学习过大数据知识的我开始恶补概念涉及Hadoop、Hbase、Spark、Flink、Flume、Kafka、Sqoop、HDFS、Hive、Mapreduce、Impala

偶余杭·2023-12-15 17:22

HBase 高可用集群详细图文安装部署

目录一、HBase安装部署1.1Zookeeper正常部署1.2Hadoop正常部署1.3HBase安装1.4HBase的配置文件1.4.1hbase-env.sh1.4.2hbase-site.xml1.4.3regionservers1.4.4

Stars.Sky·2023-12-15 17:38

Hbase2.5.5分布式部署安装记录

环境准备1.1节点部署情况1.2安装说明2Hbase安装过程Step1：Step2:Step3:Step4：3WebUI检查状态并测试3.1WebUI3.2创建测试命名空间1环境准备1.1节点部署情况Hadoop11

程序终结者·2023-12-15 16:23

推荐频道

Hadoop

《PySpark大数据分析实战》-05.PySpark库介绍

Mapreduce小试牛刀(1)

Mapreduce小试牛刀(2)--java api

Hdfs java API

hadoop-yarn简介及常用命令详解（超详细）

hadoop3.3.4安装及启动

kafka常用命令

ElasticSearch与HBase的分布式存储设计

Hive建表语句

Kafka快速实战与基本原理详解

华为大数据开发者教程知识点提纲

初识大数据应用，一文掌握大数据知识文集(1)

ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: java.lang.RuntimeExcepti...

使用sqoop操作HDFS与MySQL之间的数据互传

Win10 IDEA连接虚拟机中的Hadoop集群（进来保你成）

【Hadoop-Cos】存储对象Cos通过Java-SDK获取目录结构

【Hadoop-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移

【Hadoop-Yarn】Yarn的常用命令

【Hadoop-CosDistcp-Distcp】通过命令方式将Cos中的数据迁移至HDFS，再将HDFS数据迁移至S3

【Hadoop-Distcp】工具简介及参数说明

【Hadoop-Distcp】通过Distcp的方式迁移Hive中的数据至存储对象

【Hadoop-OBS-Hive】利用华为云存储对象 OBS 作为两个集群的中间栈 load 文件到 Hive

Spark编程实验一：Spark和Hadoop的安装使用

启动YARN并运行MapReduce程序

FinallShell连接Ubuntu报错：java.net.ConnectException: Connection refused: connect 无法连接

十六、YARN和MapReduce配置

基于Hadoop平台的音乐推荐系统的设计与实现

基于Hadoop毕业生就业择业数据分析的设计与实现

基于Hadoop的视频日志分析系统设计与实现

单节点hadoop搭建

flink yarn-session 启动失败retrying connect to server 0.0.0.0/0.0.0.0:8032

hue的安装和hadoop集群整合

Hue安装部署

Spark+Kafka构建实时分析Dashboard案例

kafka学习笔记--安装部署、简单操作

大数据学习（一）-------- HDFS

Hadoop在mac上的安装与配置

Hadoop和Spark的区别

kmeans设置中心_Spark分布式机器学习源码分析：Kmeans族聚类

Windows平台搭建Spark开发环境（Intellij idea 2020.1社区版+Maven 3.6.3+Scala 2.11.8）

Spark 随机森林算法原理、源码分析及案例实战

IntelliJ IDEA创建一个spark的项目

【Hadoop】Hadoop基础架构的变化

【Hadoop】执行start-dfs.sh启动hadoop集群时，datenode没有启动怎么办

【Hadoop】Hadoop简介

spark 写入 mysql 报错

物联网、大数据、云计算的区别与联系

大数据基础知识

HBase 高可用集群详细图文安装部署

Hbase2.5.5分布式部署安装记录