大数据入门-hadoop 第23页

Flume实时读取本地/目录文件到HDFS

准备工作二、实时读取本地文件到HDFS（一）案例需求（二）需求分析（三）实现步骤三、实时读取目录文件到HDFS（一）案例需求（二）需求分析（三）实现步骤一、准备工作Flume要想将数据输出到HDFS，必须持有Hadoop

Francek Chen·2024-01-09 18:38

[超超超超超超详细] Linux Centos7搭建Hadoop集群及运行MapReduce分布式集群

版本：Centos7Hadoop3.2.0JDK1.8虚拟机信息：内存3.2G处理器2*2内存50GISO：Centos-7-x86_64-DVD-2009一、在虚拟机上搭建LinuxCentos7略二

没事多学习_Qi·2024-01-09 17:38

Hadoop运行在Kubernetes平台实践

Hadoop与Kubernetes就好像江湖里的两大绝世高手，一个是成名已久的长者，至今仍然名声远扬，一个则是初出茅庐的青涩少年，骨骼惊奇，不走寻常路，一出手便惊诧了整个武林。

Java大生·2024-01-09 17:12

java 全栈高级工程师，架构师学习资源交流

redis集群zookeeper集群搭建与调优dubbo/dubbox分布式服务jvm调优，内存分析java并发dockerlinuxjmeter性能测试netty/minamycathadoop管理级别技能

昵称不能为null·2024-01-09 15:03

大数据学习6-Sqoop安装与使用

sqoop搭建还是挺简单的,前提是hadoop与hive搭建完成上传解压首先下载sqoop,sqoop的版本是1.4.7,sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz,提取码

asXt·2024-01-09 15:57

sqoop的安装与使用

Sqoop是一个用于在hadoop与mysql之间传输数据的工具Sqoop环境搭建(1)上传安装包:sqoop-1.4.6-cdh5.14.2.tar.gz到/opt/software(2)解压安装包:

xinxinyydss·2024-01-09 15:23

【读书笔记】《 Hadoop构建数据仓库实践》第1章

02-《Hadoop构建数据仓库实践》.jpg第1章数据仓库简介1.1什么是数据仓库Inmon将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易失的数据集合，用于支持管理者的决策过程。

笔名辉哥·2024-01-09 15:01

Hive基础知识（三）：Linux系统下的MySQL安装

1）检查当前系统是否安装过MySQL[zzdq@hadoop100hive]$rpm-qa|grepmariadbmariadb-libs-5.5.68-1.el7.x86_64#如果存在，就用下面这条命令卸载

依晴无旧·2024-01-09 13:26

Hive基础知识（二）：Hive 安装部署教程

apache-hive-3.1.2-bin.tar.gz上传到linux的/opt/software目录下2）解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面[root@hadoop100

依晴无旧·2024-01-09 13:25

Hive基础知识（一）：Hive入门与Hive架构原理

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。

依晴无旧·2024-01-09 13:25

hive基础知识大全

一、Hive基本概念1.1hive是什么hive是基于hadoop的一个数仓分析工具，hive可以将hdfs上存储的结构化的数据，映射成一张表，然后让用户写HQL(类SQL)来分析数据telupdown138383843813451567138383843953451567138383844012411657713838384413453157571383838434353551567567

不爱吃鱼的馋猫·2024-01-09 13:23

Hive基础知识笔记（含MySQL metastore伪分布式安装配置流程）

该笔记涉及代码：https://github.com/hackeryang/Hadoop-Exercises/tree/master/src/main/java/Hive一、介绍1.Hive是一个构建在

书忆江南·2024-01-09 13:52

Hive基础知识

1）Hive是基于Hadoop的一个数据仓库工具，将结构化的数据文件映射为一张数据库的数据表，并且提供类SQL查询功能。

巷子里的猫X·2024-01-09 13:52

大数据开发：Hive基础知识点介绍

Hadoop生态下的各个组件，Hive的出现是为了解决海量日志数据分析而诞生，最初出自Facebook，后来归到了Apache旗下进行开源，本质上来说，Hive是一个帮助提升数据处理的工具。

加米谷大数据张老师·2024-01-09 13:52

基于hadoop的hive数据仓库基础操作知识整理

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。

大包丫·2024-01-09 13:51

hive在mysql中总是不创建元数据库的解决办法

按照既往掉坑的经验，怀疑框架搭得不对、怀疑服务没启动、怀疑mysql驱动版本不对、怀疑hadoop和hive的guavajar包版本不一致、怀疑mysql服务没启动、怀疑元数据

黄道婆·2024-01-09 13:21

Hadoop的数据仓库Hive的基础知识和安装部署

1、数据仓库和Hive 数据仓库是为了协助分析报告，支持决策，为需要业务智能的企业提供业务流程的改进和指导，从而节省时间和成本，提高质量。它与数据库系统的区别是，数据库系统可以很好地解决事务处理，实现对数据的“增、删、改、查”操作，而数据仓库则是用来做查询分析的数据库，通常不会用来做单条数据的插入、修改和删除。 Hive主要应用于传统的数据仓库任务ETL（Extract‐Transformat

姠惢荇者·2024-01-09 13:21

Hive基础知识（四）：Hive 元数据配置到 MySQL

1.拷贝驱动将MySQL的JDBC驱动拷贝到Hive的lib目录下[zzdq@hadoop100software]$cp/home/atguigu/mysql-connector-java-5.1.37

依晴无旧·2024-01-09 13:50

hadoop分布式集群搭建

虚拟机准备虚拟机单机配置：内存4G，硬盘50G安装好linux/boot200M/swap2g/剩余*安装VMTools关闭防火墙sudoserviceiptablesstopsudochkconfigiptablesoff设置静态IP，改主机名编辑vim/etc/sysconfig/network-scripts/ifcfg-eth0改成=============================

麦田里的稻草人19994·2024-01-09 08:24

hadoop集群主从时间同步

1.时间服务器配置（必须root用户）（1）检查ntp是否安装[root@hadoop102桌面]#rpm-qa|grepntpntp-4.2.6p5-10.el6.centos.x86_64fontpackages-filesystem

麦田里的稻草人19994·2024-01-09 08:24

hadoop集群分发脚本

分发脚本xsync#!/bin/bash#1获取输入参数个数，如果没有参数，直接退出pcount=$#if((pcount==0));thenechonoargs;exit;fi#2获取文件名称#basename是去除目录后剩下的名字p1=$1fname=`basename$p1`echofname=$fname#3获取上级目录到绝对路径#dirname命令可以取给定路径的目录部分（一般指最后一个

麦田里的稻草人19994·2024-01-09 08:23

配置ssh免密登录

配置ssh免密登录ssh-keygen-trsassh-copy-iduser@servereg:ssh-copy-idhadoop102

麦田里的稻草人19994·2024-01-09 08:53

Hive操作命令上手手册

内容来自于《大数据Hive离线计算开发实战》Hive原理Hive是一个基于Hadoop的数据仓库和分析系统，用于管理和查询大型数据集。

枫叶梨花·2024-01-09 08:50

大数据平台比较-CDH、HDP、CDP

ApacheHadoop与CDH、HDP的比较一、Hadoop版本综述不收费的Hadoop版本主要有三个（均是国外厂商），分别是：Apache（最原始的版本，所有发行版均基于这个版本进行改进）Cloudera

Sql强·2024-01-09 07:24

大数据入门

好记星不如烂笔头，这里记录平时工作中用到的东西，不喜可以留言。大数据大数据最早我是16年左右听到的被吹嘘的很火，但具体是什么自己很模糊。目前自己的理解是，大数据是在传统的IT项目中增加了一个部门（大数据部门），主要是处理海量的一些非结构形数据，进行分析提取有用的一点数据放回到结构性数据库中，供决策者进行决策。大数据80%的使用场景都是让没有完成交易，促使客户完成，完成变现。大数据最早是谷歌Goog

Dazer007·2024-01-09 07:21

头歌：旅游网站之数据分析

关统计每个城市的宾馆平均价格packagecom.processdata;importjava.io.IOException;importjava.util.Scanner;importorg.apache.hadoop.conf.Configuration

爱吃肉的白熊·2024-01-09 07:32

hive的基本操作

最近新学了hive，想通过写文章的方式对所学知识进行巩固，同时希望可以帮助到大家Hive是基于Hadoop的一个数据仓库工具1.创建数据库（创建方法是和Mysql一样的）createdatabase数据库名字

暴打小赵·2024-01-09 06:49

实验6 熟悉Hive的基本操作

一、实验目的（1）理解Hive作为数据仓库在Hadoop体系结构中的角色。（2）熟练使用常用的HiveQL。

Z.Q.Feng·2024-01-09 06:47

1.2 Hadoop概述

小肥柴的Hadoop之旅1.2Hadoop概述目录1.2Hadoop概述1.2.1回归问题1.2.2Google的三篇论文1.2.3Hadoop的诞生过程1.2.4Hadoop特点简介参考文献和资料)目录

卷毛迷你猪·2024-01-09 06:47

hive基本操作与应用

1、通过hadoop上的hive完成WordCount启动hadoop2、Hdfs上创建文件夹/3、上传文件至hdfs4、启动Hive5、创建原始文档表6、导入文件内容到表docs并查看7、用HQL进行词频统计

weixin_34416649·2024-01-09 06:16

物理机搭建hive

一、修改Hadoop配置修改core-site.xml配置yarn-site.xml分发文件，然后重启集群二、Hive解压安装上传文件添加hive环境便量，source生效启动高可用集群，启动hive三

DIY……·2024-01-09 06:45

数仓分层结构

--日志数据--格式:JSON--业务数据--历史数据--格式:--全量--Datax:TSV--增量--Maxwell:JSON--汇总数据--希望用最少的资源存储最多的数据--压缩：--gzip：Hadoop

Young_IT·2024-01-09 06:40

大数据开发-某外包公司

varchar和char区别4.说下数据库的事务5.spark的部署模式有哪些6.数据库和数据仓库的区别7.内部表和外部表的区别8.说下数据中台、数据仓库和数据湖的区别9.说下公司的建模模型10.说下hadoop

劝学-大数据·2024-01-09 06:10

hadoop集群搭建、spark集群搭建、pyspark搭建（linux+window）

1、前言本文记录学习过程中Hadoop、zookeeper、spark集群搭建，主要为pyspark库服务（具体为window上pyspark环境和pyspark库，linux上spark框架、pyspark

Lfx_come on·2024-01-09 06:02

『HDFS』伪分布式Hadoop集群

博客引流本文是『Hadoop』MapReduce处理日志log(单机版)的旭文,maybe还有后续在搭建环境的时候发现很难搜到合适的教程，所以这篇应该会有一定受众伪分布式就是假分布式，假在哪里，假就假在他只有一台机器而不是多台机器来完成一个任务

gunjianpan·2024-01-09 04:31

Hadoop3.3.5云服务器安装教程-单机/伪分布式配置

系列文章目录华为云服务器试用领取领取的试用云服务器在哪Hadoop3.3.5云服务器安装教程-单机/伪分布式配置文章目录系列文章目录创建hadoop用户更新apt安装SSH、配置SSH无密码登陆安装Java

柔雾·2024-01-08 21:48

2021-11-22 Zookeeper Shell脚本

/bin/bashcase$1in"start"){foriinhadoop102hadoop103hadoop104doecho----------zookeeper$i启动------------ssh

不爱吃奶昔（zsl0）·2024-01-08 19:12

hadoop/etc/hadoop 下没有mapred-site.xml，只有mapred.xml.template

默认情况下，/usr/local/hadoop/etc/hadoop/文件夹下有mapred.xml.template文件，我们要复制该文件，并命名为mapred.xml，该文件用于指定MapReduce

比特小怪兽·2024-01-08 19:34

hadoop命令汇总

启动和关闭hadoop服务一键启动/停止start-hdf.shstop-hdf.sh单进程关闭启动hdfs--daemonstop/start/statusnamenode或者hadoop--daemonstop

你很棒滴·2024-01-08 19:17

HDFS常用命令（方便大家记忆版）

1.文件操作(1)列出HDFS下的文件/usr/local/hadoop$bin/hadoopdfs-ls(2)列出HDFS文件下名为in的文档中的文件/usr/local/hadoop$bin/hadoopdfs-lsin

姚兴泉·2024-01-08 18:01

Hidataplus-3.3.2.0-005公测版本基于openEuler release 22.03 (LTS-SP2)的测试

测试角色如下：hadoop、yarn、zookeeper、hive、impala。

杨航的技术博客·2024-01-08 16:35

给Hadoop初学者的一些建议

零基础学习hadoop,没有想象的那么困难，也没有想象的那么容易。从一开始什么都不懂，到能够搭建集群，开发。整个过程，只要有Linux基础，虚拟机化和java基础，其实hadoop并没有太大的困难。

丨程序之道丨·2024-01-08 15:29

大数据技术期末复习第七章——MapReduce练习

A、Map函数将输入的元素转换成形式的键值对B、Hadoop框架是用Java实现的，MapReduce应用程序则一定要用Java来写C、不同的Map任务之间不能互相通信D、MapReduce框架采用了Master

锦鲤儿·2024-01-08 12:01

Hadoop学习之路（四）HDFS 读写流程详解

1.HDFS写操作1.1图解HDFS读过程hdfs写操作流程图.pngimage.png1.2数据写入过程详解1、使用HDFS提供的客户端Client,向远程的NameNode发起RPC请求；2、NameNode会检查要创建的文件是否已经存在，创建者是否有权限进行操作，成功则会为文件创建一个记录，否则会让客户端抛出异常；3、当客户端开始写入文件的时候，客户端会将文件切分为多个packets，并在内

shine_rainbow·2024-01-08 12:21

Win10环境下Hadoop(单节点伪分布式)的安装与配置--bug(yarn的8088端口打不开+)

Win10环境下Hadoop(单节点伪分布式)的安装与配置--bug(yarn的8088端口打不开+)一、本文思路【1】、配置java环境–JDK12（Hadoop的底层实现语言是java,hadoop

老妹儿的·2024-01-08 11:19

实战Flink Java api消费kafka实时数据落盘HDFS

flink版本1.13kafka版本0.8hadoop版本3.1.42实验过程2.1启动服务程序为了完成Flink从Kafka消费数据

大数据程序终结者·2024-01-08 11:13

JanusGraph简介

JanusGraph支持Hadoop框架，并能够利用Hadoop对图进行大批量的处理和分

娃娃学软件·2024-01-08 10:15

大数据 Yarn - 资源调度框架

Hadoop主要是由三部分组成，除了前面我讲过的分布式文件系统HDFS、分布式计算框架MapReduce，还有一个是分布式集群资源调度框架Yarn。

善守的大龙猫·2024-01-08 10:48

Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集【Updating】 (转)

我爱大海V5·2024-01-08 08:15

《深入理解Hadoop（原书第2版）》——2.4 Hadoop 2.0

本节书摘来自华章计算机《深入理解Hadoop（原书第2版）》一书中的第2章，第2.4节，作者[美]萨米尔·瓦德卡（SameerWadkar），马杜·西德林埃（MadhuSiddalingaiah），杰森

weixin_34174322·2024-01-08 08:44

推荐频道

大数据入门-hadoop