E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hdfs
Flume实时读取本地/目录文件到
HDFS
目录一、准备工作二、实时读取本地文件到
HDFS
(一)案例需求(二)需求分析(三)实现步骤三、实时读取目录文件到
HDFS
(一)案例需求(二)需求分析(三)实现步骤一、准备工作Flume要想将数据输出到
HDFS
Francek Chen
·
2024-01-09 18:38
大数据技术基础
flume
hdfs
大数据
6.1.CentOS7下安装Sqoop安装与使用
(持续更新中…)推荐系统基础文章目录python编程快速上手(持续更新中…)推荐系统基础一、Sqoop介绍二、Sqoop原理三、Sqoop安装事前准备安装包解压安装四、Sqoop使用1、MySQL->
HDFS
2
IT瘾君
·
2024-01-09 15:29
推荐系统-大数据
sqoop
mysql
hadoop
sqoop 安装与使用
1.上传sqoop2.安装和配置在添加sqoop到环境变量将数据库连接驱动拷贝到$SQOOP_HOME/lib里3.使用第一类:数据库中的数据导入到
HDFS
上sqoopimport--connectjdbc
麦香鸡翅
·
2024-01-09 15:27
hadoop
Hive基础知识(一):Hive入门与Hive架构原理
2)Hive本质:将HQL转化成MapReduce程序(1)Hive处理的数据存储在
HDFS
(2)Hive分析数据底层的实现是MapReduce(3)执行程序运行在Yarn上2.Hive的
依晴无旧
·
2024-01-09 13:25
大数据
hive
架构
hadoop
Hive基础知识(个人总结)
Hive的特点:Hive的执行延迟比较高,不支持直接修改,只能进行insertowewrite覆盖迭代式算法无法表达Hive架构:Hive和数据库比较Hive并不是数据库,自身没有存储数据的能力;本质是
HDFS
hellosrc | forward
·
2024-01-09 13:54
Hive
大数据
1024程序员节
hive
大数据
hive基础知识大全
一、Hive基本概念1.1hive是什么hive是基于hadoop的一个数仓分析工具,hive可以将
hdfs
上存储的结构化的数据,映射成一张表,然后让用户写HQL(类SQL)来分析数据telupdown138383843813451567138383843953451567138383844012411657713838384413453157571383838434353551567567
不爱吃鱼的馋猫
·
2024-01-09 13:23
hive
数据仓库
Hive基础知识
2)其本质是将SQL语句转换为MapReduce/Spark程序进行运算,底层数据由
HDFS
分布式文件系统进行存储。3)可以理解Hive就是MapReduce/SparkSql的客户端。
巷子里的猫X
·
2024-01-09 13:52
数据分析
hive
大数据
hadoop
Hive 基础知识
1.Hive和HBase的区别HBase是一个用来处理
HDFS
上文件的NoSQL数据库,建立于
HDFS
之上。
辰阳星宇
·
2024-01-09 13:22
#
Hive
hive
hadoop
big
data
基于hadoop的hive数据仓库基础操作知识整理
Hive本质:将HQL转化成MapReduce程序Hive处理的数据存储在
HDFS
Hive分析数据底层的实现是MapReduce执行程序运行在Yarn上1.2Hive的优
大包丫
·
2024-01-09 13:51
hadoop
hive
大数据
PySpark的RDD持久化
是依照血缘关系,使用持久化技术->1.RDD缓存,把某个RDD保留,rdd.cache()缓存到内存,rdd.persist(StorageLevel.DISK_ONLY_2)缓存到本地硬盘上,2个副本,不支持存
HDFS
February13
·
2024-01-09 07:32
java
开发语言
hive基本操作与应用
1、通过hadoop上的hive完成WordCount启动hadoop2、
Hdfs
上创建文件夹/3、上传文件至
hdfs
4、启动Hive5、创建原始文档表6、导入文件内容到表docs并查看7、用HQL进行词频统计
weixin_34416649
·
2024-01-09 06:16
大数据
Hive基本操作
hive简单认识Hive是建立在
HDFS
之上的数据仓库,所以Hive的数据全部存储在
HDFS
上。
X晓
·
2024-01-09 06:45
hive
big
data
mysql
大数据开发-某外包公司
1.用过那些组件2.说下
HDFS
读写流程3.说下varchar和char区别4.说下数据库的事务5.spark的部署模式有哪些6.数据库和数据仓库的区别7.内部表和外部表的区别8.说下数据中台、数据仓库和数据湖的区别
劝学-大数据
·
2024-01-09 06:10
个人面试真题记录
大数据
python虚拟环境可以运行pyspark_pyspark 与 python 环境配置
本篇主要介绍通过anaconda创建虚拟环境,并打包上传到
hdfs
目录。1.Anaconda安装bash~/Downloads/Anaconda2-5.0.1-Linux-x86_64.sh#如
weixin_39663729
·
2024-01-09 06:33
『
HDFS
』伪分布式Hadoop集群
博客引流本文是『Hadoop』MapReduce处理日志log(单机版)的旭文,maybe还有后续在搭建环境的时候发现很难搜到合适的教程,所以这篇应该会有一定受众伪分布式就是假分布式,假在哪里,假就假在他只有一台机器而不是多台机器来完成一个任务,但是他模拟了分布式的这个过程,所以伪分布式下Hadoop也就是你在一个机器上配置了hadoop的所有节点但伪分布式完成了所有分布式所必须的事件伪分布式Ha
gunjianpan
·
2024-01-09 04:31
配置日志聚集
所谓日志聚集,就是指应用运行完以后,将程序的运行日志信息上传到
HDFS
系统上。日志聚集可以方便的查看程序的运行详情,方便开发调试。
Manfestain
·
2024-01-08 21:30
hadoop命令汇总
启动和关闭hadoop服务一键启动/停止start-hdf.shstop-hdf.sh单进程关闭启动
hdfs
--daemonstop/start/statusnamenode或者hadoop--daemonstop
你很棒滴
·
2024-01-08 19:17
hadoop
hdfs
大数据
HDFS
常用命令(方便大家记忆版)
1.文件操作(1)列出
HDFS
下的文件/usr/local/hadoop$bin/hadoopdfs-ls(2)列出
HDFS
文件下名为in的文档中的文件/usr/local/hadoop$bin/hadoopdfs-lsin
姚兴泉
·
2024-01-08 18:01
python3使用py
hdfs
向
hdfs
中上传文件示例
1概述本文为使用py
hdfs
包向
hdfs
中上传文件。主要用来测试
hdfs
当前服务的状态。同时,脚本支持namenodeha的方式。2包安装pip3install
hdfs
3脚本示例#!
杨航的技术博客
·
2024-01-08 16:11
常用脚本
hdfs
hadoop
python
Hadoop学习之路(四)
HDFS
读写流程详解
1.
HDFS
写操作1.1图解
HDFS
读过程
hdfs
写操作流程图.pngimage.png1.2数据写入过程详解1、使用
HDFS
提供的客户端Client,向远程的NameNode发起RPC请求;2、NameNode
shine_rainbow
·
2024-01-08 12:21
实战Flink Java api消费kafka实时数据落盘
HDFS
启动kafka生产3JavaAPI开发3.1依赖3.2代码部分4实验验证STEP1STEP2STEP35时间窗口1需求分析在Javaapi中,使用flink本地模式,消费kafka主题,并直接将数据存入
hdfs
大数据程序终结者
·
2024-01-08 11:13
flink
java
kafka
大数据 Yarn - 资源调度框架
Hadoop主要是由三部分组成,除了前面我讲过的分布式文件系统
HDFS
、分布式计算框架MapReduce,还有一个是分布式集群资源调度框架Yarn。
善守的大龙猫
·
2024-01-08 10:48
大数据
大数据
【技术分享】Hbase列式存储入门
分布式是因为HBase底层使用
HDFS
存储数据,可扩展也是基于
HDFS
的横向扩展能力,作为大数据的存储当然支持海量数据的存储,NoSQL非关系型数据库表结构和关系型数据库(如Mysql)的逻辑结构、物理结构很不一样
yestolife123
·
2024-01-08 08:44
笔记
Spark基础二
一.Spark入门案例总结1.读取文件:textFile(path):读取外部数据源,支持本地文件系统和
hdfs
文件系统.2.将结果数据输出文件上:saveAsTextFile(path):将数据输出到外部存储系统
MSJ3917
·
2024-01-08 07:52
spark
大数据
分布式
Hadoop精选18道面试题(附回答思路)
1.简述Hadoop1和Hadoop2的架构异同
HDFS
HA(HighAvailablity)一旦Active节点出现故障,就可以立即切换到Standby节点,避免了单点故障问题。
Byyyi耀
·
2024-01-08 06:00
hadoop
大数据
分布式
25、Spark核心编程之RDD持久化详解
不使用RDD持久化的问题首先看一段代码JavaRDDlinesRDD=javaSparkContext.textFile("
hdfs
://hadoop-100:9000/testdate/1.txt")
ZFH__ZJ
·
2024-01-07 23:21
hadoop调优
hadoop调优1
HDFS
核心参数1.1NameNode内存生产配置1.1.1NameNode内存计算每个文件块大概占用150byte,如果一台服务器128G,能存储的文件块如下128(G)*1024(
健鑫.
·
2024-01-07 18:25
Hadoop
hadoop
hdfs
大数据
hadoop调优(二)
hadoop调优(二)1
HDFS
故障排除1.1NameNode故障处理NameNode进程挂了并且存储数据丢失了,如何恢复NameNode?
健鑫.
·
2024-01-07 18:25
Hadoop
hadoop
大数据
hdfs
熟悉
HDFS
常用操作
1.利用Hadoop提供的Shell命令完成下列任务(1)向
HDFS
中上传任意文本文件,如果指定的文件在
HDFS
中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件。#检查文件是否存在.
cwn_
·
2024-01-07 17:11
大数据
hdfs
hadoop
大数据
linux
虚拟机
Hive入门
Hive产生的原因:非Java编程者可通过sql语句对
HDFS
的数据做mapreduce操作。
爱过java
·
2024-01-07 17:04
hive
HIve技术详解(一)
第1章Hive基本概念1.1Hive1.1.1Hive的产生背景在那一年的大数据开源社区,我们有了
HDFS
来存储海量数据、MapReduce来对海量数据进行分布式并行计算、Yarn来实现资源管理和作业调度
molecule_jp
·
2024-01-07 17:34
hive
hadoop
大数据
后端
Hive实战:网址去重
文章目录一、实战概述二、提出任务三、完成任务(一)准备数据1、在虚拟机上创建文本文件2、上传文件到
HDFS
指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于
HDFS
howard2005
·
2024-01-07 17:03
数仓技术Hive入门
hive
去重
数仓工具—Hive进阶之常见的StorageHandler(24)
以下是一些常见的存储处理程序:
HDFS
StorageHa
不二人生
·
2024-01-07 15:07
#
Hive
hive
hadoop
数据仓库
学习笔记-日志采集和实时分析简单实例
一个出口直接写到ElasticSearch,提供Kibana进行日志分析可视化处理;一个出口直接写到
HDFS
,提供后期离线统计分析处理;一个出口写入Kafka中,提供SparkStreaming进行近实时日志统计分析处理
人生偌只如初见
·
2024-01-07 13:27
Spark
Kafka
ElasticSearch
Filebeat
Logstash
Kafka
Spark
Hadoop分布式文件系统(二)
目录一、Hadoop1、文件系统1.1、文件系统定义1.2、传统常见的文件系统1.3、文件系统中的重要概念1.4、海量数据存储遇到的问题1.5、分布式存储系统的核心属性及功能含义2、
HDFS
2.1、
HDFS
杀神lwz
·
2024-01-07 11:19
大数据
hadoop
大数据
分布式
数仓工具—Hive内部表和外部表(5)
managedtable),被external修饰的为外部表(externaltable);因为默认情况下我们不加external关键字修饰,所以默认情况下是内部表区别:内部表数据由Hive自身管理,外部表数据由
HDFS
不二人生
·
2024-01-07 07:42
#
Hive
大数据
hive
面试
数据仓库
Spark大数据分析与实战笔记(第二章 Spark基础-05)
文章目录每日一句正能量前言2.5启动Spark-Shell2.5.1运行Spark-Shell命令2.5.2运行Spark-Shell读取
HDFS
文件后记每日一句正能量成长是一条必走的路路上我们伤痛在所难免
想你依然心痛
·
2024-01-07 06:33
spark
数据分析
笔记
大数据编程期末大作业
大数据编程期末大作业文章目录大数据编程期末大作业一、Hadoop基础操作二、RDD编程三、SparkSQL编程四、SparkStreaming编程一、Hadoop基础操作在
HDFS
中创建目录/user/
-北天-
·
2024-01-07 05:20
大数据学习
大数据
课程设计
hadoop
Hive的基本的概述即使用参考
√本质:其本质是将SQL转换为MapReduce的任务进行运算,底层由
HDFS
来提供数据的存储,hive可以理解为一个将S
C8H11O2N_4cd4
·
2024-01-07 02:29
记Flume-NG一些注意事项
记Flume-NG一些注意事项(不定时更新,欢迎提供信息)这里只考虑flume本身的一些东西,对于JVM、
HDFS
、HBase等得暂不涉及。。。。
达微
·
2024-01-06 19:46
《Hive系列》Hive详细入门教程
Hive本质将HSQL转化成MapReduce程序Hive处理的数据存储在
HDFS
Hive分析数据底层实现的是MR执行程序运行在Yarn上1.2Hive的优缺点1.2.1
DATA数据猿
·
2024-01-06 17:55
Hive
hive
Flume基础知识(九):Flume 企业开发案例之复制和多路复用
1)案例需求使用Flume-1监控文件变动,Flume-1将变动内容传递给Flume-2,Flume-2负责存储到
HDFS
。
依晴无旧
·
2024-01-06 17:58
大数据
flume
大数据
Flume基础知识(六):Flume实战之实时监控目录下的多个追加文件
1)案例需求:使用Flume监听整个目录的实时追加文件,并上传至
HDFS
2)需求分析:3)实现步骤:(1)创建配置文件flume-taildir-
hdfs
.c
依晴无旧
·
2024-01-06 17:28
大数据
flume
大数据
高可用分布式部署Spark、完整详细部署教程
Spark基于mapreduce算法实现的分布式计算,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写
HDFS
,因此Spark
一座野山
·
2024-01-06 16:15
spark
bigdata
hadoop
分布式
spark
大数据
linux
SuperMap分布式数据库实操
分布式数据库实操分布式数据库一、MongoDB1.特点2.使用原理3.数据结构4.单节点部署1.下载2.解压安装3.配置开机自启动5.集群部署5.1主从复制集群5.2副本集集群安装部署配置开机自启动5.3分片集群二、DSF(
HDFS
会灭火的程序员
·
2024-01-06 15:42
SuperMap
数据库
数据库
分布式
mongodb
hdfs
hbase
HDFS
的高可用性
HDFS
的高可用性联邦
hdfs
由于namenode在内存中维护系统中的文件和数据块的映射信息,所以对于一个海量文件的集群来说,内存将成为系统横向扩展瓶颈。
zh_harry
·
2024-01-06 10:25
Hive实战:分科汇总求月考平均分
文章目录一、实战概述二、提出任务三、完成任务(一)准备数据1、在虚拟机上创建文本文件2、上传文件到
HDFS
指定目录(二)实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、创建分区的学生成绩表
howard2005
·
2024-01-06 10:48
数仓技术Hive入门
hive
hadoop
分科汇总
Hadoop: 访问
hdfs
报错Failed on local exception: com.google.protobuf.InvalidProtocolBufferExceptio
可能是
hdfs
端口配置的不是默认的9000,
hdfs
getconf-confkeyfs.default.name可以查看端口
amadeus_liu2
·
2024-01-06 08:00
Hadoop
DataX部署及迁移操作说明
DataX安装部署1、DataX简介DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、
HDFS
、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能
曹弘毅
·
2024-01-06 06:11
datax
文件查找find命令
-user
hdfs
find.
曹弘毅
·
2024-01-06 06:10
Shell
运维
上一页
8
9
10
11
12
13
14
15
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他