E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop学习篇
【基础知识】大数据组件YARN简述
YARN是
Hadoop
系统的核心组件,主要功能包括负责在
Hadoop
集群中的资源管理,负责对作业进行调度运行以及监控。
偏振万花筒
·
2023-12-23 22:28
大数据
Hive文件存储与压缩
压缩和存储1、
Hadoop
压缩配置1)MR支持的压缩编码压缩格式工具算法文件扩展名是否可切分DEFAULT无DEFAULT.deflate否GzipgzipDEFAULT.gz否bzip2bzip2bzip2
新鲜氧气
·
2023-12-23 22:24
大数据
#
hive
#
hadoop
hive
hadoop
数据仓库
浅谈
Hadoop
容错机制
简单介绍一下
Hadoop
中数据存储的可靠性和完整性,其中包括HDFS的容错机制、NameNode(元数据结点)的单点失效解决机制、Block数据块的多副本存储机制、NameNode与DataNode之间的心跳检测机制
小小少年Boy
·
2023-12-23 15:19
Docker 学习笔记
开发–运维问题,环境配置是十分麻烦,每一个机器都要部署环境(Redis,Es,
Hadoop
)费时费力发布一个项目(jar+(RedisMysqljdkes))项目能不能都带上环境安装打包之前在服务器配置一个应用的环境
IT小学僧
·
2023-12-23 14:19
docker
docker
MINIO在java中的使用
对象存储可以充当主存储层,以处理Spark、Presto、TensorFlow、H2O.ai等各种复杂工作负载以及成为
Hadoop
HDFS的替代品--------引自官网的话。
IT小学僧
·
2023-12-23 14:48
MinIo
Java
java
spring
boot
通过HDFS API进行HDFS操作
HDFSJavaAPI位于org.apache.
hadoop
.fs包中,这些API能够支持的操作包括打开文件、读写文件、删除文件等。
Hadoop
类库中最终面向用户提供的接口类是FileSystem。
CDHong.it
·
2023-12-23 14:30
Hadoop大数据
Java基础
hadoop
hdfs
大数据
Hadoop
_HDFS_API 创建文件夹
创建文件夹在文件夹里输入代码,创建文件夹客户端代码常用套路1、获取一个客户端对象2、执行相关的操作指令3、关闭资源代码如下:packagecom.atguigu.hdfs;importorg.apache.
hadoop
.conf.Configuration
笨鸟先-森
·
2023-12-23 14:29
hadoop
hdfs
java
Hadoop
之HDFS的API操作
1、环境准备1.1、下载window版本的
hadoop
-3.1.01.2、配置
HADOOP
_HOME环境变量1.2、配置Path环境变量2、代码演示2.1、创建maven项目,导入pom坐标org.apache.
hadoop
hadoop
-client3.1.3junitjunit4.12org.slf4jslf4j-log4j121.7.302.2
后端技术那点事
·
2023-12-23 14:28
大数据系列
hadoop
hdfs
big
data
Hadoop
学习之HDFS(HDFS客户端及API操作)心得
HDFS客户端及API操作:一、准备条件:1.配置环境变量
HADOOP
_HOME(路径要求非中文)2.验证环境变量,双击winutils.exe(报错可能是缺少微软运行库MSVCR120.dll)3.在
顺其自然的济帅哈
·
2023-12-23 14:58
Hadoop
hadoop
hdfs
大数据—
Hadoop
(四)_ HDFS_03、客户端API
文章目录1、客户端环境准备1.1idea1.2window依赖2、HDFS的API案例实操2.1HDFS文件上传(测试参数优先级)2.1.1客户端代码常用套路2.1.2普通版2.1.3优化后2.1.4上传文件,修改@Test2.1.5补充:API参数优先级(由低到高)2.1.5.1hdfs-default.xml(最低)2.1.5.2hdfs-site.xml2.1.5.3代码中的配置(最高)2.
大数据之负
·
2023-12-23 14:58
Hadoop
hadoop
hdfs
大数据
Hadoop
中HDFS的API操作、客户端环境准备、配置
HADOOP
_HOME环境变量
文章目录7.HDFS的API操作7.1客户端环境准备7.1.1下载下面的Windows依赖文件夹,拷贝
hadoop
-3.1.0到非中文路径(比如d:\)7.1.2配置
HADOOP
_HOME环境变量7.1.3
Redamancy_06
·
2023-12-23 14:27
#
Hadoop
hadoop
hdfs
大数据
hadoop
02_HDFS的API操作
HDFS的API操作1HDFS核心类简介Configuration类:处理HDFS配置的核心类。FileSystem类:处理HDFS文件相关操作的核心类,包括对文件夹或文件的创建,删除,查看状态,复制,从本地挪动到HDFS文件系统中等。Path类:处理HDFS文件路径。IOUtils类:处理HDFS文件读写的工具类。2HDFS文件处理类FileSystem的核心方法介绍:1.FileSystemg
程序喵猴
·
2023-12-23 14:57
hadoop
hdfs
hadoop
大数据
Koordinator 支持 K8s 与 YARN 混部,小红书在离线混部实践分享
背景介绍Koordinator是一个开源项目,基于阿里巴巴在容器调度领域多年累积的经验孵化诞生,目前已经支持了K8s生态内的在离线混部,然而在K8s生态外,仍有相当数量的用户会将大数据任务运行在Apache
Hadoop
YARN
阿里云云原生
·
2023-12-23 13:28
kubernetes
容器
云原生
Koordinator
DBeaver连接hive
1.新建hive连接其中主机填写hive所在节点地址,端口10000为默认,数据库名不填则是默认default数据库,用户名密码填写
hadoop
集群中能操作hdfs的用户和密码。
sunweiking
·
2023-12-23 12:38
hive
hive
hadoop
数据仓库
Hadoop
之Yarn
Yarn是
Hadoop
2.0引入的集群资源管理系统。用户可以将各种服务框架部署在Yarn上,由Yarn进行统一地管理和资源分配。
TZX_0710
·
2023-12-23 12:27
【数仓_01】用户行为采集平台
具体版本1.6集群规模2、用户行为数据生成2.1目标数据2.2埋点3、模拟数据3.1使用说明3.2集群日志生成脚本4、用户行为数据采集模块4.1数据通道4.2环境准备4.2.1集群所有进程查看脚本4.3
Hadoop
温欣2030
·
2023-12-23 10:43
hadoop
C语言/C++编程
学习篇
,干货知识分享,运算符和表达式
C语言是面向过程的,而C++是面向对象的C和C++的区别:C是一个结构化语言,它的重点在于算法和数据结构。C程序的设计首要考虑的是如何通过一个过程,对输入(或环境条件)进行运算处理得到输出(或实现过程(事务)控制)。C++,首要考虑的是如何构造一个对象模型,让这个模型能够契合与之对应的问题域,这样就可以通过获取对象的状态信息得到输出或实现过程(事务)控制。所以C与C++的最大区别在于它们的用于解决
小辰带你看世界
·
2023-12-23 09:46
ElasticSearch
学习篇
9_文本相似度计算方法现状以及基于改进的 Jaccard 算法代码实现
背景XOP亿级别题库的试题召回以及搜题的举一反三业务场景都涉及使用文本相似搜索技术,学习此方面技术以便更好的服务于业务场景。目前基于集合的Jaccard算法以及基于编辑距离的Levenshtein在计算文本相似度场景中有着各自的特点,为了优化具体的计算时间抖动超时问题,需要学习此方面知识,本文主要内容为文本相似度计算方法的现状、Jaccard、Levenshtein算法实现基本原理以及代码实现论文
scl、
·
2023-12-23 08:43
#
ElasticSearch
elasticsearch
学习
算法
文本相似性
改进Jaccard
莱温斯坦距离
hadoop
(十二)——自定义分区Partitioner
我们学习Partitioner不用举那么复杂的例子,就举一个简单的例子就好了,在第十二节课学习了一个DataCount的小例子,地址:http://blog.csdn.net/u012453843/article/details/52600313我们就在这个程序的基础上加上我们自定义的分区功能。我们先来看看DataCount这个程序最终的执行结果是什么样子的,在查看之前我们需要先启动hdfs和ya
文子轩
·
2023-12-23 08:05
1.7 LUCENE
总目录:https://www.jianshu.com/p/e406a9bc93a9
Hadoop
-子目录:https://www.jianshu.com/p/9428e443b7fdLUCENE搜索技术理论基础全文搜索在最开始
寒暄_HX
·
2023-12-23 08:32
【Hive】在博客系统中如何应用 Hive 进行离线数据管理
Hive是一个构建在
Hadoop
之上的数据仓库基础设施,它提供了类似SQL的查询语言HiveQL,使用户能够
小吴同学GOGOGO
·
2023-12-23 06:54
hive
数据仓库
大数据
hadoop
【
hadoop
|报错】Cannot modify tez.queue.name at runtime. It is not in list of params that are allowed ...
报错内容:报错分析:hdp3.0.0的hive为3.0.0以上,运行引擎为tez,需要添加参数,让tez前缀的配置生效hive.security.authorization.sqlstd.confwhitelistmapred.*|hive.*|mapreduce.*|spark.*|tez*hive.security.authorization.sqlstd.confwhitelist.appe
维运
·
2023-12-23 06:10
大数据Hadoop
hadoop
大数据
分布式
apache
hadoop
单机伪分布式安装说明
u013248911/article/details/826225382、运行sbin/start-all.sh前检查tmp文件路径是否存在,是否有权限访问3、运行sbin/start-all.sh前先格式化话
hadoop
namenod
行动家嘘嘘
·
2023-12-23 05:56
在自己电脑配置cdh 版
hadoop
提交mr job客户端
image.png1.首先下载与我们cdh
hadoop
集群对应的
hadoop
安装文件
hadoop
-2.6.0-cdh5.14.2.tar.gz链接:https://pan.baidu.com/s/1iHm5M-gGZRWLKbzVjbYJmA
Helen_Cat
·
2023-12-23 04:51
最新版本——
Hadoop
3.3.6单机版完全部署指南
本文基于最新的
Hadoop
3.3.6的版本编写,带大家通过单机版充分了解Apache
Hadoop
的使用。
大数据流动
·
2023-12-23 01:24
数据中心建设之——理解基于
Hadoop
生态的大数据技术架构
基于
Hadoop
生态的大数据技术架构:1.从应用层面看,除了应用在互联网行业以外(马*说,未来没有一个行业叫互联网行业,所有的传统行业都将是互联网技术的使用行业),一般在零售行业使用居多,也要看企业的营收和人效
Terry谈企业数字化
·
2023-12-23 00:00
企业架构
大数据
Hbase2.1 集群搭建
>Hbase在大数据的体系中扮演着DB角色,不得不说是重要的一员,在上一篇,大猪已经给大家演示了[
Hadoop
3.2集群搭建](https://www.jianshu.com/p/3182aaff918d
kikiki4
·
2023-12-22 22:56
华纳云:怎么通过Apache Hudi和Alluxio建设高性能数据湖
ApacheHudi(
Hadoop
UpsertsDeletesandIncrementals)和Alluxio都是用于构建高性能数据湖的强大工具,它们可以在存储和处理大规模数据时提供更好的性能和灵活性。
华纳云IDC服务商
·
2023-12-22 19:53
apache
Hadoop
之 MapReduce
1MapReduce概述MapReduce是一个分布式运算程序的编程框架,是用户开发基于
Hadoop
的数据分析应用的核心框架。
djm猿
·
2023-12-22 18:17
Partitioner与自定义Partitioner
在一些集群应用中,例如分布式缓存集群中,缓存的数据大多都是靠哈希函数来进行数据的均匀分布的,在
Hadoop
中也不例外。image.png
Hadoop
内置Parti
piziyang12138
·
2023-12-22 15:09
【
hadoop
】解决浏览器不能访问
Hadoop
的50070、8088等端口?!
【
hadoop
】解决浏览器不能访问
Hadoop
的50070、8088等端口?!前言【
hadoop
】解决浏览器不能访问
Hadoop
的50070、8088等端口?!
博客小梦
·
2023-12-22 15:09
玩转LInux操作系统
hadoop
大数据
分布式
hadoop
集群的开启与关闭
背景很久没完
hadoop
l,连怎么开启关闭都不会了qwq1.进入安装
hadoop
的目录我这里是已经进入了2.开启集群sbin/start-dfs.sh3.关闭集群sbin/stop-dfs.sh
JSU_曾是此间年少
·
2023-12-22 13:41
hadoop
大数据
分布式
【架构】kylin 的工作原理及使用方法
ApacheKylin是一个开源的SQL查询引擎,它允许在
Hadoop
生态系统内执行SQL查询语句。它主要用于大数据分析,能够实现对大数据集的快速查询。
奔向理想的星辰大海
·
2023-12-22 13:03
大数据
架构
Apache
kylin
apache
中间件
大数据
Hadoop
伪分布式部署
准备工具:CentOS-6.4-x86_64-bin-DVD1.iso;
hadoop
-2.7.3-src.tar.gz;jdk-8u151-linux-x64.tar.gz;apache-maven-3.0.5
码戈
·
2023-12-22 11:37
Oracle数据库概述、SQL plus的使用、SQL分类
如redis、
hadoop
(hbase)等2.Oracle数据库概述O
特亿安
·
2023-12-22 11:20
Oracle数据库
oracle
sql
提升学习能力
读书记录四1803011186~小Jane12.30-13.30书名:好好
学习篇
目:提升学习能力的三个底层方法001反思002以教为学01三人行必有我师。
肖肖小太阳
·
2023-12-22 11:16
二,Hive运行机制与使用
hive介绍hive是基于
Hadoop
的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
__元昊__
·
2023-12-22 11:30
大数据指标中台构建核心技术解析
自2009年开始基于
Hadoop
构建数据分析及运维相关工作。在2
王知无(import_bigdata)
·
2023-12-22 11:56
大数据
Kafka核心逻辑介绍 | 京东云技术团队
分布式消息系统(kafka2.8.0版本之后接触了对zk的依赖,使用自己的kRaft做集群管理,新增内部主体@metadata存储元数据信息),它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于
hadoop
京东云开发者
·
2023-12-22 09:33
技术分享
云计算
kafka
京东云
linq
Zookeeper3.8.0集群部署
部署Zookeeper2.1、修改配置2.2、配置环境变量2.3、启动1、环境准备集群部署zookeeper的节点数只能是奇数,在此部署3节点zookeeper集群,节点环境如下:主机名IP架构操作系统
hadoop
01192.168.194.133x86
架构与我
·
2023-12-22 09:21
大数据
linux
java
centos
zookeeper
hadoop
数据库课程总结--人大-中国mooc
新技术篇主要讲大数据相关的
Hadoop
框架和算法。关于SQL语句和数据库原理的理解,看视频和听例子解释比较快;实践是自己
LeeMin_Z
·
2023-12-22 09:30
hadoop
使用openJ9报错:unable to find LoginModule class: com.ibm.security.auth.module.LinuxLoginModule解决
为了节约内存,使用IBMJ9JDK跑
Hadoop
2.10.2,出现以下错误org.apache.
hadoop
.security.KerberosAuthException:failuretologin:
applebomb
·
2023-12-22 09:56
大数据
hadoop
openj9
jdk
hive
java
【湖仓一体尝试】MYSQL和HIVE数据联合查询
先来个完工环境照:mysql+
hadoop
+hive+flink+iceberg+trino得益于IBMOPENJ9的优化,完全启动后的内存占用:1)执行联合查询后的2)其中trino由于必须使用ORACLE
applebomb
·
2023-12-22 08:24
hadoop
hive
flink
iceberg
trino
01-黑马程序员大数据开发
一.
Hadoop
概述1.什么是大数据狭义上:对海量数据进行处理的软件技术体系广义上:数字化、信息化时代的基础支撑,以数据为生活赋2.大数据的核心工作:存储:妥善保存海量待处理数据;ApacheKUDU
S1406793
·
2023-12-22 08:06
大数据开发
大数据
centos spark单机版伪分布式模式
1.2Spark部署依赖SparkStandalone的运行依赖于JDK、Scala,本来是不依赖于
Hadoop
的,但Spark自带的许多演示程序都依赖于
Hadoop
HDFS,因此我们也部署了伪分布式的
数据萌新
·
2023-12-22 07:17
Hbase的安装配置
注:本文默认已经完成
hadoop
的下载以及环境配置1.上传zookeeper和hbase压缩包到指令路径并且解压(理论上讲,hbase其实内置了zookeeper,我们也可以不另外下载,另外下载的目的在于减少组件间依赖性
printcsr
·
2023-12-22 07:15
hbase
hive报metadata.HiveException: Hive Runtime Error while processing row (tag=0)错误
今天跑一条统计的SQL出现Causedby:org.apache.
hadoop
.hive.ql.metadata.HiveException:HiveRuntimeErrorwhileprocessingrow
weixin_42412645
·
2023-12-22 07:45
hive
hive
tag=0
远程连接:hive 报错:Permission denied: user=anonymous, access=EXECUTE
远程连接hiveError:Failedtoopennewsession:java.lang.RuntimeException:java.lang.RuntimeException:org.apache.
hadoop
.security.AccessControlException
serendipityLee
·
2023-12-22 07:45
hive
hive
hadoop
linux
hive 插入数据报错 org.apache.
hadoop
.hive.ql.metadata.HiveException: org.apache.thrift.transport.TTransport
问题描述执行语句createtabletest(idint);然后向新创建的表中插入数据insertintotestvalues(1);控制台报错org.apache.
hadoop
.hive.ql.metadata.HiveException
云端筑梦 .
·
2023-12-22 07:13
hive
hive
org.apache.
hadoop
.hive.ql.metadata.HiveException: Failed to create Spark client for Spark session
问题描述Logginginitializedusingconfigurationinjar:file:/opt/module/hive/lib/hive-common-3.1.2.jar!/hive-log4j2.propertiesAsync:trueHiveSessionID=0c953008-3c72-4e36-bcaf-47e92a5b9759FAILED:SemanticExceptio
qq_41504585
·
2023-12-22 07:13
大数据分享
hive
上一页
31
32
33
34
35
36
37
38
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他