E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop分片
hive库表占用空间大小的命令
hdfsdfs-du-h/user/hive/warehouse2、按占用空间大小降序排列hdfsdfs-du/user/hive/warehouse/ipms.db|sort-nr3、查某一个分区占用空间大小(单位G)
hadoop
fs-ls
刀鋒偏冷
·
2024-03-15 13:13
hive
hadoop
数据仓库
探秘Elasticsearch:高性能搜索引擎的原理与应用场景(一)
首先我们将介绍Elasticsearch的基本原理,包括分布式架构、倒排索引和
分片
等核心概念。然后我们将深入探讨Elasticsearch的搜索原理,包括查询解析、相似度计算和布尔搜索等关键技术。
凛鼕将至
·
2024-03-14 13:09
搜索引擎
elasticsearch
大数据
03hive数仓安装与基础使用
hiveHive概述Hive是基于
Hadoop
的一个数据仓库工具。
daydayup9527
·
2024-03-14 13:39
hadoop_hive
运维
hadoop
HDFS
(一)HDFS简介及其基本概念 HDFS(
Hadoop
DistributedFileSystem)是
hadoop
生态系统的一个重要组成部分,是
hadoop
中的的存储组件,在整个
Hadoop
中的地位非同一般
weixin_51987187
·
2024-03-12 14:32
笔记
大数据
大数据开发(
Hadoop
面试真题-卷二)
大数据开发(
Hadoop
面试真题)1、在大规模数据处理过程中使用编写MapReduce程序存在什么缺点?如何解决这些问题?
Key-Key
·
2024-03-12 02:15
大数据
hadoop
面试
zookeeper 使用
zookeeper介绍zookeeper是一个为分布式应用提供一致性服务的软件,它是开源的
Hadoop
项目中的一个子项目,并且根据google发表的论文来实现的,接下来我们首先来安装使用下这个软件,然后再来探索下其中比较重要一致性算法
SkTj
·
2024-03-10 02:15
Hive SQL 开发指南(三)优化及常见异常
在大数据领域,HiveSQL是一种常用的查询语言,用于在
Hadoop
上进行数据分析和处理。为了确保代码的可读性、维护性和性能,制定一套规范化的HiveSQL开发规范至关重要。
大数据_苡~
·
2024-03-09 14:13
003-数据开发
hive
Hive优化
数据倾斜
Hive常见异常
hive
join
大数据开发(
Hadoop
面试真题-卷九)
大数据开发(
Hadoop
面试真题)1、Hivecount(distinct)有几个reduce,海量数据会有什么问题?
Key-Key
·
2024-03-09 10:06
大数据
hadoop
面试
大数据开源框架技术汇总
目录系统平台(
Hadoop
、CDH、HDP)监控管理(CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle)文件系统(HDFS、GPFS、Ceph、Gluster
浪尖聊大数据-浪尖
·
2024-03-08 20:48
数据仓库
hive
flume
分布式
scipy
makefile
crm
lighttpd
LINUX内核打开IPV4
分片
支援。
在某些LINUX系统上面IP
分片
是被禁用的,通常我们都不需要IPV4
分片
的支持,但是有些程序必须强制打开IP
分片
,因为它们不考虑自己
分片
的问题,常见于UDP、大包ICMP/PING测试。打开终端窗口。
liulilittle
·
2024-03-07 08:30
IP
Extension
linux
服务器
数据库
31.Elasticsearch集群故障排查及修复-2
31.1定位红色或黄色的索引进一步定位未分配的原因可以要求集群进一步返回给定
分片
的当前分配情况和逻辑需要结合第三步返回结果对下面的_cluster/allocation/explainAPI参数进行修改
大勇任卷舒
·
2024-03-07 04:19
ElasticSearch为什么快?
2.索引
分片
:ElasticSearch把每个索引划分成多个
分片
,这样可以让查询操作并行化,从而提高查询速度。3.全文索引:ElasticSearch使用了高效的全文索引技术,把文档转化成可
z.jiaminf
·
2024-03-06 19:14
ElasticSearch
elasticsearch
大数据
搜索引擎
【
Hadoop
】在spark读取clickhouse中数据
读取clickhouse数据库数据importscala.collection.mutable.ArrayBufferimportjava.util.Propertiesimportorg.apache.spark.sql.SaveModeimportorg.apache.spark.sql.SparkSessiondefgetCKJdbcProperties(batchSize:String="
方大刚233
·
2024-03-03 06:54
Hadoop
Scala
hadoop
spark
clickhouse
【
Hadoop
】使用Metorikku框架读取hive数据统计分析写入mysql
一、定义作业文件作业文件该文件将包括输入源、输出目标和要执行的配置文件的位置,具体内容如下metrics:-/user/xrx/qdb.yaml#此位置为hdfs文件系统目录inputs:output:jdbc:connectionUrl:"jdbc:mysql://233.233.233.233:3306/sjjc"user:"root"password:"123456"driver:"com.
方大刚233
·
2024-03-03 06:23
Hadoop
Scala
hadoop
hive
mysql
Spark-sql Adaptive Execution动态调整分区数量,调整输出文件数
看看这个参数如何运用:我们的spark-sql版本:[
hadoop
@666~]$spark-sql--versionWelcometo______/__
不想起的昵称
·
2024-03-02 15:03
hive
spark
hive
数据仓库
hadoop
里需要的lib
hadoop
.so版本不一致导致问题及解决办法
$
HADOOP
_HOME/lib/native/Linux-amd64-64(64位操作系统)$
HADOOP
_HOME/lib/native/Linux-i386-32(32位操作系统)文件夹中的lib
hadoop
.so
weixin_34304013
·
2024-03-02 09:23
大数据
操作系统
嵌入式
hadoop
启动报错处理
1.
hadoop
启动报错1.1.问题1util.NativeCodeLoader:Unabletoloadnative-
hadoop
libraryforyourplatform...usingbuiltin-javaclasseswhereapplicable
akuibpt23191
·
2024-03-02 08:51
大数据
操作系统
Spark整合hive(保姆级教程)
准备工作:1、需要安装配置好hive,如果不会安装可以跳转到Linux下编写脚本自动安装hive2、需要安装配置好spark,如果不会安装可以跳转到Spark安装与配置(单机版)3、需要安装配置好
Hadoop
万家林
·
2024-02-29 09:47
spark
hive
spark
hadoop
Hadoop
-Yarn-NodeManager是如何监控容器的
一、源码下载下面是
hadoop
官方源码下载地址,我下载的是
hadoop
-3.2.4,那就一起来看下吧Indexof/dist/
hadoop
/core二、上下文在我的博客中的ContainerLaunchprepareForLaunch
隔着天花板看星星
·
2024-02-28 06:15
hadoop
大数据
yarn
shardingsphere自定义hint
分片
算法,完美实现按区域编码数据隔离,没改一行旧代码
因为已经改造了登录平台,实现了集群统一部署,然后后续就是继续弄集中统一部署服务改造(这里的集中统一部署的意思是区别于每个区域私有部署,服务本身还是可以弹性伸缩的),首先改造一个比较简单的白名单微服务,只涉及到三张表,业务逻辑也简单就是CRUD以及关联查询。因为当初这个服务是由其他人实现交给我这边部署维护一下,具体的业务逻辑和代码我也没看过,所以改造的时候就想着尽量不动代码,无侵入式的或者低侵入式的
·
2024-02-26 20:03
Zookeeper实现分布式锁
首先需要确保有
hadoop
102,
hadoop
103,
hadoop
104三台虚拟机并且都安装成功且配置成功了zookeeper。
正在绘制中
·
2024-02-25 23:35
分布式
zookeeper
云原生
docker搭建
hadoop
hdfs完全分布式集群
1制作
hadoop
镜像参见https://www.cnblogs.com/rmxd/p/12051866.html该博客中只参考制作镜像部分,固定IP及启动集群的部分应该跳过。
shangcunshanfu
·
2024-02-20 22:08
hadoop
docker
big
data
基于docker安装HDFS
1.docker一键安装见docker一键安装2.拉取镜像sudodockerpullkiwenlau/
hadoop
:1.03.下载启动脚本gitclonehttps://github.com/kiwenlau
core512
·
2024-02-20 22:02
大数据
虚拟机&容器
docker
hdfs
Go切片数组深度解析
Go中的
分片
数组,实际上有点类似于Java中的ArrayList,是一个可以扩展的数组,但是Go中的切片由比较灵活,它和数组很像,也是基于数组,所以在了解Go切片前我们先了解下数组。
Tim在路上
·
2024-02-20 21:49
Redis-面试题
key-value存储的nosql开源内存数据库内存存储、数据结构优化,高性能一般用于应用和数据库之间的分布式缓存中间件提供主从复制+哨兵、集群的方式实现高可用,在redis集群中通过hash槽的方式实现数据
分片
HBryce24
·
2024-02-20 21:06
Redis
java
redis
hive 的map数和reduce如何确定
的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改);2.举例:a)假设input目录下有1个文件a,大小为780M,那么
hadoop
Super乐
·
2024-02-20 20:38
hive
hive
HIVE中MAP和REDUCE数量
一、总览MR执行过程一般的MapReduce程序会经过以下几个过程:输入(Input)、输入
分片
(Splitting)、Map阶段、Shuffle阶段、Reduce阶段、输出(Finalresult)。
这孩子谁懂哈
·
2024-02-20 20:38
HIVE
hive
hadoop
mapreduce
粉丝:什么情况下,hive 只会产生一个reduce任务,而没有maptask
我们常规使用的mapreducer任务执行过程大致如下图:appmaster通过某种策略计算数据源可以做多少
分片
(getSplits方法),对应的生成固定数量的maptask,假如存在shuffle的话
浪尖聊大数据-浪尖
·
2024-02-20 20:04
mapreduce
hive
大数据
spark
java
(17)Hive ——MR任务的map与reduce个数由什么决定?
MapTask的数量由以下参数决定文件个数文件大小blocksize一般而言,对于每一个输入的文件会有一个mapsplit,每一个
分片
会开启一个map任务,很容易导致小文件问题(如果不进行小文件合并,极可能导致
爱吃辣条byte
·
2024-02-20 20:27
#
Hive
hive
数据仓库
Hadoop
生态圈
是数据分析数据引擎,也是MapReduce模型,支持SQL4.Pig也是一个数据分析引擎,不支持SQL,有自己的PigLatin数据5.Sqoop是数据采集工具,针对关系数据库6.Flume是针对文件等数据的采集7.
Hadoop
陈超Terry的技术屋
·
2024-02-20 19:47
16.用
Hadoop
命令向CDH集群提交MR作业
Redhat7.2非Kerberos集群CDH5.13,OS为CentOS6.5前置条件CDH集群运行正常本地开发环境与集群网络互通且端口放通16.2示例这里使用的代码是没有加载CDH集群的xml配置的,因为使用
hadoop
大勇任卷舒
·
2024-02-20 19:27
【YARN】【Apache
Hadoop
YARN】【架构】
ThefundamentalideaofYARNistosplitupthefunctionalitiesofresourcemanagementandjobscheduling/monitoringintoseparatedaemons.TheideaistohaveaglobalResourceManager(RM)andper-applicationApplicationMaster(AM)
资源存储库
·
2024-02-20 18:48
apache
hadoop
大数据
记一次 Flink 作业启动缓慢
记一次Flink作业启动缓慢背景应用发现,
Hadoop
集群的hdfs较之前更加缓慢,且离线ELT任务也以前晚半个多小时才能跑完。
卢说
·
2024-02-20 18:38
Hadoop
大数据
Flink
flink
大数据
hadoop
hdfs
Redis学习笔记
redis官网:https://redis.io/一个基于内存的键值型NoSQL数据库key-value型单线程,每个命令具备原子性低延迟,速度快(基于内存、IO多路复用、c语言编写)支持数据持久化支持主从/
分片
集群支持多语言客户端
hhf的博客
·
2024-02-20 17:19
学习笔记
redis
MyCat实现单库分表+代理所有表
MyCAT支持水平
分片
与垂直
分片
:水平
分片
:一个表格的数据分割到多个节点上,按照行分隔。垂直
分片
:一个数据库中多个表格A,B,C,A存储到节点1上,B存储到节点2上,C存储到节点3上。
爱笑的人、
·
2024-02-20 16:31
数据库
大数据Map Reduce (
Hadoop
) 和 MPP数据库 的区别
原理的角度出发,mapreduce其实就是二分查找的一个逆过程,不过因为计算节点有限,所以map和reduce前都预先有一个分区的步骤.二分查找要求数据是排序好的,所以MapReduce之间会有一个shuffle的过程对Map的结果排序.Reduce的输入是排好序的.MR分而治之的策略和数据库行业中另一种数据库MassivelyParallelProcessor即大规模并行处理数据库(典型代表AW
山哥Samuel
·
2024-02-20 15:05
Hadoop
大数据的入门学习
由于所做的银行项目与大数据有关,所以个人学习下
hadoop
的知识,希望能对大数据有所了解,不喜勿喷,哪里有不对的希望大神指点
Hadoop
百度百科:
Hadoop
是一个由Apache基金会所开发的分布式系统基础架构
heybo_zhang
·
2024-02-20 14:36
深入浅出 spring-data-elasticsearch 之 ElasticSearch 架构初探(一)
本文目录一、Elasticsearch基本术语1.1文档(Document)、索引(Index)、类型(Type)文档三要素1.2集群(Cluster)、节点(Node)、
分片
(Shard)分布式三要素二
Julian Wong
·
2024-02-20 13:04
spring
elasticsearch
架构
java
后端
如何确定分库还是 分表?
分片
策略1、垂直拆分水平拆分3范围
分片
(range)垂直水平拆分4如何解决数据查询问题?
归来少年Plus
·
2024-02-20 13:00
性能优化
分库分表
垂直拆分
Flink理论—Flink架构设计
它集成了所有常见的集群资源管理器,例如
Hadoop
YARN,但也可以设置作为独立集群甚至库运行,例如Spark的StandaloneMode本节概述了Flink架构,并且描述了其主要组件如何交互以执行应用程序和从故障中恢复
不二人生
·
2024-02-20 12:59
#
Flink
理论
flink
大数据
Kafka核心逻辑介绍 | 京东云技术团队
分布式消息系统(kafka2.8.0版本之后接触了对zk的依赖,使用自己的kRaft做集群管理,新增内部主体@metadata存储元数据信息),它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于
hadoop
·
2024-02-20 11:54
kafkaredis消息队列
Redis之分布式搭建及使用快速入门
主从复制配置3、可用性保证之哨兵机制(Sentinel)4、redis分布式方案a、客户端Shardingb、代理Proxy之Twemproxyc、代理Proxy之Codisd、RedisClustere、
分片
方案总结
菜鸟编程98K
·
2024-02-20 10:02
•
Java架构
——【分布式缓存技术】
redis
redis集群
redis分布式
redis主从搭建
【Redis快速入门】Redis三种集群搭建配置(主从集群、哨兵集群、
分片
集群)
个人名片:作者简介:一名大三在校生,喜欢AI编程❄️个人主页:落798.个人WeChat:hmmwx53️系列专栏:️零基础学Java——小白入门必备重识C语言——复习回顾计算机网络体系———深度详讲HCIP数通工程师-刷题与实战微信小程序开发——实战开发HarmonyOS4.0应用开发实战——实战开发Redis快速入门到精通——实战开发每日一句:我很忙,但我要忙的有意义!欢迎评论点赞收藏加关注
落798.
·
2024-02-20 10:32
Redis入门到实战
redis
notepad++
数据库
大数据 - Spark系列《六》- RDD详解
Spark系列文章:大数据-Spark系列《一》-从
Hadoop
到Spark:大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据
王哪跑nn
·
2024-02-20 10:55
spark
大数据
spark
分布式
大数据 - Spark系列《七》- 分区器详解
Spark系列文章:大数据-Spark系列《一》-从
Hadoop
到Spark:大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据
王哪跑nn
·
2024-02-20 10:55
spark
大数据
spark
分布式
Linux之Shell
第1章Shell概述1)Linux提供的Shell解析器有[zhao@
hadoop
101~]$cat/etc/shells/bin/sh/bin/bash/usr/bin/sh/usr/bin/bash
efzy
·
2024-02-20 08:16
Linux
linux
测试环境搭建整套大数据系统(三:搭建集群zookeeper,hdfs,mapreduce,yarn,hive)
一:搭建zkhttps://blog.csdn.net/weixin_43446246/article/details/123327143二:搭建
hadoop
,yarn,mapreduce。
宇智波云
·
2024-02-20 08:05
大数据项目
zookeeper
hdfs
mapreduce
hive
Hadoop
Streaming原理
Streaming简介•MapReduce和HDFS采用Java实现,默认提供Java编程接口•Streaming框架允许任何程序语言实现的程序在
Hadoop
MapReduce中使用•Streaming
可乐加冰丶丶
·
2024-02-20 07:18
【Flink】ClassNotFoundException: org.apache.
hadoop
.conf.Configuration
问题背景在Flink的sql-client客户端中执行连接hive的sql代码时出现如下错误,版本Flink1.13.6FlinkSQL>createcatalogtestwith(>'type'='hive',>'default-database'='default',>'hive-conf-dir'='/opt/hive/conf');[ERROR]CouldnotexecuteSQLstat
一杯咖啡半杯糖
·
2024-02-20 07:38
Flink实战
flink
hadoop
sql
生产环境下,应用模式部署flink任务,通过hdfs提交
通过通过yarn.provided.lib.dirs配置选项指定位置,将flink的依赖上传到hdfs文件管理系统1.实践 (1)生产集群为cdh集群,从cm上下载配置文件,设置环境export
HADOOP
_CONF_DIR
但行益事莫问前程
·
2024-02-20 07:04
flink
flink
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他