hive分布式第24页

Flink系列-1、流式计算简介

大数据系列文章目录官方网址：https://flink.apache.org/学习资料：https://flink-learning.org.cn/目录数据的时效性流式计算和批量计算流式计算流程和特性分布式计算引擎什么是

技术武器库·2024-02-19 13:10

[Flink02] Flink架构和原理

1、运行模式Flink有多种运行模式，可以运行在一台机器上，称为本地（单机）模式；也可以使用YARN作为底层资源调度系统以分布式的方式在集群中运行，称为FlinkOnYARN模式；还可以使用Flink自带的资源调度系统

YoungerChina·2024-02-19 13:32

(10)Hive的相关概念——文件格式和数据压缩

1.1.1行存储的特点1.1.2列存储的特点1.2TextFile1.3SequenceFile1.4Parquet1.5ORC二、数据压缩2.1数据压缩-概述2.1.1压缩的优点2.1.2压缩的缺点2.2Hive

爱吃辣条byte·2024-02-19 13:21

云计算基础-存储虚拟化（深信服aSAN分布式存储）

什么是存储虚拟化分布式存储是利用虚拟化技术“池化”集群存储卷内通用X86服务器中的本地硬盘，实现服务器存储资源的统一整合、管理及调度，最终向上层提供NFS、ISCSI存储接口，供虚拟机根据自身的存储需求自由分配使用资源池中的存储空间

比特微联·2024-02-19 13:19

300分钟吃透分布式缓存-02讲：如何根据业务来选择缓存模式和组件？

缓存读写模式如下图，业务系统读写缓存有3种模式：&CacheAside（旁路缓存）&Read/WriteThrough（读写穿透）&WriteBehindCaching（异步缓存写入）CacheAside如上图所示，CacheAside模式中，业务应用方对于写，是更新DB后，直接将key从cache中删除，然后由DB驱动缓存数据的更新；而对于读，是先读cache，如果cache没有，则读DB，同时

机智阳·2024-02-19 13:12

31、商城系统（十三）：缓存：springboot集成redis，使用redisson用作分布式锁，缓存一致性解决方案，集成SpringCache，并自定义过期时间、序列化

目录一、集成redis（有问题版本）1.引入依赖2.配置redis的ip端口3.修改之前的查询接口

鹏哥哥啊Aaaa·2024-02-19 13:10

hadoop硬件配置高可用 datanode namenode硬件配置

每个分布式文件系统分块在NameNode的内存中大小约为250个字节，此外还要加上文件和目录所需的250字节空间。

xcagy·2024-02-19 13:07

spring cloud和dubbo比较

Dubbo其实是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。

爱宝宝n·2024-02-19 12:17

渲染效果图为什么都选择使用云渲染，优势有哪些？

一、云渲染与本地渲染的比较1.渲染速度云渲染可以利用分布式渲染技术，同时调用多台高性能服务器进行渲染，大大缩短了渲染时间，比本地渲染节省了几十

小白的建模·2024-02-19 12:09

ACK One：构建混合云同城容灾系统

作者：蔡靖对于当前业务运行在IDC内的Kubernetes集群中，希望通过云计算为云下业务提供同城灾备的高可用冗余能力，可利用阿里云分布式云容器平台ACKOne[1]来提供统一得流量、应用和集群管理，实现业务流量的多集群路由和灾难情况下的流量的自动平滑容灾

·2024-02-19 12:35

精彩回顾 I DatenLord Hackathon 2023圆满结束！

达坦科技基于其跨云分布式文件系统DatenLord项目，结合AI大模型时代背景，搭建了擂台。我们邀请参赛者为DatenLord的极端场景设计并实现缓存p2p传输和同步模块。

·2024-02-19 12:34

2.16日学习打卡----初学Dubbo(一)

2.16日学习打卡目录:2.16日学习打卡一.什么是分布式？二.什么是RPC?

中北萌新程序员·2024-02-19 12:54

ACK One：构建混合云同城容灾系统

作者：蔡靖对于当前业务运行在IDC内的Kubernetes集群中，希望通过云计算为云下业务提供同城灾备的高可用冗余能力，可利用阿里云分布式云容器平台ACKOne[1]来提供统一得流量、应用和集群管理，实现业务流量的多集群路由和灾难情况下的流量的自动平滑容灾

·2024-02-19 12:31

RabbitMQ：分布式系统中的高效消息队列

摘要RabbitMQ是一款开源、高度可靠、灵活性强的消息队列系统，被广泛应用于分布式系统中。

张万森的救赎·2024-02-19 12:48

【Redis篇】详解布隆过滤器（原理 | 操作 | 代码）

文章目录简述布隆过滤器原理存入过程查询过程️‍优缺点⭐优点⭐缺点代码实现（本地）代码实现（分布式）简述布隆过滤器布隆过滤器的由来可以追溯到1970年代，由一个名叫BurtonHowardBloom的美国计算机科学家提出

在下小吉.·2024-02-19 12:29

现阶段适用于单一架构还是分布式架构？

分布式架构：优势：可以提高应用程序的可用性、可扩展性和弹性；各个服务之间通过定义的接口进行通信，彼此独立，互不干扰。劣势：开发和部署比较复杂，需要考虑分布式系统的一些问题，如分布式

小Mie不吃饭·2024-02-19 12:41

基于python的分布式爬虫框架_基于scrapy-redis的通用分布式爬虫框架

spiderman基于scrapy-redis的通用分布式爬虫框架目录demo采集效果爬虫元数据cluster模式standalone模式kafka实时采集监控功能自动建表自动生成爬虫代码，只需编写少量代码即可完成分布式爬虫自动存储元数据

summer_ccs·2024-02-19 11:39

深入解析鸿蒙系统的页面路由（Router）机制

鸿蒙系统以其独特的分布式架构和跨设备的统一体验而备受瞩目。在这个系统中，页面路由（Router）机制是连接应用各页面的关键组成部分。

OpenHarmony_小贾·2024-02-19 11:32

【2019-04-28】Hadoop分布式文件系统

Hadoop自带HDFS(hadoopdistributefilesystem)。HDFS默认数据块128M。HDFS有两类工作节点：一个管理节点namenode、多个工作节点datenode，namenode维护文件系统树以及整颗树内所有的文件和目录。namenode记录每个文件中各个数据块所在的数据节点信息。但不永久保存块的位置信息，这些信息会在系统启动时根据数据节点信息重建。namenode

BigBigFlower·2024-02-19 11:56

Hadoop搭建之 start-yarn.sh 报错

在搭建伪分布式的Hadoop集群环境时，在配置基础环境了并成功开启了HDFS组件后，jps查看已运行的名称节点和数据节点进程，[hadoop@masterhadoop]$jps8994NameNode10396Jps9087DataNode9279SecondaryNameNode

万里长江雪·2024-02-19 11:58

Day 25 25.2 Scrapy框架之分布式爬虫(scrapy_redis)

分布式爬虫(scrapy_redis)分布式爬虫是指将一个大型的爬虫任务分解成多个子任务，由多个爬虫进程或者多台机器同时执行的一种爬虫方式。

Chimengmeng·2024-02-19 11:22

微信发送一条消息经历哪些过程。企业微信以及钉钉的IM架构对比

目前已经写的IM的文章分布式websocket即时通信(IM)系统构建指南【第七期】分布

呆呆呆呆梦·2024-02-19 11:49

基于scrapy框架的单机爬虫与分布式爬虫

我们知道，对于scrapy框架来说，不仅可以单机构建复杂的爬虫项目，还可以通过简单的修改，将单机版爬虫改为分布式的，大大提高爬取效率。

Jesse_Kyrie·2024-02-19 11:47

【区块链技术开发语言】在ubuntu18 系统环境下命令操作配置以太坊go-ethereum环境

一、概述项目简介：以太坊是一个基于区块链技术的分布式平台，用于构建去中心化应用程序（DApps）。go-ethereum是以太坊官方开发团队维护的Go语言实现的以太坊客户端，也被称为Geth。

源代码杀手·2024-02-19 11:41

读TiDB源码聊设计：浅析HTAP的SQL优化器

1.引子如果让你做一个分布式数据库的优化器，面对以下的SQL，你会想到什么好的方法去执行他们呢？

·2024-02-19 11:23

linux压缩webfile文件夹 webfile.tar.gz和webfile.tar的区别

tar，全称TapeArchive，最初被设计用于在磁带存储设备上存储文件，但现在已经广泛用于在硬盘驱动器上存储和分发文件。

·2024-02-19 11:53

阿里云计算平台大数据基础工程技术团队直聘！！！

通过软件工程，数据智能化的方法论，围绕数据系统化建设运维智能工具链，打造飞天大数据&AI运维管控平台ABM，解决超大规模分布式集群运维管理问题，提升产品的稳定性

·2024-02-19 11:20

抗D盾是游戏盾吗

游戏盾有哪些功能呢游戏盾包含抗D节点，通过分布式的抗D节点，游

·2024-02-19 11:42

(15)Hive调优——数据倾斜的解决指南

目录前言一、什么是数据倾斜二、发生数据倾斜的表现2.1MapReduce任务2.2Spark任务三、如何定位发生数据倾斜的代码四、发生数据倾斜的原因3.1key分布不均匀3.1.1某些key存在大量相同值3.1.2存在大量异常值或空值3.2业务数据本身的特性3.3SQL语句本身就有数据倾斜3.4建表时考虑不周四、触发数据倾斜的SQL操作五、数据倾斜的解决方案5.1Map长尾优化5.1.1Map读取

爱吃辣条byte·2024-02-19 11:50

Go RPC 远程过程调用

在分布式计算，远程过程调用是一个计算机通信协议。该协议允许运行于一台计算机的程序调用另一个地址空间的子程序，而程序员就像调用本地程序一样，无需额外地为这个交互作用编程。

CDFMLR·2024-02-19 10:26

分布式文件系统 SpringBoot+FastDFS+Vue.js【四】

分布式文件系统SpringBoot+FastDFS+Vue.js【四】八、文件的下载和删除功能8.1.FastDFSClient.java8.2.FileServerController.java8.3

良辰美景好时光·2024-02-19 10:21

分布式文件系统 SpringBoot+FastDFS+Vue.js【二】

分布式文件系统SpringBoot+FastDFS+Vue.js【二】六、实现上传功能并展示数据6.1.创建数据库6.2.创建springboot项目fastDFS-java6.3.引入依赖6.3.fastdfs-client

良辰美景好时光·2024-02-19 10:20

分布式文件系统 SpringBoot+FastDFS+Vue.js【三】

分布式文件系统SpringBoot+FastDFS+Vue.js【三】七、创建后台--分角色管理7.1.创建后台数据库表7.2.创建实体类7.2.1.Admin7.2.2.Menu7.2.3.MenuBean7.2.4

良辰美景好时光·2024-02-19 10:20

闲聊从防火墙，到VPC再到服务鉴权的技术发展过程

因为最近我们的分布式项目上，一直在讨论设计，服务之间如何鉴权？鉴权发生在什么样的场景里？同一个租户内的服务之间需不需要鉴权？不通租户之间的服务访问该如何鉴权？

G探险者·2024-02-19 10:48

jsonrpc

远程过程调用是一个分布式计算的客户端-服务器（Client/Server）的例子，它简单而又广受欢迎。远程过程调用总是由

田园园野·2024-02-19 10:48

MapReduce

MapReduce定义mapReduce是一个分布式运算程序的编程框架，是用户开发基于hadoop的数据分析应用的核心框架。

诺冰1314·2024-02-19 10:46

腾讯云OSS文件上传功能

它具有以下特点和优势：高可靠性：采用分布式存储架构，数据会在多个设备上进行冗余备份，确保数据的高可靠性和持久性。弹性扩展：支持根据业务需求自动扩展存储容量，无需担心存储空间不足的问题。

奋力向前123·2024-02-19 10:37

一篇文章彻底搞懂 TiDB 集群各种容量计算方式

作者丨hey-hoho来自神州数码钛合金战队神州数码钛合金战队是一支致力于为企业提供分布式数据库TiDB整体解决方案的专业技术团队。

·2024-02-19 10:17

当你在浏览器中输入网址后发生了什么?

它作为将域名和IP地址相互映射的一个分布式数据库，能够使人更方便地访问互联网。DNS

·2024-02-19 10:05

Pulsar Standalone服务搭建

PulsarStandalone服务搭建说明简介ApachePulsar是Apache软件基金会顶级项目，是下一代云原生分布式消息流平台，集消息、存储、轻量化函数式计算为一体。

aileen5150·2024-02-19 10:04

golang工程组件篇:高性能RPC框架gRPC之0Auth2认证与拦截器

Golang是一种快速、高效的编程语言，它在云计算和分布式系统中广泛使用。随着软件工程越来越复杂，RPC（远程过程调用）框架成为了重要的组件之一。

SMILY12138·2024-02-19 10:32

Hive入门，Hive是什么？

1.1Hive是什么？Hive是一个开源的数据仓库工具，主要用于处理大规模数据集。它是建立在Hadoop生态系统之上的，利用Hadoop的分布式存储和计算能力来处理和分析数据。

JayGboy·2024-02-19 10:31

sensitive-word-admin v1.3.0 发布如何支持敏感词控台分布式部署？

拓展阅读sensitive-word-adminv1.3.0发布如何支持分布式部署？

·2024-02-19 10:51

Raft协议如何解决分布式系统一致性问题

先要明确的几个概念Raft协议是基于paxosmulti的，属于全新优化精简版本，更加容易实现和理解。zookeeper用的zab协议跟raft基本一样，就是心跳方向是反的，raft是leader向follower发送心跳，zab是follower向leader发送心跳询问leader健康状况。再有一个就是，raft、paxos、zab这些属于强一致性协议，与之相对的还有弱一致性协议，比如DNS的

肥兔子爱豆畜子·2024-02-15 10:56

Hive Distribute by 应用之动态分区小文件过多问题优化

Fatalerroroccurredwhennodetriedtocreatetoomanydynamicpartitions.Themaximumnumberofdynamicpartitionsiscontrolledbyhive.exec.max.dynamic.p

莫叫石榴姐·2024-02-15 10:58

Hive调优——count distinct替换

离线数仓开发过程中经常会对数据去重后聚合统计，而对于大数据量来说，count(distinct)操作消耗资源且查询性能很慢，以下是调优的方式。解决方案一：groupby替代原sql如下：#=====7日、14日的app点击的用户数（user_id去重统计）selectgroup_id,app_id,--7日内UVcount(distinctcasewhendt>='${7d_before}'the

爱吃辣条byte·2024-02-15 10:58

Hive的相关概念——架构、数据存储、读写文件机制

目录一、架构及组件介绍1.1Hive整体架构1.2Hive组件1.3Hive数据模型（DataModel）1.3.1Databases1.3.2Tables1.3.3Partitions1.3.4Buckets

爱吃辣条byte·2024-02-15 10:57

Hive的相关概念——分区表、分桶表

目录一、Hive分区表1.1分区表的概念1.2分区表的创建1.3分区表数据加载及查询1.3.1静态分区1.3.2动态分区1.4分区表的本质及使用1.5分区表的注意事项1.6多重分区表二、Hive分桶表2.1

爱吃辣条byte·2024-02-15 10:57

[AIGC] Kafka 的 Rebalance 机制：保证分区的可靠性和高可用性

在分布式系统中，Kafka是一种流处理平台，具有高吞吐量、低延迟和可扩展性等特点。在Kafka中，消费者组是一组消费者的集合，它们共同消费一个topic的所有分区。

程序员三木·2024-02-15 10:55

Hive——动态分区导致的小文件问题

目录0问题现象1问题解决解决方案一：调整动态分区数方案一弊端：小文件剧增解决方案二：distributeby方案二弊端：数据倾斜解决方案三：distributeby命令2思考3小结0问题现象现象：报错errorr如下：[Error20004]:Fatalerroroccurredwhennodetriedtocreatetoomanydynamicpartitions.Themaximumnumb

爱吃辣条byte·2024-02-15 10:25

推荐频道

hive分布式

Flink系列-1、流式计算简介

[Flink02] Flink架构和原理

(10)Hive的相关概念——文件格式和数据压缩

云计算基础-存储虚拟化（深信服aSAN分布式存储）

300分钟吃透分布式缓存-02讲：如何根据业务来选择缓存模式和组件？

31、商城系统（十三）：缓存：springboot集成redis，使用redisson用作分布式锁，缓存一致性解决方案，集成SpringCache，并自定义过期时间、序列化

hadoop硬件配置 高可用 datanode namenode硬件配置

spring cloud和dubbo比较

渲染效果图为什么都选择使用云渲染，优势有哪些？

ACK One：构建混合云同城容灾系统

精彩回顾 I DatenLord Hackathon 2023圆满结束！

2.16日学习打卡----初学Dubbo(一)

ACK One：构建混合云同城容灾系统

RabbitMQ：分布式系统中的高效消息队列

【Redis篇】详解布隆过滤器（原理 | 操作 | 代码）

现阶段适用于 单一架构 还是 分布式架构 ？

基于python的分布式爬虫框架_基于scrapy-redis的通用分布式爬虫框架

深入解析鸿蒙系统的页面路由（Router）机制

【2019-04-28】Hadoop分布式文件系统

Hadoop搭建之 start-yarn.sh 报错

Day 25 25.2 Scrapy框架之分布式爬虫(scrapy_redis)

微信发送一条消息经历哪些过程。企业微信以及钉钉的IM架构对比

基于scrapy框架的单机爬虫与分布式爬虫

【区块链技术开发语言】在ubuntu18 系统环境下命令操作配置以太坊go-ethereum环境

读TiDB源码聊设计：浅析HTAP的SQL优化器

linux压缩webfile文件夹 webfile.tar.gz和webfile.tar的区别

阿里云计算平台大数据基础工程技术团队直聘！！！

抗D盾是游戏盾吗

(15)Hive调优——数据倾斜的解决指南

Go RPC 远程过程调用

分布式文件系统 SpringBoot+FastDFS+Vue.js【四】

分布式文件系统 SpringBoot+FastDFS+Vue.js【二】

分布式文件系统 SpringBoot+FastDFS+Vue.js【三】

闲聊从防火墙，到VPC再到服务鉴权的技术发展过程

jsonrpc

MapReduce

腾讯云OSS文件上传功能

一篇文章彻底搞懂 TiDB 集群各种容量计算方式

当你在浏览器中输入网址后发生了什么?

Pulsar Standalone服务搭建

golang工程组件篇:高性能RPC框架gRPC之0Auth2认证与拦截器

Hive入门，Hive是什么？

sensitive-word-admin v1.3.0 发布 如何支持敏感词控台分布式部署？

Raft协议如何解决分布式系统一致性问题

Hive Distribute by 应用之动态分区小文件过多问题优化

Hive调优——count distinct替换

Hive的相关概念——架构、数据存储、读写文件机制

Hive的相关概念——分区表、分桶表

[AIGC] Kafka 的 Rebalance 机制：保证分区的可靠性和高可用性

Hive——动态分区导致的小文件问题

hadoop硬件配置高可用 datanode namenode硬件配置

现阶段适用于单一架构还是分布式架构？

sensitive-word-admin v1.3.0 发布如何支持敏感词控台分布式部署？