hadoop离线数仓第6页

webjs 数据库离线读取本地数据库源码-SAAS 本地化及未来之窗行业应用跨平台架构

一、初始化js数据库console.group("本地数据");var未来之窗db=newCyberWin_MS("cyberwinclient_gfsoft_itemmain","cyberwin_gfsoft_db");if(type=="项目"){未来之窗db=newCyberWin_MS("cyberwinclient_item","cyberwin_gfsoft_db");}if(typ

未来之窗软件服务·2024-08-22 03:15

Hadoop的概念

1.什么是大数据数据体量巨大：数据量规模庞大，通常以PB（拍字节）或EB（艾字节）来衡量，远远超出了传统数据库和数据处理工具的处理能力。数据类型多样：大数据包括结构化数据、半结构化数据和非结构化数据。其中，非结构化数据占据了相当大的比例，如文本、音频、视频、图片、地理位置信息等。价值密度低：在大量的数据中，真正有价值的信息可能只是很小的一部分。因此，如何从海量数据中快速提取有价值的信息是大数据处理

子非鱼　　　·2024-08-22 02:03

MAP REDUCE

框架示例ApacheHadoop：以MapReduce作为默认处理引擎的框架。ApacheSpark：可以整合进Hadoop，取代MapReduce的框架

Xiao_die888·2024-08-22 01:58

HiveSQL常见函数及使用方法（含代码示例）

HiveSQL（HiveSQL）是ApacheHive所使用的SQL方言，专门用于在Hadoop上进行大规模数据处理。以下是一些常见的HiveSQL函数及其使用方法：1.聚合函数COUNT统计记录数。

会飞的岛格酱·2024-08-21 21:31

数开中：SQL递归函数使用场景（70天）

数仓（DataWarehouse）中，SQL递归函数的使用场景多出现在需要处理具有层级或树状结构的数据时。这类数据可能包括商品分类、用户行为路径（如点击流中的页面跳转）、促销活动层级等。

大数据飞总·2024-08-21 20:29

flink经典实战案例

一、java版flink-wordcount-离线计算版1.1maven构建flink，加入依赖org.apache.flinkflink-java${flink.version}provided-->

不爱吃肉肉·2024-08-21 20:59

Azkaban各种类型的Job编写

一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java

__元昊__·2024-03-28 21:00

Linux（centos7）部署hive

前提环境：已部署完hadoop(HDFS、MapReduce、YARN)1、安装元数据服务MySQL切换root用户#更新密钥rpm--importhttps://repo.mysql.com/RPM-GPG-KEY-mysqL

灯下夜无眠·2024-03-28 12:44

关于HDP的20道高级运维面试题

HDP（HortonworksDataPlatform）的主要组件包括Hadoop框架、HDFS、MapReduce、YARN以及Hadoop生态系统中的其他关键工具，如Spark、Flink、Hive

编织幻境的妖·2024-03-26 15:34

【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理

风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语

音乐学家方大刚·2024-03-26 09:56

ELK离线安装和配置流程

ELK离线安装和配置流程一、介绍ELK是一个开源的数据分析和可视化工具，由三个开源项目组成：Elasticsearch、Logstash和Kibana。

GB9125·2024-03-25 19:39

利用K8S Statefulset搭建Etcd集群 - 本地存储

但是公司的项目运行在离线ARM架构平台，直接使用网上EtcdOperator代码，他们提供的镜像都是x86_64架构，经过Opeartor编译等尝试，最后都以失

夜晓码农·2024-03-25 15:34

hadoop配置免密登录

1.生成密钥ssh-keygen-trsa所有节点都要执行2.所有节点执行ssh-copy-id-i~/.ssh/id_rsa.pub用户名1@主机名1ssh-copy-id-i~/.ssh/id_rsa.pub用户名2@主机名2ssh-copy-id-i~/.ssh/id_rsa.pub用户名3@主机名33.目录授权chmod700~/.sshchmod600~/.ssh/authorized_

我干开发那十年·2024-03-24 07:25

某项目公司-——ETL工程师岗位——二面

1.自我介绍2.如果给你一个数仓项目，你应该从那些方面向你的上级汇报。3.对自己的未来职业生涯规划。4.平常下班之后做那哪些事情。5.对于写PPT,写文档这块是否可以。

劝学-大数据·2024-03-20 06:46

【笔记】HDFS基础笔记

启动hadoop命令（未配环境变量）：进入hadoop安装目录输入.

哇咔咔哇咔·2024-03-20 04:12

【笔记】Linux常用命令

命令含义cd/home/hadoop#把/home/hadoop设置为当前目录cd..#返回上一级目录cd~#进入到当前Linux系统登录用户的主目录（或主文件夹）。

哇咔咔哇咔·2024-03-20 03:11

经典案例- 磁盘阵列两块盘掉线的数据恢复分析

磁盘阵列两块硬盘离线数据恢复案例一：客户使用Dell2850服务器组建了raid5磁盘阵列，阵列中包含有6块硬盘（SCSI硬盘，单盘容量300G），服务器操作系统为linuxRedhat4；文件系统为ext3

北亚数据恢复·2024-03-19 08:18

linux安装单机版spark3.5.0

一、spark介绍是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等.Spark主要用于大数据的计算二、spark下载spark3.5.0

爱上雪茄·2024-03-17 18:57

【Docker】docker | 命令 | 安装docker-compose | 卷 | 镜像存放位置 | volume | 清理空间

-8、拷贝镜像中的文件（镜像->宿主机）1）命令dockercp:2）示例dockercpmysql:/opt/tmp/c.sql/opt/tmp/c.sql~~-7、离线备份、打包下载、load（->

hgSuper·2024-03-16 07:40

Hadoop简介

简介大数据简介概述大数据的说法从出现到现在，也经历了十多年时间的发展。而在这十几年的发展过程中，非常多的机构、组织都试图对大数据做出过定义，例如：研究机构Gartner给出了这样的定义："大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。再例如根据维基百科的定义，大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

程序员小郭同学·2024-03-16 07:10

Hive中的NVL函数与COALESCE函数

ReturnsdefaultvalueifvalueisnullelsereturnsvalueExample:>SELECTnvl(null,'bla')FROMsrcLIMIT1;blaFunctionclass:org.apache.hadoop.hive.ql.udf.generic.GenericUDFNv

独影月下酌酒·2024-03-15 13:13

hive库表占用空间大小的命令

hdfsdfs-du-h/user/hive/warehouse2、按占用空间大小降序排列hdfsdfs-du/user/hive/warehouse/ipms.db|sort-nr3、查某一个分区占用空间大小（单位G)hadoopfs-ls

刀鋒偏冷·2024-03-15 13:13

03hive数仓安装与基础使用

hiveHive概述Hive是基于Hadoop的一个数据仓库工具。

daydayup9527·2024-03-14 13:39

HDFS

（一）HDFS简介及其基本概念 HDFS（HadoopDistributedFileSystem）是hadoop生态系统的一个重要组成部分，是hadoop中的的存储组件，在整个Hadoop中的地位非同一般

weixin_51987187·2024-03-12 14:32

大数据开发（Hadoop面试真题-卷二）

大数据开发（Hadoop面试真题）1、在大规模数据处理过程中使用编写MapReduce程序存在什么缺点？如何解决这些问题？

Key-Key·2024-03-12 02:15

ETL策略

ETL架构的datastage，informatica，以ELT为代表的ODI，再到后来的批处理方式，SQL编码方式，但是其本质还是抽取数据，处理，再加载到目标平台，常用的方式：1.初始化：当我们建立数仓平台时候

朱先生_hfm·2024-03-10 13:11

【算法随笔：HDU 3333 Turing tree】(线段树 | 离线 | 离散化 | 贪心）

https://acm.hdu.edu.cn/showproblem.php?pid=3333https://acm.hdu.edu.cn/showproblem.php?pid=3333https://vjudge.net.cn/problem/HDU-3333https://vjudge.net.cn/problem/HDU-3333题目很简单，给出长度为N的数组，Q次询问，每次给出区间[x,

XNB's Not a Beginner·2024-03-10 07:03

zookeeper 使用

zookeeper介绍zookeeper是一个为分布式应用提供一致性服务的软件，它是开源的Hadoop项目中的一个子项目，并且根据google发表的论文来实现的，接下来我们首先来安装使用下这个软件，然后再来探索下其中比较重要一致性算法

SkTj·2024-03-10 02:15

Hive SQL 开发指南（三）优化及常见异常

在大数据领域，HiveSQL是一种常用的查询语言，用于在Hadoop上进行数据分析和处理。为了确保代码的可读性、维护性和性能，制定一套规范化的HiveSQL开发规范至关重要。

大数据_苡~·2024-03-09 14:13

大数据开发（Hadoop面试真题-卷九）

大数据开发（Hadoop面试真题）1、Hivecount(distinct)有几个reduce，海量数据会有什么问题？

Key-Key·2024-03-09 10:06

服务器断电mysql文件丢失_服务器断电了怎么恢复数据？

最近小编我连续几天接到了大量关于服务器断电后的各种数据丢失，有的是意外断电导致服务器无法启动了，有的是服务器可以启动但是虚拟机丢失了，还有的是服务器断电后有多块硬盘出现故障离线了等等.....

BE东欲·2024-03-09 06:31

大数据开源框架技术汇总

目录系统平台（Hadoop、CDH、HDP）监控管理（CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle）文件系统（HDFS、GPFS、Ceph、Gluster

浪尖聊大数据-浪尖·2024-03-08 20:48

Mac 离线安装Qt5

如果使用brewinstallqt发生不明原因报错，可以尝试离线下载qt！！！

熊明之·2024-03-05 11:33

pnpm项目内网迁移技巧

步骤离线安装pnpm#在互联网设备执行pnpm的安装npmipnpm--install-strategy=shallow#完成后能看到node_modules目录下新建了pnpm目录#打包node_modules

夜晓码农·2024-03-04 12:35

LVS与nginx结合使用，更强的负载均衡

LVS的调度算法环境准备显示网络DR(192.168.102.29)配置RS1(192.168.101.134)配置RS2(192.168.101.139)配置客户端测试nginx配置下载安装包安装步骤离线安装在线安装

中年程序员一枚·2024-03-03 15:35

【Hadoop】在spark读取clickhouse中数据

读取clickhouse数据库数据importscala.collection.mutable.ArrayBufferimportjava.util.Propertiesimportorg.apache.spark.sql.SaveModeimportorg.apache.spark.sql.SparkSessiondefgetCKJdbcProperties(batchSize:String="

方大刚233·2024-03-03 06:54

【Hadoop】使用Metorikku框架读取hive数据统计分析写入mysql

一、定义作业文件作业文件该文件将包括输入源、输出目标和要执行的配置文件的位置，具体内容如下metrics:-/user/xrx/qdb.yaml#此位置为hdfs文件系统目录inputs:output:jdbc:connectionUrl:"jdbc:mysql://233.233.233.233:3306/sjjc"user:"root"password:"123456"driver:"com.

方大刚233·2024-03-03 06:23

Spark-sql Adaptive Execution动态调整分区数量，调整输出文件数

背景：在数仓任务中，经常要解决小文件的问题。

不想起的昵称·2024-03-02 15:03

hadoop里需要的libhadoop.so版本不一致导致问题及解决办法

$HADOOP_HOME/lib/native/Linux-amd64-64(64位操作系统)$HADOOP_HOME/lib/native/Linux-i386-32（32位操作系统）文件夹中的libhadoop.so

weixin_34304013·2024-03-02 09:23

hadoop启动报错处理

1.hadoop启动报错1.1.问题1util.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable

akuibpt23191·2024-03-02 08:51

openEuler离线安装docker

docker下载地址：https://download.docker.com/linux/static/stable/所有版本都有，根据你的需求去选择。我这里下载的docker版本号是20.10.23#wgethttps://download.docker.com/linux/static/stable/x86_64/docker-20.10.23.tgz#tarzxvfdocker-20.10.

·2024-02-29 16:52

Spark整合hive（保姆级教程）

准备工作：1、需要安装配置好hive，如果不会安装可以跳转到Linux下编写脚本自动安装hive2、需要安装配置好spark，如果不会安装可以跳转到Spark安装与配置（单机版）3、需要安装配置好Hadoop

万家林·2024-02-29 09:47

ky10 server docker-compose 离线安装

#离线安装rpm-Uvh--force--nodeps*.rpm出现上图说明安装成功查看版本docker-compose--version

三希·2024-02-28 20:33

EMR StarRocks实战——Mysql数据实时同步到SR

下文主要介绍如何使用Flink平台和E-MapReduceStarRocks，通过CTAS&CDAS功能实现实时数仓中TP（TransactionProcessi

爱吃辣条byte·2024-02-28 09:49

Hadoop-Yarn-NodeManager是如何监控容器的

一、源码下载下面是hadoop官方源码下载地址，我下载的是hadoop-3.2.4，那就一起来看下吧Indexof/dist/hadoop/core二、上下文在我的博客中的ContainerLaunchprepareForLaunch

隔着天花板看星星·2024-02-28 06:15

MySQL——知识点总结（持续更新中）

知识点汇总MySQL——在线、离线安装MySQL-5.7.14MySQL——使用docker镜像拉取MySQLMySQL——通用二进制安装MySQL-5.7.14MySQL——源码安装MySQL-5.7.14MySQL

人若少年要风流·2024-02-27 20:03

Zookeeper实现分布式锁

首先需要确保有hadoop102，hadoop103，hadoop104三台虚拟机并且都安装成功且配置成功了zookeeper。

正在绘制中·2024-02-25 23:35

大厂的数据质量中心系统设计

而问题发现可经历较长周期（尤其离线场景），往往是业务方通过上层数据报表发现数据异常后push数据方去定位问题（对于一个较冷的报表，这个周期可能会更长）。

·2024-02-20 23:45

docker搭建hadoop hdfs完全分布式集群

1制作hadoop镜像参见https://www.cnblogs.com/rmxd/p/12051866.html该博客中只参考制作镜像部分，固定IP及启动集群的部分应该跳过。

shangcunshanfu·2024-02-20 22:08

基于docker安装HDFS

1.docker一键安装见docker一键安装2.拉取镜像sudodockerpullkiwenlau/hadoop:1.03.下载启动脚本gitclonehttps://github.com/kiwenlau

core512·2024-02-20 22:02

推荐频道

hadoop离线数仓

webjs 数据库 离线读取本地数据库源码-SAAS 本地化及未来之窗行业应用跨平台架构