E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
研磨hadoop
从非kerberos认证的
hadoop
集群复制数据到kerberos化集群
在kerberos化主机上,先使用kinit命令初始化kerberossession
hadoop
distcp-Dipc.client.fallback-to-simple-auth-allowed=truehdfs
长名字可以让你朋友更容易记住你
·
2023-09-20 20:02
2023年大数据面试通关文牒系列篇
大数据面试通关文牒系列篇第二篇:
Hadoop
生态链Round1:HIVEHIVE基础篇1、Hive内部表和外部表的区别未被external修饰的是内部表,被external修饰的为外部表。
AuZn666
·
2023-09-20 19:42
大数据
面试
hadoop
狂神docker
开发即运维–开发打包部署上线一条龙环境配置十分麻烦,机器部署耗时间(redis,es
hadoop
费时费力)发布项目时,带上环境—引出docker–开发打包部署上线,一套流程做完java—jar(环境)–
小白白要变强
·
2023-09-20 18:46
docker
容器
运维
Hadoop
:Hive操作(二):数据表操作,复杂数据类型,Sampling采样,虚拟列
数据表操作上接:
Hadoop
:YARN、MapReduce、Hive操作_独憩的博客-CSDN博客分桶表分桶表创建分区的作用可以把数据分成n个文件夹单独存放,而分桶表则可以把一个表的数据放在一个文件夹下
独憩
·
2023-09-20 14:56
Hadoop
hadoop
大数据
分布式
Hadoop
技术生态简介
文章来源:加米谷大数据大数据的发展历史当中,
Hadoop
技术框架是占据着重要地位的,历经十多年的时间,依然是企业搭建大数据平台基础架构的主流选择,围绕着
Hadoop
而生的大数据生态组件,也都各自发挥着各自的作用
会飞的鱼go
·
2023-09-20 11:56
IDEA配置
Hadoop
环境-非maven配置版(图文详细)
IDEA配置
Hadoop
环境(非maven配置版)1.下载所需要的包2.安装下载的包3.配置
hadoop
环境变量4.IDEA添加
hadoop
包5.写操作配置6.常见问题6.1添包之后,包还是红色问题6.2
swansfought
·
2023-09-20 10:35
安装配置系列
hadoop
intellij-idea
大数据
Flink sql 1.17笔记
环境准备#启动
hadoop
集群#启动Flinkyarnsession(base)[link999@
hadoop
102flink-1.17.0]$bin/yarn-session.sh-d#启动finksql
Link_999
·
2023-09-20 09:10
Flink
flink
2020-12-03《Presto分布式SQL查询引擎——kkb笔记复习》
Presto分布式SQL查询引擎一、课前准备jdk版本要求:Java8Update151orhigher(8u151+),64-bit安装好
hadoop
集群安装好hive二、课堂主题介绍prestopresto
爱学大树锯
·
2023-09-20 08:54
presto
presto
Flume系列:Flume Channel使用
目录Apache
Hadoop
生态-目录汇总-持续更新1:KafkaChannel2:FileChannel3:MemoryChannelApache
Hadoop
生态-目录汇总-持续更新系统环境:centos7Java
iwester
·
2023-09-20 08:25
#
Flume
flume
大数据
hadoop
开源分布式存储系统(HDFS、Ceph)架构分析
分析完全无中心架构-CephCephMonitor分析CephOSD分析CephManager分析CephClients分析小结HDFS优点缺点Ceph优点缺点参考中间控制节点架构-HDFS以HDFS(
Hadoop
DistributionFileSystem
gengduc
·
2023-09-20 05:25
分布式存储Ceph
开源
分布式
hdfs
ceph
架构
Hadoop
学习(8)-- Apache Hive入门
ApacheHive概述什么是HiveApacheHive是一款建立在
Hadoop
之上的开源数据仓库系统,可以将存储在
Hadoop
文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似
技术闲聊DD
·
2023-09-20 05:25
大数据
hadoop
hive
学习
Apache Hive入门1
ApacheHive入门1Hive是
Hadoop
项目中的一个子项目,由FaceBook向Apache基金会贡献,其中TaoBao也是其中一位使用者+贡献者,Hive被视为一个仓库工具,可以将结构化的数据文件映射为一张数据库表
white__cat
·
2023-09-20 05:24
大数据
PySpark集群完全分布式搭建
阅读本文前,有几个点需要注意:本文假设读者有
Hadoop
的搭建基础,并且成功搭建了完全分布式的
Hadoop
集群,因此本文不会对该方面的知识进行铺垫。
Ahaxian
·
2023-09-20 05:23
Spark学习之路
分布式
大数据
hadoop
spark
python
【
Hadoop
】三、数据仓库基础与Apache Hive入门
文章目录三、数据仓库基础与ApacheHive入门1、数据仓库基本概念1.1、数据仓库概念1.2、场景案例:数据仓库为何而来1.3、数据仓库主要特征1.4、数据仓库主流开发语言--SQL2、ApacheHive入门2.1、ApacheHive概述2.2、场景设计:如何模拟实现Hive功能2.3、ApacheHive架构、组件3、ApacheHive安装部署3.1、ApacheHive元数据3.2、
陌上人如玉এ
·
2023-09-20 05:22
大数据
数据仓库
hive
hadoop
数据仓库、Apache hive 入门
ApacheHive是一款建立在
Hadoop
之上的开源数据仓库系统,可以将存储在
Hadoop
文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言
互联网小白兔
·
2023-09-20 05:21
大数据
数据仓库
apache
hive
Hadoop
需要用到的端口,亲测有用
端口开启命令firewall-cmd--zone=public-add-port=xxxx\tcp--permanent228080208021808080888888909098029820986498689870999950010500205003050060500705007550090
今天我牙疼
·
2023-09-20 05:50
大数据开发
hadoop
linux
大数据
Apache Hive入门
文章目录一、ApacheHive概述1.1、什么是Hive1.2、使用Hive原因1.3、Hive和
Hadoop
关系二、Hive功能思想2.1、映射信息记录2.2、SQL语法解析、编译三、Hive架构、
Xsqone
·
2023-09-20 05:50
hive
hadoop
转载:Spark的运行架构分析(二)
转载:Spark的运行架构分析(二)之运行模式详解一:SparkOnLocal此种模式下,我们只需要在安装Spark时不进行
hadoop
和Yarn的环境配置,只要将Spark包解压即可使用,运行时Spark
小小少年Boy
·
2023-09-20 05:54
Apache Hive入门:模拟实现Hive功能、Hive架构、 组件
一、ApacheHive概述什么是HiveApacheHive是一款建立在
Hadoop
之上的开源数据仓库系统,可以将存储在
Hadoop
文件中的结构化、半结构化数据文件映射为一张数据库表,基于表提供了一种类似
黑马程序员官方
·
2023-09-20 05:48
hive
apache
hadoop
Apache Hive 入门
目录一、ApacheHive概述1.1什么是Hive1.2为什么使用Hive1.3Hive和
Hadoop
关系二、场景设计:如何模拟实现Hive功能2.1如何模拟实现ApacheHive的功能2.2映射信息记录
Stars.Sky
·
2023-09-20 05:16
Hive
apache
hive
hadoop
[sqoop]hive3.1.2
hadoop
3.1.1安装sqoop1.4.7
参考:
Hadoop
3.2.4+Hive3.1.2+sqoop1.4.7安装部署_
hadoop
sqoop安装_alicely07的博客-CSDN博客一、安装1、解压tar-zxvfsqoop-1.4.7.
胖胖学编程
·
2023-09-20 05:09
sqoop
sqoop
服务器
linux
ERROR tool.ImportTool: Import failed: org.apache.
hadoop
.mapred.FileAlreadyExistsException: Output...
报错代码:20/11/1400:36:50ERRORtool.ImportTool:Importfailed:org.apache.
hadoop
.mapred.FileAlreadyExistsException
我住永安当
·
2023-09-20 05:16
分布式系统知识总结
分布式协调与同步分布式互斥的实现方案:集中算法,也叫中央处理,容易出现单点故障,分布式算法,算法可用性比较低,容易产生通信风暴,适合小的,变动少的架构,比如
hadoop
的htfs令牌环算法,轮值,用一个令牌实现
clever哲思
·
2023-09-20 04:16
Hbase完全分布式搭建
一、简介Hbase官网二、生产集群搭建准备Zookeeper集群,Zookeeper搭建
Hadoop
集群(必须搭建完),
Hadoop
搭建Hbase完全分布式配置(注意切换用户
hadoop
)#上传Hbase
鋆坤
·
2023-09-20 03:06
Spark 常用算子详解(转换算子、行动算子、控制算子)
Spark简介Spark是专为大规模数据处理而设计的快速通用的计算引擎;Spark拥有
Hadoop
MapReduce所具有的优点,但是运行速度却比MapReduce有很大的提升,特别是在数据挖掘、机器学习等需要迭代的领域可提升
SUSUR_28f6
·
2023-09-20 03:33
大数据开发工程师是做什么的?
熟练掌握数据仓库、
hadoop
生态体系、计算及二次开发、大数据平台工具的开发:开发平台、调度系统、元数据平台等工具,该岗位对于技术要求较高。
我想去吃ya
·
2023-09-20 01:05
大数据
hadoop
hive
python
分布式
大数据组件测试环境
一、大数据组件环境搭建1.
Hadoop
环境搭建1.1模板虚拟机环境准备0)安装模板虚拟机,IP地址192.168.10.100、主机名称
hadoop
100、内存4G、硬盘50G1)
hadoop
100虚拟机配置要求如下
程序猿张同学
·
2023-09-20 01:35
大数据学习
linux学习
大数据
linux
centos
大数据常用组件总结
转载自https://blog.csdn.net/baidu_28398971/article/details/70821114
Hadoop
生态圈各常用组件介绍
Hadoop
是一个由Apache基金会所开发的分布式系统基础架构
Mei_ZS
·
2023-09-20 01:04
spark
大数据开发中常用组件服务的集群管理脚本整理集合
大数据开发常用脚本整理集合大数据环境相关脚本bash运行模式说明创建shell脚本目录配置hostsSSH自动配置脚本文件同步、复制工具rsync基本用法文件同步脚步命令执行脚本节点循环简化大数据组件相关脚本
Hadoop
CodeDevMaster
·
2023-09-20 01:34
大数据
大数据
hadoop
zookeeper
flume
kafka
基于Storm构建分布式实时处理应用初探
Storm对比
Hadoop
,前者更擅长的是实时流式数据处理,后者更擅长的是基于HDFS,通过MapReduce方式的离线数据分析计算。对于
Hadoop
,本身不擅长实时的数据分析处理。
丨程序之道丨
·
2023-09-20 01:58
一篇文章带你学会
Hadoop
-3.3.4集群部署
目录编辑一、
Hadoop
集群部署二、基础设施配置2.1设置网络2.1.1设置主机名称2.1.2设置hosts配置文件2.1.3关闭防火墙2.1.4关闭selinux2.1.5更换语言环境2.1.6更换时区
夜夜流光相皎洁_小宁
·
2023-09-20 00:55
#
hadoop
大数据
hadoop
大数据
分布式
yarn
mapreduce
shell练习2
并且按顺序进行显示;使用cut、sort结合管道实现3、如果/var/log/messages文件的行数大于100,就显示好大的文件4、显示/etc目录下所有以pa开头的文件,并统计其个数5、如果用户
hadoop
XKingBoss
·
2023-09-20 00:19
实验
shell
Java API操作
Hadoop
可能遇到的问题以及解决办法
Couldnotlocate
Hadoop
executable:xxx\bin\winutils.exeCausedby:java.io.FileNotFoundException:Couldnotlocate
Hadoop
executable
WuCunJian
·
2023-09-19 23:07
终于产完了!Kafka 打怪升级进阶成神之路(2023最新版)
前面给大家介绍了:关系型数据库MySQL、NoSQL数据库Redis、MongoDB、搜索引擎ElasticSearch、大数据
Hadoop
框架、PostgreSQL数据库等知识体系学习的文章。
·
2023-09-19 22:51
工作流调度引擎——Oozie
一、什么是OozieOozie由Cloudera公司贡献给Apache的基于工作流引擎的开源框架,用于
Hadoop
平台的工作流调度。
kiss火葱花
·
2023-09-19 22:35
大数据
oozie集成
分布式文件存储系统hdfs
hdfs基础知识
hadoop
当中的文件系统是一个抽象类,里面有很多的子实现类,例如hdfs,file:///,ftp等文件系统。
康俊1024
·
2023-09-19 21:36
Hadoop
的HDFS高可用方案
一、
Hadoop
高可用简介
Hadoop
高可用(HighAvailability)分为HDFS高可用和YARN高可用,两者的实现基本类似,但HDFSNameNode对数据存储及其一致性的要求比YARNResourceManger
万里长江横渡
·
2023-09-19 20:55
hadoop
hdfs
大数据
Hadoop
的YARN高可用
一、YARN简介
Hadoop
2.0即第二代
Hadoop
,由分布式存储系统HDFS、并行计算框架MapReduce和分布式资源管理系统YARN三个系统组成,其中YARN是一个资源管理系统,负责集群资源管理和调度
万里长江横渡
·
2023-09-19 20:23
hadoop
大数据
分布式
Kafka 安装及基本入门
Kakfa支持以发布/订阅的方式在应用间传递消息,同时并基于消息功能添加了KafkaConnect、KafkaStreams以支持连接其他系统的数据源,如ES、
Hadoop
等。
ColorlessCube
·
2023-09-19 17:52
架构设计
kafka
linux
kafka
分布式
java
Docker遇到的问题汇总
Docker遇到的问题汇总进行大数据开发,需要虚拟一个
Hadoop
集群,原来都是在Win下开发的,前段时间刚换成M1pro的02021款的mbp,遇到很多很多问题,到最后也根本没有办法使用号称支持M1Mac
小菜鸡也有大佬梦
·
2023-09-19 15:35
Docker
docker
centos
linux
大数据
Hadoop
分布式计算
Mapreduce概述Mapreduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题Mapreduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据[可以把reduce理解为一个单独的聚合程序]MapR
coderLumia
·
2023-09-19 14:30
十条人生铁律,
研磨
实践出真知
一,欲望突破自逼为王,他逼为臣,不逼为奴欲望,明确目标,目标,清晰合理的方式,才是不断磨炼自己的磨刀石!明确自己的欲望,确定为目标付出的代价,用长视思维看待所做事项!低级欲望,通过放纵获得:当下爽的东西,未来一定会让你痛!高级欲望,通过自律获得:就目前工作来讲,自律的方式,就是自逼,探索写作风格,行业报告,行业其他市场行径,总结摸索出来属于自己风格的内容,这就是自律的最好阐释!这个路径有目标,有反
隐隆陶
·
2023-09-19 13:16
终于产完了!Zookeeper 打怪升级进阶成神之路(2023最新版)
前面给大家介绍了:关系型数据库MySQL、NoSQL数据库Redis、MongoDB、搜索引擎ElasticSearch、大数据
Hadoop
框架、PostgreSQL数据库、消息中间件Kafka等知识体系学习的文章
·
2023-09-19 12:16
【Spark】win10配置IDEA、saprk、
hadoop
和scala
终于,要对并行计算下手了哈哈哈。一直讲大数据大数据,我单次数据处理量大概在1t上下,是过亿级的轨迹数据。用python调用multiprogress编写的代码,用多线程也要一个多月跑完。我对这个效率不太满意,希望能快一点再快一点,这是学习Spark的前提。安装过程见:spark出pyspark了,可直接用python调用。但是我想接触下scala。所以先装scala试试。博客园:windows上安
请给我一脚
·
2023-09-19 12:07
分布式
spark
intellij-idea
hadoop
MySQL 启动报错:Job for mysqld.service failed because the control process exited with error code.
本专栏目录结构和参考文献请见大数据异常问题汇总问题启动mysql服务报错,如下所示[root@node2
hadoop
]#systemctlstartmysqld.serviceJobformysqld.servicefailedbecausethecontrolprocessexit
Shockang
·
2023-09-19 12:05
大数据异常
mysql
hadoop
重要配置文件
1)
hadoop
的默认配置文件(jar包内部)core-default.xml:默认的核心
hadoop
属性文件。
xby18772963985
·
2023-09-19 11:59
大数据开发
hadoop
hdfs
big
data
CDH + FlinkSQL1.13.2 + hive
[root@
hadoop
01conf]#catsql-client-defaults.yaml######################################################
胖胖胖胖胖虎
·
2023-09-19 11:55
Flink
CDH
flink
实训笔记——Spark计算框架
资源调度管理器的)3.1本地安装--无资源管理器3.2Spark的自带独立调度器Standalone3.2.1主从架构的软件3.2.2Master/worker3.2.3伪分布、完全分布、HA高可用3.3
Hadoop
cai-4
·
2023-09-19 10:19
实训
笔记
spark
大数据
zookeeper未授权漏洞复现及处理
一、漏洞详情Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是
Hadoop
和Hbase的重要组件。
kofterry
·
2023-09-19 09:46
zookeeper
分布式
云原生
Hadoop
2.0 HDFS高可用架构
上图是一个典型的HA集群,NameNode会被配置在两台独立的机器上,在任何时间上,一个NameNode处于活动状态,而另一个NameNode处于备份状态,活动状态的NameNode会响应集群中所有的客户端,备份状态的NameNode只是作为一个副本,保证在必要的时候提供一个快速的转移。为了让StandbyNode与ActiveNode保持同步,这两个Node都与一组称为JNS的互相独立的进程保持
truezqx
·
2023-09-19 09:35
上一页
95
96
97
98
99
100
101
102
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他