E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
云计算平台hadoop
个人笔记:分布式大数据技术原理(二)构建在
Hadoop
框架之上的 Hive 与 Impala
有了MapReduce,Tez和Spark之后,程序员发现,MapReduce的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言,虽然你几乎什么都能干了,但是你还是觉得繁琐。你希望有个更高层更抽象的语言层来描述算法和数据处理流程。于是就有了Pig和Hive。Pig是接近脚本方式去描述MapReduce,Hive则用的是SQL。它们把脚本和SQL语言翻译成MapReduce程序,丢给计
garagong
·
2024-01-07 07:16
大数据
大数据
hadoop
hive
impala
mapreduce
【DataX】windows下本地DataX同步hive到mysql,hive带Kerberos认证
直接同步会报错:java.lang.RuntimeException:java.io.FileNotFoundException:java.io.FileNotFoundException:
HADOOP
_HOMEand
hadoop
.home.dirareunset
airyv
·
2024-01-07 06:44
大数据
hive
mysql
hadoop
datax
离线同步
[云原生专题-3]:云平台 -
云计算平台
快速入门
作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客本文网址:https://blog.csdn.net/HiWangWenBing/article/details/122643572目录前言第1章什么是云、云服务、云平台1.1什么是云与云计算。1.2什么是云服务与与平台第2章为什么选择云平台与云平台的优点第3章云平台的服务类型第4章关键技术4.1体系结构4.
文火冰糖的硅基工坊
·
2024-01-07 06:06
云原生专题
云原生
云计算
cloud
native
公有云
云厂家
基于
Hadoop
的豆瓣电影数据分析
Hadoop
是一个开源的分布式计算框架,它提供了处理大规模数据集的能力。在本文中,我们将利用
Hadoop
框架对豆瓣电影数据进行分析。
数据科学探险导航
·
2024-01-07 05:07
hadoop
数据分析
eclipse
大数据编程期末大作业
大数据编程期末大作业文章目录大数据编程期末大作业一、
Hadoop
基础操作二、RDD编程三、SparkSQL编程四、SparkStreaming编程一、
Hadoop
基础操作在HDFS中创建目录/user/
-北天-
·
2024-01-07 05:20
大数据学习
大数据
课程设计
hadoop
基于等保合规和滑动标尺模型的云安全建设方法
文章目录前言一、
云计算平台
面临的安全挑战(一)新兴风险和传统风险的冲击(二)云计算安全日益严峻,面临更大的安全挑战(三)提升对
云计算平台
的全面系统性安全建设的认知二、在云计算安全建设上的误区(一)缺乏整体视角构建云上安全
岛屿旅人
·
2024-01-07 05:18
网络安全
web安全
网络
安全
大数据
人工智能
Hive的基本的概述即使用参考
1.Hive的概述√意义:在于大幅度降低工程师学习MapReduce的学习成本,让好用(计算速度快)的MapReduce更方便的使用(使用简单)√基本概念:Hive是基于
Hadoop
的一个数据仓库工具,
C8H11O2N_4cd4
·
2024-01-07 02:29
《PySpark大数据分析实战》-23.Pandas介绍DataFrame介绍
对大数据技术栈
Hadoop
、Hive、Spark、Kafka等有深入研究,对Data
wux_labs
·
2024-01-07 00:26
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
《PySpark大数据分析实战》-22.Pandas介绍Series介绍
对大数据技术栈
Hadoop
、Hive、Spark、Kafka等有深入研究,对Data
wux_labs
·
2024-01-07 00:25
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
《PySpark大数据分析实战》-25.数据可视化图表Matplotlib介绍
对大数据技术栈
Hadoop
、Hive、Spark、Kafka等有深入研究,对Data
wux_labs
·
2024-01-07 00:24
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
2024.1.5
Hadoop
各组件工作原理,面试题
目录1.简述下分布式和集群的区别2.
Hadoop
的三大组件是什么?3.请简述hive元数据服务配置的三种模式?4.数据库与数据仓库的区别?5.简述下数据仓库经典三层架构?
白白的wj
·
2024-01-06 23:34
hadoop
hive
zookeeper
spark
数据仓库
mapreduce
hdfs
Flink常见核心概念
分布式缓存有时一些数据是通用的,就需要进行共享,可以放在文件、缓存、db中,可以放在文件中,先缓存到
hadoop
集群中,然后使用cachepublicclassCacheStream{publicstaticvoidmain
一生逍遥一生
·
2024-01-06 21:56
Hive 源码解析一:Driver
这是hive的架构图从架构图来看,黄颜色属于Hive范畴,蓝颜色属于
Hadoop
范畴,其中MetaStore可以说是独立Hive核心
小王是个弟弟
·
2024-01-06 17:25
hive
hadoop
big
data
《Hive系列》Hive详细入门教程
目录1Hive基本概念1.1什么是HiveHive简介Hive:由FaceBook开源用于解决海量结构化日志的数据统计工具Hive:基于
Hadoop
的一个数据仓库工具,可以将结构化的数据文件映射为一张表
DATA数据猿
·
2024-01-06 17:55
Hive
hive
Hive(一)概述
文件格式5.Hive压缩6.Hive配置7.关于小文件问题二.安装Hive三.Hive基本使用一.简介1.概述什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计工具Hive是基于
Hadoop
Jumanji_
·
2024-01-06 17:54
大数据框架
hive
hadoop
big
data
YARN(一)-- 产生原因及概述
本文内容如下:介绍为什么会产生YARN(同时介绍原MapReduce框架的不足)YARN的基本原理首先说一下YARN是什么吧:Apache
Hadoop
YARN(YetAnotherResourceNegotiator
小北觅
·
2024-01-06 17:54
Flume基础知识(九):Flume 企业开发案例之复制和多路复用
2)需求分析:3)实现步骤:(1)准备工作在/opt/module/flume/job目录下创建group1文件夹[root@
hadoop
102job]$cdgroup1
依晴无旧
·
2024-01-06 17:58
大数据
flume
大数据
教你如何将本地虚拟机变成服务器,供其它电脑访问
在虚拟机上安装
hadoop
和hive,然后同学机子上安装kettle进行连接。最后发现是可以的。本文介绍如何将本地虚拟机变成服务器,供其它电脑访问。
吾浴西风
·
2024-01-06 16:01
服务器
运维
高可用分布式部署Spark、完整详细部署教程
Spark基于mapreduce算法实现的分布式计算,拥有
Hadoop
MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark
一座野山
·
2024-01-06 16:15
spark
bigdata
hadoop
分布式
spark
大数据
linux
SuperMap分布式数据库实操
.配置开机自启动5.集群部署5.1主从复制集群5.2副本集集群安装部署配置开机自启动5.3分片集群二、DSF(HDFS)1.HDFS2.安装部署三、DSF(本地文件)四、HBASE1.数据模型2.安装
Hadoop
会灭火的程序员
·
2024-01-06 15:42
SuperMap
数据库
数据库
分布式
mongodb
hdfs
hbase
《数据采集与预处理环境》实验环境安装
文章目录1.安装Python及第三方库2.jupyternotebook安装3.jdk安装4.MySQL安装1.在根目录下创建文件my.ini2.初始化3.安装服务4.启动服务5.登录6.配置环境变量5.
hadoop
活下去.
·
2024-01-06 14:10
python
mysql
hadoop
熟悉常用的Linux操作和
Hadoop
操作
1.安装虚拟机(1)VMwareworkstationpro安装包下载登录VMware官网:VMware中国-交付面向企业的数字化基础|CN,点击登录->云服务控制台,进入欢迎使用VMware页面,点击创建您的VMWARE账户,进入注册界面填写信息并注册。注册完成后,返回登录页面进行登录,进入VMwareworkstationpro下载地址(https://customerconnect.vmwa
cwn_
·
2024-01-06 11:47
大数据
linux
hadoop
运维
大数据
HDFS的高可用性
Hadoop
在2.x的版本引入了联邦HDFS(HDFSFederation),通过在集群中添加namenode实现。
zh_harry
·
2024-01-06 10:25
FAILED: SemanticException org.apache.
hadoop
.hive.ql.metadata.HiveException:
FAILED:SemanticExceptionorg.apache.
hadoop
.hive.ql.metadata.HiveException:java.lang.RuntimeException:Unabletoinstantiateorg.apache.
hadoop
.hive.ql.metadata.SessionHiveMetaStoreClient
深度检测
·
2024-01-06 10:25
hive
hadoop
apache
Spark概述
Spark概述Spark是什么ApacheSpark是一个快速的,多用途的集群计算系统,相对于
Hadoop
MapReduce将中间结果保存在磁盘中,Spark使用了内存保存中间结果,能在数据尚未写入硬盘时在内存中进行运算
我像影子一样
·
2024-01-06 09:38
Spark
大数据
spark
大数据
Hbase进阶
yarn-daemon.shstartresourcemanageryarn-daemon.shstartnodemanager(2)在hive中建表时附加上:storedby'org.apache.
hadoop
.hive.hbase.HBaseStorageHandler'withserdeproperties
xinxinyydss
·
2024-01-06 08:36
hbase
数据库
大数据
java: 从HBase中读取数据
一、添加依赖:org.apache.
hadoop
hadoop
-client2.6.0org.apache.hbasehbase-client2.4.2二、使用Scanner读取数据示例:packagecn.edu.tju
amadeus_liu2
·
2024-01-06 08:01
Hadoop
java
Hadoop
: HBase模糊查询
Tabletable=connection.getTable(TableName.valueOf("originalSignal"));Scanscan=newScan();RowFilterrowFilter=newRowFilter(CompareOp.EQUAL,newSubstringComparator(vin));scan.setFilter(rowFilter);ResultScan
amadeus_liu2
·
2024-01-06 08:31
Hadoop
Hadoop
: User:
hadoop
is not allowed to impersonate anonymous
/etc/
hadoop
/core-site.xml增加(
hadoop
是你的用户名)
hadoop
.proxyuser.
hadoop
.hosts*
hadoop
.proxyuser.
hadoop
.groups
amadeus_liu2
·
2024-01-06 08:00
Hadoop
Hadoop
: 访问hdfs报错Failed on local exception: com.google.protobuf.InvalidProtocolBufferExceptio
可能是hdfs端口配置的不是默认的9000,hdfsgetconf-confkeyfs.default.name可以查看端口
amadeus_liu2
·
2024-01-06 08:00
Hadoop
Hadoop
: JAVA连接单机版HBase报错:java.net.UnknownHostException: can not resolve master
windows:修改host文件,加上xxx.xxx.xxx.xxx(服务器ip)master.Linux:修改/etc/hosts
amadeus_liu2
·
2024-01-06 08:00
Hadoop
Hadoop
: SpringBoot Hive项目报java.lang.AbstractMethodError: org.apache.jasper.servlet.TldScanner$Tl
修改hive-jdbc依赖org.apache.hivehive-jdbc3.1.2org.eclipse.jettyjetty-runner
amadeus_liu2
·
2024-01-06 08:30
Hadoop
Hadoop
:jdbc连接hive maven 依赖
junitjunit3.8.1testorg.apache.
hadoop
hadoop
-common3.3.0org.apache.hivehive-jdbc3.1.2jdk.toolsjdk.tools1.8system
amadeus_liu2
·
2024-01-06 08:30
Hadoop
Hadoop
: dfs常用命令
bin/
hadoop
dfs-mkdir/hilubin/
hadoop
dfs-touchz/hilu/niuyear.txtbin/
hadoop
dfs-touchz/hilu/niuyear2.txtbin
amadeus_liu2
·
2024-01-06 08:00
Hadoop
java: 写入数据到HBase
一、添加依赖org.apache.
hadoop
hadoop
-client2.6.0org.apache.hbasehbase-client2.4.2二、调用API写HBase示例packagecn.edu.tju
amadeus_liu2
·
2024-01-06 08:55
Hadoop
java
hbase
开发语言
【大数据进阶第三阶段之Hive学习笔记】Hive安装
1、环境准备安装
hadoop
以及zookeeper、mysql【大数据进阶第二阶段之
Hadoop
学习笔记】
Hadoop
运行环境搭建-CSDN博客《zookeeper的安装与配置》自行百度《Linux环境配置
伊达
·
2024-01-06 07:07
Hive
大数据
大数据
hive
学习
MR实战:网址去重
实现步骤1、创建Maven项目2、添加相关依赖3、创建日志属性文件4、创建网址去重映射器类5、创建网址去重归并器类6、创建网址去重统计驱动器类7、启动应用,查看结果四、实战总结一、实战概述本实战项目主要利用
Hadoop
MapReduce
howard2005
·
2024-01-06 06:09
Hadoop分布式入门
mr
网址去重
StreamPark + PiflowX 打造新一代大数据计算处理平台
它具有如下特性:简单易用:可视化配置流水线,实时监控流水线运行状态,查看日志;功能强大:提供100+的数据处理组件,包括
Hadoop
、Spark、MLlib、Hive、Solr、Redis、MemCa
暗影八度
·
2024-01-06 05:47
大数据
spark
hadoop
flink
新一代大数据管家 DataSophon 1.2 重磅发版
在大数据领域,现在普遍认为是后
Hadoop
时代,CDH的停更和闭源导致传统的
Hadoop
体系组件栈没有一个称手好用的管理工具,越来越多新一代的大数据项目也在层出不穷,同样也需要管理,并且需要适配云原生的能力
Datavane
·
2024-01-06 05:47
大数据
2.HDFS 架构
目录概述架构HDFS副本HDFS数据写入流程NN工作原理DN工作原理结束概述官方文档快递环境:
hadoop
版本3.3.6相关文章速递架构HDFSHDFS架构总结如下:amaster/slavearchitecture
流月up
·
2024-01-05 23:01
大数据
hdfs
架构
hadoop
namenode工作原理
datanode工作原理
1.大数据概述
目录概述
hadoop
hadoop
模块
hadoop
发行版apache社区版本CDP(CDH+HDP)其它云产商框架选择
hadoop
安装结束概述先了解几个常用的网站apache官网
hadoop
官网
hadoop
githubhttps
流月up
·
2024-01-05 23:00
大数据
hadoop
大数据
发行版
模块
Hadoop
面试题与python基础
Hadoop
面试题
Hadoop
的三种部署模式?
Hadoop
最初元数据放在哪里?要想多个客户端访问,元数据要放在哪里?分桶表和分区表的区别?项目中如何实现拉链表?
中长跑路上crush
·
2024-01-05 23:02
hadoop
python
大数据
【无标题】
ETL项目–自学笔记(补充)1、服务启动cdh虚拟机中服务会自动启动手动启动启动
hadoop
服务/export/server/
hadoop
/sbin/start-all.sh启动hive服务metastore
中长跑路上crush
·
2024-01-05 23:02
hadoop
python
大数据
etl工程师
大数据 HDFS-存储的王者
我们知道,Google大数据“三驾马车”的第一驾是GFS(Google文件系统),而
Hadoop
的第一个产品是HDFS,可以说分布式文件存储是分布式计算的基础,也可见分布式文件存储的重要性。
善守的大龙猫
·
2024-01-05 21:48
大数据
大数据
hdfs
hadoop
什么是架构设计?
我们会对新员工培训整个系统的架构,参加架构设计评审,学习业界开源系统(例如MySQL和
Hadoop
)的架构,研究大公司的架构实现(例如微信架构和淘宝架构)……虽然“架构”这个词很常见,但如果深究一下,“
善守的大龙猫
·
2024-01-05 21:48
架构设计
系统架构
大数据 MapReduce是什么?
在
Hadoop
问世之前,其实已经有了分布式计算,只是那个时候的分布式计算都是专用的系统,只能专门处理某一类计算,比如进行大规模数据的排序。
善守的大龙猫
·
2024-01-05 21:47
大数据
大数据
mapreduce
HDFS&Yarn HA架构设计
一、为什么要用HA在
hadoop
2.0.0之前,在hdfs集群中,NameNode是存在单点故障问题的。
吃货大米饭
·
2024-01-05 20:22
MR实战:词频统计
实现步骤1、创建Maven项目2、添加相关依赖3、创建日志属性文件4、创建词频统计映射器类5、创建词频统计归并器类6、创建词频统计驱动器类7、启动应用,查看结果四、实战总结一、实战概述本实战演练旨在利用
Hadoop
MapReduce
howard2005
·
2024-01-05 19:01
Hadoop分布式入门
mr
词频统计
Pentaho Kettle 6.1连接CDH5.4.0集群
最近把之前写的
Hadoop
MapReduce程序又总结了下,发现很多逻辑基本都是大致相同的,于是想到能不能利用ETL工具来进行配置相关逻辑来实现MapReduce代码自动生成并执行,这样可以简化现有以及之后的一部分工作
香山上的麻雀
·
2024-01-05 16:43
企业级大数据安全架构(二)安全方案
作者:楼高1Knox访问控制ApacheKnox是一个为Apache
Hadoop
部署提供交互的应用网关,通过其RESTAPI和用户友好的UI,为所有与
Hadoop
集群的REST和HTTP交互提供了统一的访问点
云掣YUNCHE
·
2024-01-05 15:33
企业级大数据安全架构
安全
大数据
安全架构
上一页
21
22
23
24
25
26
27
28
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他