E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hadoop系列
大数据日志分析系统-缓存组件kafka
zookeeper简介是一个分布式的,开放源码的分布式应用程序协调服务,很多地方用到,最常见的是为集群提供基础的、高可用HA(HighAvailability)服务是kafka集群的基础依赖,同时也是
hadoop
朋好友5
·
2020-06-27 08:15
大数据日志分析系统
hadoop系列
文档4-配置Yarn高可用HA
背景之前有一篇高可用HDFSHA的配置文档,此文档类似上次,介绍如何配置高可用Yarn’sResourceManager,在hadoop中默认只有一个ResourceManger,现在增加一个节点,类似我们的NameNode的active/stangdby状态。参考文章http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-sit
u010237107
·
2020-06-26 21:21
hadoop
hadoop系列
文档3-配置Hdfs高可用HA
背景早在Hadoop2.0.0之前,在一个HDFS集群中,只有一个NameNode,如何这个NameNode因为某种原因挂掉了(SPOF),那么整个集群将不可用。参考文章http://www.cnblogs.com/meiyuanbao/p/hadoop2.htmlhttp://blog.csdn.net/skywalker_only/article/details/40300839http://
u010237107
·
2020-06-26 21:21
hadoop
常用的几种大数据架构剖析
随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于
Hadoop系列
的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统
John_like521
·
2020-06-26 07:12
java
大数据
大数据
架构
对比解读五种主流大数据架构的数据分析能力
随着大数据技术的发展,数据挖掘、数据探索等专有名词的曝光度越来越高,但是在类似于
Hadoop系列
的大数据分析系统大行其道之前,数据分析工作已经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统
linghujing
·
2020-06-26 00:50
大数据平台有什么功能作用
典型的包括
Hadoop系列
、Spark、Storm、Flink以及Flu
中琛源科技
·
2020-06-25 04:42
hive(01)、基于hadoop集群的数据仓库Hive搭建实践
以及可以搭建完整的集群和开发简单的MapReduce项目,下面我们开始学习基于Hadoop的数据仓库ApacheHive,将结构化的数据文件映射为一张数据库表,将sql语句转换为MapReduce任务进行运行的实践,
hadoop
青春浪子
·
2020-06-25 04:42
大数据
分布式
java
大数据
hadoop系列
:python实现MapReduce 词频统计
map代码:map_t.pyimportsysimportrep=re.compile(r'\w+')forlineinsys.stdin:ss=line.strip().split('')forsinss:iflen(p.findall(s))<1:continues_low=p.findall(s)[0].lower()prints_low+','+'1'reduce代码:red_t.pyim
兰波万
·
2020-06-25 02:49
大数据hadoop系列
Hadoop系列
之大数据启蒙
1大数据启蒙1.1分治思想在认识分治思想之前,让我们先来看这样一个需求:我有一万个元素(比如数字或单词)需要存储,如果查找某一个元素,最简单的遍历方式复杂度是多少呢?更进一步,如果我期望的复杂度是O(4)呢?对于第一个需求,我们很容易就能想到可以用数组或者是链表来存储,这样查找某一个元素的时间复杂度分别是O(logn)和O(n):数组存储链表存储那么对于第二个需求,我们应该如何实现呢?如果你有学过
l1fe1
·
2020-06-24 21:04
Hadoop系列
004-Hadoop运行模式(上)
本人微信公众号,欢迎扫码关注!Hadoop运行模式1、概述1)官方网址官方网站:http://hadoop.apache.org/各个版本归档库地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/hadoop2.7.2版本详情介绍:http://hadoop.apache.org/docs/r2.7.2/2)Hadoop运行模
云端笑猿
·
2020-06-23 18:57
Hadoop系列
Hadoop系列
001-大数据概论
本人微信公众号,欢迎扫码关注!大数据概论1、大数据概念大数据(bigdata),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit1K=
云端笑猿
·
2020-06-23 18:57
Hadoop系列
Hadoop系列
003-Hadoop运行环境搭建
本人微信公众号,欢迎扫码关注!Hadoop运行环境搭建1、虚拟机网络模式设置为NAT2、克隆虚拟机3、修改为静态ip4、修改主机名5、关闭防火墙1)查看防火墙开机启动状态chkconfigiptables--list2)关闭防火墙chkconfigiptablesoff6、在opt目录下创建文件7、安装JDK1)卸载现有jdk查询是否安装java软件:rpm–qa|grepjava如果安装的版本低
云端笑猿
·
2020-06-23 18:57
Hadoop系列
hadoop系列
十八——案例 App数据统计与报表统计
项目背景网站、app的运营者需要知道自己的产品或服务的运营状况,就需要对使用自己产品的用户进行各种角度的数据分析,比如:用户数量新增用户留存用户活跃用户地域分析渠道分析…要做这样的分析,数据来源应该是用户的产品使用的行为日志,行为日志是由app或者网站的页面获取用户相关信息后,发送给后台服务器记录下来的:项目步骤1.采集数据(待完善)从服务器通过flumeagent采集日志,将数据采集到HDFS,
heartless_killer
·
2020-06-23 13:48
hadoop
常用的几种大数据架构剖析
随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于
Hadoop系列
的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统
haboop
·
2020-06-23 12:13
大数据书籍
大数据技术
大数据经验
大数据资讯
大数据应用
大数据人生
大数据教程
Hadoop系列
之(三):使用Cloudera部署,管理Hadoop集群
1.Cloudera介绍Hadoop是一个开源项目,Cloudera对Hadoop进行了商业化,简化了安装过程,并对hadoop做了一些封装。根据使用的需要,Hadoop集群要安装很多的组件,一个一个安装配置起来比较麻烦,还要考虑HA,监控等。使用Cloudera可以很简单的部署集群,安装需要的组件,并且可以监控和管理集群。CDH是Cloudera公司的发行版,包含Hadoop,Spark,Hiv
dianxisu8222
·
2020-06-23 04:55
常用的几种大数据架构剖析
随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于
Hadoop系列
的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其
aebdm757009
·
2020-06-22 12:12
【Hadoop】(六)详解 HDFS 的数据流 (面试重点)
文章目录一、HDFS写数据流程1.剖析文件写入2.网络拓扑-节点距离计算3.机架感知(副本存储节点选择)二、HDFS读数据流程前言:在《
Hadoop系列
》的第一篇博文里,就已经提到了【hadoop】(一
云 祁
·
2020-06-21 17:01
#
----
Hadoop
【
Hadoop系列
】linux SSH原理解析
本文中斜体加粗代表shell指令,操作环境CentOS6.5linuxroot免密码登录链接:【
Hadoop系列
】linux下root用户免密码登录远程主机ssh。
weixin_34240520
·
2020-06-21 11:18
Django项目uwsgi+Nginx保姆级部署教程实现
写在最前:非常抱歉的是,因为突如其来的疫情,我的
hadoop系列
断更了,很难受,因为我的分布式环境在学校,我的笔记本配置带不起来,代码跑不起来我是不敢写博客的,然后寒假在家写代码也没啥意思,看了非常多的书
韩数
·
2020-04-19 08:29
Hadoop完全分布式模式安装部署
在Linux上搭建
Hadoop系列
:1.Hadoop环境搭建流程图2.搭建Hadoop单机模式3.搭建Hadoop伪分布式模式4.搭建Hadoop完全分布式模式注:此教程皆是以范例讲述的,当然你可以按照教程搭建一个与教程一样的
主神
·
2020-04-07 01:28
hadoop
笔记
hadoop
大数据
分布式
linux
服务器
Hadoop安装(单机模式和伪分布模式)和spark安装,运行wordcount程序
Hadoop系列
产品安装(单机模式和伪分布模式):使用Ubuntu系统1.安装jdk,配置环境;(.bashrc中配置)2.安装ssh;(单机模式不用)3.下载hadoop安装包,解压;4.hadoop
MountSong
·
2020-03-30 05:56
Hadoop实战(8)_CDH添加Hive服务及Hive基础
CDH
Hadoop系列
目录:Hadoop实战(3)_虚拟机搭建CDH的全分布模式Hadoop实战(4)_Hadoop的集群管理和资源分配Hadoop实战(5)_Hadoop的运维经验Hive体系结构Hive
padluo
·
2020-02-18 12:16
如何构建一个高可用、低延迟的 Elasticsearch 集群?
相比
Hadoop系列
的大数据平台,Elasticsearch使用起来要简单得多,你只要修改很少的几个配置就可以让集群运行起来,而且Elasticsearch拥有丰富的REST接口,
大尚DS
·
2020-02-09 11:48
linux定时任务执行hadoop脚本问题
最近在写一个
Hadoop系列
操作的调度脚本,由crontab调度执行。脚本单独执行没有任何问题,但是一旦执行hadoop相关操作,如hive、Hadoop相关命令,就莫名其妙的失败。
故里良田
·
2020-01-07 10:36
Hadoop 生态系列之 MapReduce
目前
Hadoop系列
文章的规划就是这样,持续补充完善中...同时可以访问https://data.cuteximi.comHadoop生态系列之1.0和2.0架构Hadoop生态系列之HDFSHadoop
cuteximi_1995
·
2020-01-07 05:02
Hadoop 之 小象诞生
既然这年头“不说大数据都不好意思和人打招呼”,那就以
Hadoop系列
开始。提及Hadoop这一大数据存储和处理工具,自然要从它的爸爸DougCutting说起。
彤庆
·
2019-12-17 08:11
Hadoop系列
之yarn架构与流程浅析
Yarn介绍MapReduce早期的JobTracker/TaskTracker机制在可扩展性,内存消耗,线程模型,可靠性和性能存在较大的缺陷,为从根本上解决框架的性能瓶颈,从0.23.0版本开始,Hadoop的MapReduce框架完全重构,新的HadoopMapReduce框架命名为Yarn。yarn架构入下图(引用自官网)yarn架构.pngyarn架构由client代理、ResourceM
wujustin
·
2019-12-12 12:56
Hadoop系列
002-从Hadoop框架讨论大数据生态
从Hadoop框架讨论大数据生态1、Hadoop是什么1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈2、Hadoop发展历史我这里给大家推荐下我自己创建的大数据资料分享群834325294,这是大数据学习交流的地方,不管你是小白还是大牛,小编都欢迎,
大数据首席数据师
·
2019-11-07 03:21
Hadoop系列
(一)HDFS架构
前言本篇文章翻译了
hadoop系列
下的HDFSArchitecture,原文最初经过笔者翻译后大概有6000字,之后笔者对内容进行了精简化压缩,从而使笔者自己和其他读者们阅读本文时能够更加高效快速的完成对
Alukar
·
2019-11-05 17:14
hadoop系列
-hadoop版本选择
引言Hadoop自从出现到现在被广泛应用,经理了很多个版本的衍化,甚至各个公司都在原生apachehadoop的基础上进行了一些改造以及特性优化,有些是完善了一整套的集群部署工具,在这衍化的过程中出现了Apachehadoop官方版本,还有很多第三方版本,例如Cloudera,Hortonworks,IBM,华为等提供的版本。那么这么多的版本,我们在进行学习开发或者生产环境部署的时候应该如何选择呢
codingway
·
2019-10-23 23:36
hadoop
大数据
Hadoop系列
(六)Hadoop三大核心之MapReduce 基础
目录MapReduce背景MapReduce是什么MapReduce的架构简单介绍MapReduce背景在程序由单机版扩成分布式版时,会引入大量的复杂工作。为了提高开发效率,可以将分布式程序中的公共功能封装成框架,让开发人员可以将精力集中于业务逻辑。Hadoop当中的MapReduce就是这样的一个分布式程序运算框架。MapReduce是什么MapReduce是一个分布式运算程序的编程框架,是用户
ID喵
·
2019-10-12 09:00
第十二期:常用的几种大数据架构剖析
常用的几种大数据架构剖析随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于
Hadoop系列
的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析
你知道歌谣吗?
·
2019-10-10 12:25
阅读(偏娱乐)
大数据
hadoop系列
:Hive HQL常用操作
1.hiveHQL的表操作:1.1创建数据库hive>createdatabasezhanzhy;OKTimetaken:0.073secondshive>showdatabases;OKdefaultzhanzhyTimetaken:0.012seconds,Fetched:2row(s)hive>--查看数据库详情hive>descdatabasezhanzhy;OKzhanzhyhdfs:/
兰波万
·
2019-09-13 17:48
大数据hadoop系列
大数据平台是什么?有哪些功能?如何搭建大数据平台?
典型的包括
Hadoop系列
、Spark、Storm、Flink以及Flume/Kafka等集群。既可以采用开源平台,也可以采用华为、星环等商业级解决方案,既可以部署在私有云上,也可以部署在公有云上。
a大数据
·
2019-08-08 15:53
java
数据分析
数据处理
啃掉
Hadoop系列
笔记(04)-Hadoop运行模式之伪分布式模式
伪分布式模式等同于完全分布式,只是她只有一个节点。一)HDFS上运行MapReduce程序(1)配置集群(a)配置:hadoop-env.shLinux系统中获取jdk的安装路径:修改JAVA_HOME路径:(b)配置:core-site.xml原始该文件内容配置后该文件内容(c)配置:hdfs-site.xml该文件原始内容配置后该文件内容(2)启动集群(a)格式化namenode(第一次启动时
传奇的博客
·
2019-06-26 10:00
啃掉
Hadoop系列
笔记(03)-Hadoop运行模式之本地模式
在《啃掉
Hadoop系列
笔记(02)-Hadoop运行环境搭建》中若环境搭建成功,则直接可以使用本地模式。
传奇的博客
·
2019-06-26 07:00
啃掉
Hadoop系列
笔记(02)-Hadoop运行环境搭建
一、新增一个普通用户bigdata设置bigdata用户具有root权限二、配置静态ip若机器为克隆的则该文件下存在多个物理地址,删除eth0该行;将eth1修改为eth0,同时记住物理ip地址三、修改主机名四、关闭防火墙1)查看防火墙开机启动状态2)关闭防火墙五、在opt目录下创建文件夹修改module、software文件夹的所有者六、安装jdk使用远程工具将jdk安装包上传到/opt/sof
传奇的博客
·
2019-06-23 21:00
啃掉
Hadoop系列
笔记(01)-Hadoop框架的大数据生态
一、Hadoop是什么1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈二、Hadoop发展历史1)Lucene--DougCutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询
传奇的博客
·
2019-06-23 18:00
常用的几种大数据架构剖析
随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于
Hadoop系列
的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统
生活的探路者
·
2019-06-20 11:54
常用的几种大数据架构剖析
随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于
Hadoop系列
的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统
生活的探路者
·
2019-06-20 11:54
大数据平台系列:使用ambari安装hadoop(二)
ambari项目的出现使得
hadoop系列
的组件可以在webUI中定制安装,并提供管理功能。
Gordon_luo2008
·
2019-06-18 09:38
大数据平台系列
大数据平台系列:使用ambari安装hadoop(一)
ambari项目的出现使得
hadoop系列
的组件可以在webUI中定制安装,并提供管理功能。本文转自我个人的公众号:天目星,请大家多多关注。
Gordon_luo2008
·
2019-06-18 09:33
大数据平台系列
如何构建一个高可用、低延迟的 Elasticsearch 集群?
相比
Hadoop系列
的大数据平台,Elasticsearch使用起来要简单得多,你只要修改很少的几个配置就可以让集群运行起来,而且Elasticsearch拥有丰富的REST接口,
GitChat技术杂谈
·
2019-06-11 16:21
架构
运维开发
运维
GitChat技术杂谈
Hadoop 系列之 Hive
Hadoop系列
之HiveHive的官网:http://hive.apache.org/Hiveversions1.2onwardrequireJava1.7ornewer.上一篇提到的MapRedue
cuteximi_1995
·
2019-04-21 00:27
Hadoop
系列
Hive
Hadoop 生态系列之 HDFS
目前
Hadoop系列
文章的规划就是这样,持续补充完善中...同时可以访问:https://data.cuteximi.comHadoop生态系列之1.0和2.0架构Hadoop生态系列之HDFSHadoop
cuteximi_1995
·
2019-03-16 10:32
Hadoop 生态系列之 1.0 和 2.0 架构
趁着还没有入职,给大家争取先把
Hadoop系列
的文章总结完毕,可以当做科普文,也可以当做笔记收藏。经过查阅各种资料,保证我的理解没有偏差。但是也难免会有疏漏,欢迎朋友们留言给我进行交流。
cuteximi_1995
·
2019-03-16 10:00
Hadoop 系列之 1.0 和2.0 架构
Hadoop系列
之1.0和2.0架构自学大数据有一段时间了,找工作历时一周,找到一家大厂,下周入职,薪资待遇还不错,公司的业务背景自己也很喜欢。
cuteximi_1995
·
2019-03-16 10:45
Hadoop
系列
马哥
Hadoop系列
链接汇总
马哥教育Hadoop博客系列
Hadoop系列
之一:大数据存储及处理平台产生的背景
Hadoop系列
之二:大数据、大数据处理模型及MapReduce
Hadoop系列
之三:函数式编程语言和MapReduce
Hadoop
萧萧木
·
2018-12-06 12:13
Hadoop
MapReduce
HDFS
【Hadoop】Hive开发手册(JavaAPI)
文章目录前言装备CoreHive开启远程服务Maven依赖ResultGithubAuthor前言
hadoop系列
【Hadoop】Hadoop完全分布式集群搭建https://blog.csdn.net
java劝退师
·
2018-11-19 22:00
BigData
Developer
Manual
Hadoop系列
(一): Hadoop的伪分布式安装
在进行Hadoop的伪分布式安装之前,我们首先对Hadoop的一些基础的要点进行一下说明。关于Hadoop的详细概念,我们可以在搜狗百科上找到很详细的答案。https://baike.sogou.com/v6822175.htm?fromTitle=hadoopHadoop是由Apache基金会开发的一个分布式文件系统,用来存储,访问和计算海量数据的框架。Hadoop3大核心组件:HDFS(Had
SmilngCobra
·
2018-11-04 19:34
hadoop
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他