E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据hadoop
大数据Hadoop
学习之——TF-IDF算法实现
一、算法说明1、词频TF:是指给定词语在给定文件中出现的次数,一般会做归一化,即除以文件的总词数(注意是分词数,不是字数)。TF=词在文章出现次数/文章的总词数2、逆向文件频率IDF:普遍重要性度量,由文件总数除以包含该词的文件的数目,再对商取对数。IDF=log(文件总数/包含目标词的文件个数)3、各个分词占文件的权重:TF-DF=TF*IDF二、MapReduce分析MapReduce程序的输
江凌
·
2023-10-03 11:01
大数据
hadoop
hadoop
mapreduce
TF-IDF
hdfs
大数据----2.基础环境搭建
大数据hadoop
环境搭建一、linux环境搭建1.linux环境1.hadoop是运行在linux系统之上;但是也有windows版本的hadoop;学习的时候使用linux来进行学习;使用虚拟机虚拟一个
学无止境的大象
·
2023-09-22 02:47
#
大数据
大数据
hadoop
spark
java
hive
终于产完了!Kafka 打怪升级进阶成神之路(2023最新版)
前面给大家介绍了:关系型数据库MySQL、NoSQL数据库Redis、MongoDB、搜索引擎ElasticSearch、
大数据Hadoop
框架、PostgreSQL数据库等知识体系学习的文章。
·
2023-09-19 22:51
终于产完了!Zookeeper 打怪升级进阶成神之路(2023最新版)
前面给大家介绍了:关系型数据库MySQL、NoSQL数据库Redis、MongoDB、搜索引擎ElasticSearch、
大数据Hadoop
框架、PostgreSQL数据库、消息中间件Kafka等知识体系学习的文章
·
2023-09-19 12:16
Hadoop MapReduce与Apache Spark谁赢得了胜利?
文章来源:加米谷
大数据Hadoop
和Spark是大数据生态系统中流行的apache项目。ApacheSpark是对hadoop大数据生态系统的原始HadoopMapReduce组件的改进。
会飞的鱼go
·
2023-09-17 06:50
大数据Hadoop
高可用
HA高可靠集群hdfs中的HA搭建:三个namenode如何保证数据一致?fsimage:更新频率低,由一台进行修改,剩下的所有机器进行同步edits:更新频率高,JN日志节点(hadoop的专属zk,只做数据全局一致性保证)Secondnamenode的工作谁来负责?由standby的namenode来负责2nn的工作怎么确定谁是active,谁是standby?每个nn创建一个zkfc(zoo
十七✧ᐦ̤
·
2023-09-13 15:43
大数据
hadoop
分布式
终于产完了!Zookeeper 打怪升级进阶成神之路(2023最新版)
前面给大家介绍了:关系型数据库MySQL、NoSQL数据库Redis、MongoDB、搜索引擎ElasticSearch、
大数据Hadoop
框架、PostgreSQL数据库、消息中间件Kafka等知识体系学习的文章
·
2023-09-07 09:58
大数据Hadoop
入门之集群的搭建
hadoop的三种运行模式本地模式:测试本地的hadoop是否能够运行,用来运行官方的代码。伪分布模式:原先有人拿来测试,目前测试都不用这个模式了。完全分布模式:多台服务器组成分布式环境,生产环境使用分布式主机文件同步命令scp-r需要分发的本机文件路径外部主机的路径xsync-av需要分发的本机文件路径外部主机的路径编写集群分发脚本编写一个脚本,实现调用xsync文件名,可以快速将本地文件同步给
十七✧ᐦ̤
·
2023-09-06 03:45
大数据
hadoop
分布式
ELT已死,EtLT才是现代数据处理架构的终点!
目前大家使用
大数据Hadoop
时代,主要都是ELT方式,也就是加载到Hadoop里进行处理,但是实时数据仓库、数据湖的流行,这个ELT已经过时了,EtLT才是实时数据加载到数据湖和实时数据仓库的标准架构
·
2023-08-31 12:09
数据库
大数据hadoop
组件下载、windows环境搭建、官方文档查看详细步骤
hadoop组件下载路径hadoop下载路径:http://hadoop.apache.org/第一步:进入官网后点击Download第二步:点击Apachereleasearchive(意思是:Apache的版本存档)第三步:选择自己需要的版本进行下载第四步:进去之后下载(注意:第一个是源码(看自己需求,需要就下载),第二个才是组件)大数据环境搭建(windows环境搭建,linux这里不讲)注
ryan_spark
·
2023-08-28 12:53
大数据
hadoop
(真)手把手教你配置Ubuntu
大数据Hadoop
环境
目录一、前期准备VMware-tools安装基本配置root配置网络配置软件源配置二、创建hadoop用户和文件用户创建小插曲三、FTP配置四、配置java环境及安装eclipse安装eclipse安装java环境五、安装hadoop六、伪分布式配置修改配置文件执行名称节点格式化启动测试ssh免密登录设置再次测试七、常见错误1.Ubuntu的老坑一、前期准备本文是我在自己电脑和帮助很多人安装后总结
大头卒
·
2023-08-24 06:37
Linux
大数据
hadoop
linux
ubuntu
大数据
腾讯大佬三年大制作,
大数据Hadoop
和Spark的大集合
大数据大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,最终形成变革之力。本书围绕Hadoop和Spark这两个主流技术进行讲解,主要内容包括Hadoop环境配置、分布式文件系统HDFS、分布式计算框架MapReduce、资源调度框架YARN与Hadoop新特性、大数据数据仓库Hive、离线处理辅助系统、SparkCore、SparkSQL、SparkStrea
金光闪闪耶
·
2023-08-23 15:47
大数据hadoop
新手快速入门经典视频教程
最新在学习hadoop、storm大数据相关技术,发现网上hadoop、storm相关学习视频少之又少这里整理了hadoop学习视频,分享出来给大家学习交流。视频下载地址:http://demo.liuy88.cn/jp1185.html第一天hadoop的基本概念伪分布式hadoop集群安装hdfsmapreduce演示01-hadoop职位需求状况.avi02-hadoop课程安排.avi03
艾希MR
·
2023-08-22 03:20
大数据hadoop
生态体系之MapReduce快速入门(11)
MapReduce:分布式计算系统,hadoop的三大核心功能之一。MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1)MapReduce是一个基于集群的高性能并行计算平台(ClusterInfrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。2)MapReduce是一个并行计算与运行软件框架(Sof
welun
·
2023-08-21 02:55
大数据Hadoop
:MapReduce编程规范与示例编写
大数据Hadoop
:MapReduce编程规范与示例编写MapReduce是一种用于处理大数据集的编程模型和计算框架,已成为大数据处理的重要工具之一。
2301_78484069
·
2023-08-19 22:41
大数据
大数据
hadoop
mapreduce
卷到位了!PostgreSQL 打怪升级进阶成神之路(2023最新版)
前面给大家介绍了:关系型数据库MySQL、NoSQL数据库Redis、MongoDB、搜索引擎ElasticSearch、
大数据Hadoop
框架等知识体系学习的文章。
·
2023-08-17 11:45
终于产完了!Kafka 打怪升级进阶成神之路(2023最新版)
前面给大家介绍了:关系型数据库MySQL、NoSQL数据库Redis、MongoDB、搜索引擎ElasticSearch、
大数据Hadoop
框架、PostgreSQL数据库等知识体系学习的文章。
·
2023-08-17 11:09
终于肝完了!全网最全、最详细、最全面的 Hadoop大数据学习教程( 2023最新版 )
截止今天,又一个知识体系的学习之旅:
大数据Hadoop
框架卷完了。希望大家能够从中收获多多!如有帮助,请点在看、转发支持一波!!!大数据概述大数据
·
2023-08-15 18:50
卷到位了!PostgreSQL 打怪升级进阶成神之路(2023最新版)
前面给大家介绍了:关系型数据库MySQL、NoSQL数据库Redis、MongoDB、搜索引擎ElasticSearch、
大数据Hadoop
框架等知识体系学习的文章。
·
2023-08-15 16:29
大型分布式系统现场,阿里大牛带你贯彻理解分布式系统
image分布式系统分布式系统从当初的CORBA到EJB,Web和SOA,从集群到现在的NoSQL云计算和
大数据Hadoop
等分布式系统,横向水平扩展Scalaout/in是分布式系统设计的一个特点,可靠性容错性是两个质量指标
Java旺
·
2023-08-03 11:47
最受IT公司欢迎的50款开源软件
大数据Hadoop
HypertableMesosPrestoSolrSparkStorm容器Docker中间件JBoss系统管理工具AnsibleChefHudsonPuppetWeb服务器ApacheHTTPServerNginx
吳叉叉
·
2023-08-02 16:11
大数据hadoop
生态体系之hadoop安装配置(8)
装系统软件介绍:虚拟机:VMware®Workstation15Pro操作系统:centos7.6jdk版本:jdk1.8hadoop软件包:hadoop2.7.41.jdk的安装配置1>直接下载jdk1.8的java编译器或者在windows系统下载好:jdk-8u131-linux-x64.tar.gz,上传到centos服务器的目录:/opt/mysoft/tar-zxvfjdk-8u131
welun
·
2023-07-25 21:27
大数据hadoop
生态体系之Hive的基本操作(15)
Hive数据仓库基于shell命令行基本操作(DDL/DML):首先启动hive数据库仓库的shell脚本模式:命令:/opt/mysoft/hive/bin/hive1>查看当前Hive中有哪些数据库hive初始化后,会生成一个默认的default数据库;往往根据项目不同,会建立不同业务的hive数据库;命令:showdatabases;2>创建数据库命令:createdatabasetest;
welun
·
2023-07-18 22:42
大数据Hadoop
集群之超级详细的Hive安装配置
大数据Hadoop
集群之Hive安装配置目录
大数据Hadoop
集群之Hive安装配置1.导入Hive压缩包并查看2.解压至module3.配置环境变量4.配置HIVE文件4.1配置hive-env.sh4.2
派大星子fff
·
2023-07-14 20:30
大数据
hive
大数据
hadoop
数据库
hdfs
大数据hadoop
生态体系之YARN配置和使用(13)
一、YARN框架简介YARN:YetAnotherResourceNegotiator通用的资源管理系统。为上一层的mapreduce,spark等任务服务提供统一的资源管理和调度。YARN是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)。ResourceManager负责所有资源的
welun
·
2023-06-21 10:41
大数据hadoop
生态技术简介
Hadoop生态是指围绕Hadoop大数据处理平台形成的一系列开源软件和工具,用于支持大规模数据处理、存储、管理、分析和可视化等应用场景。暂时将其核心技术分为9类:数据采集技术框架:Flume、Logstash、FileBeat;Sqoop和Datax;Cannal和Maxwell数据存储技术框架:HDFS、HBase、Kudu、Kafka分布式资源管理框架:YARN、Kubernetes和Mes
三水写代码
·
2023-06-18 22:05
大数据
大数据
hadoop
大数据hadoop
生态体系之MapReduce词频统计案例(12)
MapReduce实现词频统计案例:1>定义WordMapper类继承Mapper类,重新map方法,用于读取每行数据Mapper父类参数说明:args1LoginWritable:表示每次读取文件块的一行所指的长度偏移量args2Text:每次读取文件块的一行文本内容args3Text:上下文存储的key的数据类型args4IntWritable:每次统计的单词的数量的类型2>定义WordRed
welun
·
2023-06-16 15:29
2022最新黑马程序员
大数据Hadoop
入门
p1学习大纲p02数据分析p03数据分析基本流程p04大数据时代p05分布式和集群概念p06-14略p15linux命令时间内存磁盘进程p16略p17vim基本操作命令p18学习目标p19hadoop介绍p20hadoop特性优点p21hadoop发行版本p22hadoop安装部署集群组成介绍p23hadoop安装部署-服务器基础环境设置p28hadoop安装部署-初体验P32hdfs重要特性解读
莫等闲 白了少年头
·
2023-06-12 20:49
笔记
大数据
尚硅谷
大数据hadoop
教程_HDFS
P40hdfs产生背景和定义p41优缺点p42组成p43文件块大小p4445shell命令p46api环境准备p47api创建文件夹新建maven项目pom.xmlorg.apache.hadoophadoop-client3.1.3junitjunit4.12org.slf4jslf4j-log4j121.7.30log4j.propertieslog4j.rootLogger=INFO,std
莫等闲 白了少年头
·
2023-06-12 20:18
学习
尚硅谷
大数据hadoop
教程_yarn
p125课程介绍p126yarn基础架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。p127工作机制(1)MR程序提交到客户端所在的节点。(2)YarnRunner向ResourceManager申请一个Application。(3)RM将该应用程序的资源路径返回给YarnRunner。(4)该程序将运行所
莫等闲 白了少年头
·
2023-06-12 20:45
hadoop
大数据
hdfs
Hadoop环境搭建(保姆级教学)
Hadoop
大数据Hadoop
环境搭建一、基本配置二、任务部署三、Hadoop搭建的安装包四、知识讲解简单说明:VMware版本:linux版本:1、linux系统的安装:1、安装VMware2、linux
Nuyoahㅤㅤ
·
2023-06-11 07:19
大数据
hadoop
大数据
分布式
python hadoop的应用_hadoop python api
[雪峰磁针石博客]
大数据Hadoop
工具python教程4-mrjobmrjob是由Yelp创建的PythonMapReduce库,它封装了Hadoop流,允许MapReduce应用程序以更加Pythonic
weixin_39914938
·
2023-06-09 16:15
python
hadoop的应用
尚硅谷
大数据hadoop
教程_mapReduce
p67课程介绍p68概述p69mapreduce核心思想p70wordcount源码序列化类型mapReduce三类进程p71编程规范用户编写的程序分成三个部分:Mapper、Reducer和Driver。P72wordcount需求案例分析p73-78案例环境准备(1)创建maven工程,MapReduceDemo(2)在pom.xml文件中添加如下依赖org.apache.hadoophado
莫等闲 白了少年头
·
2023-06-07 02:48
大数据
hadoop
mapreduce
详解大数据平台架构
目录:什么是
大数据Hadoop
介绍-HDFS、MR、Hbase大数据平台应用举例-腾讯公司的大数据平台架构“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式
yoku酱
·
2023-04-21 17:46
数据架构简析
简单了解
大数据Hadoop
最初指代的是分布式文件系统HDFS和Mapreduce计算框架,但是它一路高歌猛进,在此基础之上像搭积木一般快速发展成为一个庞大的生态(包括Yarn,Hive,HBase,Spark
熊猫姐姐90
·
2023-04-21 06:43
数据架构
big
data
hadoop
hive
数据架构
大数据hadoop
课程实验总结
1一.安装hadoop本门课程使用的是centos7.264位操作系统,原生hadoop2.7.7,java1.7版本。安装centos7.2系统:创建系统的同时创建一个名为hadoop的账户。这一步不难,此处就不再详说。没有hadoop用户可以创建一个Hadoop用户:su//以root用户登录useradd-mhadoop-s/bin/bash//创建新的用户hadoop为hadoop用户增加
小鹿yey
·
2023-04-21 03:29
hadoop
大数据
linux
【
大数据Hadoop
】HDFS3.3.1-Namenode-缓存管理
缓存管理前言缓存概念HDFS集中式缓存有两个主要概念。缓存管理命令HDFS集中式缓存架构CacheManager类实现CacheReplicationMonitor前言Hadoop2.3.0版本新增了集中式缓存管理(CentralizedCacheManagement)功能,允许用户将一些文件和目录保存到HDFS缓存中。HDFS集中式缓存是由分布在Datanode上的堆外内存组成的,并且由Name
笑起来贼好看
·
2023-04-18 05:24
大数据
Hadoop
服务运维部署
hadoop
大数据
缓存
【
大数据Hadoop
】HDFS3.3.1-Namenode系列源码阅读
Namenode功能前言文件系统目录树数据块管理Datanode管理租约管理缓存管理前言HDFS集群是以Master/Slave模式运行的,主要有两类节点:Namenode和Datanode。其中Namenode是HDFS的主节点。对于Namenode的功能,主要有如下几点:文件系统目录树管理HDFS的目录和文件在内存中是以一颗树的形式存储的。这个目录树结构是由Namenode维护的,Nameno
笑起来贼好看
·
2023-04-18 05:23
Hadoop
大数据
服务运维部署
hadoop
hdfs
大数据
【
大数据Hadoop
】HDFS3.3.1-Namenode-租约管理
租约管理前言LeaseManager.LeaseLeaseManager添加租约-addLease租约检查-FsNamesystem.checkLease租约更新-renewLease删除租约-removeLease租约检查-Monitor线程租约恢复-Monitor线程发起租约恢复-其他方式发起前言我们知道HDFS文件是write-once-read-many,并且不支持客户端的并行写操作,那么
笑起来贼好看
·
2023-04-18 05:52
Hadoop
大数据
服务运维部署
大数据
hdfs
hadoop
分布式文件系统
大数据框架Hadoop基础入门模块
大数据Hadoop
DistributedFileSystem(HDFS™):分
大数据架构师
·
2023-04-16 01:31
Hadoop2.7.5集群搭建
Hadoop–ApacheHadoop2.7.5《Hadoop权威指南》第四版中文版pdf:链接:https://pan.baidu.com/s/1WDWgZLlErWf6S-9JJwiAqQ提取码:umnh参考课程:【好程序员】最新
大数据
QYHuiiQ
·
2023-04-14 04:26
大数据之Hadoop
hadoop
hdfs
big
data
大数据Hadoop
|MapRedece|Yarn
文章目录大数据时代HadoopHadoop概述Hadoop特性优点Hadoop国内外应用Hadoop发行版本Hadoop集群整体概述HDFS分布式文件系统传统常见的文件系统数据和元数据HDFS核心属性HDFS简介HDFSshell操作MapReduce分而治之理解MapReduce思想分布式计算概念MapReduce介绍MapReduce产生背景MapReduce特点MapReduce局限性Map
北山啦
·
2023-04-12 09:09
big
data
大数据
hadoop
分布式
尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】
视频地址:尚硅谷
大数据Hadoop
教程(Hadoop3.x安装搭建到集群调优)尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】尚硅谷大数据技术
延锋L
·
2023-04-09 07:45
#
Hadoop
大数据
hadoop
hdfs
linux
分布式
Hadoop MapReduce各阶段执行过程以及Python代码实现简单的WordCount程序
视频资料:黑马程序员
大数据Hadoop
入门视频教程,适合零基础自学的
大数据Hadoop
教程文章目录Map阶段执行过程Reduce阶段执行过程Python代码实现MapReduce的WordCount实例
VenYy
·
2023-04-09 05:09
大数据平台
hadoop
mapreduce
python
大数据Hadoop
集群搭建 1(伪分布式集群)
目录Hadoop集群简介Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群。Hadoop集群的部署方式分为三种,分别是单机模式、伪分布式模式和完全分布式模式。环境搭建1.修改主机名2.修改时区4.配置ssh免密5.安装Hadoop目录结构配置文件说明主要配置文件搭建HDFS伪分布式集群配置Hadoop系统环境变量搭建YARN伪分布式集群Hadoop集群简介Hadoop集群具体来说包含
currify--+
·
2023-04-08 18:30
hadoop
分布式
大数据
运维开发
尚硅谷大数据技术Hadoop教程-笔记04【Hadoop-MapReduce】
视频地址:尚硅谷
大数据Hadoop
教程(Hadoop3.x安装搭建到集群调优)尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】尚硅谷大数据技术
延锋L
·
2023-04-06 14:43
#
Hadoop
大数据
hadoop
linux
mapReduce
分布式
大数据Hadoop
生态系统介绍
一、概述Hadoop是Apache软件基金会下一个开源分布式计算平台,以hdfs(HadoopDistributedFileSystem)、MapReduce(Hadoop2.0加入了YARN,Yarn是资源调度框架,能够细粒度的管理和调度任务,还能够支持其他的计算框架,比如spark)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。hdfs的高容错性、高伸缩性、高效性等优点让用
大数据老司机
·
2023-04-05 18:37
Hadoop分布式文件系统HDFS
参考:尚硅谷
大数据Hadoop
3.x1HDFS概述1.1HDFS定义HDFS(HadoopDistributedFileSystem),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的
PandaKing
·
2023-04-04 05:19
Hadoop目录
阅读导航1、课程视频教程来源:尚硅谷
大数据Hadoop
教程(Hadoop3.x安装搭建到集群调优)教程视频地址:https://www.bilibili.com/video/BV1Qp4y1n7EN课程视频代码
大数据之负
·
2023-04-03 23:15
Hadoop
hdfs
大数据
hadoop
尚硅谷大数据技术Hadoop教程-笔记06【Hadoop-生产调优手册】
视频地址:尚硅谷
大数据Hadoop
教程(Hadoop3.x安装搭建到集群调优)尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】尚硅谷大数据技术
延锋L
·
2023-04-03 23:32
#
Hadoop
hadoop
生产调优
mapReduce
hdfs
yarn
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他