E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
mapreduce词频统计
《Designing Data-Intensive Application》02数据模型与查询语言
文档模型中的架构灵活性查询的数据局部性数据查询语言Web上的声明式查询
MapReduce
查询图数据模型属性图Cypher查询语言SQL中的图查
更新失败
·
2023-10-04 14:06
architecture
数据库
大数据
nosql
sql
mapreduce
数组
不会改变原数组的方法:
mapreduce
filterapply会改变原数组值的方法sortreversemap方法,对数组的每一项进行操作,传入回调函数reduce方法,相当于一个累计器传入回调函数filter
overisover
·
2023-10-04 05:13
Hadoop介绍——HDFS
Hadoop简介:hadoop官网–分布式存储系统HDFS(HadoopDistributedFileSystem)POSIX•分布式存储系统•提供了高可靠性、高扩展性和高吞吐率的数据存储服务–分布式计算框架
MapReduce
南宫萧言
·
2023-10-04 01:15
《Hadoop: The Definitive Guide》读书笔记
Goalof
MapReduce
:ServethetaskswhichneedsonlyseveralminutesorseveralhoursRuninadatacenterwhichhashighbandwidthThemachineinthedatacenterishighavailableYARNisaresourcemanagerinthecluster
AlstonWilliams
·
2023-10-03 22:56
hadoop wordcount示例运行
中内容.png2.将文件拷贝至hdfs创建文件夹hdfsdfs-mkdir文件夹名拷贝文件hdfsdfs-put源文件目标文件夹拷贝文件.png可以查看文件内容查看3.运行示例程序命令行hadoopjar
mapreduce
五百一十七XX
·
2023-10-03 20:38
python红楼梦
词频统计
python红楼梦
词频统计
《红楼梦》人物的出场统计涉及对词汇的统计,中文文章的需要分词才能进行
词频统计
,需要用到jieba库。
锦枫_JF
·
2023-10-03 17:34
1024程序员节
大数据Hadoop学习之——TF-IDF算法实现
IDF=log(文件总数/包含目标词的文件个数)3、各个分词占文件的权重:TF-DF=TF*IDF二、
MapReduce
分析
MapReduce
程序的输
江凌
·
2023-10-03 11:01
大数据
hadoop
hadoop
mapreduce
TF-IDF
hdfs
(八)Flink DataStream API 编程指南 - 2 执行模式
这种执行作业的方式更容易让人联想到批处理框架,比如
MapReduce
。这种执行
京河小蚁
·
2023-10-03 07:02
flink
flink
big
data
【Python练习】生成五月天歌名词云图和歌词词频词云图
目录一、歌词爬取二、清洗歌词数据三、歌词分词
词频统计
四、词云图制作五、从清洗数据到词云图的代码全文一、歌词爬取首先把五月天在网易云上的所有歌词下载下来,此处代码是站在大佬的肩膀上,参考爬取网易云音乐某个歌手的全部歌曲的歌词自己做了一点小修改
ccaere
·
2023-10-03 03:36
python
python123练习-组合数据类型、文件和数据格式化
目录1.基本统计值计算2.文本
词频统计
--Hamlet3.人名独特性统计4.字典翻转输出5.
ccaere
·
2023-10-03 03:36
python
spark-sql调优技巧
sparkSQL概述sparkSQL的前世今生==Shark是专门针对于spark的构建大规模数据仓库系统的一个框架==Shark与Hive兼容、同时也依赖于Spark版本Hivesql底层把sql解析成了
mapreduce
柱子z
·
2023-10-03 03:21
spark-sql
大数据
hadoop
spark
Spark思维导图
与
MapReduce
的区别Spark是基于内存迭代处理数据;
MapReduce
是基于磁盘迭代处理数据Spark中有DAG(有向无环图)执行引擎,执行速度快Spark是粗粒度资源申请,
MapReduce
是细粒度的资源申请
亼珏
·
2023-10-02 14:14
Mapreduce
教程-翻译
Mapreduce
教程--大数据基本功一.
mapreduce
概念
mapreduce
定义:是hadoop的处理层,将整个任务拆分成各个独立的子任务并行处理的大规模数据编程模型。
浩海紫冰
·
2023-10-02 03:37
基本功
hadoop
大数据
java大数据之hive
(1)建立在HadoopHDFS上的数据仓库基础架构(2)可以用来进行ETL(3)定义了类似于SQL,成为HQL(4)允许
MapReduce
自定义1.2Hive官网http://hive.apache.org
这一刻_776b
·
2023-10-01 18:12
hadoop技术内幕_Hadoop基础
MapReduce
程序的执行流程
MapReduce
程序从提交到执行是一个很复杂的过程,以下将分别讨论
MapReduce
1.0和Yarn环境下的任务提交和执行过程。
weixin_39629075
·
2023-10-01 17:42
hadoop技术内幕
mapreduce原理
mapreduce工作流程
hadoop技术内幕
hadoop技术内幕深入解析
mapreduce
架构设计与实现原理1、基础篇1、阅读源代码前的准备2、
mapreduce
设计理念与基本架构3、
mapreduce
编程模型4、
mapreduce
rpc框架解析
冥想者-定
·
2023-10-01 17:41
__Hadoop杂谈
【备忘】 HADOOP技术内幕 PDF 下载
内容简介“hadoop技术内幕”共两册,分别从源代码的角度对“common+hdfs”和“
mapreduce
的架构设计和实现原理”进行了极为详细的分析。
javaxuexize
·
2023-10-01 17:10
【读书笔记】YARN架构设计与实现原理
深入解析YARN架构设计与实现原理Hadoop技术内幕:深入解析YARN架构设计与实现原理董西成◆第2章YARN设计理念与基本架构由于MRv2将资源管理功能抽象成了一个独立的通用系统YARN,直接导致下一代
MapReduce
KevinBrain
·
2023-10-01 17:40
大数据
yarn
java
大数据
hadoop
hdfs
一文读懂大数据开源生态圈
从Google的大数据三驾马车谈起Google在2003年到2004年先后发布了被称为大数据三驾马车的三篇重要论文,分别是分布式数据处理
MapReduce
、分布式数据存储GFS以及列式存储数据库BigTable
麦田里的思考者
·
2023-10-01 02:46
分布式计算平台
0:Hadoop1:
MapReduce
(MR),最为general和流行的一个分布式计算框架,其开源实现Hadoop已经得到了极为广泛的运用(Facebook,Yahoo!
小小哭包
·
2023-09-30 21:12
软件架构
分布式云平台
分布式
基于 Eclipse 的
MapReduce
开发环境搭建
文/vincentzh原文连接:http://www.cnblogs.com/vincentzh/p/6055850.html上周末本来要写这篇的,结果没想到上周末自己环境都没有搭起来,运行起来有问题的呢,拖到周一才将问题解决掉。刚好这周也将之前看的内容复习了下,边复习边码代码理解,印象倒是很深刻,对看过的东西理解也更深入了。目录1、概述2、环境准备3、插件配置4、配置文件系统连接5、测试连接6、
diaoya7851
·
2023-09-30 19:20
大数据
开发工具
操作系统
基于python的自然语言处理NLP详细教程(一)
写在前面——本文关于自然语言处理的内容:1.相关第三包的准备2.获取语料库及停用词信息3.分词4.
词频统计
5.去停用词6.基于TF-IDF理论、词袋模型等的文本向量化处理7.机器学习、情感分析8.简单可视化一
千家
·
2023-09-30 19:17
自然语言处理
python
自然语言处理
nlp
数据分析
程序员避免内卷化?
换成人话来说,以前你只要会Hadoop、
MapReduce
,你就可以很容易找到月薪1W的工作,而现在你可能都找不到工作了;以前一
AI课工场
·
2023-09-30 14:20
前缀树-Trie树
前缀树—Trie树,也叫作“单词查找树”、“字典树”它属于多叉树结构,典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
[奋斗不止]
·
2023-09-30 14:09
数据结构
前缀树-Trie树
单词查找树
字典树
spark工作原理和介绍
是Hadoop
MapReduce
的通用并行框架,Spark,拥有Hadoop
MapReduce
所具有的优点;但不同于
MapReduce
的是——Job中间输出结果可以保存在内存中,从而不再
摩V羯座
·
2023-09-30 01:06
关联规则与协同推荐
一般我们会用Apriori算法帮助实现,这里先不写这些,最近我的目标还是按照选课的进度迅速结业,然后回过头来细化类似聚类、关联、PCA,当然还包括
mapreduce
的一些内容。
在做算法的巨巨
·
2023-09-29 11:30
hive的安装和使用
hive会将SQL转成Hadoop的
Mapreduce
进行处理,而无需去写
Mapreduce
程序版本介绍jdk:/opt/jdk1.8.0_231hadoop:/opt/hadoop-3.2.1#mysql
Captain_Gu
·
2023-09-29 08:36
介绍大数据处理架构Hadoop以及其生态系统
Hadoop简介Hadoop是一个开源的、可运行于大规模集群上的分布式计算平台,它实现了
MapReduce
计算模型和分布式文件系统HDFS等功能,在业内得到了广泛的应用,同时也成为大数据的代名词,借助于
转身丶即天涯
·
2023-09-29 04:40
glove-论文阅读
glove全称是GlobalVectorsforWordRepresentation,它是基于全局
词频统计
的词表征工具,他可以将一个单词表示为一个向量,这些向量捕捉到了单词之间的语义特征。
Pluto_wl
·
2023-09-29 01:11
2023年大数据面试题--转载
@[TOC]2023年大数据面试题–转载(HDFS)和
MapReduce
Hadoop是一个开源的分布式计算框架,由两部分组成:HadoopDistributedFileSystem(HDFS)和
MapReduce
李先生真号
·
2023-09-29 01:22
大数据
hadoop
hdfs
python函数式编程
大家好这里还还还是长弓今天我们来讲讲python中的函数式编程目录函数式编程高阶函数
mapreduce
filtersorted返回函数闭包nonlocal使用匿名函数lambda装饰器偏函数函数式编程有些同学疑惑了
学c的长弓狗
·
2023-09-28 23:50
python
python
理想汽车 x JuiceFS:从 Hadoop 到云原生的演进与思考
2008年左右,Hadoop成为了Apache顶级项目,并正式发布了1.0版本,它的基础主要是基于谷歌的三驾马车,GFS、
MapReduce
、BigTable去定义的。
JuiceFS
·
2023-09-28 22:41
七、Hive数据仓库应用之Hive优化(超详细步骤指导操作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)
一、Hive数据仓库应用之Hive部署(超详细步骤指导操作,WIN10,VMwareWorkstation15.5PRO,CentOS-6.7)文章目录一、Hive存储优化二、Hive参数优化1、配置
MapReduce
七层楼的疯子
·
2023-09-28 19:52
Hive数据仓库应用
数据仓库
hive
hadoop
大数据
hdfs
【大数据基础实践】(六)数据仓库Hive的基本操作
目录1.数据仓库概念2.Hive简介2.1简介2.2特性2.3生态系统3.Hive系统架构4.HQL转成
MapReduce
作业的原理4.1join的实现原理4.2groupby的实现原理5.实验练习5.1
小生凡一
·
2023-09-28 18:02
大数据基础实践
数据仓库
数据库
大数据
hadoop
hive
HDFS 中 Java API 的使用
通常
MapReduce
会把一个文件数据块处理成一个Map任务。HD
跟着大数据和AI去旅行
·
2023-09-28 15:20
DS哈希查找--Trie树
典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本
词频统计
。
本人还有头发
·
2023-09-28 13:35
哈希算法
散列表
数据结构
Flink基础系列8-Flink on yarn运行wordcount程序
hello.txt文件hellowordhellohdfshello
mapreduce
helloyarnhellohivehellosparkhelloflink一.Maven配置Flink依赖的配置org
只是甲
·
2023-09-28 11:10
大数据和数据仓库
#
Flink
flink
flink
on
yarn
flink
程序运行
较真儿学源码系列-PowerJob
MapReduce
源码分析
之前分析过PowerJob的时间轮源码,感兴趣的可以查看《较真儿学源码系列-PowerJob时间轮源码分析》1简介
MapReduce
是一种编程模型,以及在集群上使用并行、分布式算法处理和生成大数据集的相关实现
天瑕
·
2023-09-28 07:01
任务调度
PowerJob
分布式任务调度框架
MapReduce
Hive 数据倾斜场景及解决方案详解
目录
MapReduce
流程简述a)Map倾斜b)Join倾斜c)Reduce倾斜首先回顾一下
MapReduce
的流程
MapReduce
流程简述**输入分片:**
MapReduce
作业开始时,输入数据被分割成多个分片
锵锵锵锵~蒋
·
2023-09-28 05:56
数据研发
数据库
大数据
Spark SQL 教程
我们已经学习了Hive,它是将HiveSQL转换成
MapReduce
然后提交到集群上执行,大大简化了编写Ma
printf200
·
2023-09-28 02:44
Hadoop集群安装部署
格式化操作8、启动hadoop集群启动HDFS集群:启动YARN集群9、访问HDFS的web页面(端口9870)10、访问Hadoop的web页面(node1:8088)11、HDFS一些命令的使用12、
mapreduce
Wangsh@
·
2023-09-28 02:50
大数据
hadoop
linux
大数据
零知识证明
词频统计
的某些字的频率,前提是A不能把所有的集合都给B如果A想要向B证明自己的统计都是正确的,那么,A向B提供1000万个数据集合该字出现的频率由B提出验证随机从1000万个数据集合提取某个集合,在数据hash后进行
词频统计
百里求一
·
2023-09-27 22:26
基础 5.6. 递归,分治
因为有时候,用递归更加容易实现递归分治分治就是把一个问题,分成2个以上子问题如并归排序用了分治思想,这个过程用递归实现分治和分布式可以把任务分到几个计算机来计算
MapReduce
是Google提出的一个软件架构
胖达_4b7e
·
2023-09-27 21:26
Hive数据仓库你了解了吗
前面我们已经介绍了HDFS和
MapReduce
了,它俩结合起来能够进行各种运算,可是
MapReduce
的学习成本太高了,如果有一种工具可以直接使用sql将hdfs中的数据查出来,并自动编写
mapreduce
喜讯XiCent
·
2023-09-27 20:44
hadoop
hive
hadoop
大数据
hive面试题
1、什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)2、Hive的意义(最初研发的原因)避免了去写
MapReduce
且从容.
·
2023-09-27 20:44
hive
hadoop
大数据
通过编写一个YARN Application 来了解Hadoop YARN
MapReduce
就是泡在YARN之上的,其关系如下图,
MapReduce
通过YARN在cluster内申请内存和cpu资源,YARN执行
MapReduce
Task。
liuzx32
·
2023-09-27 13:38
hadoop (七)高级编程
hadoop(七)高级编程
MapReduce
过程输入(input):将输入数据分成一个个split,并将split进一步拆除的形式。
cnliu
·
2023-09-27 12:02
Hadoop笔记(一)
在大数据领域提出了两个概念:分布式文件系统,用于存储大量的数据分布式计算框架
MapReduce
,高效地分析数据以上两个概念组成了一个名词叫HadoopHadoop的起源谷歌发布了三篇论文:GFS分布式存储系统
lew1sss
·
2023-09-27 08:50
Hadoop——
MapReduce
——WordCount手写经历
mac而且把shell换成了zsh所以在配置maven环境变量时,并不是在.bash_profile里面配置而是在.zshrc里面配置maven的环境变量相关代码Map阶段packagehadoop.
mapReduce
.wordCount
GetIdea
·
2023-09-27 08:12
Hadoop期末复习
hadoop期末复习整理第一章大数据概述1、两大核心技术:HDFS和
MapReduce
。
在屋顶藏着李的哥
·
2023-09-27 07:15
hadoop
big
data
mapreduce
上一页
24
25
26
27
28
29
30
31
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他