E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hadoop海量数据
[数据结构] 位图&布隆过滤器
文章目录1.位图1.1位图概念1.2位图实现1.3位图应用2.布隆过滤器2.1布隆过滤器概念2.2布隆过滤器插入2.3布隆过滤器查找删除2.4布隆过滤器优缺点3.
海量数据
处理1.位图1.1位图概念C++
一氧化二氢的执着
·
2024-02-07 01:32
数据结构
算法
C++之 位图&布隆过滤器
二、位图
海量数据
查找三、位图的应用四、位图的模拟实现妙哉的函数!五、布隆过滤器的概念六、布隆过滤器的模拟实现6.1、布隆过滤器的删除6.2、布隆过滤器优点6.3、布隆过滤器缺陷一、位图是什么?
Flying clouds
·
2024-02-07 01:02
C++
数据结构
狂神说Java--Java学习笔记(合集)
定义:能够按照程序运行,自动、高速处理
海量数据
的现代化智能电子设备。组成:由硬件和软件组成。形式:常见显示有台式计算机、笔记本计算机、大型计算机等。应用:科学计算、数
fllow_wind
·
2024-02-07 01:01
C++ 位图&布隆过滤器&哈希切割
文章目录位图概念模拟实现
海量数据
面试题1布隆过滤器模拟实现应用场景
海量数据
面试题2哈希切割
海量数据
面试题3位图概念我们用一道题引出此概念:给40亿个不重复的无符号整数,没排过序。
小博XB
·
2024-02-07 01:00
c++
哈希算法
Hadoop
集群(第10期副刊)_常用MySQL数据库命令
1、系统管理1.1连接MySQL格式:mysql-h主机地址-u用户名-p用户密码举例:例1:连接到本机上的MySQL。首先在打开DOS窗口,然后进入目录mysqlbin,再键入命令"mysql–uroot–p",回车后提示你输密码,如果刚安装好MySQL,超级用户"root"是没有密码的,故直接回车即可进入到MySQL中了,MySQL的提示符是:mysql>。例2:连接到远程主机上的MYSQL。
阿布2
·
2024-02-07 00:08
Hadoop学习之道
hadoop集群
hadoop
mapreduce
集群
数据挖掘
2024-02-06(Sqoop)
1.SqoopApacheSqoop是
Hadoop
生态体系和RDBMS(关系型数据库)体系之间传递数据的一种工具。Sqoop工作机制是将导入或者导出命令翻译成MapReduce程序来实现。
陈xr
·
2024-02-06 23:29
随记日志
sqoop
大数据
计算机网络的发展过程大致可以分为几个,计算机网络发展过程分几个阶段
是能够按照程序运行,自动、高速处理
海量数据
的现代化智能电子设备。由硬件系统和软件
月狸
·
2024-02-06 23:55
java推荐算法_基于内容的推荐算法实现
javapackagecom.oracle.moviecf;importjava.io.IOException;importjava.util.ArrayList;importjava.util.List;importorg.apache.
hadoop
.conf.Configuration
RED韵
·
2024-02-06 19:54
java推荐算法
Spark简介
Spark作为第二代大数据处理工具,跟
hadoop
对比,它是基于内存的,所以在迭代计算方便速度有了很大提升。我用到的主要是SparkCore,SparkSQL,SparkStreaming。
麦克阿瑟99
·
2024-02-06 18:07
MySQL 小技巧:利用 xtrabackup 完全备份,增量备份及还原
案例:利用xtrabackup8.0完全备份,增量备份及还原MySQL8.0在面对
海量数据
时,我们无法做到每天全量备份,因此只能每周做一次全量备份。而每天的话则进行增量备份,确保数据安全。
Toasten
·
2024-02-06 15:08
Linux
小技巧
数据库
致IT领域那些忽悠过的概念
这里我要说的是:1:
Hadoop
是大数据解决方案之一,是个代名词,但是不是全部。2:除了少数公司,绝大多数(99.99%)的公
薛晓刚
·
2024-02-06 15:08
数据库
缓存之Redis超级详细学习笔记
一.NoSQL概述1.1NoSQL适用场景对数据高并发的读写
海量数据
的读写对数据搞可扩展性的1.2NoSQl不适用场景需要事务的支持基于sql的结构化查询储存,处理复杂的关系,需要即席查询.1.3Memcache
也许!
·
2024-02-06 14:24
NoSQL数据库
redis
缓存
学习
Hbase 数据迁移
Hbase数据迁移可选方案对比l已验证方案操作说明:nExport&importu导出命令及示例hbaseorg.apache.
hadoop
.hbase.mapreduce.Export“表名”文件路径导出至本地文件系统
运维那些事儿
·
2024-02-06 14:44
hbase
hbase
hadoop
大数据
flink学习记录
flink-conf.yaml配置文件:jobmanager.rpc.address:
hadoop
1jobmanager.rpc.port:6123jobmanager.heap.size:512mtaskmanager.heap.size
戏 剧
·
2024-02-06 14:34
flink
Hadoop
命令手册
翻译:http://
hadoop
.apache.org/docs/stable/
hadoop
-project-dist/
hadoop
-common/CommandsManual.html版本:2.9.0
金刚_30bf
·
2024-02-06 13:29
电商数据采集:选择爬虫工具还是第三方API?
透过
海量数据
,商家可以了解客户行为和喜好,也可洞察同行对手的方向与动态,所谓知己知彼。随着市场规模的普遍增大,业务规模的快
懂电商API接口的Jennifer
·
2024-02-06 11:21
电商API知识分享
淘宝API接口
1688
API
接口
爬虫
数据挖掘
大数据
服务器
网络
热数据存储在HDFS,冷备数据存储于对象存储中
改方案均采用同一套
Hadoop
架构,使用hive均可以读取到,在降低成本的同时提高数据的利用率。2.准备条件c
tuoluzhe8521
·
2024-02-06 10:11
云原生
hdfs
hadoop
大数据
cos
对象存储
决胜大数据时代:
Hadoop
&Yarn&Spark企业级最佳实践(8天完整版脱产式培训版本)...
Hadoop
、Yarn、Spark是企业构建生产环境下大数据中心的关键技术,也是大数据处理的核心技术,是每个云计算大数据工程师必修课。
weixin_30273931
·
2024-02-06 09:08
java
人工智能
移动开发
linux安装
hadoop
详细步骤(伪分布式)
今天重装了下
hadoop
,特在此记录下!
红烧柯基
·
2024-02-06 08:28
linux
hadoop
linux
Hadoop
-Yarn-启动篇
一、源码下载下面是
hadoop
官方源码下载地址,我下载的是
hadoop
-3.2.4,那就一起来看下吧Indexof/dist/
hadoop
/core二、脚本部分1、start-yarn.sh如果我们想单独启动
隔着天花板看星星
·
2024-02-06 07:16
hadoop
大数据
分布式
AIGC专题:AIGC教育行业全景报告
(报告出品方:量子位智库)报告共计:31页生成式AI快速落地教育,技术推动教育理念实施生成式AI将我们带入AI2.0时代,通过
海量数据
的学习,AI开始出现涌现能力,所生成的答案以一种更符合人类沟通的方式呈现
人工智能学派
·
2024-02-06 06:57
人工智能
想学大数据?先看完这几本书再说
除了这些技术领域,还有一些特定的技术和语言需要你继续研究:
Hadoop
,Spark,Python,和R等等,还有无数实现自动化的工具等等,这些工具几乎每天都会用到,这就需要你不断的学习。
yoku酱
·
2024-02-06 06:55
CentOS 8 安装配置
Hadoop
3.3.6 伪分布式安装方式(适用于开发和调试)
1.配置服务器ssh免密登录,否则后面启动会报错:尝试通过SSH连接到主机出现认证错误的提示配置服务器ssh免密登录:1.生成SSH密钥对(如果尚未生成):执行下面的命令生成密钥对,一直回车即可ssh-keygen-trsa出现下面的提示说明生成成功了:2.第二步,将公钥添加到~/.ssh/authorized_keys文件:cat~/.ssh/id_rsa.pub>>~/.ssh/authori
鱼大虾
·
2024-02-06 05:39
centos
linux
运维
HDFS入门基础
HDFS总结在现代的企业环境中,
海量数据
超过单台物理计算机的存储能力,分布式文件系统应运而生,对数据分区存储于若干物理主机,管理网络中跨多台计算机存储的文件系统。
nucty
·
2024-02-06 05:33
大数据
hdfs
hadoop
大数据
电商推荐系统
一、获取用户对商品的偏好值代码实现packagezb.grms;importorg.apache.
hadoop
.conf.Configuration;importorg.apache.
hadoop
.conf.Configured
nucty
·
2024-02-06 05:31
大数据
mapreduce
hadoop
Apache
Hadoop
Apache
Hadoop
_狭义上说,
Hadoop
指Apache一款java语言开发的开源框架,它的核心组件有:HDFS(分布式文件系统):解决
海量数据
存储YARN(作业调度和集群资源管理的框架):解决资源任务调度
VincentLeon
·
2024-02-06 05:28
布隆过滤器有什么用?什么原理?如何使用?
布隆过滤器主要是为了解决
海量数据
的存在性问题。对于
海量数据
中判定某个数据是否存在且容忍轻微误差这一场景(比如缓存穿透、
海量数据
去重)来说,非常适合。2什么是布隆过滤器?
吴名氏.
·
2024-02-06 03:06
其他
布隆过滤器
Bloom
redis
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装
Centos7.5+Ambari2.7.3+HDP3.1.0.0离线安装1简介Ambari跟
Hadoop
等开源软件一样,也是ApacheSoftwareFoundation中的一个项目,并且是顶级项目。
WaiSaa
·
2024-02-06 02:53
关于Spark/
Hadoop
中Master/Slave IP不正确的问题
在配置SparkStandAloneMode的时候,我遇到了Slave无法向正确的MasterIP发送数据的问题。通常这类问题都来源于没有正确配置./conf/spark_env.sh文件,只要在这个文件里定义好了SPARK_LOCAL_IP和SPARK_MASTER_HOST,就可以解决这个问题。而我设置了configure文件之后问题依然存在。原因在于MasterNode上有多个网卡,每个网卡
ecce
·
2024-02-06 02:37
hbase基本命令
1、进入hbase的shellhbase提供了一个shell的终端给用户交互[root@
hadoop
3conf]#hbaseshell退出使用quit或者ctrl+c需要关闭
hadoop
的安全模式不然进行一些操作
小月半会飞
·
2024-02-06 01:52
openGauss X ShardingSphere,分布式方案的另一种最佳实践
面对如今
海量数据
,超高并发等诸多场景,openGauss将目光转向于分布式解决方案,专注于解决
海量数据
存储、超高并发吞吐、大表瓶颈等众多难题,与ShardingSphere一起构建全栈开源分布式解决方案
胡正策
·
2024-02-06 00:06
openGauss技术分享
openGauss社区新知
分布式
数据库
database
shell中正则表达式
[atguigu@
hadoop
101shells]$cat/etc/passwd|grepatguigu1.常用特殊字符^$.*[]\^:匹配一行的开头$:匹配一行的结束.
看山不是山a
·
2024-02-05 23:07
Linux
正则表达式
linux
运维
大数据之 ZooKeeper原理及其在
Hadoop
和HBase中的应用
链接:https://blog.csdn.net/zhang123456456/article/details/78008626ZooKeeper是一个开源的分布式协调服务,由雅虎创建,是GoogleChubby的开源实现。分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。简介ZooKeep
yangfhit
·
2024-02-05 20:29
Hadoop
Start(1) ——Google与
Hadoop
的前世今生
参考文档:《
Hadoop
权威指南(第4版)》网址:http://
hadoop
.apache.org/[1]HDFS:
Hadoop
DistributionFileSystem
Hadoop
分布式文件系统[2
bclz
·
2024-02-05 18:41
如何对HDFS进行节点内(磁盘间)数据平衡
由于
Hadoop
2.x版本并不支持HDFS的磁盘间数据均衡,因此,会造成老数据磁盘占用率很高,新挂载的数据盘几乎很空。在这种情况下
格格巫 MMQ!!
·
2024-02-05 16:39
hadoop
hdfs
hdfs
hadoop
大数据
hadoop
调优-HDFS集群数据不均衡处理hdfs balancer
会造成datanode数据存储不均衡,一个datanode使用了70%,而有一个只使用了30%.解决:通过执行
hadoop
提供的balancer,来进行datanode之间数据balance。
不会吐丝的蜘蛛侠。
·
2024-02-05 16:08
Hadoop
hadoop
hdfs
big
data
HDFS BALANCER
介绍
Hadoop
的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点。
风筝Lee
·
2024-02-05 16:07
hadoop
hdfs
balancer
Hadoop
-HDFS的DataNode介绍及原理
DataNodeDataNode工作机制1、一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2、DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3、心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机
魔笛Love
·
2024-02-05 16:07
hadoop
大数据
大数据平台_大数据应用场景有哪些
大数据时代的出现,简单的讲是
海量数据
同完美计算能力结合的结果,确切的说是移动互联网、物联网产生了海量的数据,大数据计算技术完美地解决了
海量数据
的收集、存储、计算、分析的问题。
思迈特Smartbi
·
2024-02-05 16:06
数据挖掘
大数据
人工智能
数据分析
绝对完美解决hdfs datanode数据和磁盘数据分布不均调整(hdfs balancer )——经验总结
Hadoop
集群Datanode数据倾斜,个别节点hdfs空间使用率达到95%以上,于是新增加了三个Datenode节点,由于任务还在跑,数据在不断增加中,这几个节点现有的200GB空间估计最多能撑20
ZhaoYingChao88
·
2024-02-05 16:05
Hadoop
hdfs
如何使用第三方API采集电商数据呢?
透过
海量数据
,商家可以了解客户行为和喜好,也可洞察同行对手的方向与动态,所谓知己知彼。随着市场规模的
vx_15083607332
·
2024-02-05 16:47
大数据
电商API接口
python
淘宝
spark学习4:spark安装
1.下载spark安装包2.配置环境1.cd/bigdata/spark-3.0.1-bin-
hadoop
3.2/conf/2.4.添加动态库在
hadoop
-3.2.2/bin目录下添加
hadoop
.dll
hzp666
·
2024-02-05 14:58
spark
spark
大数据
计算机毕业设计
hadoop
+spark+hive小说数据分析可视化大屏 小说推荐系统 小说爬虫 小说大数据 机器学习 知识图谱 小说网站 大数据毕业设计
流程1.爬取17k的小说数据约5-10万,存入mysql数据库;2.使用mapreduce对mysql中的小说数据集进行数据清洗,转为.csv文件上传至hdfs文件系统;3.根据.csv文件结构,使用hive建库建表;4.一半分析指标使用hive_sql完成,一半分析指标使用Spark-Scala完成;5.将分析结果使用sqoop导入mysql数据库;6.使用Flask+echarts构建可视化大
计算机毕业设计大神
·
2024-02-05 14:48
好省官方邀请码是哪个?好省官方邀请码填写哪个?
基于第三方电商平台
海量数据
挖掘与分析,“好省”APP通过内容制作、分享等方式,为消费者打通吃喝玩乐购全场景全业态,让消费者省钱省
氧惠评测
·
2024-02-05 14:52
6.Linux虚拟机下的
Hadoop
集群搭建之完全分布式配置
Hadoop
及相关组件搭建指导WeChat:h19396218469
hadoop
-3.1.3jdk-8u162-linux-x64本案例软件包:链接:https://pan.baidu.com/s/1ighxbTNAWqobGpsX0qkD8w
学习BigData
·
2024-02-05 13:01
关于Hadoop的学习笔记
hadoop
分布式
linux
Exception in thread “main“ java.lang.NoSuchMethodError: com.google.comon.base.Preconditions.checkArg
hadoop
-3.1.3hbase-2.2.2-bin一、问题描述:在学习林子雨老师编写的《Spark编程基础》时使用如下命令运行jar包读取HBase时出现如下错误:Exceptioninthread
学习BigData
·
2024-02-05 13:01
关于Hadoop的学习笔记
java
hadoop
hive
Hadoop
一键启动脚本编写
一、问题描述针对
Hadoop
集群使用start-dfs.shstart-yarn.sh进程无法全部启动,但是使用单独启动命令可以启动的问题进行解决。
学习BigData
·
2024-02-05 13:01
关于Hadoop的学习笔记
linux
hadoop
4.Linux虚拟机下的
Hadoop
集群搭建之Xshell及Xftp的使用和SSH服务配置
Hadoop
及相关组件搭建指导WeChat:h19396218469本案例软件包:链接:https://pan.baidu.com/s/1ighxbTNAWqobGpsX0qkD8w提取码:lkjh(若链接失效在下面评论
学习BigData
·
2024-02-05 13:31
关于Hadoop的学习笔记
linux
hadoop
ssh
6.0 MapReduce 服务使用教程
Hadoop
中包含了许多经典的MapReduce示例程序,其中就包
二当家的素材网
·
2024-02-05 13:29
Hadoop
教程
mapreduce
大数据
揭秘Elasticsearch:一文读懂分布式搜索与分析引擎的核心概念
它建立在ApacheLucene的基础上,但提供了比Lucene更为丰富的功能和友好的RESTfulAPI接口,使得开发者能够轻松地进行全文搜索、结构化搜索以及对
海量数据
进行复杂的聚合操作。
超越不平凡
·
2024-02-05 12:00
elasticsearch
分布式
大数据
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他