E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Hadoop
《PySpark大数据分析实战》-05.PySpark库介绍
对大数据技术栈
Hadoop
、Hive、Spark、Kafka等有深入研究,对Data
wux_labs
·
2023-12-16 14:05
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
PySpark
Mapreduce小试牛刀(1)
1.与hdfs一样,mapreduce基于
hadoop
框架,所以我们首先要启动
hadoop
服务器-----------------------------------------------------
printcsr
·
2023-12-16 12:51
mapreduce
Mapreduce小试牛刀(2)--java api
1.同hdfs的javaapi,我们首先要在IDE中建立一个maven项目pom.xml中配置如下:org.apache.
hadoop
hadoop
-mapreduce-client-common3.3.4org.apache.
hadoop
hadoop
-mapreduce-client-jobclient3.3.4org.apache.
hadoop
hadoop
-client3.3.4org.slf4
printcsr
·
2023-12-16 12:51
学习
Hdfs java API
1.在主机上启动
hadoop
sbin/start-all.sh这里有一个小窍门,可以在本机上打开8088端口查看三台机器的连接状态,以及可以打开50070端口,查看hdfs文件状况。
printcsr
·
2023-12-16 12:21
学习
hadoop
-yarn简介及常用命令详解(超详细)
文章目录前言一、YARN概述1.YARN简介2.YARN架构(1)ResourceManager(资源管理器)(2)NodeManager(节点管理器)(3)ApplicationMaster(应用程序管理器)3.YARN特点(1)分布式资源管理(2)多框架支持(3)灵活的资源调度(4)高可靠性和容错性(5)可扩展性(6)安全性二、YARN命令介绍1.YARN命令简介2.yarnapplicati
大数据魔法师
·
2023-12-16 12:46
hadoop
大数据
分布式
hadoop
3.3.4安装及启动
1.虚拟机的安装此处我选择的是VMware,激活码可以百度搜索,安装过程比较缓慢,需要耐心等待---------------------------------------------------------------------------------------------------------------------------------2.创建新的虚拟机点击创建虚拟机,如果已经创建,
printcsr
·
2023-12-16 12:45
学习
kafka常用命令
/bin/kafka-console-producer.sh--broker-listdn02.
hadoop
.cn:6667,dn03.
hadoop
.cn:6667,dn04.
hadoop
.cn:6667
wind_103
·
2023-12-16 12:23
ElasticSearch与HBase的分布式存储设计
本文内容覆盖如今两大非结构化数据库之间的区别详情介绍从各个角度详细对比1.官方定位HBase是
Hadoop
数据库,是一个分布式、可扩展的大数据存储。
不学会Ⅳ
·
2023-12-16 09:32
分布式
elasticsearch
hbase
Hive建表语句
CREATEDATABASEIFNOTexistsmyhivebook2COMMENT'数据库测试';--创建数据库并指定路径CREATEDATABASEIFNOTexistsmyhivebook3LOCATION'/
hadoop
xinxinyydss
·
2023-12-16 08:58
hive
hadoop
数据仓库
Kafka快速实战与基本原理详解
Linkedin公司开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于
hadoop
Memory_2020
·
2023-12-16 06:08
中间件
kafka
分布式
华为大数据开发者教程知识点提纲
一、线下处理1.离线处理方案数据支持:HDFS调度:YARN收入:Flume,sqoop,loader处理:Mapreduce,SparkSql,spark,hive(,Flink)2.
Hadoop
Namenode
qq_1418269732
·
2023-12-16 06:08
大数据
初识大数据应用,一文掌握大数据知识文集(1)
06、请列出正常工作的
hadoop
集群中
hadoop
都需要启动哪些进程,他们的作用分别是什么?07、KafkaUtils.cr
普修罗双战士
·
2023-12-16 06:22
大数据专栏
大数据
数据分析
数据仓库
数据挖掘
database
数据库开发
阿里云
ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: java.lang.RuntimeExcepti...
CONVERT_TO_NULL','EXCEPTION'or'ROUND'.Thevalue'convertToNull'isnotacceptable.解决:--connectjdbc:mysql://
hadoop
00
weixin_30695195
·
2023-12-16 05:47
java
大数据
数据库
使用sqoop操作HDFS与MySQL之间的数据互传
一,数据从HDFS中导出至MySQL中1)开启
Hadoop
、mysql进程start-all.sh/etc/init.d/mysqldstart/etc/init.d/mysqldstatus2)将学生数据
冬瓜的编程笔记
·
2023-12-16 05:44
大数据
sqoop
hdfs
mysql
Win10 IDEA连接虚拟机中的
Hadoop
集群(进来保你成)
目录引言:环境:前提:实现:测试结语:问题引言:分布式课程要求使用IDE(IDEA、Eclipse)来编写程序直接对
Hadoop
集群进行文件操作,目前关于IDEA连接
Hadoop
集群的教程,良莠不齐,根据多个教程完成了
小小小秃头
·
2023-12-16 05:24
intellij-idea
hadoop
eclipse
【
Hadoop
-Cos】存储对象Cos通过Java-SDK获取目录结构
com.qcloudcos_api5.6.133packagegaei.cn.x5l.x5lhive2cos.utils;importcom.qcloud.cos.COSClient;importcom.qcloud.cos.ClientConfig;importcom.qcloud.cos.auth.BasicCOSCredentials;importcom.qcloud.cos.auth.CO
bmyyyyyy
·
2023-12-16 05:45
Hadoop
hadoop
大数据
分布式
【
Hadoop
-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移
【
Hadoop
-Distcp】通过Distcp的方式进行两个HDFS集群间的数据迁移1)Distcp工具简介及参数说明2)Shell脚本1)Distcp工具简介及参数说明【
Hadoop
-Distcp】工具简介及参数说明
bmyyyyyy
·
2023-12-16 05:45
Hadoop
hadoop
hdfs
【
Hadoop
-Yarn】Yarn的常用命令
【
Hadoop
-Yarn】Yarn的常用命令1)查看任务列表2)杀死任务3)查看日志4)根据Application状态过滤任务5)查询Container日志6)查看尝试运行的任务7)yarncontainer
bmyyyyyy
·
2023-12-16 05:15
Hadoop
hadoop
大数据
分布式
【
Hadoop
-CosDistcp-Distcp】通过命令方式将Cos中的数据迁移至HDFS,再将HDFS数据迁移至S3
【
Hadoop
-CosDistcp-Distcp】通过命令方式将Cos中的数据迁移至HDFS,再将HDFS数据迁移至S31)Shell脚本2)参数说明1)Shell脚本注意:此Shell脚本内置了按照sample_date
bmyyyyyy
·
2023-12-16 05:15
Hadoop
hadoop
hdfs
大数据
【
Hadoop
-Distcp】工具简介及参数说明
【
Hadoop
-Distcp】工具简介及参数说明1)概述2)适合的场景及其有点3)参数说明1)概述Distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。
bmyyyyyy
·
2023-12-16 05:15
Hadoop
hadoop
大数据
分布式
【
Hadoop
-Distcp】通过Distcp的方式迁移Hive中的数据至存储对象
【
Hadoop
-Distcp】通过Distcp的方式迁移Hive中的数据至存储对象1)了解Distcp1.1.Distcp的应用场景1.2.Distcp的底层原理2)使用Distcp4)S3可视化App
bmyyyyyy
·
2023-12-16 05:14
Hadoop
hadoop
hive
大数据
【
Hadoop
-OBS-Hive】利用华为云存储对象 OBS 作为两个集群的中间栈 load 文件到 Hive
【
Hadoop
-OBS-Hive】利用华为云存储对象OBS作为两个集群的中间栈load文件到Hive1)压缩文件2)上传文件到OBS存储对象3)crontab定时压缩上传4)从obs上拉取下来文件后解压缩
bmyyyyyy
·
2023-12-16 04:04
Hadoop
hadoop
hive
华为云
Spark编程实验一:Spark和
Hadoop
的安装使用
一、目的与要求1、掌握在Linux虚拟机中安装
Hadoop
和Spark的方法;2、熟悉HDFS的基本使用方法;3、掌握使用Spark访问本地文件和HDFS文件的方法。
Francek Chen
·
2023-12-16 04:32
Spark编程基础
spark
hadoop
大数据
启动YARN并运行MapReduce程序
之前已经搭建好了
Hadoop
集群,接下来在集群上启动YARN。
Manfestain
·
2023-12-16 03:38
FinallShell连接Ubuntu报错:java.net.ConnectException: Connection refused: connect 无法连接
服务的问题:#安装OpenSSH服务器和客户端sudoaptinstallopenssh-serveropenssh-client-y一定一定确保安装了上述ssh服务,可通过以下命令检查并对应返回值应该如下:
hadoop
m0_73815626
·
2023-12-16 03:13
ubuntu
服务器
linux
十六、YARN和MapReduce配置
1、部署前提(1)配置前提已经配置好
Hadoop
集群。
弦之森
·
2023-12-16 01:55
Hadoop
mapreduce
大数据
hadoop
hdfs
YARN
基于
Hadoop
平台的音乐推荐系统的设计与实现
收藏关注不迷路文章目录摘要一、相关技术和基本理论2.1相关技术2.1.1
Hadoop
集群2.1.2SpringBoot框架2.1.3Vue框架2.2开发环境和技术框架2.2.1技术框架2.2.2开发环境
QQ2743785109
·
2023-12-16 01:36
spark
python
java
hadoop
大数据
分布式
基于
Hadoop
毕业生就业择业数据分析的设计与实现
收藏关注不迷路文章目录摘要一、需求分析二、系统设计4.1系统总体功能设计三、系统实现四、结论摘要 本系统结合计算机系统的结构、概念、模型、原理、方法,在计算机各种优势的情况下,采用JAVA语言,结合SpringBoot框架与Vue框架以及MYSQL数据库设计并实现的。本毕业生就业择业数据分析主要包括系统生源质量指数管理、年份管理、学院管理、生源质量指数、就业率指数、就业状态指数等多个模块。它帮助
QQ2743785109
·
2023-12-16 01:36
java
hadoop
hadoop
数据分析
大数据
基于
Hadoop
的视频日志分析系统设计与实现
视频日志的收集和存储模2.1.2视频日志的处理模块2.1.3用户行为分析模块2.1.4用户行为分析模块2.2数据收集二、实验结果分析3.1数据采集3.2数据存储三、系统实现四、结论摘要 本文设计并实现了一种基于
Hadoop
QQ2743785109
·
2023-12-16 01:36
hadoop
java
hadoop
eclipse
大数据
单节点
hadoop
搭建
下载
Hadoop
-bin.*.tar.gz解压文件,配置
HADOOP
_HOME编辑文件etc/
hadoop
/
hadoop
-env.sh配置JAVA_HOME配置etc/
hadoop
/core-site.xml
曾阿伦
·
2023-12-16 00:04
hadoop
hadoop
大数据
分布式
flink yarn-session 启动失败retrying connect to server 0.0.0.0/0.0.0.0:8032
yarn-session.sh,会向resourcemanager的端口8032发起请求:但是一直无法请求到8032端口,触发重试机制会不断尝试备注:此问题出现时,我的环境ambari部署的HA高可用
hadoop
dogplays
·
2023-12-16 00:01
flink
hue的安装和
hadoop
集群整合
一、Hue概述HUE(
Hadoop
UserExperience)是一个开源的Apache
Hadoop
UI系统,由ClouderaDesktop演化而来,最后Cloudera公司将其贡献给Apache基金会的
五块兰州拉面
·
2023-12-16 00:15
#
hue
大数据
Hue安装部署
1Hue简介1.1Hue介绍Hue是一个开源的Apache
Hadoop
UI系统,最早是由ClouderaDesktop演化而来,由Cloudera贡献给开源社区,它是基于PythonWeb框架Django
chenlouzhen1603
·
2023-12-16 00:43
数据库
git
java
Spark+Kafka构建实时分析Dashboard案例
目录一、环境准备Ubuntu安装
Hadoop
安装Spark安装Kafka安装Python安装Python依赖库安装vscode安装Python工程目录结构二、数据处理和Python操作Kafka数据集数据预处理运行三
Hay Ha!
·
2023-12-15 22:40
python
大数据
分布式
kafka
spark
kafka学习笔记--安装部署、简单操作
教程(从入门到调优,深入全面)文章目录1安装部署1.1集群规划1.2集群部署2命令行操作2.1主题2.2生产者2.3消费者2.4消费者组1安装部署1.1集群规划这里采用的是三节点的kafka集群,名称为
hadoop
向着百万年薪努力的小赵
·
2023-12-15 22:54
#
Kafka学习--入门到调优
kafka
学习
笔记
大数据学习(一)-------- HDFS
已经有了很多框架方便使用,常用的有
hadoop
,storm,spark,flink等,辅助框架hive,kafka,es,sqoop,flume等。常见应用推荐系统,用户画像等。
大数据流动
·
2023-12-15 21:01
Hadoop
在mac上的安装与配置
brewcaskinstallhomebrew/cask-versions/adoptopenjdk8安装指导,指导里面把java换成8:https://medium.com/beeranddiapers/installing-
hadoop
-on-mac-a9a3649dbc4d
大红豆小薏米
·
2023-12-15 20:45
Hadoop
和Spark的区别
Hadoop
表达能力有限。磁盘IO开销大,延迟度高。任务和任务之间的衔接涉及IO开销。前一个任务完成之前其他任务无法完成,难以胜任复杂、多阶段的计算任务。
旅僧
·
2023-12-15 20:12
hadoop
spark
大数据
kmeans设置中心_Spark分布式机器学习源码分析:Kmeans族聚类
本文采用的组件版本为:Ubuntu19.10、Jdk1.8.0_241、Scala2.11.12、
Hadoop
3.2.1、Spark2.4.5,老规矩先开启一系列
Hadoop
、Spark服务与Spa
weixin_39699121
·
2023-12-15 19:27
kmeans设置中心
spark
kmeans打印质心
Windows平台搭建Spark开发环境(Intellij idea 2020.1社区版+Maven 3.6.3+Scala 2.11.8)
在开始之前,需要说明的是要跑通基本的wordcount程序,是不需要在windows上安装
hadoop
和spark的,因为idea在跑程序的时候,会按照pom.xml配置文件,从指定的repository
阳泉酒家小当家
·
2023-12-15 19:56
大数据
hadoop
spark
scala
spark
intellij-idea
Spark 随机森林算法原理、源码分析及案例实战
与其它大数据处理工具的活跃程度比较回页首环境要求操作系统:Linux,本文采用的Ubuntu10.04,大家可以根据自己的喜好使用自己擅长的Linux发行版Java与Scala版本:Scala2.10.4,Java1.7Spark集群环境(3台):
Hadoop
2.4.1
黑谷子
·
2023-12-15 19:51
spark
scala
源码
IntelliJ IDEA创建一个spark的项目
在开始之前,需要说明的是要跑通基本的wordcount程序,是不需要在windows上安装
hadoop
和spark的,因为idea在跑程序的时候,会按照pom.xml配置文件,从指定的repository
刘文钊1
·
2023-12-15 19:45
intellij-idea
spark
java
【
Hadoop
】
Hadoop
基础架构的变化
1.x版本架构2.x版本架构3.x版本架构参考1.x版本架构NameNode:,负责文件系统的名字空间(Namespace)管理以及客户端对文件的访问。NameNode负责文件元数据的管理和操作。是单节点。SecondaryNameNode:它的职责是合并NameNode的editlogs到fs_image文件中,并将合并文件返回给Namenode。然后Namenode将该文件加载到内存中。Sec
不怕娜
·
2023-12-15 19:13
hadoop
大数据
分布式
【
Hadoop
】执行start-dfs.sh启动
hadoop
集群时,datenode没有启动怎么办
执行start-dfs.sh后,datenode没有启动,很大一部分原因是因为在第一次格式化dfs后又重新执行了格式化命令(hdfsnamenode-format),这时主节点namenode的clusterID会重新生成,而从节点datanode的clusterID保持不变。在主节点也就是namenode那个节点上的hdfs-site.xml文件下找到这两个文件路径打开name目录中curren
不怕娜
·
2023-12-15 19:13
hadoop
大数据
分布式
【
Hadoop
】
Hadoop
简介
Hadoop
是什么
Hadoop
解决了什么问题
Hadoop
的优势/特性
Hadoop
的局限和不足参考
Hadoop
是什么
Hadoop
是一个由Apache基金会所开发的开源软件框架,是一个开发和运行处理大规模数据的软件平台
不怕娜
·
2023-12-15 19:42
hadoop
大数据
分布式
spark 写入 mysql 报错
报错信息如下:"C:\ProgramFiles\Java\jdk1.8.0_291\bin\java.exe""-javaagent:D:\
Hadoop
ruanjian\IDEA\IntelliJIDEA2021.3.2
南城守护
·
2023-12-15 18:17
spark
mysql
android
物联网、大数据、云计算的区别与联系
Hadoop
、Spark海量数据云计算将计算资源虚拟化并按需卖给用户。方便计算资源的管理提高计算资源利用率。openstack、docker虚拟化二、相互关系粗略地看,可以认为物联网产生
weixin_30455067
·
2023-12-15 18:46
大数据基础知识
为了一场紧急考试,没有正经系统学习过大数据知识的我开始恶补概念涉及
Hadoop
、Hbase、Spark、Flink、Flume、Kafka、Sqoop、HDFS、Hive、Mapreduce、Impala
偶余杭
·
2023-12-15 17:22
HBase 高可用集群详细图文安装部署
目录一、HBase安装部署1.1Zookeeper正常部署1.2
Hadoop
正常部署1.3HBase安装1.4HBase的配置文件1.4.1hbase-env.sh1.4.2hbase-site.xml1.4.3regionservers1.4.4
Stars.Sky
·
2023-12-15 17:38
HBase
hbase
数据库
大数据
Hbase2.5.5分布式部署安装记录
环境准备1.1节点部署情况1.2安装说明2Hbase安装过程Step1:Step2:Step3:Step4:3WebUI检查状态并测试3.1WebUI3.2创建测试命名空间1环境准备1.1节点部署情况
Hadoop
11
程序终结者
·
2023-12-15 16:23
Hadoop生态
分布式
上一页
34
35
36
37
38
39
40
41
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他