hadoop；hdfs 第32页

启动Hbase后HMaster老是掉的原因

1.启动Hbase之前先启动hdfs,zookeeper,再启动Hbase,但是隔一会就发现HMaster掉线了,但是hregionserver还在.2.解决:重新启动Hbase之前,先kill掉hregionserver

夺命大翻斗·2024-01-03 22:12

Spark向Hbase中写数据报异常:org.apache.hadoop.hbase.client.RetriesExhaustedWithDetailsException: Failed 5

解决:将第二行代码中的表名写全,并指定在哪个名称空间valtable:Table=con.getTable(TableName.valueOf("info:tb_order"))

夺命大翻斗·2024-01-03 22:12

关于Cloudera Hadoop的安装（CentOS）- 官文标注（待完成）

CDH5andClouderaManager5RequirementsandSupportedVersionsInanenterprisedatahub,ClouderaManagerandCDHinteractwithseveralproductssuchasApacheAccumulo,ApacheImpala(incubating),Hue,ClouderaSearch,andClouder

DazzlingTiger·2024-01-03 21:15

hive基本概念原理与底层架构

hive是一个数据仓库基础工具在hadoop中用来处理结构化的数据，它架构在hadoop之上，总归为大数据，并使得查询和分析方便，提供简单的sql查询功能，可以讲sql语句转换成mapreduce任务进行

byway_lyn·2024-01-03 20:22

大数据Hadoop入门学习线路图

Hadoop是系统学习大数据的必会知识之一，Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的

千_锋小小千·2024-01-03 19:12

Hadoop写文件时datanode发生故障的处理过程

学习Hadoop写文件的流程时，看《Hadoop权威指南》中文版，在datenode发生故障时的处理那里，真的是看不懂。于是找来英文原版进行翻阅，终于有种看明白的感觉了。

小北觅·2024-01-03 18:03

电商数仓可视化1--数据导入

商品分类信息、商品信息、店铺信息、订单数据、订单支付信息、活动信息、物流信息等2、埋点数据埋点日志相对业务数据是用于数据分析、挖掘需求，一般以日志形式存储于日志文件中，随后通过采集落地分布式存储介质中如hdfs

bigdata从入门到放弃·2024-01-03 18:53

【Spark精讲】RDD缓存源码分析

以HadoopRDD为例overridedefcompute(split:Partition,context:TaskC

话数Science·2024-01-03 18:08

我的大数据之路：2023年度总结

2023年度最值得骄傲的事从0到1搭建了离线数仓体系，针对Hadoop生态组件的原理和特性有了深入的理解。

话数Science·2024-01-03 18:07

HDFS重温

今天被问到分布式，有些忘记，查资料回忆起分布式集群构建，现在重温集群搭建过程费话不多说，来个简图NameNode：HDFS群集包含单个NameNode（主服务器），它管理文件系统命名空间并控制客户端对文件的访问权限

zty_1995·2024-01-03 18:18

Flink-Paimon 案例

Flink-Paimon案例1、下载FlinkJar包并解压tar-xzfflink-*.tgz2、下载PaimonJar包放进Flink的lib中cppaimon-flink-*.jar/lib/3、如果运行在Hadoop

猫猫爱吃小鱼粮·2024-01-03 16:49

开源大数据集群部署（一）集群实施规划

主机操作系统要求软件信息参数配置8C16G操作系统版本CentOSLinuxrelease7.8.2003(Core)java版本javaversion“1.8.0_281”hadoop版本hadoop3.2.4

云掣YUNCHE·2024-01-03 15:42

2018年最强干货！年薪80万+的大数据开发【教程】都在这儿！

技术层面来说，大数据使用的Hadoop(在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法)需要JAVASE基础，即使你没有学过JAVAEE上手Hadoop也是可以的。

yoku酱·2024-01-03 13:36

HBASE基础

1、NoSQL非关系型数据库2、hbase是面向列存储结构，即类似于hashmap3、hbase是以hdfs作为基础存储4、官网http://hbase.apache.org/5、hbase的逻辑结构是由行与列族构成的

xinxinyydss·2024-01-03 12:25

【HBase】——Java API

1环境1.1依赖org.apache.hbasehbase-client2.4.111.2配置文件hbase-site.xmlhbase.zookeeper.quorumhadoop102:2181,hadoop103

那时的样子_·2024-01-03 12:47

大数据实时项目必备技能二：kafka有话说

导读：Kafka是由LinkedIn开发并开源的分布式消息系统，因其分布式及高吞吐率而被广泛使用，现已与ClouderaHadoop，ApacheStorm，ApacheSpark集成。

栀子花_ef39·2024-01-03 11:05

数字化转型必备：数睿通 2.0 数据中台升级详解

资源评价）数据集市完善，打通审批流程修复数据生产由于DruidSQLUtils不支持Doris导致无法建表的问题优化贴源数据模块，改为读取数据库的元数据，与同步的数据做关联匹配此外，数据生产模块很多朋友对于Hadoop

小螺旋丸·2024-01-03 10:51

新年快乐—数睿通2.0数据中台全新功能模块发布

FlinkSql作业开发调度中心运维中心资源中心配置中心其他模块结语引言离上次发文已经有接近三个月了，这三个月主要在开发数睿通的数据生产模块，同时优化了一下数据集成，目前已经基本开发完毕了，集成了Flink，Hadoop

小螺旋丸·2024-01-03 10:43

HDFS之Offline Viewer

FileDistribution常用于查看hdfs文件大小分布，查看小文件的数量。hdfsoiv-pFileDistribution-maxSizemaxSize-step

zincooo·2024-01-03 09:16

Spark一：Spark介绍、技术栈与运行模式

1.2Spark作用中间结果输出Spark的Job中间输出结果可以保存在内存中，从而不再需要读写HDFSMapReduce的替代方案Spark比M

eight_Jessen·2024-01-03 09:11

Hive自定义函数支持国密SM4解密

当前项目背景需要使用到国密SM4对加密后的数据进行解密，Hive是不支持的，尝试了华为DWS数仓，华为只支持在DWS中的SM4加密解密，不支持外部加密数据DWS解密新建Maven工程只需要将引用的第三方依赖打到jar包中，hadoop

4935同学·2024-01-03 08:03

Flume基础知识（一）：Flume组成原理与架构

Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS。2.Flume基础架构Flume组成架构如下图所示。

依晴无旧·2024-01-03 07:18

计算机毕业设计吊打导师hadoop+spark+hive知识图谱医生推荐系统医生数据分析可视化大屏医生爬虫医疗可视化医生大数据机器学习大数据毕业设计

流程：1.Python爬虫采集中华健康网约10万医生数据，最终存入mysql数据库；2.使用pandas+numpy/hadoop+mapreduce对mysql中的医生数据进行数据分析，使用高德地图解析地理位置

计算机毕业设计大神·2024-01-03 07:53

纠删码ReedSolomon

随着大数据技术的发展，HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了数据的可靠性，HDFS通过多副本机制来保证。

旅僧·2024-01-03 07:14

Clojure 实战(4)：编写 Hadoop MapReduce 脚本

Hadoop简介众所周知，我们已经进入了大数据时代，每天都有PB级的数据需要处理、分析，从中提取出有用的信息。Hadoop就是这一时代背景下的产物。

张吉Jerry·2024-01-03 07:35

shell编程之find

-inameaa-user查找文件属主为hdfs的所有文件，不区分大小写find.-userhdfs-group查找文件属组为yarn的所有文件find.-groupyarnf文件find.

hemingkung·2024-01-03 06:13

python操作hdfs及hbase

操作HDFS创建目录client.makedirs("/tmp/ct/test51")默认权限755，用户名：dr.who可以创建多层级目录（类似mkdir-p）如果存在权限不足，可以通过命令行对上层目录权限进行修改

佛系小懒·2024-01-03 04:26

使用Datax将Hive中的表迁移到MySQL

无法上传（2）解压datax压缩包sudotar-zxvfdatax.tar.gz-C/usr/local（解压到的目录，可自己设置）（3）修改文件夹名称 mvdatax.tar datax（4）给hadoop

孤城暮雨@·2024-01-03 04:17

Azkaban+Spark资源调度

前提条件：各节点之间的免密、登录启动Hadoop集群、Spark、Azkaban、Hive免密登录操作ssh-keygen-trsaslave01执行：scp~/.ssh/id_rsa.pubhadoop

孤城暮雨@·2024-01-03 04:46

计算机毕业设计大数据类题目

序号题目题目要求（该课题的研究目的、所实现的主要功能等）1基于Hadoop的大数据宠物商城推荐系统收集大量有关宠物产品和用户购买行为的数据，并使用hadoop进行数据处理和存储，以构建一个个性化的宠物产品推荐系统

程序源码123·2024-01-03 00:14

hive多分隔符外表支持

CREATEEXTERNALTABLEtext_mid1(idSTRING,nameSTRING)ROWFORMATSERDE'org.apache.hadoop.hive.contrib.

甲乙寄几·2024-01-02 19:31

Hbase介绍以及Hive优势

因为HBase基于Hadoop的HDFS完成分布式存储，以及MapReduce完成分布式并行计算，所以它的一些特点与Hadoop相同，依靠横向扩展，通过不断增加性价比高的商业服务器来增加计算和存储能力。

毛毛虫同学·2024-01-02 14:38

10.Hadoop框架下MapReduce中的map个数如何控制

一个job的map阶段并行度由客户端在提交job时决定客户端对map阶段并行度的规划基本逻辑为：一、将待处理的文件进行逻辑切片（根据处理数据文件的大小，划分多个split），然后每一个split分配一个maptask并行处理实例二、具体切片规划是由FileInputFormat实现类的getSplits()方法完成切分规则如下：1.简单地按照文件的内容长度进行切片2.切片大小默认是datanode

__元昊__·2024-01-02 13:45

Spark内容分享(二十三)：Spark on K8s 在茄子科技的实践

4.EMR类产品的缺陷5.传统Hadoop生态，三大组件的前世今生6.SparkonK8s的优势SparkonK8s原理介绍1.Spark的集群部署模式2.Sparkonk8s如何运行3.Spark的dynamicAllocation

之乎者也··2024-01-02 11:30

Spark内容分享(二十二)：eBay最佳实践：Spark SQL优化之物化视图

的实现验证部分重写部分物化视图应用场景及收益应用场景：物化视图重写普通视图应用场景：物化视图重定义表结构物化视图应用收益总结及后续计划背景Carmel是eBay内部基于ApacheSpark打造的一款SQL-on-Hadoop

之乎者也··2024-01-02 11:00

Spark内容分享(二十一)：字节跳动 Spark 支持万卡模型推理实践

-资源匹配未来展望背景介绍随着云原生的发展，Kubernetes由于其强大的生态构建能力和影响力，使得包括大数据、AI在内越来越多类型的负载应用开始向Kubernetes迁移，字节内部探索Spark从Hadoop

之乎者也··2024-01-02 11:59

HBase内容分享（五）：HBase读写性能优化

目录一、HBase读优化1.HBase客户端优化2.HBase服务器端优化3.HBase列族设计优化4.HDFS相关优化5.HBase读性能优化归纳二、HBase写优化1.写性能优化切入点2.写异常问题检查点一

之乎者也··2024-01-02 10:48

hadoop环境搭建

一、平台环境CentOS6.5二、软件版本hadoop-2.8.1下载地址jdk-8u45-linux-x64下载地址apache-maven-3.3.9软件下载三、内容目录前置内容1.1jdk安装和配置

熊_看不见·2024-01-02 10:00

小肥柴的Hadoop之旅

小肥柴的Hadoop之旅（目录）（第0章）导航0-0-1写博客的初衷0-0-2参考资料和书籍0-0-3完工部分传送门导航0-0-1写博客的初衷从门外汉边学边上课，到入门的菜鸡，对如何正确的学习Hadoop

卷毛迷你猪·2024-01-02 10:30

【Hadoop】如何启动和关闭Hadoop集群

启动Hadoop集群关闭Hadoop集群启动Hadoop集群参考官方文档ApacheHadoop3.3.6–HadoopClusterSetup要启动Hadoop集群，需要同时启动HDFS和YARN集群

不怕娜·2024-01-02 10:29

【Hadoop】集群配置之主要配置文件（hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml...）

Hadoop配置文件模板core-site.xmlhadoop-env.shhdfs-site.xmlyarn-env-shyarn-site.xmlmapred-site.xmlslavesHadoop

不怕娜·2024-01-02 10:27

大数据学习入门到实战教程，精心整理万字长文入门，老奶奶看了都说学会了

换个角度说，大数据是：1、有海量的数据2、有对海量数据进行挖掘的需求3、有对海量数据进行挖掘的软件工具（hadoop、spark、storm、flink、tez

悦悦学Python·2024-01-02 08:59

Hive(二)之bash群起脚本

集群的启动启动HDFS启动namenode$/opt/modules/cdh/hadoop-2.5.0-cdh5.3.6/sbin/hadoop-daemon.shstartnamenode2.启动datanode

DarrenmondZhang·2024-01-02 07:45

大数据 - Hadoop系列《三》- HDFS（分布式文件系统）概述

5.1hdfs的概念HDFS分布式文件系统,全称为:HadoopDistributedFileSystem。

王哪跑nn·2024-01-02 06:06

Hadoop运维--Zookeeper--安装配置

一、服务规划服务器IP地址软件服务备注master192.168.71.130zookeeperQuorumPeerMainfollowerslave1192.168.71.129zookeeperQuorumPeerMainleaderslave2192.168.71.132zookeeperQuorumPeerMainfollower二、ZooKeeper安装配置下载地址：https://zo

无剑_君·2024-01-02 06:39

【2023】hadoop基础介绍

目录Hadoop组成HDFSHDFS操作HDFS分布式文件存储NameNode元数据数据读写流程YARN和MapReduceMapReduce：分布式计算YARN：资源管控调度YARN架构提交任务到**

方渐鸿·2024-01-02 03:26

flink 连接 hdfs 读取文件配置

flink连接hdfs读取文件配置hadoop版本为2.7.3window系统本地运行flink程序读取hdfs文件配置1，请导入hadoop和httpclient的包org.apache.flinkflink-hadoop-fs

eagle隼·2024-01-02 02:06

Ubuntu配置hadoop伪分布式

1.设置免密登录伪分布式搭建过程中会涉及各种管理员权限，一次一次输入密码太过麻烦，我们要求各集群间免密码连接sudoapt-getinstallopenssh-server#安装openssh-serversshlocalhost#连接到主机exit#退出刚才的sshlocalhostcd~/.ssh/#若没有该目录，请先执行一次sshlocalhostssh-keygen-trsa#会有提示，都

MA木易YA·2024-01-01 23:46

2018-05-21

1.hadoop是什么广义就是hadoop生态圈，狭义就是单指hadoop2.hadoop三大组件是什么?

CrUelAnGElPG·2024-01-01 23:55

2023.12.31 Python 词频统计

练习：使用Python中的filter、map、reduce实现词频统计样例数据：helloworldjavapythonjavajavahadoopsparksparkpython需求分析：1-文件中有如上的示例数据

白白的wj·2024-01-01 23:40

推荐频道

hadoop；hdfs