研磨hadoop 第102页

nutch爬取网站数据详细步骤

环境：hadoop2.7.7+hbase0.98+nutch2.3+solr4.9大致步骤思想：hadoop提供底层数据存储hbase在其之上建立非关系型数据库nutch将爬的数据存到hbase上并建立索引到

Echoooo_o·2023-09-15 13:21

基于VM与Hadoop的完全分布式安装

基于VM虚拟机的ubuntu18.04的Hadoop的完全分布式安装，所有的指令都是在超级用户下做的，其中完全分布式模式环境的配置需要在三台虚拟机上都做一次，本人也是第一次做，有很多不会的地方查了很多资料也走了很多弯路文章目录基于

凯撒袁六兽·2023-09-15 11:26

大数据开发：Hive DDL操作入门

Hive针对于数据管理操作，提供了类SQL语言HQL，在Hadoop生态当中，Hive定位为数据仓库工具，对于数据的各种操作，也就是使用HQL来完成。

成都加米谷大数据·2023-09-15 11:31

9/28 继续写

本书教你解构文案打动人的4大黄金法则，好奇-欲望-相信-下单，公开18种文案写法，75篇实战案例，100多幅释义插图，前奥美金牌广告人精心研磨，手把手教你写出爆款销售力。

狸猫啊·2023-09-15 10:39

一百七十六、Kettle——Kettle配置HDFS输出控件能不能加GZIP等压缩方式?

kettle9.2的HDFS输出控件压缩方式包括GZip、Hadoop-snappy、None、Snappy、Zip等5种二、HDFS输出控件中能不能加压缩方式？在从Kafka到HDFS的kett

天地风雷水火山泽·2023-09-15 10:52

flume-扇入

给另外两台机器发送flume文件夹[root@hadoop01src]#scp-rflume/root@hadoop02:/usr/local/src[root@hadoop01src]#scp-rflume

ssttIsme·2023-09-15 09:35

《十小时入门大数据》学习笔记之初识Hadoop

笔记内容概括Hadoop概述1.1Hadoop名字的由来1.2Hadoop介绍1.3Hadoop能做什么Hadoop核心组件2.1HDFS(分布式文件系统)2.2YARN(资源调度系统)2.3MapReduce

腊月的梅花·2023-09-15 08:36

Hadoop-Hbase

1.Hbase安装1.1安装zookeeper、hbase解压至/opt/soft，并分别改名配置环境变量并source生效#ZKexportZOOKEEPER_HOME=/opt/soft/zk345exportPATH=$ZOOKEEPER_HOME/bin:$PATH#HBASE_HOMEexportHBASE_HOME=/opt/soft/hbase235exportPATH=$HBASE

不吃香菜lw·2023-09-15 07:37

Hadoop-Hive

1.hive安装部署2.hive基础3.hive高级查询4.Hive函数及性能优化1.hive安装部署解压tar-xvf./apache-hive-3.1.2-bin.tar.gz-C/opt/soft/改名mvapache-hive-3.1.2-bin/hive312配置环境变量：vim/etc/profile#hiveexportHIVE_HOME=/opt/soft/hive312expor

不吃香菜lw·2023-09-15 07:06

Hadoop设置固定ip无效的解决办法

今天配置Hadoop的时候，执行vi/etc/sysconfig/network-scripts/ifcfg-ens33修改网络配置文件后，一切正常，但重启后IP改变了，并且在修改以及重启网络连接数次后

袁既望·2023-09-15 07:03

4. hdfs ha脚本检测failover时，发送邮件预警

NN1_STATE=""NN1_HOSTNAME=""NN2_HOST=""NN2_STATE=""NN2_HOSTNAME=""[email protected]_DIR=/home/hadoop

赛尔木·2023-09-15 05:19

[Hadoop] start-dfs.sh ssh报错

凶悍的狼·2023-09-15 05:19

虚拟机搭建hadoop集群报java.net.ConnectException: 拒绝连接

问题描述我的core-site.xml的文件如下fs.defaultFShdfs://node1:9000hadoop.tmp.dir/tmp/hadoop-2.8.5node1是我hdfs的主节点，然后在

捞月亮的阿汤哥·2023-09-15 04:59

CentOS_IDEA_安装图解

一、在opt目下解压IDEA第一种方式：解压当前目录[root@hadoop100software]#tar-zxvfideaIU-2018.2.tar.gz第二种方式：解压指定目录[root@hadoop100software

Hola_怡宝·2023-09-15 02:55

用hadoop-eclipse-plugins-2.6.0来配置hadoop-3.3.6

hadoop-eclipse-plugins这个插件是Eclipse中Hadoop的插件，但在寻找这个插件的过程中，突然发现插件的版本最好与hadoop的版本的一样但我所能找到的最新版是3.3.1的，试了试

⚝ ⚝·2023-09-15 01:33

yarn的资源优化的调整参数

yarn的资源优化的调整参数官网：https://hadoop.apache.org/docs/r3.3.6/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

墨卿风竹·2023-09-15 01:31

Zookeeper学习基础内容

[TOC]一、Zookeeper简介ZooKeeper致力于提供一个高性能、高可用，且具备严格的顺序访问控制能力的分布式协调服务，是雅虎公司创建，是Google的Chubby一个开源的实现，也是Hadoop

溯水心生·2023-09-15 01:26

Redis使用原生命令搭建集群

1.Redis版本及下载找到安装的redis版本，redis3.0以上版本才支持集群下载对应的版本2.安装redis集群解压上传编译[hadoop@host152opensource]$tar-xvfredis

SimpleSimpleSimples·2023-09-15 00:38

Spark

Spark是加州大学伯克利分校的AMP实验室所开源的类HadoopMapReduce的通用并行计算框架，Spark拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以缓存在内存中

HikZ.919·2023-09-14 23:29

Spark常见报错

对于sparkonyarn，shufflewrite是container写数据到本地磁盘(路径由core-site.xml中hadoop.tmp.dir指定)过

HikZ.919·2023-09-14 23:29

解决hadoop使用put上传报错问题

hadoop使用put上传报错WARNhdfs.DataStreamer:DataStreamerExceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException

我最爱吃鱼香茄子·2023-09-14 20:46

hive创建hbase表映射

idstring,student_namestring,genderstring,pwdstring,school_namestring,locationstring)storedby'org.apache.hadoop.hive.hbase.HBaseStorageHandler'wi

jmzcc·2023-09-14 19:54

Hadoop下载安装及HDFS配置教程

Hadoop下载安装及HDFS配置教程前言Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。

Mekeater·2023-09-14 19:16

【大数据】下载hadoop与jdk

第一步，ctrl+alt+t打开终端窗口，执行如下命令：$sudoapt-getupdate第二步安装SSH、配置SSH无密码登陆1)集群、单节点模式都需要用到SSH登陆（类似于远程登陆，你可以登录某台Linux主机，并且在上面运行命令），Ubuntu默认已安装了SSHclient，此外还需要安装SSHserver：$sudoapt-getinstallopenssh-server2)安装后，可以

almostspring·2023-09-14 19:16

大数据上机基础—HDFS文件操作

对厦门大学林子雨老师大数据技术原理与应用第三章分布式文件系统HDFS学习指南一文进行的整理，方便自己学习查看原文地址为大数据技术原理与应用第三章分布式文件系统HDFS学习指南操作系统为Ubuntu16.04虚拟机为VirtualBox一、HDFS文件操作启动Hadoopcd

Lucky-Niu·2023-09-14 17:14

windows 下安装 zookeeper

介绍ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。

Negen·2023-09-14 15:17

Hbase记录

这是一个纯文本文件，其中列出了主服务器应在其上启动备份主进程的主机，每行一台主机hadoop-metrics2-hbase.properties用于连接HBaseHadoop的Metrics2框架。

可以养肥·2023-09-14 15:47

2019年8月21日❤️用语言温暖世界❤️正念感恩日记第134天

镜片是由基因、生理特征、养育方式、感情经历、社会阶层、教育状况和朋友等因素共同研磨而成的。每个镜片都是量身定制的，因此每种视野对于佩戴者来说都是真实和准确的，但也只限于那个人自己。对

young喜洋洋·2023-09-14 15:20

大数据重点知识点

精简】一.大数据特点(4V)(记住)1.Volume(大量)2.Velocity(高速)3.Variety(多样)4.value(低价值密度)二.大数据的应用场景(了解)三.大数据业务流程(无所谓)四.Hadoop

指尖数据·2023-09-14 14:55

OushuDB 安装与升级之安装 HDFS

安装HDFS由于hadoop依赖于特定版本的snappy，请先卸载snappy确保安装的顺利进行：hawqssh-fhostfile-e'yumremove-ysnappy'HAWQ的HDFS采用HA的方式进行安装配置

北漂一号·2023-09-14 14:46

搭建Hadoop集群并实现hdfs上的crud操作

搭建Hadoop集群需要以下步骤：1.安装Java环境和Hadoop软件包在所有节点上安装Java环境和Hadoop软件包；以下是详细的步骤：在所有节点上安装Java环境和Hadoop软件包。

想用代码改变世界·2023-09-14 13:08

FMI飞马网【线上直播】大数据安全实践

曾就职于珠海世纪鼎利通信科技股份有限公司，参与到全国最早用于移动通信领域的大数据信令共享平台试点项目的研发及建设（当时用于生产的Hadoop集群典型架构为Avatar机制，Apache社区的Hadoop

尤娜_d831·2023-09-14 13:13

Spark集成hudi创建表报错

环境描述：hudi版本：0.13.1spark版本：3.3.2Hive版本：3.1.3Hadoop版本：3.3.4问题1：描述：按照官方文档运行spark-sql创建spark的hudi表报错建表语句：

Toroidals·2023-09-14 12:32

Flink、Spark、Hive集成Hudi

环境描述：hudi版本：0.13.1flink版本：flink-1.15.2spark版本：3.3.2Hive版本：3.1.3Hadoop版本：3.3.4一.Flink集成Hive1.拷贝hadoop包到

Toroidals·2023-09-14 12:29

见感思行2022-02-20

目的的依然是学校拐角处静谧的咖啡店，每一次走进武大校园亦或是走进闺蜜的小店，总有种被治愈的感觉，干净明亮的落地玻璃，香气醇厚的咖啡研磨气味，桌上摆放的花花草草，埋头各自忙着自己学

狮子笔下的羊·2023-09-14 11:34

mac10.9下eclipse的storm入门及开发环境搭建

STORM可以可靠地处理无限的数据流，实时处理Hadoop的批任务。对比Hadoop的批处

Nathan_way·2023-09-14 11:45

Spark入门到精通

hadoop主要用于一次性数据计算，不适合迭代式数据流处理spark的多个作业之间的数据通讯是基于内存的，而hadoop是基于磁盘的2.spark核心模块

don't_know·2023-09-14 10:34

JAVA监控之Metrics

它在kafka，spark，hadoop，flink和cassandra等流行框架中都得到了广泛的应用。

don't_know·2023-09-14 10:03

java hbase 删除数据结构_Hbase之批量删除数据

importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.hbase.HBaseConfiguration;importorg.apache.hadoop.hbase.TableName

疯狂包包·2023-09-14 10:36

Hadoop3.x入门-Spark3.x部署

1.前言Spark集群模式包括：Local，Standalong，Yarn，Kubernetes，但在生产环境中SparkOnYarn是主流。其中，Spark提供计算服务，Yarn提供资源调度能力，HDFS提供存储。本文介绍如何部署Spark3.1.3OnYarn，这种模式下，Spark没有集群的概念，而是作为一个客户端组件向Yarn提交自定义Jar包程序任务，只需要将Spark相关配置配好并部署

-小末·2023-09-14 10:06

Spark实例学习(一)spark3.x集群搭建

目录集群规划spark安装包下载虚拟机搭建NAT静态网络配置Hadoop集群搭建scala安装配置spark修改conf下文件分发虚拟机修改启动文件名配置历史日志启动sparkUI界面查看测试spark

阳光里哭泣的狗·2023-09-14 10:34

（二十七）大数据实战——hbase高可用集群安装与部署

HBase是一个开源的分布式非关系型数据库管理系统（NoSQL），它运行在ApacheHadoop之上。它基于Google的Bigtable论文设计，并且具有高扩展性、高可靠性和高性能的特点。

北溟溟·2023-09-14 10:31

阿里云服务器部署安装hadoop与elasticsearch踩坑笔记

2023-09-1214:00——2023.09.1320:06目录00、软件版本01、阿里云服务器部署hadoop1.1、修改四个配置文件1.1.1、core-site.xml1.1.2、hdfs-site.xml1.1.3

upward337·2023-09-14 09:50

Hadoop生态圈中的Flume数据日志采集工具

Hadoop生态圈中的Flume数据日志采集工具一、数据采集的问题二、数据采集一般使用的技术三、扩展：通过爬虫技术采集第三方网站数据四、Flume日志采集工具概述五、Flume采集数据的时候，核心是编写

Augenstern K·2023-09-14 08:30

hadoop

9000-p8088:8088-p8040:8040-p8042:8042-p49707:49707-p50010:50010-p50075:50075-p50090:50090sequenceiq/hadoop-docker

摆烂z·2023-09-14 06:35

大数据-Hive

Hive简介Hive是基于Hadoop的一个【数据仓库工具】，可以将结构化和半结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能。

HikZ.919·2023-09-14 06:35

简单讲讲在一台机器上用docker部署hadoop HDFS

老东西叫我用vmvare部署hadoop,我觉得这简直蠢毙了,让我们用docker和docker-compose来快速的过一遍如何使用docker-compose来部署简单的hadoop集群范例写在前面

生生世世是所说的·2023-09-14 06:31

自动化脚本一键安装 jdk，hadoop，hive

pwd=qh8h提取码:qh8h使用该脚本有几个地方需要修改成自己设备相应属性，还有一些注意事项（1）脚本开头jdk=falsehadoop=falsehive=true分别对应jdk、hadoop、hive

超爱慢·2023-09-14 06:27

Hive数据仓库实战

Hive作为大数据平台Hadoop之上的主流应用，公司一般都是用它作为公司的数据仓库，分布式机器学习的训练数据和数据处理也经常用它来处理，下面介绍下它的常用功能。

充电了么·2023-09-14 02:28

mysql 8 安装教程

SQL版本：链接：https://dev.mysql.com/get/mysql-apt-config_0.8.17-1_all.deb2.卸载参考链接https://blog.csdn.net/iehadoop

xinyiyake·2023-09-13 23:45

推荐频道

研磨hadoop