灰仔

使用HDP快速搭建Hadoop开发环境

使用两台虚拟机搭建真实集群环境，操作系统为Cent OS 6.5

1. 服务器基本设置

vim /etc/hosts

192.168.159.145 hdp01.domain

192.168.159.146 hdp02.domain

vim /etc/selinux/config

SELINUX=disabled

service iptables stop

chkconfig iptables off

vim /etc/sysconfig/network

HOSTNAME=hdp01 #主机名分别为hdp01, hdp02

关闭不必要的服务:

chkconfig NetworkManager off

chkconfig abrt-ccpp off

chkconfig abrtd off

chkconfig acpid off

chkconfig atd off

chkconfig bluetooth off

chkconfig cpuspeed off

chkconfig ip6tables off

chkconfig iptables off

chkconfig netconsole off

chkconfig netfs off

chkconfig postfix off

chkconfig restorecond off

chkconfig httpd off

我是mini最小化安装，有些服务不存在。

完成后 reboot

2． 在hdp01上安装ambari

(1).下载HDP repo

下载HDP提供的yum repo文件并拷贝到/etc/yum.repos.d中

[root@hdp01 ~]# wget http://public-repo-1.hortonworks.com/ambari/centos6/1.x/updates/1.4.1.61/ambari.repo

--2014-03-10 04:57:58-- http://public-repo-1.hortonworks.com/ambari/centos6/1.x/updates/1.4.1.61/ambari.repoResolving public-repo-1.hortonworks.com... 54.230.127.224, 205.251.212.150, 54.230.124.207, ...

Connecting to public-repo-1.hortonworks.com|54.230.127.224|:80... connected.

HTTP request sent, awaiting response... 200 OK

Length: 770 [binary/octet-stream]

Saving to: “ambari.repo”

100%[======================================>] 770 --.-K/s in 0s

2014-03-10 04:58:01 (58.8 MB/s) - “ambari.repo” saved [770/770]

[root@hdp01 ~]# cp ambari.repo /etc/yum.repos.d/

（2）.使用yum安装ambari-server

[root@hdp01 ~]# yum –y install ambari-server

...

Total download size: 49 M

Installed size: 113 M

Installed:

ambari-server.noarch 0:1.4.1.61-1

Dependency Installed:

postgresql.x86_64 0:8.4.20-1.el6_5 postgresql-libs.x86_64 0:8.4.20-1.el6_5 postgresql-server.x86_64 0:8.4.20-1.el6_5

Complete!

3． 配置root用户的ssh互信

分别在hdp01和hdp02生成key,再通过ssh-copy-id拷贝到hdp01和hdp02上去。

[root@hdp01 ~]# ssh-keygen -t rsa

[root@hdp02 ~]# ssh-keygen -t rsa

[root@hdp01 .ssh]# ssh-copy-id hdp01.domain

[root@hdp01 .ssh]# ssh-copy-id hdp02.domain

[root@hdp02 .ssh]# ssh-copy-id hdp01.domain

[root@hdp02 .ssh]# ssh-copy-id hdp02.domain

同步系统时间：

yum install -y ntpd

crontab –e

*/1 * * * * ntpdate time.windows.com && clock –w

ntpdate time.windows.com && clock –w

service ntpdate restart

service ntpd restart

service crond restart

4． 配置ambari server

Apache Ambari是基于Web的Apache Hadoop的自动部署、管理和监控工具。这里ambari server的metastore使用了自带了postgre数据库。

[root@hdp01 ~]# ambari-server setup

Using python /usr/bin/python2.6

Initializing...

Setup ambari-server

Checking SELinux...

SELinux status is 'disabled'

Customize user account for ambari-server daemon [y/n] (n)?

Adjusting ambari-server permissions and ownership...

Checking iptables...

Checking JDK...

To download the Oracle JDK you must accept the license terms found at http://www.oracle.com/technetwork/java/javase/terms/license/index.html and not accepting will cancel the Ambari Server setup.

Do you accept the Oracle Binary Code License Agreement [y/n] (y)?

Downloading JDK from http://public-repo-1.hortonworks.com/ARTIFACTS/jdk-6u31-linux-x64.bin to /var/lib/ambari-server/resources/jdk-6u31-linux-x64.bin

JDK distribution size is 85581913 bytes

dk-6u31-linux-x64.bin... 100% (81.6 MB of 81.6 MB)

Successfully downloaded JDK distribution to /var/lib/ambari-server/resources/jdk-6u31-linux-x64.bin

Installing JDK to /usr/jdk64

Successfully installed JDK to /usr/jdk64/jdk1.6.0_31

Downloading JCE Policy archive from http://public-repo-1.hortonworks.com/ARTIFACTS/jce_policy-6.zip to /var/lib/ambari-server/resources/jce_policy-6.zip

Successfully downloaded JCE Policy archive to /var/lib/ambari-server/resources/jce_policy-6.zip

Completing setup...

Configuring database...

Enter advanced database configuration [y/n] (n)? y

==============================================================================

Choose one of the following options:

[1] - PostgreSQL (Embedded)

[2] - Oracle

==============================================================================

Enter choice (1): 1

Database Name (ambari):

Username (ambari):

Enter Database Password (bigdata):

Default properties detected. Using built-in database.

Checking PostgreSQL...

Running initdb: This may take upto a minute.

About to start PostgreSQL

Configuring local database...

Connecting to the database. Attempt 1...

Configuring PostgreSQL...

Restarting PostgreSQL

Ambari Server 'setup' completed successfully.

使用root用户来启动ambari server

[root@hdp01 ~]$ ambari-server start

Using python /usr/bin/python2.6

Starting ambari-server

Unable to check iptables status when starting without root privileges.

Please do not forget to disable or adjust iptables if needed

Unable to check PostgreSQL server status when starting without root privileges.

Please do not forget to start PostgreSQL server.

Server PID at: /var/run/ambari-server/ambari-server.pid

Server out at: /var/log/ambari-server/ambari-server.out

Server log at: /var/log/ambari-server/ambari-server.log

Ambari Server 'start' completed successfully.

5．安装mysql

使用mysql-server来存hive metastore。

首先安装remi软件源(为了能通过yum安装Mysql 5.5):

[root@hdp01 ~]# yum install -y epel-release

Installed:

epel-release.noarch 0:6-8

Complete!

[root@hdp01 ~]# rpm -Uvh http://rpms.famillecollet.com/enterprise/remi-release-6.rpm

Retrieving http://rpms.famillecollet.com/enterprise/remi-release-6.rpm

warning: /var/tmp/rpm-tmp.JSZuMv: Header V3 DSA/SHA1 Signature, key ID 00f97f56: NOKEY

Preparing... ########################################### [100%]

1:remi-release ########################################### [100%]

[root@hdp01 ~]# yum install –y mysql-server

......

Total download size: 12 M

......

[root@hdp01 ~]# yum --enablerepo=remi,remi-test list mysql mysql-server

Loaded plugins: fastestmirror, refresh-packagekit, security

Loading mirror speeds from cached hostfile

......

Available Packages

mysql.x86_64 5.5.36-1.el6.remi

mysql-server.x86_64 5.5.36-1.el6.remi

[root@hdp01 ~]# yum --enablerepo=remi,remi-test install mysql mysql-server

Loaded plugins: fastestmirror, refresh-packagekit, security

Loading mirror speeds from cached hostfile

......

Total download size: 20 M

......

[root@hdp01 ~]# /usr/bin/mysql_secure_installation

[root@hdp01 ~]# /etc/init.d/mysqld start

[root@hdp01 ~]# /usr/bin/mysql_secure_installation

[root@hdp01 ~]# chkconfig --level 235 mysqld on

......

Enter current password for root (enter for none):

OK, successfully used password, moving on...

Change the root password? [Y/n] n

... skipping.

Remove anonymous users? [Y/n] Y

... Success!

Disallow root login remotely? [Y/n] Y

... Success!

Remove test database and access to it? [Y/n] Y

- Dropping test database...

... Success!

- Removing privileges on test database...

... Success!

Reload privilege tables now? [Y/n] Y

... Success!

All done! If you've completed all of the above steps, your MySQL installation should now be secure.

Thanks for using MySQL!

[root@hdp01 ~]# service mysqld start

Starting mysqld: [ OK ]

下面创建数据库和用户

[root@hdp01 ~]# mysql –u root –p

mysql> create database hive;

Query OK, 1 row affected (0.00 sec)

mysql> create user "hive" identified by "hive123";

Query OK, 0 rows affected (0.00 sec)

mysql> grant all privileges on hive.* to hive;

Query OK, 0 rows affected (0.00 sec)

mysql> flush privileges;

Query OK, 0 rows affected (0.00 sec)

6．使用浏览器打开, 输入admin/admin

http://hdp01.domain:8080/#/login

Name your cluster: debugo_test

Stack: HDP 2.0.6

Target Hosts: hdp01,hdp02

Host Registration Information:

由于之前配置了root用户的ssh互信，这里需要选择hdp01.domain下的/root/.ssh下面id.rsa私钥文件，然后Register and confirm继续：

下面如果出现os_type_check.sh脚本执行失败导致的Local OS is not compatible with cluster primary OS报错，这是一个BUG，可以直接修改该os_type_check.sh使得输出里面直接在输出结果之前的RES=0。

这里我更新了系统：yum update 更新完成：reboot (否则会出现兼容性错误)

成功后，ambari-agent 安装完成，可以通过ambari-agent命令来控制：

[root@hdp02 Desktop]# ambari-agent status

ambari-agent currently not running

Usage: /usr/sbin/ambari-agent {start|stop|restart|status}

#在hdp01和hdp02上让ambari-agent在开机时启动

[root@hdp02 Desktop]# chkconfig ambari-agent --level 35 on

下一步选择要安装的组件，这里不选择Nagios, Ganglia和Oozie。对于Hive，后面选择使用前面安装的mysql-server:

我这里没有Hive的修改选项，使用默认的配置。

下一步：

对于Hive，这里选择使用前面安装的mysql-server。

将YARN的yarn.acl.enable设置为false，去掉后面的勾选项。下一步：

检查是否存在错误，进行下一步的Deploy。

这是一个极为漫长的过程，中途遇到failure就retry一下。大约一小时（我花了很长时间），对于其中某些无法下载的rpm安装包，可以手动下载后，yum install *.rpm，再继续retry。

安装完成：

Next以后就进入了期待已久的Dashboard界面，此时安装的组件已经全部启动。

Hive可能无法启动，根据Hive连接数据库的相关选项，在hdp01.domain进行授权。

7．开发环境的配置

下载eclipse 4.3(kepler),maven-3.2.1到/opt下，设置环境变量

[root@hdp01 opt]# vim /etc/profile

export JAVA_HOME=/usr/jdk64/jdk1.6.0_31

export MAVEN_HOME=/opt/apache-maven-3.2.1

export PATH=$PATH:$JAVA_HOME/bin:$MAVEN_HOME/bin

export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

[root@hdp01 opt]# chgrp –R hadoop apache-maven-3.2.1/ eclipse/ workspace/

[root@hdp01 opt]# useradd hadoop

[root@hdp01 opt]# echo “hadoop” > passwd –stdin Hadoop

打开eclipse -> help -> Install new softwares,下载maven插件( http://download.eclipse.org/m2e-wtp/releases/kepler/ )。安装完成后重启eclipse，就可以正式开始hadoop之旅了。

8. WordCount的编译

(1). 新建一个maven项目

(2). Create a simple project(skip archetype selection)

(3). 如果出现JRE安装相关的Warning

Build path specifies execution environment J2SE-1.5. There are no JREs installed in the workspace that are strictly compatible with this environment.

可以在项目properties页中删除JRE1.5SE这一项，然后Add Library -> JRE System Library -> workspace default JRE即可。

(4). WordCount.java

在com.debugo.com.mapred包下创建WordCount类：

package com.debugo.hadoop.mapred;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class WordCount {

public static class TokenizerMapper

extends Mapper<Object, Text, Text, IntWritable>{

private final static IntWritable one = new IntWritable(1);

private Text word = new Text();

public void map(Object key, Text value, Context context

) throws IOException, InterruptedException {

StringTokenizer itr = new StringTokenizer(value.toString());

while (itr.hasMoreTokens()) {

word.set(itr.nextToken());

context.write(word, one);

}

public static class IntSumReducer

extends Reducer<Text,IntWritable,Text,IntWritable> {

private IntWritable result = new IntWritable();

public void reduce(Text key, Iterable<IntWritable> values,

Context context

) throws IOException, InterruptedException {

int sum = 0;

for (IntWritable val : values) {

sum += val.get();

}

result.set(sum);

context.write(key, result);

}

public static void main(String[] args) throws Exception {

Configuration conf = new Configuration();

String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

if (otherArgs.length != 2) {

System.err.println("Usage: wordcount <in> <out>");

System.exit(2);

}

Job job = new Job(conf, "word count");

job.setJarByClass(WordCount.class);

job.setMapperClass(TokenizerMapper.class);

job.setCombinerClass(IntSumReducer.class);

job.setReducerClass(IntSumReducer.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

System.exit(job.waitForCompletion(true) ? 0 : 1);

}

编辑pom.xml，添加依赖库。通过maven的repository里可以查得（http://mvnrepository.com/artifact/org.apache.hadoop）

<groupId>junit</groupId>

<artifactId>junit</artifactId>

</dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-common</artifactId>

</dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-hdfs</artifactId>

</dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-mapreduce-client-jobclient</artifactId>

</dependency>

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-client</artifactId>

</dependency>

</dependencies>

这里需要注意的是，直接运行会包map任务找不到WordCount中的子类，所以要在mvn install之后将自己项目这个包再次引入到mvn项目中来。

mvn install:install-file -DgroupId=com.debugo.hadoopDartifactId=mr -Dpackaging=jar -Dversion=0.1 -Dfile=mr-0.0.1-SNAPSHOT.jar -DgeneratePOM=true

然后添加

<groupId>com.debugo.hadoop</groupId>

</dependency>

另外，http://www.cnblogs.com/spork/archive/2010/04/21/1717592.html，也是一个很好的解决方案。

编辑Run Configuration，设置运行参数”/input /output”。

然后创建/input目录: hdfs dfs -mkdir /input

再使用hdfs dfs -put a.txt /input将一些文本传到该目录下。

最后执行这个项目，成功后结果就会输出到/output dfs目录中。

[2014-03-13 09:52:20,282] INFO 19952[main] - org.apache.hadoop.mapreduce.Job.monitorAndPrintJob(Job.java:1380) - Counters: 49

File System Counters

FILE: Number of bytes read=5263

FILE: Number of bytes written=183603

FILE: Number of read operations=0

FILE: Number of large read operations=0

FILE: Number of write operations=0

HDFS: Number of bytes read=6739

HDFS: Number of bytes written=3827

HDFS: Number of read operations=6

HDFS: Number of large read operations=0

HDFS: Number of write operations=2

Job Counters

Launched map tasks=1

Launched reduce tasks=1

Data-local map tasks=1

Total time spent by all maps in occupied slots (ms)=3075

Total time spent by all reduces in occupied slots (ms)=6294

Total time spent by all map tasks (ms)=3075

Total time spent by all reduce tasks (ms)=3147

Total vcore-seconds taken by all map tasks=3075

Total vcore-seconds taken by all reduce tasks=3147

Total megabyte-seconds taken by all map tasks=4723200

Total megabyte-seconds taken by all reduce tasks=9667584

Map-Reduce Framework

Map input records=144

Map output records=960

Map output bytes=10358

Map output materialized bytes=5263

Input split bytes=104

Combine input records=960

Combine output records=361

Reduce input groups=361

Reduce shuffle bytes=5263

Reduce input records=361

Reduce output records=361

Spilled Records=722

Shuffled Maps =1

Failed Shuffles=0

Merged Map outputs=1

GC time elapsed (ms)=26

CPU time spent (ms)=2290

Physical memory (bytes) snapshot=1309593600

Virtual memory (bytes) snapshot=8647901184

Total committed heap usage (bytes)=2021654528

Shuffle Errors

BAD_ID=0

CONNECTION=0

IO_ERROR=0

WRONG_LENGTH=0

WRONG_MAP=0

WRONG_REDUCE=0

File Input Format Counters

Bytes Read=6635

File Output Format Counters

Bytes Written=3827

参考文献：

HDP官方文档： http://docs.hortonworks.com/

Hortonworks HDP:

http://hortonworks.com/hdp/

http://zh.hortonworks.com/get-started/

http://hortonworks.com/hadoop/ambari/

使用YUM安装MySQL 5.5 http://www.linuxidc.com/Linux/2012-07/65098.htm

Canon的maven构建hadoop 1.x版本项目指南 http://blog.fens.me/hadoop-maven-eclipse/

你可能感兴趣的:(hadoop,Hortonworks,spark.storm)

HIVE 面试题总结小余真旺财 Hive hive
Hive依赖于HDFS存储数据，Hive将HQL转换成MapReduce执行，所以说Hive是基于Hadoop的一个数据仓库工具，实质就是一款基于HDFS的MapReduce计算框架，对存储在HDFS中的数据进行分析和管理。一、Hive架构用户接口：CLI（hiveshell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive）元数据：元数据包括：表名、表所属的数据库（默
Hive 面试题昨夜为你摘星
什么是Hive?Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。Hive的意义（最初研发的原因）?降低程序员使用Hadoop的难度，降低学习成本Hive的内部组成模块，作用
python调用kafka smile__su python python kafka
先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令./bin/zkServer.shstart每台机器都要启动kafka启动命令bin/kafka-server-start.shconfig/server.properties每台机器都要启动进行以下操作的前提是将hadoop，zookeeper，kafka安装
Python大数据可视化：基于Python的王者荣耀战队的数据分析系统设计与实现_flask+hadoop+spider m0_74823490 面试学习路线阿里巴巴 python flask hadoop
开发语言：Python框架：flaskPython版本：python3.7.7数据库：mysql5.7数据库工具：Navicat11开发软件：PyCharm系统展示管理员登录管理员功能界面比赛信息管理看板展示系统管理摘要本文使用Python与MYSQL技术搭建了一个王者荣耀战队的数据分析系统。对用户提出的功能进行合理分析，然后搭建开发平台以及配置计算机软硬件；通过对数据流图以及系统结构的设计，创建
华为MRS产品组件 QianJin_zixuan hadoop hive 大数据数据库架构 gaussdb
MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。MRS提供租户完全可控的一站式企业级大数据集群云服务（全栈大数据平台），轻松运行Hadoop、Spark、HBase、Kafka、Storm等大数据组件。集群管理：使用MRS的首要操作就是购买集群，MRS的扩容不论在存储还是计算能力上，都可以简单地通过增加Core节点或者Task节点来完成。集群Core节
Hive SQL 使用及进阶详解小四的快乐生活 hive sql hadoop
一、Hive简介Hive是建立在Hadoop之上的数据仓库基础架构，它提供了类似于SQL的查询语言HiveSQL（也称为HQL），用于对存储在Hadoop分布式文件系统（HDFS）中的大规模数据进行数据查询和分析。Hive将SQL查询转换为MapReduce、Tez或Spark等分布式计算任务，使得不熟悉Java编程的数据分析人员也能方便地处理大规模数据。二、HiveSQL基础使用（一）环境准备在
docker-compose -volumes 两种不同定义方式胖胖胖胖胖虎 Docker docker hadoop big data
学习docker-compose部署hadoop集群、看到docker-compose一种不同volumes定义方式version:"3"services:namenode:image:bde2020/hadoop-namenode:2.0.0-hadoop2.7.4-java8volumes:-namenode:/hadoop/dfs/nameenvironment:-CLUSTER_NAME=
初识hadoop 西门吹水之城 hadoop hadoop
关于hadoop的写入（存入）nn里面维护了一份元数据。客户端在存入的数据的时候先经过nn,查要存入的数据是否存在（通过元数据查询），如果存在就返回拒绝写入，若不存在，就开始返回可以往集群里面写入，而且还分配存入那些dn。客户端程序就开始找相应的nn，将相应的block块存进去（切分是由客户端切分的）。关于副本客户端在存入数据的时候只是将数据块block0存入相应的机器，然后由被存入的机器（nn）
HDFS是如何存储和管理大数据 python资深爱好者大数据 hdfs hadoop
HDFS（HadoopDistributedFileSystem，Hadoop分布式文件系统）是专为大数据处理而设计的分布式文件系统，具有高吞吐量、高容错性等特点，适用于大规模数据存储和管理。以下是HDFS存储和管理大数据的详细机制：一、HDFS架构HDFS采用主从架构，主要包括以下组件：NameNode（主节点）：作为集群的“大脑”，NameNode负责管理文件系统的命名空间，维护文件和目录的元
Hadoop 基础原理 disgare 数据库 hadoop 大数据分布式
Hadoop基础原理基本介绍Hadoop的必要性Hadoop核心组件Hadoop生态系统中的附加组件HDFSHDFS集群架构HDFS读写流程HDFS写流程HDFS读流程NameNode持久化机制MapReduce底层原理示例Hadoop是一个由Apache基金会开发的分布式系统基础架构，主要解决海量数据的存储和计算问题，广义上Hadoop指的是Hadoop生态圈，包含HDFS、Hive、MapRe
Spark集群架构介绍 olifchou Spark spark apache spark 大数据分布式
Spark之YARN介绍一、导语二、Spark及其特性三、Spark架构总览一、导语ApacheSpark(后续简称为Spark)是一款正在点燃大数据世界的开源集群计算框架。据SparkCertifiedExperts显示，在内存中运行时，Sparks性能要比Hadoop快一百倍，在磁盘上运行，Sparks比Hadoop快达十倍。在本篇博客中，我将会为你简单介绍一下Spark的底层基础架构。二、S
Spark Standalone集群架构 htfenght spark spark
北风网spark学习笔记SparkStandalone集群架构SparkStandalone集群集群管理器，clustermanager：Master进程，工作节点：Worker进程搭建了一套Hadoop集群（HDFS+YARN）HDFS：NameNode、DataNode、SecondaryNameNodeYARN：ResourceManager、NodeManagerSpark集群（Spark
Hadoop--NameSpace（名称空间） Cynthiaaaaalxy hadoop 大数据分布式
1.名称空间的定义 HDFS的名称空间是一个逻辑上的文件系统目录树，类似于传统文件系统的目录结构。组成目录：用于组织文件的逻辑容器。文件：存储在HDFS中的实际数据单元。元数据：包括文件名、权限、所有者、文件大小、创建时间、修改时间等信息。2.名称空间的作用名称空间的主要作用是：组织文件通过目录树的形式组织文件，方便用户管理和访问。维护元数据记录文件和目录的元数据信息（如权限、所有者、大小等）。
spark程序提交到集群上_Spark集群模式&Spark程序提交毫无特色 spark程序提交到集群上
Spark集群模式&Spark程序提交1.集群管理器Spark当前支持三种集群管理方式Standalone—Spark自带的一种集群管理方式，易于构建集群。ApacheMesos—通用的集群管理，可以在其上运行HadoopMapReduce和一些服务应用。HadoopYARN—Hadoop2中的资源管理器。Tip1:在集群不是特别大，并且没有mapReduce和Spark同时运行的需求的情况下，用
Hadoop--Secondary NameNode工作机制，作用及与NameNode HA的区别 Cynthiaaaaalxy hadoop 大数据分布式
SecondaryNameNode主要用于辅助NameNode进行元数据的管理和检查点（Checkpoint）的生成。1.SecondaryNameNode的工作机制详解SecondaryNameNode的工作机制可以分为以下步骤：①SecondaryNameNode询问NameNode是否需要CheckpointSecondaryNameNode会定期（由dfs.namenode.check
Hadoop之jdk的安装快来削我吖云存储 hadoop jdk centos
【实验目的】1.安装配置JDK1.五台独立PC机或虚拟机主机之间有有效的网络连接2.每台主机内存2G以上，磁盘剩余空间500M以上所有主机上已安装CentOS7.4操作系统3.所有主机已完成网络属性配置1.卸载原有JDK该项的所有操作步骤需要使用root用户进行。并且在集群中每台主机操作一次，发现没有，不必卸载因为我的查看没有jdk，所以不需要卸载原有的，只需直接安装即可。2.安装此项的所有操作步
Hadoop HDFS基准测试 Yvonne978 大数据 hadoop hdfs 大数据
一、测试写入速度确保HDFS集群和YARN集群成功启动hadoopjar/export/server/hadoop-3.1.4/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.4-tests.jarTestDFSIO-write-nrFiles10-fileSize10MB说明：向HDFS文件系统中写入数据,10个文件,每个
jmeter 与大数据生态圈中的服务进行集成小赖同学啊 jmeter专栏 jmeter 大数据
以下为你详细介绍JMeter与大数据生态圈中几种常见服务（HadoopHDFS、Spark、Kafka、Elasticsearch）集成的方法：与HadoopHDFS集成实现思路HDFS是Hadoop的分布式文件系统，JMeter可模拟客户端对HDFS进行文件读写操作，通常借助HDFS的JavaAPI编写自定义JMeter采样器。步骤添加依赖：将Hadoop的客户端JAR包添加到JMeter的li
数据质量管理工具（Trifacta Wrangler） deepdata_cn 数据质量数据质量
2012年4月：JoeHellerstein、JeffreyHeer和SeanKandel创立Trifacta公司。2015年10月：正式推出TrifactaWrangler，让非技术用户也能通过直观的可视化工作流程来探索、转换和丰富数据，同时其旗舰产品、专注于Hadoop的Trifacta数据处理解决方案更名为TrifactaWranglerEnterprise。2022年2月Alteryx宣布
Hadoop常用操作命令 hzw0510 hadoop 大数据分布式
在NameNode节点格式化集群初始化集群hdfsnamenode-format启动HDFSsbin/start-dfs.sh启动yarnsbin/start-yarn.sh启动NodeManageryarn-daemon.shstartnodemanager启动DataNodehadoop-daemon.shstartdatanode启动SecondaryNameNodehadoop-daemo
【Python爬虫(45)】Python爬虫新境界：分布式与大数据框架的融合之旅奔跑吧邓邓子 Python爬虫 python 爬虫分布式开发语言大数据框架
【Python爬虫】专栏简介：本专栏是Python爬虫领域的集大成之作，共100章节。从Python基础语法、爬虫入门知识讲起，深入探讨反爬虫、多线程、分布式等进阶技术。以大量实例为支撑，覆盖网页、图片、音频等各类数据爬取，还涉及数据处理与分析。无论是新手小白还是进阶开发者，都能从中汲取知识，助力掌握爬虫核心技能，开拓技术视野。目录一、大数据处理框架初印象1.1Hadoop：大数据处理的基石1.2
hive运维花泽啸 Hive hive
hive锁相关showlocks;查看锁unlocktable表名;释放锁发现释放不了锁，执行下面sethive.support.concurrency=false;sethive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DummyTxnManager;然后在unlock还是不行的的话：select*fromHIVE_LOCKS;关闭hivese
Hadoop~HDFS的Block块飞Link Hadoop框架 hadoop hdfs 大数据
一、HDFS的block块1.介绍block块是HDFS的最小存储单位，每个256MB(可以修改)2.文件在HDFS中的存储方式文件分成多个block块，block块分三份存入对应服务器，每个block块都有2个(可修改)备份，每个副本都复制到其他服务器一份，每个block块都有两个备份在其他服务器上，这使得安全性极大提高3.修改默认文件上传到HDFS中的副本数量hdfs-site.xml默认为3
基于Hadoop的天气数据分析系统的设计与实现-计算机毕业设计源码+LW文档 qq_375279829 hadoop 课程设计 eclipse 毕业设计毕设
摘要随着全球气候变化的日益严峻，精准的天气数据分析和预测变得至关重要。Hadoop作为大数据处理领域的领军技术，其分布式计算框架和海量数据存储能力为天气数据分析提供了强大的支持。该系统能够收集、整合并分析来自全球各地的气象数据，通过挖掘数据中的潜在规律，提高天气预报的准确性和时效性。此外，该系统还有助于发现气候变化的趋势，为政府决策、农业生产、交通运输等领域提供科学依据。因此，基于Hadoop的天
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构 m0_74823705 面试学习路线阿里巴巴大数据架构
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测 qq_80213251 java javaweb 大数据课程设计 python
开发技术SparkHadoopPython爬虫Vue.jsSpringBoot机器学习/深度学习人工智能创新点Spark大屏可视化爬虫预测算法功能1、登录注册界面，用户登录注册，修改信息2、管理员用户：（1）查看用户信息；（2）出行高峰期的10个时间段；（3）地铁限流的10个时间段；（4）地铁限流的前10个站点；（6）可视化大屏实时显示人流量信息。3、普通用户：（1）出行高峰期的10（5）可视化大
Python 的 WebSocket 实现详解王子良. 经验分享 python websocket 网络协议网络
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
Spark源码分析 – Shuffle weixin_34292924 大数据
参考详细探究Spark的shuffle实现,写的很清楚,当前设计的来龙去脉HadoopHadoop的思路是,在mapper端每次当memorybuffer中的数据快满的时候,先将memory中的数据,按partition进行划分,然后各自存成小文件,这样当buffer不断的spill的时候,就会产生大量的小文件所以Hadoop后面直到reduce之前做的所有的事情其实就是不断的merge,基于文件
【Hadoop】使用Docker容器搭建伪分布式集群慕青Voyager 分布式 hadoop docker
使用Docker容器搭建Hadoop伪分布式集群1、编写docker-compose.yaml文件配置集群version:"3"services:namenode:image:apache/hadoop:3.3.6hostname:namenodecommand:["hdfs","namenode"]ports:-9870:9870env_file:-./configenvironment:ENS
HDFS分布文件系统（Hadoop Distributed File System）柿子小头 hdfs hadoop 大数据
目录一.HDFS的本质二.HDFS的架构与原理三、HDFS特性四.HDFS的常用命令1.显示HDFS指定路径下的所有文件2.在HDFS上创建文件夹3.上传本地文件到HDFS4.查看文件5.删除HDFS上的文件或者目录6.修改指定文件的权限信息（读、写、执行）一般语法：chmod[可选项]五、HDFS实战应用六、总结一.HDFS的本质HadoopDistributedFileSystem（HDFS）
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><