BalaBalaYi

从Elasticsearch详解Ambari与第三方软件的集成（二）

上文已经简单介绍了前因，这里我们就最核心的内容：如何做，进行讲解。

二. 集成实现过程详解

Ambari下服务资源的定义结构如下图所示：

|_ stacks
   |_ 
      |_ 
         metainfo.xml
         |_ hooks
         |_ repos
            repoinfo.xml
         |_ services
            |_ 
               metainfo.xml
               metrics.json
               |_ configuration
                  {configuration files}
               |_ package
                  {files, scripts, templates}

下面就以Elasticsearch服务的集成为例，对所有核心的实现内容逐一讲解，elasticsearch集成项目定义结构如下图所示：

1. metainfo.xml - 服务整体描述

首先，通过metainfo.xml文件对elasticsearch这个服务进行一个标准的描述，完整文件如下所示：



    2.0
    
        
            ELASTICSEARCH
            Elasticsearch
            A highly scalable open-source full-text search and analytics engine. Including storage, searching, and analyzing big volumes of data quickly and in near real time. 
            6.4.2
            
                
                    ELASTICSEARCH_MASTER
                    Elasticsearch Master
                    MASTER
                    1+
                    true
                    
                        
                        PYTHON
                        1200
                    
                    
                        
                            elasticsearch_master
                            true
                        
                    
                
                
                    ELASTICSEARCH_SLAVE
                    Elasticsearch Slave
                    SLAVE
                    0+
                    true
                    
                        
                        PYTHON
                        1200
                    
                    
                        
                            elasticsearch_slave
                            true
                        
                    
                
            
            
                
                    any
                    
                        
                            elasticsearch-6.4.2  
                        
                    
                
            
            
                
                PYTHON
                300
            

            
                elasticsearch-config
                elasticsearch-env
                elasticsearch-log4j
            

            true

            
                
                    quicklinks.json
                    true

主要参数

=========================================================================================

定义服务的名称，显示名称，描述，版本号等核心信息：

ELASTICSEARCH
Elasticsearch
A highly scalable open-source full-text search and analytics engine. Including storage, searching, and analyzing big volumes of data quickly and in near real time. 
6.4.2

=========================================================================================

定义服务的组件信息，这里针对elasticsearch的实现，分为了两种组件：master和slave，这里以master为例：


    ELASTICSEARCH_MASTER
    Elasticsearch Master
    MASTER
    1+
    true
    
        
        PYTHON
        1200
    
    
        
            elasticsearch_master
            true

其中基础信息包括组件名称(name)，组件显示名称（displayname）。

其它的几个较重要参数，包括：

1) category：描述组件是主服务、节点从服务或是客户端。

category 类别	默认生命周期命令实现
MASTER	install, start, stop, configure, status
SLAVE	install, start, stop, configure, status
CLIENT	install, configure, status

2）cardinality：描述组件的数量限制。

cardinality格式	格式说明举例
数字	1：表示只能有一个
数字区间	0-1：表示最少有零个，最多有一个
数字单增区间	1+：表示最少有1个
ALL	ALL：表示所有节点都需要

3）commandScript：组件生命周期命令的执行脚本实现。

=========================================================================================

所支持的OS系统定义，以及需要安装的软件包（此处作者在脚本实现过程中没有执行依赖包安装，默认各依赖均已具备）：


    
        any
        
            
                elasticsearch-6.4.2

osFamily可定义如：redhat6，redhat7，ubuntu14，ubuntu16等。

package-name，即为yum install或apt-get install的软件包名称。

=========================================================================================

服务检查的脚本实现（注意，此py脚本的命名要保持一致）：


    
    PYTHON
    300

=========================================================================================

配置文件依赖，即服务安装前需要填写或修改的配置文件：


    elasticsearch-config
    elasticsearch-env
    elasticsearch-log4j

=========================================================================================

修改配置后是否重启（一般都为true）：

 true

=========================================================================================

界面快速链接的json脚本实现（注意，此json脚本的命名要保持一致）：


    
        quicklinks.json
        true

其它参数

请参考：官方说明（中文翻译）

2. configuration - 服务配置项描述

configuration的目录及内容如下图所示（不包括original，这个是作者为了方便开发放入的原始配置文件）：

1）配置类型

这里可以简单分为两种类型的配置文件，及-env和其它。

1）-env.xml 配置文件

env配置要求必须存在，主要描述安装包路径，用户，组，pid文件目录，根目录等。文件内容此处截取部分以作简单举例，如下图所示：

    
        elasticsearch.download.url
        
        Elasticsearch Download Url
        Elasticsearch package download url. The official download url is: https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-6.4.2.tar.gz
    

    
        elasticsearch.user
        elasticsearch
        Elasticsearch User
        USER
        Elasticsearch unix user.
    

    
        elasticsearch.group
        elasticsearch
        Elasticsearch Group
        GROUP
        Elasticsearch unix group.
    

    
        elasticsearch.base.dir
        /opt/elasticsearch
        Elasticsearch Base Directory
        Elasticsearch base directory.
    

    
        elasticsearch.pid.dir
        /var/run/elasticsearch
        Elasticsearch Pid Directory
        Elasticsearch pid file directory.

2）其它应用配置文件

其它应用配置配置文件即指应用本身所需的配置文件，例如elasticsearch的核心配置文件：elasticsearch.yml。但是我们在做实现的时候，并非要严格按照原始配置文件的格式。例如，可以将elasticsearch.yml中的内存拆分为多个部分，如es-config-general.xml和es-config-network.xml等。在作者的实现中，作者将jvm.options的内容放入了-env配置文件，然后-config.xml文件对应elasticsearch.yml。

具体的配置映射实现方式，将在第三节package 中说明。大家只要知道，此处的配置文件，就是为了在Ambari上安装服务或是安装服务后修改配置时展现配置并接受配置参数所实现的，如下图内容：

2）配置格式

上面讲了配置文件的类型定义，下面详细说下内容格式。

默认我们使用最简单的格式，如下：


    elasticsearch.base.dir
    /opt/elasticsearch

但是上述格式，缺少了说明，且参数文字的显示效果可能不是很好。我们可以添加来替换的显示，以打达到更好的显示效果；添加来显示说明或描述。


    elasticsearch.base.dir
    /opt/elasticsearch
    Elasticsearch Base Directory
    Elasticsearch base directory.

效果如图所示：

默认情况下，值不能为空，如果想允许值为空，可在下添加为true：


    server.basePath
    none
    
        true
    
    Server Base Path

还支持一些常见的格式，例如boolean：

此处要注意，xml中boolean值的内容请填写false或true，但是后续代码在获取参数时，获取的是boolean类型的False和True。


    server.rewriteBasePath
    false
    
        boolean
        false
    
    Server Rewrite Base Path
    xxxx

针对密码类型的支持：


    zeppelin.ssl.keystore.password
    change me
    
        password
    
    PASSWORD
    Keystore password. Can be obfuscated by the Jetty Password tool

针对数字类型的支持，其中type可以为int,long等，minimum和maximum为可选参数用于给定范围，unit为单位显示等，例如：


    ops.interval
    5000
    
        int
        100
        50000
        Milliseconds
        100
        false
    
    Ops Interval
    Set the interval in milliseconds to sample system and process performance metrics. Minimum is 100ms. Defaults to 5000.

上述格式已然能满足大部分需求了。当然，Ambari对此xml文件的支持还包括很多其它参数，有兴趣的童鞋可参考Ambari下的通用服务目录下的配置：/var/lib/ambari-server/resources/common-services。

3. package - 服务交互代码实现

package的目录及内容如下图所示：

1) scripts - 脚本实现

其中，params、service_check和status_params为必实现的脚本，分别用于参数的获取和加工、服务检查、为服务检查提供参数；es_master和es_slave是根据组件（component）区分的声明周期实现脚本，如下所示：

脚本	具体实现	要求及说明
params.py	通过Script类的方法读取之前configuration文件夹中.xml文件定义的各个配置变量，有需要的话进行进一步加工,例如单位的添加，列表的解析，布尔值的转换等	脚本名称不可修改
service_check.py	可直接使用内置方法实现，具体请见源码	脚本名称要与metainfo.xml中定义的保持一致
status_params.py	引用pid文件目录及文件参数即可	内容参数可以与params中的对应项保持一致（之所以独立，是受ambari的检查机制读所限，其在做检查时是不会走params的）
es_master.py/es_slave.py	组件的install，start，stop等命令的实现	脚本名称要与metainfo.xml中定义的保持一致

具体内容，请参见源码，都是模式化的实现，很简单。

2) templates - 配置模板

通过.xml对配置的定义，以及params.py对配置项的处理，以jinjia2为基础的templates模板将最终完成配置映射到原始应用配置文件的过程。例如：

在elasticsearch.master.yml.j2文件中引用params中定义好的用于master节点的配置，如：

# ----------------------------------- Paths ------------------------------------
#
# Path to directory where to store the data (separate multiple locations by comma):
#
path.data: {{master_path_data}}
#
# Path to log files:
#
path.logs: {{master_path_logs}}

在configure方法的实现中，实现master模板和对应master配置文件的替换：

configurations = params.config['configurations']['elasticsearch-config']
File(format("{es_master_conf_dir}/elasticsearch.yml"),
    content=Template("elasticsearch.master.yml.j2", configurations=configurations),
    owner=params.es_user,
    group=params.es_group
)

4. 其它资源文件

1) quicklinks

基础格式如下，只需改写显示名称，组件名称，对应的端口号即可。property请填写.xml中定义的端口参数名称（此处作者比较偷懒，直接走默认端口）：

{
  "name": "default",
  "description": "default quick links configuration",
  "configuration": {
    "protocol": {
      "type":"http",
      "checks":[
      ]
    },
    "links": [
      {
        "name": "elasticsearch_ui",
        "label": "Elasticsearch UI",
        "requires_user_name": "false",
        "component_name": "ELASTICSEARCH_MASTER",
        "url":"%@://%@:%@",
        "port":{
          "http_property": "http_port",
          "http_default_port": "9200",
          "https_property": "http_port",
          "https_default_port": "9200",
          "regex": "\\w*:(\\d+)",
          "site": "elastic-config"
        }
      }
    ]
  }
}

2) alerts

通quicklinks一样，作者犯懒，只实现了针对端口的简单检查。只需要改写服务名称，组件名称，说明信息，端口号即可。

{
  "ELASTICSEARCH": {
    "service": [],
    "ELASTICSEARCH_MASTER": [
      {
        "name": "elasticsearch_port",
        "label": "Elasticsearch Port",
        "description": "This host-level alert is triggered if the 9200 port is unreachable.",
        "interval": 1,
        "scope": "HOST",
        "source": {
          "type": "PORT",
          "uri": "{{elasticsearch-config/http.port}}",
          "default_port": 9200,
          "reporting": {
            "ok": {
              "text": "TCP OK - {0:.3f}s response on port {1}"
            },
            "warning": {
              "text": "TCP OK - {0:.3f}s response on port {1}",
              "value": 1.5
            },
            "critical": {
              "text": "Connection failed: {0} to {1}:{2}",
              "value": 5
            }
          }
        }
      }
    ]
  }
}

其它更为复杂的alerts.json配置同样请参考Ambari（HDP）下内置Hadoop组件的配置：/var/lib/ambari-server/resources/common-services。

5. 关于监控

对于监控，作者在此只做下简单说明。如果要求Ambari与第三方软件集成实现监控，仅仅简单实现metrics.json和widgets.json是不够的。此两个配置文件，仅能实现界面监控图表的显示和图标对应metrics信息的关联实现，但是不能实现具体数据的采集。这里官网文档也仅以几句话简单带过：

刚开始作者傻傻地以为有多智能，只要json定义了采集项，采集信息就能自动收集。实际上并不行，上图的说明并不全。首选，要有采集的实现，将数据采集送给monitor。这个部分Ambari自己的Hadoop组件有专门的Hadoop sinks做了实现。而上述第一条所阐述的内容同样需要自行通过脚本或是代码实现将信息推送至collector。之后第二条和第三条才是定义metrics和widgets。

另外Elasticsearch在6.3之后已经天然集成x-pack。用过x-pack的肯定都知道其秒级的监控实现。所以监控这块其自身实现已然很强大了。具体内容在下一章节会进行简单说明。

HDFS相关的面试题努力的搬砖人. java 面试 hdfs
以下是150道HDFS相关的面试题，涵盖了HDFS的基本概念、架构、操作、数据存储、高可用性、权限管理、性能优化、容错机制、与MapReduce的结合、安全性、数据压缩、监控与管理、与YARN的关系、数据一致性、数据备份与恢复等方面，希望对你有所帮助。HDFS基本概念1.HDFS是什么？它的设计目标是什么？•HDFS是Hadoop分布式文件系统，设计目标是实现对大规模数据的高吞吐量访问，适用于一次
hadoop3.x--搭建hadoop高可用集群（HA模式）运维小菜 hadoop hadoop hdfs
hadoop高可用集群（HA模式）一、安装前1.集群规划2.安装前配置3.安装jdk与hadoop4.克隆虚拟机与互信配置5.搭建zookeeper集群二、HDFS1.配置hdfs2.初始化启动hdfs集群三、MapReduce与Yarn1.配置MapReduce2.配置yarn3.启动yarn四、验证1.查看java进程2.hdfs与yarn前台页面一、安装前1.集群规划hostnameipNN
在虚拟机上安装Hadoop 杜清卿 hadoop
基本步骤与安装java一致:先用finalshell将hadoop-3.1.3.tar.gz导入到opt目录下面的software文件夹下面，然后解压,最后配置环境变量。1.使用finalshell上传。这里直接鼠标拖动操作即可。2.解压。进入到Hadoop安装包路径下，cd/opt/software/，再解压安装文件到/opt/module下，对应的命令是:tar-zxvfhadoop-.1.3
hadoop集群配置-scp拓展使用杜清卿 hadoop 服务器大数据
任务1：在hadoop102上，将hadoop101中/opt/module/hadoop-3.1.3目录拷贝到hadoop102上。分析：使用scp进行拉取操作：先登录到hadoop2使用命令：scp-rroot@hadoop101:/opt/module/hadoop-3.1.3/opt/module/任务2：在hadoop101上操作，将hadoop100中/opt/module目录下所有目
大数据学习（75）-大数据组件总结 viperrrrrrr 大数据 impala yarn hdfs hive CDH mapreduce
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、CDHCDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的
Sqoop安装部署愿与狸花过一生大数据 sqoop hadoop hive
ApacheSqoop简介Sqoop（SQL-to-Hadoop）是Apache开源项目，主要用于：将关系型数据库中的数据导入Hadoop分布式文件系统（HDFS）或相关组件（如Hive、HBase）。将Hadoop处理后的数据导出回关系型数据库。核心特性批量数据传输支持从数据库表到HDFS/Hive的全量或增量数据迁移。并行化处理基于MapReduce实现并行导入导出，提升大数据量场景的效率。自
ssh命令满分对我强制爱 linux 服务器运维 spark
ssh命令无需密码也可登录要先关闭防火墙，命令如下：systemctlstopfirewalldsystemctldisablefirewalldsystemctlstatusfirewalldeg：目标：hadoop100通过ssh访问hadoop101,hadoop102时不需要密码，其他两台设备也类似。具体操作如下：1.在hadoop100中生成公钥和密码。ssh-keygen-trsa三次
Hive面试题御风行云天面试题大全 hive hadoop 数据仓库面试
Hive面试题1Hive基础概念1.1解释Hive是什么以及它的用途Hive的主要用途：1.2描述Hive架构和组件1.HiveCLI/Beeline和WebUI2.HiveQL3.HiveDriver（驱动）4.Metastore5.Compiler（编译器）6.Optimizer（优化器）7.Executor（执行器）8.HadoopCoreComponents（核心组件）9.HiveUDFs
#Hadoop全分布式安装 #mysql安装 #hive安装砸吧砸吧 hadoop hive yarn mysql
分布式（多台机器部署不同组件）与集群（多台机器部署相同组件）概念。Linux基础命令linux具有文件数：目录、文件，从根目录开始，路径具有唯一性。pwd：显示当前路径特殊符号：/：根目录.：隐藏文件，如果路径以.开始，表示当前目录下..：当前目录下的上一级~：当前目录的home目录--help：帮助命令使用linux常用操作命令tab键：自动补全ls：显示指定目录内容默认：当前路径-a：显示所有
Hadoop（在Linux中安装jdk）錠诗味 linux hadoop 运维
安装之前需准备：1.需要远程连接软件2.需要jdk3.需要准备两个文件夹01/export/software安装包02/export/servers解压文件夹现在正式开始安装1.将压缩包存放在/export/software目录下2.进入到software目录进行解压cd/export/software（切换目录）tar-zxvfjdk-8u202-linux-x64.tar.gz-C/expor
数据仓库和非结构化数据。 weixin_30631587 数据库
数据仓库包含标准化数据。还包含外部数据/非结构化数据如果外部数据量小可以保持数据库内部或者专用服务器。如果量大只能记住地址，在etl加载当然也有需求是实时数据比如股票汇率拿只能etl过程处理非结构化数据包含图片，视频音频如果是传统数据库db2oracle存在里面是不合适的。存储影响性能如果是hadoop无所谓影响不大，但是从使用者的角度非结构化数据只能转换关系使用建一张元数据表存储非结构化存储位置
CentOS 7系统中hadoop的安装和环境配置代码小张z centos hadoop linux
1.创建Hadoop安装解压路径：mkdir-p/usr/hadoop2.进入路径：cd/usr/hadoop3.下载安装包（我这里用的是阿里云镜像压缩包）：wgethttps://mirrors.aliyun.com/apache/hadoop/common/hadoop-3.3.5/hadoop-3.3.5.tar.gz4.解压安装包到hadoop文件路径：tar-zxvf/usr/hadoo
尚硅谷电商数仓6.0，hive on spark,spark启动不了新时代赚钱战士 hive spark hadoop
在datagrip执行分区插入语句时报错[42000][40000]Errorwhilecompilingstatement:FAILED:SemanticExceptionFailedtogetasparksession:org.apache.hadoop.hive.ql.metadata.HiveException:FailedtocreateSparkclientforSparksessio
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
Flink读取kafka数据并写入HDFS 王知无(import_bigdata) Flink系统性学习专栏 hdfs kafka flink
硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021年从零到大数据专家面试篇之消息队列篇2021年从零到大数据专家面试篇之Spark篇2021年从零到大数据专家面试篇之Hbase篇
Apache storm 赵世炎 storm hadoop
Apachestorm是一个分布式的实时大数据处理系统。用于在容错和水平可拓展方法中处理大量数据。它是一个流数据框架，具有很高的摄取率，无状态。通过zk管理分布式环境和集群状态，并行地对实时数据执行各种操作。storm易于设置和操作，并且它保证每个消息将通过拓扑至少处理一次。基本上Hadoop和Storm框架用于分析大数据。两者互补，在某些方面有所不同。ApacheStorm执行除持久性之外的所有
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结 dazhong2012 Hadoop hdfs hadoop
一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir#递归创建目录hadoopfs-mkdir-p删除操作#删除文件hadoopfs-rm#递归删除目录和文件hadoopfs-rm-R从本地加载文件到HDFS#二选一执行即可hadoopfs-p
How Spark Read Sftp Files from Hadoop SFTP FileSystem IT•轩辕 Cloudy Computation spark hadoop 大数据
GradleDependenciesimplementation('org.apache.spark:spark-sql_2.13:3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop:hadoop-common:3.3.4'){exc
中电金信25/3/18面前笔试（需求分析岗+数据开发岗）苍曦需求分析前端 javascript
部分相同题目在第二次数据开发岗中不做解析，本次解析来源于豆包AI，正确与否有待商榷，本文只提供一个速查与知识点的补充。一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？MapReduceSparkStormFlink解析：Hadoop的核心组件是HDFS（分布式文件系统）和MapReduce（分布式计算框架）。Spark、Storm、Flink虽然也是大数据处理相关技术，但
Spark集群启动与关闭陈沐 spark spark hadoop big data
Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启YARNstart-yarn.shslave2上面执行开启YARN的资源管理器yarn-daemon.shstartresourcemanager(如果nodeManager没有启动(正常情况
Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）一个天蝎座白勺程序猿大数据开发从入门到实战合集 hive hadoop 数据仓库
目录背景‌一、Hive函数分类与核心函数表‌1.内置函数分类‌2.用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop生态中最常用的数据仓库工具，其强大的函数库是高效处理和分析海量数据的核心能力之一。Hive函数分为‌内置函数‌和‌用户自
Hadoop MapReduce 词频统计（WordCount）代码解析教程我不是少爷. Java基础 hadoop mapreduce 大数据
一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。二、代码结构packagecom.bigdata.wc;//Hadoop核心类库导入importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;//数据类型定义
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路 Echo_Wish 大数据大数据 hadoop spark
从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。Hadoop曾是大数据的开山之作，而Spark则带领我们迈入了一个高效、灵活的大数据处理新时代。那么，它们的演变过程到底有何深意？背后技术上的取舍和选择，又意味着什么？一、Hadoop：分布式存储与计算的奠基者Hadoop诞生于互联网流量爆发式增长的时代，
hadoop集群关闭命令顺序_启动和关闭Hadoop集群命令步骤氪老师 hadoop集群关闭命令顺序
启动和关闭Hadoop集群命令步骤总结：1.在master上启动hadoop-daemon.shstartnamenode.2.在slave上启动hadoop-daemon.shstartdatanode.3.用jps指令观察执行结果.4.用hdfsdfsadmin-report观察集群配置情况.5.通过http://npfdev1:50070界面观察集群运行情况.(如果遇到问题看https://
在kali linux中配置hadoop伪分布式 we19a0sen 三数据分析分布式 linux hadoop
目录一.配置静态网络二.配置主机名与IP地址映射三.配置SSH免密登录四.配置Java和Hadoop环境五.配置Hadoop伪分布式六.启动与验证一.配置静态网络原因：Hadoop集群依赖稳定的网络通信，动态IP可能导致节点失联。静态IP确保节点始终通过固定地址通信。操作步骤：#修改网络配置文件sudovim/etc/network/interfaces#添加内容（根据实际网络修改）：autoet
Spark任务读取hive表数据导入es 小小小小小小小小小小码农 hive elasticsearch spark java
使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建sparkconf//spark参数设置SparkConfsparkConf=newSparkConf();//要写入的索引sparkConf.set("es.resource","");//es集
hive-进阶版-1 数据牧马人 hive hadoop 数据仓库
第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。Hive支持内部表（ManagedTable）和外部表（ExternalTable）两种表类型，它们在数据存储、管理方式和生命周期等方面存在显著区别。以下是内部表和外部表的主要区别：1.数据存储位置内部表：数据存储在Hive的默认存储目录下，通常位于HDFS（HadoopDi
大数据手册(Spark)--Spark安装配置 WilenWu 数据分析(Data Analysis)大数据 spark 分布式
本文默认在zsh终端安装配置，若使用bash终端，环境变量的配置文件相应变化。若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。假设已经安装好了hadoop（伪分布式）和hive，环境变量如下JAVA_HOME=/usr/opt/jdkHADOOP_HOME=/usr/local/hadoopHIVE_HO
解线性方程组 qiuwanchi
package gaodai.matrix; import java.util.ArrayList; import java.util.List; import java.util.Scanner; public class Test { public static void main(String[] args) { Scanner scanner = new Sc
在mysql内部存储代码 annan211 性能 mysql 存储过程触发器
在mysql内部存储代码在mysql内部存储代码，既有优点也有缺点，而且有人倡导有人反对。先看优点： 1 她在服务器内部执行，离数据最近，另外在服务器上执行还可以节省带宽和网络延迟。 2 这是一种代码重用。可以方便的统一业务规则，保证某些行为的一致性，所以也可以提供一定的安全性。 3 可以简化代码的维护和版本更新。 4 可以帮助提升安全，比如提供更细
Android使用Asynchronous Http Client完成登录保存cookie的问题 hotsunshine android
Asynchronous Http Client是android中非常好的异步请求工具除了异步之外还有很多封装比如json的处理，cookie的处理引用 Persistent Cookie Storage with PersistentCookieStore This library also includes a PersistentCookieStore whi
java面试题 Array_06 java 面试
java面试题第一，谈谈final, finally, finalize的区别。 final-修饰符（关键字）如果一个类被声明为final，意味着它不能再派生出新的子类，不能作为父类被继承。因此一个类不能既被声明为 abstract的，又被声明为final的。将变量或方法声明为final，可以保证它们在使用中不被改变。被声明为final的变量必须在声明时给定初值，而在以后的引用中只能
网站加速 oloz 网站加速
前序:本人菜鸟，此文研究总结来源于互联网上的资料，大牛请勿喷！本人虚心学习，多指教. 1、减小网页体积的大小，尽量采用div+css模式，尽量避免复杂的页面结构，能简约就简约。 2、采用Gzip对网页进行压缩； GZIP最早由Jean-loup Gailly和Mark Adler创建，用于UNⅨ系统的文件压缩。我们在Linux中经常会用到后缀为.gz
正确书写单例模式随意而生 java 设计模式单例
　　单例模式算是设计模式中最容易理解，也是最容易手写代码的模式了吧。但是其中的坑却不少，所以也常作为面试题来考。本文主要对几种单例写法的整理，并分析其优缺点。很多都是一些老生常谈的问题，但如果你不知道如何创建一个线程安全的单例，不知道什么是双检锁，那这篇文章可能会帮助到你。　　懒汉式，线程不安全　　当被问到要实现一个单例模式时，很多人的第一反应是写出如下的代码，包括教科书上也是这样
单例模式香水浓 java
懒汉调用getInstance方法时实例化 public class Singleton { private static Singleton instance; private Singleton() {} public static synchronized Singleton getInstance() { if(null == ins
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" AdyZhang apache http server
安装Apache问题：系统找不到指定的文件 No installed service named "Apache2" 每次到这一步都很小心防它的端口冲突问题，结果，特意留出来的80端口就是不能用，烦。解决方法确保几处： 1、停止IIS启动 2、把端口80改成其它（譬如90，800，，，什么数字都好） 3、防火墙(关掉试试) 在运行处输入 cmd 回车，转到apa
如何在android 文件选择器中选择多个图片或者视频？ aijuans android
我的android app有这样的需求，在进行照片和视频上传的时候，需要一次性的从照片/视频库选择多条进行上传但是android原生态的sdk中，只能一个一个的进行选择和上传。我想知道是否有其他的android上传库可以解决这个问题，提供一个多选的功能，可以使checkbox之类的，一次选择多个处理方法官方的图片选择器(但是不支持所有版本的androi，只支持API Level
mysql中查询生日提醒的日期相关的sql baalwolf mysql
SELECT sysid,user_name,birthday,listid,userhead_50,CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')),CURDATE(), dayofyear( CONCAT(YEAR(CURDATE()),DATE_FORMAT(birthday,'-%m-%d')))-dayofyear(
MongoDB索引文件破坏后导致查询错误的问题 BigBird2012 mongodb
问题描述： MongoDB在非正常情况下关闭时，可能会导致索引文件破坏，造成数据在更新时没有反映到索引上。解决方案：使用脚本，重建MongoDB所有表的索引。 var names = db.getCollectionNames(); for( var i in names ){ var name = names[i]; print(name);
Javascript Promise bijian1013 JavaScript Promise
Parse JavaScript SDK现在提供了支持大多数异步方法的兼容jquery的Promises模式，那么这意味着什么呢，读完下文你就了解了。一.认识Promises “Promises”代表着在javascript程序里下一个伟大的范式，但是理解他们为什么如此伟大不是件简
[Zookeeper学习笔记九]Zookeeper源代码分析之Zookeeper构造过程 bit1129 zookeeper
Zookeeper重载了几个构造函数，其中构造者可以提供参数最多，可定制性最多的构造函数是 public ZooKeeper(String connectString, int sessionTimeout, Watcher watcher, long sessionId, byte[] sessionPasswd, boolea
【Java命令三】jstack bit1129 jstack
jstack是用于获得当前运行的Java程序所有的线程的运行情况(thread dump），不同于jmap用于获得memory dump [hadoop@hadoop sbin]$ jstack Usage: jstack [-l] <pid> (to connect to running process) jstack -F
jboss 5.1启停脚本　动静分离部署 ronin47
以前启动jboss，往各种xml配置文件，现只要运行一句脚本即可。start nohup sh /**/run.sh -c servicename -b ip -g clustername -u broatcast jboss.messaging.ServerPeerID=int -Djboss.service.binding.set=p
UI之如何打磨设计能力? brotherlamp UI ui教程 ui自学 ui资料 ui视频
在越来越拥挤的初创企业世界里，视觉设计的重要性往往可以与杀手级用户体验比肩。在许多情况下，尤其对于 Web 初创企业而言，这两者都是不可或缺的。前不久我们在《右脑革命：别学编程了，学艺术吧》中也曾发出过重视设计的呼吁。如何才能提高初创企业的设计能力呢?以下是 9 位创始人的体会。 1.找到自己的方式如果你是设计师，要想提高技能可以去设计博客和展示好设计的网站如D-lists或
三色旗算法 bylijinnan java 算法
import java.util.Arrays; /** 问题：假设有一条绳子，上面有红、白、蓝三种颜色的旗子，起初绳子上的旗子颜色并没有顺序，您希望将之分类，并排列为蓝、白、红的顺序，要如何移动次数才会最少，注意您只能在绳子上进行这个动作，而且一次只能调换两个旗子。网上的解法大多类似：在一条绳子上移动，在程式中也就意味只能使用一个阵列，而不使用其它的阵列来
警告:No configuration found for the specified action: \'s chiangfai configuration
1.index.jsp页面form标签未指定namespace属性。  <%@taglib prefix="s" uri="/struts-tags"%> ... <s:form action="submit" method="post"&g
redis -- hash_max_zipmap_entries设置过大有问题 chenchao051 redis hash
使用redis时为了使用hash追求更高的内存使用率，我们一般都用hash结构，并且有时候会把hash_max_zipmap_entries这个值设置的很大，很多资料也推荐设置到1000，默认设置为了512，但是这里有个坑 #define ZIPMAP_BIGLEN 254 #define ZIPMAP_END 255 /* Return th
select into outfile access deny问题 daizj mysql txt 导出数据到文件
本文转自：http://hatemysql.com/2010/06/29/select-into-outfile-access-deny%E9%97%AE%E9%A2%98/ 为应用建立了rnd的帐号，专门为他们查询线上数据库用的，当然，只有他们上了生产网络以后才能连上数据库，安全方面我们还是很注意的，呵呵。授权的语句如下： grant select on armory.* to rn
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
<?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('This example should only be run from a Web Brows
美国电影超短200句 dcj3sjt126com 电影
1. I see．我明白了。2. I quit! 我不干了!3. Let go! 放手!4. Me too．我也是。5. My god! 天哪!6. No way! 不行!7. Come on．来吧(赶快)8. Hold on．等一等。9. I agree。我同意。10. Not bad．还不错。11. Not yet．还没。12. See you．再见。13. Shut up!
Java访问远程服务 dyy_gusi httpclient webservice get post
随着webService的崛起，我们开始中会越来越多的使用到访问远程webService服务。当然对于不同的webService框架一般都有自己的client包供使用，但是如果使用webService框架自己的client包，那么必然需要在自己的代码中引入它的包，如果同时调运了多个不同框架的webService，那么就需要同时引入多个不同的clien
Maven的settings.xml配置 geeksun settings.xml
settings.xml是Maven的配置文件，下面解释一下其中的配置含义： settings.xml存在于两个地方： 1.安装的地方：$M2_HOME/conf/settings.xml 2.用户的目录：${user.home}/.m2/settings.xml 前者又被叫做全局配置，后者被称为用户配置。如果两者都存在，它们的内容将被合并，并且用户范围的settings.xml优先。
ubuntu的init与系统服务设置 hongtoushizi ubuntu
转载自： http://iysm.net/?p=178 init Init是位于/sbin/init的一个程序，它是在linux下，在系统启动过程中，初始化所有的设备驱动程序和数据结构等之后，由内核启动的一个用户级程序，并由此init程序进而完成系统的启动过程。 ubuntu与传统的linux略有不同，使用upstart完成系统的启动，但表面上仍维持init程序的形式。运行
跟我学Nginx+Lua开发目录贴 jinnianshilongnian nginx lua
使用Nginx+Lua开发近一年的时间，学习和实践了一些Nginx+Lua开发的架构，为了让更多人使用Nginx+Lua架构开发，利用春节期间总结了一份基本的学习教程，希望对大家有用。也欢迎谈探讨学习一些经验。目录第一章安装Nginx+Lua开发环境第二章 Nginx+Lua开发入门第三章 Redis/SSDB+Twemproxy安装与使用第四章 L
php位运算符注意事项 home198979 位运算 PHP &
$a = $b = $c = 0; $a & $b = 1; $b | $c = 1 问a,b,c最终为多少? 当看到这题时，我犯了一个低级错误，误以为位运算符会改变变量的值。所以得出结果是1 1 0 但是位运算符是不会改变变量的值的，例如： $a=1;$b=2; $a&$b; 这样a,b的值不会有任何改变
Linux shell数组建立和使用技巧 pda158 linux
1.数组定义　　[chengmo@centos5 ~]$ a=(1 2 3 4 5) 　　[chengmo@centos5 ~]$ echo $a 　　1 　　一对括号表示是数组，数组元素用“空格”符号分割开。　　 2.数组读取与赋值　　得到长度：　　[chengmo@centos5 ~]$ echo ${#a[@]} 　　5 　　用${#数组名[@或
hotspot源码(JDK7) ol_beta java HotSpot jvm
源码结构图，方便理解： ├─agent Serviceab
Oracle基本事务和ForAll执行批量DML练习 vipbooks oracle sql
基本事务的使用：从账户一的余额中转100到账户二的余额中去，如果账户二不存在或账户一中的余额不足100则整笔交易回滚 select * from account; -- 创建一张账户表 create table account( -- 账户ID id number(3) not null, -- 账户名称 nam

从Elasticsearch详解Ambari与第三方软件的集成（二）

上文已经简单介绍了前因，这里我们就最核心的内容：如何做，进行讲解。

二. 集成实现过程详解

1. metainfo.xml - 服务整体描述

主要参数

其它参数

2. configuration - 服务配置项描述

1）配置类型

2）配置格式

3. package - 服务交互代码实现

1) scripts - 脚本实现

2) templates - 配置模板

1) quicklinks

2) alerts

5. 关于监控

你可能感兴趣的:(hadoop)