大数据智能运维平台方案-1

1.1 介绍

  • 碧茂运维管理平台是针对大数据分布式集群系统设计的自动化运维管理平台,核心功能包括:
    • 集群资产管理
    • 监控系统
    • 告警系统
    • 系统巡检
    • 运维知识库系统等。

1.1.1 资产管理

  • 提供可视化界面实现对主机和集群资源的统一配置和管理,对各项监控管理任务进行调度配置、监控和管理。
  • 方便运维人员能随时掌握系统全貌,集群服务角色分布情况,硬件资源分配情况,能根据管理需求进行定制化定时任务调度。

1.1.2 监控系统

  • 主机的健康性能的监控
  • 集群服务的端口、健康性能指标的监控
  • 集群参数的监控,并自动给出调优建议
  • 集群日志的监控预警,自动化收集汇总集群进程和应用日志,并对错误日志进行预警

1.1.3 告警系统

  • 选择任意监控的指标和阈值,进行邮件告警

1.1.4 系统巡检(特色功能)

  • 对系统和集群进行健康和性能检查,自动化生成巡检报告。
  • 分为基础巡检和深度巡检。
    • 基础巡检指的是根据需求可以灵活选择需要巡检的服务、指标、参数,自动化生成巡检报告。
    • 深度巡检指的是对不同服务的结构对象进行深入分析诊断。

1.1.5 知识库系统(特色功能)

  • 一套高质量的集群管理运维相关的知识管理系统,包括运维工具箱、最佳实践和解决方案。
  • 知识库系统中的方案可以一键执行来实现复杂运维流程的自动化处理,包括:
    • 日常集群操作需求,包括服务启停、参数修改、备份恢复、集群扩容迁移、安全配置和升级
    • 自动化故障处理

1.2 功能详细介绍

1.2.1 登录界面

  • 用户首先需要获取license,激活产品后才能正常使用,提示如下:

大数据智能运维平台方案-1_第1张图片

  • 点击激活,会自动生成机器码,请联系厂商获取激活码

大数据智能运维平台方案-1_第2张图片

  • 激活后,会提示到期日,产品可以正常进行登录了

大数据智能运维平台方案-1_第3张图片

1.2.2 首页

  • 首页是向导页,以路线图的方式引导你进行集群配置和集群监控

大数据智能运维平台方案-1_第4张图片

1.3 配置管理

1.3.1 全局配置

  • 用于配置全局参数和服务,包括
    • 数据保留配置
    • 告警服务
    • 告警配置
    • 数据库配置等

大数据智能运维平台方案-1_第5张图片

  • 修改全局参数

大数据智能运维平台方案-1_第6张图片

1.3.2 数据库配置

  • 用于配置关系型数据库,支持Mysql和PostgreSQL等,通常是CM、Hive、Hue、Oozie等元数据库,方便管理和查询。

大数据智能运维平台方案-1_第7张图片

  • 支持添加和删除数据库配置

大数据智能运维平台方案-1_第8张图片

1.3.3 主机配置

  • 用于添加、修改和删除管理的主机信息
  • 查看主机配置

大数据智能运维平台方案-1_第9张图片

  • 添加配置

大数据智能运维平台方案-1_第10张图片

1.3.4 服务配置

  • 用于添加修改或删除需要监控的集群类型、集群,包括服务、角色、主机、端口等
    • 目前支持的集群包括:CDH、HDP、ApacheHadoop、华为FusionInsight和星环
    • 目前支持的服务包括:HDFS、YARN、HBase、Hive、Zookeeper、Impala等
  • 查看监控服务配置

大数据智能运维平台方案-1_第11张图片

  • 可以通过选择“集群名”或“服务名”来过滤查询
  • 查看主机角色分布

大数据智能运维平台方案-1_第12张图片

  • 添加监控配置

大数据智能运维平台方案-1_第13张图片

  • 集群类型

大数据智能运维平台方案-1_第14张图片

  • 服务

大数据智能运维平台方案-1_第15张图片

1.3.5 调度配置

  • 用于配置和监控集群监控所需的定时调度服务,包括:
    • 指标采集服务
    • 监控服务
    • 分析服务和其他需要定时调度的服务
  • 查看调度配置

大数据智能运维平台方案-1_第16张图片

  • 添加调度配置

大数据智能运维平台方案-1_第17张图片

  • 查看调度日志

大数据智能运维平台方案-1_第18张图片

1.4 集群监控

  • 此模块用于监控在“配置管理”模块中所添加的主机和服务

1.4.1 主机监控

  • 监控主机的健康状态和各项关键指标,包括:
    • CPU
    • 内存
    • 网络
    • IO
    • 进程等

1.4.1.1 主机监控概览

  • 所有集群主机的关键指标的展现,便于快速及时发现主机健康问题和资源问

大数据智能运维平台方案-1_第19张图片

1.4.1.1单台主机监控页面

  • 用于展现单台主机所有监控指标,便于深入了解主机的配置情况和分析重要监控指标
  • 以下是部分截图:

大数据智能运维平台方案-1_第20张图片

大数据智能运维平台方案-1_第21张图片

大数据智能运维平台方案-1_第22张图片

1.4.2 服务监控

  • 监控集群服务的健康状态和性能指标。
  • 目前覆盖了HDFS、YARN、HBASE、HIVE等核心服务组件。

1.4.2.1 服务监控主页

  • 概览整个集群的所有服务状态、集群基本信息和各个组件的关键指标信息。
  • 另外,也提供了对集群的基本操作,包括服务启停等

大数据智能运维平台方案-1_第23张图片
大数据智能运维平台方案-1_第24张图片

  • 点击“操作”,可以对整个集群或服务进行启停操作

大数据智能运维平台方案-1_第25张图片
大数据智能运维平台方案-1_第26张图片

1.4.2.2 服务监控详情页

  • 用于展现单个服务所有监控指标,便于深入了解服务的配置情况和分析重要监控指标。
  • 此外,也可以对特定主机的角色进行操作。
  • 以HDFS为例,以下是部分截图:

大数据智能运维平台方案-1_第27张图片

大数据智能运维平台方案-1_第28张图片

大数据智能运维平台方案-1_第29张图片

  • 点击“操作”,对特定主机的角色进行启停

大数据智能运维平台方案-1_第30张图片

1.4.3 参数监控

  • 监控集群服务的运行所配置的参数情况,用于及时掌握集群配置情况,参数分为4大类:
    • 文件目录参数
    • 主机端口参数
    • 运行环境参数
    • 性能参数
  • 每个参数都会有相应中文解释和调优建议,用户可以参考建议来优化集群。
  • 以HDFS为例,以下是部分截图:

大数据智能运维平台方案-1_第31张图片

大数据智能运维平台方案-1_第32张图片

1.4.4 日志监控

  • 监控集群服务的进程日志和应用日志

1.4.4.1 进程日志监控

  • 可以根据集群、服务、角色、日志级别和主机来选择要查看的日志类型,已经下载完整日志用于深入分析。

大数据智能运维平台方案-1_第33张图片

1.4.4.2 应用日志监控
  • 选择集群和日志级别,查看YARN应用日志

大数据智能运维平台方案-1_第34张图片

你可能感兴趣的:(大数据项目,大数据,运维)