大数据智能运维平台方案-2

2.1 告警系统

  • 此模块用于在监控过程中针对集群不合理的指标值(全局参数控制)进行预警

2.1.1 告警配置

  • 查看告警阈值

大数据智能运维平台方案-2_第1张图片

  • 点击参数,可调整告警阈值
    大数据智能运维平台方案-2_第2张图片

2.1.2 告警服务启停

  • 点击“启动”后,告警服务会启动并及时发送告警邮件
    大数据智能运维平台方案-2_第3张图片
  • 每隔15分钟(全局参数控制)会重新检查并发送告警邮件,页面中可以看到告警信息

2.1.3 页面告警

  • 页面提示出现告警
    大数据智能运维平台方案-2_第4张图片
  • 点击右上角邮件图标,查看告警详情
    大数据智能运维平台方案-2_第5张图片

2.1.4 邮件告警

大数据智能运维平台方案-2_第6张图片

2.2 巡检

  • 此模块实现了集群自动化巡检和生成巡检报告,包括基础巡检和深度巡检两大块。
  • 基础巡检
    • 基础巡检范围主要涉及集群架构配置、主机运行情况、集群运行情况和参数配置。每个巡检模块用户可以加入主观分析结果,即自定义填写分析结论和调优建议。
  • 深度巡检
    • 深度巡检用于深度分析集群潜在的性能和配置问题。便于从规划和架构上
  • 对集群进行优化。详细包括:
  • HDFS
    • 文件目录信息
    • HDFS管理报告
    • HDFS快照信息
    • FSCK文件系统健康检查
  • YARN
    • 基本信息
    • 集群指标
    • 调度队列
    • 应用信息
    • 应用统计信息
    • 集群节点信息
  • HBASE
    • 表快照信息
    • 表和Region关系
    • HBCK健康检查
  • HIVE
    • Hive表、字段统计分析
    • 数据存储格式分析
    • 表分区存储分布分析

2.2.1 基础巡检

  • 用户可自定义选择需要巡检的内容,包括集群、服务、指标和参数等
    大数据智能运维平台方案-2_第7张图片
  • 点击“基础巡检”
    • 依次检查每项指标,直到提示“巡检完成”
      大数据智能运维平台方案-2_第8张图片
  • 点击“查看巡检报告”
    • 以下为部分截图:
      大数据智能运维平台方案-2_第9张图片
  • 主机情况
    大数据智能运维平台方案-2_第10张图片
    大数据智能运维平台方案-2_第11张图片
  • 点击“编辑”,可添加主观分析结论和建议
  • 以下为导出为PDF的巡检报告样例:

2.2.2 深度巡检

  • 深度巡检开始前,需要提前创建巡检方案(参考“知识库”=>“解决方案”部分)
  • 选择集群后,点击“深度巡检”,会打开已经创建好的巡检方案,如下:
    大数据智能运维平台方案-2_第12张图片
  • 点击“执行方案”,可选择“全部执行”或“断点执行”,执行完成截图:
    大数据智能运维平台方案-2_第13张图片

2.3 知识库

  • 知识库系统旨在提供一套灵活配置的自动化智能运维系统。
  • 包含了运维工具箱、最佳实践和解决方案三大块。

2.3.1 运维工具箱

  • 日常运维中用到的运维工具命令集合,目前支持Linux操作、关系型数据库操作、Hadoop集群运维管理、开发和分析操作。
  • 工程师可以根据需求自定义添加和删除,包含4大类工具:
  • 服务专用shell
    • 特定服务的专用shell工具,比如hbase shell,hive shell等
  • Linux命令
    • Linux终端可执行的任何命令,比如linux服务启停、文件系统操作和管理等
  • 内嵌工具
    • 运维平台内嵌好常用工具,比如hbase compact操作、hdfs快照操作等
  • 数据库操作
    • 对“全局配置”-》“数据库配置”中添加的关系型数据库进行操作,比如创建删除表、授权操作等
  • 运维工具箱界面:
    大数据智能运维平台方案-2_第14张图片
  • 通过选择“服务名”和“执行方式”来实现过滤查询
    • 添加工具
      大数据智能运维平台方案-2_第15张图片
  • 创建过程的注意事项:
    • 通常用户自定义,不要选择“内嵌工具”
    • 名称必须唯一
    • 执行命令写入“命令“格,比如hdfs dfs -mkdir
    • 涉及到参数写入“参数”格,并且前面加上$,比如 $HDFS_PATH
    • 执行方式为“数据库操作”时,才需要选择数据库配置

2.3.2 最佳实践

  • 最佳实践指的是处理特定运维问题的最佳流程和方法,比如搭建集群、处理故障、备份恢复、安全配置、迁移升级、扩容等
  • 最佳实践界面:
    大数据智能运维平台方案-2_第16张图片
  • 通过选择“类别”、“标签”和“项目组”来实现过滤查询

2.3.2.1 添加实践

大数据智能运维平台方案-2_第17张图片

  • 注意事项:
    • 实践名称:必须唯一
    • 实践类别:通常是服务名
    • 项目组:决定了最佳实践是全部对外公开还是在项目组内部分享
    • 标签:可以任意添加多个
    • 实践主页面

2.3.2.2 浏览实践

大数据智能运维平台方案-2_第18张图片

  • 编辑实践
  • 界面中的“+”和“-”图标用于向下添加类别和步骤
    大数据智能运维平台方案-2_第19张图片
  • 新步骤会随机生成步骤名、内容和操作
  • 点击编辑图标可以修改类别和步骤名称

  • 点击图标编辑内容
    • 正文内容包含描述和执行代码2部分:
    • 描述部分用markdown格式编写,内容示例:
      大数据智能运维平台方案-2_第20张图片
  • 执行代码部分,可选择在“运维工具箱”创建好的工具
  • 也可以点击“自定义操作”来修改用户、参数和说明

2.3.2 解决方案

  • 解决方案指的是基于最佳实践来创建的针对特定项目环境而生成的可一键执行的方案。

2.3.2.1 创建方案

  • 在“最佳实践”页面中,在指定实践的“操作”栏中点击“创建方案”
    大数据智能运维平台方案-2_第21张图片
  • 创建解决方案
    大数据智能运维平台方案-2_第22张图片
  • 注意事项:
    • 方案名称:必须唯一
    • 标签:可以任意多个
    • 变量赋值:实践中的参数填充具体集群环境的参数值
    • 主机配置:当执行Linux命令时,可以选择一个或多个执行命令的主机

  • 点击“提交”,在“解决方案”页面可以看到创建好的方案,如图:
    大数据智能运维平台方案-2_第23张图片
  • 点击方案名称,可以查看方案内容,所有参数都已填充:
    大数据智能运维平台方案-2_第24张图片
  • 点击“操作”栏的“执行”,可以一键执行方案
    大数据智能运维平台方案-2_第25张图片
  • 两种执行方式:
    • 全部执行:从头到尾执行方案
    • 断点执行:用于执行出错,中间步骤失败后,从断点执行后面的步骤
  • 点击“全部执行”,成功后则提示如图:
    大数据智能运维平台方案-2_第26张图片
  • 解决方案主页,点击“操作”栏的“日志”,可以查看过往执行情况。

你可能感兴趣的:(大数据项目,大数据,运维,人工智能)