TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)

640

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第1张图片


7月28日,腾讯技术工程运维技术沙龙-深圳站在腾讯大厦2楼多功能厅举行。现场集结了数十家知名企业的技术开发和运维小伙伴,通过5个小时的思维碰撞,运维人员和导师们一起打造了一场运维人的知识盛宴。

这次,我们请来了四位有丰富数据库运维和优化经验的嘉宾,为大家分享他们的技术经验。

为了照顾更多没到现场的朋友,我们联合「腾讯大讲堂」(微信号:TX_DJT)拍摄了嘉宾的分享视频,各位可以直接点击文章里的小程序卡片即可观看。


腾讯数据中心运维介绍


TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第2张图片

熊操 腾讯华南广佛片区运维负责人


一、数据中心运维工作

数据中心的运维框架分为3层,最下面是设备厂商,包含IT设备厂商、电力厂商和空调厂商,他们依托维保合同为数据中心运维团队提供相应的维保服务。

数据中心运维团队主要分为IT运维团队和基础设施运维团队。

IT团队主要负责服务器和网络设备的日常运维,基础设施团队主要负责电力和制冷的运维。

这两个团队又向数据中心经理负责,数经将整个数据中心的运维能力打包向业务部门提供服务,保证业务在数据中心的安全。

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第3张图片

接下来导师从运维场景和基础设施运维为我们详细介绍了运维人员的日常工作

运维场景:设备搬迁-设备直配-设备保全-备件存放-IT故障处理

基础设施运维:日常巡检-设备维保-日常演练-高危巡检-故障处理

二、业务重保支持

数据中心主要从以下四个方面配合业务重保:

应急保障-高危巡检-机架电流统计分析-整体电力容量确认


TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第4张图片

三、业务优化建议

第一个建议:重要的设备和群组要分开放置

①不要在同一个机架   

②不要在相邻的机架

③不要在同一列机架   

④不要在同一个房间

第二个建议:电源故障莫忽视

①一个电源模块告警后,虽然服务器还能正常工作,但可靠性已经严重降低

②收到电源模块告警后,需及时更换避免服务器断电停机


混合云环境下监控系统建设的探索与实践


TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第5张图片

张波 虎牙直播运维研发架构师

点击小程序卡片即可收看嘉宾现场精彩视


一、开源监控系统对比

Zabbix--成熟度相对较高、但可扩展性不高

Prometheus-监控设计超前、成熟度不够

Openfaclon-架构设计合理、产品活跃度强

Openfaclon的模块设计

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第6张图片

改造后的Openfaclon

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第7张图片

二、TSDB(时序数据库)

什么是TSDB?

可以唯一标识的序列名/ID 及meta-data

一组数据点{timestamp, value}。

timestamp是一个Unix时间戳


TSDB的特点:

数据结构简单

数据量大

写多于读95%+


TSDB的可伸缩性与可靠性:

使用Hbase作为存储中心

无须采样

支持上万机器和上亿数据点的采集

一个无状态服务横向扩展能力强

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第8张图片

三、监控系统的三个挑战

①可伸缩性与可靠

24小时 平均查询延迟10ms 200w+TPS/s 支持秒级存储

7天数据平均查询延迟50ms 100w+TPS/s 支持1分钟存储

永久存储平均查询延迟300ms 60W+TPS/s 数据降采样

②使用者对监控系统的滥用

限制指标单周期上报上线:最高10000

上报数据按配额分配,超额告警,数据丢弃

不同监控数据存储不同引擎

依赖监控数据的业务必须实现failover

根据元数据预测查询数据量实现fastover

③成本控制:使用云上资源提高系统弹性能力降低成本

集群混合云部署集群

 A集群自建方案,B集群公有云方案

 A集群 元数据服务:elasticsearch

    全量数据存储引擎:openTSDB

 B集群 元数据查询引擎:SLS

    26小时数据存储引擎: datastore

    7天数据存储引擎: histsdb

    多维数据查询引擎:SLS


支撑10万级设备的运营系统设计与实现


TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第9张图片

王子勇 腾讯织云Lite技术负责人

点击小程序卡片即可收看嘉宾现场精彩视


一、包系统精髓

早期的发布方式&包系统的方式

早期的发布方式:传文件→执行命令

包系统的方式:创建版本→安装/升级

包系统-后台架构

SVN存储&消息队列&异步架构&缓存


TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第10张图片

命令通道-后台架构

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第11张图片

二、CMDB资源与流水线

为什么需要CMDB资源模型?

基于文档的部署

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第12张图片

基于脚本/定制流程的部署

①业务零开发成本

②极低操作门槛

③全局自动伸缩

④一人vs上千业务

流水线设计要点:

①用户可创建流水线

②支持参数输入

③支持参数传递 (管道的哲学)

④工具库 (代码复用)

⑤支持人工介入 (审批)

⑥支持失败步骤重试

⑦执行节点横向扩展

⑧数据运营 工具/流程耗时、成功率统计


支撑10万级设备的运营系统设计与实现


TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第13张图片

蒋常春 CDB运维负责人

点击小程序卡片即可收看嘉宾现场精彩视


一、CDB--云数据库 MySQL

老师详细给学员们介绍了云数据库MySQL

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第14张图片

CBD平台实例数目数万个,机器数量上万台,人均运维实例10000个,每天都有设备故障。

平台大了,问题成倍放大,每个组件、每项DBA工作,都要考虑平台化、工具化。

二、优化思路

常老师从数据采集-告警收敛-系统集成-自动处理四个方面阐述了优化的思路

告警收敛可以从收敛的目标和收敛的方向去规避和优化

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第15张图片

数据采集之后上报收敛,实现告警自动化

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第16张图片

三、技术方案

监控和数据拉取:Python、Go

存储:Elasticsearch、Redis、CDB

Web server:Flask

Frontend:Vue.js

前后端分离,数据API化


四位导师在本次沙龙分享的内容干货满满,期待未来可以在多个城市与更多的技术人见面。

下一站,再见!

TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第17张图片


温馨提示:

需要获取四位导师现场PPT的同学请在「腾讯技术工程」公众号后台回复关键字“沙龙PPT”即可获取下载地址


TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频)_第18张图片


你可能感兴趣的:(TEG Cheers | 腾讯技术工程运维技术沙龙精彩回顾(内置现场视频))