2019 Qcon(一)

今天参加了Qcon10周年全球软件大会,简单整理下第一天的收获。

  1. 华为的鲲鹏开发工程师技能图谱发布了1.0版。意味着鲲鹏正式系统的走入了开发者生活,逐步完善华为自研的生态。
  2. 第一次接触混沌(chaos)工程,了解了下其实和我们做test很相近,但是有区别。我们一般测试会先给出特定条件,然后验证这个条件下系统是否能够返回所希望的行为。chaos则是对结果不可知的测试。比如模拟断网,数据库异常等,然后通过这种场景来查看系统会给我怎样的反馈。虽然我们平时也会做这种测试,比如在k8s里随机杀死几个pod,看看系统是否能够正常启动。但是我们很少会把它归为一类工程学来探讨。混沌工程来源于Netflix,应用混沌工程目的是为了提升系统的弹性。当然我们在实验混沌工程的时候,首先要保障系统的稳定性,否则实验就无从谈起了。
IMG_4323.JPG

上图中我们可以看到混沌工程处于early adopters,还处在早期使用阶段。同样处于早期还有最近很火的istio/service mesh/serverless/data engineer。k8s也在确实挺意外。

  1. 阿里谈到所有基础设施容器化,猜测是做了底层api的适配(类似于vsphere管理虚机那样),工程师(或者robot)只需要提供yml就可以按需获取对应的机器,好处是可以管控到CPU,mem等级别,充分利用资源。还有更好的做到资源的高效,存储和计算分离。计算资源作为一种抢占式,需要的时候提供,一旦有了更高的服务请求,则优先下线当前服务。
  2. 系统监控告警方面。首先是收集数据,绘制数据图谱。主要有几个步骤(事件分类,事件聚类,事件降噪,异常事件发现,新奇事件发现)。针对类似的告警信息,如何做到更加精准的定位到是OS层,还是中间件,还是应用层。可以将事件中的词进行加权定级,比如:(网络状态:10% zabbix| 40%agent| 40% unreachable | 10% time
  3. data engineer。也是第一次接触,主要做数据模型和分析主要针对系统中的黄金监控指标(请求数,错误数,延迟,容量),其中分享了几种事件分布的概率模型(泊松分布的流量监控,Beta 分布核密度估计的容量监控,二项分布的错误数监控,高斯核密度估计延迟监控等)分布公式大概率的还给老师了。
  4. Dataops落地会遇到哪些问题:业务需求沟通(运维测),抽象数学问题/算法模型,数据ETL,算法性能评估和运作机制,解决方案产品化,系统架构设计,研发流程,数据服务化,业务落地。
IMG_4321.JPG

你可能感兴趣的:(2019 Qcon(一))