pagerduty
预测NCAA男子I级篮球锦标赛的结果-与比赛本身一样具有竞争力。NCAA是一场疯狂庆祝活动,众所周知很难预知结果。 多年来,沃伦·巴菲特(Warren Buffet)举行了一项竞赛,提供了十亿美元的奖金,这是一个完美的成绩,甚至没人能接近。 说到不可预测性,正如球迷们准备为今年的比赛做出选择一样,所有重大的公共体育赛事都被取消了。 谁能预料到呢?
即使我们看不到未来,对变量的深刻理解也可以使人们做出更好的预测并在竞争中占优势。 通过学校吉祥物挑选优胜者可能偶尔会起作用,但是对最佳团队,教练和运动员进行深入研究是一种更为有效的策略。
同样,客户服务,开发人员和IT问题本质上也是不可预测的。 公司不可能事先知道什么时候会出现操作问题,产品缺陷会浮出水面或沟通会变得歪斜。 人工智能和机器学习驱动的解决方案可以帮助团队提高赔率。 这些产品可以极大地加快对问题的响应,因此在大多数客户遇到问题之前,就可以预防或解决问题。
当数字应用程序或服务出现问题时(例如,电子商务网站的购物车损坏),公司每分钟就会收到数千条警报,这对于人工翻译来说既无用也不可行。 大量的噪音只会导致信号丢失,并且在解决潜在问题之前,客户与服务团队之间会有更多联系。
为客户服务提供预测性解决方案的基础是了解信号背后的驱动因素。 快速识别模式有助于公司保持领先地位。 机器学习工具通过消除噪音,从而为响应团队节省了许多周期,而不是通过可能没有用的警报和信息来一遍又一遍地分散注意力。
当团队以这种方式使用机器学习时,他们可以收集信号,以发现导致警报数量难以控制的实际事件。 他们不必急着扑灭许多小火,而可以看到问题实际所在的全局,并在解决一小批大问题时更加机灵和有见识。
如果预测流程要帮助公司为大多数客户解决问题,则必须实时进行预测。 不断发展的问题可能会影响到客户,因此不允许您停下来思考或思考。
对预测性客户和IT服务的更高层次的需求在于训练算法,以识别哪些警报属于哪些事件。 在PagerDuty,我们的主要目标是帮助公司在问题引起数字系统内部问题之前对其进行识别,并预测将来可能出问题的地方,以便公司能够提前解决问题。 我们使用机器学习将警报分组在一起,以便团队可以看到问题的全部内容,并确切地知道如何解决它们。
例如,多个团队可能每个人都在处理单个投诉,却不了解它们都是单个问题的要素。 PagerDuty平台的见解解决了该问题,并使所有人都在同一页面上。 同时,由于为响应者分配了要解决的特定问题,该平台将消息分类给每个人,因此他们不会被解决之外的问题所淹没。
这很重要,因为在一个地方的点故障与其他地方的点故障相同的情况下,大多数系统并不是孤立运行的。 当出现问题时,公司使用PagerDuty帮助查找级联问题的起点,以防止灾难性故障。 当团队可以更具预测性和预防性时,他们会对问题有更高级的了解,并了解他们的工作将在哪些方面产生最大的影响。
帮助团队快速识别和解决问题的结构还可以使组织的各个级别获得更大的可见性。 经理和主管可以更好地了解如何部署团队。 可能不得不向客户解释问题或停机的领导者同样拥有信息和明确的前进道路。
为公司提供更好的客户服务和IT预防能力,首先要以对问题进行分组的方式来帮助确定数字问题的根本原因。 该分组始于以下假设:如果两条消息具有相似的文本,则这些消息从根本上相似。 尽管从理论上讲这是合理的,但是了解这些消息是否真正相似是一个模糊的概念。
在PagerDuty,最有影响力的解决方案是应用一个解析器,该解析器接收消息并将其转换为不太精确的语言。 此过程将单词分解成单词,以显示消息中的特定元素。
系统会找到唯一的标识符,例如日期,时间,客户ID或内部ID仅在客户消息和报告的上下文中发布的网站。 就内容而言,这些标识符通常对解析器不重要。 该程序仅识别它们是否存在于邮件正文中。
在总体模糊之后,可以将每个消息中的单词和标识符组合在一起。 这是PagerDuty的平台检查输入信号并确定消息共享单词组的完整范围。
此步骤是通过向量化完成的,向量化是将这些单词系列中的每个单词转换为代表数字序列的过程。 但这仍然是一个不完善的系统。 当然,每个句子都产生一个向量表示形式,但是可以想象每个向量都可以来自几个不同的句子。 通常,有足够的信息来确定句子何时具有相同的信息。 但是PagerDuty的软件工程师仍然必须考虑到矢量可以通过多种方式组合在一起的事实。
一旦系统识别出一组具有相同向量的消息,便将它们捆绑在一起。 这些组基本上具有相同的内容。 它们的标识符表明它们充满了所有相同的术语。
例如,一家公司通常得知突然有报告和消息泛滥成灾。 其中大多数将是机器生成的,有些具有自定义模板,有些甚至由人编写。 如果不进行某种分组,团队将无法从更高层次查看情况。 他们可以构建一个分组工具,但是这需要大量的时间和精力投入,同时还要收集更多的事件报告。
同样,由于太多的消息具有不同的内容,仅在消息相同时对消息进行分组并不会减少问题的数量。 使用AI识别相似性可以使该小组随时间累积相关信息。 通过这种方式将警报分组,而不是成千上万个单独的问题(每个问题由报告或消息表示),而仅显示几个核心问题,这些是其他问题的根源。
到那时,该系统已使响应团队变得具有预测性和预防性。 找到最大的问题并解决可能导致将来出现问题的根本原因变得容易得多。 优先处理核心问题上的一些工程工作会导致事件负载急剧下降,而这一切都来自于基本的AI驱动的分组。
从理论上讲,这应该是一个非常可靠的过程。 解析,标识和向量化消息后,系统应该很容易将它们分组为相似的消息。 它们都是文本相关的,向量可以让平台衡量相关性的强度。
当然,实际上,这并不总是那么简单。 语言的灵活性意味着系统经常会出错。 这就是为什么PagerDuty在我们的产品中构建功能强大的反馈系统的原因。
当最终用户向系统提供反馈时,他们将为我们提供新的数据点以帮助完善流程。 通常,这是对A和B看起来应该相互关联的确认。 但是,该消息的人文环境表明,它们之间没有太多关系。
PagerDuty的反馈系统将更大的权重赋予因它们共享术语而正相关的消息,但是人工反馈表明它们并不相似。 可以通过非常大型的强化学习系统在软件中完成此评估和修改,但是对于用户而言,术语和消息是否应该一起是一个简单的评估。
客户当然不需要了解其工作原理。 客户服务和IT团队应该使用简单的工具来提供反馈,以描述不匹配的术语。
在更高的层次上,PagerDuty的反馈系统为用户提供了用于合并和分离警报中的术语组的广泛选择。 这只是在抓取物品并将它们移入或移出一组; 本质上表示某些项目彼此属于,但另一项不匹配。
另一个不太复杂但功能同样强大的产品可能只需要字面上的竖起和竖起按钮。 用户实质上是批准匹配或表明过程中存在缺陷。
任何可以并且将会碰巧使客户感到沮丧和失望的事物,就像在客户服务部门工作的任何人都会告诉您的那样。 在这种不可预测的情况下提高您的赔率要求尽快学习,理解和解决问题。 该空间中最重要的集成事件智能和事件响应解决方案通过查看数字信号和人类响应行为,将机器遥测与人类遥测相结合。
克里斯· 邦内尔( Chris Bonnell)是PagerDuty的首席数据科学家。 他拥有博士学位。 毕业于伊利诺伊大学厄本那-香槟分校的数学系,曾获得过一幅大片录像带的助理管理。
-
新技术论坛提供了一个以前所未有的深度和广度探索和讨论新兴企业技术的场所。 选择是主观的,是基于我们选择的技术,我们认为这些技术对InfoWorld读者来说是重要的,也是他们最感兴趣的。 InfoWorld不接受发布的营销担保,并保留编辑所有贡献内容的权利。 将所有查询发送到[email protected] 。
翻译自: https://www.infoworld.com/article/3544929/how-pagerduty-helps-customer-service-and-it-teams-improve-responses.html
pagerduty