一、背景及问题
为提升超大规模网络下的问题定位能力,有效应对云上“10 亿级别 IP 对”的场景,百度智能云发布了流日志产品。
这款产品提供了一种基本的网络问题定位、流量监控和展示的能力,支持用户检索、查询及可视化相应专线网关流量的功能。使得在带宽在不断增长的同时,用户对网络的诊断能力也能同步提升。
相较于用户自己做流统的传统方式,流日志提供了标准的产品形态,使云上流量更加可视化,做到接入即用,轻松应对 10T 级别专线网关下的流量管理,减少用户在开发和维护上的工作负担,使得用户可以更专注于自身业务发展,提升企业核心竞争力。
二、流日志介绍
流日志用于记录 VPC 中云服务器、专线网关、NAT 网关等实例发送和接受的网络流信息。经过大数据的的分析与汇总统一发送给云上日志分析服务,进行数据存储与可视化展示。
用户可以方便地运用流日志进行故障诊断、业务行为分析、安全检查以及合规审计等操作,以此来合理优化云上网络架构、提升业务安全性。
该产品支持流量的镜像分析,实现了流粒度的精细化统计和安全审计功能,满足不同用户的使用需求。
流日志的产品入口位于百度智能云 Console VPC 页面的列表页左侧,用户可通过"创建流日志"轻松创建需要的网关流日志:
- 支持全部流量、允许和拒绝的不同类型流量统计
- 支持NAT网关、对等链接、专线网关等不同资源的流量统计
三、技术架构
流日志产品后端由多个逻辑节点组成,分别承担不同的责任:
- 转发节点:基于可编程硬件实现的云网关,具备高吞吐、超稳低时延、低能耗、易运维等特点,可以轻松支撑线上 10T 级别专线网关流量。
- 数据节点:对网元的镜像流量进行统计和汇聚,完成流量信息的统计和聚合。支持百万级别 IP,十亿级别 IP 对。
- 计算节点:对线上日志信息进行大数据分析,每分钟可完成上亿条日志的处理,实现数据的落盘和最终转发。
- 日志节点:用户数据的最终目的地类型,目前已开放 BOS 和 BLS 来承接流日志信息,配置和使用方便。
四、应用场景
4.1 故障诊断,解决云上服务不可达问题
流日志通过对用户专线流量的采集,协助用户分析历史或者当下流量数据,了解云上服务历史运行情况:
- 支持 ACL 放通及 ACL 拒绝的不同流量统计,结合用户云上业务的变化,合理地对云上防火墙策略进行调整。一般云上服务器由于 ACL 配置不合理导致的不可访问的情况通常需要用户仔细排查云上策略,对于复杂庞大的架构而言耗费的时间更是无法估量的,通过流日志的配置,可以快速定位丢包点和丢包策略,快速定位网络故障,提高云上业务稳定性。
- 流日志可以保存故障现场,依靠历史流日志,为用户还原故障时间点现场,提供一手流量信息,提高故障定位效率。
4.1.1. 经典案例
某混合云用户在云上的云服务器创建后访问异常,无法正确建立连接,用户通过对专线网关流日志数千万条信息的过滤,很快就发现了访问云上服务器的流量被 ACL 丢弃,导致建连失败,得以及时调整了专线网关策略,提高了故障诊断的效率,保证了服务的及时上线。
4.2 费用分摊,解决用户部门间成本计算问题
由于传统的建设模式的各种局限性,越来越多的企业开始做云上的数字化转型,同时更多企业在起步阶段就已经将自己的业务上云,轻资产运营,提高了企业业务发展的速度,摆脱了各种线下建设的包袱。
在享受更高的可扩展性和灵活性的同时,费用计算与分摊也成了一个问题。通过流日志的采样,公司各个部门的访问流量一目了然,部门间的费用分摊变得轻而易举。
另一方面,通过流日志的统计,使用户详细的了解到自身内部各个业务的带宽需求,合理的进行带宽调整,有效的进行成本控制。
4.2.1. 经典案例
某混合云客户专线场景,通过专线流日志过滤用户几十个内部部门流量,定期进行各部门使用流量与专线产品总费用的计算分摊,使各个部门的成本更加清晰化,与计划成本进行比较,据此进行动态调整。相较于传统模式的资产统计相关复杂流程,流日志大大简化了成本计算方式,用户可以更多的将精力投入到业务的发展中。
4.3 大象流治理,解决网络拥塞问题
用户在使用云上专线等产品时,可能会存在大象流打满带宽的情况,一个异常业务的大象流可能会影响同一条专线网关路径上的其他所有业务流量,引起网络拥塞。
为了在出现问题时候能够及时有效的定位到引发突增的 Host,百度智能云提供了基于专线网关上的连接的 TOP IP 统计,从而方便用户进行精确的限速压制,确保大盘稳定。
通过 TOP IP 的功能高效排查和治理大象流的问题。流日志可以为用户提供两种可选择的数据交付形式:使用标准的百度智能云上日志日志服务系统 BLS,或者直接将元数据发送给用户自己的云上 Kafka,由用户自由的使用流量数据,完成自己的业务监控。
4.3.1. 经典案例
某电商客户混合云场景的 10T 级专线场景,使用自建 Kafka 接收 TOP IP 元数据的形式,配合云上业务状况,开发自己的自动化运维系统,对业务进行实时监控。根据可视化的流量统计,在几分钟内发现百万个 IP 中可能影响业务的大象流,对其进行持续跟踪,适时地进行限速处理,减少了运维成本,提高了线上服务的稳定性。
4.4 安全检测,解决云上安全加固问题
流日志实时将云上流量可视化,为用户提供了精确的网关流量统计,方便用户对每一条流量精细把控。
用户可以通过对流日志的监控,在高达百万规模 IP 网络中准确识别并过滤异常、危险流量,及时对云上和云下机房流量进行梳理,拆除异常节点,简化流量模型,提升运维幸福感。
4.4.1. 客户案例
某金融客户专线场景,通过流日志分析云上专线流量,清理云上无用 IP、拆除异常流量设备,简化云上资源,并通过白名单的方式更好地进行云上安全加固。
五、总结
与其他云监控相比,流日志能给百度智能云的用户带去更多优势:
- 无性能损耗:不影响网络吞吐及延迟,不会对性能造成任何风险。
- 全时全流:强大的包处理能力,可采集全网网关流量,支持 10T 级别专线流量统计。准确展现业务网络状况,让用户对云网络质量了如指掌。
- 实时性强:实时的海量网络流数据采集、分钟级流量汇总,帮助企业迅速实现业务分析、趋势判断与决策响应。
- 简单易管理:秒级开通,替代用户自己业务的流统计算,帮助用户提升运维效率,使用户更专注于自身业务发展,提升企业核心竞争力。
流日志作为云上监控的利器,对云上流量进行实时地监控,保留历史流量统计,时刻保障用户使用,提升业务稳定性。
流日志产品正在公测中,可通过链接进行申请:
https://cloud.baidu.com/surve...
推荐阅读: