龙蜥系统运维联盟:Kindling-OriginX 如何集成 DeepFlow 的数据增强网络故障的解释力

龙蜥系统运维联盟:kindling-originx 如何集成 deepflow 的数据增强网络故障的解释力

编者按:2023年,龙蜥社区正式成立系统运维联盟,该联盟由信通院、阿里云、中兴通讯、复旦大学、清华大学、浙江大学、云观秋毫、乘云数字、云杉网络、浪潮信息、统信软件及联通软件院等 12 家单位共同发起。本文转自云观秋毫,介绍系统运维联盟成员 Kindling-OriginX 通过结合 DeepFlow 完备的网络数据能力,自动化生成可解释的故障根因报告。

DeepFlow是一个开源项目,利用eBPF技术为复杂的云基础设施和云原生应用提供高度可观测性。通过eBPF技术,DeepFlow收集精细的链路追踪数据、网络和应用性能指标,具有全链路覆盖和丰富的TCP性能指标。这些功能为专业用户和网络专家提供了强大的故障诊断和问题定位支持。

Kindling-OriginX 是一款故障根因推导产品,目标是提供给用户一个可解释的故障根因报告,让用户能够直接了解故障根因,并附有根因的推理过程以便验证根因的准确性。网络故障是故障当中比较难以简单解释的,仅仅告知用户哪段网络有问题是不够的,用户需要更多指标以及图解,才能帮助用户更好的理解网络到底发生了什么故障,以及发生在哪个环节。

本文介绍 Kindling-OriginX 通过结合 DeepFlow 完备的网络数据能力,自动化生成可解释的故障根因报告。

soma-chaos 模拟网络故障

针对 seat-service 注入 200ms 延时的网络模拟故障。

接下来我们先使用 DeepFlow 来识别 200ms 的网络故障,并做出相应的 action。

人工最简化排障过程

步骤一:利用 Trace 系统缩小范围

在微服务环境中,当某个接口出现性能问题时,首要步骤是利用追踪系统检查哪个环节导致了慢速度,并了解具体的表现情况。

使用Tracing系统,用户可以准确定位到具体的Trace。经过分析Trace后,发现seat-service的执行时间较长,同时出现了一次长时长的config-service调用。在此情况下,联动网络指标将有助于精确定位网络问题的根源。

步骤二:利用 DeepFlow 火焰图确定故障发生在哪段网络

将故障代表 traceid 的输入 DeepFlow 在火焰图中,找到 Trace 在网络层面上的表现,然后深入分析这个火焰图,如果对火焰图比较了解,同时有具备网络知识的专家经验,是能够根据火焰图人为分析出:这个故障应该是发生在调用者也就是 seat-service 上,而且问题是发生了 syscall 到网卡的时间段,也就是容器网络时段出了问题(和故障注入是吻合的)。

(图/DeepFlow网络火焰图)

步骤三:确定容器网络到底什么网络指标异常

根据故障排查经验,用户需要查看 seat-service 与 config-service 的 pod 的网络指标。这个时候用户需要跳转至 DeepFlow 的 Pod 级别的网络指标页面。通过该页面,用户能够查看出建连有 200ms 的延时突变以及 RTT 指标有突变。

(图/DeepFlow-pod级别监控指标)

(图/DeepFlow-pod级别监控指标)

步骤四:排除可能的干扰因素

根据经验,宿主机的 CPU 被打满和带宽被占满之时,虚拟网络也会出现丢包和时延,所以要排查当时 seat-service 与 config-service 所在 node 的 CPU 以及 node 级别的带宽,确保 Node 级别资源没有饱和。

通过 k8s 命令确认了两个 pod 所在的 node 节点,然后去 DeepFlow 的 node 指标监控页面查看相应指标,发现 node 的 bps、pps 等指标均在合理范围内。

(图/通过k8s命令查找pod所在的节点)

(图/DeepFlow-node级别监控指标(client))

(图/DeepFlow-node级别监控指标(server))

由于node级别的网络指标没有出现明显异常,最终确定是seat-service的pod级别rtt指标异常。

人工排障总结

经过一系列的排查过程,最终用户是能够排查出故障的,但是对用户有以下要求:

网络知识非常丰富

深入理解网络火焰图

熟练使用相关工具

Kindling-OriginX 如何结合 DeepFlow 指标,生产可解释的故障报告

Kindling-OriginX 针对不同的用户需求和使用场景,Kindling-OriginX 对 DeepFlow 的数据进行了加工呈现。

类比人工最简化排障过程,利用 Kindling-OriginX 的排障过程如下:

自动化分析每一条Trace

针对此时的故障,自动化分析每条 Trace,并按照故障节点对所列的 Trace 进行归集。Travel-service 是由于级联故障导致的,本文不重点论述级联故障,如果有兴趣可以参考微服务级联故障该如何处理。

Review 故障节点为 seat-service 的故障根报告

故障根因结论:

对于子请求10.244.1.254:50332->10.244.5.79:15679 rtt 指标出现 200ms 左右的延时。

故障的推理验证

由于 Kindling-OriginX 已经识别出是 seat-service 调用 config-service 的网络有问题,所以不用完全把 DeepFlow 的火焰图所有数据呈现给用户,只需要与 DeepFlow 对接,仅仅拿到 seat-service 调用 config-service 那段网络调用的相关数据即可。

利用 DeepFlow 的seat-service 调用 config-service 数据自动分析出了客户端 pod 的容器网络出现了 201ms 的延时。

Kindling-OriginX 会模拟专家分析经验,进一步关联 DeepFlow 的重传指标与RTT指标,从而确定到底是什么原因导致了 seat-service 调用 config-service 出现了延时的现象。

Kindling-OriginX 还会集成node的CPU利用率以及带宽指标,排除干扰因素。

Kindling-OriginX 将整个故障推理都在一页报告中完成,并且每个数据来源都是可信可查的。

总结

Kindling-OriginX 与 DeepFlow 都使用了 eBPF 技术,立求在不同的场景中为不同需求的用户提供灵活高效解决方案,也期待未来能看到国内有更多能力互补产品的出现。

DeepFlow 能提供非常完备的全链路网络基础数据,能够让云原生应用具有深度可观测性,对于排查网络问题非常有用。

Kindling-OriginX 是利用 eBPF 采集排障北极星指标、AI 算法和专家经验构建故障推理引擎,给用户提供可解释的根因报告。

—— 完 ——

以上就是龙蜥系统运维联盟:Kindling-OriginX 如何集成 DeepFlow 的数据增强网络故障的解释力的详细内容,更多请关注【创想鸟】其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至253000106@qq.com举报,一经查实,本站将立刻删除。

发布者:PHP中文网,转转请注明出处:https://www.chuangxiangniao.com/p/2290028.html

(0)
上一篇 2025年2月27日 23:52:50
下一篇 2025年2月21日 15:19:21

AD推荐 黄金广告位招租... 更多推荐

相关推荐

  • 百度网盘下载慢怎么解决 百度网盘下载慢如何破解

    php小编苹果为您介绍解决百度网盘下载慢的方法。下载速度慢可能是网络问题或者服务器限速所致,建议使用加速软件、修改dns、更换网络等方式来提升下载速度。另外,百度网盘下载慢也可能是因为文件较大或者网盘服务器负载高,可以尝试在非高峰时段下载,…

    2025年2月27日 互联网
    200
  • 网络和共享中心在哪里

    网络和共享中心在哪里 随着互联网的不断发展和普及,网络和共享中心在我们的生活中变得越来越重要。它们为人们提供了更便捷、高效的网络连接和资源共享服务。那么,网络和共享中心究竟在哪里呢?让我们一起来探索这个问题。 首先,网络和共享中心通常位于城…

    互联网 2025年2月27日
    200
  • 如何查询本机网络IP地址

    如何查询本机网络ip地址 在日常生活中,我们经常需要查询本机的网络IP地址,尤其是在遇到网络问题或者进行网络设置时。那么,如何查询本机的网络IP地址呢?下面就给大家介绍几种常见的方法。 方法一:使用命令提示符(CMD) 在Windows系统…

    互联网 2025年2月27日
    200
  • 处理网络路由器地址冲突的方法

    路由器地址冲突怎么办 随着物联网技术的不断发展,越来越多的设备需要连接到互联网。而在家庭或办公环境中,常常需要使用路由器来实现多个设备的网络连接。然而,有时候我们可能会遇到路由器地址冲突的问题。本文将介绍路由器地址冲突的原因以及解决办法。 …

    互联网 2025年2月27日
    200
  • 解决方案:处理HTTP请求时出现的Socket Error

    http请求报错:socket error的解决方法 在进行网络请求时,我们经常会遇到各种各样的错误,其中一个常见的问题就是Socket Error。当我们的应用程序无法与服务器建立连接时,就会抛出这个错误。在本文中,我们将讨论Socket…

    互联网 2025年2月27日
    200
  • 键盘刷新快捷键是哪个

    键盘刷新快捷键是哪个 随着电脑技术的发展,键盘成为我们日常工作和生活中不可或缺的设备。键盘的功能远不止输入文字,它也常常用来操作电脑的各种功能,提高我们的工作效率。而键盘的快捷键更是让我们能够更快速、便捷地完成各种操作。 在平时使用电脑的过…

    互联网 2025年2月27日
    200
  • 修复Xbox错误代码8C230002

    您是否由于错误代码8c230002而无法在xbox上购买或观看内容?一些用户在尝试购买或在其控制台上观看内容时不断收到此错误。 抱歉,Xbox服务出现问题。稍后再试.有关此问题的帮助,请访问www.xbox.com/errorhelp。状态…

    2025年2月27日
    200
  • 修复三星流量连接问题

    samsung flow允许用户将笔记本电脑连接到三星galaxy设备上,并漫不经心地使用它。然而,在使用samsung flow时,人们会面临各种连接问题。有时,samsung flow无法连接到wifi或启动smartview,而偶尔,…

    2025年2月27日
    200
  • VMware Horizon客户端在连接时冻结或停滞[修复]

    在使用vmware horizon客户端连接到vdi时,我们可能会遇到应用程序在身份验证过程中冻结或连接阻塞的情况。本文将探讨这个问题,并提供解决这种情况的方法。当vmware horizon客户端出现冻结或连接问题时,您可以采取一些措施来…

    2025年2月27日
    200
  • Windows 11 文件夹共享指南:轻松分享你的文件和资料

    在日常生活和工作中,我们经常需要在不同设备之间共享文件和文件夹。Windows 11系统提供了方便的内建文件夹共享功能,让我们可以轻松地在同一网络内安全地与他人分享所需内容,同时保护个人文件的隐私。这项功能使文件共享变得简单而高效,不必担心…

    2025年2月27日 互联网
    200

发表回复

登录后才能评论