1.eBPF/Ftrace 双剑合璧:no space left on device 无处遁形
eBPF/Ftrace 双剑合璧:no space left on device 无处遁形
在生产环境中,阅读源码k源我们遇到了创建容器时“no space left on device”的内核问题,磁盘使用空间和inode的码阅状况都显示正常。常规的阅读源码k源排查方式无法定位问题,那么是内核否有快速且通用的方法来找出问题的根源?本文是通过eBPF和Ftrace在单独环境中进行问题分析和定位的记录,希望能为遇到类似情况的码阅源码插件源码免费平台读者提供参考。
当在机器上运行`docker run`命令时,阅读源码k源系统会提示“no space left on device”,内核这表明在overlay mount过程中磁盘空间不足。码阅使用`df -Th`命令检查磁盘空间情况,阅读源码k源磁盘使用率仅为%。内核接下来,码阅通过`df -i`查看inode的阅读源码k源使用情况,overlay文件系统的内核inode使用率仅为7%。此时,码阅威风选股源码我们可能怀疑是否存在文件被删除但句柄未被释放,导致inode泄露。为了验证这一假设,我们执行了`lsof | grep deleted`,但结果为空,意味着没有找到被删除但仍被使用的文件。
在常规排查方法都失效的麟游源码搭建教程情况下,我们尝试了eBPF(BCC工具集基于eBPF技术开发)和Ftrace的组合应用,以期快速定位问题。首先,我们利用BCC提供的系统调用跟踪工具`syscount-bpfcc`,通过错误码来快速确定问题。在时间允许的情况下,我们推荐从源代码逐步分析定位问题,和平精英头像源码这不仅能解决问题,还能深入学习。
在内核中搜索报错信息,我们可以直接在`include/uapi/asm-generic/errno-base.h`文件中找到与错误相关的定义。接着,利用`syscount-bpfcc`工具过滤返回`ENOSPC`错误的系统调用,我们发现`mount`系统调用返回了`ENOSPC`错误。闪烁之光完整源码通过参数`-P`按进程聚合显示,我们得知`dockerd`后台进程调用了`mount`系统调用并返回了错误。
进一步跟踪错误的具体位置,我们使用了Ftrace中的`function_graph`跟踪器。通过使用`funcgraph`工具,我们能够获取到`__arm_sys_mount`函数中调用的主要子流程函数。在内核函数调用过程中,如果遇到错误,内核通常会直接跳转到错误相关的清理函数逻辑中,这里我们关注`path_mount`函数,以深入分析可能的问题。
在确认问题主要出现在`count_mounts`函数中后,我们通过源代码分析函数的主流程逻辑,确定问题是由`sysctl_mount_max`配置值过低引起,这是通过`/proc/sys/fs/mount-max`设置的。通过将此值调整为默认值,我们成功解决了问题。
本次问题排查的思路不仅适用于“no space left on device”的情况,也适用于其他场景下的问题分析和排查。同时,将此思路作为源码阅读和分析内核代码时的补充工具,能有效提升问题定位的效率。希望本文能为读者提供有用的参考,如果发现文中的错误或有更好的案例,欢迎留言交流。