1. 当内核“Oops”时,我们到底看到了什么?
做Linux内核或者驱动开发的朋友,最不想看到但又几乎一定会遇到的,就是系统控制台突然刷出一大堆看不懂的日志,然后系统可能卡死,也可能勉强继续运行。这就是传说中的“内核Oops”(有时也叫“内核恐慌”,即panic)。我第一次遇到时也是一头雾水,满屏的十六进制地址和寄存器值,感觉像在看天书。
但别慌,这些看似混乱的信息,其实是内核在“临终”前给我们留下的宝贵“犯罪现场”笔录。它精确地记录了程序执行到哪一步时“踩到了香蕉皮”。举个例子,你可能会看到这样一行关键信息:
[ 5.531114] PC is at pl031_probe+0x120/0x1e8
这行日志是破解整个Oops谜题的金钥匙。我来给你拆解一下:
PC is at: 这告诉我们,出问题时,CPU的程序计数器(Program Counter)指向哪里。PC就是CPU正在执行或即将执行的那条指令的地址。pl031_probe: 这是发生崩溃的函数名。太好了,我们至少知道是哪个函数惹的祸。+0x120: 这是偏移量(Offset)。意思是,崩溃发生在pl031_probe函数起始地址之后0x120个字节的位置。你可以把它理解为,在这个函数长达几百字节的机器码“河流”里,我们在离源头0x120米的地方翻了船。/0x1e8: 这是函数的总长度。0x1e8字节,告诉我们这个函数有多大。
所以,这行日志直白地翻译过来就是:“崩溃发生在pl031_probe函数内部,距离函数开头第0x120字节的地方,这个函数总共长0x1e8字节。”
对于简单的函数,我们或许能直接看源码猜出大概位置。但如果函数像迷宫一样复杂,有无数个if-else和循环,光知道函数名就远远不够了。我们需要一个“地图导航”,能把0x120这个偏移量,精准地对应到源代码的某一行,比如“drivers/rtc/rtc-pl031.c文件的第388行”。这就是addr2line工具的用武之地。
简单来说,addr2line就是一个“地址翻译官”。你给它一个内存地址(或者像我们这里的,函数地址+偏移量),再给它一份带有调试信息的地图(比如编译内核时生成的vmlinux文件),它就能告诉你这个地址对应的是源代码的哪个文件、哪一行。有了它,我们就能从汇编指令的汪洋大海,瞬间定位到写错的那一行C代码,效率提升不是一点半点。
2. 实战演练:亲手用addr2line定位崩溃行
理论说再多,不如亲手试一次。我们就把上面那个Oops日志当作真实案例,一步步走通定位流程。这个过程就像侦探破案,每一步都要仔细。
2.1 第一步:从Oops日志中提取关键地址
首先,我们得从日志里找到两个关键信息:函数名和偏移量。前面已经看到了,是pl031_probe和0x120。
但addr2line工具需要的是一个完整的虚拟地址,而不是偏移量。所以我们需要找到pl031_probe函数在内存中的基地址(起始地址)。这个信息通常在内核的符号表文件System.map里。在系统运行时,你也可以通过/proc/kallsyms来查看。
假设我们从System.map中查到了:
c0363878 t pl031_probe
这行表示,函数pl031_probe的起始地址是0xc0363878。前面带个t,表示这是个局部(text段)符号。
现在,计算崩溃点的完整虚拟地址: 崩溃地址 = 函数基地址 + 偏移量 也就是:0xc0363878 + 0x120 = 0xc0363998
这个0xc0363998,就是CPU当时试图执行的那条“问题指令”在内存中的确切位置。
2.2 第二步:准备调试“地图”——vmlinux文件
addr2line要能正确翻译地址,离不开一份包含详细调试信息的“地图”,这就是vmlinux文件。它和我们在系统上运行的内核镜像(通常是压缩过的zImage或bzIm

581

被折叠的 条评论
为什么被折叠?



