一种古旧的IDA伪代码文件拆分方法

原创于 2026-03-05 11:31:46 发布 · 52 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#逆向分析 #IDA

43 篇文章

订阅专栏

即使被处理的目标码文件是由很多源文件编译而成的，IDA在反编译时通常只生成一个伪代码文件。

一个数百万行的伪代码文件，如果能分而治之，将有利于阅读、分析和转换。

很久以前，笔者自研了一组用于拆分IDA伪代码文件的工具。

拆分过程包括以下步骤：

手工建立一个名为func_file_matrix.txt的文本文件，其中每一行的内容是：C文件中的第一个函数名称，C文件的名称。这个文件的总行数N即是拆分后的C文件总数。
工具1根据func_file_matrix.txt把IDA伪代码文件拆分为N个C文件。工具1跳过伪代码中的“Function declarations”和“Data declarations”。对函数定义部分的代码进行修改，使之易于通过C编译。
工具2编译C文件，生成函数列表、函数调用关系表
工具3根据工具2的输出信息建立每个函数的caller函数表和每个C文件的include头文件列表。
工具4生成每个C文件对应的头文件（其中包含本文件的函数声明）。对于每个C文件，把caller函数表作为注释插入到函数体前面，把include头文件列表插入到C文件头部。
工具5生成一个包含所有全局变量的C文件，以及相应的头文件。
如果IDA生成的头文件可用，可建立专用工具进行处理。

以下方法可用于建立func_file_matrix.txt：

如果目标码中有DWARF，在Ghidra的程序树中可看到函数与源文件的对应关系。应该可以用于生成func_file_matrix.txt，但我还没有试过。
如果原始的源程序中使用了 assert("file.c") 或 __FILE__ 宏，则在伪代码中可看到源文件名，这些信息有助于建立较准确的func_file_matrix.txt。
根据函数调用关系推测文件的拆分。

随着对AI的初步入门，我意识到上述方法已经过时了。

现在的AI工具对于生成多个伪代码文件给出了一些解决方案，并推荐了可用的工具。