即使被处理的目标码文件是由很多源文件编译而成的,IDA在反编译时通常只生成一个伪代码文件。
一个数百万行的伪代码文件,如果能分而治之,将有利于阅读、分析和转换。
很久以前,笔者自研了一组用于拆分IDA伪代码文件的工具。
拆分过程包括以下步骤:
- 手工建立一个名为func_file_matrix.txt的文本文件,其中每一行的内容是:C文件中的第一个函数名称,C文件的名称。这个文件的总行数N即是拆分后的C文件总数。
- 工具1根据func_file_matrix.txt把IDA伪代码文件拆分为N个C文件。工具1跳过伪代码中的“Function declarations”和“Data declarations”。对函数定义部分的代码进行修改,使之易于通过C编译。
- 工具2编译C文件,生成函数列表、函数调用关系表
- 工具3根据工具2的输出信息建立每个函数的caller函数表和每个C文件的include头文件列表。
- 工具4生成每个C文件对应的头文件(其中包含本文件的函数声明)。对于每个C文件,把caller函数表作为注释插入到函数体前面,把include头文件列表插入到C文件头部。
- 工具5生成一个包含所有全局变量的C文件,以及相应的头文件。
- 如果IDA生成的头文件可用,可建立专用工具进行处理。
以下方法可用于建立func_file_matrix.txt:
- 如果目标码中有DWARF,在Ghidra的程序树中可看到函数与源文件的对应关系。应该可以用于生成func_file_matrix.txt,但我还没有试过。
- 如果原始的源程序中使用了 assert("file.c") 或 __FILE__ 宏,则在伪代码中可看到源文件名,这些信息有助于建立较准确的func_file_matrix.txt。
- 根据函数调用关系推测文件的拆分。
随着对AI的初步入门,我意识到上述方法已经过时了。
现在的AI工具对于生成多个伪代码文件给出了一些解决方案,并推荐了可用的工具。

如果有机会,我也想试试。
再往后,可能都不需要做这类事情了。

被折叠的 条评论
为什么被折叠?



