PIXELRAG: Web Screenshots Beat Text forRetrieval-Augmented Generation——在检索增强生成中，网页截图胜过文本

原创于 2026-07-01 01:00:00 发布 · 292 阅读

7 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

论文阅读专栏

一、研究问题与动机

核心问题： 传统的基于文本的 RAG 系统在处理网络数据时，依赖于一个关键但脆弱的上游步骤——HTML 到文本的解析。这个过程是有损的，会丢弃布局、视觉结构（表格、图表、信息框）和格式信息，导致下游检索和生成效果受损。

三个关键观察：

解析丢弃关键信息：表格、图表等 2D 结构在线性化过程中被破坏或丢失，某些内容仅在渲染时才可见。
文本丢失视觉结构：将二维布局转换为线性文本，丢失了空间分组、字体层级等帮助定位信息的视觉线索。
VLM 进展使像素级方法可行：现代 VLM 在理解像素中的文本方面日益强大，为绕过文本解析提供了技术基础。

研究目标： 能否直接在像素空间（即用户看到的网页截图）上运行 RAG，完全绕过 HTML 解析？

二、解决方案：PixelRAG 架构

PixelRAG 是一个端到端、完全在像素空间运行的 RAG 系统，包含三个阶段：

2.1 数据收集（§3.1）

获取：将网页资源（HTML、CSS、图像）缓存到本地镜像（维基百科来自 KiwiX ZIM 压缩包，新闻语料通过异步爬虫获取）
渲染：使用 Playwright（无头 Chromium）渲染页面，剥离导航栏等非内容元素，滚动捕获完整页面
切片：固定视口宽度 875px，将完整截图切分为 1024px 高的不重叠图块（维基百科约 3000 万图块，新闻语料约 360 万图块）

2.2 索引构建（§3.2）

使用 Qwen3-VL-Embedding-2B 将每个图块编码为单个 2048 维向量（单向量检索，而非多向量）
采用 FAISS IVF 索引进行近似最近邻搜索，支持增量更新
全文索引约 120GB（fp16），全文处理约 2 天完成

2.3 运行时检索与生成（§3.3）

查询嵌入后，通过内积相似度检索 Top-K 图块
检索到的截图直接作为像素输入馈送给 VLM 阅读器（如 Qwen3-VL），无需中间文本转换

三、嵌入模型训练（§4）

3.1 合成对比数据生成

阶段1（查询生成）：用 LLM 从信息密集的图块生成查询-答案对，经自包含性和可回答性过滤
阶段2（难负例挖掘）：用基础嵌入模型检索 Top-K 候选，通过 LLM 判断是否为假负例（能回答查询的则丢弃），保留真正难负例

3.2 训练方法

使用 InfoNCE 损失，结合挖掘到的难负例和批次内负例
在 LLM 主干和 ViT 上同时应用 LoRA（与先前工作在文档检索上的做法相反），发现能带来一致提升
完整训练在单块 H100 上约 3 小时

四、实验评估（§5）

4.1 基准测试

文本中心维基百科 QA：NQ、NQ-Tables、SimpleQA
多模态维基百科 QA：MMSearch、Encyclopedic VQA
新闻 VQA：LiveVQA（更嘈杂、更多样化）

4.2 主要结果

方法	NQ	NQ-Tables	SimpleQA	LiveVQA
文本 RAG (Trafilatura)	55.9%	42.5%	71.6%	59.0%
PixelRAG (基础)	57.9%	47.0%	73.8%	70.3%
PixelRAG (微调)	58.7%	48.8%	78.8%	70.0%

像素检索始终优于文本检索，即使是在 SimpleQA 等纯文本可回答的任务上
最大提升出现在 NQ-Tables（含表格、信息框的结构化内容）
EVQA 上召回率提升超 5 倍，准确率提高 18%
LiveVQA 上优势扩展至新闻领域（+11.3%），无需领域特定训练

4.3 关键分析发现

失败模式分解（SimpleQA）：

解析器损失（36.6%）：线性化破坏了表格等 2D 结构，答案从文本语料中完全消失
排序损失（55.2%）：答案存在于语料但未进入 Top-3（常见原因是信息框位移——线性化的信息框关键词密集，掩盖了真正的答案段落）
阅读器损失（8.2%）：证据进入 Top-3 但阅读器仍答错（线性化破坏了层级结构）

按答案位置的分析：

表格证据：PixelRAG 召回率 34.8% vs. Trafilatura 23.8%
段落证据：PixelRAG 召回率 63.9% vs. Trafilatura 44.1%（+19.8%）

4.4 消融研究

设置	SimpleQA
截图检索 + 截图阅读	73.8%
截图检索 + OCR 文本阅读	72.2%
文本检索 + 文本阅读	71.6%
文本检索 + 渲染图像阅读	67.4%
文本检索 + HTML 阅读	59.8%

检索模态是更大的影响因素（截图检索始终更好）
截图检索 + OCR 文本阅读 优于标准文本 RAG，证明视觉检索本身就有价值
原始 HTML 作为阅读器输入表现最差（标记膨胀 3.8 倍）

训练方法消融：

动态难负例挖掘（+4.7%） > 朴素难负例 > 批次内负例
ViT 解冻（+2.3%）进一步改善结果

4.5 智能体搜索（MoNaCo）

PixelRAG 以最低成本获得最高 F1
提示令牌减少 10 倍（3.6M vs. 37.5M），因为截图图块每步信息更密集

4.6 图像压缩

通过降低分辨率实现令牌减少（2× 压缩 → 令牌减半）
微调阅读器可恢复准确率损失
压缩后阅读器在 k=3 时达到 72%，超越未压缩 k=5 上限，成本仅为其三分之一

4.7 VLM 能力扩展

从 Qwen3-VL-4B 开始，像素检索首次匹配并超越文本检索
随着 VLM 能力增强，像素优势扩大（最新模型差距达 +4.6 pp）
新模型代际编码相同图块所需令牌更少，成本持续下降

五、核心贡献

首个网络规模端到端像素空间 RAG 系统，绕过 HTML 解析，简化流水线并保留视觉信息
可扩展的截图语料库构建流水线 + 经合成数据和难负例训练的视觉嵌入模型
实验证明像素检索在多种基准上持续优于文本 RAG，包括纯文本任务
发现图像压缩作为新的效率维度，实现高达 3× 令牌成本降低

六、局限性与未来方向

丢失超链接：截图无法直接跟随链接 → 可保存为元数据辅助
存储开销大：截图 ~6TB → 可删除截图仅保留嵌入，查询时按需重渲染
仅限英语：需扩展到多语言语料库
未来方向：跨领域训练、混合文本+图像检索、智能体视觉推理

网络 RAG 可以直接在网页的原生视觉形式上运行，无需先提取文本。这不仅简化了流水线，而且在性能和效率上都能超越传统基于文本的方法——且随着 VLM 的持续进步，这一优势将进一步扩大。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

项目地址在这里，如下所示：

摘要

使用检索到的网络文本增强大型语言模型（LLM）已成为一种主流范式，然而网络本身并非原生文本形式：现有系统依赖于复杂的解析流水线，这些流水线将 HTML 线性化，并丢弃了布局、视觉结构和格式信息。我们引入 PIXELRAG，这是一种新颖的检索增强方法，它以原生视觉形式表示网站，并完全在像素空间执行检索和阅读，从而实现了消除文本抽象化的端到端架构。据我们所知，PIXELRAG 是第一个以这种形式处理完整维基百科语料库的流水线，通过高效的视觉检索索引扩展到包含 3000 万张截图图像的数据存储。PIXELRAG 基于现有的视觉嵌入模型（即 Qwen3-VL-Embedding）构建，并通过精心策划的对比训练数据，在该模型上对截图数据进行了进一步的微调。检索到的截图随后作为像素输入直接馈送给视觉语言模型（VLM），无需中间文本转换。PIXELRAG 在各种任务上始终优于无检索和基于文本的 RAG 基线，最令人惊讶的是在广泛研究的以文本为中心的任务上，如 NQ 和 SimpleQA。它在多模态开放域问答（如 MMSearch）、噪声新闻语料库基准（如 LiveVQA）以及智能体基准（如 MoNaCo）上也取得了显著提升，相比基于文本的基线，准确率提高了高达 18.1%。最后，像素表示通过图像压缩为 RAG 带来了新的效率提升手段，在保持准确率的同时，实现了高达 3 倍的令牌成本降低。我们的结果挑战了在网络检索中文本表示的必要性，表明网络 RAG 可以直接在网络的原生视觉形式上运行，同时提高性能和效率。

1 引言

检索增强生成（RAG）已成为将大型语言模型（LLM）扎根于外部知识的主流范式，为开放域问答、搜索增强型智能体和深度研究系统提供动力[1-6]。在各种检索来源中，网络是最大、最多样化的知识库：越来越多的 LLM 应用依赖网络检索来保持信息的时效性和事实准确性[7-9]。

基于文本的 RAG 假设可以访问用于检索和阅读的干净文本文档，但它依赖于一个关键且经常被忽视的步骤：HTML 解析。干净的文本并非免费可得：HTML 到文本的提取过程复杂、工程化程度高且容易出错[10-12]。即使是最先进的解析器[13-15]也很脆弱且本质上有损，会丢弃视觉线索（例如，强调、布局）和结构化内容，如表格、图表和图像。这些损失会级联放大：检索器索引的是页面的一种降级视图，而阅读器必须对线性化的、嘈杂的且可能难以理解的文本进行推理。

在这项工作中，我们提出一个问题：RAG 能否直接在像素空间——即用户所见的网络页面上——运行，从而绕过复杂且有损的 HTML 解析？具体来说，这将索引网页截图，将页面作为图像检索，并将其作为上下文馈送给 VLM。虽然这个目标颇具雄心，但近期 VLM 在视觉理解方面的显著进步（使得 OCR、文档和图表理解等功能成为可能）使这种方法变得可行[16-21]。随着信息检索越来越多地涉及结构和视觉内容，这种方法还能实现统一的表示，无需区分文本和视觉表示。先前的工作已在 PDF 等策划的小规模领域探索了这一范式[22-27]，但在开放域知识的主要来源——网络上，这仍未得到充分探索。

我们引入 PIXELRAG，据我们所知，这是第一个在网络规模上实现端到端基于截图的 RAG 方法，它覆盖了完整的维基百科语料库（700 万篇文章）以及来自 CNN、AP News 和 BBC 的新闻语料库。虽然可扩展的数据收集并非易事，但我们构建了一个流水线，首先收集渲染资源（HTML、CSS、图像），然后在本地重建页面以大规模生成截图。检索由 Qwen3-VL-Embedding 模型[28]驱动，我们通过高效的对比微调，利用合成的问答对和动态难负例挖掘[29, 3]，进一步将该模型适应于截图数据。检索到的图像随后作为像素输入直接馈送给 VLM 阅读器，绕过了中间的文本表示。

我们的实验表明，PIXELRAG 在各项基准测试中始终优于无检索和基于文本的 RAG 基线，最令人惊讶的是在广泛使用的以文本为中心的维基百科 QA 任务上，如 NQ [30] 和 SimpleQA [31]，这些问题大多（即便不是全部）仅从文本即可回答。PIXELRAG 在多模态 QA、嘈杂新闻语料库基准（LiveVQA [32]）和智能体基准[33]上也取得了显著的提升。进一步分析表明，在以文本为中心的任务上的提升源于利用 2D 结构线索（如表格、信息框）和避免 HTML 到文本解析过程中的信息丢失。值得注意的是，这些提升随着 VLM 能力的增强而扩大，表明随着模型的不断改进，还有进一步的提升空间。

最后，像素表示引入了一个新的、未被充分探索的维度，即通过图像压缩提高 RAG 的令牌效率，这与近期工作[34, 35]一致。训练 VLM 阅读器容忍更低的分辨率进一步改善了准确率-效率帕累托前沿，使得在保持准确率的同时，令牌成本降低高达 3 倍。总结而言，我们的贡献有四个方面：

我们引入了 PIXELRAG，这是第一个在网络规模上实现的端到端像素空间 RAG 系统，它直接操作于渲染的截图，绕过了 HTML 到文本的解析。这简化了流水线，保留了视觉线索，并避免了信息丢失。
我们开发了一个可扩展的流水线，用于从网络构建基于截图的语料库，以及一个通过合成问答对和难负例在截图数据上训练的视觉嵌入模型。
我们展示了在网络数据上的像素空间检索能够在各种基准测试中持续优于基于文本的基线，包括那些被深入研究的以文本为中心的基准（如 NQ, SimpleQA）。
我们通过图像压缩确定了一个新的效率维度，实现了高达 3 倍的令牌成本降低。这些增益表明，随着多模态模型的不断改进，正在向像素空间 RAG 发生转变。

2 相关工作与动机

检索增强生成（RAG）。 RAG 操作于大规模文本文档语料库，使用检索模型识别相关文本，并使用阅读器模型生成有根据的答案[3, 1, 2]，为搜索增强型智能体[5, 36]和深度研究系统[37]提供动力。在开放域环境中，这些语料库主要来源于网络，包括维基百科等知识来源。

尽管依赖网络数据，大多数先前的工作假设干净文本文档是现成可用的，在很大程度上抽象掉了将原始网页转换为最终供检索和阅读模型使用的文本表示的上游 HTML 到文本解析步骤。

来自网络数据的文本解析。 因此，基于网络的文本 RAG 依赖于 HTML 到文本解析器作为构建可检索文本语料库的标准预处理层。在大规模数据策划中，可靠的网络解析长期以来被认为是一个关键挑战[38, 11]：网页结构千差万别，将自然语言段落与表格、信息框、图形、图表和动态渲染内容交织在一起。当前的流水线通常依赖于启发式提取器，如 trafilatura [13]、resiliparse [39] 和 mparserfromhell [40]，或学习型解析器，如 ReaderLM [14] 和 Dripper [15]。

然而，即使是最先进的解析器也很脆弱且本质上有损，通常会丢弃视觉线索（如强调和布局）以及结构化内容，如表格、图表和图像。近期工作表明，仅解析器的选择就能显著影响下游性能[38, 11]：单个提取器可能丢弃超过 40% 的可恢复网页文本[10]。在 RAG 系统中也观察到了类似的影响，无论是在先前的工作[8]还是在我们自己的实验中（§5.2），在 SimpleQA 上，两种最强解析方法之间的差距导致了近 10% 的绝对差异。

用于文本丰富图像的视觉语言模型。 与此同时，最近的视觉语言模型（VLM）在理解以像素形式呈现的文本方面变得越来越强大，缩小了与纯文本输入模型的差距[41-43, 16]。同时，诸如 DeepSeek-OCR [34] 和 Glyph [35] 的系统表明，将文档以视觉方式表示有时可能比纯文本流水线更具令牌效率。总之，这些进展表明，直接将渲染的网页建模为图像可能是 HTML 到文本解析的一种有前途的替代方案。

视觉文档检索。 受这些进展的启发，越来越多的研究工作探索直接从文档的渲染视觉表示中检索文档[22, 44, 24]，主要是在从 PDF 和幻灯片构建的小规模、视觉丰富的基准测试上[45-47]。我们的工作受此方向启发，但目标是开放域网络检索——这可以说是现代 RAG 模型最主流的设置。与策划的文档集相比，网络语料库规模更大、更多样化，并且以嘈杂的、文本繁重的页面为主，而非策划的文档。

与我们最接近的先前工作是将视觉检索扩展到维基百科的近期尝试[23, 25]；然而，它们仍限于维基百科的一小部分，并侧重于检索而非端到端 RAG。相比之下，我们研究的是，即使是在 SimpleQA 和 NQ 等被深入研究的 RAG 基准测试上，全视觉 RAG 能否在大规模维基百科上直接取代基于文本的 RAG。

总结：为何采用基于像素的 RAG？ 总而言之，三个观察结果促使我们从基于文本的 RAG 转向基于像素的 RAG。

解析丢弃关键信息。 即使是最好的提取器也会剥离图像、图表和渲染布局，并扁平化或丢失表格和其他 2D 结构——这些内容通常包含答案（图 1；附录 D.2）。某些内容仅在渲染过程中具体化，任何 HTML 级别的提取器都对其不可见。
文本丢失视觉结构。 即使所有内容都被保留，将二维布局转换为一维令牌序列也会丢弃空间分组、字体层级和强调。网页被设计为以渲染后的成品形式被消费——这些视觉线索帮助读者定位信息，剥离它们会使检索更难区分包含答案的区域和周围的文本。如§5.2 和附录 D.3 所示，文本检索经常浮现主题相关但不含信息的段落，而基于像素的检索则直接定位答案。
VLM 的进展越来越有利于基于像素的 RAG。 现代 VLM 变得日益强大和高效，在表格和信息框等结构丰富的内容上已经超越了纯文本模型，使得基于像素的检索越来越实用和有效。

3 PIXELRAG

我们提出 PIXELRAG，一个完全在像素空间操作的、基于网络数据的端到端检索与生成流水线（图 1）。PIXELRAG 包含三个阶段：数据收集（§3.1）将网页渲染为截图并将其分割为固定大小的图块；索引构建（§3.2）将每个图块编码为视觉嵌入，并构建近似最近邻索引；运行时检索与生成（§3.3）为查询检索前 K 个图块，并将其馈送给视觉语言阅读器，该阅读器直接根据像素生成答案。我们以完整的维基百科作为运行示例来实例化 PIXELRAG。维基百科是网络知识的典范语料库，也是大多数广泛使用的基于文本的 RAG 流水线和基准测试的基础，因此在像素空间中构建相同的数据库能够直接与基于文本的 RAG 在同一底层语料库上进行对比。据我们所知，PIXELRAG 是第一个在像素空间操作完整 700 万篇文章维基百科语料库的系统。该流水线与数据存储无关：§5.2 将相同的阶段应用于包含 668K 篇文章的新闻语料库。

3.1 数据收集

挑战。 在基于文本的检索中，构建数据存储是研究得比较透彻的：下载 HTML 文件并将其解析为纯文本。对于基于像素的 RAG，如何构建数据存储则不太明确。一种朴素的方法是在浏览器实例中打开每个网页并截取屏幕截图；然而，这无法扩展到数百万个页面（例如，处理所有 700 万篇文章大约需要 30 天）。这之所以慢有两个原因：（a）在线获取所有网页资源占主导地位的挂钟时间（大量的网络 I/O），以及（b）浏览器并非为高吞吐量渲染而设计，限制了并发性，并导致频繁的重试和停滞。相反，我们将获取与渲染解耦：首先将所有源获取到本地镜像，然后完全离线渲染和切片。这使得流水线具有可扩展性、可重现性和容错性。

获取。 首先将每个语料库实体化为本地镜像。对于维基百科，所有资源（HTML、CSS 和图像）都从预构建的 KiwiX ZIM 压缩包中提取；对于新闻语料库，一个异步爬虫通过在不同域名上进行并行爬取来获取它们。一旦缓存完成，渲染将完全离线进行，使得重试无成本，实验可重现。每个来源的详细内容见附录 A.2。

渲染。 使用 Playwright（无头 Chromium）渲染每个缓存的页面。我们剥离非内容元素（导航栏、侧边栏、周围空白；见附录 A.1）以生成干净、仅包含内容的截图。超过浏览器单次截图视口的页面通过滚动捕获，因此覆盖范围与页面长度无关。

切片。 我们将视口宽度固定为 875 像素（维基百科的默认内容宽度），并将每张完整页面截图分割为不重叠的、高度为 1024 像素的图块（最后一个图块可能较短）。这为维基百科（700 万篇文章）生成了约 3000 万个图块，为新闻语料库（668K 篇文章）生成了约 360 万个图块。

3.2 索引构建

嵌入。 PDF 检索方面的相关工作（§2）主要依赖于后期交互多向量模型，如 ColPali、ColQwen [22] 和 Nemotron ColEmbed [44]，这些模型被认为对于捕捉文档图像中的细粒度信息至关重要。然而，在我们的设置中，存在一个关键差异：规模。我们的数据存储包含 3000 万个图块，远远超出了先前视觉检索工作的规模（例如，几千页 [22, 47]），使得多向量检索在计算上难以承受：每个 875×1024 像素的图块会发出约 875 个视觉令牌，每个令牌 128 维（每个图块约 112K 维），这将使包含 3000 万图块的索引膨胀到 fp16 格式下约 6.5 TB，远超单机内存容量。因此，我们采用单向量检索：每个图块一个 2048 维向量，使整个索引在 fp16 格式下保持在约 120 GB，可在单机上管理。我们的结果（§5）表明，使用最先进的视觉嵌入模型的单向量检索已经足够具有竞争力。这里我们使用现成的 Qwen3-VL-Embedding-2B [28] 及其微调变体（§4）。

索引。 对于数千万级别的向量，精确搜索不可行；我们使用 FAISS IVF 索引 [48] 进行近似最近邻搜索，该索引构建速度快，并支持高效的向量添加和删除，从而实现增量更新（例如，每日摄入新的新闻文章或刷新维基百科快照），而无需完全重新索引。

完整的离线流水线在单台机器（128 个 CPU 核心，2 TB 内存，8 块 H100 GPU）上大约需要 2 天时间完成包含 700 万篇文章的维基百科处理。

3.3 运行时检索与生成

在查询时，使用相同的嵌入模型对查询进行嵌入，通过内积相似度检索前 K 个图块，视觉语言阅读器直接从检索到的像素和查询中生成答案（提示模板见附录 F）。质量-成本权衡受以下因素支配：（1）检索到的图块数量 K：增加 K 为阅读器提供更多证据，但每个查询的视觉令牌成本更高。（2）渲染分辨率：每个图块原始大小为 875×1024 像素，但在馈送给阅读器之前可以缩小（例如，缩小到 437×512）；由于常见的开源 VLM 支持动态分辨率，视觉令牌数量与像素数量成比例缩放，从而实现约 4 倍的令牌减少 [16]。我们在 §5 中研究这两种权衡。

4 嵌入模型对比学习流水线

给定一个截图数据存储，我们希望对视觉嵌入模型进行微调，使其适应此数据存储，从而提高基础模型的检索准确性。我们在 §4.1 中描述合成对比数据生成的配方，并在 §4.2 中描述训练过程。

4.1 合成对比数据生成与动态难负例挖掘

我们的目标是策划一个对比训练集，包含 (q, p, {n⁻}) 三元组，其中 q 是一个以页面 p 的视觉内容为基础的问题，每个 n⁻ 是一个与 p 共享页面结构和主题但无法回答 q 的难负例。我们不使用外部标记数据：整个训练集都从数据存储中合成，仅使用 LLM 作为标注器。注意，§5 中的下游基准测试是分布外的：嵌入模型在训练期间既未见过它们的查询，也未见过它们的标签。

阶段 1：合成查询生成。 我们首先过滤掉信息稀疏的页面，如列表页面和消歧义页面，仅保留通过轻量级信息密度启发式规则的图块（完整方法见附录 A.3.1）。给定一个采样的图块 p，我们提示 LLM 生成一个自然语言查询 q，其答案存在于 p 中（提示见附录 A.3.2）。然后，我们应用一个两部分过滤器：（1）一个自包含性检查，丢弃那些隐含引用源页面的查询（例如，“...在截图中列出？”）；（2）一个可回答性检查，重新提示 LLM 仅从 p 回答 q，并且只有在回答正确时才保留该配对（提示见附录 A.3.3, A.3.5）。

阶段 2：带有假负例过滤的动态难负例挖掘。 给定来自阶段 1 的 (q, p) 配对，我们使用基础嵌入模型 [29] 为 q 检索前 K 个图块，并将除 p 之外的所有图块视为难负例候选。

查询：“1972年不败之师”是哪一年入选迈阿密海豚队荣誉戒指的？

图 2：带有假负例过滤的难负例挖掘。LLM 能够从正例图块（左，保留）和第二个图块（中，作为假负例丢弃）中正确回答查询，但无法从主题相邻的页面（右，作为难负例保留）中回答。

然而，相同的知识通常出现在多个页面中；因此，一个前 K 近邻也可能回答 q，使其成为一个假负例，在 InfoNCE 目标下会惩罚正确的检索。

我们使用基于 LLM 的假负例过滤器来解决这个问题。对于每个前 K 候选图块（排除 p），我们提示 LLM 仅从候选图块回答 q，并将响应判断为 CORRECT、WRONG 或 CANNOT_ANSWER（提示见附录 A.3.4）。被判断为 CORRECT 的候选图块是假负例并被丢弃；其余的保留作为难负例。我们为每个查询保留前 M 个存活的候选图块（M = 2）；图 2 展示了一个完整的示例。该流水线使用强大的 LLM 将干净的监督信号蒸馏到嵌入模型中，从而在没有人工标签的情况下提高检索性能。

4.2 训练方法

对比训练损失。 我们使用 InfoNCE 损失 [49] 在挖掘到的三元组和批次内负例上微调视觉嵌入模型。对于一个包含 B 个三元组 {(qᵢ, pᵢ, {nᵢⱼ}ⱼ₌₁ᴹ)}ᵢ₌₁ᴮ 的小批量，其中 sin(·, ·) 是余弦相似度，τ 是温度参数（完整训练配置见附录 A.3.6）。

带 ViT 解冻的 LoRA 微调。 先前的视觉检索器训练，如 ColPali [22] 和 Swift [50]，仅在 LLM 主干上应用 LoRA，因为将 LoRA 添加到 ViT 会降低在文档图像上的性能。我们观察到相反的情况：我们将 LoRA 同时应用于 LLM 主干和 ViT，并发现这在渲染的网页截图上带来了一致的提升（表 4）。我们假设视觉上近乎重复的网页图块需要更强的视觉辨别能力，尤其是在细粒度的渲染文本细节和表格结构方面，这得益于 ViT 的适应。

完整的训练在单块 H100 上不到 3 小时即可完成，增加了适度的成本。

5 评估

PIXELRAG 在六个基准测试（§5.2）上均优于所有基于文本的 RAG 基线。我们消融关键设计选择（§5.3），扩展到智能体搜索（§5.4），研究图像压缩作为成本调节旋钮（§5.5），并展示性能随 VLM 能力的提升而扩展（§5.6）。

表 1：Recall@3 和端到端 QA 准确率。竖线分隔使用维基百科语料库（左）和新闻语料库（右）的基准测试。mwparserfromhell 是维基百科专用的；MMSearch 缺少黄金文章，因此召回率标记为 -。

5.1 实验设置

基准测试。 我们在两个语料库上评估三个任务家族。（1）以文本为中心的维基百科 QA 包括 NQ [30]、NQ-Tables [51] 和 SimpleQA [31]，这些是被广泛研究的基准，其问题主要可以从文本内容中回答。（2）多模态维基百科 QA 包括 MMSearch [33] 和 Encyclopedic VQA [52]，包含图像为基础的问题。（3）新闻 VQA 包括 LiveVQA [32]，它测试超出维基百科的泛化能力，迁移到一个更嘈杂、更多样化的新闻语料库。前五个基准查询维基百科数据存储（3000 万图块，§3.1）；LiveVQA 查询一个独立的新闻数据存储（360 万图块）。数据集大小和评估指标详见附录 B.1。

基线。 我们与无检索和两个基于文本的 RAG 基线进行比较，这两个基线仅在 HTML 到文本解析器上有所不同：Trafilatura [13]，一个通用提取器，在先前工作 [11, 15] 和我们自己对六种替代方案（附录 D.1）的比较中被评为最佳；以及 mwparserfromhell [40]，一个广泛使用的维基百科专用解析器 [53, 54]。文本索引使用 1024 令牌的块，与每图块约 875 个视觉令牌（§3.2）相匹配，使用相同的嵌入模型 [28] 和 FAISS [48] 索引。

配置。 除非另有说明，阅读器是 Qwen3.5-4B [55]，并接收 k=3 个检索项（文本块或截图图块）。PIXELRAG（基础）使用预训练的 Qwen3-VL-Embedding-2B [28] 进行检索；PIXELRAG 添加了来自 §4 的对比微调。Recall@k 衡量前 k 个检索项中是否有任何一个来自黄金文章（通过 URL 匹配）。

5.2 端到端问答结果

PIXELRAG 在所有六个基准测试（表 1）上都提高了端到端的 QA 准确率，最显著的是在以文本为中心的任务上，这些问题仅从文本即可回答。即使是 PIXELRAG（基础）在每个任务上都优于两个基于文本的基线，召回率提升高达 8.3%，准确率提升高达 4.5%。微调带来了额外的 5.3% 召回率提升和 5.0% 准确率提升。最大的改进出现在 NQ-Tables 上，回答问题需要表格和信息框等结构化内容。在多模态 VQA 基准测试上，差距进一步扩大。在 EVQA 上，文本检索相对于无检索几乎没有带来好处，表明检索到的文本块通常偏离目标。相比之下，PIXELRAG 在 EVQA 上将 QA 准确率提高了高达 18%，同时将检索召回率提高了超过 5 倍。这些提升表明，保留图像和布局使得嵌入模型能够直接将视觉查询与文章内容对齐。这种优势不仅限于维基百科：在我们的新闻语料库上的 LiveVQA 测试中，PIXELRAG（基础）比文本基线高出 11.3%，并且在没有领域特定训练的情况下，召回率提高了一倍多。在维基百科上训练得到的微调模型不能很好地迁移到新闻领域；跨领域的扩展训练留待未来工作。

变化 k 和阅读器模型。 我们在 SimpleQA 上变化 k∈{1, 2, 3} 和阅读器模型（图 3）。PIXELRAG 在所有配置下都始终优于文本检索：即使 PIXELRAG（基础）也击败了两个文本基线，微调进一步扩大了差距。在可比的令牌预算下，两个 PIXELRAG 图块在消耗更少令牌的同时，匹配或超过了三个文本块，因为单个图块比一个 1024 令牌的文本块包含更密集的证据 [34]。优势随着更强的阅读器而增长：在 k=2 时，PIXELRAG 在 Qwen3.6-35B-A3B 上领先 Trafilatura 9.4%，而在 Qwen3.5-4B 上领先 8.1%。

图 3：四种阅读器模型下 SimpleQA 准确率 vs. 平均输入令牌数 (k∈{1,2,3})

表 2：按证据类型划分的 SimpleQA 准确率和证据召回率@3。缩写：T. = Trafilatura，M. = mwparserfromhell。

定性分析：按答案位置划分的 SimpleQA 准确率分解。 我们检查每种方法实际检索到的内容，使用证据召回率@3：答案所在的图块或块是否出现在阅读器的前 3 名中，按答案在页面上的位置进行细分（表 2；定义见附录 D.4）。总体而言，PIXELRAG 检索到包含答案的证据的频率比 Trafilatura 高 6%（83.8% 对 77.4%），这解释了端到端准确率差距的大部分。

优势集中在两种证据类型上。对于表格，解析器在线性化过程中经常丢失结构化内容，导致证据召回率@3 降至 23.8%（Trafilatura）和 5.0%（mwparserfromhell），而 PIXELRAG 为 34.8%。对于段落，差距甚至更大（+19.8%）：一旦线性化，关键词密集的信息框文本与关于该文章的任何事实性查询重叠，将包含答案的段落挤出前 3 名；视觉嵌入模型则不受影响，因为信息框具有视觉上独特的带边框侧边栏布局。切换到 mwparserfromhell 使总体准确率差距进一步扩大了 10.9%，证实了优势并非特定于某个解析器。

基于文本的检索表现出三种不同的失败模式（附录 D.4）。解析器损失（36.6%）：线性化破坏了表格等 2D 结构，将答案从文本语料库中完全删除；例如，一个比赛统计数据表被扁平化为空的分隔符字符，没有留下保留其单元格值的块（图 10）。排序损失（55.2%）：包含答案的文本存在于语料库中，但排名在阅读器的前 3 名之外。文本检索中一个常见的模式是信息框位移：线性化的信息框产生关键词密集但与答案无关的文本，该文本与关于该实体的任何事实性查询匹配，占据第 1 名，而答案段落则落到第 60 名以后。PIXELRAG 受此影响较小，因为其视觉编码器能够区分信息框的带边框侧边栏布局和正文文本（图 11–12）。阅读器损失（8.2%）：即使证据进入前 3 名，表格和列表的线性化也会折叠阅读器所需的行和层级分组；例如，一个多年的荣誉列表，一旦扁平化就会丢失其年份标题，导致阅读器将条目归因于错误的年份（图 13）。

5.3 消融研究

检索和阅读器输入模态消融。 为了厘清检索模态和阅读器输入格式的贡献，我们将嵌入模型固定为 Qwen3-VL-Embedding-2B，然后仅在这两个因素上变化五种配置（表 3）：（1）截图 → 截图（PIXELRAG（基础））；（2）截图 → OCR 文本；（3）文本 → 渲染图像；（4）文本 → 文本

表 3：检索-阅读器模态消融。

表 4：嵌入训练方法消融。我们使用动态难负例并解冻 ViT。

（标准基于文本的 RAG）；以及（5）文本 → HTML。检索和阅读器输入格式都有贡献，但检索是更大的因素（表 3）。截图检索始终更好：前两行总是优于文本检索变体，并且截图 → OCR 在两个基准测试上都优于文本 → 文本，表明即使在阅读器仅看到文本的情况下，视觉检索也能提高下游准确率。我们还测试了向阅读器提供原始 HTML 以保留表格和列表结构（文本 → HTML），但它在两个基准测试上的表现都不如纯文本：HTML 标记将上下文膨胀了 3.8 倍，消耗了阅读器的令牌预算在标签上而非证据上（附录 D.5）。直接索引和阅读原始 HTML 的表现也不佳，准确率下降了高达 29%（附录 D.6）。

检索器训练方法消融。 我们通过改变负例策展策略和 ViT 训练模式（§4）来消融视觉嵌入训练方法（表 4；设置见附录 A.4）。仅使用批次内负例的表现略低于基础模型。朴素难负例（来自基础嵌入模型的排名靠前的非正例段落）相比批次内负例有所改进，但引入了来自假负例的噪声监督；动态难负例挖掘（§4）过滤了这些，贡献了最大的单次跃升（+4.7%）。最后，与先前在文档检索方面的工作 [22] 不同，通过 LoRA 解冻 ViT 进一步改善了结果：渲染的网页在视觉上比 PDF 或幻灯片更同质，需要比冻结主干更精细的视觉辨别能力。

5.4 使用 PIXELRAG 的智能体搜索

我们在 MoNaCo [56] 上评估 PIXELRAG 作为 GPT-5 ReAct 智能体的搜索后端，这是一个多跳维基百科 QA 基准（设置见附录 B.1）。PIXELRAG 以最低的成本实现了最高的 F1（图 4），优于文本块检索、Google [57] 和 DS-Serve [58]，同时成本低 2-4 倍。我们报告令牌级别的 F1，这是 MoNaCo 的官方指标，因为答案通常是多值列表，部分正确应给予相应分数。由于截图图块每次检索步骤包含的信息比文本块更多，智能体需要的搜索次数更少，积累的对话历史也更少：提示令牌为 360 万，而文本检索为 3750 万（减少了 10 倍）。

5.5 图像压缩以节省视觉令牌

在 RAG 系统中，预填充检索到的上下文主导推理成本，减少上下文长度直接降低延迟和费用。像素输入暴露了文本无法提供的压缩调节旋钮：图像分辨率。通过 Lanczos 重采样 [59] 降低图块分辨率，会成比例地减少令牌数量通过 VLM 动态分辨率 [16]，无需更改数据存储或检索器：c 倍压缩将每边缩放 1/√c。为了在较低分辨率下保持准确率，我们在压缩图块上微调阅读器（Qwen3-VL-4B）。训练数据的构建无需额外标注成本，通过重用来自嵌入流水线（§4.1）的 (q, p, a) 三元组，并增加检索到的干扰图块来模拟推理场景（训练细节见附录 A.5）。在 2 倍压缩下，微调后的阅读器几乎达到原生分辨率的准确率，同时令牌减半（图 5）。将训练好的检索器与 2 倍压缩阅读器结合，在 k=3 时达到 72% 的准确率，超越了未压缩的 k=5 上限，而令牌成本仅为后者的三分之一。

5.6 PIXELRAG 性能随 VLM 能力扩展

VLM 阅读能力的进步是推动 PIXELRAG 性能的关键因素（表 5）。早期的 VLM 在处理截图方面存在困难：Llama-3.2-Vision 和 Qwen2-VL 系列中的小型模型落后于文本检索超过 12.5%。从 Qwen3-VL-8B (▲) 开始，PIXELRAG 匹配或超越文本，优势最高达到 5.9%，这与 VLM 在理解像素中的文本方面变得越来越强大 [43] 是一致的。表 5 精确指出了像素检索首次匹配文本的交叉点，即 Qwen3-VL-4B (▲, 70.5% vs. 69.0%)：低于此能力阈值，模型无法可靠地读取像素中渲染的文本，文本检索占主导地位；而高于此阈值，我们测试的每个模型都偏向像素检索，对于 Qwen3.6-35B-A3B (◆)，差距扩大到 +4.6 个百分点。同时，连续的 VLM 代际将相同的图块编码为更少的输入令牌，因此像素检索的成本随着每个模型代际的更新而降低，而无需任何流水线更改（表 5）。这些趋势表明，PIXELRAG 的像素原生方法将继续受益于 VLM 的进步，只有阅读器是需要升级的组件——检索流水线和数据存储保持不变。

表 5：在 SimpleQA 上的阅读器模型扫掠。阴影：准确率、输入令牌数、输出令牌数。

6 结论

基于网络数据的 RAG 对于将 LLM 扎根于现实至关重要，然而从各种网页中提取干净的文本仍然是一个持续的挑战。PIXELRAG 通过直接对渲染后的截图执行检索和生成来规避这个问题，流水线中无需 HTML 解析或文本提取。我们将这种方法扩展到超过 3000 万个图块，覆盖了整个维基百科，并表明这种像素原生的流水线即使在不需要视觉推理的以文本为中心的基准测试上也优于基于文本的 RAG。这种优势随着 VLM 的进步而增长：更新的模型以更少的令牌实现了更高的准确率，并且图像压缩提供了高达 3 倍的令牌减少，使得 PIXELRAG 随着每一代模型的更新变得越来越实用。

标签

#PIXELRAG #网页截图胜过文本 #RAG #检索增强生成 #Retrieval