构建可验证的Websearch AI代理：四层架构实战指南

原创于 2026-06-12 16:36:31 发布 · 536 阅读

9 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#Websearch Agent #Google搜索解析 #Query重写

1. 项目概述：让AI代理真正“会查资料”，而不是靠猜

“How to Build Agents With Websearch Capabilities”——这个标题乍看是技术教程，但背后藏着一个被很多人低估的现实痛点：当前绝大多数所谓“智能代理”其实是个“闭门造车的秀才”。它手头只有训练时见过的旧知识，面对2024年6月刚发布的iPhone 16工程样机参数、昨天央行刚调整的LPR报价、甚至你公司内部上周才更新的销售SOP文档，它要么胡编乱造，要么直接认怂说“我无法回答”。而真正能调用实时网络搜索能力的Agent，才具备了“活”的底色。我过去三年带团队落地过17个生产级Agent项目，其中12个在上线首周就因“答非所问”被业务方叫停，复盘下来，90%的问题根源不在大模型本身，而在搜索能力没嵌对、没嵌稳、没嵌活。这篇文章不讲空泛概念，只拆解我在真实项目中反复验证过的四层架构： 搜索意图识别是否精准、查询语句生成是否抗噪、结果筛选是否懂业务语义、信息整合是否规避幻觉 。你会看到，为什么简单套用 serpapi 或 duckduckgo-search 包往往失败；为什么我们坚持用“双阶段重写+领域词典约束”生成搜索Query；为什么必须把Google搜索结果的 <cite> 标签和 <span class="st"> 摘要段落当作结构化数据来解析；以及最关键的——如何用不到20行Python代码，在不依赖任何商业API的前提下，让Agent在3秒内完成一次高相关性搜索并输出可验证的答案。适合正在搭建客服助手、投研分析工具、跨境电商选品Agent的工程师，也适合想亲手验证“AI到底能不能真的上网查资料”的技术爱好者。你不需要有搜索算法背景，但得愿意跟着我把每一个HTTP请求头、每一条正则表达式、每一次重试逻辑都掰开揉碎。

2. 核心设计思路：为什么不能直接把“搜索”当黑盒塞进Agent流程

2.1 传统方案的三大致命缺陷

很多团队第一步就想当然地走捷径：找一个现成的搜索封装库，比如 langchain-community 里的 TavilySearchResults ，或者直接调用 googlesearch-python ，然后把返回的URL列表丢给大模型去“总结”。我在2023年Q3做过一次横向压测，对比了5种主流搜索接入方式在1000个真实业务问题上的表现，结果触目惊心：

接入方式	平均响应延迟	搜索结果相关率	答案可验证率	首次命中正确答案率
直接调用 `googlesearch-python` （无重试）	1.8s	42%	28%	19%
`TavilySearchResults` （默认配置）	3.2s	67%	51%	33%
`SerpAPI` （Google引擎）	2.4s	79%	68%	47%
自研“双阶段Query重写+结果清洗”	1.3s	92%	86%	74%
自研方案+人工标注反馈闭环	1.5s	96%	93%	81%

提示：所谓“答案可验证率”，指用户能通过点击搜索结果中的原始网页链接，10秒内找到Agent所引用的具体句子或数据。这是判断Agent是否真在“查资料”而非“编故事”的黄金标准。

问题出在哪？根本原因在于把搜索当成了一个静态的、一次性的I/O操作，而忽略了它本质是一个 动态博弈过程 ：搜索引擎在反爬、用户在改需求、网页在变结构、大模型在理解歧义。具体来说，有三个硬伤：

第一， Query生成失焦 。当用户问“特斯拉Model Y最近三个月在中国的销量变化趋势”，大模型直接输出的搜索词往往是“Tesla Model Y sales China”，这漏掉了关键时间限定“last 3 months”和数据类型“trend”。更糟的是，它可能把“China”错误泛化为“Chinese market”，导致搜到大量英文媒体对中国市场的分析，而非中国本土机构发布的原始销量数据。我们实测发现，未经干预的LLM生成Query，约38%存在时间/地域/主体范围错位。

第二， 结果解析粗暴 。多数方案拿到搜索结果后，直接提取所有 <a href> 链接或 <div class="g"> 里的文本块，再拼成一段长文本喂给大模型。但Google搜索结果页里， <h3 class="LC20lb DKV0Md"> 是标题， <div class="VwiC3b yXK7lf MUxGbd yDYNvb lyLwlc lEBKkf"> 是摘要， <cite> 是来源域名——这些HTML标签本身就是强语义信号。忽略它们，等于让Agent戴着墨镜读报纸。

第三， 缺乏可信度锚点 。用户问“华为Mate 60 Pro的卫星通话功能是否支持国际漫游”，如果Agent回答“支持”，但没注明信息来自华为官网2023年9月发布会PPT第12页，这个答案就毫无价值。真正的Websearch Agent必须把“证据链”刻进DNA：哪个URL、哪段HTML、哪个CSS选择器定位的内容，全部可追溯。

2.2 我们采用的四层解耦架构

基于上述教训，我们在2023年底重构了整个搜索模块，形成清晰的四层流水线，每一层都可独立测试、替换、监控：

第一层：意图-Query映射引擎（Intent-to-Query Mapper）
这不是简单的关键词提取，而是构建一个轻量级规则+小模型混合系统。规则部分处理确定性模式，比如检测到“最近N天/周/月”，强制注入 after:2024-05-01 这样的Google高级语法；小模型部分（我们用的是微调后的Phi-3-mini）专门解决歧义，例如当用户说“苹果手机”，需根据上下文判断是指Apple Inc.还是水果，再决定搜索词是 "Apple iPhone" site:apple.com 还是 "apple fruit nutrition facts" 。

第二层：抗扰动搜索执行器（Robust Search Executor）
核心是三重保障：① 请求头指纹模拟（User-Agent、Accept-Language、Referer全按真实Chrome 124最新版构造）；② 动态IP池轮询（我们自建了23个住宅代理节点，按域名热度分配请求）；③ 结果健康度校验（检查返回HTML是否含 <title> 、 <div id="main"> 等关键节点，低于阈值自动切换引擎）。

第三层：结构化结果抽取器（Structured Result Extractor）
放弃正则硬匹配，改用CSS选择器组合： div.g h3.LC20lb 取标题， div.g div.VwiC3b 取摘要， div.g cite 取来源。特别重要的是，我们把每个搜索结果的 data-ved 属性值（Google的唯一结果ID）作为哈希键存入Redis，30分钟内相同Query直接返回缓存结果，既降延迟又减反爬压力。

第四层：证据感知合成器（Evidence-Aware Synthesizer）
大模型不再接收原始文本，而是接收JSON格式的结构化输入：

{
  "query": "华为 Mate 60 Pro 卫星通话 国际漫游",
  "results": [
    {
      "title": "华为Mate 60 Pro卫星通信功能详解 - 官方商城",
      "url": "https://www.huawei.com/cn/mate60pro/satellite",
      "snippet": "支持北斗卫星消息发送，覆盖中国大陆及周边海域。国际漫游功能将于2024年Q3通过OTA升级开放。",
      "source_domain": "huawei.com",
      "confidence_score": 0.94,
      "evidence_path": "div#content > section:nth-child(3) > p:nth-child(2)"
    }
  ]
}

大模型提示词明确要求：“仅基于results数组中提供的snippet内容作答，若某条结果的confidence_score<0.8，不得引用其内容；每个事实陈述后必须用[1]标注对应结果序号”。

这套架构让搜索不再是Agent的“附属功能”，而成为与LLM推理平级的核心能力单元。它不追求“搜得快”，而追求“搜得准、证得实、答得稳”。

3. 实操细节拆解：从零搭建可验证的Websearch Agent

3.1 工具链选型：为什么放弃SerpAPI，选择自建爬虫

很多团队听到“自建爬虫”就皱眉，觉得反爬复杂、维护成本高。但我们的测算很现实：一个日均10万次搜索请求的Agent服务，用SerpAPI按$0.005/次计费，月成本1.5万美元；而自建方案，硬件成本（3台16GB内存云服务器）+带宽成本+代理池续费，月均不到$800。更重要的是可控性——当Google突然调整DOM结构，SerpAPI SDK可能要等3天才能发补丁，而我们的CSS选择器可以在15分钟内热更新。

我们最终选定的技术栈是： Playwright + Python + Redis + Nginx反向代理 。Playwright不是因为“新潮”，而是它原生支持真实的浏览器上下文：可以启用JavaScript渲染、处理 <iframe> 嵌套、模拟鼠标滚动触发懒加载。这解决了传统 requests+BeautifulSoup 无法获取动态加载内容的硬伤。

安装与基础配置只需4步：

# 1. 创建隔离环境
python -m venv search_env
source search_env/bin/activate  # Linux/Mac
# search_env\Scripts\activate  # Windows

# 2. 安装核心依赖（注意playwright版本锁定）
pip install playwright==1.42.0 redis==4.6.0 beautifulsoup4==4.12.2

# 3. 下载Chromium浏览器（Playwright自动管理）
playwright install chromium

# 4. 启动Redis（用于结果缓存）
redis-server --port 6380

注意：Playwright 1.42.0是经过我们3个月压测验证的最稳定版本。更高版本在处理Google搜索页的 <g-scrolling-carousel> 组件时偶发超时，更低版本则不支持最新的 user_agent 指纹模拟参数。

关键配置文件 config.py 定义了反爬策略基线：

SEARCH_CONFIG = {
    "timeout": 15000,  # 毫秒级超时，避免单次请求拖垮整条流水线
    "max_retries": 3,  # 同一Query最多重试3次，每次换不同代理IP
    "concurrent_limit": 8,  # 单实例并发请求数，防被限流
    "user_agents": [
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"
    ],
    "proxy_pool": ["http://user:pass@ip1:port", "http://user:pass@ip2:port"]  # 住宅代理列表
}

这里有个血泪经验： 永远不要在Playwright中使用 page.wait_for_timeout() 。它会让整个事件循环阻塞，导致并发能力归零。正确的做法是 page.wait_for_selector("div#main", timeout=10000) ，等待特定DOM节点出现，这才是异步友好的写法。

3.2 Query重写引擎：让Agent学会“怎么问才问得准”

Query质量直接决定搜索天花板。我们开发了一个轻量级重写模块，不依赖外部API，纯本地运行，代码不足120行，却解决了87%的常见歧义。

核心逻辑分三步：

Step 1：实体与限定词识别
用spaCy加载 zh_core_web_sm 模型（中文场景），但只用其NER能力，不跑完整pipeline以保速度：

import spacy
nlp = spacy.load("zh_core_web_sm")
def extract_entities(query):
    doc = nlp(query)
    entities = {"PRODUCT": [], "TIME": [], "LOCATION": [], "FEATURE": []}
    for ent in doc.ents:
        if ent.label_ in entities:
            entities[ent.label_].append(ent.text)
    return entities
# 示例：query="iPhone 15 Pro最近一周在深圳的维修点"
# 输出：{"PRODUCT": ["iPhone 15 Pro"], "TIME": ["最近一周"], "LOCATION": ["深圳"], "FEATURE": ["维修点"]}

Step 2：Google高级语法注入
根据识别结果，动态拼接搜索语法。重点处理三类高频场景：

时间限定：将“最近N天”转为 after:YYYY-MM-DD ，利用 datetime 计算起始日期；
地域限定：将“深圳”转为 site:sz.gov.cn OR site:shenzhen.gov.cn （政府站权威性高），同时排除 forum. 、 blog. 等低信源域名；
主体限定：对品牌词如“华为”，强制添加 site:huawei.com ，但用 OR 连接其他可信源如 site:36kr.com （科技媒体）。

Step 3：噪声过滤与长度截断
Google对Query长度敏感，超过32字符相关性骤降。我们用TF-IDF计算词权重，保留Top5高权词，丢弃停用词和模糊修饰词（如“大概”、“可能”、“据说”）。最终生成的Query示例：

原始输入："听说小米SU7的电池续航好像不太行，有没有最近的实测数据？"
重写后："小米SU7 电池 续航 实测 site:youku.com OR site:bilibili.com after:2024-04-01"

这个模块部署后，Query相关率从61%提升至89%，且完全离线运行，无额外API调用成本。它证明了一个朴素道理：在搜索这件事上，规则比大模型更可靠、更可控。

3.3 结构化结果抽取：把HTML变成可编程的JSON

Google搜索结果页的HTML结构看似混乱，实则有迹可循。我们花了两周时间人工标注了2000个真实搜索结果页，归纳出最稳定的CSS选择器路径：

元素类型	推荐CSS选择器	稳定性说明	备用方案
标题	`div.g h3.LC20lb`	Google近3年未变更此class名	`div.g > div > div > div > div > div > h3` （过于冗长，不推荐）
摘要	`div.g div.VwiC3b`	`VwiC3b` 是Google专用样式名，极难被第三方复用	`div.g .IsZvec` （仅部分结果存在）
来源域名	`div.g cite`	`<cite>` 标签语义明确，几乎不会被误用	`div.g a[href]` （可能抓到广告链接）
结果链接	`div.g a[href^="http"]`	`^=` 确保只取真实跳转链接	`div.g a[data-ved]` （data-ved属性更稳定）

抽取代码的核心是 playwright.sync_api.sync_playwright 的同步上下文，避免异步回调的复杂性：

from playwright.sync_api import sync_playwright
import re

def parse_google_results(html_content):
    with sync_playwright() as p:
        browser = p.chromium.launch(headless=True)
        page = browser.new_page()
        page.set_content(html_content)  # 直接加载HTML字符串，不发起网络请求
        
        results = []
        # 定位所有结果区块
        g_blocks = page.query_selector_all("div.g")
        
        for i, block in enumerate(g_blocks[:10]):  # 只取前10条，保证速度
            try:
                title_elem = block.query_selector("h3.LC20lb")
                title = title_elem.inner_text() if title_elem else ""
                
                snippet_elem = block.query_selector("div.VwiC3b")
                snippet = snippet_elem.inner_text() if snippet_elem else ""
                
                cite_elem = block.query_selector("cite")
                source = cite_elem.inner_text() if cite_elem else ""
                
                link_elem = block.query_selector("a[href^='http']")
                url = link_elem.get_attribute("href") if link_elem else ""
                
                # 计算置信度：标题含关键词+摘要含数字+来源为权威域名
                confidence = 0.5
                if any(kw in title for kw in ["实测", "数据", "报告"]):
                    confidence += 0.2
                if re.search(r"\d+\.*\d*%", snippet) or re.search(r"\d+km", snippet):
                    confidence += 0.2
                if "gov.cn" in source or "edu.cn" in source:
                    confidence += 0.1
                
                results.append({
                    "title": title.strip(),
                    "url": url,
                    "snippet": snippet.strip(),
                    "source_domain": source.split(" ")[0] if source else "",
                    "confidence_score": min(confidence, 0.95),
                    "rank": i + 1
                })
            except Exception as e:
                continue  # 单条解析失败不影响整体
        
        browser.close()
        return results

实操心得： page.set_content() 比 page.goto() 快5倍以上，因为它跳过了DNS解析、SSL握手、资源下载全过程。我们把搜索结果HTML保存为本地文件，先用 curl -s "https://www.google.com/search?q=test" > google_test.html 抓取样本，再在本地反复调试选择器，效率极高。

3.4 证据链合成：让Agent的回答自带“参考文献”

最后一步是让大模型学会“引经据典”。我们不用复杂的RAG框架，而是用最朴实的Prompt Engineering+结构化输入。

关键提示词模板（已脱敏，保留核心逻辑）：

你是一个严谨的技术助理，必须严格遵循以下规则：
1. 所有答案必须且只能基于下方"results"数组中的"snippet"字段内容生成；
2. 若某条结果的"confidence_score" < 0.8，则禁止引用其任何信息；
3. 每个事实性陈述后，必须用方括号标注来源序号，如[1]、[2]；
4. 若results为空或所有confidence_score均<0.8，必须回答"未找到可信信息，请尝试更具体的搜索词"；
5. 禁止使用"可能"、"大概"、"据说"等模糊词汇；
6. 若答案涉及数据对比，必须同时列出两个数据的来源序号，如"华为Mate 60 Pro续航为5000mAh[1]，iPhone 15 Pro为3274mAh[2]"。

当前搜索Query：{query}
搜索结果：
{json.dumps(results, ensure_ascii=False, indent=2)}

这个Prompt在Qwen2-7B-Instruct模型上实测准确率达91.3%。更妙的是，它天然支持“溯源验证”——用户点击答案末尾的[1]，前端JS直接跳转到 results[0]["url"] ，实现答案与源头的毫秒级穿透。

我们还加了一个小技巧：在Agent返回答案前，用正则提取所有 [数字] 标记，反向校验是否每个标记都对应 results 中真实存在的索引。若出现 [5] 但 results 只有4条，则自动触发重搜，避免“幻觉引用”。

4. 常见问题与实战排障：那些文档里不会写的坑

4.1 “为什么我的Playwright总是被Google识别为机器人？”

这是最高频问题。我们整理了12种真实触发Google反爬的场景，并给出对应解法：

触发场景	表现现象	根本原因	解决方案	验证方法
User-Agent单一	返回“您的计算机网络存在异常活动”	Google记录了UA指纹，单一UA高频访问即封	在 `SEARCH_CONFIG["user_agents"]` 中预置5个不同UA，每次请求随机选取	用 `curl -H "User-Agent: UA1" https://www.google.com` 测试，再换UA2，观察响应头 `X-Frame-Options` 是否变化
缺少Accept-Language	搜索结果全是英文，即使Query是中文	Google根据请求头语言决定返回结果语言	强制添加 `page.set_extra_http_headers({"Accept-Language": "zh-CN,zh;q=0.9"})`	抓包检查请求头是否包含该字段
无Referer头	页面加载后无搜索结果，只显示空白 `<div id="main">`	Google要求Referer为 `https://www.google.com/` 才能渲染结果	`page.goto("https://www.google.com", referer="https://www.google.com/")`	查看页面源码，确认 `<div id="main">` 内是否有 `<div class="g">` 子节点
未模拟鼠标滚动	只能获取前3条结果，后7条为空	Google搜索页用懒加载，需滚动触发	`page.mouse.wheel(0, 1000); page.wait_for_timeout(2000)`	滚动后执行 `page.query_selector_all("div.g")` ，数量应≥10
IP信誉过低	首次请求即返回验证码页	代理IP曾被用于恶意爬虫，信誉分清零	切换至住宅代理（Residential Proxy），或购买Google白名单IP	用同一IP访问 `https://httpbin.org/ip` ，再访问Google，对比IP是否一致

注意：绝对不要尝试用OCR识别验证码！Google的reCAPTCHA v3已不显示图形，而是后台行为分析。唯一合规解法是换IP或降低请求频率。

4.2 “搜索结果摘要里有乱码，比如‘华为Mate 60 Pro🔔’，怎么处理？”

这是HTML实体编码问题。Google为防XSS攻击，会把特殊符号转义。解决方案极其简单，在解析 inner_text() 后加一行解码：

import html
snippet = html.unescape(snippet_elem.inner_text())
# "华为Mate 60 Pro&#128276;" → "华为Mate 60 Pro📍"

但更深层的问题是： 为什么会出现大量乱码？ 我们发现83%的乱码案例源于 page.content() 返回的HTML编码与实际网页声明不一致。Google搜索页声明 <meta charset="UTF-8"> ，但某些代理服务器会错误转码为GBK。终极解法是在Playwright中强制指定编码：

# 获取HTML时指定编码
html_content = page.content()
# 转为bytes再decode，避免自动编码猜测失误
html_bytes = html_content.encode('latin-1')  # 先按latin-1无损转码
html_utf8 = html_bytes.decode('utf-8', errors='ignore')  # 再按UTF-8解码

4.3 “Agent回答越来越慢，从1秒涨到8秒，怎么定位？”

性能衰减通常有三个隐藏元凶：

元凶一：Redis缓存击穿
当某个热门Query（如“iPhone 15 发布会”）在缓存过期瞬间遭遇100并发请求，所有请求都会穿透到Playwright，造成雪崩。解法是加“逻辑过期”：

# 缓存时存两个值
redis_client.setex(f"search:{query_hash}", 3600, json.dumps(results))
redis_client.setex(f"lock:{query_hash}", 60, "1")  # 锁仅存60秒

# 查询时
cached = redis_client.get(f"search:{query_hash}")
if not cached:
    # 尝试获取锁
    if redis_client.set(f"lock:{query_hash}", "1", nx=True, ex=60):
        # 真正去搜索
        results = do_search(query)
        redis_client.setex(f"search:{query_hash}", 3600, json.dumps(results))
        redis_client.delete(f"lock:{query_hash}")
    else:
        # 等待1秒后重试，避免忙等
        time.sleep(1)
        return get_cached_or_search(query)

元凶二：Playwright浏览器实例泄漏
忘记 browser.close() 会导致内存持续增长。我们用 psutil 监控进程：

import psutil
def check_browser_leak():
    process = psutil.Process()
    mem_info = process.memory_info()
    if mem_info.rss > 2 * 1024 * 1024 * 1024:  # 超过2GB
        # 强制清理所有Playwright浏览器
        for proc in psutil.process_iter(['pid', 'name']):
            if 'chrome' in proc.info['name'].lower():
                proc.terminate()

元凶三：DNS解析阻塞
Playwright默认用系统DNS，若DNS服务器响应慢，整个请求卡住。解法是强制指定DNS：

# 启动Playwright时指定
browser = p.chromium.launch(
    headless=True,
    args=["--host-resolver-rules='MAP * ~NOTFOUND , EXCLUDE 127.0.0.1'"],
    env={"HOSTALIASES": "/etc/hosts"}  # 指向自建的高速DNS hosts文件
)

4.4 “如何评估我的Websearch Agent是否真的靠谱？”

别信准确率数字，要建立可验证的黄金测试集。我们团队的做法是：

构建100个真实问题 ：从客服工单、产品文档问答、技术论坛提问中采集，覆盖时间限定（“上个月”）、地域限定（“杭州西湖区”）、数据对比（“A和B哪个续航更强”）等场景；
人工标注标准答案 ：每道题由2名工程师独立搜索，交叉验证答案及来源URL；
自动化回归测试 ：每天凌晨用 pytest 跑一遍，输出三维度报告：
- 召回率 ：Agent返回的答案中，有多少比例能被人工标注的答案覆盖（要求≥85%）；
- 精确率 ：Agent答案中，有多少比例的事实能在标注来源中找到原文依据（要求≥90%）；
- 延迟P95 ：95%的请求响应时间≤1.8秒（要求≤2秒）。

测试脚本核心逻辑：

def test_agent_accuracy():
    for question in gold_questions:
        agent_answer = run_agent(question)
        # 提取答案中的所有[数字]标记
        citations = re.findall(r"\[(\d+)\]", agent_answer)
        # 检查每个标记是否指向有效URL，且URL中是否含答案关键词
        for cit in citations:
            idx = int(cit) - 1
            if idx < len(question.gold_results):
                url = question.gold_results[idx]["url"]
                # 用requests.head快速验证URL可访问
                assert requests.head(url, timeout=5).status_code == 200
                # 抓取URL首屏，检查是否含答案关键词
                text = requests.get(url, timeout=10).text[:5000]
                assert any(kw in text for kw in question.keywords)

这个测试集让我们在2024年Q1成功拦截了3次重大回归：一次是Google更新DOM导致 div.VwiC3b 失效，一次是代理IP池被批量封禁，一次是Redis缓存序列化bug。没有它，问题会直接暴露给用户。

5. 进阶扩展：从“能搜”到“会思考”的跃迁

5.1 搜索结果的主动验证：让Agent自己质疑答案

最高阶的能力，是Agent能判断“这个答案可信吗”。我们在基础架构上叠加了一层轻量验证模块：

时效性验证 ：解析摘要中的时间表述（如“2024年5月发布”），与当前日期比较，若超过90天则降权；
信源权威性验证 ：维护一个分级域名库（ gov.cn =0.95, edu.cn =0.9, 36kr.com =0.7, zhihu.com =0.5），按域名打分；
数据一致性验证 ：若多条结果对同一数值给出不同答案（如“续航5000mAh” vs “续航4800mAh”），启动差异分析，要求大模型说明分歧点。

这个模块让Agent在回答“华为P60的屏幕刷新率是多少”时，能主动指出：“[1]称120Hz，[2]称90Hz，差异源于[1]引用官网参数页，[2]引用第三方评测，建议以官网为准”。