从0实现工业级 RAG 智能客服：架构、核心代码、部署全拆解

原创于 2026-06-29 15:31:18 发布 · 43 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#数据库 #oracle #深度学习 #java #大模型

上周有个朋友找我吐槽：他用 LangChain 照着官方教程搭了个 RAG 客服，Dem)o 跑得挺溜，一上线就崩——用户问"我的订单怎么没发货"，它给人推荐了一篇《物流行业分析报告》。

Demo 和工业级之间，隔的不是代码量，是 7 层架构和一堆你根本想不到会踩的坑。

这篇文章不讲概念，直接拆：一个能扛住日均万次查询、准确率 90%+ 的 RAG 智能客服，架构怎么搭、核心代码怎么写、部署怎么搞。

一、架构篇：不只一个向量库加一个 LLM

先说一个反直觉的数据：73% 的企业 AI 项目已经在用 RAG，但其中 70% 的系统缺乏评估体系（Source 1/5）。这意味着大多数 RAG 系统在"盲飞"——你不知道它什么时候会胡说，也不知道胡说的时候有多离谱。

工业级 RAG 智能客服的完整架构是 7 层：

层级	职责	关键技术选型
接入层	接收用户消息，WebSocket/HTTP	FastAPI / Nginx 反向代理
安全层	身份验证 + 权限过滤	ABAC（基于属性的访问控制）
编排层	查询理解、改写、路由、上下文组装	LangGraph / LlamaIndex Workflows
嵌入层	查询与文档向量化	BGE-M3 / text-embedding-3-large
检索层	混合检索 + 重排序 + 元数据过滤	Qdrant/Milvus + BM25 + Cohere Rerank
生成层	基于检索上下文的答案生成	GPT-4o / Claude / DeepSeek-V3
监控层	质量评估、延迟追踪、成本监控	RAGAS / Langfuse / Arize Phoenix

关键判断：在检索层花的每一分精力，回报是生成层的 10 倍。检索质量决定了 LLM 的天花板，而不是反过来。

1.1 为什么不能只靠向量检索？

纯向量检索的问题在于：它会漏掉精准关键词匹配。用户问"错误码 E1003 怎么解决"，向量相似度可能把"E1005"排得比"E1003"更靠前——语义上它们确实相似（都是错误码），但用户要的是精确匹配。

工业级的答案是混合检索（Hybrid Search）：

Dense 路：向量语义检索（embedding → top-50）
Sparse 路：BM25 关键词检索（倒排索引 → top-50）
融合：RRF（Reciprocal Rank Fusion），公式 score(doc) = Σ 1/(k + rank_i(doc))，k 默认 60

腾讯云 ADP 的推荐权重配比：向量 0.6 + 关键词 0.3 + 元数据过滤 0.1（Source 4）。单纯语义检索无法覆盖编号、型号等精确查询，混合检索是生产环境基本要求。

1.2 重排序：花小钱办大事

混合检索拿到的 top-50 还太粗糙。下一步是重排序（Reranking）——用一个交叉编码器对每个候选段落和查询做精细评分。

重排序可以让答案质量提升 15-30%（Source 1），而成本只增加 $0.002-0.004/次（Source 5）。

2026 年主力 Reranker 选型：

Reranker	模式	成本	适用场景
Cohere Rerank v3.5	API	$2/千次	通用最优，性价比最高
Jina Reranker v2	自托管	免费（GPU成本）	数据不出境
Voyage Rerank	API	按量	技术文档/代码
ColBERT v2	自托管	免费	大候选集最快

1.3 进阶：Agentic RAG

当客服需要多步推理时——比如用户说"我上次买的那个商品还有货吗"——单次检索不够用了。

Agentic RAG 的流程是：拆解查询 → 首次检索 → 评估相关性 → 不满足就改写重试 → 合成最终答案 → 自检正确性（Source 5）。

框架选型：

LangGraph：状态机模式，适合复杂多步流程
LlamaIndex Workflows：事件驱动，适合文档密集型
CrewAI：多 Agent 协作，适合多知识源

代价是延迟从 1 秒涨到 3-6 秒，成本从涨到0.02-0.10/次。用在关键场景（投诉处理、售后纠纷），普通 FAQ 用 Modular RAG 就够。

二、核心代码篇：每个组件怎么落地

以下代码不是玩具 Demo——它是一个能跑在 Docker 里、接向量库、走混合检索 + 重排序的生产骨架。

2.1 文档处理管线

分块是 80% 效果的底座（Source 4）。分错了，后面再怎么优化都没用。

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import DirectoryLoader, TextLoader
import hashlib
from typing importList, Dict

classDocumentPipeline:
    """工业级文档处理管线：加载 → 清洗 → 分块 → 去重"""
    
    def__init__(self, chunk_size: int = 500, chunk_overlap: int = 80):
        # 生产推荐：递归分块，300-500 token，50-100 重叠
        self.splitter = RecursiveCharacterTextSplitter(
            chunk_size=chunk_size,
            chunk_overlap=chunk_overlap,
            separators=["/n## ", "/n### ", "/n#### ", "/n", "。", ".", " "],
            length_function=len,
        )
        self._seen_hashes = set()
    
    defload_documents(self, doc_dir: str) -> List:
        """加载目录下所有支持的文档"""
        loader = DirectoryLoader(
            doc_dir,
            glob="/*.{txt,md,csv,json}",
            loader_cls=TextLoader,
            show_progress=True,
        )
        return loader.load()
    
    defenrich_metadata(self, doc):
        """为每个 chunk 附加元数据：来源、章节、时间戳"""
        doc.metadata["source_file"] = doc.metadata.get("source", "unknown")
        doc.metadata["ingested_at"] = datetime.utcnow().isoformat()
        doc.metadata["chunk_id"] = hashlib.md5(
            doc.page_content.encode()
        ).hexdigest()[:12]
        # 尝试提取章节标题
        lines = doc.page_content.split("/n")
        if lines and lines[0].startswith("#"):
            doc.metadata["section"] = lines[0].lstrip("#").strip()
        return doc

    defdeduplicate(self, chunks: List) -> List:
        """基于内容的去重，避免重复知识污染检索"""
        unique = []
        for chunk in chunks:
            h = hashlib.md5(chunk.page_content.encode()).hexdigest()
            if h notinself._seen_hashes:
                self._seen_hashes.add(h)
                unique.append(chunk)
        return unique

    defprocess(self, doc_dir: str) -> List:
        raw_docs = self.load_documents(doc_dir)
        chunks = self.splitter.split_documents(raw_docs)
        chunks = [self.enrich_metadata(c) for c in chunks]
        chunks = self.deduplicate(chunks)
        return chunks

关键决策点：

分隔符优先级：标题 > 段落 > 句子。这保证 chunk 不会在逻辑中断开。
chunk_size 不是越大越好：500 是工业验证的甜蜜点。太小丢上下文，太大检索精度下降。
去重不是可选项：知识库里经常有重复内容，不去重会导致检索结果被同一信息占据 top-K。

2.2 向量索引 + 混合检索

from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams, Filter, FieldCondition, MatchValue
import numpy as np
from typing importList, Tuple

classHybridRetriever:
    """混合检索器：Dense（向量）+ Sparse（BM25）+ 元数据过滤"""
    
    def__init__(self, embedding_model, qdrant_url: str, collection_name: str):
        self.embedder = embedding_model
        self.client = QdrantClient(url=qdrant_url)
        self.collection = collection_name
        
        # BM25 索引（内存，生产建议换 Elasticsearch）
        from rank_bm25 import BM25Okapi
        self._bm25_corpus = []
        self._bm25_doc_ids = []
        self._bm25 = None
    
    defindex_documents(self, chunks: List, batch_size: int = 100):
        """批量嵌入并存入 Qdrant，同时建立 BM25 索引"""
        # 向量索引
        points = []
        for i, chunk inenumerate(chunks):
            embedding = self.embedder.encode(chunk.page_content)
            points.append({
                "id": i,
                "vector": embedding.tolist(),
                "payload": {
                    "text": chunk.page_content,
                    chunk.metadata,
                }
            })
            # 分批上传
            iflen(points) >= batch_size:
                self.client.upsert(collection_name=self.collection, points=points)
                points = []
        
        if points:
            self.client.upsert(collection_name=self.collection, points=points)
        
        # BM25 索引
        self._bm25_corpus = [c.page_content for c in chunks]
        self._bm25_doc_ids = [c.metadata["chunk_id"] for c in chunks]
        self._bm25 = BM25Okapi(
            [self._tokenize(text) for text inself._bm25_corpus]
        )
    
    def_tokenize(self, text: str) -> List[str]:
        """中文分词，生产建议换 jieba"""
        import jieba
        returnlist(jieba.cut(text))
    
    defdense_search(self, query: str, top_k: int = 50) -> List[Tuple[str, float]]:
        embedding = self.embedder.encode(query)
        results = self.client.search(
            collection_name=self.collection,
            query_vector=embedding.tolist(),
            limit=top_k,
        )
        return [(r.payload["text"], r.score) for r in results]
    
    defsparse_search(self, query: str, top_k: int = 50) -> List[Tuple[str, float]]:
        ifself._bm25 isNone:
            return []
        tokenized = self._tokenize(query)
        scores = self._bm25.get_scores(tokenized)
        # 取 top-k
        top_indices = np.argsort(scores)[::-1][:top_k]
        return [
            (self._bm25_corpus[i], float(scores[i]))
            for i in top_indices if scores[i] > 0
        ]
    
    defhybrid_search(
        self, query: str, top_k: int = 50, k_rrf: int = 60
    ) -> List[Tuple[str, float]]:
        """RRF 融合 Dense + Sparse 结果"""
        dense_results = self.dense_search(query, top_k)
        sparse_results = self.sparse_search(query, top_k)
        
        # RRF 打分
        rrf_scores = {}
        for rank, (text, _) inenumerate(dense_results):
            rrf_scores[text] = rrf_scores.get(text, 0) + 1 / (k_rrf + rank + 1)
        for rank, (text, _) inenumerate(sparse_results):
            rrf_scores[text] = rrf_scores.get(text, 0) + 1 / (k_rrf + rank + 1)
        
        # 按 RRF 分数排序
        sorted_docs = sorted(rrf_scores.items(), key=lambda x: x[1], reverse=True)
        return sorted_docs[:top_k]
    
    defsearch_with_acl(
        self, query: str, user_dept: str, clearance_level: int, top_k: int = 50
    ) -> List[Tuple[str, float]]:
        """带权限过滤的检索：部门 + 密级"""
        embedding = self.embedder.encode(query)
        results = self.client.search(
            collection_name=self.collection,
            query_vector=embedding.tolist(),
            query_filter=Filter(
                must=[
                    FieldCondition(key="dept", match=MatchValue(value=user_dept)),
                    FieldCondition(key="clearance", match=MatchValue(value=clearance_level)),
                ]
            ),
            limit=top_k,
        )
        return [(r.payload["text"], r.score) for r in results]

三个工业级必备的动作：

1. RRF 融合：不是简单的分数加权平均。RRF 不关心分数的绝对大小，只关心排名——这恰好避免了向量分数和 BM25 分数不可比的问题。
2. ACL 过滤前置：权限在检索阶段就过滤掉，而不是检索出来后再判断。后者会把不该看的文档的分数混进排序。
3. ID 追踪：每个 chunk 带 chunk_id，最终答案可以追溯到源文档的哪一段。

2.3 重排序 + 答案生成

import cohere
from openai import OpenAI
from typing importList, Tuple

classRAGGenerator:
    """检索增强生成器：重排序 → 上下文组装 → 生成 → 后处理"""
    
    def__init__(
        self,
        cohere_api_key: str,
        llm_client: OpenAI,
        model: str = "gpt-4o",
    ):
        self.reranker = cohere.Client(cohere_api_key)
        self.llm = llm_client
        self.model = model
    
    defrerank(
        self, query: str, documents: List[Tuple[str, float]], top_n: int = 5
    ) -> List[Tuple[str, float]]:
        """用 Cohere Rerank 对 top-50 重排序，取 top-5"""
        iflen(documents) <= top_n:
            return documents
        
        docs_text = [doc[0] for doc in documents]
        response = self.reranker.rerank(
            query=query,
            documents=docs_text,
            top_n=top_n,
            model="rerank-v3.5",
        )
        return [
            (docs_text[r.index], r.relevance_score)
            for r in response.results
        ]
    
    defbuild_prompt(
        self,
        query: str,
        contexts: List[Tuple[str, float]],
        chat_history: List[dict] = None,
    ) -> str:
        """构建 System Prompt + 上下文 + 历史对话"""
        context_blocks = []
        for i, (text, score) inenumerate(contexts, 1):
            # 截断过长文本，防止 lost-in-the-middle
            truncated = text[:1500]
            context_blocks.append(f"[来源{i} | 相关度 {score:.2f}]/n{truncated}")
        
        context_str = "/n/n---/n/n".join(context_blocks)
        
        system_prompt = f"""你是一个专业的企业智能客服助手。严格遵循以下规则：

1. **只基于提供的文档回答。文档中没有的信息，直接说"抱歉，我目前的知识库中没有相关信息"。**

2. **引用来源。每个回答必须标注引用了哪个 [来源N]。**

3. **不要编造。不要添加文档中没有的具体数字、日期、人名。**

4. **如果信息不充分，明确告诉用户你缺少哪些信息，并建议他们联系人工客服。**

已检索到的参考文档：
{context_str}"""
        
        messages = [{"role": "system", "content": system_prompt}]
        
        if chat_history:
            messages.extend(chat_history[-6:])  # 只保留最近 3 轮对话
        
        messages.append({"role": "user", "content": query})
        return messages
    
    defdetect_hallucination(self, answer: str, contexts: List[Tuple[str, float]]) -> bool:
        """简易幻觉检测：检查回答中的关键实体是否在上下文中出现"""
        import re
        # 提取回答中的数字和专有名词
        numbers = set(re.findall(r'/d+/.?/d*%?', answer))
        context_text = " ".join([c[0] for c in contexts])
        context_numbers = set(re.findall(r'/d+/.?/d*%?', context_text))
        
        # 如果回答中的数字有超过 30% 不在上下文中，标记为可疑
        if numbers:
            unmatched = numbers - context_numbers
            returnlen(unmatched) / len(numbers) > 0.3
        returnFalse
    
    defgenerate(
        self,
        query: str,
        raw_documents: List[Tuple[str, float]],
        chat_history: List[dict] = None,
        stream: bool = True,
    ) -> dict:
        """完整生成流程：重排序 → 提示组装 → 生成"""
        reranked = self.rerank(query, raw_documents)
        messages = self.build_prompt(query, reranked, chat_history)
        
        response = self.llm.chat.completions.create(
            model=self.model,
            messages=messages,
            temperature=0.3,  # 客服场景需要低温度
            max_tokens=1024,
            stream=stream,
        )
        
        answer = ""
        if stream:
            for chunk in response:
                if chunk.choices[0].delta.content:
                    answer += chunk.choices[0].delta.content
        else:
            answer = response.choices[0].message.content
        
        # 幻觉自检
        hallucination_flag = self.detect_hallucination(answer, reranked)
        
        return {
            "answer": answer,
            "sources": [
                {"text": text[:200], "score": score}
                for text, score in reranked
            ],
            "hallucination_risk": "high"if hallucination_flag else"low",
        }

这段代码里有三个容易被忽略但严重影响效果的细节：

1. 上下文截断：每个 chunk 截断到 1500 字符。LLM 的"lost-in-the-middle"效应很真实——中间位置的上下文被关注度最低。少而精的 context 比堆满的 context 效果好。
2. 温度 0.3：客服场景不是创意写作，要的是确定性。高温度 = 高幻觉风险。
3. 幻觉自检：回答中的关键数字如果不在检索到的文档里出现过，就标记高风险。简陋但有效。

2.4 完整 API 接入层

from fastapi import FastAPI, HTTPException, WebSocket, Depends
from fastapi.middleware.cors import CORSMiddleware
from pydantic import BaseModel, Field
import asyncio
import time

app = FastAPI(title="RAG Customer Service API")
app.add_middleware(CORSMiddleware, allow_origins=["*"], allow_methods=["*"], allow_headers=["*"])

# --- 依赖注入 ---
retriever: HybridRetriever = None
generator: RAGGenerator = None

classChatRequest(BaseModel):
    query: str = Field(..., min_length=1, max_length=2000)
    session_id: str = Field(default="default")
    user_dept: str = Field(default="public")
    clearance_level: int = Field(default=0, ge=0, le=5)

classChatResponse(BaseModel):
    answer: str
    sources: list
    latency_ms: float
    hallucination_risk: str

@app.post("/api/chat", response_model=ChatResponse)
asyncdefchat(req: ChatRequest):
    start = time.time()
    
    try:
        # 1. 带权限的混合检索
        raw_docs = retriever.search_with_acl(
            query=req.query,
            user_dept=req.user_dept,
            clearance_level=req.clearance_level,
            top_k=50,
        )
        
        ifnot raw_docs:
            return ChatResponse(
                answer="抱歉，在您的权限范围内没有找到相关信息。请尝试更换关键词或联系人工客服。",
                sources=[],
                latency_ms=(time.time() - start) * 1000,
                hallucination_risk="low",
            )
        
        # 2. 生成
        result = generator.generate(
            query=req.query,
            raw_documents=raw_docs,
        )
        
        latency = (time.time() - start) * 1000
        return ChatResponse(
            answer=result["answer"],
            sources=result["sources"],
            latency_ms=round(latency, 2),
            hallucination_risk=result["hallucination_risk"],
        )
    
    except Exception as e:
        raise HTTPException(status_code=500, detail=f"内部错误: {str(e)}")

@app.websocket("/api/chat/stream")
asyncdefchat_stream(websocket: WebSocket):
    """WebSocket 流式接口，支持打字机效果"""
    await websocket.accept()
    
    try:
        data = await websocket.receive_json()
        query = data.get("query", "")
        user_dept = data.get("user_dept", "public")
        clearance = data.get("clearance_level", 0)
        
        # 检索
        raw_docs = retriever.search_with_acl(
            query=query,
            user_dept=user_dept,
            clearance_level=clearance,
            top_k=50,
        )
        
        ifnot raw_docs:
            await websocket.send_json({"type": "answer", "content": "抱歉，没有找到相关信息。"})
            await websocket.send_json({"type": "done"})
            return
        
        # 重排序
        reranked = generator.rerank(query, raw_docs)
        
        # 流式生成
        messages = generator.build_prompt(query, reranked)
        stream = generator.llm.chat.completions.create(
            model=generator.model,
            messages=messages,
            temperature=0.3,
            max_tokens=1024,
            stream=True,
        )
        
        full_answer = ""
        for chunk in stream:
            if chunk.choices[0].delta.content:
                token = chunk.choices[0].delta.content
                full_answer += token
                await websocket.send_json({"type": "token", "content": token})
        
        await websocket.send_json({
            "type": "sources",
            "content": [{"text": t[:200], "score": s} for t, s in reranked],
        })
        await websocket.send_json({"type": "done"})
    
    except Exception as e:
        await websocket.send_json({"type": "error", "content": str(e)})
    finally:
        await websocket.close()

三、部署篇：从单机到扛住万级并发

3.1 Docker Compose 一键部署

# docker-compose.yml
version:"3.8"

services:
# --- 向量数据库 ---
qdrant:
    image:qdrant/qdrant:v1.9
    ports:
      -"6333:6333"
      -"6334:6334"
    volumes:
      -qdrant_data:/qdrant/storage
    environment:
      QDRANT__SERVICE__GRPC_PORT:6334
    restart:unless-stopped

# --- 关键词检索引擎 ---
elasticsearch:
    image:elasticsearch:8.12.0
    ports:
      -"9200:9200"
    environment:
      -discovery.type=single-node
      -xpack.security.enabled=false
      -"ES_JAVA_OPTS=-Xms1g -Xmx1g"
    volumes:
      -es_data:/usr/share/elasticsearch/data
    restart:unless-stopped

# --- API 服务 ---
api:
    build:
      context:.
      dockerfile:Dockerfile
    ports:
      -"8000:8000"
    environment:
      -QDRANT_URL=http://qdrant:6333
      -ES_URL=http://elasticsearch:9200
      -OPENAI_API_KEY=${OPENAI_API_KEY}
      -COHERE_API_KEY=${COHERE_API_KEY}
      -EMBEDDING_MODEL=BAAI/bge-m3
    depends_on:
      -qdrant
      -elasticsearch
    volumes:
      -./knowledge_base:/app/knowledge_base:ro
    restart:unless-stopped

# --- 监控 ---
langfuse:
    image:langfuse/langfuse:2
    ports:
      -"3000:3000"
    environment:
      -DATABASE_URL=postgresql://langfuse:langfuse@postgres:5432/langfuse
      -NEXTAUTH_SECRET=change-me-in-production
    depends_on:
      -postgres
    restart:unless-stopped

postgres:
    image:postgres:16
    environment:
      -POSTGRES_USER=langfuse
      -POSTGRES_PASSWORD=langfuse
      -POSTGRES_DB=langfuse
    volumes:
      -pg_data:/var/lib/postgresql/data
    restart:unless-stopped

volumes:
qdrant_data:
es_data:
  pg_data:

# Dockerfile
FROM python:3.11-slim

WORKDIR /app

# 先装系统依赖
RUN apt-get update && apt-get install -y --no-install-recommends /
    build-essential /
    && rm -rf /var/lib/apt/lists/*

# 安装 Python 依赖
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt

# 复制应用代码
COPY . .

# 预加载嵌入模型到缓存（避免首次请求冷启动）
RUN python -c "from sentence_transformers import SentenceTransformer; SentenceTransformer('BAAI/bge-m3')"

EXPOSE8000

CMD ["uvicorn", "main:app", "--host", "0.0.0.0", "--port", "8000", "--workers", "4"]

# requirements.txt
fastapi==0.111.0
uvicorn[standard]==0.29.0
qdrant-client==1.9.0
langchain==0.2.0
langchain-community==0.2.0
sentence-transformers==2.7.0
cohere==5.5.0
openai==1.30.0
rank-bm25==0.2.2
jieba==0.42.1
elasticsearch==8.13.0
langfuse==2.27.0

3.2 性能优化：从 5 秒到 800 毫秒

优化手段	效果	代价
语义缓存	减少 30-50% LLM 调用	需维护缓存失效策略
Matryoshka 嵌入降维	检索速度翻倍（256d vs 1536d）	轻微精度损失
模型预热	消除首个请求的 2-3 秒冷启动	增加启动时间
流式输出	首 Token 延迟 < 500ms	架构复杂度增加
异步 Embedding	并发吞吐量提升 3-5 倍	无显著代价

# 语义缓存实现
from functools import lru_cache
import numpy as np

classSemanticCache:
    """语义级缓存：相似问题直接返回缓存答案，不调 LLM"""
    
    def__init__(self, similarity_threshold: float = 0.95, max_size: int = 10000):
        self.threshold = similarity_threshold
        self.cache = {}  # query_embedding -> (answer, timestamp)
        self.max_size = max_size
    
    def_cosine_sim(self, a, b):
        return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))
    
    defget(self, query_embedding: np.ndarray):
        for cached_emb, (answer, ts) inself.cache.items():
            ifself._cosine_sim(query_embedding, cached_emb) > self.threshold:
                return answer
        returnNone
    
    defset(self, query_embedding: np.ndarray, answer: str):
        iflen(self.cache) >= self.max_size:
            # LRU 淘汰：删除最早的一个
            oldest = min(self.cache, key=lambda k: self.cache[k][1])
            delself.cache[oldest]
        self.cache[tuple(query_embedding.tolist())] = (answer, time.time())

3.3 生产环境监控清单

70% 的 RAG 系统缺乏评估——这意味着 70% 的系统在盲飞。上线后至少追踪这些指标：

指标类别	具体指标	目标值	工具
检索质量	Precision@5	> 0.85	RAGAS
检索质量	MRR	> 0.90	RAGAS
生成质量	Faithfulness（忠实度）	> 0.90	RAGAS / TruLens
生成质量	Answer Relevance	> 0.85	RAGAS
延迟	P95 延迟	< 5 秒	Langfuse
延迟	首 Token 时间	< 1 秒	Langfuse
业务	人工转接率	< 15%	自建
业务	用户满意度	> 80%	自建

# 评估流水线（集成到 CI/CD）
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision

defrun_evaluation(test_dataset_path: str):
    """每次部署前在 100 条评估集上跑分"""
    from datasets import Dataset
    
    test_data = Dataset.from_json(test_dataset_path)
    
    results = evaluate(
        test_data,
        metrics=[faithfulness, answer_relevancy, context_precision],
    )
    
    # 不达标则阻止部署
    assert results["faithfulness"] > 0.85, f"Faithfulness too low: {results['faithfulness']}"
    assert results["answer_relevancy"] > 0.80, f"Relevancy too low: {results['answer_relevancy']}"
    assert results["context_precision"] > 0.80, f"Precision too low: {results['context_precision']}"
    
    return results

结尾

回头看这张表，是你从 Demo 到工业级要走的路：

维度	Demo	工业级
检索	纯向量	混合（Dense + Sparse + 元数据）
排序	Top-K 直接喂	粗排 + 重排序两阶段
分块	固定 1000 token	递归分块 300-500 + 语义检查
权限	无	ABAC，chunk 级元数据过滤
输出	一次生成	流式 + 幻觉检测 + 来源追踪
评估	“看着还行”	RAGAS + 自动化回归测试
缓存	无	语义缓存 + Embedding 缓存