[对比学习LangChain和MAF-09]利用结构化输出生成指定结构的内容

编程达人挑战赛·第10期 10w+人浏览 422人参与

AI Agent的结构化输出是指Agent在执行任务时,不再返回自然语言文本,而是严格按照预定义的格式(如JSON、XML、YAML 或特定数据对象)输出数据。这是将AI从能聊天的Agent演变为能精确执行工业级业务流的系统的核心技术。下来我们来看看LangChain和MAF是如何支持Agent的结构化输出的。

1. LangChain

LangChain针对结构化输出提供了两种编程模式,一种是采用采用promp | llm | output_parser这种基于基于LXEL表达式构建的处理管道,另一种就是在调用create_agent函数创建Agent的时候,利用response_format参数指定输出的格式。

1.1 基于LCEL表达式构建处理管道

promp | llm | output_parser构成了经典的三段式处理管道,其中prompt用来定义输入LLM的提示词,llm用来指定采用哪个语言模型,output_parser用来定义如何解析LLM的输出。通过这种方式构建的处理管道可以很方便地实现结构化输出,因为我们可以在prompt中明确地告诉LLM按照什么样的格式来生成输出,然后在output_parser中编写相应的解析逻辑来将这个输出转换成我们需要的数据结构。

在如下的这段演示程序中,我们定义了一个UserInfo的数据模型来描述用户信息,然后利用JsonOutputParser这个预定义的输出解析器来将LLM的输出解析成UserInfo对象。在prompt中,我们通过{format_instructions}占位符来插入JsonOutputParser生成的格式化指令,告诉LLM按照UserInfo的格式来生成输出。最后我们将这个处理管道连接成一个chain,并调用它来处理一个包含用户信息的查询,最终得到一个UserInfo对象。

from langchain_core.output_parsers import JsonOutputParser
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI
from pydantic import BaseModel, Field
from dotenv import load_dotenv

load_dotenv()

class UserInfo(BaseModel):
    name: str = Field(description="user's name")
    age: int = Field(description="user's age")
    hobbies: list[str] = Field(description="user's hobbies")

parser = JsonOutputParser(pydantic_object=UserInfo)

template ="""\
Extract information from the following text.
{format_instructions}
context: {query}"""

prompt = (
    PromptTemplate
        .from_template(template)
        .partial(format_instructions = parser.get_format_instructions())
)

llm = ChatOpenAI(model="gpt-5.2-chat")
chain = prompt | llm | parser

query= "My name is Jayden, I am 18 years old and I like hiking and painting."
use_info = chain.invoke({"query": query})
assert isinstance(use_info, UserInfo)
assert use_info.name == "Jayden"
assert use_info.age == 18
assert use_info.hobbies == ["hiking", "painting"]

LangChain提供了很多预定义的输出解析器,除了JsonOutputParser之外,还有XMLOutputParserPydanticOutputParserListOutputParser等,满足不同的结构化输出需求。针对它们的详细介绍可以参考我如下两篇文章:

1.2 设置Agent的response_format

数据只有具有希望的结构才可能被有效地处理,我们在调用create_agent函数创建Agent的时候,可以利用response_format控制输出的格式。我们可以定义一个Pydantic模型类表表示期望输出的结构,如果将此类型表示成ResponseT,我们可以直接将此类型作为response_format参数的值,也可以将此参数赋值为ResponseFormat[ResponseT]。除此之外,我们也可以创建一个表示JSON Schema的字典作为response_format参数的值。ResponseFormat实际上针对ToolStrategyProviderStrategyAutoStrategy三个类型的联合。ToolStrategyProviderStrategy代表了两种实现结构化输出的不同技术路径。

def create_agent(
    ...
    response_format: ResponseFormat[ResponseT] | type[ResponseT] | dict[str, Any] | None = None,
    ...
) 

ResponseFormat = ToolStrategy[SchemaT] | ProviderStrategy[SchemaT] | AutoStrategy[SchemaT]

组成ResponseFormat的三个类型代表了结构化输出的三种策略:

  • ToolStrategy:利用工具调用来实现结构化输出,Agent在调用LLM的时候会将工具的定义(包括输入输出的格式)作为提示词的一部分传入LLM,LLM在生成输出的时候按照工具的定义来生成工具调用的意图,Agent在解析到这个工具调用意图之后就会调用对应的工具来获取结构化的数据结果;
  • ProviderStrategy:利用Provider来实现结构化输出,Agent在调用LLM的时候会将Provider的定义(包括输入输出的格式)作为提示词的一部分传入LLM,LLM在生成输出的时候按照Provider的定义来生成调用Provider的意图,Agent在解析到这个调用Provider的意图之后就会调用对应的Provider来获取结构化的数据结果;
  • AutoStrategy:Agent会自动地在ToolStrategyProviderStrategy之间进行选择,如果LLM支持则采用ProviderStrategy,否则采用ToolStrategy

在如下的演示程序中,我们在调用create_agent函数创建Agent的时候,将response_format参数设置为AutoStrategy[UserInfo],告诉Agent我们希望它能够按照UserInfo的格式来生成输出。Agent会自动地选择合适的策略来实现这个结构化输出的需求。由于指定的模型自身对结构化输出提供支持,所以Agent会优先选择ProviderStrategy来实现结构化输出。

from langchain.agents import create_agent
from langchain.agents.structured_output import AutoStrategy
from langchain_openai import ChatOpenAI
from pydantic import BaseModel, Field
from dotenv import load_dotenv

load_dotenv()

class UserInfo(BaseModel):
    name: str = Field(description="user's name")
    age: int = Field(description="user's age")
    hobbies: list[str] = Field(description="user's hobbies")

agent = create_agent(
    model=ChatOpenAI(model="gpt-5.2-chat"),
    response_format= AutoStrategy(schema=UserInfo),
)

query = "My name is Jayden, I am 18 years old and I like hiking and painting."
query = f"""\
Extract information from the following text.
context: {query}"""

result = agent.invoke(input={"messages":[{"role":"user", "content": query}]})
use_info = result["structured_response"]
assert isinstance(use_info, UserInfo)
assert use_info.name == "Jayden"
assert use_info.age == 18
assert use_info.hobbies == ["hiking", "painting"]

关于三种策略的实现原理,可以参考我之前写的这篇文章:结构化输出的两种实现方式

2. MAF

在MAF中,AIAgent定义了如下四个重载的RunAsync<T>方法,它们的返回值都是AgentResponse<T>类型,其中泛型参数T表示结构化输出的类型。在得到作为返回值的AgentResponse<T>对象之后,我们可以通过它的Result属性来获取结构化输出的结果。AgentResponse<T>类型继承自AgentResponse,并新增了一个IsWrappedInObject属性用来指示结构化输出的结果是否被包装在一个对象中。

public abstract class AIAgent
{
    public Task<AgentResponse<T>> RunAsync<T>(
        AgentSession? session = null, 
        JsonSerializerOptions? serializerOptions = null, 
        AgentRunOptions? options = null, 
        CancellationToken cancellationToken = default);
    public Task<AgentResponse<T>> RunAsync<T>(
        string message, 
        AgentSession? session = null, 
        JsonSerializerOptions? serializerOptions = null, 
        AgentRunOptions? options = null, 
        CancellationToken cancellationToken = default);
    public Task<AgentResponse<T>> RunAsync<T>(
        ChatMessage message, AgentSession? session = null, 
        JsonSerializerOptions? serializerOptions = null, 
        AgentRunOptions? options = null, 
        CancellationToken cancellationToken = default);
    public async Task<AgentResponse<T>> RunAsync<T>(
        IEnumerable<ChatMessage> messages, AgentSession? session = null, 
        JsonSerializerOptions? serializerOptions = null, 
        AgentRunOptions? options = null, 
        CancellationToken cancellationToken = default);
}

public class AgentResponse<T> : AgentResponse
{
    public bool IsWrappedInObject { get; init; }
    public virtual T Result{get;}
}

所以上面采用LangChain演示的实例在MAF中可以改写成如下的形式:

using dotenv.net;
using Microsoft.Extensions.AI;
using OpenAI;
using System.ClientModel;
using System.ComponentModel;
using System.Diagnostics;

DotEnv.Load();

var model = Environment.GetEnvironmentVariable("MODEL")!;
var apiKey = Environment.GetEnvironmentVariable("API_KEY")!;
var openAIUrl = Environment.GetEnvironmentVariable("OPENAI_URL")!;

var agent = new OpenAIClient(
    credential: new ApiKeyCredential(key: apiKey),
    options: new OpenAIClientOptions { Endpoint = new Uri(openAIUrl) })
    .GetChatClient(model:model)
    .AsIChatClient()
    .AsAIAgent();

var query = "My name is Jayden, I am 18 years old and I like hiking and painting.";
query = $"""
Extract information from the following text.
context: { query }
""";

var response = await agent.RunAsync<UserInfo>(message:query);
var userInfo = response.Result;
Debug.Assert(userInfo.Name == "Jayden");
Debug.Assert(userInfo.Age == 18);
Debug.Assert(userInfo.Hobbies.SequenceEqual(new[] { "hiking", "painting" }));

public class UserInfo
{
    [Description("user's name")]
    public string? Name { get; set; }

    [Description("user's age")]
    public int Age { get; set; }

    [Description("user's hobbies")]
    public string[] Hobbies { get; set; } = [];
}

AIAgent执行时由AgentRunOptionsResponseFormat属性来控制结构化输出的格式。上面四个泛型的RunAsync<T>方法最终会根据泛型参数T创建一个代表其JSON Schema的ChatResponseFormat对象,并将这个对象赋值给传入方法的AgentRunOptionsResponseFormat属性。待接收到LLM的响应之后,对JSON文本进行反序列化。

public class AgentRunOptions
{
	public ChatResponseFormat? ResponseFormat { get; set; }
}

所以上面演示程序中与下面这段是完全等效的:

using dotenv.net;
using Microsoft.Agents.AI;
using Microsoft.Extensions.AI;
using OpenAI;
using System.ClientModel;
using System.ComponentModel;
using System.Diagnostics;
using System.Text.Json;

DotEnv.Load();

var model = Environment.GetEnvironmentVariable("MODEL")!;
var apiKey = Environment.GetEnvironmentVariable("API_KEY")!;
var openAIUrl = Environment.GetEnvironmentVariable("OPENAI_URL")!;

var agent = new OpenAIClient(
    credential: new ApiKeyCredential(key: apiKey),
    options: new OpenAIClientOptions { Endpoint = new Uri(openAIUrl) })
    .GetChatClient(model:model)
    .AsIChatClient()
    .AsAIAgent();

var query = "My name is Jayden, I am 18 years old and I like hiking and painting.";
query = $"""
Extract information from the following text.
context: { query }
""";

var responseFormat = ChatResponseFormat.ForJsonSchema<UserInfo>();
var response = await agent.RunAsync(message:query, options:new ChatClientAgentRunOptions { ResponseFormat = responseFormat });
var userInfo = JsonSerializer.Deserialize<UserInfo>(response.Text, AgentAbstractionsJsonUtilities.DefaultOptions)!;
Debug.Assert(userInfo.Name == "Jayden");
Debug.Assert(userInfo.Age == 18);
Debug.Assert(userInfo.Hobbies.SequenceEqual(["hiking", "painting"]));

利用AgentRunOptionsResponseFormat属性指定的希望输出的JSON Schema体现在发送给LLM的请求中,如下面的HTTP请求所示:

POST https://jinna-mjct0aiy-swedencentral.openai.azure.com/openai/v1/chat/completions HTTP/1.1
Host: jinna-mjct0aiy-swedencentral.openai.azure.com
Accept: application/json
User-Agent: OpenAI/2.10.0 (.NET 10.0.7; Microsoft Windows 10.0.26200) MEAI/10.5.0
Authorization: Bearer 8Kvb0MoMlk3ie0o2G01KVqaqc2tqIwq4RpxvEVTtmHNR9OFUmpdnJQQJ99BLACfhMk5XJ3w3AAAAACOG1Sww
Content-Type: application/json
Content-Length: 845

{"messages":[{"role":"user","content":"Extract information from the following text.\r\ncontext: My name is Jayden, I am 18 years old and I like hiking and painting."}],"model":"gpt-5.2-chat","response_format":{"type":"json_schema","json_schema":{"name":"UserInfo","schema":{
  "$schema": "https://json-schema.org/draft/2020-12/schema",
  "type": "object",
  "properties": {
    "name": {
      "description": "user's name",
      "type": [
        "string",
        "null"
      ]
    },
    "age": {
      "description": "user's age",
      "type": "integer"
    },
    "hobbies": {
      "description": "user's hobbies",
      "type": "array",
      "items": {
        "type": "string"
      }
    }
  },
  "additionalProperties": false,
  "required": [
    "name",
    "age",
    "hobbies"
  ]
}}}}
内容概要:本文系统整理了《微软面试100题完整版(含解析+备考指南)2026最新求职资源》,涵盖算法编程、逻辑思维、计算机基础、系统设计与工程实践、职场综合五大核心题型,共100道高频原题,均来自微软近十年真实面试题库,剔除过时内容,新增AI工程应用、轻量化系统设计等2026年前沿考点。每道题目配有详细解题思路与考察要点,覆盖数据结构、动态规划、位运算、网络协议、数据库事务、微服务架构、高并发设计等关键技术领域,并包含逻辑推理、工程排查、产品权衡等综合素质题目,全面适配微软海内外各岗位面试需求。此外,文章还提供分层刷题策略、地域差异化备考建议及完整资源获取路径,助力求职者高效通关初面、复面与终面。; 适合人群:准备应聘微软的应届毕业生、1-5年工作经验的技术岗从业者(如软件开发、算法、测试、数据、运维等),以及计划投递微软海外岗位的求职者;尤其适合缺乏系统面试准备、希望提升解题思维与工程表达能力的人群。; 使用场景及目标:①针对微软技术面试中的算法题进行专项突破,掌握最优解法与代码规范;②训练逻辑思维与系统设计能力,应对高阶岗位考察;③准备终面综合问题,提升职场素养与岗位匹配度表达;④根据国内/海外不同考点调整复习重点,实现精准备考。; 阅读建议:此资源以真题为核心,强调解题思路而非死记硬背,建议按“分类刷题—总结模板—模拟手撕—复盘优化”流程学习,重点关注代码边界处理、复杂度优化与中英文表达逻辑,结合自身背景补充项目复盘与系统设计练习,全面提升面试实战能力。
内容概要:本文围绕永磁同步电机(PMSM)的二阶线性自抗扰矢量控制系统展开深入研究,重点实现了基于Simulink的系统建模仿真。研究采用二阶线性自抗扰控制(LADRC)策略,结合扩张状态观测器(ESO)对系统内部动态外部扰动进行实时估计与前馈补偿,有效提升了电机在负载突变、参数摄动等复杂工况下的转速控制精度、动态响应速度与系统鲁棒性。文中详细构建了电流环与转速环的双闭环矢量控制架构,系统分析了控制器关键参数的设计方法、观测器带宽的整定原则以及整体系统的稳定性条件,并通过大量仿真实验验证了所提出控制方案相较于传统PI控制在抗干扰能力、响应性能鲁棒性方面的显著优越性。; 适合人群:具备自动控制理论、电机控制原理、现代控制理论等相关专业知识,熟悉Simulink/Matlab仿真环境,且有一定工程实践经验的电气工程、自动化、控制科学与工程等领域的硕士/博士研究生、科研人员及从事高性能电机驱动系统开发的工程技术人员。; 使用场景及目标:①为高等院校科研机构提供先进电机控制算法的教学案例与科研实验平台,深化对自抗扰控制(ADRC)理论的理解;②为企业在高性能伺服驱动、新能源汽车电驱系统、工业自动化等领域的下一代控制器研发提供可靠的技术参考、仿真验证方案原型设计基础;③帮助研究人员系统掌握ADRC的核心思想、设计流程及其在高精度运动控制系统中的具体工程实现方法。; 阅读建议:学习者应具备扎实的自动控制与电机学理论基础及Simulink建模能力,建议结合韩京清教授的经典ADRC文献进行原理性学习,深入理解ESO的观测机理与TD的安排机制。在仿真实践中,应动手调试控制器带宽、观测器增益等核心参数,对比分析不同扰动工况(如突加负载、转速指令跳变)下的系统响应曲线,以直观感受控制性能的差异。为进一步深化研究,可将该仿真模型与硬件在环(HIL)测试平台或实际电机实验平台对接,完成从算法设计、仿真验证到物理实现的完整闭环验证流程。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值