WebRTC实现VoiceAgent智能体

原创于 2026-04-06 21:35:33 发布 · 131 阅读

·

1

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#webrtc

webrtc 同时被 3 个专栏收录

21 篇文章

订阅专栏

6 篇文章

订阅专栏

2 篇文章

订阅专栏

今天给大家介绍使用RTCPilot实现基于WebRTC的voice agent。

RTCpilot是基于c++17开发的，跨平台，支持服务集群的WebRTC服务。

什么是voice agent？

一句话定义：实时语音对话AI大模型，跑在 WebRTC 低延迟实时音视频通道上，让用户直接在浏览器 / APP 里，像打电话一样和 AI 自然对话。

Voice Agent主要功能，Voice Agent==语音智能体，

主要功能和特点是：

能听
能想
能说
能实时、全双工、可打断地跟人聊天

也就是在它的回答过程中，你可以打断它的回答，提出新的问题。

它基于WebRTC体系，整个流程：

语音采集 → WebRTC 传输 → 云端实时 ASR → LLM 流式推理 → 流式 TTS → WebRTC 回传 → 播放

RTC Voice Agent在国内云厂商已经非常普及，声网，火山引擎，科大讯飞。他们宣传：

实时语音交互基础设施 + 大模型语音化引擎，

把任意文本大模型快速变成可实时对话的 Voice Agent。

我们使用基于开源的RTC pilot来实现一个完整的voice agent，完全开源实现，可以本地部署，不依赖任何云平台。

在视频连接中，有演示效果：

RTC实现VoiceAgent

RTC Pilot的Voice Agent实现，原来的RTC Pilot是一个WebRTC音视频会议SFU服务，支持跨平台，支持集群部署，本质是一个支持网络高并发的SFU。

但是支持voice agent后，加入音频编解码，加入ASR，文字转语音服务，加入TTS语音转文字服务，一下子系统变成CPU密集型的服务，也就是变成WebRTC MCU服务。

其实ASR，TTS和编解码服务，应该放在单独的MCU服务中，这么实现主要是广大初级网友不知道怎么部署，被迫无奈的实现。

当前的RTCPilot支持voice agent的代码，独立放在voiceagent分支，我还在犹豫是否合入主线，或者如何合入主线。

因为涉及编解码，voiceagent还未支持win11平台，后续也需要改进。

RTCPilot服务端地址：

https://github.com/runner365/RTCPilotbranch：voiceagent

RTCPilot客户端地址:

https://github.com/runner365/webrtc_js_client

如果你有好的建议，可以在评论区告诉我。

如果觉得对你有帮助，请一键三连，谢谢大家。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。