这个能力做什么
给机器人、设备或应用加上“听懂人说话”和“开口回答”的能力。语音识别和语音合成都在本地设备上完成,部署后不需要把音频发到云端,也不依赖外部语音 API。
部署后你会得到什么
- 一个本地语音服务:你的程序把麦克风音频发进去,拿到识别出的文字。
- 一个本地说话服务:你的程序把文字发进去,拿到可播放的语音。
- 标准接口:可以接到机器人控制、网页应用、信息亭、工控系统或你自己的 AI 对话流程里。
- 离线可用:首次部署下载镜像和模型后,日常使用不需要联网。
适合接到哪些系统
| 场景 | 可以怎么用 |
|---|
| 语音控制机器人 | 机器人听到指令后转成文字,交给你的控制程序或大模型,再把回复说出来 |
| 智能信息亭 | 访客直接开口提问,系统本地识别后查询知识库并语音回答 |
| 工业语音指令 | 操作员不用腾手操作屏幕,直接说出指令触发设备动作 |
| 私有语音入口 | 多个设备把音频发到同一台边缘设备,由它集中完成识别和播报 |
给程序对接的接口
| 能力 | 怎么连接 | 端口/路径 | 返回什么 |
|---|
| 实时听写 | WebSocket | :8621/asr/stream | 持续返回识别文字 |
| 实时播报 | HTTP POST | :8621/tts/stream | 可直接播放的音频流 |
| 生成语音文件 | HTTP POST | :8621/tts | WAV 文件 |
| 上传音频识别 | HTTP POST | :8621/asr | 识别文字 |
| 查看服务状态 | HTTP GET | :8621/health | 服务是否就绪 |
技术规格
| 指标 | Jetson Orin NX | RK3588 | RK3576 | 树莓派 5 |
|---|
| 语音转文字 | Paraformer / Qwen3(TensorRT) | Qwen3(RKNN) | Qwen3(RKNN) | Paraformer(ONNX) |
| 文字转语音 | Matcha-TTS / Qwen3(TensorRT) | Matcha(RKNN) | Matcha(RKNN) | Matcha(ONNX) |
| 端到端延迟(中位数) | 58 ms | 394 ms | 1099 ms | — |
| 内存需求 | 2 GB | 6 GB | 4 GB | 2 GB |
| 磁盘需求 | 7.5 GB | 4.4 GB | 4.4 GB | 2.8 GB |
| 支持语言 | 中英 / 52 种(Qwen3) | 中英 / 52 种(Qwen3) | 中英 / 52 种(Qwen3) | 中英 |
支持硬件: Jetson Orin Nano/NX/AGX · RK3576 · RK3588 · 树莓派 4/5
网络要求: 首次部署需要联网(下载镜像和模型),部署完成后可完全离线使用