本地语音服务

在 Jetson Orin、RK3576、RK3588 和树莓派上运行流式语音识别和语音合成——Jetson 上延迟低于 180ms，完全离线，无需云端。

入门15min语音 AI

语音Jetsonasrttslocalrk3576rk3588raspberry-pi

这个能力做什么

给机器人、设备或应用加上“听懂人说话”和“开口回答”的能力。语音识别和语音合成都在本地设备上完成，部署后不需要把音频发到云端，也不依赖外部语音 API。

部署后你会得到什么

一个本地语音服务：你的程序把麦克风音频发进去，拿到识别出的文字。
一个本地说话服务：你的程序把文字发进去，拿到可播放的语音。
标准接口：可以接到机器人控制、网页应用、信息亭、工控系统或你自己的 AI 对话流程里。
离线可用：首次部署下载镜像和模型后，日常使用不需要联网。

适合接到哪些系统

场景	可以怎么用
语音控制机器人	机器人听到指令后转成文字，交给你的控制程序或大模型，再把回复说出来
智能信息亭	访客直接开口提问，系统本地识别后查询知识库并语音回答
工业语音指令	操作员不用腾手操作屏幕，直接说出指令触发设备动作
私有语音入口	多个设备把音频发到同一台边缘设备，由它集中完成识别和播报

给程序对接的接口

能力	怎么连接	端口/路径	返回什么
实时听写	WebSocket	`:8621/asr/stream`	持续返回识别文字
实时播报	HTTP POST	`:8621/tts/stream`	可直接播放的音频流
生成语音文件	HTTP POST	`:8621/tts`	WAV 文件
上传音频识别	HTTP POST	`:8621/asr`	识别文字
查看服务状态	HTTP GET	`:8621/health`	服务是否就绪

技术规格

指标	Jetson Orin NX	RK3588	RK3576	树莓派 5
语音转文字	Paraformer / Qwen3（TensorRT）	Qwen3（RKNN）	Qwen3（RKNN）	Paraformer（ONNX）
文字转语音	Matcha-TTS / Qwen3（TensorRT）	Matcha（RKNN）	Matcha（RKNN）	Matcha（ONNX）
端到端延迟（中位数）	58 ms	394 ms	1099 ms	—
内存需求	2 GB	6 GB	4 GB	2 GB
磁盘需求	7.5 GB	4.4 GB	4.4 GB	2.8 GB
支持语言	中英 / 52 种（Qwen3）	中英 / 52 种（Qwen3）	中英 / 52 种（Qwen3）	中英

支持硬件： Jetson Orin Nano/NX/AGX · RK3576 · RK3588 · 树莓派 4/5 网络要求： 首次部署需要联网（下载镜像和模型），部署完成后可完全离线使用

集成接口

websocket

Real-time streaming speech recognition (int16 PCM in, JSON out)

/asr/stream · Port: 8621

{"text":"hello world","is_final":true,"is_stable":true}

http_stream

Streaming text-to-speech (JSON in, raw PCM stream out)

/tts/stream · Port: 8621 · Method: POST

http

Batch text-to-speech (JSON in, WAV out)

/tts · Port: 8621 · Method: POST

http

Service health check (returns ASR and TTS readiness)

/health · Port: 8621 · Method: GET

{"asr":true,"tts":true,"streaming_asr":true}

部署方案

edge_device

recomputer_j40

recomputer_rk3576

recomputer_rk3588

联系我们

获取方案参考设计与产品选型支持。

本地语音服务