本地语音服务 - 1

本地语音服务

在 Jetson Orin、RK3576、RK3588 和树莓派上运行流式语音识别和语音合成——Jetson 上延迟低于 180ms,完全离线,无需云端。

入门15min语音 AI
语音Jetsonasrttslocalrk3576rk3588raspberry-pi

这个能力做什么

给机器人、设备或应用加上“听懂人说话”和“开口回答”的能力。语音识别和语音合成都在本地设备上完成,部署后不需要把音频发到云端,也不依赖外部语音 API。

部署后你会得到什么

  • 一个本地语音服务:你的程序把麦克风音频发进去,拿到识别出的文字。
  • 一个本地说话服务:你的程序把文字发进去,拿到可播放的语音。
  • 标准接口:可以接到机器人控制、网页应用、信息亭、工控系统或你自己的 AI 对话流程里。
  • 离线可用:首次部署下载镜像和模型后,日常使用不需要联网。

适合接到哪些系统

场景可以怎么用
语音控制机器人机器人听到指令后转成文字,交给你的控制程序或大模型,再把回复说出来
智能信息亭访客直接开口提问,系统本地识别后查询知识库并语音回答
工业语音指令操作员不用腾手操作屏幕,直接说出指令触发设备动作
私有语音入口多个设备把音频发到同一台边缘设备,由它集中完成识别和播报

给程序对接的接口

能力怎么连接端口/路径返回什么
实时听写WebSocket:8621/asr/stream持续返回识别文字
实时播报HTTP POST:8621/tts/stream可直接播放的音频流
生成语音文件HTTP POST:8621/ttsWAV 文件
上传音频识别HTTP POST:8621/asr识别文字
查看服务状态HTTP GET:8621/health服务是否就绪

技术规格

指标Jetson Orin NXRK3588RK3576树莓派 5
语音转文字Paraformer / Qwen3(TensorRT)Qwen3(RKNN)Qwen3(RKNN)Paraformer(ONNX)
文字转语音Matcha-TTS / Qwen3(TensorRT)Matcha(RKNN)Matcha(RKNN)Matcha(ONNX)
端到端延迟(中位数)58 ms394 ms1099 ms
内存需求2 GB6 GB4 GB2 GB
磁盘需求7.5 GB4.4 GB4.4 GB2.8 GB
支持语言中英 / 52 种(Qwen3)中英 / 52 种(Qwen3)中英 / 52 种(Qwen3)中英

支持硬件: Jetson Orin Nano/NX/AGX · RK3576 · RK3588 · 树莓派 4/5 网络要求: 首次部署需要联网(下载镜像和模型),部署完成后可完全离线使用

集成接口

websocket

Real-time streaming speech recognition (int16 PCM in, JSON out)

/asr/stream · Port: 8621
{"text":"hello world","is_final":true,"is_stable":true}
http_stream

Streaming text-to-speech (JSON in, raw PCM stream out)

/tts/stream · Port: 8621 · Method: POST
http

Batch text-to-speech (JSON in, WAV out)

/tts · Port: 8621 · Method: POST
http

Service health check (returns ASR and TTS readiness)

/health · Port: 8621 · Method: GET
{"asr":true,"tts":true,"streaming_asr":true}

部署方案

联系我们
获取方案参考设计与产品选型支持。
下一步