场景说明
基于现有边缘设备组合,提供"端侧拾音 + 本地 ASR / TTS + 多语言对话"的成套能力,覆盖桌面对话、工业语音控制、智能家居等场景。优先用现成模组快速落地,必要时也可在硬件层面做定制以匹配整机形态。
端到端低延迟
端到端低延迟
  • 端到端 0.3–0.5 秒响应,云端方案难以做到
  • 一次硬件投入,后续无按量调用费用
  • 长稳无抖动,对话节奏不被网络左右
多语言开箱即用
多语言开箱即用
  • 主流多语言识别开箱即用
  • 多档音色可选:机器音 / 模拟音 / 真人音
  • ~10s 样本即可声音克隆,复刻专属音色
本地处理多重收益
本地处理多重收益
  • 仅回传文字,省云端音频流量与带宽
  • 语音不出端,符合行业隐私与合规要求
  • 不依赖云服务,无地域 / 限流 / 服务下线风险
  • 断网弱网仍可完成对话核心链路
场景详情
桌面对话机器人

多语言识别 · 同声传译 · 自然合成

端侧实现多语种识别、实时翻译与自然语音合成。可在桌面设备、会议终端、导览机等形态上落地双向对话与跨语种交流。


核心优势

  • 多语言识别:主流语言开箱即用
  • 同声传译:边听边译,端到端 0.3–0.5 秒延迟
  • 音色分档:机器音 / 模拟音 / 真人音,按预算选择
Scene Feature
多语言识别
主流多语言开箱可用,覆盖中英日韩西法德等出海主销语种。
Scene Feature
同声传译
边听边译低延迟输出,跨境会议 / 外宾接待 / 文旅导览皆可用。
Scene Feature
音色与人设
多档音色按预算选择;克隆 IP 音色 ~10s 样本即可上线。
工业语音控制

用语音完成设备控制与现场录入,降低操作门槛

在仓储、车间、机房等现场,端侧语音可替代复杂界面与扫码工具,让一线工人通过自然语言完成出入库登记、设备点检、巡检表单填报、危险事件播报。本地 ASR 输出结构化文字,可对接 WMS / MES / IoT 平台。


核心优势

  • 降低操作门槛:自然语言替代复杂界面 / 扫码 / 工单 App
  • 弱网可用:本地 ASR,仅文字回传不依赖现场带宽
  • 结构化输出:识别结果直接进 WMS / MES / 工单系统
Scene Feature
仓储出入库
喊单核对货号 / 数量,结构化文本直接回写 WMS。
Scene Feature
设备点检
工人口播设备状态,AI 自动落入点检表单与异常告警。
Scene Feature
现场巡检播报
巡检表单语音填报;危险事件实时语音回传指挥中心。
智能家居助手

唤醒即响应 · 本地控制 · 声纹个性化

XIAO ESP32S3 做低功耗唤醒前端,触发 AI 盒子启动 ASR-TTS 流水线;声纹识别区分不同成员的偏好;对接 Matter / HomeAssistant / 米家等本地协议执行控制。指令本地处理,断网不影响日常使用。


核心优势

  • 毫安级唤醒前端:ESP32S3 ESP-SR 常驻,电池可用月计
  • 声纹个性化:家庭成员区分,配置个人偏好
  • 本地控制:与 Matter / HomeAssistant / 米家等本地协议打通
Scene Feature
低功耗唤醒
ESP32S3 端侧检测唤醒词后再启动主机,整机更省电。
Scene Feature
声纹识别成员
本地声纹库匹配家庭成员,自动加载个人场景偏好。
Scene Feature
本地 IoT 编排
对接 Matter / HomeAssistant / 米家,云断也能控家。
部署与选型
架构拓扑

三种架构形态:纯前端 / 混合 / 大模型一体

语音方案的算力放在哪,决定整机能力上限与单台 BOM。常见落地拆成 3 类:


核心优势

  • 纯前端方案(ESP32S3):低功耗常驻,仅做唤醒 / 简单命令词;客户自有上位机或纯前端 IoT 设备使用
  • 混合方案(前端 + 语音盒子 + 远端 AI):边缘做唤醒 / ASR / TTS,复杂语义和 LLM 走远端;性价比与扩展性最好
  • 大模型方案(前端 + 大 AI 盒子):单台 Jetson 跑完整 ASR + TTS + 本地 LLM;隐私 / 离线 / 合规要求最高
产品档次支持的语音能力试听音色参考价
XIAO ESP32-S3 Sense唤醒前端(板载麦克风)唤醒词 / 命令词~$10
reRouter CM4入门级单语种本地转录$200–300
reComputer AI R2130-12入门级多语言双向对话机器音~$339
reComputer J4012专业级多语言对话 + 声音克隆模拟音$800–900
reComputer J5012旗舰级多语言对话 + 克隆 + 本地 LLM真人音~$2,000

按场景能力挑算力盒

AI 算力盒按"能跑哪些语音能力"分档。下表只列档次、能跑什么、试听音色档与价位(麦克风与扬声器选型见下个 Tab)。


核心优势

  • 只做唤醒 / 命令词 → 唤醒前端,~$10 一体
  • 双向对话起步 → 主流级;自然合成 + 声音克隆 → 专业级
  • 语音 + 本地 LLM 一体 → 旗舰级,单机跑完整链路
产品类型适用范围关键参数
ReSpeaker Lite拾音 (近场)≤ 3m / 桌面 / 单人工位2-Mic 阵列 / 板载 AI 音频处理 / USB · I²S
ReSpeaker XVF3800拾音 (中远场)3–5m / 会议 / 客厅 / 工位4-Mic / XMOS DSP / AEC / 含 ESP32S3 唤醒前端
ReSpeaker Flex Circular-4拾音+出声 (圆形)机器人 360° / 含唤醒前端4-Mic / XMOS DSP / AEC / 含 ESP32S3 / 10W 功放
ReSpeaker Flex Linear-4拾音+出声 (线形)机器人 180° / 含唤醒前端4-Mic / XMOS DSP / AEC / 含 ESP32S3 / 10W 功放

麦克风按拾音距离选;扬声器按整机形态选

麦克风的核心选型变量是"拾音距离"与"环境噪声"。拾音 + 出声搭配的关键参数与推荐组合如下。


核心优势

  • 拾音距离决定阵列规模:≤3m 选 2-Mic,3–5m 选 4-Mic
  • 回声消除 (AEC):扬声器与麦克风同一外壳必备;XVF3800 板载 DSP 直接处理
  • 降噪与方向性:嘈杂车间 / 车载等场景需硬件级 DSP,纯软件方案不够
  • 唤醒前端:XVF3800 套件自带 ESP32S3,可独立做唤醒,主机休眠更省电
联系我们
获取方案参考设计与产品选型支持。
下一步
对话式语音 AI