边缘大模型: RK3576 运行 DeepSeek-R1 - 1

边缘大模型: RK3576 运行 DeepSeek-R1

在 reComputer RK3576 上使用 NPU 加速本地运行 DeepSeek-R1 大语言模型,支持 5 种模型变体选择。

入门15min人工智能
rk3576大模型deepseekedge-ainpu

它能帮你做什么

把 reComputer RK3576 变成一个本地 AI 聊天助手。DeepSeek-R1 完全运行在你的设备上——无需云端、无需 API 费用、数据不出网络。

核心价值

  • 隐私优先 — 所有对话都在本地完成,数据不会离开你的网络
  • 多种模型规格 — 1.5B(快速轻量)或 7B(更强推理),支持不同压缩选项
  • 标准 API — OpenAI 兼容接口,可直接使用现有工具和库
  • NPU 加速 — 瑞芯微 NPU 在低功耗硬件上高效完成推理

适用场景

场景说明
边缘聊天机器人无需云端依赖即可构建面向客户的对话服务
本地代码助手在离线网络中获取编程帮助
文档问答处理敏感文档无需上传到云端
IoT 指令解析将自然语言转换为设备控制指令

使用须知

  • 1.5B 模型在 4GB+ 设备上流畅运行;7B 模型需要 8GB+ 内存
  • 首次启动需要 30-60 秒加载模型
  • 推理速度取决于模型大小和量化级别
  • W4A16 量化在速度和质量之间取得了最佳平衡

集成接口

http

OpenAI 兼容的对话补全 API(支持流式输出)

/v1/chat/completions · Port: 8001 · Method: POST
{"model":"rkllm-model","messages":[{"role":"user","content":"Hello"}],"max_tokens":512,"stream":false}
http

列出可用模型

/v1/models · Port: 8001 · Method: GET

使用说明

network

拉取 Docker 镜像需要网络连接

部署方案

下载与安装

预设: RK3576 大模型推理 {#rk3576_llm}

一键将 DeepSeek-R1 大语言模型部署到 reComputer RK3576。

设备用途
reComputer RK3576使用 NPU 加速运行 DeepSeek-R1

部署后你将获得:

  • 本地运行的 OpenAI 兼容对话 API
  • 5 种模型变体可选(1.5B/7B,不同量化方式)
  • 无需云端依赖,所有推理在设备本地完成

前提条件: RK3576 设备可通过 SSH 访问 + 已安装 Docker

步骤 1: 部署 DeepSeek-R1 {#deploy_llm type=docker_deploy required=true config=devices/rk3576.yaml}

将 LLM 容器部署到 RK3576 设备。

部署目标: 远程部署 {#rk3576_remote type=remote config=devices/rk3576.yaml default=true}

通过 SSH 一键部署到 RK3576。

接线

  1. 将 RK3576 连接到与电脑相同的网络
  2. 选择要运行的模型变体
  3. 填写设备 IP、SSH 用户名和密码
  4. 点击 部署

部署完成

  1. LLM 容器已在 RK3576 上运行
  2. 对话 API 可通过 http://<设备IP>:8001/v1/chat/completions 访问
  3. 使用任何 OpenAI 兼容客户端连接即可

故障排查

问题解决方案
SSH 连接失败检查 IP 地址、用户名、密码
未检测到 NPU确认设备为 RK3576 且已加载 RKNPU 内核模块
内存不足(7B 模型)7B 变体需要 8GB+ 内存,请改用 1.5B 变体
镜像拉取缓慢检查网络连接,镜像大小 1-4GB 取决于变体

步骤 2: 试试对话 {#verify_llm type=text_chat required=false config=devices/llm_chat.yaml}

发送一条消息测试 LLM。

故障排查

问题解决方案
连接被拒绝等待 30-60 秒让模型加载
超时7B 模型加载时间较长,请等待最多 2 分钟
空响应查看容器日志:docker logs ai_lab_llm

部署完成

DeepSeek-R1 已在你的 RK3576 设备上运行。

快速开始

curl http://<设备IP>:8001/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "rkllm-model", "messages": [{"role": "user", "content": "你好!"}], "max_tokens": 256}'

Python 示例

import openai
client = openai.OpenAI(base_url="http://<设备IP>:8001/v1", api_key="dummy")
response = client.chat.completions.create(
    model="rkllm-model",
    messages=[{"role": "user", "content": "你好!"}],
    max_tokens=256
)
print(response.choices[0].message.content)
联系我们
获取方案参考设计与产品选型支持。
您是否使用过我们的产品?