预设: RK3576 大模型推理 {#rk3576_llm}
一键将 DeepSeek-R1 大语言模型部署到 reComputer RK3576。
| 设备 | 用途 |
|---|
| reComputer RK3576 | 使用 NPU 加速运行 DeepSeek-R1 |
部署后你将获得:
- 本地运行的 OpenAI 兼容对话 API
- 5 种模型变体可选(1.5B/7B,不同量化方式)
- 无需云端依赖,所有推理在设备本地完成
前提条件: RK3576 设备可通过 SSH 访问 + 已安装 Docker
步骤 1: 部署 DeepSeek-R1 {#deploy_llm type=docker_deploy required=true config=devices/rk3576.yaml}
将 LLM 容器部署到 RK3576 设备。
部署目标: 远程部署 {#rk3576_remote type=remote config=devices/rk3576.yaml default=true}
通过 SSH 一键部署到 RK3576。
接线
- 将 RK3576 连接到与电脑相同的网络
- 选择要运行的模型变体
- 填写设备 IP、SSH 用户名和密码
- 点击 部署
部署完成
- LLM 容器已在 RK3576 上运行
- 对话 API 可通过
http://<设备IP>:8001/v1/chat/completions 访问
- 使用任何 OpenAI 兼容客户端连接即可
故障排查
| 问题 | 解决方案 |
|---|
| SSH 连接失败 | 检查 IP 地址、用户名、密码 |
| 未检测到 NPU | 确认设备为 RK3576 且已加载 RKNPU 内核模块 |
| 内存不足(7B 模型) | 7B 变体需要 8GB+ 内存,请改用 1.5B 变体 |
| 镜像拉取缓慢 | 检查网络连接,镜像大小 1-4GB 取决于变体 |
步骤 2: 试试对话 {#verify_llm type=text_chat required=false config=devices/llm_chat.yaml}
发送一条消息测试 LLM。
故障排查
| 问题 | 解决方案 |
|---|
| 连接被拒绝 | 等待 30-60 秒让模型加载 |
| 超时 | 7B 模型加载时间较长,请等待最多 2 分钟 |
| 空响应 | 查看容器日志:docker logs ai_lab_llm |
部署完成
DeepSeek-R1 已在你的 RK3576 设备上运行。
快速开始
curl http://<设备IP>:8001/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "rkllm-model", "messages": [{"role": "user", "content": "你好!"}], "max_tokens": 256}'
Python 示例
import openai
client = openai.OpenAI(base_url="http://<设备IP>:8001/v1", api_key="dummy")
response = client.chat.completions.create(
model="rkllm-model",
messages=[{"role": "user", "content": "你好!"}],
max_tokens=256
)
print(response.choices[0].message.content)