Jetson Thor vs Jetson Orin 64GB:本地 LLM 真机测试笔记
边缘 AI 硬件已经不只适合跑摄像头管线和轻量检测模型。只要内存足够、推理框架合适,Jetson Thor 和 Jetson Orin 64GB 这类设备已经可以承载本地语言模型,用于机器人、工业巡检、私有助手和现场自动化。
本次测试使用两台真实设备:
- Jetson Thor:
100.98.202.31 - Jetson Orin 64GB:
100.97.175.73
这不是合成排行榜,而是一份工程测试笔记:设备上实际跑了什么服务、模型是否能正常响应、速度体感如何,以及我会把它们分别用于哪些场景。
测试配置
| 设备 | 运行方式 | 模型 | API |
|---|---|---|---|
| Jetson Thor | SGLang | Qwen3.6-35B-A3B-FP8 | OpenAI 兼容 /v1/chat/completions |
| Jetson Orin 64GB | Ollama | Qwen2.5 0.5B Q4_K_M | Ollama /api/generate |
测试 prompt 覆盖三类常见本地 AI 任务:
- 中文边缘 AI 场景问答
- 英文摘要
- 简短代码解释
每次输出限制在约 160 token 左右,适合观察交互式响应表现,不把测试变成长文本生成跑分。
快速结果
| 设备 | 模型 | 测试项 | 结果 |
|---|---|---|---|
| Jetson Thor | Qwen3.6-35B-A3B-FP8 | 3 / 3 通过 | 160 token 响应约 11.2 秒 |
| Jetson Orin 64GB | Qwen2.5 0.5B Q4_K_M | 3 / 3 通过 | 约 145 tokens/s |
Thor 的结果需要结合上下文理解:测试时设备上已有 SGLang scheduler 和另一个 Python 服务在消耗资源。即便如此,35B FP8 模型依然完成了全部 prompt。
Orin 使用的是更小的 0.5B 模型,因此它不是质量对比;但这个结果很适合作为轻量本地助手和自动化控制流的速度基线。
Thor:边缘设备上的大模型本地推理
Thor 当前运行:
Qwen3.6-35B-A3B-FP8
SGLang
Context length: 8192
Served model name: qwen3.6
实测响应耗时:
| 测试项 | 输出 Token | 耗时 |
|---|---|---|
| 中文问答 | 160 | 10.953s |
| 英文摘要 | 160 | 11.181s |
| 代码解释 | 160 | 11.511s |
在当前负载条件下,观测速度约为 14 tokens/s。
适合场景
Thor 更适合较重的本地 LLM 任务:
- 私有产品资料客服助手
- 结合摄像头和 LiDAR 的机器人场景理解
- 工业巡检报告现场生成
- 内部知识库问答,数据不离开设备
如果进入生产测试,我会继续补充:
- 冷启动/预热后的延迟差异
- 并发请求
- prompt 长度敏感性
- 不同量化方案
- JSON 输出稳定性
- 视觉语言模型吞吐量
Orin 64GB:小模型高速度本地推理
Orin 64GB 当前通过 Ollama 运行:
qwen2.5:0.5b
GGUF Q4_K_M
实测结果:
| 测试项 | 输出 Token | 耗时 | 速度 |
|---|---|---|---|
| 中文问答 | 160 | 3.255s | 144.28 tokens/s |
| 英文摘要 | 89 | 0.901s | 147.06 tokens/s |
| 代码解释 | 50 | 0.600s | 145.22 tokens/s |
这类小模型不一定替代云端大模型,但速度足够用于:
- 设备菜单助手
- 简单中英文问答
- 本地命令解析
- 短文本摘要
- 自动化流程
- 离线 Demo 体验
如何选型
选择 Jetson Thor,如果你需要:
- 更大模型
- 更复杂推理
- 多模态机器人 Demo
- SGLang 或 OpenAI 兼容本地服务
- 后续视觉语言模型测试空间
选择 Jetson Orin 64GB,如果你需要:
- 稳定的边缘部署
- 比高端平台更低的成本
- 小模型本地助手
- 视觉检测 + 轻量语言输出
- 本地自动化和工业 Demo
商业转化角度
对客户最有价值的不是单纯问“哪个硬件跑分最高”,而是:
在客户购买或部署硬件前,用真实模型、真实设备、真实业务流程做一次可复现测试。
这对设备代理商、工厂、机器人团队和想做 AI 私有化的小企业都更有价值。客户通常不知道自己到底需要 Thor、Orin、工作站还是云 API,真机测试能直接降低选型风险。
这类内容可以沉淀成三个服务:
- 边缘 AI 模型可行性测试
- 私有化本地 AI 助手 Demo
- 机器人感知与报告生成原型
下一轮测试计划
下一轮建议补充:
- Orin 64GB 上的 Qwen 7B / 14B
- Thor 与 Orin 使用同一套 prompt
- 并发请求测试
- 内存和功耗记录
- 摄像头图像输入的 VLM 测试
- 产品文档 RAG 长上下文测试
这些测试比单次速度数字更有价值,因为它们直接对应真实部署决策。
结论
本次测试中,Thor 成功通过 SGLang 运行 35B FP8 模型,而 Orin 64GB 通过 Ollama 运行小 Qwen2.5 模型时响应非常快。
产品方向很清晰:
- Thor 适合高端边缘推理和机器人 Demo
- Orin 64GB 适合本地助手、自动化、视觉检测 + 语言输出原型
如果要选边缘 AI 硬件,不要只看规格表。先确定模型、prompt、摄像头或文档输入,以及目标延迟,再用真实工作流跑一次测试。