MultimodalFlow
← 返回博客

Jetson Thor vs Jetson Orin 64GB:本地 LLM 真机测试笔记

JetsonThorOrinLLM测试结果QwenSGLangOllama

边缘 AI 硬件已经不只适合跑摄像头管线和轻量检测模型。只要内存足够、推理框架合适,Jetson ThorJetson Orin 64GB 这类设备已经可以承载本地语言模型,用于机器人、工业巡检、私有助手和现场自动化。

本次测试使用两台真实设备:

  • Jetson Thor100.98.202.31
  • Jetson Orin 64GB100.97.175.73

这不是合成排行榜,而是一份工程测试笔记:设备上实际跑了什么服务、模型是否能正常响应、速度体感如何,以及我会把它们分别用于哪些场景。

测试配置

设备运行方式模型API
Jetson ThorSGLangQwen3.6-35B-A3B-FP8OpenAI 兼容 /v1/chat/completions
Jetson Orin 64GBOllamaQwen2.5 0.5B Q4_K_MOllama /api/generate

测试 prompt 覆盖三类常见本地 AI 任务:

  1. 中文边缘 AI 场景问答
  2. 英文摘要
  3. 简短代码解释

每次输出限制在约 160 token 左右,适合观察交互式响应表现,不把测试变成长文本生成跑分。

快速结果

设备模型测试项结果
Jetson ThorQwen3.6-35B-A3B-FP83 / 3 通过160 token 响应约 11.2 秒
Jetson Orin 64GBQwen2.5 0.5B Q4_K_M3 / 3 通过约 145 tokens/s

Thor 的结果需要结合上下文理解:测试时设备上已有 SGLang scheduler 和另一个 Python 服务在消耗资源。即便如此,35B FP8 模型依然完成了全部 prompt。

Orin 使用的是更小的 0.5B 模型,因此它不是质量对比;但这个结果很适合作为轻量本地助手和自动化控制流的速度基线。

Thor:边缘设备上的大模型本地推理

Thor 当前运行:

Qwen3.6-35B-A3B-FP8
SGLang
Context length: 8192
Served model name: qwen3.6

实测响应耗时:

测试项输出 Token耗时
中文问答16010.953s
英文摘要16011.181s
代码解释16011.511s

在当前负载条件下,观测速度约为 14 tokens/s

适合场景

Thor 更适合较重的本地 LLM 任务:

  • 私有产品资料客服助手
  • 结合摄像头和 LiDAR 的机器人场景理解
  • 工业巡检报告现场生成
  • 内部知识库问答,数据不离开设备

如果进入生产测试,我会继续补充:

  • 冷启动/预热后的延迟差异
  • 并发请求
  • prompt 长度敏感性
  • 不同量化方案
  • JSON 输出稳定性
  • 视觉语言模型吞吐量

Orin 64GB:小模型高速度本地推理

Orin 64GB 当前通过 Ollama 运行:

qwen2.5:0.5b
GGUF Q4_K_M

实测结果:

测试项输出 Token耗时速度
中文问答1603.255s144.28 tokens/s
英文摘要890.901s147.06 tokens/s
代码解释500.600s145.22 tokens/s

这类小模型不一定替代云端大模型,但速度足够用于:

  • 设备菜单助手
  • 简单中英文问答
  • 本地命令解析
  • 短文本摘要
  • 自动化流程
  • 离线 Demo 体验

如何选型

选择 Jetson Thor,如果你需要:

  • 更大模型
  • 更复杂推理
  • 多模态机器人 Demo
  • SGLang 或 OpenAI 兼容本地服务
  • 后续视觉语言模型测试空间

选择 Jetson Orin 64GB,如果你需要:

  • 稳定的边缘部署
  • 比高端平台更低的成本
  • 小模型本地助手
  • 视觉检测 + 轻量语言输出
  • 本地自动化和工业 Demo

商业转化角度

对客户最有价值的不是单纯问“哪个硬件跑分最高”,而是:

在客户购买或部署硬件前,用真实模型、真实设备、真实业务流程做一次可复现测试。

这对设备代理商、工厂、机器人团队和想做 AI 私有化的小企业都更有价值。客户通常不知道自己到底需要 Thor、Orin、工作站还是云 API,真机测试能直接降低选型风险。

这类内容可以沉淀成三个服务:

  1. 边缘 AI 模型可行性测试
  2. 私有化本地 AI 助手 Demo
  3. 机器人感知与报告生成原型

下一轮测试计划

下一轮建议补充:

  • Orin 64GB 上的 Qwen 7B / 14B
  • Thor 与 Orin 使用同一套 prompt
  • 并发请求测试
  • 内存和功耗记录
  • 摄像头图像输入的 VLM 测试
  • 产品文档 RAG 长上下文测试

这些测试比单次速度数字更有价值,因为它们直接对应真实部署决策。

结论

本次测试中,Thor 成功通过 SGLang 运行 35B FP8 模型,而 Orin 64GB 通过 Ollama 运行小 Qwen2.5 模型时响应非常快

产品方向很清晰:

  • Thor 适合高端边缘推理和机器人 Demo
  • Orin 64GB 适合本地助手、自动化、视觉检测 + 语言输出原型

如果要选边缘 AI 硬件,不要只看规格表。先确定模型、prompt、摄像头或文档输入,以及目标延迟,再用真实工作流跑一次测试。