Jetson Thor vs Jetson Orin 64GB：本地 LLM 真机测试笔记

边缘 AI 硬件已经不只适合跑摄像头管线和轻量检测模型。只要内存足够、推理框架合适，Jetson Thor 和 Jetson Orin 64GB 这类设备已经可以承载本地语言模型，用于机器人、工业巡检、私有助手和现场自动化。

本次测试使用两台真实设备：

Jetson Thor：100.98.202.31
Jetson Orin 64GB：100.97.175.73

这不是合成排行榜，而是一份工程测试笔记：设备上实际跑了什么服务、模型是否能正常响应、速度体感如何，以及我会把它们分别用于哪些场景。

测试配置

设备	运行方式	模型	API
Jetson Thor	SGLang	Qwen3.6-35B-A3B-FP8	OpenAI 兼容 `/v1/chat/completions`
Jetson Orin 64GB	Ollama	Qwen2.5 0.5B Q4_K_M	Ollama `/api/generate`

测试 prompt 覆盖三类常见本地 AI 任务：

中文边缘 AI 场景问答
英文摘要
简短代码解释

每次输出限制在约 160 token 左右，适合观察交互式响应表现，不把测试变成长文本生成跑分。

快速结果

设备	模型	测试项	结果
Jetson Thor	Qwen3.6-35B-A3B-FP8	3 / 3 通过	160 token 响应约 11.2 秒
Jetson Orin 64GB	Qwen2.5 0.5B Q4_K_M	3 / 3 通过	约 145 tokens/s

Thor 的结果需要结合上下文理解：测试时设备上已有 SGLang scheduler 和另一个 Python 服务在消耗资源。即便如此，35B FP8 模型依然完成了全部 prompt。

Orin 使用的是更小的 0.5B 模型，因此它不是质量对比；但这个结果很适合作为轻量本地助手和自动化控制流的速度基线。

Thor：边缘设备上的大模型本地推理

Thor 当前运行：

Qwen3.6-35B-A3B-FP8
SGLang
Context length: 8192
Served model name: qwen3.6

实测响应耗时：

测试项	输出 Token	耗时
中文问答	160	10.953s
英文摘要	160	11.181s
代码解释	160	11.511s

在当前负载条件下，观测速度约为 14 tokens/s。

适合场景

Thor 更适合较重的本地 LLM 任务：

私有产品资料客服助手
结合摄像头和 LiDAR 的机器人场景理解
工业巡检报告现场生成
内部知识库问答，数据不离开设备

如果进入生产测试，我会继续补充：

冷启动/预热后的延迟差异
并发请求
prompt 长度敏感性
不同量化方案
JSON 输出稳定性
视觉语言模型吞吐量

Orin 64GB：小模型高速度本地推理

Orin 64GB 当前通过 Ollama 运行：

qwen2.5:0.5b
GGUF Q4_K_M

实测结果：

测试项	输出 Token	耗时	速度
中文问答	160	3.255s	144.28 tokens/s
英文摘要	89	0.901s	147.06 tokens/s
代码解释	50	0.600s	145.22 tokens/s

这类小模型不一定替代云端大模型，但速度足够用于：

设备菜单助手
简单中英文问答
本地命令解析
短文本摘要
自动化流程
离线 Demo 体验

如何选型

选择 Jetson Thor，如果你需要：

更大模型
更复杂推理
多模态机器人 Demo
SGLang 或 OpenAI 兼容本地服务
后续视觉语言模型测试空间

选择 Jetson Orin 64GB，如果你需要：

稳定的边缘部署
比高端平台更低的成本
小模型本地助手
视觉检测 + 轻量语言输出
本地自动化和工业 Demo

商业转化角度

对客户最有价值的不是单纯问“哪个硬件跑分最高”，而是：

在客户购买或部署硬件前，用真实模型、真实设备、真实业务流程做一次可复现测试。

这对设备代理商、工厂、机器人团队和想做 AI 私有化的小企业都更有价值。客户通常不知道自己到底需要 Thor、Orin、工作站还是云 API，真机测试能直接降低选型风险。

这类内容可以沉淀成三个服务：

边缘 AI 模型可行性测试
私有化本地 AI 助手 Demo
机器人感知与报告生成原型

下一轮测试计划

下一轮建议补充：

Orin 64GB 上的 Qwen 7B / 14B
Thor 与 Orin 使用同一套 prompt
并发请求测试
内存和功耗记录
摄像头图像输入的 VLM 测试
产品文档 RAG 长上下文测试

这些测试比单次速度数字更有价值，因为它们直接对应真实部署决策。

结论

本次测试中，Thor 成功通过 SGLang 运行 35B FP8 模型，而 Orin 64GB 通过 Ollama 运行小 Qwen2.5 模型时响应非常快。

产品方向很清晰：

Thor 适合高端边缘推理和机器人 Demo
Orin 64GB 适合本地助手、自动化、视觉检测 + 语言输出原型

如果要选边缘 AI 硬件，不要只看规格表。先确定模型、prompt、摄像头或文档输入，以及目标延迟，再用真实工作流跑一次测试。