Jetson AGX Thor LLM 推理测试(2026):Qwen3.6-35B 和 Qwen2.5-1.5B 真机数据
本文所有数据均来自 Jetson AGX Thor Developer Kit 真机测试,非合成数据,非厂商规格表——直接用 curl 和 llama-bench 对运行中的模型发起测试。
测试环境
| 设备 | NVIDIA Jetson AGX Thor Developer Kit | |---|---| | CUDA 版本 | 13.0 | | 计算能力 | 11.0 | | 统一显存 | 125,771 MiB(约 123 GB)| | 系统总内存 | 122 GB | | JetPack / 内核 | 6.8.12-tegra | | 存储 | 936 GB NVMe | | GPU 温度(空闲)| 59°C |
模型一:Qwen3.6-35B-A3B-FP8(SGLang)
部署方式
35B 模型以持久化 SGLang 服务方式运行:
python3 -m sglang.launch_server \
--model-path /models/Qwen3.6-35B-A3B-FP8 \
--host 0.0.0.0 \
--port 8080 \
--served-model-name qwen3.6 \
--trust-remote-code
使用 FP8 量化版本。得益于 123 GB 统一内存,模型完整加载无需卸载——服务运行时系统内存占用约 101 GB。
测试结果
生成速度(输出 token/秒,3次平均):
| 测试场景 | 提示词 Token 数 | 输出 Token 数 | 耗时 | 速度 | |---|---|---|---|---| | 短提示词 | 24 | 200 | 13.69s | 14.6 t/s | | 长提示词 | 268 | 300 | 20.37s | 14.7 t/s |
首 Token 延迟(TTFT,流式,3次测试):
| 次数 | TTFT | |---|---| | 冷启动(首次请求)| 0.282s | | 预热后(第2次)| 0.101s | | 预热后(第3次)| 0.101s | | 平均值 | 0.161s |
内存占用:
| 指标 | 数值 | |---|---| | 服务空闲时系统内存 | ~65 GB | | 模型加载后系统内存 | ~101 GB | | 模型内存占用(FP8,35B)| ~36 GB | | 剩余可用内存 | ~21 GB |
14.6 t/s 意味着什么
人类阅读速度约为 3–5 token/秒。14.6 t/s 大约是人类阅读速度的 3 倍——用于实时对话、Copilot 工具和 Agent 工作流,体验流畅没有卡顿感。
对比参考:云端 GPT-4o 通常能达到 40–80 t/s,但需要网络连接,数据离开设备,且按 token 计费。Thor 以 14.6 t/s 换来完全本地执行,数据不出设备。
模型二:Qwen2.5-1.5B Q4_K_M(llama.cpp CUDA)
部署方式
LD_LIBRARY_PATH=build/bin ./build/bin/llama-bench \
-m /models/qwen2.5-1.5b/qwen2.5-1.5b-instruct-q4_k_m.gguf \
-ngl 999 -fa 1 \
-p 128,512 -n 128,256 \
-r 3
全部层卸载到 GPU(-ngl 999),开启 Flash Attention(-fa 1)。
测试结果
| 模型 | 大小 | 后端 | Flash Attn | 测试场景 | 速度(t/s)| |---|---|---|---|---|---| | Qwen2.5-1.5B Q4_K_M | 1.04 GiB | CUDA | ✓ | 预填充 128t | 3,639.6 ± 403.6 | | Qwen2.5-1.5B Q4_K_M | 1.04 GiB | CUDA | ✓ | 预填充 512t | 4,298.3 ± 158.5 | | Qwen2.5-1.5B Q4_K_M | 1.04 GiB | CUDA | ✓ | 生成 128t | 106.8 ± 6.4 | | Qwen2.5-1.5B Q4_K_M | 1.04 GiB | CUDA | ✓ | 生成 256t | 112.8 ± 0.1 |
结果分析
107–113 t/s 的生成速度约为人类阅读速度的 22–30 倍,适用于:
- 语音转文字实时管道(转录速度必须跟上语速)
- 高吞吐量分类或信息抽取任务
- 延迟要求极低的多轮对话场景
512 token 上下文的预填充速度达到 4,298 t/s,意味着长提示词的处理时间不超过 120ms——对绝大多数应用几乎无感知。
Thor vs Orin:能力对比
实验室同时部署了一台 Jetson AGX Orin Developer Kit(100.97.175.73),规格对比如下:
| 规格 | Thor | Orin | |---|---|---| | CUDA 版本 | 13.0 | 12.6 | | 计算能力 | 11.0 | 8.7 | | 统一显存 | 123 GB | 61 GB | | 系统内存 | 122 GB | 61 GB | | 最大模型规模(FP16)| ~600亿参数 | ~300亿参数 | | 最大模型规模(Q4)| ~2300亿参数 | ~1150亿参数 |
Thor 2 倍的内存优势是核心差距。35B FP8 模型在 Orin 上无法不卸载地完整加载,而在 Thor 上加载后还剩 21 GB 余量。
对于 13B 以下的模型,Orin 仍然是性价比很强的选择。Qwen2.5-7B Q4_K_M 可以完整加载到 Orin 的 61 GB 统一内存,生成速度约为 28–35 t/s。
核心结论
面向边缘 AI 部署的关键判断:
-
35B+ 模型已可本地部署 — Thor 的 123 GB 统一内存让完整推理模型在无网络环境下本地运行成为现实。
-
FP8 量化是最佳平衡点 — Qwen3.6-35B-A3B-FP8 以 14.6 t/s 的速度运行,占用约 36 GB——大约是 BF16 版本的一半。
-
小模型速度极快 — 1.5B 模型 107+ t/s,完全满足实时应用对速度的要求。
-
35B 模型 TTFT 低于 0.2s — 0.16s 的平均首 Token 延迟对边缘硬件来说非常出色,用户感知不到任何等待感。
-
SGLang 在 Tegra 平台上已具生产级稳定性 — SGLang 服务自 5 月 25 日持续运行,调度器累计运行 9,781 CPU 小时,未见异常。
复现测试
# Qwen2.5-1.5B via llama.cpp
cd ~/kwkthor/llama.cpp
LD_LIBRARY_PATH=build/bin build/bin/llama-bench \
-m /home/nvidia/models/qwen2.5-1.5b/qwen2.5-1.5b-instruct-q4_k_m.gguf \
-ngl 999 -fa 1 -p 128,512 -n 128,256 -r 3
# Qwen3.6-35B via SGLang API
curl http://localhost:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"qwen3.6","messages":[{"role":"user","content":"你好"}],"max_tokens":100}'
本文测试数据采集于 2026 年 6 月 1 日,硬件为实际运行设备。不同 JetPack 版本、SGLang 版本或散热状态下结果可能存在差异。