Jetson AGX Thor LLM 推理测试（2026）：Qwen3.6-35B 和 Qwen2.5-1.5B 真机数据

本文所有数据均来自 Jetson AGX Thor Developer Kit 真机测试，非合成数据，非厂商规格表——直接用 curl 和 llama-bench 对运行中的模型发起测试。

测试环境

设备	NVIDIA Jetson AGX Thor Developer Kit
CUDA 版本	13.0
计算能力	11.0
统一显存	125,771 MiB（约 123 GB）
系统总内存	122 GB
JetPack / 内核	6.8.12-tegra
存储	936 GB NVMe
GPU 温度（空闲）	59°C

模型一：Qwen3.6-35B-A3B-FP8（SGLang）

部署方式

35B 模型以持久化 SGLang 服务方式运行：

python3 -m sglang.launch_server \
  --model-path /models/Qwen3.6-35B-A3B-FP8 \
  --host 0.0.0.0 \
  --port 8080 \
  --served-model-name qwen3.6 \
  --trust-remote-code

使用 FP8 量化版本。得益于 123 GB 统一内存，模型完整加载无需卸载——服务运行时系统内存占用约 101 GB。

测试结果

生成速度（输出 token/秒，3次平均）：

测试场景	提示词 Token 数	输出 Token 数	耗时	速度
短提示词	24	200	13.69s	14.6 t/s
长提示词	268	300	20.37s	14.7 t/s

首 Token 延迟（TTFT，流式，3次测试）：

次数	TTFT
冷启动（首次请求）	0.282s
预热后（第2次）	0.101s
预热后（第3次）	0.101s
平均值	0.161s

内存占用：

指标	数值
服务空闲时系统内存	~65 GB
模型加载后系统内存	~101 GB
模型内存占用（FP8，35B）	~36 GB
剩余可用内存	~21 GB

14.6 t/s 意味着什么

人类阅读速度约为 3–5 token/秒。14.6 t/s 大约是人类阅读速度的 3 倍——用于实时对话、Copilot 工具和 Agent 工作流，体验流畅没有卡顿感。

对比参考：云端 GPT-4o 通常能达到 40–80 t/s，但需要网络连接，数据离开设备，且按 token 计费。Thor 以 14.6 t/s 换来完全本地执行，数据不出设备。

模型二：Qwen2.5-1.5B Q4_K_M（llama.cpp CUDA）

部署方式

LD_LIBRARY_PATH=build/bin ./build/bin/llama-bench \
  -m /models/qwen2.5-1.5b/qwen2.5-1.5b-instruct-q4_k_m.gguf \
  -ngl 999 -fa 1 \
  -p 128,512 -n 128,256 \
  -r 3

全部层卸载到 GPU（-ngl 999），开启 Flash Attention（-fa 1）。

测试结果

模型	大小	后端	Flash Attn	测试场景	速度（t/s）
Qwen2.5-1.5B Q4_K_M	1.04 GiB	CUDA	✓	预填充 128t	3,639.6 ± 403.6
Qwen2.5-1.5B Q4_K_M	1.04 GiB	CUDA	✓	预填充 512t	4,298.3 ± 158.5
Qwen2.5-1.5B Q4_K_M	1.04 GiB	CUDA	✓	生成 128t	106.8 ± 6.4
Qwen2.5-1.5B Q4_K_M	1.04 GiB	CUDA	✓	生成 256t	112.8 ± 0.1

结果分析

107–113 t/s 的生成速度约为人类阅读速度的 22–30 倍，适用于：

语音转文字实时管道（转录速度必须跟上语速）
高吞吐量分类或信息抽取任务
延迟要求极低的多轮对话场景

512 token 上下文的预填充速度达到 4,298 t/s，意味着长提示词的处理时间不超过 120ms——对绝大多数应用几乎无感知。

Thor vs Orin：能力对比

实验室同时部署了一台 Jetson AGX Orin Developer Kit（100.97.175.73），规格对比如下：

规格	Thor	Orin
CUDA 版本	13.0	12.6
计算能力	11.0	8.7
统一显存	123 GB	61 GB
系统内存	122 GB	61 GB
最大模型规模（FP16）	~600亿参数	~300亿参数
最大模型规模（Q4）	~2300亿参数	~1150亿参数

Thor 2 倍的内存优势是核心差距。35B FP8 模型在 Orin 上无法不卸载地完整加载，而在 Thor 上加载后还剩 21 GB 余量。

对于 13B 以下的模型，Orin 仍然是性价比很强的选择。Qwen2.5-7B Q4_K_M 可以完整加载到 Orin 的 61 GB 统一内存，生成速度约为 28–35 t/s。

核心结论

面向边缘 AI 部署的关键判断：

35B+ 模型已可本地部署 — Thor 的 123 GB 统一内存让完整推理模型在无网络环境下本地运行成为现实。
FP8 量化是最佳平衡点 — Qwen3.6-35B-A3B-FP8 以 14.6 t/s 的速度运行，占用约 36 GB——大约是 BF16 版本的一半。
小模型速度极快 — 1.5B 模型 107+ t/s，完全满足实时应用对速度的要求。
35B 模型 TTFT 低于 0.2s — 0.16s 的平均首 Token 延迟对边缘硬件来说非常出色，用户感知不到任何等待感。
SGLang 在 Tegra 平台上已具生产级稳定性 — SGLang 服务自 5 月 25 日持续运行，调度器累计运行 9,781 CPU 小时，未见异常。

复现测试

# Qwen2.5-1.5B via llama.cpp
cd ~/kwkthor/llama.cpp
LD_LIBRARY_PATH=build/bin build/bin/llama-bench \
  -m /home/nvidia/models/qwen2.5-1.5b/qwen2.5-1.5b-instruct-q4_k_m.gguf \
  -ngl 999 -fa 1 -p 128,512 -n 128,256 -r 3

# Qwen3.6-35B via SGLang API
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"qwen3.6","messages":[{"role":"user","content":"你好"}],"max_tokens":100}'

本文测试数据采集于 2026 年 6 月 1 日，硬件为实际运行设备。不同 JetPack 版本、SGLang 版本或散热状态下结果可能存在差异。