Jetson AGX Orin 上运行 LLM 的实测数据
JetsonLLM边缘推理benchmark
测试环境
- 设备:NVIDIA Jetson AGX Orin 64GB
- JetPack:6.1
- 推理框架:llama.cpp(CUDA 后端)
测试结果
| 模型 | 量化 | Token/s | 首 token 延迟 | 显存 | |------|------|---------|-------------|------| | Llama 3.1 8B | Q4_K_M | 28 | 1.2s | 5.8 GB | | Qwen2.5 7B | Q4_K_M | 31 | 1.0s | 5.2 GB | | Phi-3 Mini | Q4_K_M | 47 | 0.7s | 2.8 GB |
结论
Phi-3 Mini 在速度和显存上优势明显,适合对话类应用。Qwen2.5 7B 中文效果更好,是中文知识库问答的优先选择。
# 启动推理服务示例
./llama-server -m qwen2.5-7b-q4_k_m.gguf -ngl 999 --host 0.0.0.0 --port 8080
后续会补充 Jetson AGX Thor 和 DGX Spark 的对比数据。