Gemma 4 12B 推理测试:Jetson AGX Thor vs RTX 3090
本文所有数据来自真机测试。没有合成数据,没有厂商规格表——直接用 llama-bench 对两个平台上运行的真实模型发起测试。
Gemma 4 12B 是什么?
Gemma 4 12B 是 Google Gemma 4 系列中的 120 亿参数模型。部署前需要了解的关键信息:
- 119.1 亿参数(Q4_K_M 量化后:磁盘占用 6.86 GiB)
- 多模态:内置视觉投影器(
mmproj-gemma-4-12B-it-bf16.gguf),支持图像理解 - 架构:
gemma4,需要 llama.cpp 构建版本 ≥ 9000 才能加载 - 测试量化版本:Q4_K_M(4-bit,中等质量)
本次基准测试覆盖纯文本推理,使用 llama.cpp 在两个平台上测试。
测试环境
| 规格 | Jetson AGX Thor | RTX 3090(feolpc) |
|---|---|---|
| GPU | NVIDIA Thor | NVIDIA GeForce RTX 3090 |
| 显存 / 统一内存 | 122.8 GiB | 24 GiB |
| CUDA 版本 | 13.0 | 12.1 |
| 计算能力 | 11.0 | 8.6 |
| 系统环境 | JetPack 6.8.12-tegra(ARM64) | Ubuntu 22.04(x86_64) |
| llama.cpp 构建版本 | 9159(5c0e94683) | 9496 |
| 模型 | gemma4 11.91B Q4_K_M | gemma4 11.91B Q4_K_M |
| Flash Attention | ✓ | ✓ |
| GPU 层卸载 | 999 层(全量) | 999 层(全量) |
测试命令
两台机器使用相同命令:
LD_LIBRARY_PATH=build/bin build/bin/llama-bench \
-m /path/to/gemma4-12b-Q4_K_M.gguf \
-ngl 999 -fa 1 \
-p 32,128,512 -n 64,128 \
-r 3
-ngl 999:全部层加载到 GPU-fa 1:开启 Flash Attention-p:提示词 token 数(预填充测试)-n:输出 token 数(生成速度测试)-r 3:运行 3 次取平均值
测试结果
Jetson AGX Thor
Device 0: NVIDIA Thor, compute capability 11.0, VMM: yes, VRAM: 125771 MiB
| 模型 | 大小 | 后端 | 测试场景 | 速度(t/s) |
|---|---|---|---|---|
| gemma4 11.91B Q4_K_M | 6.86 GiB | CUDA | pp32 | 366.81 ± 11.59 |
| gemma4 11.91B Q4_K_M | 6.86 GiB | CUDA | pp128 | 755.17 ± 28.85 |
| gemma4 11.91B Q4_K_M | 6.86 GiB | CUDA | pp512 | 791.97 ± 50.70 |
| gemma4 11.91B Q4_K_M | 6.86 GiB | CUDA | tg64 | 18.48 ± 0.32 |
| gemma4 11.91B Q4_K_M | 6.86 GiB | CUDA | tg128 | 18.65 ± 0.16 |
RTX 3090
Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes, VRAM: 24251 MiB
| 模型 | 大小 | 后端 | 测试场景 | 速度(t/s) |
|---|---|---|---|---|
| gemma4 11.91B Q4_K_M | 6.86 GiB | CUDA | pp32 | 1099.89 ± 377.14 |
| gemma4 11.91B Q4_K_M | 6.86 GiB | CUDA | pp128 | 2158.47 ± 135.86 |
| gemma4 11.91B Q4_K_M | 6.86 GiB | CUDA | pp512 | 2702.24 ± 10.83 |
| gemma4 11.91B Q4_K_M | 6.86 GiB | CUDA | tg64 | 70.30 ± 0.54 |
| gemma4 11.91B Q4_K_M | 6.86 GiB | CUDA | tg128 | 70.66 ± 0.22 |
双机对比
| 测试场景 | Jetson AGX Thor | RTX 3090 | 3090 优势 |
|---|---|---|---|
| pp32 | 366.81 t/s | 1099.89 t/s | 3.0× |
| pp128 | 755.17 t/s | 2158.47 t/s | 2.9× |
| pp512 | 791.97 t/s | 2702.24 t/s | 3.4× |
| tg64 | 18.48 t/s | 70.30 t/s | 3.8× |
| tg128 | 18.65 t/s | 70.66 t/s | 3.8× |
RTX 3090 在各项测试中均比 Jetson Thor 快 3–4 倍。原因明确:3090 显存带宽约 936 GB/s,而 Thor 统一内存带宽约 680 GB/s,加上 3090 的 CUDA 核心数量更多。
结果分析
Thor:18.65 t/s 生成速度
人类阅读速度约为 3–5 token/秒。18.65 t/s 约为人类阅读速度的 4–6 倍——实时交互完全流畅,没有等待感。
与 Thor 此前测试结果对比:
| 模型 | 占用内存 | 生成速度 |
|---|---|---|
| Qwen3.6-35B-A3B FP8(SGLang) | ~36 GB | 14.7 t/s |
| Gemma 4 12B Q4_K_M(llama.cpp) | 6.86 GB | 18.65 t/s |
| Qwen2.5-1.5B Q4_K_M(llama.cpp) | 1.04 GB | 107–113 t/s |
Gemma 4 12B 比 35B 的 Qwen 模型更快,原因是显存占用少 5 倍,带宽压力更低。
RTX 3090:70.66 t/s 生成速度
70.66 t/s 约为人类阅读速度的 14–23 倍,适合:
- 批量生成任务
- 开发调试与迭代
- 多用户并发推理服务
512 token 提示词的预填充速度达到 2702 t/s,处理时间不超过 190ms——对任何应用都几乎无感知。
内存占用
6.86 GiB 的模型在两个平台上都很轻量:
- Thor(122.8 GiB 统一内存):模型仅占 5.6%,剩余空间可同时部署其他模型、支持超长上下文
- RTX 3090(24 GiB 显存):模型占 28%,KV Cache 空间充裕
预填充速度
Thor 的 792 t/s 和 3090 的 2702 t/s 分别对应 512 token 提示词处理时间约 650ms 和 190ms——两台机器上对话应用的提示词处理都基本无感知。
边缘 AI 部署参考
选择 Jetson AGX Thor,如果你需要:
- 设备端私有多模态 AI(文本 + 视觉)
- 无需云端依赖的 12B 级推理能力
- 长上下文场景(122 GB 统一内存可支撑极大的 KV Cache)
- 7×24 小时不间断边缘部署
选择 RTX 3090,如果你需要:
- 批量任务的更高生成吞吐量
- 更快的研发迭代周期
- 与现有 x86_64 ML 工具链的兼容性
模型架构说明
Gemma 4 12B 内置视觉投影器(mmproj),是一个视觉语言模型(VLM)。本次测试为纯文本推理——纯文本模式下投影器不被加载。
如需视觉任务,需同时加载投影器并在提示词中传入图像 token。视觉+文本场景下的生成速度会因投影器计算而略低于纯文本。
复现测试
# 下载模型(需要已接受 Gemma 使用条款的 HuggingFace 账号)
# Thor 上运行
cd ~/kwkthor/llama.cpp
LD_LIBRARY_PATH=build/bin build/bin/llama-bench \
-m /path/to/gemma-4-12B-Q4_K_M.gguf \
-ngl 999 -fa 1 -p 32,128,512 -n 64,128 -r 3
# RTX 3090 上运行
cd ~/llama.cpp
LD_LIBRARY_PATH=build/lib build/bin/llama-bench \
-m /path/to/gemma-4-12B-Q4_K_M.gguf \
-ngl 999 -fa 1 -p 32,128,512 -n 64,128 -r 3
测试数据采集于 2026 年 6 月 4 日。不同量化版本、llama.cpp 版本或散热状态下结果可能存在差异。