Gemma 4 12B 推理测试：Jetson AGX Thor vs RTX 3090

本文所有数据来自真机测试。没有合成数据，没有厂商规格表——直接用 llama-bench 对两个平台上运行的真实模型发起测试。

Gemma 4 12B 是什么？

Gemma 4 12B 是 Google Gemma 4 系列中的 120 亿参数模型。部署前需要了解的关键信息：

119.1 亿参数（Q4_K_M 量化后：磁盘占用 6.86 GiB）
多模态：内置视觉投影器（mmproj-gemma-4-12B-it-bf16.gguf），支持图像理解
架构：gemma4，需要 llama.cpp 构建版本 ≥ 9000 才能加载
测试量化版本：Q4_K_M（4-bit，中等质量）

本次基准测试覆盖纯文本推理，使用 llama.cpp 在两个平台上测试。

测试环境

规格	Jetson AGX Thor	RTX 3090（feolpc）
GPU	NVIDIA Thor	NVIDIA GeForce RTX 3090
显存 / 统一内存	122.8 GiB	24 GiB
CUDA 版本	13.0	12.1
计算能力	11.0	8.6
系统环境	JetPack 6.8.12-tegra（ARM64）	Ubuntu 22.04（x86_64）
llama.cpp 构建版本	9159（5c0e94683）	9496
模型	gemma4 11.91B Q4_K_M	gemma4 11.91B Q4_K_M
Flash Attention	✓	✓
GPU 层卸载	999 层（全量）	999 层（全量）

测试命令

两台机器使用相同命令：

LD_LIBRARY_PATH=build/bin build/bin/llama-bench \
  -m /path/to/gemma4-12b-Q4_K_M.gguf \
  -ngl 999 -fa 1 \
  -p 32,128,512 -n 64,128 \
  -r 3

-ngl 999：全部层加载到 GPU
-fa 1：开启 Flash Attention
-p：提示词 token 数（预填充测试）
-n：输出 token 数（生成速度测试）
-r 3：运行 3 次取平均值

测试结果

Jetson AGX Thor

Device 0: NVIDIA Thor, compute capability 11.0, VMM: yes, VRAM: 125771 MiB

模型	大小	后端	测试场景	速度（t/s）
gemma4 11.91B Q4_K_M	6.86 GiB	CUDA	pp32	366.81 ± 11.59
gemma4 11.91B Q4_K_M	6.86 GiB	CUDA	pp128	755.17 ± 28.85
gemma4 11.91B Q4_K_M	6.86 GiB	CUDA	pp512	791.97 ± 50.70
gemma4 11.91B Q4_K_M	6.86 GiB	CUDA	tg64	18.48 ± 0.32
gemma4 11.91B Q4_K_M	6.86 GiB	CUDA	tg128	18.65 ± 0.16

RTX 3090

Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes, VRAM: 24251 MiB

模型	大小	后端	测试场景	速度（t/s）
gemma4 11.91B Q4_K_M	6.86 GiB	CUDA	pp32	1099.89 ± 377.14
gemma4 11.91B Q4_K_M	6.86 GiB	CUDA	pp128	2158.47 ± 135.86
gemma4 11.91B Q4_K_M	6.86 GiB	CUDA	pp512	2702.24 ± 10.83
gemma4 11.91B Q4_K_M	6.86 GiB	CUDA	tg64	70.30 ± 0.54
gemma4 11.91B Q4_K_M	6.86 GiB	CUDA	tg128	70.66 ± 0.22

双机对比

测试场景	Jetson AGX Thor	RTX 3090	3090 优势
pp32	366.81 t/s	1099.89 t/s	3.0×
pp128	755.17 t/s	2158.47 t/s	2.9×
pp512	791.97 t/s	2702.24 t/s	3.4×
tg64	18.48 t/s	70.30 t/s	3.8×
tg128	18.65 t/s	70.66 t/s	3.8×

RTX 3090 在各项测试中均比 Jetson Thor 快 3–4 倍。原因明确：3090 显存带宽约 936 GB/s，而 Thor 统一内存带宽约 680 GB/s，加上 3090 的 CUDA 核心数量更多。

结果分析

Thor：18.65 t/s 生成速度

人类阅读速度约为 3–5 token/秒。18.65 t/s 约为人类阅读速度的 4–6 倍——实时交互完全流畅，没有等待感。

与 Thor 此前测试结果对比：

模型	占用内存	生成速度
Qwen3.6-35B-A3B FP8（SGLang）	~36 GB	14.7 t/s
Gemma 4 12B Q4_K_M（llama.cpp）	6.86 GB	18.65 t/s
Qwen2.5-1.5B Q4_K_M（llama.cpp）	1.04 GB	107–113 t/s

Gemma 4 12B 比 35B 的 Qwen 模型更快，原因是显存占用少 5 倍，带宽压力更低。

RTX 3090：70.66 t/s 生成速度

70.66 t/s 约为人类阅读速度的 14–23 倍，适合：

批量生成任务
开发调试与迭代
多用户并发推理服务

512 token 提示词的预填充速度达到 2702 t/s，处理时间不超过 190ms——对任何应用都几乎无感知。

内存占用

6.86 GiB 的模型在两个平台上都很轻量：

Thor（122.8 GiB 统一内存）：模型仅占 5.6%，剩余空间可同时部署其他模型、支持超长上下文
RTX 3090（24 GiB 显存）：模型占 28%，KV Cache 空间充裕

预填充速度

Thor 的 792 t/s 和 3090 的 2702 t/s 分别对应 512 token 提示词处理时间约 650ms 和 190ms——两台机器上对话应用的提示词处理都基本无感知。

边缘 AI 部署参考

选择 Jetson AGX Thor，如果你需要：

设备端私有多模态 AI（文本 + 视觉）
无需云端依赖的 12B 级推理能力
长上下文场景（122 GB 统一内存可支撑极大的 KV Cache）
7×24 小时不间断边缘部署

选择 RTX 3090，如果你需要：

批量任务的更高生成吞吐量
更快的研发迭代周期
与现有 x86_64 ML 工具链的兼容性

模型架构说明

Gemma 4 12B 内置视觉投影器（mmproj），是一个视觉语言模型（VLM）。本次测试为纯文本推理——纯文本模式下投影器不被加载。

如需视觉任务，需同时加载投影器并在提示词中传入图像 token。视觉+文本场景下的生成速度会因投影器计算而略低于纯文本。

复现测试

# 下载模型（需要已接受 Gemma 使用条款的 HuggingFace 账号）

# Thor 上运行
cd ~/kwkthor/llama.cpp
LD_LIBRARY_PATH=build/bin build/bin/llama-bench \
  -m /path/to/gemma-4-12B-Q4_K_M.gguf \
  -ngl 999 -fa 1 -p 32,128,512 -n 64,128 -r 3

# RTX 3090 上运行
cd ~/llama.cpp
LD_LIBRARY_PATH=build/lib build/bin/llama-bench \
  -m /path/to/gemma-4-12B-Q4_K_M.gguf \
  -ngl 999 -fa 1 -p 32,128,512 -n 64,128 -r 3

测试数据采集于 2026 年 6 月 4 日。不同量化版本、llama.cpp 版本或散热状态下结果可能存在差异。