MultimodalFlow
← 返回博客

Gemma 4 12B 推理测试:Jetson AGX Thor vs RTX 3090

Gemma4测试结果JetsonThorRTX 3090LLM边缘推理llama.cpp

本文所有数据来自真机测试。没有合成数据,没有厂商规格表——直接用 llama-bench 对两个平台上运行的真实模型发起测试。


Gemma 4 12B 是什么?

Gemma 4 12B 是 Google Gemma 4 系列中的 120 亿参数模型。部署前需要了解的关键信息:

  • 119.1 亿参数(Q4_K_M 量化后:磁盘占用 6.86 GiB)
  • 多模态:内置视觉投影器(mmproj-gemma-4-12B-it-bf16.gguf),支持图像理解
  • 架构gemma4,需要 llama.cpp 构建版本 ≥ 9000 才能加载
  • 测试量化版本:Q4_K_M(4-bit,中等质量)

本次基准测试覆盖纯文本推理,使用 llama.cpp 在两个平台上测试。


测试环境

规格Jetson AGX ThorRTX 3090(feolpc)
GPUNVIDIA ThorNVIDIA GeForce RTX 3090
显存 / 统一内存122.8 GiB24 GiB
CUDA 版本13.012.1
计算能力11.08.6
系统环境JetPack 6.8.12-tegra(ARM64)Ubuntu 22.04(x86_64)
llama.cpp 构建版本9159(5c0e94683)9496
模型gemma4 11.91B Q4_K_Mgemma4 11.91B Q4_K_M
Flash Attention
GPU 层卸载999 层(全量)999 层(全量)

测试命令

两台机器使用相同命令:

LD_LIBRARY_PATH=build/bin build/bin/llama-bench \
  -m /path/to/gemma4-12b-Q4_K_M.gguf \
  -ngl 999 -fa 1 \
  -p 32,128,512 -n 64,128 \
  -r 3
  • -ngl 999:全部层加载到 GPU
  • -fa 1:开启 Flash Attention
  • -p:提示词 token 数(预填充测试)
  • -n:输出 token 数(生成速度测试)
  • -r 3:运行 3 次取平均值

测试结果

Jetson AGX Thor

Device 0: NVIDIA Thor, compute capability 11.0, VMM: yes, VRAM: 125771 MiB
模型大小后端测试场景速度(t/s)
gemma4 11.91B Q4_K_M6.86 GiBCUDApp32366.81 ± 11.59
gemma4 11.91B Q4_K_M6.86 GiBCUDApp128755.17 ± 28.85
gemma4 11.91B Q4_K_M6.86 GiBCUDApp512791.97 ± 50.70
gemma4 11.91B Q4_K_M6.86 GiBCUDAtg6418.48 ± 0.32
gemma4 11.91B Q4_K_M6.86 GiBCUDAtg12818.65 ± 0.16

RTX 3090

Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes, VRAM: 24251 MiB
模型大小后端测试场景速度(t/s)
gemma4 11.91B Q4_K_M6.86 GiBCUDApp321099.89 ± 377.14
gemma4 11.91B Q4_K_M6.86 GiBCUDApp1282158.47 ± 135.86
gemma4 11.91B Q4_K_M6.86 GiBCUDApp5122702.24 ± 10.83
gemma4 11.91B Q4_K_M6.86 GiBCUDAtg6470.30 ± 0.54
gemma4 11.91B Q4_K_M6.86 GiBCUDAtg12870.66 ± 0.22

双机对比

测试场景Jetson AGX ThorRTX 30903090 优势
pp32366.81 t/s1099.89 t/s3.0×
pp128755.17 t/s2158.47 t/s2.9×
pp512791.97 t/s2702.24 t/s3.4×
tg6418.48 t/s70.30 t/s3.8×
tg12818.65 t/s70.66 t/s3.8×

RTX 3090 在各项测试中均比 Jetson Thor 快 3–4 倍。原因明确:3090 显存带宽约 936 GB/s,而 Thor 统一内存带宽约 680 GB/s,加上 3090 的 CUDA 核心数量更多。


结果分析

Thor:18.65 t/s 生成速度

人类阅读速度约为 3–5 token/秒。18.65 t/s 约为人类阅读速度的 4–6 倍——实时交互完全流畅,没有等待感。

与 Thor 此前测试结果对比:

模型占用内存生成速度
Qwen3.6-35B-A3B FP8(SGLang)~36 GB14.7 t/s
Gemma 4 12B Q4_K_M(llama.cpp)6.86 GB18.65 t/s
Qwen2.5-1.5B Q4_K_M(llama.cpp)1.04 GB107–113 t/s

Gemma 4 12B 比 35B 的 Qwen 模型更快,原因是显存占用少 5 倍,带宽压力更低。

RTX 3090:70.66 t/s 生成速度

70.66 t/s 约为人类阅读速度的 14–23 倍,适合:

  • 批量生成任务
  • 开发调试与迭代
  • 多用户并发推理服务

512 token 提示词的预填充速度达到 2702 t/s,处理时间不超过 190ms——对任何应用都几乎无感知。

内存占用

6.86 GiB 的模型在两个平台上都很轻量:

  • Thor(122.8 GiB 统一内存):模型仅占 5.6%,剩余空间可同时部署其他模型、支持超长上下文
  • RTX 3090(24 GiB 显存):模型占 28%,KV Cache 空间充裕

预填充速度

Thor 的 792 t/s 和 3090 的 2702 t/s 分别对应 512 token 提示词处理时间约 650ms 和 190ms——两台机器上对话应用的提示词处理都基本无感知。


边缘 AI 部署参考

选择 Jetson AGX Thor,如果你需要:

  • 设备端私有多模态 AI(文本 + 视觉)
  • 无需云端依赖的 12B 级推理能力
  • 长上下文场景(122 GB 统一内存可支撑极大的 KV Cache)
  • 7×24 小时不间断边缘部署

选择 RTX 3090,如果你需要:

  • 批量任务的更高生成吞吐量
  • 更快的研发迭代周期
  • 与现有 x86_64 ML 工具链的兼容性

模型架构说明

Gemma 4 12B 内置视觉投影器(mmproj),是一个视觉语言模型(VLM)。本次测试为纯文本推理——纯文本模式下投影器不被加载。

如需视觉任务,需同时加载投影器并在提示词中传入图像 token。视觉+文本场景下的生成速度会因投影器计算而略低于纯文本。


复现测试

# 下载模型(需要已接受 Gemma 使用条款的 HuggingFace 账号)

# Thor 上运行
cd ~/kwkthor/llama.cpp
LD_LIBRARY_PATH=build/bin build/bin/llama-bench \
  -m /path/to/gemma-4-12B-Q4_K_M.gguf \
  -ngl 999 -fa 1 -p 32,128,512 -n 64,128 -r 3

# RTX 3090 上运行
cd ~/llama.cpp
LD_LIBRARY_PATH=build/lib build/bin/llama-bench \
  -m /path/to/gemma-4-12B-Q4_K_M.gguf \
  -ngl 999 -fa 1 -p 32,128,512 -n 64,128 -r 3

测试数据采集于 2026 年 6 月 4 日。不同量化版本、llama.cpp 版本或散热状态下结果可能存在差异。