Qwen3 30B vs Gemma 4 26B RTX 3090 全显存实测

两个 30B 级别模型，一张 RTX 3090，全显存运行。这是 Ollama 0.21.0 的真实测量数据，无内存共享，无 CPU 溢出。

为什么要做这个对比

两个模型都是 Q4_K_M 量化，体积相近：

模型	文件大小	参数量	量化方式
`qwen3:30b`	18 GB	30B	Q4_K_M
`gemma4:26b`	17 GB	25.8B	Q4_K_M

在显存干净的 RTX 3090（可用 23.8 GB）上，两个模型都能完整加载进 VRAM。这才是这些模型在得到应有硬件时的真实表现。

背景参考： 在上一篇文章中，后台进程占用 9 GB 显存时，Gemma 4 26B 因 VRAM 溢出只跑出 15–16 t/s。本次全显存测试达到 123 t/s，相差 8 倍。显存够不够，决定性极大。

测试环境

配置项	参数
GPU	NVIDIA GeForce RTX 3090
显存	24 GB（测试时可用 23.8 GB）
驱动 / CUDA	550.144.03 / 12.4
操作系统	Ubuntu 22.04.5 LTS
推理框架	Ollama 0.21.0

测试方法

通过 Ollama REST API 测试三种提示词类型，每次先预热一轮再正式计时，每次生成 128 个 token：

短提示词（约 26 tokens）："机器学习是什么？用一段话回答。"
长提示词（约 230 tokens）：重复的 AI 历史段落
推理题（约 30 tokens）："农夫有 17 只羊，除了 9 只全死了，还剩几只？请逐步思考。"

测试结果

生成速度（tg）

提示词类型	Qwen3 30B	Gemma 4 26B	胜者
短提示词	141.9 t/s	123.4 t/s	Qwen3 快 15%
长提示词	140.9 t/s	123.0 t/s	Qwen3 快 15%
推理题	141.5 t/s	123.6 t/s	Qwen3 快 15%

预填充速度（pp）

提示词类型	Qwen3 30B	Gemma 4 26B	胜者
短提示词	2,354 t/s	2,798 t/s	Gemma4 快 19%
长提示词	10,728 t/s	10,433 t/s	Qwen3 快 3%
推理题	4,090 t/s	4,394 t/s	Gemma4 快 7%

个人感受

这次测试是在看完 Gemma 4 26B 在显存压力下只跑 15 t/s 之后马上做的——所以当两个模型在干净显存下都跑进三位数，感觉像换了一台机器。Qwen3 和 Gemma 4 之间 15% 的差距是真实存在的，但日常对话完全感知不到。我个人会在跑批量任务、需要大量生成文本的场景下选 Qwen3。

分析

生成速度：Qwen3 全面领先

Qwen3 30B 在所有测试中稳定在 141 t/s，无论提示词长短几乎没有波动。Gemma 4 26B 同样稳定在 123 t/s。差距恒定 15%。

Qwen3  30B  ████████████████████████████████████  141 t/s
Gemma4 26B  ████████████████████████████████      123 t/s

141 t/s 约为人类阅读速度的 28–47 倍，对话应用完全感知不到延迟。Gemma 4 的 123 t/s 同样远超交互阈值。

两个模型生成速度的差异来自架构对 3090 936 GB/s 显存带宽的利用率——Qwen3 的参数虽然更多，但单位时间内的有效计算密度更高。

预填充速度：短提示词 Gemma 4 占优

短提示词下，Gemma 4 预填充 2,798 t/s vs Qwen3 的 2,354 t/s，快 19%。换算成实际延迟：26 个 token 的提示词，差距约 1ms，用户完全感知不到。

长提示词（230 tokens）两者几乎持平，Qwen3 微弱领先。两个模型处理 512 token 的长提示都在 50ms 以内。

数据稳定性

两个模型的生成速度在不同提示词类型下方差极小（±0.5 t/s），这正是全显存运行的标志——没有 CPU 溢出，每次 forward pass 都完全在 GPU 内完成。

RTX 3090 该选哪个

选 Qwen3 30B 如果你：

以生成吞吐量为首要指标（批量处理、长文本生成）
在运行推理服务，希望最大化 requests/second
偏好阿里的训练数据和指令跟随风格

选 Gemma 4 26B 如果你：

应用以短提示词为主，prefill 速度更重要
偏好 Google 模型家族的安全调优风格
已经在用 Gemma 4 系列，希望保持一致

对大多数用户来说，交互式对话场景下两个模型感受完全相同。15% 的生成速度差异在大批量任务中才会显现：1000 条批处理请求，Qwen3 约节省 2 分钟。

显存是关键变量

两个模型都需要约 17–18 GB 显存。在 RTX 3090 上装载后还剩约 6 GB 余量——够日常桌面用，但不够再开另一个大模型或内存密集型后台进程。

可用显存一旦低于约 19 GB，就会触发 CPU 溢出，速度会跌回 15–16 t/s——详见显存不足时的测试数据。

加载前先确认显存：

nvidia-smi --query-gpu=memory.free --format=csv,noheader
# 两个模型都需要至少 18000 MiB

复现方法

ollama pull qwen3:30b
ollama pull gemma4:26b

# 通过 API 测速
for MODEL in qwen3:30b gemma4:26b; do
  echo "=== $MODEL ==="
  curl -s http://localhost:11434/api/generate -d "{
    \"model\": \"$MODEL\",
    \"prompt\": \"机器学习是什么？用一段话回答。\",
    \"stream\": false,
    \"options\": {\"num_predict\": 128}
  }" | python3 -c "
import json, sys
d = json.load(sys.stdin)
print(f'pp={d[\"prompt_eval_count\"]/(d[\"prompt_eval_duration\"]/1e9):.0f} t/s  tg={d[\"eval_count\"]/(d[\"eval_duration\"]/1e9):.1f} t/s')
"
done

数据采集于 2026 年 6 月 8 日，Ollama 0.21.0。结果随可用显存变化——两个模型均需约 18 GB 空闲显存才能全 GPU 推理。