Qwen3 30B vs Gemma 4 26B RTX 3090 全显存实测
两个 30B 级别模型,一张 RTX 3090,全显存运行。这是 Ollama 0.21.0 的真实测量数据,无内存共享,无 CPU 溢出。
为什么要做这个对比
两个模型都是 Q4_K_M 量化,体积相近:
| 模型 | 文件大小 | 参数量 | 量化方式 |
|---|---|---|---|
qwen3:30b | 18 GB | 30B | Q4_K_M |
gemma4:26b | 17 GB | 25.8B | Q4_K_M |
在显存干净的 RTX 3090(可用 23.8 GB)上,两个模型都能完整加载进 VRAM。这才是这些模型在得到应有硬件时的真实表现。
背景参考: 在上一篇文章中,后台进程占用 9 GB 显存时,Gemma 4 26B 因 VRAM 溢出只跑出 15–16 t/s。本次全显存测试达到 123 t/s,相差 8 倍。显存够不够,决定性极大。
测试环境
| 配置项 | 参数 |
|---|---|
| GPU | NVIDIA GeForce RTX 3090 |
| 显存 | 24 GB(测试时可用 23.8 GB) |
| 驱动 / CUDA | 550.144.03 / 12.4 |
| 操作系统 | Ubuntu 22.04.5 LTS |
| 推理框架 | Ollama 0.21.0 |
测试方法
通过 Ollama REST API 测试三种提示词类型,每次先预热一轮再正式计时,每次生成 128 个 token:
- 短提示词(约 26 tokens):"机器学习是什么?用一段话回答。"
- 长提示词(约 230 tokens):重复的 AI 历史段落
- 推理题(约 30 tokens):"农夫有 17 只羊,除了 9 只全死了,还剩几只?请逐步思考。"
测试结果
生成速度(tg)
| 提示词类型 | Qwen3 30B | Gemma 4 26B | 胜者 |
|---|---|---|---|
| 短提示词 | 141.9 t/s | 123.4 t/s | Qwen3 快 15% |
| 长提示词 | 140.9 t/s | 123.0 t/s | Qwen3 快 15% |
| 推理题 | 141.5 t/s | 123.6 t/s | Qwen3 快 15% |
预填充速度(pp)
| 提示词类型 | Qwen3 30B | Gemma 4 26B | 胜者 |
|---|---|---|---|
| 短提示词 | 2,354 t/s | 2,798 t/s | Gemma4 快 19% |
| 长提示词 | 10,728 t/s | 10,433 t/s | Qwen3 快 3% |
| 推理题 | 4,090 t/s | 4,394 t/s | Gemma4 快 7% |
分析
生成速度:Qwen3 全面领先
Qwen3 30B 在所有测试中稳定在 141 t/s,无论提示词长短几乎没有波动。Gemma 4 26B 同样稳定在 123 t/s。差距恒定 15%。
Qwen3 30B ████████████████████████████████████ 141 t/s
Gemma4 26B ████████████████████████████████ 123 t/s
141 t/s 约为人类阅读速度的 28–47 倍,对话应用完全感知不到延迟。Gemma 4 的 123 t/s 同样远超交互阈值。
两个模型生成速度的差异来自架构对 3090 936 GB/s 显存带宽的利用率——Qwen3 的参数虽然更多,但单位时间内的有效计算密度更高。
预填充速度:短提示词 Gemma 4 占优
短提示词下,Gemma 4 预填充 2,798 t/s vs Qwen3 的 2,354 t/s,快 19%。换算成实际延迟:26 个 token 的提示词,差距约 1ms,用户完全感知不到。
长提示词(230 tokens)两者几乎持平,Qwen3 微弱领先。两个模型处理 512 token 的长提示都在 50ms 以内。
数据稳定性
两个模型的生成速度在不同提示词类型下方差极小(±0.5 t/s),这正是全显存运行的标志——没有 CPU 溢出,每次 forward pass 都完全在 GPU 内完成。
RTX 3090 该选哪个
选 Qwen3 30B 如果你:
- 以生成吞吐量为首要指标(批量处理、长文本生成)
- 在运行推理服务,希望最大化 requests/second
- 偏好阿里的训练数据和指令跟随风格
选 Gemma 4 26B 如果你:
- 应用以短提示词为主,prefill 速度更重要
- 偏好 Google 模型家族的安全调优风格
- 已经在用 Gemma 4 系列,希望保持一致
对大多数用户来说,交互式对话场景下两个模型感受完全相同。15% 的生成速度差异在大批量任务中才会显现:1000 条批处理请求,Qwen3 约节省 2 分钟。
显存是关键变量
两个模型都需要约 17–18 GB 显存。在 RTX 3090 上装载后还剩约 6 GB 余量——够日常桌面用,但不够再开另一个大模型或内存密集型后台进程。
可用显存一旦低于约 19 GB,就会触发 CPU 溢出,速度会跌回 15–16 t/s——详见显存不足时的测试数据。
加载前先确认显存:
nvidia-smi --query-gpu=memory.free --format=csv,noheader
# 两个模型都需要至少 18000 MiB
复现方法
ollama pull qwen3:30b
ollama pull gemma4:26b
# 通过 API 测速
for MODEL in qwen3:30b gemma4:26b; do
echo "=== $MODEL ==="
curl -s http://localhost:11434/api/generate -d "{
\"model\": \"$MODEL\",
\"prompt\": \"机器学习是什么?用一段话回答。\",
\"stream\": false,
\"options\": {\"num_predict\": 128}
}" | python3 -c "
import json, sys
d = json.load(sys.stdin)
print(f'pp={d[\"prompt_eval_count\"]/(d[\"prompt_eval_duration\"]/1e9):.0f} t/s tg={d[\"eval_count\"]/(d[\"eval_duration\"]/1e9):.1f} t/s')
"
done
数据采集于 2026 年 6 月 8 日,Ollama 0.21.0。结果随可用显存变化——两个模型均需约 18 GB 空闲显存才能全 GPU 推理。