MultimodalFlow
← 返回博客

Qwen3 30B vs Gemma 4 26B RTX 3090 全显存实测

Qwen3Gemma4跑分RTX 3090大模型Ollama本地推理

两个 30B 级别模型,一张 RTX 3090,全显存运行。这是 Ollama 0.21.0 的真实测量数据,无内存共享,无 CPU 溢出。


为什么要做这个对比

两个模型都是 Q4_K_M 量化,体积相近:

模型文件大小参数量量化方式
qwen3:30b18 GB30BQ4_K_M
gemma4:26b17 GB25.8BQ4_K_M

在显存干净的 RTX 3090(可用 23.8 GB)上,两个模型都能完整加载进 VRAM。这才是这些模型在得到应有硬件时的真实表现。

背景参考:上一篇文章中,后台进程占用 9 GB 显存时,Gemma 4 26B 因 VRAM 溢出只跑出 15–16 t/s。本次全显存测试达到 123 t/s,相差 8 倍。显存够不够,决定性极大。


测试环境

配置项参数
GPUNVIDIA GeForce RTX 3090
显存24 GB(测试时可用 23.8 GB)
驱动 / CUDA550.144.03 / 12.4
操作系统Ubuntu 22.04.5 LTS
推理框架Ollama 0.21.0

测试方法

通过 Ollama REST API 测试三种提示词类型,每次先预热一轮再正式计时,每次生成 128 个 token:

  • 短提示词(约 26 tokens):"机器学习是什么?用一段话回答。"
  • 长提示词(约 230 tokens):重复的 AI 历史段落
  • 推理题(约 30 tokens):"农夫有 17 只羊,除了 9 只全死了,还剩几只?请逐步思考。"

测试结果

生成速度(tg)

提示词类型Qwen3 30BGemma 4 26B胜者
短提示词141.9 t/s123.4 t/sQwen3 快 15%
长提示词140.9 t/s123.0 t/sQwen3 快 15%
推理题141.5 t/s123.6 t/sQwen3 快 15%

预填充速度(pp)

提示词类型Qwen3 30BGemma 4 26B胜者
短提示词2,354 t/s2,798 t/sGemma4 快 19%
长提示词10,728 t/s10,433 t/sQwen3 快 3%
推理题4,090 t/s4,394 t/sGemma4 快 7%

分析

生成速度:Qwen3 全面领先

Qwen3 30B 在所有测试中稳定在 141 t/s,无论提示词长短几乎没有波动。Gemma 4 26B 同样稳定在 123 t/s。差距恒定 15%。

Qwen3  30B  ████████████████████████████████████  141 t/s
Gemma4 26B  ████████████████████████████████      123 t/s

141 t/s 约为人类阅读速度的 28–47 倍,对话应用完全感知不到延迟。Gemma 4 的 123 t/s 同样远超交互阈值。

两个模型生成速度的差异来自架构对 3090 936 GB/s 显存带宽的利用率——Qwen3 的参数虽然更多,但单位时间内的有效计算密度更高。

预填充速度:短提示词 Gemma 4 占优

短提示词下,Gemma 4 预填充 2,798 t/s vs Qwen3 的 2,354 t/s,快 19%。换算成实际延迟:26 个 token 的提示词,差距约 1ms,用户完全感知不到。

长提示词(230 tokens)两者几乎持平,Qwen3 微弱领先。两个模型处理 512 token 的长提示都在 50ms 以内。

数据稳定性

两个模型的生成速度在不同提示词类型下方差极小(±0.5 t/s),这正是全显存运行的标志——没有 CPU 溢出,每次 forward pass 都完全在 GPU 内完成。


RTX 3090 该选哪个

选 Qwen3 30B 如果你:

  • 以生成吞吐量为首要指标(批量处理、长文本生成)
  • 在运行推理服务,希望最大化 requests/second
  • 偏好阿里的训练数据和指令跟随风格

选 Gemma 4 26B 如果你:

  • 应用以短提示词为主,prefill 速度更重要
  • 偏好 Google 模型家族的安全调优风格
  • 已经在用 Gemma 4 系列,希望保持一致

对大多数用户来说,交互式对话场景下两个模型感受完全相同。15% 的生成速度差异在大批量任务中才会显现:1000 条批处理请求,Qwen3 约节省 2 分钟。


显存是关键变量

两个模型都需要约 17–18 GB 显存。在 RTX 3090 上装载后还剩约 6 GB 余量——够日常桌面用,但不够再开另一个大模型或内存密集型后台进程。

可用显存一旦低于约 19 GB,就会触发 CPU 溢出,速度会跌回 15–16 t/s——详见显存不足时的测试数据

加载前先确认显存:

nvidia-smi --query-gpu=memory.free --format=csv,noheader
# 两个模型都需要至少 18000 MiB

复现方法

ollama pull qwen3:30b
ollama pull gemma4:26b

# 通过 API 测速
for MODEL in qwen3:30b gemma4:26b; do
  echo "=== $MODEL ==="
  curl -s http://localhost:11434/api/generate -d "{
    \"model\": \"$MODEL\",
    \"prompt\": \"机器学习是什么?用一段话回答。\",
    \"stream\": false,
    \"options\": {\"num_predict\": 128}
  }" | python3 -c "
import json, sys
d = json.load(sys.stdin)
print(f'pp={d[\"prompt_eval_count\"]/(d[\"prompt_eval_duration\"]/1e9):.0f} t/s  tg={d[\"eval_count\"]/(d[\"eval_duration\"]/1e9):.1f} t/s')
"
done

数据采集于 2026 年 6 月 8 日,Ollama 0.21.0。结果随可用显存变化——两个模型均需约 18 GB 空闲显存才能全 GPU 推理。