Google DeepMind 於 2026 年 6 月 11 日正式推出 DiffusionGemma,這是 Gemma 家族的新成員,也是首款專注於文本擴散(text diffusion)技術的開源實驗性模型。 它不採用傳統自回歸模型逐個生成 token 的方式,而是透過從噪聲逐步去噪的機制,一次性生成整段文本,在本地推理速度上較傳統模型提升 4 倍。
DiffusionGemma 的核心創新在於把原本是圖片生成領域的擴散模型(Diffusion Model)技術應用於語言模型。 傳統擴散模型用於生成圖片時,會從隨機噪聲開始,經過多次迭代去噪,逐步將噪聲轉化為清晰圖像。 DiffusionGemma 則是把這個過程用於文字生成,去噪後的結果不是圖片,而是整段文字。
這種設計與傳統自回歸大語言模型有根本差異。自回歸模型像打字機一樣,逐個預測下一個 token;而 DiffusionGemma 像印刷機一樣,一次性鋪開 256 個 token 的畫布,從隨機噪聲出發,經過多輪去噪,讓整段文字同時浮現。
DiffusionGemma 的總參數量為 26B(25.2 億),屬於混合專家(Mixture of Experts, MoE)模型,但在推理時只激活 3.8B 參數。 這種設計讓它在性能與效率之間取得平衡。量化後僅需 18GB 顯存,意味著一張 NVIDIA RTX 4090 或 5090 就能在本地運行。
它採用雙向注意力機制(bi-directional attention),每個 token 在生成時可以關注段落內所有其他 token。這與傳統自回歸模型只能看前面 token 的單向注意力不同,為非線性生成任務帶來明顯優勢。
DiffusionGemma 最突出的優勢在於生成速度。 在單張 NVIDIA H100 GPU 環境下,它每秒可生成超過 1000 個 token;在 GeForce RTX 5090 上則超過每秒 700 個 token。 整體速度約為同等運行條件下自回歸模型的 4 倍。
官方數據顯示,它每次前向傳播可並行生成 256 個詞元,採樣速率達到每秒 1479 個 token,单次生成耗時僅 0.84 秒。 這種速度優勢讓它特別適合對延遲敏感的本地交互工作流。
在數學推理方面,DiffusionGemma 在 AIME 2025 測試中得分 23.3%,超越對比模型的 20.0%,展現出擴散架構在推理任務上的潛力。 不過,在科學推理與高難度綜合推理測試中,它仍落後於主流對比模型,顯示這方面還有提升空間。
DiffusionGemma 支持迭代優化,能在生成過程中主動糾正錯誤。 模型會迭代地優化自己的輸出,允許它一次性評估整個文本塊,完美完成複雜格式閉合并即時修正錯誤。
這種智能自修正(intelligent self-correction)能力讓它的輸出更加穩定一致。 模型可以評估整段文本的全局邏輯一致性,這是傳統自回歸模型的弱項,因為後者只能基於前面已生成的內容逐個預測。
DiffusionGemma 的架構設計充分釋放 NVIDIA GPU 的並行計算性能。 除了 H100 與 5090,它在 DGX Spark 設備上速率為每秒 150 個 token,在 DGX Station 設備中則可達每秒 2000 個 token。
更關鍵的是,它原生支援 NVIDIA 新推出的 NVFP4(4-bit 浮點數)格式,這在 Blackwell GPU 上能大幅加速計算吞吐量,讓模型以更快的速度運行同時保持近乎無損的準確度。
Google 明確將 DiffusionGemma 定位於研究人員和開發者,而非直接替代現有生產模型。 它的目標用例集中在對速度敏感的本地交互工作流,包括:
即時文本編輯:雙向注意力與並行生成讓它在線上編輯(in-line editing)場景表現優異
快速內容迭代:每秒 1000+ tokens 的生成速度適合需要快速多輪迭代的內容創作
非線性文本結構生成:例如代碼填充(code infilling)、數學圖形構建等
生物序列生成:氨基酸序列生成等非傳統語言任務
實時互動 AI 應用:開發者構建低延遲本地工作流時的新技術路徑
DiffusionGemma 採用 Apache 2.0 許可證開源發布,這意味著它允許商業使用,開發者可自由下載模型權重並進行二次開發。 模型權重可在 Hugging Face 平台直接下載。
官方表示,DiffusionGemma 的能力與其他 Gemma 4 模型相當,但推理效率顯著更高。 這種定位讓它成為 Gemma 家族中專注於速度的實驗性分支。
Google CEO 桑德爾·皮查伊(Sundar Pichai)表示:「DiffusionGemma 是一款開放的實驗性模型,它把我們的文本擴散研究帶到了 Gemma 4 上。速度像賽馬一樣快:通過一次性生成整塊文本,而不是逐 token 預測輸出,推理速度最高可提升至 4 倍。」
這段話清楚點出兩個關鍵:一是它仍屬實驗性模型,二是速度是核心賣點。
DiffusionGemma 建立在 Gemma 4 家族業界領導的「每參數智能水平」之上,同時吸收了 Gemini Diffusion 的前沿研究成果。 Google DeepMind 先前已推出 Gemini Diffusion,這是探索語言模型中擴散技術意義的研究模型,目標是給用戶更大的控制權、創造力與生成速度。
DiffusionGemma 引入了全新的擴散式輸出頭(diffusion output head),目標很明確:盡可能提高生成速度。
DiffusionGemma 的推出,反映了生成式 AI 正在從單一架構走向多架構探索。 過去自回歸模型主導大語言模型領域,但現在擴散模型正被證明在特定場景(如速度敏感、非線性生成、即時編輯)具有不可替代的優勢。
對開發者而言,這意味著可以根據任務需求選擇不同架構。如果你的應用需要極低延遲、即時反饋或大量並行生成,DiffusionGemma 提供了一條新的技術路徑。
對本地 AI 應用而言,18GB 顯存就能運行 26B MoE 模型,這讓更多消費級 GPU 設備(如 RTX 4090)能夠支持高品質文本生成,為端側與本地 AI 應用優化提供了新路徑。
| 特性 | 自回歸模型 | DiffusionGemma |
|---|
| 特性 | 自回歸模型 | DiffusionGemma |
|---|---|---|
| 生成方式 | 逐 token 預測 | 並行生成 256 tokens |
| 注意力方向 | 單向(只看前面) | 雙向(可看所有) |
| 推理速度 | 標準 | 快 4-5 倍 |
| 錯誤修正 | 生成後才能修正 | 生成過程中可迭代修正 |
| 顯存需求 | 依模型而定 | 量化後 18GB |
| 主要優勢 | 通用性強 | 速度與非線性任務 |
DiffusionGemma 的出現,展示了 Google 在文本擴散技術上的實力,也為開發者提供了另一種架構選擇。 它把原本用於圖片生成的擴散模型遷移到語言模型,實現了 4 倍以上的速度提升,同時保持與 Gemma 4 相當的整體能力。
雖然在科學推理與高難度綜合推理方面仍有提升空間,但它在數學推理、即時編輯、代碼填充等場景展現出擴散架構的獨特優勢。 對需要低延遲、本地運行的 AI 應用來說,這是一項值得關注的技術突破。
隨著 NVFP4 格式與 Blackwell GPU 的支援,未來這類擴散語言模型可能成為實時互動 AI 應用的重要基礎。 對內容創作者、開發者與研究人員而言,DiffusionGemma 的開源與開放使用,讓更多人能參與到這一技術的探索與應用中。