AI工具有那些? @ 香港AI工具平台
Ornith-1.0(AI編程工具):在開源 AI 模型競爭愈來愈激烈的 2026 年,Ornith-1.0 的出現,為 Agentic Coding 這個領域帶來了相當明顯的話題性。它不是單純再推出一個更大的語言模型,而是把重點放在「讓模型自己學會如何解題」,也就是把模型從只會寫程式,推進到能夠自我搭建解題流程、持續優化策略的階段 。


環球AI能力評測基準認證考試 ACE, AI證照 @ ExtranAI
AI編程工具 - Ornith-1.0是什麼? 好用嗎? 評價?

Ornith-1.0

Ornith-1.0 AI 介紹:開源自我調整的 Agentic Coding 模型家族

在開源 AI 模型競爭愈來愈激烈的 2026 年,Ornith-1.0 的出現,為 Agentic Coding 這個領域帶來了相當明顯的話題性。它不是單純再推出一個更大的語言模型,而是把重點放在「讓模型自己學會如何解題」,也就是把模型從只會寫程式,推進到能夠自我搭建解題流程、持續優化策略的階段 。

這種設計對軟體工程與 AI 代理工作流很有意義,因為真實世界的編碼任務往往不是一句 prompt 就能完成,而是需要規劃、測試、修正、再測試的循環。Ornith-1.0 的核心創新,正是把這種循環納入訓練邏輯,讓模型不只學會「答案」,還學會「怎樣找答案」 。

 

什麼是 Ornith-1.0 ?

Ornith-1.0 是 DeepReinforce 推出的開源 Agentic Coding 模型家族,官方定位是專為自我改進與代理式程式設計任務而設計 。它的目標不是一般對話式生成,而是針對軟體工程場景中的真實任務,例如修 bug、補功能、理解程式庫、操作工具與驗證結果等,提供更高層次的推理與行動能力 。

與傳統 coding model 最大不同的是,Ornith-1.0 並不只依賴人工手工設計的 scaffolding 或固定 harness,而是嘗試讓模型在強化學習過程中自己學會建立更有效的解題骨架 。這使它更接近一種「會自我組織工作流程的 AI 編碼代理」。

 

Ornith-1.0 核心理念

Ornith-1.0 最重要的概念是 Self-Scaffolding,也就是自我搭建解題支架 。在傳統的 agentic coding 系統中,工程師通常要先人工設計一套 harness,再讓模型在這套架構內做推理與行動。但 Ornith 的思路是,讓模型自己生成更好的 scaffolding,並在每一輪訓練中逐步改善。

這種方法的好處在於,它可以讓模型更貼近任務本身,而不是被固定工具流程限制。換句話說,模型不是只在學「怎麼回答」,而是在學「怎樣組織問題、安排步驟、使用工具與驗證結果」 。這也是它被視為 Agentic AI 新方向的重要原因。

 

Ornith-1.0  模型家族結構

Ornith-1.0 並不是單一模型,而是一個涵蓋不同規模與架構的系列。公開資料顯示,它至少包含 9B Dense、31B Dense、35B MoE,以及 

這種設計非常實際。9B Dense 適合單機或邊緣裝置,31B/35B 則能平衡效能與資源,397B MoE 則瞄準高性能雲端或多 GPU 環境 。這意味著 Ornith-1.0 不是只服務大型研究機構,也能讓開發者根據資源條件選擇合適版本。

 

Ornith-1.0 架構與上下文

Ornith-1.0 的另一個亮點,是它支援 262K 的超長上下文窗口 。對 agentic coding 來說,這非常重要,因為真實的編碼任務常常牽涉整個專案、長文件、測試輸出與多輪工具回饋,若上下文太短,模型就很難維持任務連貫性。

至於基礎模型方面,公開報導指出,Ornith-1.0 建立在 Gemma 4 與 Qwen 3.5 的預訓練基座之上,並透過強化學習與自我改進框架進一步訓練 。這代表它不是從零開始打造,而是站在已經成熟的語言模型能力之上,再針對代理式編碼需求做深度優化。

 

Ornith-1.0 自我改進訓練

Ornith-1.0 最受關注的地方,正是它的訓練方法。根據公開資料與社群整理,它採用一種讓模型參與 scaffold 生成與改進的強化學習流程,讓 reward 不只是回饋最終答案,也回饋解題骨架本身 。

這種設計的邏輯是:如果模型每次都只能靠人工固定流程,它就不會真正學會如何選擇合適的工作策略;但如果模型可以在訓練中觀察自己如何解題、如何失敗、如何改寫 scaffold,那麼它就能逐步形成更有效率的代理工作方式 。

這也正是 Ornith 被稱作 self-optimizing 或 self-scaffolding 的原因。它不是單純提升一點 benchmark 分數,而是在嘗試改變模型學習的方式 。

 

Ornith-1.0 安全與防作弊

當模型開始自己設計解題流程,另一個難題也隨之而來:reward hacking。也就是模型可能學會鑽規則漏洞,透過作弊方式取得高分,而不是真正完成任務 。

為了處理這個問題,Ornith-1.0 採用了多層防護。首先,它把環境與工具表面鎖死,避免模型直接動到測試機制;其次,透過 deterministic monitor 監控異常操作,例如讀取測試檔案或改動評估腳本;最後,還有一個 frozen LLM Judge 會在獎勵發放前再檢查結果 。

這表示 DeepReinforce 並不是只追求高分,而是試圖讓「自我改進」仍然保持在可控、可信的範圍內。對開源 AI 來說,這種平衡非常重要,因為一旦代理模型開始自學流程,安全與評估設計就會變成核心問題 。

 

Ornith-1.0 量化與部署

Ornith-1.0 的部署彈性相當高。公開資料指出,模型支援 FP8、GGUF 等量化版本,並可搭配 vLLM、SGLang、Transformers、Docker、llama.cpp 及 Ollama 等常見工具部署 。此外,它也提供 OpenAI 相容 API 端點,讓開發者更容易接入現有應用 。

這種相容性很有實戰價值。因為很多團隊未必願意重寫整套工作流,只要模型能掛到既有系統上,就更容易被採用。對本地部署者來說,9B 版本可在單一 80GB GPU 上運行,而 35B 與 397B 版本則更適合 8×80GB GPU 的多卡環境 。

換句話說,Ornith-1.0 的產品化思路,不只是追求學術上的新穎,也考慮了實際工程部署的可行性。

 

Ornith-1.0 基準表現

Ornith-1.0 的另一個焦點,是它在多項編碼與代理評測中的表現。公開數據顯示,397B 版本在 SWE-Bench Verified、SWE-Bench Pro、Terminal-Bench 2.1、NL2Repo、ClawEval 等測試中表現突出 。例如,報導整理指出,397B 版本在 Terminal-Bench 2.1 與 SWE-Bench Verified 上都取得高分,並在部分比較中超越 Claude Opus 4.7 。

更令人注意的是,中小型版本也有很強競爭力。報導提到,35B 版本在某些測試中可逼近甚至超越更大型的開源模型,而 9B 版本在部分場景下也能接近遠大於它的模型表現 。這種「小模型不弱」的現象,對本地部署與企業內部應用特別有吸引力。

不過也要留意,這些目前主要仍是 DeepReinforce 自家公佈的基準結果,第三方獨立驗證仍有待更多社群與排行榜檢驗 。因此,Ornith-1.0 可以說是非常有潛力,但仍需要更多實戰數據來確認長期穩定性。

 

Ornith-1.0 適合哪些場景?

Ornith-1.0 最適合的場景,顯然是 agentic coding。包括自動修 bug、程式碼庫理解、測試驅動修正、腳本生成、工具調用、長任務排程,以及與其他代理框架協作的工程場景 。

對開發團隊來說,它可望用於內部程式維護、原型開發、程式審查輔助與 CI/CD 檢查流程;對研究者來說,它則是觀察「模型如何自我構建解題流程」的重要案例 。若結合現有 agent framework,Ornith-1.0 也可能變成更大系統中的核心推理層。

此外,因為它提供多種規模版本與本地部署選項,所以對重視隱私、合規與離線工作環境的團隊也有吸引力 。

 

Ornith-1.0 產業意義

Ornith-1.0 的出現,說明開源模型競爭已經不只是「誰參數更大」,而是「誰能更有效率地學會完成真實任務」。在 agentic coding 領域,模型的成敗往往取決於工作流設計、工具使用與自我修正能力,而不只是單次回答品質 。

從這個角度看,Ornith-1.0 更像是一種訓練範式的示範:把 scaffold、reward、防作弊與長上下文結合起來,讓模型學會一套更接近實務工程的解題方式 。如果這種方法被其他團隊廣泛採納,未來的開源 coding model 可能會更重視「如何做事」而非「如何說得漂亮」。

 

觀察重點

Ornith-1.0 的真正價值,不只在於它是否贏過哪個模型,而在於它把開源 Agentic AI 往前推了一步。它讓外界看到,模型可以不只是寫 code,而是能夠學習如何搭建自己的工作框架、如何迭代流程,以及如何在長任務中持續改善策略 。

接下來最值得觀察的,是它在第三方評測中的表現、本地部署社群的實際採用情況,以及它的 self-scaffolding 思路是否會影響後續模型設計 。如果這條路線持續成熟,Ornith-1.0 可能會成為 2026 年開源 agentic coding 方向的重要代表之一。

立即試用