當多數 AI 工具仍然停留在文字對話、資料整理與內容生成時,H Company 推出的 HoloDesktop CLI 走向了更進一步的方向:讓 AI 代理直接看著螢幕、操作滑鼠與鍵盤,像人類一樣在桌面環境中完成任務。這代表 AI 不再只是在「理解工作」,而是開始真正「執行工作」 。
HoloDesktop CLI 的核心價值,在於它把原本依賴 API 的自動化限制打開了。許多桌面程式或網站並沒有提供給 AI 使用的專用接口,但 HoloDesktop CLI 讓 AI 代理透過視覺辨識與介面操作,直接跨越這道門檻,在沒有專用 API 的情況下也能處理複雜工作流程 。
HoloDesktop CLI 是一個讓 AI 代理在桌面電腦上運作的客戶端工具,主要用來啟動並執行 H Company 的電腦操作型 AI 代理 H Agent。它的設計理念很清晰:不是讓 AI 只讀取資料,而是讓 AI 真的進入使用者平常操作的桌面環境中,直接處理螢幕、視窗、按鈕與輸入框 。
這個定位對開發者與自動化工作者來說特別重要,因為過去很多自動化方案都被 API 可用性綁住,只要應用沒有接口,流程就很難自動化。HoloDesktop CLI 則嘗試把「看見螢幕」與「操作電腦」變成 AI 的原生能力,讓它能像人類一樣在介面中移動、點擊與輸入 。
HoloDesktop CLI 最引人注目的地方,是它把傳統的 AI 代理能力延伸到整個作業系統層級。H Agent 能在檢視螢幕的同時執行滑鼠與鍵盤操作,因此即使某個應用程式沒有提供 AI 專用 API,也能透過介面完成工作 。
官方與相關報導提到,它可與既有 AI 代理環境協同工作,包括 Claude Code、Cursor、Codex、Hermes、OpenClaw、NemoClaw 等工具,並支援 MCP、ACP 與 A2A 等整合架構 。這意味著 HoloDesktop CLI 並不是孤立的單點產品,而是被設計成可插入既有代理系統的執行層。
它的能力可以概括為幾個面向:
能看見桌面螢幕內容,並根據畫面狀況做出操作 。
能在整個作業系統中執行滑鼠點擊與鍵盤輸入 。
能在沒有 API 的應用中完成視覺化操作流程 。
能與其他代理或工具協作,加入既有工作流 。
HoloDesktop CLI 之所以值得注意,不只是因為它能操控桌面,而是因為它把這種能力納入更完整的代理協作架構。官方內容提到,它支援 MCP,用來連接外部工具;支援 ACP,讓主代理分派任務給子代理;也支援 A2A,讓不同代理彼此連接 。
這種設計思路很像是在建立一個「代理版的作業系統工作層」。例如,你可以讓 Claude Code 負責程式修改,再交由 HoloDesktop CLI 去實際登入網站、操作介面、檢查按鈕是否正常、驗證功能是否成功,形成從開發到測試的連續流程 。
對實務工作來說,這種架構的意義很大。它不只是把某個任務自動化,而是讓多個 AI 工具之間出現分工:有的負責思考,有的負責執行,有的負責驗證。這使得 AI 代理不再只是單一助手,而更像可以串接的工作團隊 。
HoloDesktop CLI 在部署與私隱策略上也提供了彈性。官方說明指出,使用者可以選擇 H Company 的 Models API 來方便使用,也可以採取自架方式,把 Holo3.1 系列模型部署在自己的硬體上運行 。
如果使用本機模式,螢幕截圖、鍵盤輸入以及應用程式內容都不會送到外部,這對重視資料保密的使用者與企業尤其重要 。在實際應用上,這讓 HoloDesktop CLI 不只是適合個人開發者,也有機會進入對合規性與資料保護要求較高的組織環境。
換句話說,它提供了兩條路線:一條是便利導向,直接使用雲端模型與託管服務;另一條是控制導向,把資料與推論留在本地端。這樣的雙模式設計,對不同成熟度的團隊都比較友善 。
直接讓 AI 操作電腦,安全設計就變得格外重要。HoloDesktop CLI 內建停止操作的指令,另外還提供緊急停止機制,使用者可快速連按兩次 Esc 鍵,立即暫停並取消正在執行的操作 。
這一點很關鍵,因為桌面代理不像一般聊天機器人那樣只輸出文字,它會實際觸碰畫面、輸入資料、點擊按鈕,任何誤判都可能造成操作錯誤。因此,能否快速中止、能否控制代理的行為邊界,直接決定這種工具能否進入日常使用 。
從產品設計角度看,HoloDesktop CLI 明顯意識到「可操作」與「可控」必須同時成立。若只有前者,代理可能過於激進;若只有後者,則失去自動化價值。它目前的安全機制,正是為了在兩者之間取得平衡 。
根據現有公開資訊,HoloDesktop CLI 以及 repo 中的 MCP、ACP、A2A 整合部分採用 Apache 2.0 開源授權 。不過,真正執行代理的 hai-agent-runtime 二進位檔案則屬於閉源組件,依照 H Company 的條款提供 。
這種「部分開源、部分閉源」的做法在 AI 工具領域並不罕見。對開發者而言,開源的 CLI 與整合層可以讓人更容易理解工作方式與串接方式;而核心執行層保留閉源,則有利於商業化、版本控制與能力保護 。
實際上,這也反映出 AI 代理產品當前的一個普遍現象:越接近可商用的高階自動化能力,越容易走向混合授權模式。使用者在採用時,除了看功能,通常也會留意這種授權切分是否符合自己的部署策略 。
HoloDesktop CLI 特別適合那些「API 不完整,但人可以操作」的場景。像是登入網站後進行設定、在後台系統中處理資料、在視窗型軟體中執行重複流程,或者需要在多個介面間反覆切換的工作,都很適合交給這類桌面代理 。
它對開發者尤其有吸引力,因為可以把程式生成與真實介面測試接起來。舉例來說,開發者可以先用編碼代理修改功能,再由 HoloDesktop CLI 實際打開畫面、操作介面、檢查結果,最後回饋給開發代理修正錯誤,形成一個閉環工作流 。
除了開發場景,企業內部的行政、客服、資料整理與流程測試也可能受益。只要任務牽涉大量固定介面與重複操作,HoloDesktop CLI 就有機會把人工介面操作轉化成可重複、可協作、可擴充的代理流程 。
H Company 也公開提到,未來會發展背景模式,讓 H Agent 在使用者繼續操作筆電時仍能在背景工作,並推出可配合日常工作流的原生應用程式 。此外,他們也計劃提供雲端電腦控制代理,讓多個代理可以超越單一 PC 執行工作 。
這些規劃說明,HoloDesktop CLI 並不只是單次發布的技術示範,而是整個產品路線圖的一部分。它的目標顯然不是只做一個「能動滑鼠的 AI」,而是要把電腦操作代理推向更完整的基礎設施層 。
若這個方向持續成熟,未來的 AI 工作方式可能會變得很不一樣:使用者不再只告訴 AI「寫什麼」,還能告訴 AI「去哪裡做、怎麼點、完成後回報什麼」。這將把 AI 從內容工具推進到真正的工作執行平台 。
HoloDesktop CLI 的出現,反映出 AI 代理正在從「能推理」走向「能操作」。這不只是技術升級,也是在重新定義人與電腦互動的方式。當代理可以直接看畫面、操作介面、理解上下文,很多原本依賴人工盯著螢幕完成的工作,就有機會被重新設計 。
不過,這類工具要真正普及,仍取決於三個關鍵:穩定性、可控性與整合度。穩定性決定它能不能長時間可靠運作;可控性決定使用者敢不敢讓它操作真實系統;整合度則決定它能不能進入現有工作流,而不是只停留在展示階段 。
整體來看,HoloDesktop CLI 是一個很有代表性的下一代 AI 代理產品。它不滿足於回答問題,而是直接把 AI 送進桌面環境中做事,讓「看見螢幕」與「操作電腦」成為 AI 的工作能力之一 。