AI工具有那些? @ 香港AI工具平台
Perception - Agentic Detection AI(AI影片工具):Perceptron 推出的 Perception Agentic Detection,是一套把「物件偵測」重新定義為「任務導向視覺理解」的 AI 系統。 它最大的特色,不是只能在固定類別中找物件,而是能用自然語言描述、範例示意,甚至整體場景清單的方式,去定位你想找的任何東西。


環球AI能力評測基準認證考試 ACE, AI證照 @ ExtranAI
AI影片工具 - Perception - Agentic Detection AI是什麼? 好用嗎? 評價?

Perception - Agentic Detection AI

Perception - Agentic Detection AI 介紹:讓視覺辨識從固定標籤走向任務式理解

Perceptron 推出的 Perception Agentic Detection,是一套把「物件偵測」重新定義為「任務導向視覺理解」的 AI 系統。 它最大的特色,不是只能在固定類別中找物件,而是能用自然語言描述、範例示意,甚至整體場景清單的方式,去定位你想找的任何東西。

 

什麼是 Agentic Detection ?

傳統物件偵測模型通常依賴固定標籤集,例如人、車、狗、椅子,模型先天就必須知道「要找什麼」。 Perception 的思路則更像一個會主動思考的視覺代理,它不是一次性掃描後就下結論,而是會根據任務需要反覆看得更仔細、建立證據、再做判斷。

這種「agentic」方法的核心,在於把視覺感知視為迭代過程,而不是靜態分類流程。 系統可在需要時放大、切片、裁切影像,自行進行第二次甚至多次檢查,補足一次性偵測常常會漏掉的細節。

 

三種使用方式

Perception 的 API 提供三種主要請求方式,讓使用者可以依任務需求選擇不同輸入策略。 第一種是「Detect everything」,也就是做完整場景盤點,不預先限制類別名稱;第二種是「Open-vocab categories」,可直接丟入任意類別清單;第三種是「Visual exemplars」,只要提供一個示意裁切圖,系統就能學會你要找的目標。

這個設計非常實用,因為它讓偵測不再受限於既有標籤集。 對研究者、工程師與企業用戶來說,這等於可以用更少的標註成本處理更複雜、更模糊的場景,例如專利圖像、工業檢測、資安畫面、遙測影像或大量物件的密集場景。

 

Perception 代理式視覺推理

Perception 的關鍵,不只是在「能找」,而是在「怎麼找」。 其系統會自動對影像做 zoom、tile、crop 等操作,先看全局,再深入局部,並根據任務情況調整注意力範圍。

這種做法讓模型更接近人類找東西的方式:先粗看,再細看,若有疑點就再看一次。 在密集、小物件、遮擋、模糊或多視角情境下,這種策略通常比單次前向偵測更可靠。

 

Perception - Agentic Detection AI 適合的應用場景

Perception 對「高密度、模糊、需要精準定位」的任務特別有吸引力。 例如工業視覺檢測、零件盤點、交通場景分析、遙測資料處理、資安截圖分析、科研圖片標註,甚至是多模態研究中的實驗數據整理,都屬於它可能發揮優勢的範圍。

另一個很重要的方向,是需要「像人一樣看圖」的任務。 當使用者不方便預先定義完整標籤、又希望系統能根據自然語言或例圖快速定位目標時,Perception 的彈性就會比傳統偵測器高出很多。

 

Perception - Agentic Detection AI 模型與性能

根據公開資訊,Perception 是建立在 Perceptron 的 Mk1 基礎之上,並以單一 API 提供服務。 外界也提到它在密集偵測、含糊目標與多視點資料上有不錯表現,並可在同一接口中處理多種感測或視角類型。

目前公開的訊息顯示,這套服務的定價為 input 每百萬 token 0.15 美元、output 每百萬 token 1.50 美元。 這種定價方式很明顯是面向開發者與產品整合場景,而不是只做一次性試玩。

 

Perception - Agentic Detection AI 產品思路的不同

Perception 最值得注意的地方,是它把「感知」本身當成智能流程的一部分,而不是單純的前端辨識模組。 也就是說,它不是只問「這裡有沒有目標」,而是問「要不要再看清楚一點」、「要不要換一個區域」、「要不要再建立更多證據」。

這個概念非常接近 agentic AI 的核心精神:感知、判斷、行動不是分離的,而是串成一個閉環。 對視覺任務而言,這代表未來的偵測器可能不只是分類器,而是會主動探索畫面的推理系統。

 

Perception - Agentic Detection AI 對產業的意義

Perception 的推出,反映出電腦視覺正在從「固定類別識別」走向「任務式理解」。 在許多真實世界場景裡,使用者並不知道標籤集該如何定義,甚至每次任務都可能不同,這時候 open-vocabulary 加 agentic 探索就會變得格外有價值。

對企業來說,這意味著更少的前期標註成本、更高的任務適應性,以及更容易落地到非標準化場景。 對研究者來說,這則提供了一個新的視覺推理工具:它不只是做辨識,而是幫助你把視覺問題拆成可探索、可驗證的子任務。

 

結語

Perception - Agentic Detection AI 的真正創新,在於它不再把視覺辨識看成一次性答案輸出,而是看成一個持續探索、反覆驗證、主動收斂的過程。 這讓它在複雜影像、密集目標與模糊任務中,比傳統偵測模型更有機會做出穩定而靈活的結果。

立即試用