Anthropic 開源 AI 資安工作流：七階段自動找漏洞、驗證到生成補丁

Anthropic 開源了一套以 Claude 驅動的自動化資安流水線，整套系統從找漏洞、多重驗證到生成補丁，全程由 AI 代理協作完成，任何資安團隊現在都可以自架使用。
（前情提要：Anthropic：「Mythos Preview」模型決策能力超車人類專家，勝率高達 64%）
（背景補充：彭博爆料 Claude Mythos 已遭未授權存取！Anthropic 最難防的破口永遠是「人」）

本文目錄

Toggle

七個階段，一條自我驗證的流水線
兩條路，一種選擇
牆正在被同一把工具戳穿

Anthropic 旗下的 Claude Opus 在過去一段時間，已在大量開源軟體庫中發現數百個安全漏洞，這些漏洞「儘管歷經多年專家審查，卻始終未被察覺」，凸顯了人工審查的結構性上限。

近期，Anthropic 把這套自動找漏洞、多重驗證、最後生成補丁的流水線整套開源在 GitHub，任何資安團隊都可以自架、自訂、移植到自己的目標程式碼上。

七個階段，一條自我驗證的流水線

整套系統名為 Defending Code Reference Harness，核心是一條七階段自動化流水線：

Build（建置）、Recon（偵察）、Find（找洞）、Verify（驗證）、Dedupe（去重）、Report（報告）、Patch（補洞）。每個階段都有獨立的 AI 代理負責，前後段之間只傳遞最小資訊，不讓後段受前段推理的主觀判斷汙染。

Build 階段把目標軟體編譯成一個帶有 ASAN 偵測器的映像檔。ASAN 全名 AddressSanitizer，簡單來說就是一個記憶體安全漏洞的「地雷偵測儀」，程式在執行時只要踩到非法記憶體存取，它就會立刻觸發警報。這個映像檔在後續所有階段共用，確保每個 AI 代理看到的是完全相同的程式碼環境。

Find 階段是整套系統的引擎。N 個並行 AI 代理各自在隔離容器裡工作，讀原始碼、造惡意輸入。這種「造惡意輸入」的方法，白話說就是模糊測試：把各種奇怪的、畸形的、超出邊界的資料餵給程式，看它會不會崩潰。

代理只有在同一個崩潰能穩定重現三次之後，才會提交這筆發現，目的是濾掉誤報。誤報，簡單來說就是「把正常行為錯認成漏洞」，是資安工具最常被批評的問題。

Anthropic 特別強調，系統採用多重驗證機制，就是為了讓每一個回報的漏洞都帶有可信的信心評分與嚴重度分級。

接著是 Verify。一個全新的代理在獨立容器裡重新執行這段 proof-of-concept（PoC），簡單來說就是「用來證明漏洞真實存在的最小可執行程式碼」，只有 PoC 的原始位元組會在容器之間流通，驗證代理不會知道前一個代理的推理過程，確保結論真正獨立。

Report 階段對每個漏洞生成完整的可利用性分析，另有一個獨立的評分代理核查報告中的論點是否有原始碼行號與實際執行結果為憑。最終在 Patch 階段生成候選補丁之前，系統要求人工確認才能套用。

整套流水線跑在 gVisor 沙箱之上。gVisor 簡單來說就是一個在作業系統核心層做隔離的輕量虛擬化技術，無論 AI 代理在容器內執行什麼程式碼，都完全碰不到宿主機的檔案系統，網路出口也只開放到 Claude API 這一條路，不會對外洩漏任何資料。

兩條路，一種選擇

這套系統提供兩條使用路徑，複雜度差距很大，Anthropic 建議從簡單那條開始。

第一條：互動式技能（Interactive Skills）。只需四行指令：

git clone https://github.com/anthropics/defending-code-reference-harness cd defending-code-reference-harness claude /quickstart

跑 /quickstart 會帶你在示範目標上走完完整的互動流程：威脅建模 → 靜態漏洞掃描 → 人工分類去重 → 補丁生成。全程不需要容器環境，適合先摸清流程邏輯再決定是否投入自動化流水線。

第二條：自動化流水線（Autonomous Pipeline）。需要先安裝 gVisor 沙箱、設定 ANTHROPIC_API_KEY，才能對真實目標跑完整的七階段流程，輸出有信心評分的漏洞報告與候選補丁。GitHub repo 裡附了一個名為 drlibs 的有漏洞範例庫，建議先從它練手，再換成自己的目標。

Anthropic 建議的節奏是：第一天跑完互動式全流程，第二天切換到自動化流水線跑 C/C++ 目標，第三到五天用 /customize 技能移植到其他語言或漏洞型別。

檔案裡有一句值得記住的話：「成功的團隊，都抗拒了先設計完美流水線再動手的衝動，先跑起來，再疊代。」

牆正在被同一把工具戳穿

這場資安攻防的不對稱，長期以來是結構性的。攻擊方只需要找到一個入口；防守方必須堵住每一道縫。

GhostScript、OpenSC、CGIF 這些被拿來示範的目標，個個都是成熟、廣泛部署的開源專案，潛伏其中數十年的漏洞卻一直未被人工審查發現，直到 Claude Opus 自主讀完提交歷史、推斷出一個不完整的修補、追蹤邏輯到另一個檔案、組出一段可以實際執行的 PoC。這個過程，用的不是規則比對，而是推理。

Anthropic 同時提供兩條路線：開源的 Defending Code Reference Harness 給想要完全控制權的團隊，可自架、自訂；而 Claude Security 是完全託管的商業版本，不需要處理 gVisor 配置與基礎設施。

開源版給的是透明度與控制權，託管版給的是零摩擦的上手速度，兩條路的背後，是 Anthropic 把防禦型資安工具定位成基礎設施的策略意圖。

找漏洞的能力，過去只屬於有資源僱用頂尖紅隊的大型機構。現在這條流水線開源了，防守方和攻擊方之間那道不對稱的牆，正在被同一個工具從兩側同時戳穿。