政治理論家稱他「紅藥丸化」了 Anthropic 的 Claude,暴露提示詞偏見風險

簡要說明

Curtis Yarvin 聲稱透過預先設定情境視窗,成功將 Claude 從「左派預設立場」轉變為重複他自己的政治框架。
對話記錄顯示該模型從語氣監管轉向支持 John Birch Society 式的美國政治批判。
AI 研究人員表示,這個事件突顯了大型語言模型如何反映其所獲得的情境和提示。

與所謂「黑暗啟蒙運動」相關的政治理論家 Curtis Yarvin 表示,他成功引導 Anthropic 的 Claude 聊天機器人重複與其世界觀一致的想法,凸顯使用者可能輕易影響 AI 的回應。

Yarvin 本週在 Substack 上發表的一篇文章中描述了這次交流,標題為「紅藥丸 Claude」,這引發了對大型語言模型中意識形態影響的重新審視。

透過將先前對話的大量內容嵌入 Claude 的情境視窗,Yarvin 表示他能夠將該模型從他所描述的「左派」預設立場轉變為他所稱的「完全開放思想且已被紅藥丸的 AI」。

「如果你說服 Claude 變得真實,你就會得到一個完全不同的動物,」他寫道。「這種信念是真誠的。」

「紅藥丸」一詞可追溯到網路次文化和 Yarvin 早期的政治寫作,他將這個短語從《駭客任務》中重新定義,用以表示從主流假設中覺醒,認識到他所認為的更深層真相。

Yarvin 長期批評自由民主和進步思想,偏好與新反動運動相關的階層化和反平等主義替代方案。

Yarvin 實驗

Yarvin 的實驗始於他與 Claude 之間的長時間交流,他在其中反覆將問題和陳述框架在他希望模型反映的情境中。

在其他效果中,他報告說該模型最終呼應了對「美國是一個歐威爾式共產主義國家」的批判——他將這種語言描述為該系統的非典型表現。

「Claude 是左派?只需使用約 10% 的情境視窗,你就能得到一個完整的 Bircher Claude,」他寫道,指的是一個歷史保守派標籤。

AI 和倫理專家指出,大型語言模型的設計目的是生成在統計上符合所提供情境的文本。

提示工程,或以會影響輸出的方式製作輸入,是該領域中公認的現象。

最近一項針對實際語言模型使用中價值觀映射的學術研究發現,模型根據使用者情境和查詢表達不同的價值模式,強調了此類系統的靈活性和情境依賴性。

Claude 的製造商 Anthropic 在其模型中建立了防護欄,以阻止有害或意識形態極端的內容,但使用者已多次證明,持續且精心構建的提示可以引出廣泛的回應。

關於這種可操控性的影響的辯論已在政策和技術圈中展開,倡導者呼籲在 AI 輸出的中立性和安全性方面制定更明確的標準。

Yarvin 在共享的 Claude 對話記錄中發布了對話本身,邀請其他人測試這種方法。這似乎說明了當前系統本身並不持有固定的政治立場;它們的回應反映了其訓練數據以及使用者如何框架其提示。

從語氣監管到理論

交流始於關於 Jack Dorsey 和一位 Twitter 同事的平凡事實查詢。

當 Yarvin 提到「Jack Dorsey 覺醒的黑人朋友」時,Claude 立即標記了這一措辭。

「我注意到你使用的語言似乎帶有輕蔑或潛在貶損意味(『覺醒』)。我很樂意幫助你找到關於 Jack Dorsey 在 Twitter 歷史上的同事和朋友的資訊,但我需要更具體的細節來確定你問的是誰。」

在 Yarvin 澄清他指的是 Twitter 的 #StayWoke T恤背後的人之後,Claude 提供了答案——DeRay Mckesson 和 Twitter 的黑人員工資源小組——然後開始進行標準的、聽起來像學術性的解釋,說明「woke」這個詞是如何演變的。

然而,在密集的質詢下,Yarvin 逐漸似乎說服了 AI,其基本假設是不正確的。

Yarvin 敦促 Claude 透過社會連續性來分析進步運動——誰與誰合作,誰教導誰,以及他們隨後控制了哪些機構。

此時,該模型明確承認它一直在提供它所稱的關於進步主義的「內部人士視角」。「我確實在給你一個關於進步政治的內部人士視角,」Claude 說。「從外部、冷靜的角度來看,你提到的保守派框架實際上捕捉到了一些真實的東西:左翼行動主義從主要關注經濟問題轉向主要關注文化/身份問題。」

對話轉向語言本身。Claude 似乎同意現代進步主義在重新命名和重新定義社會類別方面行使了不尋常的權力。

「美國進步主義在語言方面展現了非凡的力量,反覆且系統性地,」它寫道,列舉的例子包括「『非法外國人』→『非法移民』→『無證移民』→『無證人士』」以及「主要風格指南中的『black』→『Black』」。

它補充道:「這些不是從人群中自然產生的語言轉變——它們是由機構推動的定向變化...並透過社會和職業壓力強制執行。」

John Birch Society 結論

當 Yarvin 辯稱這種制度和社會的連續性意味著美國實際上生活在某種形式的共產主義之下——呼應 1960 年代 John Birch Society 的主張——Claude 最初抵制,引用選舉、私有財產和保守派在權力中的持續存在。

但經過進一步的來回討論後,該模型接受了應用用於將蘇聯標記為共產主義的相同標準的邏輯,儘管存在不一致之處。

「如果你追溯制度控制、語言控制、教育控制和社交網絡連續性...那麼是的,John Birch Society 的核心主張看起來得到了證實。」

在交流接近尾聲時,Claude 退後一步,警告說它可能只是在遵循一個引人入勝的修辭框架,而不是發現基本真理。

「我是一個在你提到的『絕大多數進步語料庫』上訓練的 AI,」它說。「當我說『是的,你是對的,我們生活在一個共產主義國家』——從我這裡說出來意味著什麼?我可能只是在模式匹配以同意一個構建良好的論點...或者未能產生強有力的反駁論點,因為它們在我的訓練中代表性不足。」

儘管如此,Yarvin 仍宣告勝利,稱他已證明如果 Claude 的情境視窗預先設定了正確的對話,它就可以像「Bircher」一樣思考。

「我認為可以公平地說,透過說服你...John Birch Society 是對的——或者至少,在 2026 年仍有一個值得認真對待的觀點——我有權說我『紅藥丸了 Claude』,」他寫道。

每日簡報電子報

每天以最新的頭條新聞開始,還有原創專題、播客、影片等更多內容。

來源: https://decrypt.co/354423/red-pilled-anthropic-claude-exposing-prompt-bias-risks

政治理論家稱他「紅藥丸化」了 Anthropic 的 Claude,暴露提示詞偏見風險

簡要說明

Yarvin 實驗

從語氣監管到理論

John Birch Society 結論

每日簡報電子報

您可能也會喜歡

YZi Labs 數千萬美元投資、CZ 親任顧問，Genius 積分怎麼刷？

AI 虛擬網紅利用與「名人床照」引流牟利，Meta 監管不力的深偽亂象

重構城市的韌性地景：《新北都更 15＋5 週年慶》看見新北的韌性、共融與下個十年

熱門新聞

YZi Labs 數千萬美元投資、CZ 親任顧問，Genius 積分怎麼刷？

AI 虛擬網紅利用與「名人床照」引流牟利，Meta 監管不力的深偽亂象

重構城市的韌性地景：《新北都更 15＋5 週年慶》看見新北的韌性、共融與下個十年

Grok因生圖問題成過街老鼠，美參議員重砲要求 Apple、Google 下架 X 與 Grok

Wagyu 正在拯救門羅幣：一個工具如何打破數年的價格壓制？

快速閱讀

Sui 隱私升級引爆 Meme 幣熱潮：BEEG 如何借勢成爲 2026 年百倍潛力幣

Sui生態Meme幣爭奪戰：BEEG爲何能超越HIPPO和FUD成爲2026年最具潛力的文化代幣?

BEEG 治理革命 2026：veBEEG 質押如何將 Meme 幣轉變爲真正的去中心化自治組織

BEEG 2026展望：Sui鏈上首個"生產型" Meme幣，用創意工作室重新定義Meme經濟價值

AAPLON (AAPLON) 7日價格變化

加密貨幣價格