「vibe coding」概念提出者、OpenAI 共同創辦人 Andrej Karpathy 發文力挺 An […] 〈OpenAI共同創辦人Andrej Karpathy:支持AI模型輸出HTML取代Markdown〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。「vibe coding」概念提出者、OpenAI 共同創辦人 Andrej Karpathy 發文力挺 An […] 〈OpenAI共同創辦人Andrej Karpathy:支持AI模型輸出HTML取代Markdown〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

OpenAI共同創辦人Andrej Karpathy:支持AI模型輸出HTML取代Markdown

2026/05/12 16:11
閱讀時長 6 分鐘
如需對本內容提供反饋或相關疑問,請通過郵箱 crypto.news@mexc.com 聯絡我們。

「vibe coding」概念提出者、OpenAI 共同創辦人 Andrej Karpathy 發文力挺 Anthropic Claude Code 團隊工程師 Thariq Shihipar 提倡的「用 HTML 取代 Markdown」。
(前情提要:Vibe Coding 正在殺死初階工程師,Bloomberg:恐摧毀整個開發人才培育鏈
(背景補充:OpenAI 推出 Claude Code「搬家工具」,不演了讓使用者無痛跳槽 Codex

本文目錄

Toggle
  • 重點摘要
  • 文字是起點,盡頭是「腦神經影像」
  • 常見問題

重點摘要

  • Andrej Karpathy 力挺 Claude Code 團隊「HTML 取代 Markdown」,描繪從純文字到擴散模型生成互動式神經影片的 AI 輸出演進路線圖
  • 人腦約 1/3 是視覺並行處理器,是資訊進入大腦的「十車道高速公路」,決定 AI 輸出應以高頻寬視覺畫面為主
  • 前 OpenAI 研究員 Zain Shah 的 Flipbook 原型用 DiT 模型直接生成 1080p/24fps 畫素級畫面,被 Karpathy 點名為終局雛形

Anthropic Claude Code 團隊工程師 Thariq Shihipar 上週在 X 平台宣稱「HTML is the new markdown」,附上 20 個實際使用範例引爆超過 440 萬次瀏覽,隨後這個話題持續升溫, Andrej Karpathy 回應更引爆這個邏輯,他不只同意 HTML 是更好的選擇,還把話題從「該用什麼格式」一路拉高到了「AI 輸出的最終形態是什麼」。

文字是起點,盡頭是「腦神經影像」

Karpathy 列出了一張 AI 輸出格式的演進路線圖。

第一代是原始純文字,閱讀費力

第二代是目前的主流 Markdown,靠粗體、斜體、標題和表格稍微降低認知負擔

第三代是 HTML,格式仍由程式碼定義,但排版、圖形甚至互動元件的自由度遠非 Markdown 能比——這一代正在快速成為新預設。

他認為 HTML 之後還有多代中間形態(第 4、5、6 代),但不急著定義。

重要的是終局(第 n 代):由擴散模型直接生成的互動式神經影像或模擬(interactive neural videos/simulations)。

AI 不再輸出「人類閱讀的文字」,而是直接輸出到人類大腦,讓人可以在腦中感知的動態畫面。

Karpathy 直接點名前 OpenAI 研究員 Zain Shah 團隊發布的 Flipbook 原型作為終局雛形。

Flipbook 完全不使用 HTML 或 CSS,而是基於開源 DiT(Diffusion Transformer)影片模型 LTX Studio,透過 WebSocket 即時串流 1080p、24fps 的畫素級畫面,使用者看到的每一個「頁面」都是 AI 即時生成的影像,點選任何區域就生成下一幀,整個介面沒有一行傳統程式碼。

Karpathy 在描述的概念是,AI 的輸出最終需要從人類的視覺轉向人類的「感知」。

但作為眼前最務實的建議,Karpathy 直接建議 LLM 使用者,在提示詞末尾加上「structure your response as HTML」(把你的回應做成 HTML),然後用瀏覽器開啟生成的檔案。

常見問題

Karpathy 說的 AI 輸出終局「互動式神經影片」是什麼?

由擴散模型直接生成可互動的畫素級動態畫面,不使用 HTML 或 CSS 等程式碼。前 OpenAI 研究員 Zain Shah 的 Flipbook 原型是目前最接近的實現,基於 DiT 模型即時串流 1080p/24fps 影像。

為什麼 Karpathy 認為 AI 輸出應從文字轉向視覺?

人腦約三分之一是視覺並行處理器,視覺通道是資訊進入大腦的「十車道高速公路」,頻寬遠超閱讀文字。因此高頻寬視覺輸出(影像、動畫、影片)是人機互動的最優解。

📍相關報導📍

Vibe Coding 正在殺死初階工程師,Bloomberg:恐摧毀整個開發人才培育鏈

OpenAI 推出 Claude Code「搬家工具」,不演了讓使用者無痛跳槽 Codex

OpenAI 教你如何安全使用 Codex:沙盒邊界、自動審批、安全分類,完整企業部署框架

免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 crypto.news@mexc.com 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

KAIO 全球首發

KAIO 全球首發KAIO 全球首發

享受 KAIO 0 費率交易,把握 RWA 熱潮