OpenAI共同創辦人Andrej Karpathy：支持AI模型輸出HTML取代Markdown

「vibe coding」概念提出者、OpenAI 共同創辦人 Andrej Karpathy 發文力挺 Anthropic Claude Code 團隊工程師 Thariq Shihipar 提倡的「用 HTML 取代 Markdown」。
（前情提要：Vibe Coding 正在殺死初階工程師，Bloomberg：恐摧毀整個開發人才培育鏈）
（背景補充：OpenAI 推出 Claude Code「搬家工具」，不演了讓使用者無痛跳槽 Codex）

本文目錄

Toggle

重點摘要
文字是起點，盡頭是「腦神經影像」
常見問題

重點摘要

Andrej Karpathy 力挺 Claude Code 團隊「HTML 取代 Markdown」，描繪從純文字到擴散模型生成互動式神經影片的 AI 輸出演進路線圖
人腦約 1/3 是視覺並行處理器，是資訊進入大腦的「十車道高速公路」，決定 AI 輸出應以高頻寬視覺畫面為主
前 OpenAI 研究員 Zain Shah 的 Flipbook 原型用 DiT 模型直接生成 1080p/24fps 畫素級畫面，被 Karpathy 點名為終局雛形

Anthropic Claude Code 團隊工程師 Thariq Shihipar 上週在 X 平台宣稱「HTML is the new markdown」，附上 20 個實際使用範例引爆超過 440 萬次瀏覽，隨後這個話題持續升溫， Andrej Karpathy 回應更引爆這個邏輯，他不只同意 HTML 是更好的選擇，還把話題從「該用什麼格式」一路拉高到了「AI 輸出的最終形態是什麼」。

文字是起點，盡頭是「腦神經影像」

Karpathy 列出了一張 AI 輸出格式的演進路線圖。

第一代是原始純文字，閱讀費力

第二代是目前的主流 Markdown，靠粗體、斜體、標題和表格稍微降低認知負擔

第三代是 HTML，格式仍由程式碼定義，但排版、圖形甚至互動元件的自由度遠非 Markdown 能比——這一代正在快速成為新預設。

他認為 HTML 之後還有多代中間形態（第 4、5、6 代），但不急著定義。

重要的是終局（第 n 代）：由擴散模型直接生成的互動式神經影像或模擬（interactive neural videos/simulations）。

AI 不再輸出「人類閱讀的文字」，而是直接輸出到人類大腦，讓人可以在腦中感知的動態畫面。

Karpathy 直接點名前 OpenAI 研究員 Zain Shah 團隊發布的 Flipbook 原型作為終局雛形。

Flipbook 完全不使用 HTML 或 CSS，而是基於開源 DiT（Diffusion Transformer）影片模型 LTX Studio，透過 WebSocket 即時串流 1080p、24fps 的畫素級畫面，使用者看到的每一個「頁面」都是 AI 即時生成的影像，點選任何區域就生成下一幀，整個介面沒有一行傳統程式碼。

Karpathy 在描述的概念是，AI 的輸出最終需要從人類的視覺轉向人類的「感知」。

但作為眼前最務實的建議，Karpathy 直接建議 LLM 使用者，在提示詞末尾加上「structure your response as HTML」（把你的回應做成 HTML），然後用瀏覽器開啟生成的檔案。