Centaur:邁向統一認知理論的基礎模型

Centaur:邁向統一認知理論的基礎模型

從萬千實驗到單一模型:心理學的聖杯之路

在計算機科學與認知科學的交叉領域,一個長達數十年的夢想正在逐步實現:建立一個能夠完整解釋人類心智的統一理論。這個願景最早由認知科學先驅 Allen Newell 在 1990 年的經典著作《Unified Theories of Cognition》中提出,當時他斷言「統一認知理論是將我們不斷增長的知識庫納入智識控制的唯一途徑」。三十五年後,發表於 Nature(2025 年 7 月)的一項突破性研究,讓我們首次看見這一願景的具體實現——一個名為 Centaur 的基礎模型,能夠預測和模擬人類在任何自然語言描述的實驗中的行為。

這不僅是技術上的進步,更是認知科學研究範式的徹底轉變。從傳統的領域專屬模型,到能夠跨越記憶、決策、學習、探索等多個認知領域的通用模型,Centaur 代表著人工智慧與認知科學融合的新紀元。

Psych-101:史無前例的認知行為資料集

規模與範圍

Centaur 的誕生建立在一個前所未見的大規模資料集——Psych-101——之上。這個資料集的規模令人震撼:

  • 60,092 名參與者:涵蓋廣泛的人群樣本
  • 10,681,650 個選擇:超過一千萬個真實人類決策
  • 160 個心理學實驗:橫跨多個認知領域
  • 253,597,411 個文本標記:超過 2.5 億個 token 的自然語言描述

更重要的是,Psych-101 的設計哲學體現了一個關鍵創新:所有實驗都以自然語言轉錄。這個看似簡單的決定,實際上為建立通用認知模型奠定了基礎。過去,不同的心理學實驗使用各自的格式和表示方式,難以整合。通過將所有實驗統一為自然語言描述,研究團隊創造了一個共通的「認知語言」,使得單一模型能夠理解和處理從記憶任務到決策問題、從監督學習到強化學習的各種認知範式。

涵蓋的認知領域

Psych-101 涵蓋了認知科學的核心領域:

1. 多臂吃角子老虎機(Multi-Armed Bandits)
這是研究探索與利用權衡的經典範式。人類需要在多個選項中做出選擇,每個選項提供不確定的回報。這測試了人們如何在有限資訊下學習和決策。

2. 決策理論(Decision-Making)
包括期望理論(Prospect Theory)、風險偏好、時間折扣等經典決策任務。這些實驗揭示了人類如何在不確定性下做出選擇,以及為何我們的決策常常偏離理性模型的預測。

3. 記憶(Memory)
從工作記憶容量測試到長期記憶提取,這些實驗探討人類如何編碼、儲存和檢索資訊。

4. 監督學習(Supervised Learning)
人類如何從標記的例子中學習概念和分類規則。這與機器學習中的監督學習有著有趣的對應關係。

5. 馬可夫決策過程(Markov Decision Processes)
涉及序列決策和規劃的任務,參與者需要在考慮未來後果的情況下做出當前決策。

資料污染分析:確保模型的真實性

在大型語言模型的訓練中,一個關鍵問題是資料污染(data contamination):模型可能在預訓練階段就已經「見過」測試資料,導致性能被高估。研究團隊使用 LogProber 方法對 Psych-101 的每個實驗範式進行了嚴格的污染檢測。

LogProber 通過擬合雙參數指數模型來檢測序列的累積對數似然。高加速度值(log B ≥ 1)表示提示詞可能在預訓練資料中被記憶。分析結果顯示:沒有任何證據表明存在資料污染。這確保了 Centaur 的性能是真實的學習結果,而非記憶預訓練資料的產物。

Centaur 的技術架構:從語言模型到認知模型

微調策略:Low-Rank Adaptation

Centaur 的核心是對最先進的大型語言模型(具體為 Llama 系列)進行微調。然而,直接微調數十億參數的模型既昂貴又低效。研究團隊採用了一種更為精巧的方法:低秩適配器(Low-Rank Adapters, LoRA)

LoRA 的核心思想是:與其更新模型的所有參數,不如在原始權重矩陣旁添加低秩矩陣(秩遠小於原矩陣維度)。這大幅減少了需要訓練的參數數量,同時保持了模型的表達能力。在 Centaur 中,這種方法允許模型在保留語言理解能力的同時,學習人類認知行為的特定模式。

數學上,對於權重矩陣 $W \in \mathbb{R}^{d \times k}$,LoRA 引入了兩個低秩矩陣 $A \in \mathbb{R}^{d \times r}$ 和 $B \in \mathbb{R}^{r \times k}$(其中 $r \ll \min(d,k)$),使得:

$$W' = W + \alpha \cdot AB$$

其中 $\alpha$ 是縮放因子。只有 $A$ 和 $B$ 在微調過程中被更新,大幅降低了計算成本和記憶體需求。

訓練目標:預測下一個人類選擇

與標準語言模型預測下一個詞不同,Centaur 的訓練目標是預測下一個人類選擇。給定實驗的自然語言描述和到目前為止的試次歷史,模型需要輸出人類在下一個試次中最可能做出的選擇。

這種訓練方式使模型不僅學習語言模式,更學習人類認知的序列依賴性、探索策略、風險偏好、記憶限制等深層特性。模型在訓練過程中內化了人類決策的統計規律性和系統性偏差。

驗證 Centaur:多層次的泛化能力

第一層:預測保留參與者的行為

最基本的測試是:Centaur 能否預測訓練集中未見過的參與者(held-out participants)在相同實驗中的行為?

研究團隊將每個實驗的參與者分為訓練集和測試集,並比較 Centaur 與領域專屬認知模型的性能。結果令人印象深刻:Centaur 在幾乎每個實驗中都優於現有的認知模型

具體來說,研究人員計算了 Centaur 和基礎 Llama 模型相對於領域專屬模型的對數似然差異。在 160 個實驗中,Centaur 顯著優於:

  • 基礎 Llama 模型:t(1,985,732) = -144.22, P ≤ 0.0001
  • 領域專屬認知模型:t(1,985,732) = -127.58, P ≤ 0.0001

這些統計結果不僅僅是數字上的優勢,它們表明 Centaur 捕捉到了人類行為中的細微模式,而這些模式是傳統認知模型所遺漏的。

第二層:泛化到新的封面故事

更嚴格的測試是改變實驗的封面故事(cover story)但保持底層結構不變。例如,在經典的「兩步驟任務」(two-step task)中,參與者需要進行序列決策以獲得獎勵。研究團隊修改了任務的敘述方式,但保持了決策結構相同。

結果顯示,Centaur 仍然能夠準確預測人類行為(n = 9,702 個回應),顯著優於未微調的 Llama 模型。這表明 Centaur 學習到的不是表面的語言模式,而是底層的認知結構。

第三層:泛化到結構性任務修改

接下來的挑戰是修改任務的結構。例如,將雙臂吃角子老虎機擴展為三臂版本。這需要模型理解任務的抽象原理,而不僅僅是記憶特定配置。

在三臂吃角子老虎機實驗中(n = 510,154 個回應),Centaur 再次表現出色,證明它能夠將學習到的原則推廣到新的問題規模。

第四層:泛化到全新領域

最嚴格的測試是完全新的領域——Psych-101 中從未出現過的實驗類型。研究團隊選擇了基於 LSAT(法學院入學考試)的邏輯推理任務作為測試。

即使面對這種全新的認知挑戰,Centaur 依然優於基礎模型(n = 99,204 個回應),儘管領域專屬模型在這種特定任務上仍有優勢。這個結果既展示了 Centaur 的驚人泛化能力,也提醒我們統一模型尚未完全取代專門化的認知理論。

神經對齊:連接計算模型與大腦活動

Centaur 的一個最引人注目的發現是:微調後的模型內部表徵與人類神經活動更加一致,儘管模型從未被明確訓練來捕捉大腦活動。

解碼神經活動

研究團隊使用 Centaur 的內部表徵(從不同層提取的向量)來解碼人類在執行任務時的神經活動,具體使用了兩個實驗:

1. 兩步驟任務的 fMRI 資料
在這個涉及序列決策的任務中,研究人員測量了 Centaur 不同層的表徵與人腦活動的 Pearson 相關係數。結果顯示,微調後的 Centaur 的內部表徵能夠更好地預測大腦活動模式。

2. 句子閱讀任務的神經記錄
類似地,在語言理解任務中,Centaur 的表徵與人類神經活動的對齊度顯著高於隨機初始化的控制模型。

這個發現具有深遠的意義:它表明,通過在行為資料上訓練,模型自發地學習到與人腦處理資訊相似的表徵結構。這支持了一個重要的理論觀點:認知功能的計算原則可能在行為和神經層面上是統一的

CogBench:行為指標的多維度空間

研究團隊還使用 CogBench 評估了 Centaur 在多個行為指標上的表現。CogBench 包含十個不同的行為測量維度,涵蓋記憶、決策、學習等多個方面。

通過多維度縮放(Multidimensional Scaling)將這十個指標投影到二維空間,研究人員發現:Centaur 在行為空間中的位置比未微調的 Llama 模型更接近人類。這種「人類對齊」不是單一維度的改進,而是在認知功能的整個空間中向人類行為靠攏。

技術突破的意義:為什麼 Centaur 是里程碑

從領域專屬到領域通用

傳統認知科學的研究範式是為每個認知領域開發專門的計算模型:

  • 期望理論(Prospect Theory)解釋風險決策
  • ACT-R 架構模擬記憶和問題解決
  • 強化學習模型描述試錯學習

這些模型在各自的領域內表現出色,但它們是相互隔離的。一個研究決策的模型不能告訴我們關於記憶的任何資訊,反之亦然。這種碎片化阻礙了我們對人類心智整體的理解。

Centaur 打破了這種分割。它是第一個能夠在多個認知領域中預測人類行為的單一模型。這不僅僅是工程上的便利,更是認知科學理論的重大進步:它證明了存在跨領域的共同計算原則。

數據驅動的理論發現

傳統科學方法是:提出理論假設 → 設計實驗 → 收集資料 → 驗證假設。Centaur 代表了一種互補的方法:

  1. 收集大規模行為資料
  2. 訓練能夠預測該資料的模型
  3. 分析模型以提取計算原則
  4. 將這些原則形式化為認知理論

研究團隊展示了一個案例研究,說明如何使用 Centaur 來指導認知模型的開發。他們使用 科學遺憾最小化(Scientific Regret Minimization)的方法:識別 Centaur 做出準確預測但現有認知模型失敗的案例,然後設計新的模型來解釋這些差距。

這種方法在多屬性決策任務中取得了成功,產生的新模型既像 Centaur 一樣準確,又像傳統認知模型一樣可解釋。這展示了基礎模型作為理論發現工具的潛力。

超越「更大即更好」的範式

Centaur 的成功也挑戰了當前 AI 發展的主流敘事。在追求更大模型、更多參數、更多計算的競賽中,Centaur 提醒我們:專業化的微調和高質量的領域資料同樣重要

與動輒數千億參數的通用語言模型相比,Centaur 通過在特定認知任務上的精心微調,實現了在人類行為預測上的卓越性能。這為 AI 研究提供了另一條路徑:不是盲目擴大規模,而是深入理解和建模特定領域的計算原則。

對 AI 和認知科學的深遠影響

重新定義認知模型的角色

Centaur 的出現可能會改變認知科學家對「模型」的理解:

過去:模型是理論的正式表述,包含少量可解釋的參數(如學習率、折扣因子),每個參數都有明確的心理學意義。

未來:模型可能是具有數百萬參數的深度網絡,這些參數沒有獨立的心理學解釋,但整體行為與人類高度一致。

這引發了一個哲學問題:可解釋性與預測性之間的權衡。傳統認知模型高度可解釋但預測能力有限;Centaur 預測能力強但內部機制不透明。未來的研究需要在這兩個極端之間找到平衡,或者開發新的可解釋性工具來分析像 Centaur 這樣的複雜模型。

加速認知理論的驗證

Centaur 可以作為「虛擬實驗室」來測試理論假設。研究者可以:

  1. 修改模型的某些方面(如注意力機制、記憶容量)
  2. 觀察這些修改如何影響行為預測
  3. 將預測與真實人類資料比較
  4. 迭代改進理論

這種方法比傳統的人類實驗快得多、成本更低,可以大幅加速理論發展的循環。當然,最終的驗證仍需要真實的人類實驗,但 Centaur 可以幫助過濾掉不太可能成功的理論,集中資源在最有前景的方向上。

為 AI 系統注入人類認知偏誤

從 AI 安全和對齊的角度,Centaur 提供了一個有趣的視角。大多數 AI 對齊研究關注如何使 AI 系統遵循人類價值觀和目標。但 Centaur 做的是更基礎的事情:使 AI 系統以人類的方式思考,包括人類的認知限制和偏誤。

這有利有弊:

優勢

  • 更好的人機協作:如果 AI 理解人類如何決策(包括非理性方面),它可以更好地預測人類行為並提供合適的幫助
  • 更自然的互動:表現出類人思考模式的 AI 可能更容易被人類理解和信任
  • 檢測認知偏誤:理解人類偏誤的 AI 可以識別並幫助我們避免這些陷阱

風險

  • 繼承有害偏見:如果訓練資料包含歧視性決策模式,模型可能複製這些偏見
  • 操縱的可能性:深度理解人類認知弱點的 AI 可能被用來操縱人類
  • 非最優決策:某些情況下,我們希望 AI 比人類更理性,而非模仿人類的次優決策

認知神經科學的新工具

Centaur 的神經對齊發現為認知神經科學提供了一個強大的新工具。研究者可以:

1. 生成神經活動預測
使用 Centaur 的內部表徵來預測特定認知任務中的大腦活動模式,指導 fMRI 或 EEG 研究的設計。

2. 理解表徵學習
分析 Centaur 如何在不同層次上表徵資訊,可能揭示大腦如何組織認知表徵的線索。

3. 跨物種比較
將 Centaur 的行為與動物模型比較,可能幫助理解認知能力的進化基礎。

局限性與未來挑戰

儘管 Centaur 是一個重大突破,但它遠非完美,仍面臨多個挑戰:

計算成本與可訪問性

訓練 Centaur 需要大量計算資源——數千 GPU 小時用於微調大型語言模型。這使得只有資源豐富的研究機構才能複製和擴展這項工作。為了實現認知科學的民主化,需要開發更高效的訓練方法和共享預訓練模型。

可解釋性挑戰

Centaur 的「黑盒」特性與認知科學對可解釋理論的傳統重視存在張力。未來的研究需要開發技術來「打開黑盒」:

  • 機械性可解釋性:識別模型中對應特定認知功能的子網絡
  • 因果分析:確定模型的哪些部分對特定行為模式是必要和充分的
  • 符號提取:從模型中提取可以用傳統認知理論語言表達的規則

文化和人口多樣性

Psych-101 雖然規模巨大,但主要來自 WEIRD(西方、教育、工業化、富裕、民主)國家的參與者。認知過程在不同文化中可能有顯著差異。未來版本的 Centaur 需要納入更多樣化的資料,以建立真正通用的認知模型。

發展性與動態變化

當前的 Centaur 是靜態的——它被訓練來預測成年人在單次實驗會話中的行為。但人類認知是動態的:

  • 發展變化:兒童和成人的認知策略不同
  • 學習和適應:人類在長期互動中學習和改變策略
  • 情境依賴:同一個人在不同情境下可能表現出不同的認知模式

建立能夠捕捉這些動態的模型是一個重要的未來方向。

具身認知的缺失

Centaur 通過語言接口與任務互動,缺乏身體和感知運動經驗。越來越多的證據表明,許多認知過程是「具身的」——它們依賴於身體與環境的互動。純粹的語言模型可能無法捕捉到這些方面。

未來的研究可能需要整合:

  • 多模態輸入:視覺、聽覺、觸覺資訊
  • 運動控制:規劃和執行動作的能力
  • 環境互動:在真實或模擬環境中的具身學習

意識和主觀經驗

Centaur 可以預測人類的行為,但它是否有任何形式的「經驗」或「理解」?這觸及了意識的難問題。

即使 Centaur 完美地模擬了所有人類認知行為,我們仍需回答:

  • 它是否真正「理解」任務,還是僅僅進行複雜的模式匹配?
  • 內部表徵與神經活動的對齊是否意味著類似的主觀經驗?
  • 符號接地問題(symbol grounding problem)如何解決?

這些哲學問題超出了純粹的工程範疇,但對於理解認知模型的本質至關重要。

結論:認知科學的新時代

Centaur 的出現標誌著認知科學研究範式的一個轉折點。它不僅是一個技術成就——一個能夠跨領域預測人類行為的計算模型——更代表了理論建構方法的根本變化。

從還原論到整體論:不再是將認知分解為孤立的模組,而是尋求能夠解釋整個認知系統的統一原則。

從假設驅動到資料驅動:不再僅僅是提出理論然後驗證,而是從大規模資料中發現計算原則,再將其提煉為理論。

從行為到神經:不再是行為研究與神經科學各自為政,而是建立能夠同時解釋行為和神經活動的整合模型。

然而,Centaur 只是開始,而非終點。它是「第一個真正的統一認知模型候選者」,但距離完整的統一理論仍有很長的路要走。未來的研究需要:

  1. 擴展領域覆蓋:納入情緒、社會認知、創造力等尚未充分涵蓋的領域
  2. 提高可解釋性:開發方法使模型的計算原則可以被人類理解和驗證
  3. 增強泛化能力:使模型能夠處理更多樣化的文化背景和發展階段
  4. 深化理論整合:將資料驅動的發現與傳統認知理論相結合,建立真正的統一框架
  5. 促進實際應用:將認知模型應用於教育、臨床心理學、人機互動等實際領域

Allen Newell 在 1990 年呼籲建立統一認知理論時,計算機科學和認知科學都還處於相對早期的階段。三十五年後,得益於深度學習的進步、大規模資料集的可用性、以及跨學科合作的深化,我們終於看到了他願景的初步實現。

Centaur 證明了這個願景不僅是可能的,而且是可實現的。它為未來的研究樹立了標杆:一個真正的統一認知理論應該能夠預測人類在任何情境下的行為、解釋大腦如何實現這些行為、並為改善人類認知提供實用指導。

這是一個令人興奮的時代。計算機科學與認知科學的融合不僅改變了我們理解人類心智的方式,也正在重新定義人工智慧本身。在追求人工通用智慧(AGI)的過程中,深入理解自然智慧——人類認知——可能是最重要的一步。Centaur 為這一追求提供了強大的工具和深刻的洞察。

未來的認知科學將不僅是一門實驗科學,也將是一門計算科學。理論不再僅僅是文字和方程式,而是可以執行、可以測試、可以與真實人類比較的計算模型。這個新範式有潛力在接下來的幾十年內徹底改變我們對心智的理解,並最終回答那個古老的問題:「人類如何思考?」


References

  1. Centaur 原始論文
    Binz, M., Akata, E., Bethge, M., et al. (2025). A foundation model to predict and capture human cognition. Nature, 644, 1002–1009.
    https://www.nature.com/articles/s41586-025-09215-4

  2. arXiv 預印本
    Binz, M., et al. (2024). Centaur: a foundation model of human cognition. arXiv:2410.20268.
    https://arxiv.org/abs/2410.20268

  3. Unified Theories of Cognition 經典著作
    Newell, A. (1990). Unified Theories of Cognition. Harvard University Press.

  4. Papers with Code - Centaur 專案頁面
    https://paperswithcode.com/paper/centaur-a-foundation-model-of-human-cognition

  5. PubMed - Centaur 文獻頁面
    https://pubmed.ncbi.nlm.nih.gov/40604288/

  6. Princeton University - 研究出版頁面
    https://collaborate.princeton.edu/en/publications/a-foundation-model-to-predict-and-capture-human-cognition/

  7. LoRA: Low-Rank Adaptation of Large Language Models
    Hu, E. J., et al. (2021). LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685.

  8. 計算認知科學基礎
    Griffiths, T. L., et al. (2012). Topics in semantic representation. Psychological Review, 114(2), 211-244.

  9. 資料污染檢測方法(LogProber)
    Shi, W., et al. (2023). Detecting Pretraining Data from Large Language Models. arXiv:2310.16789.

  10. 電腦科學與心理學交叉領域研究報告
    Tech Content Research Curator (2026). 電腦科學與心理學交叉領域最新研究報告。