當AI忘記過去:演化策略在大型語言模型的災難性遺忘困境

在人工智慧的發展進程中,我們一直追求著一個看似理所當然卻難以實現的目標:讓AI系統能夠像人類一樣持續學習,在不斷吸收新知識的同時,不會忘記過去已經學會的技能。然而,一篇剛在arXiv發表的最新研究論文揭示了一個令人深思的發現

當AI忘記過去:演化策略在大型語言模型的災難性遺忘困境
Photo by Nika Benedictova / Unsplash

在人工智慧的發展進程中,我們一直追求著一個看似理所當然卻難以實現的目標:讓AI系統能夠像人類一樣持續學習,在不斷吸收新知識的同時,不會忘記過去已經學會的技能。然而,一篇剛在arXiv發表的最新研究論文揭示了一個令人深思的發現:當我們採用被寄予厚望的「演化策略」(Evolutionary Strategies, ES)來訓練大型語言模型時,反而會加劇「災難性遺忘」(Catastrophic Forgetting)的問題。

持續學習:當前AI系統最大的缺失能力

想像一下,如果你每學會一項新技能,就必須忘記之前學過的一些東西。這聽起來很荒謬,但這正是當前大多數AI系統面臨的困境。傳統的機器學習系統被設計用於處理靜態的資料分布——一旦訓練完成,模型就被「凍結」了。當需要學習新任務時,模型往往會「遺忘」先前學過的知識,這就是所謂的災難性遺忘。

在大型語言模型(LLMs)的時代,這個問題變得更加嚴峻。GPT、Claude、Gemini等模型在部署後,基本上無法進行有效的持續學習。每當需要更新知識或適應新領域時,開發者往往需要從頭重新訓練,或採用成本高昂的微調策略。這不僅浪費計算資源,也限制了AI系統在真實世界中的應用潛力。

演化策略:無梯度的救星?

為了解決傳統梯度基礎演算法(gradient-based algorithms)帶來的高記憶體需求問題,研究社群近年來重新關注起「演化策略」這個經典方法。演化策略的核心思想很簡單:不依賴梯度計算,而是透過模擬生物演化的過程——產生多個候選解、評估它們的表現、選擇較優的解並繼續演化。

這個方法在理論上很吸引人,因為它不需要反向傳播,記憶體需求大幅降低,而且已經在某些特定任務上展現出接近傳統方法(如GRPO,Gradient-based Proximal Policy Optimization)的效能。對於需要部署在資源受限環境的應用場景,或是需要線上學習的系統來說,演化策略看似是理想的解決方案。

研究發現:效能提升的代價是遺忘

然而,這篇由Immanuel Abdi等六位研究者撰寫的論文,卻為這個充滿希望的方向潑了一盆冷水。研究團隊對演化策略進行了全面的分析,特別評估了它在訓練過程中的「遺忘曲線」(forgetting curves)——也就是模型在學習新任務時,對舊任務的記憶保留程度。

關鍵發現一:初期表現相當,但遺忘嚴重

實驗顯示,演化策略在數學推理等任務上,確實能夠在相當的計算預算下達到接近GRPO的效能。這個結果很鼓舞人心,證明無梯度方法並非不可行。

但問題來了:當研究者檢視模型的持續學習能力時,發現演化策略帶來的效能提升,伴隨著顯著的先前能力遺忘。換句話說,模型在學習新技能的同時,正在快速失去它原本就會的能力。這對於需要持續學習的應用場景來說,是致命的缺陷。

關鍵發現二:更新幅度過大且不夠稀疏

為了理解這個現象背後的原因,研究團隊深入分析了演化策略的更新特性。他們發現,與GRPO相比,演化策略的更新具有兩個顯著特徵:

  1. 更新不夠稀疏:演化策略傾向於同時改變模型的大量參數,而不是只調整與當前任務最相關的少數參數。
  2. L2範數過大:演化策略的更新步長(以L2範數衡量)比GRPO大了好幾個數量級。

這兩個特性解釋了為什麼演化策略會導致嚴重遺忘:當你大幅度地改變模型的大部分參數時,你不可避免地會破壞那些編碼先前知識的神經網路權重。相比之下,GRPO透過梯度資訊,能夠更精確地定位需要調整的參數,並進行更保守的更新。

對台灣AI產業的啟示

這項研究對台灣的AI研發社群有幾個重要啟示:

1. 持續學習仍是未解難題

雖然台灣在AI晶片設計和製造上有世界級的優勢,但在演算法層面,持續學習依然是全球研究社群面臨的共同挑戰。本土研究團隊和新創公司在開發AI應用時,需要認知到這個限制,在系統設計時預先規劃好模型更新的策略。

2. 記憶體優化不能犧牲學習品質

演化策略的吸引力在於低記憶體需求,這對於邊緣運算(edge computing)應用特別重要。然而,這項研究提醒我們:記憶體優化不能以犧牲持續學習能力為代價。台灣廠商在設計AI硬體加速器時,可能需要在記憶體容量和運算效率之間找到更好的平衡點。

3. 混合方法可能是出路

研究團隊在論文結尾提到,他們希望這項工作能啟發未來研究,找到緩解演化策略遺忘問題的方法。一個可能的方向是結合梯度方法和演化策略的優點——例如,使用演化策略進行探索,但用梯度資訊來引導更新的稀疏性和幅度。

4. 基準測試的重要性

這項研究之所以能夠清楚揭示問題,得益於嚴謹的實驗設計和長期的遺忘曲線追蹤。台灣的AI研究單位和企業在開發新方法時,也應該建立完善的基準測試框架,不只評估當下的效能,更要評估長期的穩定性和持續學習能力。

技術深入:為何稀疏更新很重要?

從神經科學的角度來看,人類大腦之所以能夠持續學習而不會災難性遺忘,部分原因在於學習是「局部化」的——學習新知識時,主要改變的是相關的神經連結,而不是重組整個神經網路。

這個原理在深度學習中同樣適用。當我們訓練神經網路學習新任務時,理想的更新應該是:

  1. 稀疏的:只調整與新任務相關的參數
  2. 保守的:調整幅度要小心控制,避免破壞舊知識
  3. 正交的:新任務的知識應該編碼在與舊任務正交的參數子空間中

梯度基礎方法天生具有一定的稀疏性,因為梯度會指示哪些參數對當前任務最重要。而演化策略缺乏這種「導引」機制,它的更新是相對盲目的,因此容易產生密集且過大的參數變化。

一些先進的技術,如彈性權重整合(Elastic Weight Consolidation, EWC)、進步神經網路(Progressive Neural Networks)等,都是試圖在學習新任務時保護舊知識。但這些方法通常需要額外的記憶體和計算開銷,與演化策略的低資源需求理念相衝突。

未來展望:混合智慧的可能性

這項研究並不是要否定演化策略的價值,而是清楚地指出它的限制和適用場景。在某些情況下——例如單一任務的優化、不需要保留先前知識的應用——演化策略仍然是有力的工具。

但對於需要持續學習的真實世界AI系統,我們可能需要更複雜的混合策略:

  1. 階層式學習:使用梯度方法學習核心知識,用演化策略微調特定任務
  2. 知識蒸餾:定期將新模型的知識蒸餾回到一個穩定的基礎模型
  3. 模組化架構:將模型分為共享的核心模組和任務專屬模組,只用演化策略訓練後者
  4. 正則化增強:在演化策略中加入促進稀疏更新的正則化項

台灣的AI研究社群,特別是在中研院、台大、清大、交大等頂尖學術機構,以及AI實驗室等產業研究單位,可以在這個方向上做出貢獻。結合台灣在硬體設計上的優勢,開發出既記憶體高效又能持續學習的AI系統,將是一個很有價值的研究方向。

結語:理解限制才能超越限制

這篇arXiv論文的價值不只在於揭示了演化策略的遺忘問題,更在於它提醒整個AI社群:在追求新方法時,我們必須全面評估其長期影響,而不只是看短期的效能指標。

災難性遺忘是AI領域的一個根本性挑戰,也是阻礙AI系統真正走向通用智慧的障礙之一。在我們找到完美的解決方案之前,了解每種方法的優缺點,在不同場景下做出明智的技術選擇,是工程師和研究者的責任。

對於正在開發AI產品的台灣團隊來說,這項研究提供了一個重要的提醒:如果你的應用需要模型在部署後持續學習和適應,那麼在選擇訓練演算法時,除了考慮記憶體和計算效率,也要仔細評估持續學習能力。有時候,多花一點資源在更穩健的方法上,長遠來看反而更經濟。

畢竟,一個會持續進步的AI,比一個學新忘舊的AI,更有實用價值。


論文資訊

  • 標題:Evolutionary Strategies lead to Catastrophic Forgetting in LLMs
  • 作者:Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee, Gopala Anumanchipalli
  • 發表日期:2026年1月28日
  • arXiv連結:https://arxiv.org/abs/2601.20861v1
  • 分類:cs.LG (機器學習), cs.AI (人工智慧), cs.CL (計算語言學)

延伸閱讀