By YU-CHAN WU in 機器學習 — 30 Jan 2026

當AI忘記過去：演化策略在大型語言模型的災難性遺忘困境

在人工智慧的發展進程中，我們一直追求著一個看似理所當然卻難以實現的目標：讓AI系統能夠像人類一樣持續學習，在不斷吸收新知識的同時，不會忘記過去已經學會的技能。然而，一篇剛在arXiv發表的最新研究論文揭示了一個令人深思的發現

在人工智慧的發展進程中，我們一直追求著一個看似理所當然卻難以實現的目標：讓AI系統能夠像人類一樣持續學習，在不斷吸收新知識的同時，不會忘記過去已經學會的技能。然而，一篇剛在arXiv發表的最新研究論文揭示了一個令人深思的發現：當我們採用被寄予厚望的「演化策略」(Evolutionary Strategies, ES)來訓練大型語言模型時，反而會加劇「災難性遺忘」(Catastrophic Forgetting)的問題。

持續學習：當前AI系統最大的缺失能力

想像一下，如果你每學會一項新技能，就必須忘記之前學過的一些東西。這聽起來很荒謬，但這正是當前大多數AI系統面臨的困境。傳統的機器學習系統被設計用於處理靜態的資料分布——一旦訓練完成，模型就被「凍結」了。當需要學習新任務時，模型往往會「遺忘」先前學過的知識，這就是所謂的災難性遺忘。

在大型語言模型(LLMs)的時代，這個問題變得更加嚴峻。GPT、Claude、Gemini等模型在部署後，基本上無法進行有效的持續學習。每當需要更新知識或適應新領域時,開發者往往需要從頭重新訓練，或採用成本高昂的微調策略。這不僅浪費計算資源，也限制了AI系統在真實世界中的應用潛力。

演化策略：無梯度的救星？

為了解決傳統梯度基礎演算法(gradient-based algorithms)帶來的高記憶體需求問題，研究社群近年來重新關注起「演化策略」這個經典方法。演化策略的核心思想很簡單：不依賴梯度計算，而是透過模擬生物演化的過程——產生多個候選解、評估它們的表現、選擇較優的解並繼續演化。

這個方法在理論上很吸引人，因為它不需要反向傳播，記憶體需求大幅降低，而且已經在某些特定任務上展現出接近傳統方法(如GRPO，Gradient-based Proximal Policy Optimization)的效能。對於需要部署在資源受限環境的應用場景，或是需要線上學習的系統來說，演化策略看似是理想的解決方案。

研究發現：效能提升的代價是遺忘

然而，這篇由Immanuel Abdi等六位研究者撰寫的論文，卻為這個充滿希望的方向潑了一盆冷水。研究團隊對演化策略進行了全面的分析，特別評估了它在訓練過程中的「遺忘曲線」(forgetting curves)——也就是模型在學習新任務時，對舊任務的記憶保留程度。

關鍵發現一：初期表現相當，但遺忘嚴重

實驗顯示，演化策略在數學推理等任務上，確實能夠在相當的計算預算下達到接近GRPO的效能。這個結果很鼓舞人心，證明無梯度方法並非不可行。

但問題來了：當研究者檢視模型的持續學習能力時，發現演化策略帶來的效能提升，伴隨著顯著的先前能力遺忘。換句話說，模型在學習新技能的同時，正在快速失去它原本就會的能力。這對於需要持續學習的應用場景來說，是致命的缺陷。

關鍵發現二：更新幅度過大且不夠稀疏

為了理解這個現象背後的原因,研究團隊深入分析了演化策略的更新特性。他們發現,與GRPO相比，演化策略的更新具有兩個顯著特徵：

更新不夠稀疏：演化策略傾向於同時改變模型的大量參數，而不是只調整與當前任務最相關的少數參數。
L2範數過大：演化策略的更新步長(以L2範數衡量)比GRPO大了好幾個數量級。

這兩個特性解釋了為什麼演化策略會導致嚴重遺忘：當你大幅度地改變模型的大部分參數時，你不可避免地會破壞那些編碼先前知識的神經網路權重。相比之下，GRPO透過梯度資訊，能夠更精確地定位需要調整的參數，並進行更保守的更新。

對台灣AI產業的啟示

這項研究對台灣的AI研發社群有幾個重要啟示：

1. 持續學習仍是未解難題

雖然台灣在AI晶片設計和製造上有世界級的優勢，但在演算法層面，持續學習依然是全球研究社群面臨的共同挑戰。本土研究團隊和新創公司在開發AI應用時，需要認知到這個限制，在系統設計時預先規劃好模型更新的策略。

2. 記憶體優化不能犧牲學習品質

演化策略的吸引力在於低記憶體需求，這對於邊緣運算(edge computing)應用特別重要。然而，這項研究提醒我們：記憶體優化不能以犧牲持續學習能力為代價。台灣廠商在設計AI硬體加速器時，可能需要在記憶體容量和運算效率之間找到更好的平衡點。

3. 混合方法可能是出路

研究團隊在論文結尾提到，他們希望這項工作能啟發未來研究，找到緩解演化策略遺忘問題的方法。一個可能的方向是結合梯度方法和演化策略的優點——例如，使用演化策略進行探索，但用梯度資訊來引導更新的稀疏性和幅度。

4. 基準測試的重要性

這項研究之所以能夠清楚揭示問題，得益於嚴謹的實驗設計和長期的遺忘曲線追蹤。台灣的AI研究單位和企業在開發新方法時，也應該建立完善的基準測試框架，不只評估當下的效能，更要評估長期的穩定性和持續學習能力。

技術深入：為何稀疏更新很重要？

從神經科學的角度來看，人類大腦之所以能夠持續學習而不會災難性遺忘，部分原因在於學習是「局部化」的——學習新知識時，主要改變的是相關的神經連結，而不是重組整個神經網路。

這個原理在深度學習中同樣適用。當我們訓練神經網路學習新任務時，理想的更新應該是：

稀疏的：只調整與新任務相關的參數
保守的：調整幅度要小心控制，避免破壞舊知識
正交的：新任務的知識應該編碼在與舊任務正交的參數子空間中

梯度基礎方法天生具有一定的稀疏性，因為梯度會指示哪些參數對當前任務最重要。而演化策略缺乏這種「導引」機制，它的更新是相對盲目的，因此容易產生密集且過大的參數變化。

一些先進的技術，如彈性權重整合(Elastic Weight Consolidation, EWC)、進步神經網路(Progressive Neural Networks)等，都是試圖在學習新任務時保護舊知識。但這些方法通常需要額外的記憶體和計算開銷，與演化策略的低資源需求理念相衝突。

未來展望：混合智慧的可能性

這項研究並不是要否定演化策略的價值，而是清楚地指出它的限制和適用場景。在某些情況下——例如單一任務的優化、不需要保留先前知識的應用——演化策略仍然是有力的工具。

但對於需要持續學習的真實世界AI系統，我們可能需要更複雜的混合策略：

階層式學習：使用梯度方法學習核心知識，用演化策略微調特定任務
知識蒸餾：定期將新模型的知識蒸餾回到一個穩定的基礎模型
模組化架構：將模型分為共享的核心模組和任務專屬模組，只用演化策略訓練後者
正則化增強：在演化策略中加入促進稀疏更新的正則化項

台灣的AI研究社群，特別是在中研院、台大、清大、交大等頂尖學術機構，以及AI實驗室等產業研究單位，可以在這個方向上做出貢獻。結合台灣在硬體設計上的優勢，開發出既記憶體高效又能持續學習的AI系統，將是一個很有價值的研究方向。

結語：理解限制才能超越限制

這篇arXiv論文的價值不只在於揭示了演化策略的遺忘問題，更在於它提醒整個AI社群：在追求新方法時，我們必須全面評估其長期影響，而不只是看短期的效能指標。

災難性遺忘是AI領域的一個根本性挑戰，也是阻礙AI系統真正走向通用智慧的障礙之一。在我們找到完美的解決方案之前，了解每種方法的優缺點，在不同場景下做出明智的技術選擇，是工程師和研究者的責任。

對於正在開發AI產品的台灣團隊來說，這項研究提供了一個重要的提醒：如果你的應用需要模型在部署後持續學習和適應，那麼在選擇訓練演算法時，除了考慮記憶體和計算效率，也要仔細評估持續學習能力。有時候，多花一點資源在更穩健的方法上，長遠來看反而更經濟。

畢竟，一個會持續進步的AI，比一個學新忘舊的AI，更有實用價值。

論文資訊

標題：Evolutionary Strategies lead to Catastrophic Forgetting in LLMs
作者：Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee, Gopala Anumanchipalli
發表日期：2026年1月28日
arXiv連結：https://arxiv.org/abs/2601.20861v1
分類：cs.LG (機器學習), cs.AI (人工智慧), cs.CL (計算語言學)

延伸閱讀

當AI忘記過去：演化策略在大型語言模型的災難性遺忘困境

持續學習：當前AI系統最大的缺失能力

演化策略：無梯度的救星？

研究發現：效能提升的代價是遺忘