技術分析
前幾天和老師聊到 Meta 最新出的 Llama2 模型,老師就請我做一個 Colab 的實驗,結果我發現 Free 版本的 Colab 資源根本不夠用來運行 Llama2 模型,結果老師就丟了一篇文章還影片給我,問我為什麼別人可以。
於是,這篇文章就誕生了。
我把這篇文章丟給 ChatGPT,問他他用了哪些技術,為什麼可以降低跑模型的資源使用量,然後得到了一個技術名詞:
「知識蒸餾(Knowledge Distillation)」
知識蒸餾(Knowledge Distillation)
「知識蒸餾」是一種模型壓縮技術,其中一個大的、準確的模型(被稱為教師模型)被用來訓練一個較小的模型(被稱為學生模型)。
學生模型不僅學習從數據中得到的標籤,還學習教師模型的輸出。
這樣可以使學生模型達到與教師模型相似的性能,但模型大小和計算需求卻大大降低。
軟標籤
在知識蒸餾的過程中,學生模型不僅學習原始數據的標籤,還學習教師模型的預測結果。
這種學習過程通常涉及到使用「軟標籤」,這些標籤反映了教師模型對每個類別的信心水平,而不僅僅是最可能的類別。
這種方式提供了更多的信息,有助於學生模型學習更豐富的表示。
溫度縮放
知識蒸餾還可能涉及到「溫度縮放」,這是一種調整軟標籤的技術。
通過增加「溫度」參數,可以使軟標籤的分佈變得更加平滑,這有助於學生模型學習更多的信息。
訓練過程
在訓練學生模型時,使用了一種結合了軟標籤損失和硬標籤損失的損失函數。
這種方法允許學生模型同時學習教師模型的知識和原始數據的標籤。