Artificial Intelligence – Arfiligol Blog & CV

Llama 2 調研！文章解析 – 透過 CPU 運行 Llama2 模型？！

Leave a Comment / Artificial Intelligence, Llama 2, 學習紀錄, 實習 / By arfiligol

原文章標題：構建能夠使用 CPU 運行的 MetaAI LlaMA2 中文大模型網址：https://zhuanlan.zhihu.com/p/645426799 技術分析前幾天和老師聊到 Meta 最新出的 Llama2 模型，老師就請我做一個 Colab 的實驗，結果我發現 Free 版本的 Colab 資源根本不夠用來運行 Llama2 模型，結果老師就丟了一篇文章還影片給我，問我為什麼別人可以。於是，這篇文章就誕生了。我把這篇文章丟給 ChatGPT，問他他用了哪些技術，為什麼可以降低跑模型的資源使用量，然後得到了一個技術名詞：「知識蒸餾（Knowledge Distillation）」知識蒸餾（Knowledge Distillation）「知識蒸餾」是一種模型壓縮技術，其中一個大的、準確的模型（被稱為教師模型）被用來訓練一個較小的模型（被稱為學生模型）。學生模型不僅學習從數據中得到的標籤，還學習教師模型的輸出。這樣可以使學生模型達到與教師模型相似的性能，但模型大小和計算需求卻大大降低。軟標籤在知識蒸餾的過程中，學生模型不僅學習原始數據的標籤，還學習教師模型的預測結果。這種學習過程通常涉及到使用「軟標籤」，這些標籤反映了教師模型對每個類別的信心水平，而不僅僅是最可能的類別。這種方式提供了更多的信息，有助於學生模型學習更豐富的表示。溫度縮放知識蒸餾還可能涉及到「溫度縮放」，這是一種調整軟標籤的技術。通過增加「溫度」參數，可以使軟標籤的分佈變得更加平滑，這有助於學生模型學習更多的信息。訓練過程在訓練學生模型時，使用了一種結合了軟標籤損失和硬標籤損失的損失函數。這種方法允許學生模型同時學習教師模型的知識和原始數據的標籤。