Llama 2 調研!文章解析 – 透過 CPU 運行 Llama2 模型?!

原文章 標題:構建能夠使用 CPU 運行的 MetaAI LlaMA2 中文大模型 網址:https://zhuanlan.zhihu.com/p/645426799 技術分析 前幾天和老師聊到 Meta 最新出的 Llama2 模型,老師就請我做一個 Colab 的實驗,結果我發現 Free 版本的 Colab 資源根本不夠用來運行 Llama2 模型,結果老師就丟了一篇文章還影片給我,問我為什麼別人可以。 於是,這篇文章就誕生了。 我把這篇文章丟給 ChatGPT,問他他用了哪些技術,為什麼可以降低跑模型的資源使用量,然後得到了一個技術名詞: 「知識蒸餾(Knowledge Distillation)」 知識蒸餾(Knowledge Distillation) 「知識蒸餾」是一種模型壓縮技術,其中一個大的、準確的模型(被稱為教師模型)被用來訓練一個較小的模型(被稱為學生模型)。 學生模型不僅學習從數據中得到的標籤,還學習教師模型的輸出。 這樣可以使學生模型達到與教師模型相似的性能,但模型大小和計算需求卻大大降低。 軟標籤 在知識蒸餾的過程中,學生模型不僅學習原始數據的標籤,還學習教師模型的預測結果。 這種學習過程通常涉及到使用「軟標籤」,這些標籤反映了教師模型對每個類別的信心水平,而不僅僅是最可能的類別。 這種方式提供了更多的信息,有助於學生模型學習更豐富的表示。 溫度縮放 知識蒸餾還可能涉及到「溫度縮放」,這是一種調整軟標籤的技術。 通過增加「溫度」參數,可以使軟標籤的分佈變得更加平滑,這有助於學生模型學習更多的信息。 訓練過程 在訓練學生模型時,使用了一種結合了軟標籤損失和硬標籤損失的損失函數。 這種方法允許學生模型同時學習教師模型的知識和原始數據的標籤。