Llama 2 調研!文章解析 – 透過 CPU 運行 Llama2 模型?!

原文章

標題:構建能夠使用 CPU 運行的 MetaAI LlaMA2 中文大模型

網址:https://zhuanlan.zhihu.com/p/645426799

技術分析

前幾天和老師聊到 Meta 最新出的 Llama2 模型,老師就請我做一個 Colab 的實驗,結果我發現 Free 版本的 Colab 資源根本不夠用來運行 Llama2 模型,結果老師就丟了一篇文章還影片給我,問我為什麼別人可以。

於是,這篇文章就誕生了。

我把這篇文章丟給 ChatGPT,問他他用了哪些技術,為什麼可以降低跑模型的資源使用量,然後得到了一個技術名詞:
知識蒸餾(Knowledge Distillation)

知識蒸餾(Knowledge Distillation)

「知識蒸餾」是一種模型壓縮技術,其中一個大的、準確的模型(被稱為教師模型)被用來訓練一個較小的模型(被稱為學生模型)。

學生模型不僅學習從數據中得到的標籤,還學習教師模型的輸出。
這樣可以使學生模型達到與教師模型相似的性能,但模型大小和計算需求卻大大降低。

軟標籤

在知識蒸餾的過程中,學生模型不僅學習原始數據的標籤,還學習教師模型的預測結果。
這種學習過程通常涉及到使用「軟標籤」,這些標籤反映了教師模型對每個類別的信心水平,而不僅僅是最可能的類別。

這種方式提供了更多的信息,有助於學生模型學習更豐富的表示。

溫度縮放

知識蒸餾還可能涉及到「溫度縮放」,這是一種調整軟標籤的技術。

通過增加「溫度」參數,可以使軟標籤的分佈變得更加平滑,這有助於學生模型學習更多的信息。

訓練過程

在訓練學生模型時,使用了一種結合了軟標籤損失和硬標籤損失的損失函數。
這種方法允許學生模型同時學習教師模型的知識和原始數據的標籤。

Leave a Comment

Your email address will not be published. Required fields are marked *