大型語言模型的 LoRA 和 QLoRA 最佳化建議

本頁面提供設定建議,說明如何使用大型語言模型低秩適應 (LoRA) 和更節省記憶體的 QLoRA,在 Vertex AI 上微調大型語言模型 (LLM)。

調整建議

下表彙整了使用 LoRA 或 QLoRA 微調 LLM 的建議:

規格 建議 詳細資料
GPU 記憶體效率 QLoRA 與 LoRA 相比,QLoRA 的尖峰 GPU 記憶體用量減少約 75%。
速度 LoRA 就微調速度而言,LoRA 比 QLoRA 快約 66%。
具成本效益 LoRA 這兩種方法都相對便宜,但 LoRA 比 QLoRA 便宜最多 40%。
更高的序列長度上限 QLoRA 最大序列長度越高,GPU 記憶體用量就越高。QLoRA 使用的 GPU 記憶體較少,因此可支援較高的最大序列長度。
提升準確度 相同 這兩種方法都能提升類似的準確度。
較大的批次大小 QLoRA QLoRA 支援的批次大小遠高於 LoRA。舉例來說,下列是在這些 GPU 上調整 openLLaMA-7B 時,建議使用的批次大小:
  • 1 個 A100 40G:
    • LoRA:建議批次大小為 2。
    • QLoRA:建議批次大小為 24。
  • 1 x L4:
    • LoRA:批次大小為 1 時,會因記憶體不足 (OOM) 而失敗。
    • QLoRA:建議批次大小為 12。
  • 1 個 V100:
    • LoRA:批次大小為 1 時,會因記憶體不足 (OOM) 而失敗。
    • QLoRA:建議批次大小為 8。