LORA,Low - Rank Adaptation),在原始模型的基础上添加少量可训练的参数来适应特定任务,而不是对整个大型模型进行重新训练,减少计算资源和存储需求。
-
lora_rank
-
l
ora_rank:低秩分解中的秩(rank),将权重更新矩阵分解为两个低秩矩阵的乘积,lora_rank就是这个低秩矩阵的秩。例如,对于一个权重矩阵W,使用LoRA后将其更新为 W+ΔW ,其中 ΔW=A×B ,A和B是两个低秩矩阵,lora_rank就是A(或B)矩阵的秩 -
它决定了LoRA所添加的参数的数量和表达能力。较低的秩意味着更少的可训练参数,这在计算资源有限的情况下很有用,但可能会限制模型对复杂任务的适应能力;较高的秩则会增加可训练参数的数量,使模型能够更好地拟合特定任务,但会增加计算成本和存储需求。
-
lora_rank的选择可以从一个较小的值开始,如16或32,然后逐渐增加,观察模型在验证集上的性能(如准确率、F1 - score等)和训练效率(如训练时间、资源占用)之间的平衡。
-
lora_alpha
lora_alpha,- 缩放LoRA更新的系数。在计算权重更新 ΔW 时,它起到调整更新幅度的作用。具体来说, ΔW=lora_alpharA×B (其中r是
lora_rank) - 它可以控制LoRA对原始模型权重更新的强度。较大的
lora_alpha会使LoRA更新的幅度更大,这意味着模型会更快地适应特定任务,但也可能导致过拟合;较小的lora_alpha会使更新较为温和,有助于模型的稳定性和

3740

被折叠的 条评论
为什么被折叠?



