Pytorch的反向传播backward()详解

文章介绍了在PyTorch中进行反向传播时遇到的问题及解决方案。当对同一个loss进行多次回传时,需要设置retain_graph=True以保留计算图,防止错误。对不同loss回传可以叠加结果。在训练如GAN这样的多个网络时,需注意detach()的使用,以避免不同网络间的梯度冲突。
Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen
文本生成
Qwen3

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化,内置完整运行环境与 Qwen3-32B 模型依赖,开箱即用。

在Pytorch中,我们有时候会进行多个loss的回传,然而回传中,会发生一些错误。例如:

RuntimeError: Trying to backward through the graph a second time, but the saved intermediate results have already been freed. Specify retain_graph=True when calling backward the first time.

以下我们举几个回传例子便可理解:

1、当我们对同一个loss进行多次回传时:即

loss.backward()
loss.backward()

上述回传方式必然出错。这时我们只需要在backward()中加入参数retain_graph=True后,便可正常回传。此时两次的回传损失会叠加。需要注意,当我们的对相同的loss回传多次,只有最后一次不加retain_graph参数外,其余都得加,否则报错。例子如下:

import torch
from torch.autograd import Variable

x = Variable(torch.FloatTensor([3]), requires_grad=True)
y = x * 2 + x ** 2 + 3
print(y)
y.backward(retain_graph=True)  # 设置 retain_graph 为 True 来保留计算图
print(x.grad)
y.backward()  # 再做一次自动求导,这次不保留计算图
print(x.grad)

# 输出
# tensor([18.], grad_fn=<AddBackward0>)
# tensor([8.])
# tensor([16.])

2、当然,以上是对同一个loss进行回传。那么对多个不同loss回传呢?例如:

loss1.backward()
loss2.backward()

此时是可以正常回传的,且两次的回传结果会进行叠加。例子:

import torch

x = torch.tensor(2.0, requires_grad=True)
y = x**2
z = x
# 反向传播
y.backward()
print(x.grad)
# tensor(4.)
z.backward()
print(x.grad)
# tensor(5.) ## 累加

3、当然,以上回传我们还可以加在一起,一并回传,那么梯度也会叠加,同上面的结果等价。例如:

loss = loss1 + loss2
loss.backward()

4、但是,在有些时候,我们会同时训练两个网络,例如生成对抗网络(GAN)。我们在利用方式3的回传时,也会报错,因为两个网络之间有了交叉。这时候,我们就需要用上方式2的分步回传了,结果是不变的。然而,需要注意:我们的回传某个网络的loss时,是不能有其他网络输出的可求导数据的,也就是我们在将其他网络的输出传入需要回传的网络进行结果的损失计算时,需要将其他网络的输出加上detach()才不会报错。例子:这里我们回传D网络,所以G网络得加detach()。

fake = netG(noise)
output = netD(fake.detach()) # 加上detach()

errD_fake = loss_function(output, label)
errD_fake.backward()

您可能感兴趣的与本文相关的镜像

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen
文本生成
Qwen3

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化,内置完整运行环境与 Qwen3-32B 模型依赖,开箱即用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

清纯世纪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值