欢迎大家交换友链，可在https://www.stubbornhuang.com/申请友情链接进行友链交换申请！
感谢大家访问本站，希望本站的内容可以帮助到大家！
本站由于前段时间遭受到大量临时和国外邮箱注册，所以对可注册的邮箱类型进行了限制！
工资「喂饱肚子」，副业「养活灵魂」！
在本站开通年度VIP，无限制下载本站资源和阅读本站文章
如果觉得本站的内容有帮助，可以考虑打赏博主哦！
计算机图形学与计算几何经典必备书单整理，下载链接可参考：https://www.stubbornhuang.com/1256/
本站会放置Google广告用于维持域名以及网站服务器费用。
问题反馈可发送邮件到stubbornhuang@qq.com

Pytorch – 没有使用with torch.no_grad()造成测试网络时显存爆炸的问题

StubbornHuang Pytorch 发布于2022-08-23 阅读 3,629次 0次评论 0次点赞本文共886个字，阅读需要3分钟。

1 显存爆炸的问题

最近使用以下示例代码测试自定义深度学习网络时耗光了所有显存，出现了梯度爆炸的问题。

model.eval()
for batch_idx, data in enumerate(tqdm(data_loader)):
    image = data[0].to('cuda:0')
    ......

经过排查原因是没有加上with torch.no_grad()语句停止梯度更新，从而导致了显存爆炸的问题，正确的示例代码如下

model.eval()
with torch.no_grad()
    for batch_idx, data in enumerate(tqdm(data_loader)):
        image = data[0].to('cuda:0')
        ......

2 model.train、model.eval和with torch.no_grad

model.train()会将网络中的模块设置为训练模式，此时，如果神经网络中BN（batch normalization）层和Dropout层，那么这两个层将会起作用，防止网络出现过拟合的问题。

model.eval()则会将网络设置为测试模式，此时，不会启用神经网络中的BN（batch normalization）层和Dropout层，model.eval()是保证BN层直接使用全部训练数据的均值和方差，即测试过程中要保证BN层的均值和方差不变。对于Dropout层，model.eval()是利用到了所有网络连接，即不进行随机舍弃神经元。

with torch.no_grad()会将网络中Tensor的属性全部设置为False，并停止Autograd引擎，禁止梯度反向传播，以起到加速和节省显存的作用。它的作用是将该with语句包裹起来的部分停止梯度的更新，从而节省了GPU算力和显存，但是并不会影响dropout和BN层的行为。因此，测试的时候加上此语句也不会影响测试精度的，只是停止了梯度更新而已。在测试和验证阶段，使用with torch.no_grad()会使得网络有更快的推理速度和内存使用，这使得我们在验证和测试网络时可以使用更大的batch size。

欢迎扫码关注我的微信公众号，及时获取文章更新

本文作者：StubbornHuang

原文标题：Pytorch – 没有使用with torch.no_grad()造成测试网络时显存爆炸的问题

原文链接：https://www.stubbornhuang.com/2322/

发布于：2022年08月23日 10:29:14

修改于：2023年06月21日 18:13:30

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

关键字：

model.eval()model.train()Pytorch with torch.no_grad()显存爆炸

文章末尾

深度学习 - 图像标准化与归一化方法

深度学习

深度学习 - 深度学习中的术语/专有名词归纳

深度学习

发表评论点击这里取消回复。

您必须 [ 登录 ] 才能发表留言！

Pytorch – 没有使用with torch.no_grad()造成测试网络时显存爆炸的问题

1 显存爆炸的问题

2 model.train、model.eval和with torch.no_grad

发表评论点击这里取消回复。

联系我

资助我们

随机推荐

TensorRT – 使用Polygraphy工具比较onnx模型和TensorRT模型的推理结果是否一致

默认的左手坐标系与右手坐标系的比较

资源分享 – Div, Grad, Curl, and All That – An Informal Text on Vector Calculus , Third Edition 英文PDF下载

Duilib – 点击按钮弹出模态对话框

FFmpeg – ./configure编译参数全部总结和整理

资源分享 – Computer Graphics with OpenGL , Fourth Edition 英文PDF下载

最新评论

Pytorch – 没有使用with torch.no_grad()造成测试网络时显存爆炸的问题

1 显存爆炸的问题

2 model.train、model.eval和with torch.no_grad

发表评论 点击这里取消回复。

联系我

资助我们

随机推荐

TensorRT – 使用Polygraphy工具比较onnx模型和TensorRT模型的推理结果是否一致

默认的左手坐标系与右手坐标系的比较

资源分享 – Div, Grad, Curl, and All That – An Informal Text on Vector Calculus , Third Edition 英文PDF下载

Duilib – 点击按钮弹出模态对话框

FFmpeg – ./configure编译参数全部总结和整理

资源分享 – Computer Graphics with OpenGL , Fourth Edition 英文PDF下载

最新评论

大家都在搜

关注我们的公众号

发表评论点击这里取消回复。