在测试pytorch多卡的时候报错:
store = TCPStore(master_addr, master_port, world_size, start_daemon, timeout)
RuntimeError: Address already in use
经查,是还有另外一个任务也在用DDP跑,解决方案:
手动指定一个空闲端口
python -m torch.distributed.launch --master_port 145622
查看端口占用情况:
终端输入
netstat -nultp

本文讲述了在使用PyTorch进行多卡训练时遇到的'Address already in use'错误,原因在于其他任务占用了默认端口。解决办法包括手动指定空闲端口和通过`python-mtorch.distributed.launch`启动并指定master_port。提供端口占用检查方法和实用建议。
4万+

被折叠的 条评论
为什么被折叠?



