工资「喂饱肚子」，副业「养活灵魂」！
欢迎大家交换友链，可在https://www.stubbornhuang.com/申请友情链接进行友链交换申请！
本站会放置Google广告用于维持域名以及网站服务器费用。
本站由于前段时间遭受到大量临时和国外邮箱注册，所以对可注册的邮箱类型进行了限制！
在本站开通年度VIP，无限制下载本站资源和阅读本站文章
计算机图形学与计算几何经典必备书单整理，下载链接可参考：https://www.stubbornhuang.com/1256/
如果觉得本站的内容有帮助，可以考虑打赏博主哦！
感谢大家访问本站，希望本站的内容可以帮助到大家！
问题反馈可发送邮件到stubbornhuang@qq.com

Pycharm – 调试torchrun启动的分布式模型训练程序

StubbornHuang 开发工具发布于2024-11-30 阅读 2,187次 0次评论 0次点赞本文共845个字，阅读需要3分钟。

1 在Pycharm中调试trochrun启动的分布式模型训练程序

最近在跑cutie模型训练时，一般都要在命令行中使用以下命令启动训练

OMP_NUM_THREADS=4 torchrun --master_port 25357 --nproc_per_node=4 cutie/train.py exp_id=[some unique id] model=[small/base] data=[base/with-mose/mega]

这种方式只能拉起训练程序，而不能调试程序，一旦程序出现问题只能通过log日志的方法排查，非常的不方便。所以就研究了以下调试torchrun启动的分布式训练的方法，下面详细说明。

1.1 调试方法

假如你目前的conda虚拟环境名为cutie，那么我们就找到该环境下的：envs/cutie/Lib/site-packages/torch/distributed/run.py 文件，然后将其拖到pycharm中打开，并配置run configurations。

参数就填入torchrun之后的参数，比如上述命令为

OMP_NUM_THREADS=4 torchrun --master_port 25357 --nproc_per_node=4 cutie/train.py exp_id=[some unique id] model=[small/base] data=[base/with-mose/mega]

则参数为

--master_port 25357 --nproc_per_node=4 cutie/train.py exp_id=[some unique id] model=[small/base] data=[base/with-mose/mega]

然后将工作目录设置为该项目的工作目录，这里要注意。

然后在Environment variables中填入所需的环境变量，比如：OMP_NUM_THREADS=4;CUDA_VISIBLE_DEVICES=0 等等。

然后将上述设置保存，直接点击debug即可调试。

欢迎扫码关注我的微信公众号，及时获取文章更新

本文作者：StubbornHuang

原文标题：Pycharm – 调试torchrun启动的分布式模型训练程序

原文链接：https://www.stubbornhuang.com/3110/

发布于：2024年11月30日 11:32:41

修改于：2024年11月30日 11:32:41

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

关键字：

文章末尾

视频显著性检测模型TasedNet在移动端的轻量化设计

模型部署

nohub后台运行AI训练进程与指定训练GPU和环境变量

建站运维

发表评论点击这里取消回复。

您必须 [ 登录 ] 才能发表留言！

Pycharm – 调试torchrun启动的分布式模型训练程序

1 在Pycharm中调试trochrun启动的分布式模型训练程序

1.1 调试方法

发表评论点击这里取消回复。

联系我

资助我们

随机推荐

资源分享 – Physics for Game Developers, First Edition 英文PDF下载

OpenGL画四个三角形组成四面体，并进行旋转

资源分享 – 3D游戏编程大师技巧, Tricks of the 3D Game Programming Gurus – Advanced 3D Graphics and Rasterization 中文PDF下载

Pytorch – 用Pytorch实现ResNet

Centos7 – nohup方式优雅的部署jar包

资源分享 – Foundations of Game Engine Development, Volume 2 Rendering 英文PDF下载

最新评论

Pycharm – 调试torchrun启动的分布式模型训练程序

1 在Pycharm中调试trochrun启动的分布式模型训练程序

1.1 调试方法

发表评论 点击这里取消回复。

联系我

资助我们

随机推荐

资源分享 – Physics for Game Developers, First Edition 英文PDF下载

OpenGL画四个三角形组成四面体，并进行旋转

资源分享 – 3D游戏编程大师技巧, Tricks of the 3D Game Programming Gurus – Advanced 3D Graphics and Rasterization 中文PDF下载

Pytorch – 用Pytorch实现ResNet

Centos7 – nohup方式优雅的部署jar包

资源分享 – Foundations of Game Engine Development, Volume 2 Rendering 英文PDF下载

最新评论

大家都在搜

关注我们的公众号

发表评论点击这里取消回复。