name | about | labels |
---|---|---|
Bug Report | Use this template for reporting a bug | kind/bug |
1.3k worker集群,scheduler初始化完成后跟部分worker超时导致异常退出(已知问题),scheduler退出后,大量worker长时间未退出
Ascend
/GPU
/CPU
) / 硬件环境:Please delete the backend not involved / 请删除不涉及的后端:
/device ascend/GPU/CPU/kirin/等其他芯片
Software Environment / 软件环境 (Mandatory / 必填):
-- MindSpore version (e.g., 1.7.0.Bxxx) :
-- Python version (e.g., Python 3.7.5) :
-- OS platform and distribution (e.g., Linux Ubuntu 16.04):
-- GCC/Compiler version (if compiled from source):
Excute Mode / 执行模式 (Mandatory / 必填)(PyNative
/Graph
):
Please delete the mode not involved / 请删除不涉及的模式:
/mode pynative
/mode graph
test_ms_msrun_simulation_cluster_10k_node
1. 确认所有环境无残留python进程
2. 将训练脚本传到所有环境上
3. 在指定的环境中循环拉起若干worker
4. 在指定的环境中拉起sckduler
5. check所有环境worker进程状态,check schduler进程状态以及日志,获取完全注册时间以及平均一次心跳的处理时间
6. 长时间监控scheduler的进程状态
走给周培晨
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
感谢您的提问,您可以评论//mindspore-assistant更快获取帮助:
test_excute_parallel_node_rank_one_2x8_with_msrun 异常场景,部分worker未退出
登录 后才可以发表评论